Minor benchmark updates

elvircrn · elvircrn · commit b9f6303817b5 · 2025-09-03T16:48:21.000Z
Signed-off-by: elvircrn &lt;elvircrn@gmail.com&gt;
diff --git a/benchmarks/kernels/benchmark_silu_mul_fp8_quant.py b/benchmarks/kernels/benchmark_silu_mul_fp8_quant.py
@@ -216,13 +216,14 @@ def benchmark(k, E, T, H, num_parallel_tokens, G=128, runs=100):
 
 def benchmark_full():
     configs = [
-        (256, 16, 7168),
-        (256, 32, 7168),
-        (256, 64, 7168),
-        (256, 128, 7168),
-        (256, 256, 7168),
-        (256, 512, 7168),
-        (256, 1024, 7168),
+        (32, 8, 7168),
+        (32, 16, 7168),
+        (32, 32, 7168),
+        (32, 64, 7168),
+        (32, 128, 7168),
+        (32, 256, 7168),
+        (32, 512, 7168),
+        (32, 1024, 7168),
     ]
 
     print(f"GPU: {torch.cuda.get_device_name()} CUDA Kernel")
diff --git a/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py b/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
@@ -172,6 +172,36 @@ def gold(
 
 # (E, T, H)
 CASES = [
+    (8, 16, 128 * 1),
+    (8, 16, 128 * 2),
+    (8, 16, 128 * 3),
+    (8, 16, 128 * 4),
+    (8, 16, 7168),
+    (8, 16, 7168),
+    (8, 32, 7168),
+    (8, 64, 7168),
+    (8, 128, 7168),
+    (8, 256, 7168),
+    (8, 512, 7168),
+    (8, 1024, 7168),
+    (8, 32, 1024),
+    (16, 64, 2048),
+    (32, 128, 4096),
+    (9, 16, 128 * 1),
+    (9, 16, 128 * 2),
+    (9, 16, 128 * 3),
+    (9, 16, 128 * 4),
+    (9, 16, 7168),
+    (9, 16, 7168),
+    (9, 32, 7168),
+    (9, 64, 7168),
+    (9, 128, 7168),
+    (9, 256, 7168),
+    (9, 512, 7168),
+    (9, 1024, 7168),
+    (9, 32, 1024),
+    (9, 64, 2048),
+    (9, 128, 4096),
     (256, 1024, 7168),
 ]