Add a new config for row-wise quant fp8 gemm perf bench with fp8_fast…

…_accum=false (pytorch#2686) Summary: Pull Request resolved: pytorch#2686 Adding a new config learned from cuBLAS. Reviewed By: jianyuh Differential Revision: D57746696 fbshipit-source-id: 1d34766a4aaa874d42338be2867d67be45a5152e
fbgheith · Jun 6, 2024 · 900b05b · 900b05b
1 parent 85ed64c
commit 900b05b
Showing 1 changed file with 8 additions and 1 deletion.
diff --git a/fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py b/fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py
@@ -332,7 +332,14 @@ def _kernel_matmul_fp8_row(
 
 
 @triton.autotune(
-    configs=MATMUL_CONFIGS,
+    configs=MATMUL_CONFIGS
+    + [
+        Config(
+            {"BLOCK_M": 128, "BLOCK_N": 128, "BLOCK_K": 128, "SPLIT_K": 1},
+            num_stages=3,
+            num_warps=8,
+        ),
+    ],
     key=[
         "m_key",
         "n_key",