CUDA: fix FA kernel selection logic (llama/21271)

2026-04-01 21:28:19 +02:00 · 2026-04-01 21:28:19 +02:00 · 82bb26fba1
parent 9a40dd9365
commit 82bb26fba1
1 changed files with 7 additions and 0 deletions
--- a/ggml/src/ggml-cuda/fattn.cu
+++ b/ggml/src/ggml-cuda/fattn.cu
@ -340,7 +340,14 @@ static best_fattn_kernel ggml_cuda_get_best_fattn_kernel(const int device, const
        case 128:
        case 112:
        case 256:
+            if (V->ne[0] != K->ne[0]) {
+                return BEST_FATTN_KERNEL_NONE;
+            }
+            break;
        case 512:
+            if (V->ne[0] != K->ne[0]) {
+                return BEST_FATTN_KERNEL_NONE;
+            }
            if (!gqa_opt_applies) {
                return BEST_FATTN_KERNEL_NONE;
            }