CUDA: fix half2 -> half conversion for HIP (llama/15529)

2025-08-23 21:37:06 +02:00 · 2025-08-23 21:37:06 +02:00 · b0d15e1eb6
parent 2f6288c33c
commit b0d15e1eb6
1 changed files with 1 additions and 1 deletions
--- a/ggml/src/ggml-cuda/fattn-tile-f16.cu
+++ b/ggml/src/ggml-cuda/fattn-tile-f16.cu
@ -258,7 +258,7 @@ static __global__ void flash_attn_tile_ext_f16(
            const half val = hexp(sink - kqmax[j0/nwarps]);
            kqsum[j0/nwarps] = kqsum[j0/nwarps] * KQ_max_scale;
            if (threadIdx.x == 0) {
-                kqsum[j0/nwarps].x = __hadd(kqsum[j0/nwarps].x, val);
+                kqsum[j0/nwarps].x = __hadd(__low2half(kqsum[j0/nwarps]), val);
            }

 #pragma unroll