令 Tcompute(BS)=Tmemory(BS):
tc⋅BS=BWCkv⋅BS+BWW
移项,将 BS 提出:
BS⋅(tc−BWCkv)=BWW
解出交叉点:
BS∗=tc−Ckv/BWW/BW
前提条件:tc>BWCkv(计算斜率 > 搬运斜率),否则两线发散,无交叉点。
代入 MQA + A6000 参数(Ckv=64MB,BW=768GB/s,W=13.5GB,tc=0.09ms):
a=76864×10−3=0.083 ms
tc−a=0.09−0.083=0.007 ms
b=BWW=76813.5×1000=17.58 ms
BS∗=0.00717.58≈2511
即 BS≈2511 时两线交叉。但 seq=4096 时 MQA 单请求 KV Cache 为 64MB,2511×64MB≈157GB,远超 A6000 的 48GB 显存,所以这个交叉点在当前硬件上不可达。这也说明了为什么 MQA/GQA 路线在实际场景中很难真正翻转到 Compute Bound。