[Bug]: MLA实现没有带来任何收益 #274

foamliu · 2025-01-01T05:33:36Z

MLA（multi head latent attention）的实现本来是为着提升推理速度，但由于存入缓存的数据比基线（Llama）更大，因此不但未带来任何收益，而且与基线（Llama）相比，占用显存更多，推理更慢。

推理测速

提升推理速度

下面是 DeepSeekV3 HF官网的MLA实现，可见存入KVCache的数据量，比基线（Llama）还大

- OS: [e.g. Ubuntu 20.04] 22.04
- Pytorch: [e.g. torch 2.0.0] 2.4.0
- CUDA: [e.g. CUDA 11.8] 12.1
- Device: [e.g. A10, RTX3090] A800

foamliu added bug Something isn't working triage labels Jan 1, 2025

Provide feedback