L'attention latente de DeepSeek V3 pulvérise l'encombrement des caches KV
DeepSeek V3 règle la crise mémoire des LLM. Son attention latente multi-tête réduit les caches KV sans toucher aux performances — les données à l'appui.
⚡ Key Takeaways
- Le MLA de DeepSeek V3 économise 40 % sur les caches KV par rapport au GQA, bouleversant l'économie de l'inférence. 𝕏
- La sparsité MoE est la norme, mais l'entraînement du routeur reste le maillon faible. 𝕏
- Le cœur transformer persiste ; ce sont les ajustements incrémentaux comme la compression qui conquièrent les marchés, pas les révolutions. 𝕏
Worth sharing?
Get the best AI stories of the week in your inbox — no noise, no spam.
Originally reported by Ahead of AI