🤖 Large Language Models

MLA в DeepSeek V3 раздавливает KV-вздутие

DeepSeek V3 решил кризис памяти в LLM. Multi-Head Latent Attention сжимает KV-кэши без потерь в производительности — вот данные.

Диаграмма сравнения MLA DeepSeek V3 и GQA в архитектурах LLM

⚡ Key Takeaways

  • MLA DeepSeek V3 экономит 40% на KV-кэше против GQA и меняет экономику инференса. 𝕏
  • Разреженность MoE — новый стандарт, но тренировка роутера остаётся слабым звеном. 𝕏
  • Ядро трансформера живо; рынок берут инкрементальные трюки вроде сжатия, а не перестройки. 𝕏
Published by

theAIcatchup

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Ahead of AI

Stay in the loop

The week's most important stories from theAIcatchup, delivered once a week.