🤖 Large Language Models

Atenção Latente do DeepSeek V3 Detona o Inchaço do Cache KV

DeepSeek V3 acabou de resolver a crise de memória dos LLM. Sua Atenção Latente Multi-Cabeça encolhe o cache KV sem ferrar o desempenho — olha os dados aqui.

Diagrama comparando MLA do DeepSeek V3 e GQA em arquiteturas de LLM

⚡ Key Takeaways

  • MLA do DeepSeek V3 corta 40% no cache KV vs. GQA, mudando a economia da inferência. 𝕏
  • Sparsidade MoE é padrão agora, mas treino do router ainda é o elo fraco. 𝕏
  • Núcleo transformer resiste; ajustes incrementais como compressão conquistam mercado, não revoluções. 𝕏
Published by

theAIcatchup

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Ahead of AI

Stay in the loop

The week's most important stories from theAIcatchup, delivered once a week.