🤖 Large Language Models

DeepSeek V3 pulveriza la hinchazón del caché KV con su atención latente

DeepSeek V3 acaba con la crisis de memoria en los LLM. Su Multi-Head Latent Attention reduce los cachés KV sin sacrificar rendimiento: aquí van los números.

Diagrama comparando MLA de DeepSeek V3 y GQA en arquitecturas de LLM

⚡ Key Takeaways

  • La MLA de DeepSeek V3 ahorra 40% en caché KV frente a GQA, revolucionando la economía de la inferencia. 𝕏
  • La dispersión MoE es ya estándar, pero el entrenamiento del router sigue siendo el talón de Aquiles. 𝕏
  • El núcleo transformer perdura; los retoques incrementales como la compresión conquistan mercados, no las revoluciones. 𝕏
Published by

theAIcatchup

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Ahead of AI

Stay in the loop

The week's most important stories from theAIcatchup, delivered once a week.