🤖 Large Language Models

DeepSeek V3'ün Gizli Dikkat Mekanizması KV Önbellek Şişkinliğini Ezdi

DeepSeek V3 LLM bellek krizini azalttı. Çok Başlı Gizli Dikkat (MLA) mekanizması KV önbelleklerini küçültürken performansı bozmuyor — işte veriler.

DeepSeek V3 MLA ve GQA'yı LLM mimarilerinde kıyaslayan diyagram

⚡ Key Takeaways

  • DeepSeek V3'ün MLA'sı GQA'ya göre KV önbelleğinde %40 tasarruf sağlıyor, çıkarım ekonomisini değiştiriyor. 𝕏
  • MoE seyrekliği standartlaştı ama yönlendirici eğitimi hâlâ zayıf halka. 𝕏
  • Transformer çekirdeği sabit; sıkıştırma gibi artımlı dokunuşlar piyasayı fethediyor, devrimler değil. 𝕏
Published by

theAIcatchup

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Ahead of AI

Stay in the loop

The week's most important stories from theAIcatchup, delivered once a week.