🤖 Large Language Models

DeepSeek V3のMLA、KVキャッシュ肥大をぶっ潰す

DeepSeek V3がLLMのメモリ危機を圧縮した。Multi-Head Latent AttentionがKVキャッシュを性能犠牲なしに縮小——データはこれだ。

DeepSeek V3のMLAとGQAを比較したLLMアーキテクチャの図

⚡ Key Takeaways

  • DeepSeek V3のMLAはGQA比40%のKVキャッシュ削減で推論経済を激変させる。 𝕏
  • MoEスパースは常識化したが、ルータ訓練が弱点のまま。 𝕏
  • トランスフォーマーコアは健在。圧縮のような漸進改善が市場を取るのであり、大改革じゃない。 𝕏
Published by

theAIcatchup

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Ahead of AI

Stay in the loop

The week's most important stories from theAIcatchup, delivered once a week.