L'attention en distribution de Gibbs : astuce mathématique élégante ou révélation pour les transformers ?
Les physiciens débarquent à nouveau en IA, clamant que les mécanismes d'attention sont en réalité des distributions de Gibbs. La preuve est lâchée — profonde ou simple poésie probabiliste ?
⚡ Key Takeaways
- Les poids d'attention sont mathématiquement identiques à une distribution de Gibbs, avec énergies tirées des similarités query-key. 𝕏
- Redécouverte des modèles à base d'énergie des années 80, comme les machines de Boltzmann — rien de révolutionnaire. 𝕏
- Plus de hype que de fond : théorie élégante, zéro impact pratique sur les déploiements actuels de transformers. 𝕏
Worth sharing?
Get the best AI stories of the week in your inbox — no noise, no spam.
Originally reported by Towards AI