¿Atención como distribución de Gibbs: truco matemático elegante o revelación Transformer?
Los físicos irrumpen en IA de nuevo, jurando que los mecanismos de atención son en secreto distribuciones de Gibbs. Prueba lanzada —pero ¿es profunda o pura poesía probabilística?
⚡ Key Takeaways
- Los pesos de atención son matemáticamente idénticos a una distribución de Gibbs con energías de similitudes query-key. 𝕏
- Es un redescubrimiento que remite a modelos basados en energía de los 80 como las máquinas de Boltzmann: nada revolucionario. 𝕏
- Hype sobre sustancia: teoría elegante, impacto práctico cero en despliegues actuales de Transformers. 𝕏
Worth sharing?
Get the best AI stories of the week in your inbox — no noise, no spam.
Originally reported by Towards AI