Falcon Perception de TII : le Transformer 600M qui fusionne vision et langage dès la couche zéro
Les patches d’images et les tokens textuels s’entrechoquent dès la première couche — fini les modèles visuels en blocs Lego. Falcon Perception de TII prouve qu’une seule pile peut surpasser les géants modulaires.
⚡ Key Takeaways
- Le Transformer à fusion précoce de Falcon Perception unifie le traitement vision-langage dès la couche zéro, en abandonnant les goulets d’étranglement modulaires.
- Surpasse SAM 3 de manière spectaculaire sur la complexité sémantique (ex. +21,9 points spatiaux) via le benchmark PBench.
- Des optimisations comme Muon, FlexAttention et un entraînement sur 685 GT permettent un scaling efficace vers une perception dense et réelle.
Worth sharing?
Get the best AI stories of the week in your inbox — no noise, no spam.
Originally reported by MarkTechPost