Falcon Perception do TII: o Transformer de 600M que funde visão e linguagem desde a camada zero
Patches de imagem e tokens de texto se fundem na primeira camada — chega de modelos de visão em blocos de Lego. O Falcon Perception do TII prova que uma única pilha pode superar gigantes modulares.
⚡ Key Takeaways
- O Transformer de fusão precoce do Falcon Perception unifica processamento visão-linguagem desde a camada zero, largando gargalos modulares.
- Supera SAM 3 de lavada em complexidade semântica (ex.: +21.9 pontos espaciais) via benchmark PBench.
- Otimizações como Muon, FlexAttention e 685GT de treinamento permitem escalonamento eficiente para percepção densa e do mundo real.
Worth sharing?
Get the best AI stories of the week in your inbox — no noise, no spam.
Originally reported by MarkTechPost