Falcon Perception de TII: El Transformer de 600M que fusiona visión y lenguaje desde la capa cero
Los parches de imagen y los tokens de texto chocan en la primera capa: se acabaron los modelos de visión tipo bloques de Lego. Falcon Perception de TII demuestra que una sola pila puede superar a los gigantes modulares.
⚡ Key Takeaways
- El Transformer de fusión temprana de Falcon Perception unifica el procesamiento de visión-lenguaje desde la capa cero, eliminando cuellos de botella modulares.
- Supera drásticamente a SAM 3 en complejidad semántica (p. ej., +21.9 puntos espaciales) vía benchmark PBench.
- Optimizaciones como Muon, FlexAttention y 685GT de entrenamiento permiten escalado eficiente a percepción densa y del mundo real.
Worth sharing?
Get the best AI stories of the week in your inbox — no noise, no spam.
Originally reported by MarkTechPost