ADeLe azzecca le previsioni sulle performance IA all'88% – Finalmente benchmark che spiegano tutto
Immagina di sapere esattamente perché il tuo modello IA inciampa su un task – prima che succeda. ADeLe lo fa davvero, centrando l'88% di accuratezza su bestie come GPT-4o.
⚡ Key Takeaways
- ADeLe prevede le performance IA su task invisibili con l'88% di accuratezza grazie a 18 punteggi di abilità base. 𝕏
- Smaschera i difetti dei benchmark attuali, come dipendenze skill nascoste e range di difficoltà limitati. 𝕏
- I profili dei modelli mostrano forze e debolezze, aprendo la via a selezioni e deployment IA più furbi. 𝕏
Worth sharing?
Get the best AI stories of the week in your inbox — no noise, no spam.
Originally reported by Microsoft Research AI