ADeLe угадывает производительность ИИ с точностью 88% — наконец-то бенчмарки, которые всё объясняют
Представьте: заранее знать, почему ваш ИИ споткнётся на задаче. ADeLe именно это и делает — с точностью 88% даже на монстрах вроде GPT-4o.
⚡ Key Takeaways
- ADeLe предсказывает поведение ИИ на неизвестных задачах с точностью 88% по шкале 18 базовых способностей. 𝕏
- Раскрывает изъяны текущих бенчмарков — скрытые зависимости от навыков и узкие диапазоны сложности. 𝕏
- Профили моделей показывают сильные и слабые стороны, открывая путь к умному выбору и развёртыванию ИИ. 𝕏
Worth sharing?
Get the best AI stories of the week in your inbox — no noise, no spam.
Originally reported by Microsoft Research AI