Тихая неделя. Именно так можно охарактеризовать последние несколько дней.
Когда мы затевали переход AINews на Substack, амбиции были грандиозными: ежедневные глубокие аналитические материалы в духе Мэтта Левина. Однако, случаются дни, когда колодец идей пересыхает. Сегодняшний день не из таких, если говорить о прорывных, меняющих мир откровениях. Мы тут склоняемся над эссе об инференс-спросе и мультиагентных системах, но основные блюда ещё не готовы. Тем не менее, это не значит, что ничего не произошло. Nvidia Nemotron, Poolside и Алек Рэдкорд представили свои модели, но хрустальный шар туманно предсказывает их долговечность. И, конечно, слухи о GPT-6 начинают набирать обороты.
AI News, 27-28 апреля 2026 года. Мы просеяли дюжину сабреддитов, 544 Твиттера и чуть больше Дискорд-серверов, чем хотелось бы признавать. Хорошая новость? Наш сайт архивирует каждое сообщение. И да, AINews теперь официально входит в секцию Latent Space. Вы можете сами управлять своей почтовой рассылкой.
Горнило движков инференса
Последняя версия vLLM, v0.20.0, — это не просто обновление; это объявление войны растрачиваемым циклам и памяти. Ключевые нововведения: 2-битный KV-кэш TurboQuant, обещающий 4-кратное увеличение ёмкости KV-кэша, и повторное включение FA4 для MLA префилла на оборудовании SM90+. Это не только про скорость, но и про возможность упаковать больше в меньшее — критически важное поле боя для масштабирования LLM. Добавьте сюда новую основу vLLM IR и слитый RMSNorm для 2.1% выигрыша в задержке, и вы увидите неумолимый марш оптимизации. Поддержка DeepSeek V4 MegaMoE на Blackwell и упрощённые настройки GB200/Grace-Blackwell сигнализируют о намерении доминировать на аппаратном ландшафте.
Тем временем, SemiAnalysis публикует бомбы о работе DeepSeek V4 Pro на дезагрегированных конфигурациях B200/B300/H200/GB200. Их заявление? B300 может быть в 8 раз быстрее H200 для специфических рабочих нагрузок. Сопутствующий DeepGEMM MegaMoE, который сливает несколько операций в один мега-ядро, — это именно та архитектурная магия, что отделяет хорошее от великого.
Махарши указал на издержки динамической квантизации активаций, утверждая, что статическая квантизация часто выигрывает по скорости инференса, несмотря на стоимость калибровки.
Это напряжение между динамической гибкостью и статической эффективностью — повторяющаяся тема. Заметка Джереми Ховарда о поддержке префилла DeepSeek V4 — функция, которую многие провайдеры отодвинули на второй план — подчёркивает тонкие компромиссы в продакшн-развёртываниях. А затем идёт растущее движение от CUDA-монокультуры. teortaxesTex утверждает, что структурный сдвиг DeepSeek в сторону TileKernels может означать, что поставщики моделей будут всё чаще ориентироваться на гетерогенные, возможно, даже отечественные, парки ускорителей, а не только на огороженный сад NVIDIA. Это сейсмический сдвиг, если он укоренится.
Новые модели: смешанная корзина обещаний и практичности
Модель от Poolside, Laguna XS.2, весьма интересна. Это 33B всего / 3B активных MoE-модель для кодинга, выпущенная под лицензией Apache 2.0 и заявленная как способная работать на одном GPU. Это дружелюбно к развёртыванию — редкость в пространстве MoE. Их акцент на обучении с нуля, охватывающем данные, тренировочную инфраструктуру, RL и стек инференса, предполагает глубокий, интегрированный подход. Заметки сообщества добавляют детали: две кодерские модели (225B/23B активных и 33B/3B активных) с гибридным вниманием и FP8 KV-кэшем, заявляющие производительность, близкую к Qwen-3.5. Быстрое внедрение Ollama говорит само за себя.
Nvidia Nemotron 3 Nano Omni, однако, — это тяжеловес, нативный для инфраструктуры, текущей недели. Открытая 30B / A3B мультимодальная MoE с массивным 256K контекстным окном, созданная для агентских задач по обработке текста, изображений, видео и аудио. Её распространение было практически мгновенным по всем мыслимым платформам: OpenRouter, LM Studio, Ollama и так далее. Пётр Желазко отметил её английскую направленность, но подчеркнул её 5.95% WER в лидерборде Open ASR, работающей на Parakeet-энкодере. Множество хостов сообщили о ~9-кратном увеличении пропускной способности по сравнению с сопоставимыми открытыми омни-моделями. Это NVIDIA, твёрдо ставящая свой флаг на будущее мультимодальных агентов.
Помимо этого, TRELLIS.2 от Microsoft предлагает открытую 4B модель преобразования изображений в 3D, способную генерировать текстурированные ассеты 1536³ с PBR. Исследования в области world-model также интригуют: World-R1 утверждает, что существующие видеомодели уже обладают скрытой 3D-структурой, которую можно активировать с помощью RL, не требуя архитектурных изменений или дополнительных обучающих данных.
Агенты взрослеют: от демо до продакшена
Повествование вокруг AI-агентов явно смещается от эффектных демо к деталям продакшена. Mistral Workflows, ныне в публичном превью, призван стать уровнем оркестрации для обеспечения долговечности, наблюдаемости и отказоустойчивости корпоративных ИИ-процессов. Формулировка Сидни Ранкл о долговечном исполнении для долгоживущих агентов и работа threepointone над субагентами с персистентностью и возобновлением — всё это указывает на индустриализацию.
Локальные и офлайн-агенты больше не являются далёкой мечтой. Утверждение Teknium о том, что “полностью офлайн-агенты возможны”, звучит скорее как констатация факта, чем прогноз. Демо Нэльса Рогге с Pi + локальными моделями для очистки рабочего стола и туториал Google Gemma для локальных кодерских агентов иллюстрируют практическую реализацию. Продолжающиеся усилия Hugging Face в области локальных возможностей только усиливают эту тенденцию.
Это медленная неделя для ИИ?
Объективно, да. Большие, парадигмально меняющие релизы моделей, которые доминировали в заголовках в прошлом году, похоже, берут передышку. Но это не обязательно плохо. Этот период консолидации и оптимизации жизненно важен. Фокус на эффективности инференса, практическом развёртывании для кодинга и мультимодальных задач, а также на созревании оркестрации агентов предполагает движение к более глубокой интеграции и удобству использования, а не просто к следующей, более крупной и дорогой модели. Реальные инновации, возможно, происходят не в самих весах моделей, а в том, как мы их обслуживаем, управляем и используем. Этот тихий период может стать фундаментом для следующей взрывной волны.
Почему это важно для разработчиков?
Представленные здесь достижения — прирост эффективности vLLM, растущая портативность за пределы CUDA, а также фокус на локальных/офлайн-возможностях агентов — напрямую выгодны разработчикам. vLLM означает более быстрый и дешёвый инференс. Отход от CUDA означает доступ к более широкому спектру оборудования, потенциально снижая затраты и повышая доступность. А инструменты и туториалы для локальных агентов демократизируют мощные ИИ-возможности, позволяя создавать более надёжные, приватные приложения без постоянной зависимости от облака. Речь идёт о том, чтобы сделать ИИ более управляемым, доступным и, в конечном итоге, более полезным в повседневных разработческих процессах.
🧬 Связанные инсайты
- Читайте также: ASL-to-Voice: Волшебник веб-камеры, который может реально переводить жесты в реальном времени
- Читайте также: Иранские хакеры заполучили старый Gmail директора ФБР — Системы ФБР держатся
Часто задаваемые вопросы Что такое vLLM v0.20.0? vLLM v0.20.0 — это значительное обновление движка инференса vLLM, ориентированное на эффективность памяти и обслуживание MoE. Ключевые функции включают 2-битный KV-кэш TurboQuant для увеличения ёмкости и улучшенную поддержку различных конфигураций оборудования, таких как NVIDIA Blackwell и Grace-Blackwell.
Что такое Nvidia Nemotron 3 Nano Omni? Nemotron 3 Nano Omni — это открытая, мультимодальная MoE-модель от NVIDIA, разработанная для агентских задач. Она поддерживает обработку текста, изображений, видео и аудио с большим контекстным окном и демонстрирует значительный прирост производительности по сравнению с аналогичными открытыми моделями.
Сделают ли эти новые модели ИИ дешевле? Оптимизации vLLM и фокус Poolside на развёртывании на одном GPU указывают на тенденции к более экономичному инференсу. Хотя затраты на обучение самих моделей остаются высокими, улучшения в эффективности обслуживания и доступности направлены на снижение стоимости использования ИИ.