Nvidia Nemotron、Poolside LLM、vLLMアップデートが登場

静かな1週間。それが今回のヘッドラインだ。

AINewsをSubstackに移行すると決めた時、目指したのはマット・レビン風のデイリー深掘り記事だった。しかし、日によってはネタが枯渇する。今日は画期的で世界を揺るがすような大発見があった日ではない。推論需要やマルチエージェントシステムに関するエッセイを練っているが、まだ記事の核となる部分は煮詰まっていない。とはいえ、何も起こらなかったわけではない。NvidiaのNemotron、Poolside、そしてAlec Radfordはそれぞれモデルをリリースしたが、その将来性は水晶玉でも見通せない。そしてもちろん、GPT-6の囁きも徐々に大きくなっている。

AIニュース、2026年4月27日〜28日。我々は数ダースのReddit、544件のTwitter、そして数えきれないほどのDiscordを漁った。良いニュース？我々のウェブサイトは、すべての発信をアーカイブしている。そしてそう、AINewsは正式にLatent Spaceの一部となった。これで君のメールの運命もコントロールできる。

推論エンジンの激戦区

vLLMの最新版v0.20.0は、単なるアップデートではない。無駄なサイクルとメモリとの戦いを宣言するものだ。主要な機能はTurboQuant 2-bit KVキャッシュで、KV容量を4倍にする可能性を秘めている。また、SM90+ハードウェアでのMLAプリフィル向けにFA4を再有効化した。これは単に速度の問題ではない。より少ないリソースでより多くを詰め込むこと、LLMのスケーリングにおける重要な戦場だ。さらに新しいvLLM IR基盤と fused RMSNormによる2.1%のレイテンシ短縮が加わり、最適化の飽くなき進歩が見て取れる。Blackwell上のDeepSeek V4 MegaMoEや、より簡単なGB200/Grace-Blackwellセットアップへの対応は、ハードウェア市場を支配しようとする彼らの意図を示している。

一方、SemiAnalysisは、ディスアグリゲートされたB200/B300/H200/GB200セットアップでのDeepSeek V4 Proサービングに関する衝撃的な情報をリークしている。彼らの主張は？特定のワークロードでは、B300はH200よりも8倍高速になる可能性があるという。それに伴うDeepGEMM MegaMoEは、複数の演算を単一のメガカーネルに統合するもので、優れたものを際立たせるアーキテクチャの妙技だ。

Maharshiは動的アクティベーション量子化のオーバーヘッドについて指摘し、静的量子化はキャリブレーションコストがかかるものの、推論速度ではしばしば優位に立つと主張した。

動的な柔軟性と静的な効率性の間のこの緊張関係は、繰り返し現れるテーマだ。Jeremy HowardがDeepSeek V4のプリフィルサポートについて述べたことは——多くのプロバイダーが後回しにしてきた機能だ——本番環境でのデプロイにおける微妙なトレードオフを浮き彫りにする。そして、CUDA一強からの脱却の動きも高まっている。teortaxesTexは、DeepSeekのTileKernelsへの構造的シフトが、モデルベンダーがNVIDIAの閉鎖的な庭だけでなく、ますます多様化する、あるいは国内のアクセラレーターフリートにも対応するようになる可能性を示唆している。これが定着すれば、地殻変動のような変化だ。

新モデル：期待と実用性の入り混じったバッグ

Poolsideからの参入、Laguna XS.2は興味深い。33B合計 / 3BアクティブなMoEコーディングモデルで、Apache 2.0ライセンスでリリースされ、シングルGPUで動作すると謳われている。これはデプロイしやすい——MoE分野では珍しいことだ。データ、トレーニングインフラ、RL、推論スタックを網羅する、スクラッチからのトレーニングへの彼らの重点は、深く統合されたアプローチを示唆している。コミュニティからの情報では、詳細が補足されている：ハイブリッドアテンションとFP8 KVキャッシュを備えた2つのコーダーモデル（225B/23Bアクティブと33B/3Bアクティブ）で、Qwen-3.5に近いパフォーマンスを主張している。Ollamaの迅速な採用がそれを物語っている。

一方、NVIDIAのNemotron 3 Nano Omniは、今週のインフラネイティブなヘビー級だ。エージェントタスクのために構築された、オープンな30B / A3BマルチモーダルMoEで、巨大な256Kコンテキストウィンドウを持つ。テキスト、画像、ビデオ、オーディオを処理できる。OpenRouter, LM Studio, Ollamaなど、想像できるほぼすべてのプラットフォームで瞬時に配布された。Piotr Żelaskoは英語のみであることを指摘したが、Parakeetエンコーダーを搭載し、Open ASRリーダーボードで5.95%のWERを記録したことを強調した。複数のホストが、同等のオープンオムニモデルと比較して約9倍のスループットの利点があると報告している。これは、NVIDIAがマルチモーダルエージェントの未来にしっかりと旗を立てたことを意味する。

これら以外にも、MicrosoftのTRELLIS.2は、1536³ PBRテクスチャアセットを生成できるオープンソースの4B画像-3Dモデルを提供している。ワールドモデルの研究も興味深い。World-R1は、既存のビデオモデルがすでに潜在的な3D構造を持っており、アーキテクチャの変更や追加のトレーニングデータを必要とせずにRLで活性化できると主張している。

エージェントの成熟：デモから本番へ

AIエージェントを取り巻く物語は、明らかに派手なデモから、本番環境の細かい部分へとシフトしている。MistralのWorkflowsは、現在パブリックプレビューで、エンタープライズAIプロセスを耐久性があり、観察可能で、耐障害性のあるものにするためのオーケストレーションレイヤーを目指している。Sydney Runkleが提唱する長期間稼働するエージェントの耐久性のある実行、そしてthreepointone が行う永続性と再開機能を備えたサブエージェントに関する作業は、すべてこの産業化への動きを示している。

ローカルおよびオフラインのエージェントは、もはや遠い目標ではない。Tekniumの「完全にオフラインのエージェントは可能だ」という主張は、予測というよりは事実の表明のように聞こえる。Niels RoggeがデモしたPiとローカルモデルを使ったデスクトップクリーニング、そしてGoogle Gemmaのローカルコーディングエージェントのチュートリアルは、実践的な実装例を示している。Hugging Faceがローカル機能へのプッシュを続けることは、このトレンドをさらに強化するだけだ。

これはAIにとってスローな週か？

客観的に見れば、そうだ。昨年、見出しを独占した、パラダイムシフトを起こすような大規模なモデルリリースは、一息ついているように見える。しかし、それは必ずしも悪いことではない。この統合と最適化の期間は不可欠だ。推論効率、コーディングやマルチモーダルタスクの実用的なデプロイ、そしてエージェントオーケストレーションの成熟への焦点は、単により大きく、より高価な次のモデルというだけでなく、より深い統合と使いやすさへの移行を示唆している。真のイノベーションは、モデルの重みそのものではなく、それらをどのように提供し、管理し、利用するかにかかっているのかもしれない。この静かな期間は、次の爆発的な波の基盤となる可能性がある。

開発者にとってなぜ重要なのか？

ここで詳述された進歩——vLLMの効率向上、CUDAからのポータビリティの向上、そしてローカル/オフラインエージェント機能への注力——は、開発者にとって直接的な恩恵だ。vLLMは、より速く、より安価な推論を意味する。CUDAからの脱却は、より幅広いハードウェアへのアクセスを意味し、コストを削減し、アクセシビリティを高める可能性がある。そして、ローカルエージェントのためのツールとチュートリアルは、強力なAI機能を民主化し、常にクラウドに依存することなく、より強力でプライベートなアプリケーションを可能にする。それは、AIをより管理しやすく、よりアクセスしやすく、そして最終的には、日々の開発ワークフローでより役立つものにすることだ。

🧬 関連インサイト

続きを読む: ASL-to-Voice: 手話をリアルタイムで翻訳できるかもしれないウェブカメラの魔術師
続きを読む: イランのハッカー、FBI長官の古いGmailを奪取 — FBIシステムは健在

よくある質問 vLLM v0.20.0とは何ですか？ vLLM v0.20.0は、vLLM推論エンジンの重要なアップデートで、メモリ効率とMoEサービングに重点を置いています。主な機能には、容量を増やすためのTurboQuant 2-bit KVキャッシュや、NVIDIA BlackwellやGrace-Blackwellなどのさまざまなハードウェア構成に対する強化されたサポートが含まれます。

NvidiaのNemotron 3 Nano Omniとは何ですか？ Nemotron 3 Nano Omniは、NVIDIAによるオープンソースのマルチモーダルMoEモデルで、エージェントワークロード向けに設計されています。テキスト、画像、ビデオ、オーディオ処理をサポートし、大規模なコンテキストウィンドウを備え、同様のオープンモデルと比較して強力なパフォーマンス向上を示しています。

これらの新しいモデルはAIをより安価にしますか？ vLLMの最適化とPoolsideのシングルGPUデプロイへの注力は、よりコスト効率の高い推論へのトレンドを示唆しています。生のモデルトレーニングコストは依然として高いですが、サービング効率とアクセシビリティの向上は、AIを使用するコストを下げることを目指しています。

Nvidia Nemotron、Poolside LLM、vLLMアップデートが登場

Key Takeaways

これはAIにとってスローな週か？

開発者にとってなぜ重要なのか？

🧬 関連インサイト

Worth sharing?

⚡ Key Takeaways

これはAIにとってスローな週か？

開発者にとってなぜ重要なのか？

🧬 関連インサイト

Share this article

Worth sharing?

Related Stories

AI大戦の新たな戦場：ファーウェイAscendチップがDeepSeek V4を搭載、NVIDIAの覇権に揺さぶり

AIエージェント、暴走中？ IT担当者の77%が「制御不能」と回答

中国が20億ドルAI買収を阻止：Manusの実力とは

DeepSeek V4登場：オープンソースAIが真剣な進化を遂げた

Key Takeaways