AI Hardware

Nvidia Nemotron、Poolside LLM、vLLMアップデートが登場

AI界隈は静かな1週間となった。NvidiaのNemotron 3 Nano OmniとPoolsideのLaguna XS.2がリリースされ、注目を集めた。一方、推論エンジンvLLMは、その飽くなき最適化の行進を続けている。

{# Always render the hero — falls back to the theme OG image when article.image_url is empty (e.g. after the audit's repair_hero_images cleared a blocked Unsplash hot-link). Without this fallback, evergreens with cleared image_url render no hero at all → the JSON-LD ImageObject loses its visual counterpart and LCP attrs go missing. #}
AIモデルとハードウェアを表す相互接続されたノードを示す模式図。データフローと最適化パスを示す矢印が付いている。

Key Takeaways

  • vLLM v0.20.0はTurboQuant KVキャッシュとハードウェア最適化により、推論効率を大幅に向上させる。
  • NvidiaのNemotron 3 Nano Omniは、エージェントタスク向けの強力なオープンソースマルチモーダルMoEモデルで、広く配布されている。
  • PoolsideのLaguna XS.2は、Apache 2.0ライセンスのもと、シングルGPUでデプロイ可能な実用的なMoEコーディングモデルを提供する。
  • AIモデルにおいて、マルチベンダーハードウェアサポートへの顕著なトレンドと、CUDAロックインからの脱却が見られる。
  • AIエージェント開発は成熟期に入り、デモから堅牢な本番対応オーケストレーションへと移行している。

静かな1週間。それが今回のヘッドラインだ。

AINewsをSubstackに移行すると決めた時、目指したのはマット・レビン風のデイリー深掘り記事だった。しかし、日によってはネタが枯渇する。今日は画期的で世界を揺るがすような大発見があった日ではない。推論需要やマルチエージェントシステムに関するエッセイを練っているが、まだ記事の核となる部分は煮詰まっていない。とはいえ、何も起こらなかったわけではない。NvidiaのNemotron、Poolside、そしてAlec Radfordはそれぞれモデルをリリースしたが、その将来性は水晶玉でも見通せない。そしてもちろん、GPT-6の囁きも徐々に大きくなっている。

AIニュース、2026年4月27日〜28日。我々は数ダースのReddit、544件のTwitter、そして数えきれないほどのDiscordを漁った。良いニュース?我々のウェブサイトは、すべての発信をアーカイブしている。そしてそう、AINewsは正式にLatent Spaceの一部となった。これで君のメールの運命もコントロールできる。

推論エンジンの激戦区

vLLMの最新版v0.20.0は、単なるアップデートではない。無駄なサイクルとメモリとの戦いを宣言するものだ。主要な機能はTurboQuant 2-bit KVキャッシュで、KV容量を4倍にする可能性を秘めている。また、SM90+ハードウェアでのMLAプリフィル向けにFA4を再有効化した。これは単に速度の問題ではない。より少ないリソースでより多くを詰め込むこと、LLMのスケーリングにおける重要な戦場だ。さらに新しいvLLM IR基盤と fused RMSNormによる2.1%のレイテンシ短縮が加わり、最適化の飽くなき進歩が見て取れる。Blackwell上のDeepSeek V4 MegaMoEや、より簡単なGB200/Grace-Blackwellセットアップへの対応は、ハードウェア市場を支配しようとする彼らの意図を示している。

一方、SemiAnalysisは、ディスアグリゲートされたB200/B300/H200/GB200セットアップでのDeepSeek V4 Proサービングに関する衝撃的な情報をリークしている。彼らの主張は?特定のワークロードでは、B300はH200よりも8倍高速になる可能性があるという。それに伴うDeepGEMM MegaMoEは、複数の演算を単一のメガカーネルに統合するもので、優れたものを際立たせるアーキテクチャの妙技だ。

Maharshiは動的アクティベーション量子化のオーバーヘッドについて指摘し、静的量子化はキャリブレーションコストがかかるものの、推論速度ではしばしば優位に立つと主張した。

動的な柔軟性と静的な効率性の間のこの緊張関係は、繰り返し現れるテーマだ。Jeremy HowardがDeepSeek V4のプリフィルサポートについて述べたことは——多くのプロバイダーが後回しにしてきた機能だ——本番環境でのデプロイにおける微妙なトレードオフを浮き彫りにする。そして、CUDA一強からの脱却の動きも高まっている。teortaxesTexは、DeepSeekのTileKernelsへの構造的シフトが、モデルベンダーがNVIDIAの閉鎖的な庭だけでなく、ますます多様化する、あるいは国内のアクセラレーターフリートにも対応するようになる可能性を示唆している。これが定着すれば、地殻変動のような変化だ。

新モデル:期待と実用性の入り混じったバッグ

Poolsideからの参入、Laguna XS.2は興味深い。33B合計 / 3BアクティブなMoEコーディングモデルで、Apache 2.0ライセンスでリリースされ、シングルGPUで動作すると謳われている。これはデプロイしやすい——MoE分野では珍しいことだ。データ、トレーニングインフラ、RL、推論スタックを網羅する、スクラッチからのトレーニングへの彼らの重点は、深く統合されたアプローチを示唆している。コミュニティからの情報では、詳細が補足されている:ハイブリッドアテンションFP8 KVキャッシュを備えた2つのコーダーモデル(225B/23Bアクティブと33B/3Bアクティブ)で、Qwen-3.5に近いパフォーマンスを主張している。Ollamaの迅速な採用がそれを物語っている。

一方、NVIDIAのNemotron 3 Nano Omniは、今週のインフラネイティブなヘビー級だ。エージェントタスクのために構築された、オープンな30B / A3BマルチモーダルMoEで、巨大な256Kコンテキストウィンドウを持つ。テキスト、画像、ビデオ、オーディオを処理できる。OpenRouter, LM Studio, Ollamaなど、想像できるほぼすべてのプラットフォームで瞬時に配布された。Piotr Żelaskoは英語のみであることを指摘したが、Parakeetエンコーダーを搭載し、Open ASRリーダーボードで5.95%のWERを記録したことを強調した。複数のホストが、同等のオープンオムニモデルと比較して約9倍のスループットの利点があると報告している。これは、NVIDIAがマルチモーダルエージェントの未来にしっかりと旗を立てたことを意味する。

これら以外にも、MicrosoftのTRELLIS.2は、1536³ PBRテクスチャアセットを生成できるオープンソースの4B画像-3Dモデルを提供している。ワールドモデルの研究も興味深い。World-R1は、既存のビデオモデルがすでに潜在的な3D構造を持っており、アーキテクチャの変更や追加のトレーニングデータを必要とせずにRLで活性化できると主張している。

エージェントの成熟:デモから本番へ

AIエージェントを取り巻く物語は、明らかに派手なデモから、本番環境の細かい部分へとシフトしている。MistralのWorkflowsは、現在パブリックプレビューで、エンタープライズAIプロセスを耐久性があり、観察可能で、耐障害性のあるものにするためのオーケストレーションレイヤーを目指している。Sydney Runkleが提唱する長期間稼働するエージェントの耐久性のある実行、そしてthreepointone が行う永続性と再開機能を備えたサブエージェントに関する作業は、すべてこの産業化への動きを示している。

ローカルおよびオフラインのエージェントは、もはや遠い目標ではない。Tekniumの「完全にオフラインのエージェントは可能だ」という主張は、予測というよりは事実の表明のように聞こえる。Niels RoggeがデモしたPiとローカルモデルを使ったデスクトップクリーニング、そしてGoogle Gemmaのローカルコーディングエージェントのチュートリアルは、実践的な実装例を示している。Hugging Faceがローカル機能へのプッシュを続けることは、このトレンドをさらに強化するだけだ。

これはAIにとってスローな週か?

客観的に見れば、そうだ。昨年、見出しを独占した、パラダイムシフトを起こすような大規模なモデルリリースは、一息ついているように見える。しかし、それは必ずしも悪いことではない。この統合と最適化の期間は不可欠だ。推論効率、コーディングやマルチモーダルタスクの実用的なデプロイ、そしてエージェントオーケストレーションの成熟への焦点は、単により大きく、より高価な次のモデルというだけでなく、より深い統合と使いやすさへの移行を示唆している。真のイノベーションは、モデルの重みそのものではなく、それらをどのように提供し、管理し、利用するかにかかっているのかもしれない。この静かな期間は、次の爆発的な波の基盤となる可能性がある。

開発者にとってなぜ重要なのか?

ここで詳述された進歩——vLLMの効率向上、CUDAからのポータビリティの向上、そしてローカル/オフラインエージェント機能への注力——は、開発者にとって直接的な恩恵だ。vLLMは、より速く、より安価な推論を意味する。CUDAからの脱却は、より幅広いハードウェアへのアクセスを意味し、コストを削減し、アクセシビリティを高める可能性がある。そして、ローカルエージェントのためのツールとチュートリアルは、強力なAI機能を民主化し、常にクラウドに依存することなく、より強力でプライベートなアプリケーションを可能にする。それは、AIをより管理しやすく、よりアクセスしやすく、そして最終的には、日々の開発ワークフローでより役立つものにすることだ。


🧬 関連インサイト

よくある質問 vLLM v0.20.0とは何ですか? vLLM v0.20.0は、vLLM推論エンジンの重要なアップデートで、メモリ効率とMoEサービングに重点を置いています。主な機能には、容量を増やすためのTurboQuant 2-bit KVキャッシュや、NVIDIA BlackwellやGrace-Blackwellなどのさまざまなハードウェア構成に対する強化されたサポートが含まれます。

NvidiaのNemotron 3 Nano Omniとは何ですか? Nemotron 3 Nano Omniは、NVIDIAによるオープンソースのマルチモーダルMoEモデルで、エージェントワークロード向けに設計されています。テキスト、画像、ビデオ、オーディオ処理をサポートし、大規模なコンテキストウィンドウを備え、同様のオープンモデルと比較して強力なパフォーマンス向上を示しています。

これらの新しいモデルはAIをより安価にしますか? vLLMの最適化とPoolsideのシングルGPUデプロイへの注力は、よりコスト効率の高い推論へのトレンドを示唆しています。生のモデルトレーニングコストは依然として高いですが、サービング効率とアクセシビリティの向上は、AIを使用するコストを下げることを目指しています。

Written by
theAIcatchup Editorial Team

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Latent Space