AI Tools

SageMaker AI:稼働時間確保のためのインスタンス自動フォールバック

必要なGPUが急に手に入らなくなり、AIエンドポイントが失敗する、そんな経験はないだろうか。Amazon SageMakerが、デプロイメントを障害なく利用可能なハードウェアにリダイレクトする、AI版交通整理のような新機能をリリースした。

優先順位付きインスタンスタイプのリストがSageMaker AIエンドポイントに供給される様子を示す図。

Key Takeaways

  • Amazon SageMaker AIが、推論エンドポイント向けに優先順位付きインスタンスプールをサポートし、キャパシティ不足を克服する。
  • この機能は、インスタンスタイプのリスト全体でエンドポイントデプロイメントを自動化し、手動介入を削減する。
  • キャパシティ認識型推論は、作成時、オートスケーリング、スケールインイベント中のエンドポイント稼働時間を改善する。
  • ユーザーは、プール内の異なるインスタンスタイプとのモデルの互換性を確保する必要があり、場合によっては最適化されたモデルアーティファクトが必要になる。
  • オブザーバビリティが強化され、インスタンスタイプごとのメトリクスが提供され、パフォーマンス監視とデバッグが向上する。

スクロールの手を止めるほどの統計がある。生成AIワークロードをスケールさせる組織にとって、信頼性の高いGPUコンピューティングの確保は、最も根深い運用上の課題の一つだったのだ。考えてみてほしい。速度でも、コストでもなく、単純にそれを動かすことが問題だった。まるで満席のコンサートの最前列の席を予約しようとして、会場が突然椅子不足になったと知らされるようなものだ。

長らく、Amazon SageMaker AIでリアルタイム推論エンドポイントをデプロイすることは、ハイリスクな運任せのゲームだった。適切なGPU、完璧なVRAM量を持つ最適なインスタンスタイプを選び、デプロイボタンを押す。もしその特定のハードウェアが利用不可なら? ポフッ。エンドポイント作成は失敗。それから調整し、別のタイプを試して、このサイクルを繰り返す。貴重な開発時間を浪費し、重要な市場機会を逃す可能性さえあった。それは、ぎこちなく、手作業のダンスだった。

だが、シートベルトを締めてほしい。SageMaker AIは、新しいキャパシティ認識型インスタンスプールで、その脚本を書き換えようとしている。これは単なるマイナーアップデートではない。AIを大規模にデプロイする方法についての、根本的な転換だ。まるで、常に渋滞する一方通行の道路から、スマートルーティングを備えた多車線スーパーハイウェイへの移動のようなものだ。

単一インスタンスタイプの落とし穴

問題は些細ではなかった。特定の、しかもしばしば希少なAIハードウェア、つまり需要が殺到している最先端GPUに依存するものを構築する場合、作成時に単一のインスタンスタイプに固執するのは、悲劇への処方箋だった。そのタイプに十分なキャパシティがなければ、エンドポイントは起動状態にすら到達しない。そして、それは作成時だけでなく、オートスケーリングも、すでに上限に達しているタイプをプロビジョニングしようとして停止する可能性があった。スケールダウンにも知性はなく、ランダムにインスタンスを摘んでいた。さらに悪いことに、問題が発生した場合、CloudWatchメトリクスは集約され、「何かが間違っている」とは伝えてくれたが、「どこで」または「なぜ」かは不明だった。

「そのキャパシティが利用できない場合、エンドポイントは単一のリクエストを処理する前に失敗する。」

これがAmazon SageMaker AIが解決しようとしている核心的なペインポイントだ。AIモデルを本番環境に投入するまでの道のりから、摩擦を取り除くことなのだ。

エンドポイントが実際に起動するようになる

では、この魔法はどのように機能するのだろうか? これからは、インスタンスタイプの優先順位リスト、つまりインスタンスプールを定義する。SageMaker AIは、インテリジェントなデプロイメントエージェントになる。まず第一希望のインスタンスタイプを試す。キャパシティが制約されている場合、即座に第二希望、そして第三希望へと移行する。手動での再試行はもう不要だ。エンドポイントは、あなたの基準を満たす最初の利用可能なAIインフラストラクチャ上にプロビジョニングされる。これは、モデルがより速くトラフィックを提供できるようになり、チームはインフラストラクチャの格闘ではなく、イノベーションに集中できることを意味する。

これは初期デプロイメントだけではない。トラフィックの急増中にオートスケーラーがスケールアウトする必要があり、トップクラスのインスタンスタイプがすべて利用できない場合、SageMaker AIはプールの次の利用可能なタイプにスムーズに移行する。アプリケーションは応答性を維持する。そしてスケールイン時、システムは優先度の低いフォールバックインスタンスをまずインテリジェントに削除する。やがて、あなたの好みのハードウェアが再び利用可能になると、フリートは自然に再バランスを取り、最も最適で—おそらく最もコスト効率の良い—インスタンスタイプへと移行していく。これは、自己修復し、インテリジェントに適応するデプロイメントだ。

そして、オブザーバビリティはどうだろうか? これで粒度が細かくなった。すべてのCloudWatchメトリクスには、InstanceTypeディメンションが含まれるようになった。単一のエンドポイント内で、インスタンスタイプごとにレイテンシ、スループット、GPU使用率、インスタンス数を追跡できる。この詳細レベルは、デバッグとパフォーマンス最適化にとって貴重だ。

モデルとインスタンスのマッチングゲーム

さて、ここからが本当に面白くなる部分で、人間とAIの協調が少し必要になる。フォールバックインスタンスタイプは、しばしば異なる仕様を持つ—GPUメモリが少ない、コンピューティング能力が異なる、あるいは全く異なるアーキテクチャである場合もある。大規模でマルチGPUの強力なインスタンス向けに最適化されたモデルは、より小さく、シングルGPUのフォールバックでは動作しないかもしれない。SageMaker AIはこれを魔法のように解決してくれるわけではなく、フレームワークを提供するが、あなたは適切なハードウェアに適切なモデルを提供する必要がある。

これは、モデルアーティファクトを慎重に準備する必要があることを意味する。トップクラスの高性能インスタンスには、複数のGPUにまたがるテンソル並列処理などの高度なテクニックを使用できる。ミドルクラスのフォールバックには、推論を加速するために投機的デコーディングを使用できるかもしれない。最低限の優先度インスタンス—つまり、他に何も利用できない場合にのみ使用するインスタンス—には、INT4量子化を使用して、モデルをより小さなメモリ予算に収めることができるだろう。各構成に対して個別のSageMakerモデルを作成し、インスタンスプール構成のModelNameOverrideを使用して参照することになる。

あるいは、モデルが比較的柔軟で、高度に特殊化された最適化を必要としない場合、SageMaker AIはインスタンスプール全体で単一のモデルアーティファクトを自動的に使用できる。これは、モデルの複雑さとパフォーマンス要件に基づいて適切なアプローチを選択することだ。この柔軟性が、真のレジリエンスを解き放つ鍵となる。

私の独自の見解:この機能は、クラウドの巨人がAIデプロイメントはもはや単なる生のパワーではなく、可用性インテリジェントなリソース割り当ての問題であると認めたことを示している。長年、より強力なGPUの必要性について語られてきた。今、会話は、利用可能なものを柔軟に、そして確実に アクセスするにはどうすればよいか、へとシフトしている。これはプラットフォームのシフトであり、AI推論を、固定された「プロビジョニングして祈る」モデルから、動的で適応的なシステムへと移行させるものだ。これは、単一の高度に専門化されたツールを所有することと、仕事に合わせて適応する汎用性の高いツールキットを持っていることの違いだ。

開発者にとってなぜ重要なのか?

開発者にとって、これは大きな勝利だ。Insufficient Capacityエラーを心配して眠れない夜が減る。デプロイメントがより信頼できるため、イテレーションサイクルが速くなる。より自信を持って複雑なAIアプリケーションを構築・スケールできるようになる。ハードウェアの利用可能性の信頼性の低さという摩擦点が大幅に軽減され、チームはAIを実行させるだけでなく、より良いAIを構築することに集中できるようになる。

また、より高度なAIデプロイメントへのアクセスを民主化する。以前は、高可用性を確保するために、複雑なカスタムソリューションや、複数のリージョンにまたがるフリートの維持が必要だったかもしれない。今や、SageMaker AI内の適切に構成されたインスタンスプールは、はるかに少ない労力で、かなりの程度のレジリエンスを提供できる。


🧬 関連インサイト

よくある質問

キャパシティ認識型推論とは何ですか?

Amazon SageMaker AIエンドポイントが、最初に選択されたインスタンスタイプがキャパシティの制約により利用できない場合に、優先順位付けされた複数のインスタンスタイプを自動的に試行できるようにし、エンドポイントが正常にデプロイされることを保証します。

私のML Opsエンジニアとしての仕事をなくしますか?

いいえ、ただしあなたの焦点は大きく変わるだろう。手動での再試行や基本的なキャパシティ管理に時間を費やす代わりに、モデル最適化、高度なパフォーマンスチューニング、戦略的なインフラストラクチャ計画などの、より価値の高いタスクに集中できるようになる。

プール内の任意のインスタンスタイプを使用できますか?

モデルに対してSageMaker AIエンドポイントでサポートされている任意のインスタンスタイプを使用できる。ただし、特に仕様が異なるフォールバックオプションの場合、モデルアーティファクトがプール内のインスタンスタイプのハードウェア特性と互換性があることを確認する必要がある。

Written by
theAIcatchup Editorial Team

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by AWS Machine Learning Blog