AWS、Google、Microsoft、OCIがNVIDIA Dynamoでクラウド顧客のAI推論パフォーマンスを向上

トレンドセッター
この記事を読むのにかかる時間: 4

編集者注:この記事は、主要なAIサービスプロバイダー、開発者、そして企業がNVIDIAのフルスタック推論プラットフォームの最新の進歩を活用して、推論パフォーマンスと投資収益率を向上させる方法に焦点を当てたシリーズ「Think SMART」の一部です。

NVIDIA Blackwellは、最近実施された独立系ベンチマーク「SemiAnalysis InferenceMAX v1」において、テストされたすべてのモデルとユースケースにおいて、最高のパフォーマンスと効率性、そして最低の総所有コストを実現しました。

NVIDIA CEOのジェンスン・フアンは、ワシントンD.C.で開催されたNVIDIA GTCにおいて、BlackwellがNVIDIA Hopperの10倍のパフォーマンスを実現し、収益を10倍に高めることを強調しました。

大規模な専門家混合モデル(MoE)など、今日の最も複雑なAIモデルにおいて、この業界最先端のパフォーマンスを実現するには、推論を複数のサーバー(ノード)に分散(または分離)し、数百万人の同時ユーザーにサービスを提供してより高速な応答を実現する必要があります。

NVIDIA Dynamo ソフトウェア プラットフォームは、これらの強力なマルチノード機能を本番環境で活用できるようにすることで、企業が既存のクラウド環境全体でベンチマークを凌駕するパフォーマンスと効率性を実現できるようにします。マルチノード推論への移行がどのようにパフォーマンスを向上させているのか、そしてクラウド プラットフォームがこのテクノロジーをどのように活用しているのかについて、以下で詳しく説明します。

分散型推論を活用してパフォーマンスを最適化

単一の GPU またはサーバーに収まる AI モデルの場合、開発者は高いスループットを実現するために、モデルの同一のレプリカを複数のノードで並列実行することがよくあります。Signal65 の主席アナリストである Russ Fellows 氏は最近の論文で、このアプローチにより、72 基の NVIDIA Blackwell Ultra GPU で 110 万トークン/秒という業界初の記録的な総スループットを達成したことを示しました。

多数の同時ユーザーにリアルタイムでサービスを提供するために AI モデルをスケーリングする場合、または長い入力シーケンスを含む要求の厳しいワークロードを管理する場合、分散型サービングと呼ばれる手法を使用することで、さらなるパフォーマンスと効率性の向上が実現します。

AIモデルへのサービス提供には、入力プロンプトの処理(プリフィル)と出力の生成(デコード)という2つのフェーズがあります。従来、両方のフェーズは同じGPU上で実行されていたため、非効率性やリソースのボトルネックが生じる可能性がありました。

分散型サービスは、これらのタスクを独立して最適化されたGPUにインテリジェントに分散することで、この問題を解決します。このアプローチにより、ワークロードの各部分がそれぞれに最適な最適化手法で実行されるため、全体的なパフォーマンスが最大化されます。DeepSeek-R1のような今日の大規模なAI推論モデルやMoEモデルでは、分散型サービスは不可欠です。

NVIDIA Dynamoは、分散型サービスなどの機能をGPUクラスター全体にわたる本番環境規模に容易に導入できます。

既に価値を生み出しています。

例えば、BasetenはNVIDIA Dynamoを使用して、ロングコンテキストコード生成のための推論サービスを2倍高速化し、スループットを1.6倍向上させました。しかも、ハードウェアコストの増加は一切ありません。このようなソフトウェア主導のパフォーマンス向上により、AIプロバイダーはインテリジェンスの製造コストを大幅に削減できます。

クラウドにおける分散型推論のスケーリング

大規模 AI トレーニングと同様に、コンテナ化アプリケーション管理の業界標準である Kubernetes は、エンタープライズ規模の AI デプロイメントにおいて、数十、さらには数百のノードに分散型サービスをスケーリングするのに最適です。

NVIDIA Dynamo がすべての主要クラウドプロバイダーのマネージド Kubernetes サービスに統合されたことで、お客様は GB200 および GB300 NVL72 を含む NVIDIA Blackwell システム全体でマルチノード推論をスケーリングし、エンタープライズ AI デプロイメントに求められるパフォーマンス、柔軟性、信頼性を実現できます。

Amazon Web Services は、NVIDIA Dynamo と Amazon EKS の統合により、お客様の生成型 AI 推論を加速しています。

Google Cloud は、AI ハイパーコンピュータ上でエンタープライズ規模の大規模言語モデル (LLM) 推論を最適化するための Dynamo レシピを提供しています。
Microsoft Azure は、Azure Kubernetes Service 上で NVIDIA Dynamo と ND GB200-v6 GPU を使用して、マルチノード LLM 推論を可能にします。
Oracle Cloud Infrastructure (OCI) は、OCI Superclusters と NVIDIA Dynamo を活用し、マルチノード LLM 推論を実現します。

大規模マルチノード推論の実現に向けた動きは、ハイパースケーラーだけにとどまりません。

例えば、Nebius は、NVIDIA アクセラレーテッド・コンピューティング・インフラストラクチャを基盤とし、エコシステム・パートナーとして NVIDIA Dynamo と連携することで、大規模な推論ワークロードに対応できるクラウドを設計しています。

NVIDIA Dynamo の NVIDIA Grove で Kubernetes 上の推論を簡素化

分散型 AI 推論では、それぞれ異なるニーズを持つ専門コンポーネント(事前入力、デコード、ルーティングなど)の連携が必要です。Kubernetes にとっての課題は、もはやモデルの並列コピーをより多く実行することではなく、これらの個別のコンポーネントを 1 つの統合された高性能システムとして巧みに動作させることです。

NVIDIA Dynamo で新たに利用可能になったアプリケーション・プログラミング・インターフェースである NVIDIA Grove により、ユーザーは推論システム全体を記述する単一の高レベル仕様を提供できます。

例えば、この単一の仕様で、ユーザーは要件を次のように宣言できます。「プレフィル用に 3 台の GPU ノード、デコード用に 6 台の GPU ノードが必要です。また、単一のモデルレプリカのすべてのノードを同じ高速インターコネクト上に配置することで、応答時間を最速にすることができます。」

この仕様に基づいて、Grove は複雑な調整をすべて自動的に処理します。つまり、適切な比率と依存関係を維持しながら関連コンポーネントを一緒にスケーリングし、適切な順序で起動し、クラスター全体に戦略的に配置することで、高速で効率的な通信を実現します。NVIDIA Grove の導入方法については、こちらの技術詳細をご覧ください。

AI 推論の分散化が進む中、Kubernetes、NVIDIA Dynamo、そして NVIDIA Grove を組み合わせることで、開発者はインテリジェント アプリケーションの構築とスケーリングを簡素化できます。

NVIDIA の大規模 AI シミュレーションを試して、ハードウェアとデプロイメントの選択がパフォーマンス、効率、ユーザー エクスペリエンスにどのような影響を与えるかを確認してください。分散型サービングの詳細と、Dynamo と NVIDIA GB200 NVL72 システムが連携して推論パフォーマンスを向上させる方法については、こちらの技術ブログをご覧ください。

毎月の最新情報をお届けするNVIDIA Think SMARTニュースレターにご登録ください。

カテゴリー: データセンター
タグ: Dynamo | 推論 | Think SMART

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH