AI モデルの革新を先導するカリフォルニア大学サンディエゴ校の Hao AI Lab 研究チームは、大規模言語モデル推論における重要な研究の高度化を図るため、最近 NVIDIA DGX B200 システムを導入しました。
NVIDIA Dynamo など、現在運用されている多くの LLM 推論プラットフォームは、DistServe をはじめ、Hao AI Lab で生まれた研究コンセプトを活用しています。
Hao AI Lab はどのように DGX B200 を活用しているのでしょうか?
NVIDIA DGX B200 システムを支持する Hao AI Lab のメンバー。
DGX B200 が Hao AI Lab だけでなく、カリフォルニア大学サンディエゴ校のコンピューティング、情報、データサイエンス学部のサンディエゴ スーパーコンピュータ センターに広くアクセスできるようになったため、研究の機会は無限に広がります。
「DGX B200は、NVIDIAが提供するこれまでで最も強力なAIシステムの1つであり、そのパフォーマンスは世界最高レベルです」と、カリフォルニア大学サンディエゴ校ハリシオグル・データサイエンス研究所およびコンピュータサイエンス・エンジニアリング学部の助教授であるハオ・チャン氏は述べています。「これにより、前世代のハードウェアを使用するよりもはるかに迅速にプロトタイプ作成と実験を行うことができます。」
DGX B200によって加速されているHao AI Labの2つのプロジェクトは、FastVideoとLmgameベンチマークです。
FastVideoは、与えられたテキストプロンプトに基づいて5秒間のビデオをわずか5秒で生成するためのビデオ生成モデルファミリのトレーニングに重点を置いています。
FastVideoの研究段階では、DGX B200システムに加えて、NVIDIA H200 GPUも活用しています。
Lmgame-benchは、テトリスやスーパーマリオブラザーズなどの人気オンラインゲームを使用してLLMをテストするベンチマークスイートです。ユーザーは、一度に1つのモデルをテストすることも、2つのモデルを比較してパフォーマンスを測定することもできます。
Hao AI LabのLmgame-Benchプロジェクトのワークフロー図解。
Hao AI Labsで進行中の他のプロジェクトでは、低レイテンシLLMサービングを実現する新しい方法を模索し、大規模言語モデルのリアルタイム応答性向上を目指しています。
「私たちの現在の研究では、DGX B200を使用し、システムが提供する優れたハードウェアスペックを活かして、低レイテンシLLMサービングの新たなフロンティアを探求しています」と、カリフォルニア大学サンディエゴ校のコンピュータサイエンス博士課程のJunda Chen氏は述べています。
DistServeがDisaggregated Servingに与えた影響
Disaggregated Inference(分散推論)は、大規模なLLMサービングエンジンが、ユーザーリクエストに対して許容できる低レイテンシを維持しながら、最適なシステムスループットを実現できるようにする方法です。
Disaggregated Inferenceの利点は、DistServeがLLMサービングエンジンにおいて「スループット」ではなく「グッドプット」と呼ぶものを最適化することにあります。
違いは次のとおりです。
スループットは、システム全体が1秒あたりに生成できるトークン数で測定されます。スループットが高いほど、ユーザーにサービスを提供する各トークンの生成コストが低くなります。長年にわたり、LLMサービングエンジンがパフォーマンスを比較するために使用していた指標は、スループットのみでした。
スループットはシステム全体のパフォーマンスを測定する指標ですが、ユーザーが感じるレイテンシとは直接相関しません。ユーザーがトークン生成のレイテンシを低く要求した場合、システムはスループットを犠牲にしなければなりません。
スループットとレイテンシのこの自然なトレードオフこそが、DistServeチームが新しい指標「グッドプット」を提案するきっかけとなりました。グッドプットは、ユーザーが指定したレイテンシ目標(通常はサービスレベル目標と呼ばれます)を満たしながら、スループットを測定する指標です。言い換えれば、グッドプットはユーザーエクスペリエンスを満たしながら、システム全体の健全性を表す指標です。
DistServeは、グッドプットがコストとサービス品質の両方を考慮するため、LLMサービングシステムにとってはるかに優れた指標であることを示しています。グッドプットは、モデルから最適な効率と理想的な出力をもたらします。
開発者はどのように最適なグッドプットを実現できるでしょうか?
ユーザーがLLMシステムでリクエストを行うと、システムはユーザー入力を受け取り、プリフィルと呼ばれる最初のトークンを生成します。次に、システムは過去のリクエストの結果に基づいて各トークンの将来の動作を予測し、多数の出力トークンを次々に作成します。このプロセスはデコードと呼ばれます。
ビデオプレーヤーhttps://blogs.nvidia.com/wp-content/uploads/2025/12/distserve.mp400:0500:0000:15 上下矢印キーで音量を上げたり下げたりできます。
プリフィルとデコードはこれまで同じGPUで実行されていましたが、DistServeの研究者たちは、これらを異なるGPUに分割することでグッドプットが最大化されることを発見しました。
「以前は、これら2つのジョブを1つのGPUに配置すると、リソースをめぐって競合し、ユーザーの観点から見ると速度が低下する可能性がありました」とChen氏は述べています。ここで、ジョブを2つの異なるGPUセットに分割し、1つは計算負荷の高いプリフィル処理、もう1つはメモリ負荷の高いデコード処理を実行するようにすれば、2つのジョブ間の干渉を根本的に排除し、両方のジョブを高速化できます。
このプロセスはプリフィル/デコード分離、つまりプリフィルとデコードを分離してグッドプットを向上させることと呼ばれます。
グッドプットの向上と分離推論手法の使用により、低レイテンシや高品質のモデル応答を損なうことなく、ワークロードを継続的にスケーリングできます。
NVIDIA Dynamoは、生成AIモデルを最高効率かつ最低コストで加速・拡張できるように設計されたオープンソースフレームワークであり、分離推論のスケーリングを可能にします。
これらのプロジェクトに加えて、カリフォルニア大学サンディエゴ校では、ヘルスケアや生物学などの部門横断的なコラボレーションが進行中です。研究者たちは、AIプラットフォームがイノベーションを加速する方法を探求し続けており、NVIDIA DGX B200を使用した一連の研究プロジェクトをさらに最適化しています。
NVIDIA DGXの詳細はこちらB200 システム
カテゴリー: データセンター | ジェネレーティブAI | 研究 | スーパーコンピューティング タグ: 人工知能 | 教育 | 推論 | NVIDIA DGX | オープンソース
出典: 元記事を読む
※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。