推論パフォーマンスはAIファクトリーの経済性に直接影響を与えるため、非常に重要です。AIファクトリーインフラのスループットが高ければ高いほど、より多くのトークンを高速に生成できるため、収益の増加、総所有コスト(TCO)の削減、そしてシステム全体の生産性向上につながります。
NVIDIA GTCでのデビューからわずか半年足らずで、NVIDIA Blackwell Ultraアーキテクチャを搭載したNVIDIA GB300 NVL72ラックスケールシステム(5.1-0072、Closed Division [1])は、MLPerf Inference v5.1の新しい推論ベンチマークで記録を樹立しました。オフラインシナリオにおいて、NVIDIA BlackwellベースのGB200 NVL72システム(5.1-0071、Closed Division [1])と比較して、DeepSeek-R1推論スループットが45%向上しました。
Blackwell Ultra は Blackwell アーキテクチャの成功を基盤としており、Blackwell と比較して NVFP4 AI コンピューティング性能が 1.5 倍、アテンションレイヤーアクセラレーション性能が 2 倍に向上し、GPU あたり最大 288GB の HBM3e メモリを搭載しています。
NVIDIA プラットフォームは、MLPerf Inference v5.1 スイートに追加されたすべての新しいデータセンターベンチマーク(DeepSeek-R1、Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper など)でパフォーマンス記録を樹立しました。また、すべての MLPerf データセンターベンチマークで GPU あたりの記録も更新し続けています。
すべてを積み重ねる
これらの最新のベンチマーク結果を実現するには、フルスタックの共同設計が重要な役割を果たしています。Blackwell と Blackwell Ultra は、NVFP4 データ形式(NVIDIA 設計の 4 ビット浮動小数点形式)向けのハードウェアアクセラレーションを組み込んでいます。NVFP4 形式は、他の FP4 形式と比較して優れた精度を提供するだけでなく、より高精度な形式と同等の精度も実現します。
NVIDIA TensorRT Model Optimizer ソフトウェアは、DeepSeek-R1、Llama 3.1 405B、Llama 2 70B、Llama 3.1 8B を NVFP4 に量子化しました。オープンソースの NVIDIA TensorRT-LLM ライブラリと連携することで、この最適化により Blackwell と Blackwell Ultra は、提出における厳しい精度要件を満たしながら、より高いパフォーマンスを実現できました。
大規模言語モデル推論は、実行特性が異なる 2 つのワークロードで構成されます。1) ユーザー入力を処理して最初の出力トークンを生成するコンテキスト、2) 後続のすべての出力トークンを生成する生成です。
Disaggregated Serving と呼ばれる手法により、コンテキストタスクと生成タスクが分割され、それぞれのタスクを個別に最適化することで、全体的なスループットを最大化できます。この技術は、Llama 3.1 405B Interactive ベンチマークで記録的なパフォーマンスを達成する鍵となり、第 5 世代 NVLink および NVLink スイッチ (5.1-0072、Closed Division [1]) システムを使用して 72 基の Blackwell GPU を接続した GB200 NVL72 システムでは、同じく第 5 世代 NVLink および NVLink スイッチ (5.1-0069、Closed Division [1]) を使用して 8 基の Blackwell GPU を接続した NVIDIA DGX B200 サーバーの各 Blackwell GPU で従来のサーバーを使用してベンチマークを実行した場合と比較して、GPU あたりのパフォーマンスが 47% 向上しました。
NVIDIA はまた、このラウンドで NVIDIA Dynamo 推論フレームワーク (5.1-0388、Open Division [1]) を使用して初めて提出を行いました。
クラウド サービス プロバイダーやサーバー メーカーを含む NVIDIA パートナーは、NVIDIA Blackwell および/または Hopper プラットフォームを使用して優れた結果を提出しました。これらのパートナーには、Azure、Broadcom、Cisco、CoreWeave、Dell Technologies、Giga Computing、HPE、Lambda、Lenovo、Nebius、Oracle、Quanta Cloud Technology、Supermicro、フロリダ大学が含まれます。
NVIDIA AI プラットフォームにおける市場をリードする推論パフォーマンスは、主要なクラウドプロバイダーおよびサーバーメーカーから提供されています。これは、高度な AI アプリケーションを導入する組織にとって、TCO の削減と投資収益率の向上につながります。
これらのフルスタック テクノロジーの詳細については、MLPerf Inference v5.1 に関する NVIDIA テクニカル ブログをご覧ください。また、NVIDIA DGX Cloud Performance Explorer にアクセスして、NVIDIA のパフォーマンス、モデルの TCO の詳細を確認し、カスタム レポートを生成することもできます。
[1] MLPerf® v5.1 Inference。結果は MLCommons Association によって検証されています。MLPerf の名称とロゴは、米国およびその他の国における MLCommons Association の登録商標および未登録商標です。無断使用は固く禁じられています。詳細については、www.mlcommons.org をご覧ください。
カテゴリー: データセンター | ハードウェア
タグ: NVIDIA Blackwell プラットフォーム | TensorRT
出典: 元記事を読む
※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。