NVIDIA Blackwell が新しい InferenceMAX ベンチマークの基準を引き上げ、比類のないパフォーマンスと効率を実現

トレンドセッター
この記事を読むのにかかる時間: 5

NVIDIA Blackwell は、新しい SemiAnalysis InferenceMAX v1 ベンチマークで圧倒的なパフォーマンスと最高の総合効率を実現しました。
InferenceMax v1 は、多様なモデルと実際のシナリオにおける総計算コストを測定する初の独立ベンチマークです。
最高の投資収益率:NVIDIA GB200 NVL72 は、比類のない AI ファクトリーの経済性を実現します。500万ドルの投資で 7,500万ドルの DSR1 トークン収益を生み出し、投資収益率は15倍です。
最低の総所有コスト:NVIDIA B200 ソフトウェアの最適化により、gpt-oss で 100万トークンあたり2セントを実現し、わずか2か月でトークンあたりのコストを5分の1に削減します。
最高のスループットとインタラクション性:NVIDIA B200 は、最新の NVIDIA TensorRT-LLM スタックを搭載した gpt-oss で、GPU あたり毎秒6万トークン、ユーザーあたり毎秒1,000トークンというパフォーマンスを実現し、業界をリードしています。

AIが単発の回答から複雑な推論へと移行するにつれ、推論への需要とその背後にある経済性は爆発的に高まっています。

新たに発表された独立系ベンチマーク「InferenceMAX v1」は、実世界のシナリオにおける総計算コストを初めて測定するものです。その結果は?NVIDIA Blackwellプラットフォームが圧倒的なパフォーマンスを発揮し、AIファクトリーにおいて比類のないパフォーマンスと最高の総合効率を実現しました。

NVIDIA GB200 NVL72システムへの500万ドルの投資は、7,500万ドルのトークン収益を生み出す可能性があります。これは15倍の投資収益率(ROI)に相当し、推論の新たな経済性と言えるでしょう。

NVIDIAのハイパースケールおよびハイパフォーマンスコンピューティング担当バイスプレジデントであるイアン・バック氏は、「推論こそが、AIが日々価値を生み出す場です。今回の結果は、NVIDIAのフルスタックアプローチが、AIを大規模に展開するために必要なパフォーマンスと効率性をお客様に提供していることを示しています。」と述べています。

InferenceMAX v1の登場

SemiAnalysisが月曜日にリリースした新しいベンチマーク、InferenceMAX v1は、Blackwellの推論におけるリーダーシップを際立たせる最新のベンチマークです。主要プラットフォームで人気のモデルを実行し、幅広いユースケースでパフォーマンスを測定し、誰でも検証可能な結果を​​公開します。

なぜこのようなベンチマークが重要なのでしょうか?

現代のAIは、単なる速度ではなく、大規模な効率性と経済性を重視しているからです。モデルがワンショットの応答から複数段階の推論とツールの使用へと移行するにつれて、クエリごとにはるかに多くのトークンが生成され、コンピューティング需要が劇的に増加します。

NVIDIAとOpenAI (gpt-oss 120B)、Meta (Llama 3 70B)、DeepSeek AI (DeepSeek R1) とのオープンソースコラボレーションは、コミュニティ主導のモデルが最先端の推論と効率性をどのように進化させているかを示しています。

これらの主要なモデルビルダーやオープンソースコミュニティと提携することで、NVIDIAは最新のモデルが世界最大のAI推論インフラストラクチャ向けに最適化されていることを保証します。これらの取り組みは、オープンエコシステムへの幅広いコミットメントを反映しており、イノベーションの共有によって誰もが進歩を加速できる環境です。

FlashInfer、SGLang、vLLM コミュニティとの緊密な連携により、これらのモデルを大規模に動作させるカーネルとランタイムの強化を共同開発することが可能になりました。

ソフトウェアの最適化による継続的なパフォーマンス向上

NVIDIA は、ハードウェアとソフトウェアの共同設計の最適化を通じて、パフォーマンスを継続的に向上させています。NVIDIA TensorRT LLM ライブラリを搭載した NVIDIA DGX Blackwell B200 システムにおける gpt-oss-120b の初期パフォーマンスは市場をリードするものでした。しかし、NVIDIA のチームとコミュニティは、オープンソースの大規模言語モデル向けに TensorRT LLM を大幅に最適化しました。

TensorRT LLM v1.0 リリースは、大規模 AI モデルの高速化と応答性向上を誰にとっても実現する上で、大きな進歩です。

高度な並列化技術により、B200 システムと NVIDIA NVLink スイッチの 1,800 GB/秒の双方向帯域幅を活用し、gpt-oss-120b モデルのパフォーマンスを飛躍的に向上させます。

イノベーションはそれだけではありません。新たにリリースされた gpt-oss-120b-Eagle3-v2 モデルでは、複数のトークンを一度に予測する巧妙な手法である投機的デコードが導入されています。

これにより遅延が低減され、より迅速な結果が得られます。スループットは 1 ユーザーあたり 100 トークン/秒 (TPS/ユーザー) と 3 倍になり、GPU あたりの速度は 6,000 トークンから 30,000 トークンに向上します。

Llama 3.3 70B のような高密度 AI モデルは、パラメーター数が多く、推論中にすべてのパラメーターが同時に使用されるため、膨大な計算リソースを必要としますが、NVIDIA Blackwell B200 は InferenceMAX v1 ベンチマークにおいて新たなパフォーマンス基準を確立します。

Blackwell は、ユーザーインタラクションあたり 50 TPS で GPU あたり 10,000 TPS 以上のパフォーマンスを実現します。これは、NVIDIA H200 GPU と比較して GPU あたりのスループットが 4 倍高いことを意味します。

パフォーマンス効率が価値を牽引

ワットあたりのトークン数、100 万トークンあたりのコスト、ユーザーあたり TPS といった指標は、スループットと同様に重要です。実際、電力制限のある AI ファクトリーにおいて、Blackwell は前世代と比較して 1 メガワットあたりのスループットが 10 倍向上し、トークン収益の増加につながります。

トークンあたりのコストは AI モデルの効率性を評価する上で非常に重要であり、運用コストに直接影響を及ぼします。NVIDIA Blackwell アーキテクチャは、前世代と比較して 100 万トークンあたりのコストを 15 分の 1 に削減し、大幅なコスト削減を実現し、AI のより広範な導入とイノベーションを促進します。

多次元パフォーマンス

InferenceMAX は、データセンターのスループットや応答性など、さまざまな要素間の最適なトレードオフを示す曲線であるパレートフロンティアを使用してパフォーマンスをマッピングします。

しかし、これは単なるグラフではありません。これは、NVIDIA Blackwell がコスト、エネルギー効率、スループット、応答性といった、製造業におけるあらゆる優先事項をバランスよく実現していることを反映しています。このバランスにより、実世界のワークロード全体で最高の ROI を実現できます。

単一のモードまたはシナリオに最適化したシステムは、単独では最高のパフォーマンスを発揮するかもしれませんが、その経済性はスケールしません。Blackwell のフルスタック設計は、最も重要な現場、つまり製造現場において、効率性と価値を提供します。

これらの曲線がどのように構築され、総所有コスト(TCO)とサービスレベル契約(SLA)の計画においてなぜ重要なのかを詳しく知るには、この技術的な詳細分析で完全なチャートと方法論をご覧ください。

何がそれを可能にするのか?

Blackwell のリーダーシップは、究極のハードウェアとソフトウェアの共同設計から生まれています。スピード、効率、スケールを実現するために構築されたフルスタックアーキテクチャです。

Blackwellアーキテクチャの特徴は以下の通りです。
精度を損なうことなく効率性を高めるNVFP4低精度フォーマット
72基のBlackwell GPUを接続し、1つの巨大なGPUとして動作する第5世代NVIDIA NVLink
高度なテンソル、エキスパート、データ並列アテンションアルゴリズムにより、高い同時実行性を実現するNVLinkスイッチ
年間のハードウェアケイデンスと継続的なソフトウェア最適化により、NVIDIAはBlackwellの発売以来、ソフトウェアのみでパフォーマンスを2倍以上に向上させています。
ピークパフォーマンス向けに最適化された、NVIDIA TensorRT-LLM、NVIDIA Dynamo、SGLang、vLLMといったオープンソース推論フレームワーク
数億基のGPUが実装され、700万人のCUDA開発者が参加し、1,000を超えるオープンソースプロジェクトへの貢献を誇る、大規模なエコシステム
全体像

AIはパイロットからAIファクトリーへと進化しています。AIファクトリーとは、データをトークンに変換し、リアルタイムで意思決定を行うことでインテリジェンスを生み出すインフラストラクチャです。

オープンで頻繁に更新されるベンチマークは、チームが情報に基づいたプラットフォーム選択を行い、トークンあたりのコスト、レイテンシ、SLA(サービスレベル契約)、そして変化するワークロード全体の利用率を調整するのに役立ちます。

NVIDIA の Think SMART フレームワークは、企業がこの変化を乗り越えるお手伝いをします。NVIDIA のフルスタック推論プラットフォームが、パフォーマンスを利益に変えるという現実的な ROI をどのように実現しているかに焦点を当てています。

カテゴリ: 企業 | データセンター | スーパーコンピューティング
タグ: 銀行 | 金融サービス | ゲノミクス | ヘルスケアとライフサイエンス | 産業と製造 | 推論 | Nemotron | オープンソース | 公共部門 | 小売 | 通信

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH