NVIDIA が MLPerf Training v5.1 ベンチマークですべて勝利

トレンドセッター
この記事を読むのにかかる時間: 4

AI推論の時代において、よりスマートで高性能なモデルをトレーニングすることは、インテリジェンスのスケーリングに不可欠です。この新しい時代に対応できる圧倒的なパフォーマンスを実現するには、GPU、CPU、NIC、スケールアップおよびスケールアウト型ネットワーク、システムアーキテクチャ、そして膨大なソフトウェアとアルゴリズムのすべてにおいて、画期的な進歩が求められます。

AIトレーニングパフォーマンスを測る業界標準テストの最新ラウンドであるMLPerf Training v5.1において、NVIDIAは7つのテスト全てで圧倒的な勝利を収め、大規模言語モデル(LLM)、画像生成、レコメンデーションシステム、コンピュータービジョン、グラフニューラルネットワークにおいて最速のトレーニング時間を達成しました。

NVIDIAはすべてのテストで結果を提出した唯一のプラットフォームでもあり、NVIDIA GPUの優れたプログラマビリティと、CUDAソフトウェアスタックの成熟度と汎用性を際立たせています。

NVIDIA Blackwell Ultra がさらなる高みへ

NVIDIA Blackwell Ultra GPU アーキテクチャを搭載した GB300 NVL72 ラックスケールシステムは、直近の MLPerf 推論ラウンドで記録的なパフォーマンスを達成した後、今回の MLPerf トレーニングラウンドに初めて登場しました。

前世代の Hopper アーキテクチャと比較すると、Blackwell Ultra ベースの GB300 NVL72 は、同じ数の GPU を使用して、Llama 3.1 の 405B 事前トレーニングの 4 倍以上、Llama 2 の 70B LoRA 微調整の 5 倍近くのパフォーマンスを実現しました。

これらのパフォーマンス向上は、Blackwell Ultra のアーキテクチャの改良(15 ペタフロップスの NVFP4 AI コンピューティング、アテンション層コンピューティングの 2 倍、279GB の HBM3e メモリを備えた新しい Tensor コアなど)と、アーキテクチャの強力な NVFP4 コンピューティングパフォーマンスを活用した新しいトレーニング手法によって実現されました。

複数の GB300 NVL72 システムを接続することで、業界初のエンドツーエンド 800 Gb/s ネットワーキング プラットフォームである NVIDIA Quantum-X800 InfiniBand プラットフォームも MLPerf に初登場し、スケールアウト ネットワーキング帯域幅を前世代比 2 倍に向上させました。

パフォーマンスの限界に挑戦:NVFP4 が LLM トレーニングを加速

今回の優れた結果の鍵となったのは、MLPerf トレーニング史上初となる NVFP4 精度を用いた計算の実行です。

コンピューティング パフォーマンスを向上させる 1 つの方法は、より少ないビット数で表現されるデータに対して計算を実行できるアーキテクチャを構築し、それらの計算をより高速に実行することです。しかし、精度が低いということは、各計算で利用できる情報が少なくなることを意味します。つまり、トレーニング プロセスで低精度の計算を使用する場合、結果の精度を維持するためには、慎重な設計上の決定が必要になります。

NVIDIA チームは、LLM トレーニングに FP4 精度を採用するために、スタックのあらゆるレイヤーで革新を起こしました。 NVIDIA Blackwell GPU は、NVIDIA 設計の NVFP4 形式をはじめとする FP4 演算を FP8 の 2 倍の速度で実行できます。Blackwell Ultra はこれを 3 倍に高速化し、GPU による AI コンピューティング性能を大幅に向上させます。

NVIDIA は、MLPerf トレーニングにおいて、ベンチマークの厳しい精度要件を満たしながら FP4 精度で計算を行った結果を提出した唯一のプラットフォームです。

NVIDIA Blackwell、新たな高みへ

NVIDIA は、5,000 台以上の Blackwell GPU が効率的に連携することで、Llama 3.1 405B のトレーニング時間をわずか 10 分という新記録を樹立しました。今回の結果は、前回の Blackwell ベースの最高記録の 2.7 倍の速度であり、これは GPU 数を 2 倍以上に効率的にスケーリングしたことと、NVFP4 精度を使用することで各 Blackwell GPU の実効性能を飛躍的に向上させたことによるものです。

GPUあたりのパフォーマンス向上を示すため、NVIDIAは今回のラウンドで2,560基のBlackwell GPUを使用した結果を提出しました。その結果、トレーニング時間は18.79分に達しました。これは、前回のラウンドで提出された2,496基のGPUを使用した結果と比べて45%高速化しています。

新しいベンチマーク、新記録

NVIDIAは、今回のラウンドで追加された2つの新しいベンチマーク、Llama 3.1 8BとFLUX.1でもパフォーマンス記録を樹立しました。

コンパクトながらも高性能なLLMであるLlama 3.1 8Bは、長時間実行されていたBERT-largeモデルに代わり、ベンチマークスイートに最新の小型LLMを追加しました。NVIDIAは最大512基のBlackwell Ultra GPUを使用した結果を提出し、トレーニング時間は5.2分という基準を樹立しました。

さらに、最先端の画像生成モデルであるFLUX.1がStable Diffusion v2に代わり、このベンチマークではNVIDIAプラットフォームのみが結果を提出しました。 NVIDIA は 1,152 基の Blackwell GPU を使用した結果を提出し、トレーニング時間 12.5 分という記録を樹立しました。

NVIDIA は、既存のグラフニューラルネットワーク、物体検出、レコメンデーションシステムのテストでも記録を更新し続けました。

幅広く奥深いパートナーエコシステム

NVIDIA エコシステムは今回のラウンドに積極的に参加し、ASUS、Dell Technologies、Giga Computing、Hewlett Packard Enterprise、Krai、Lambda、Lenovo、Nebius、Quanta Cloud Technology、Supermicro、フロリダ大学、Verda (旧 DataCrunch)、Wiwynn を含む 15 の組織から魅力的な提案が提出されました。

NVIDIA は 1 年周期でイノベーションを進め、事前トレーニング、事後トレーニング、推論のすべてにおいて大幅かつ迅速なパフォーマンス向上を実現することで、新たなレベルのインテリジェンスへの道を開き、AI の導入を加速させています。

NVIDIA のパフォーマンスデータの詳細については、データセンター ディープラーニング製品パフォーマンス ハブおよびパフォーマンス エクスプローラーのページをご覧ください。

カテゴリ: データセンター | ハードウェア | ネットワーキング |ソフトウェア
タグ: 人工知能

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH