Microsoft Azure、OpenAI向け世界初となるNVIDIA GB300 NVL72スーパーコンピューティングクラスターを発表

トレンドセッター
この記事を読むのにかかる時間: 3

Microsoft Azure は本日、新しい NDv6 GB300 VM シリーズを発表しました。このシリーズは、OpenAI の最も要求の厳しい AI 推論ワークロード向けに特別に構築された、業界初のスーパーコンピューティング規模の NVIDIA GB300 NVL72 システム本番クラスターです。

このスーパーコンピューター規模のクラスターは、NVIDIA Quantum-X800 InfiniBand ネットワーク プラットフォームを介して接続された 4,600 基以上の NVIDIA Blackwell Ultra GPU を搭載しています。Microsoft 独自のシステム アプローチは、メモリとネットワークに革新的なエンジニアリングを適用することで、推論モデルやエージェント AI システムにおける高い推論およびトレーニング スループットの実現に必要な、大規模なコンピューティング能力を提供します。

本日の成果は、NVIDIA と Microsoft が長年にわたり緊密に連携し、世界で最も要求の厳しい AI ワークロード向けに AI インフラストラクチャを構築し、AI の新たなフロンティアに向けたインフラストラクチャを提供することで実現したものです。これは、最先端の AI が米国におけるイノベーションを推進する、新たなリーダーシップの瞬間を示すものです。

「最先端のAI向けに業界初の大規模NVIDIA GB300 NVL72プロダクションクラスターを提供することは、単なる高性能シリコンにとどまらない成果です。これは、Microsoft AzureとNVIDIAが共に、現代のAIデータセンターのあらゆる部分を最適化するというコミットメントを反映したものです」と、Microsoft Azure AIインフラストラクチャ担当コーポレートバイスプレジデントのNidhi Chappell氏は述べています。

「この協業により、OpenAIのようなお客様が、かつてない規模とスピードで次世代インフラストラクチャを展開できるようになります。」

エンジンの中身:NVIDIA GB300 NVL72

Azureの新しいNDv6 GB300 VMシリーズの中核を成すのは、液冷式のラックスケールNVIDIA GB300 NVL72システムです。各ラックは強力なパワーハウスであり、72基のNVIDIA Blackwell Ultra GPUと36基のNVIDIA Grace CPUを単一の統合ユニットに統合することで、大規模なAIモデルのトレーニングと推論を加速します。

このシステムは、VMあたり37テラバイトという驚異的な高速メモリと1.44エクサフロップスのFP4 Tensor Core性能を提供し、推論モデル、エージェントAIシステム、複雑なマルチモーダル生成AIに不可欠な、大規模な統合メモリ空間を実現します。

NVIDIA Blackwell Ultraは、フルスタックのNVIDIA AIプラットフォームでサポートされています。これには、画期的なトレーニング性能を実現するNVFP4などの新しいフォーマットを活用する集合通信ライブラリや、推論AIにおける最高の推論性能を実現するNVIDIA Dynamoなどのコンパイラテクノロジが含まれます。

NVIDIA Blackwell Ultraプラットフォームは、トレーニングと推論の両方で優れた性能を発揮します。最近のMLPerf Inference v5.1ベンチマークでは、NVIDIA GB300 NVL72システムがNVFP4を使用して記録的なパフォーマンスを達成しました。結果として、6,710億パラメータのDeepSeek-R1推論モデルにおいて、NVIDIA Hopperアーキテクチャと比較してGPUあたり最大5倍のスループット向上が達成されたほか、Llama 3.1 405Bモデルなど、新たに導入されたすべてのベンチマークにおいて、リーダーシップを発揮するパフォーマンスを達成しました。

スーパーコンピューターのファブリック:NVLinkスイッチとNVIDIA Quantum-X800 InfiniBand

4,600台を超えるBlackwell Ultra GPUを単一の統合スーパーコンピューターに接続するために、Microsoft Azureのクラスターは、ラック内のスケールアップ性能とクラスター全体のスケールアウト性能の両方を実現するように設計された2層NVIDIAネットワークアーキテクチャを採用しています。

各GB300 NVL72ラックでは、第5世代NVIDIA NVLinkスイッチファブリックが、72台のBlackwell Ultra GPU間で130TB/秒の直接帯域幅を提供します。これにより、ラック全体が共有メモリプールを備えた単一の統合アクセラレータへと変貌します。これは、大規模でメモリを大量に消費するモデルにとって極めて重要な設計です。

ラックを超えて拡張するために、このクラスターは、兆パラメータ規模のAI向けに特別に設計されたNVIDIA Quantum-X800 InfiniBandプラットフォームを採用しています。NVIDIA ConnectX-8 SuperNICとQuantum-X800スイッチを搭載したNVIDIA Quantum-X800は、GPUあたり800Gbpsの帯域幅を提供し、4,608基のGPUすべてにわたるシームレスな通信を保証します。

Microsoft Azureのクラスターは、NVIDIA Quantum-X800の高度なアダプティブルーティング、テレメトリベースの輻輳制御、パフォーマンス分離機能に加え、NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) v4も採用しています。これらの機能は、大規模なトレーニングと推論の効率を大幅に向上させ、運用を高速化します。

AIの未来を牽引する

世界初となるこの規模のNVIDIA GB300 NVL72クラスターを本番環境で提供するには、カスタム液体冷却と電力分配から、オーケストレーションとストレージのためのソフトウェアスタックの再設計に至るまで、Microsoftデータセンターのあらゆるレイヤーを再構築する必要がありました。

この最新のマイルストーンは、AIの未来を切り開くインフラストラクチャ構築における大きな一歩です。Azureが数十万基のNVIDIA Blackwell Ultra GPUの導入という目標に向けて拡張するにつれ、OpenAIなどのお客様からさらに多くのイノベーションが生まれることが期待されます。

この発表の詳細については、Microsoft Azureブログをご覧ください。

カテゴリ:データセンター|スーパーコンピューティング
タグ:エージェント型AI|人工知能|ハイパフォーマンスコンピューティング|推論|NVLink|スーパーコンピューティング

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH