SC25において、NVIDIAはNVIDIA BlueField DPU、次世代ネットワーク、量子コンピューティング、国家研究、AI物理学など、AIスーパーコンピューティングの新たな章を加速させるシステムにおける先進技術を発表しました。
NVIDIAのアクセラレーテッドコンピューティング担当バイスプレジデント兼ゼネラルマネージャーであるイアン・バック氏は、SC25で特別講演を行いました。
NVIDIAはまた、ギガスケールAIインフラストラクチャを加速するフルスタックBlueFieldプラットフォームの一部であるNVIDIA BlueField-4データプロセッシングユニットを活用したストレージイノベーションについても強調しました。
AIファクトリーのエネルギー消費量と運用コストを大幅に削減することを可能にするNVIDIA Quantum-X Photonics InfiniBand CPOネットワーキングスイッチについても詳細が発表され、TACC、Lambda、CoreWeaveがこれらのスイッチを統合する予定であることが発表されました。
そして、NVIDIAの創業者兼CEOであるジェンスン・フアン氏がセントルイスで開催されたSC25にサプライズ登場し、NVIDIAのスーパーコンピューティングに関する最新情報について聴衆に語りました。
「今年のビッグニュースはGrace Blackwellです。皆さんもご存知かもしれませんが、第2世代GraceプラットフォームであるGB300の生産は驚異的な勢いで進んでいます」とフアン氏は述べた。「私たちは、いわばチクレットのようなスーパーコンピュータを製造しているのです。」
彼はまた、地球上で最もコンパクトなスーパーコンピュータ、NVIDIA DGX Spark AIスーパーコンピュータをプレゼントとして持参した。
「これがDGX Sparkです。皆さんの中から数名、おそらく10名様に、このDGX Sparkが当たります」とフアン氏は言った。「クリスマスツリーの下に飾ったら、きっと素敵でしょうね。」
NVIDIAは先月、世界最小のAIスーパーコンピュータであるDGX Sparkの出荷を開始した。DGX Sparkは、1ペタフロップスのAI性能と128GBの統合メモリをデスクトップフォームファクターに搭載し、開発者は最大2000億パラメータのモデルで推論を実行し、ローカルでモデルを微調整することができる。 Grace Blackwell アーキテクチャを基盤とし、NVIDIA GPU、CPU、ネットワーク、CUDA ライブラリ、そして完全な NVIDIA AI ソフトウェア スタックを統合しています。
DGX Spark の統合メモリと NVIDIA NVLink-C2C は、PCIe Gen5 の 5 倍の帯域幅を提供し、GPU と CPU 間のデータ交換を高速化します。これにより、大規模モデルのトレーニング効率が向上し、レイテンシが低減し、シームレスな微調整ワークフローがサポートされます。これらすべてをデスクトップ フォーム ファクターで実現します。
AI 物理演算向けの最新オープン モデル ファミリーとして NVIDIA Apollo を発表
AI 物理演算向けのオープン モデル ファミリーである NVIDIA Apollo も SC25 で発表されました。Applied Materials、Cadence、LAM Research、Luminary Cloud、KLA、PhysicsX、Rescale、Siemens、Synopsys といった業界リーダー企業が、これらのオープン モデルを採用し、電子機器の自動化や半導体、数値流体力学、構造力学、電磁気学、気象など、幅広い分野で設計プロセスのシミュレーションと加速を実現しています。
オープンモデルファミリーは、AI物理学の最新技術を活用し、ニューラル演算子、トランスフォーマー、拡散法といったクラス最高の機械学習アーキテクチャとドメイン固有の知識を統合しています。Apolloは、トレーニング、推論、ベンチマークのための事前学習済みのチェックポイントとリファレンスワークフローを提供するため、開発者は特定のニーズに合わせてモデルを統合およびカスタマイズできます。
NVIDIA Warpが物理シミュレーションをスーパーチャージ 🔗
NVIDIA Warpは、計算物理学とAIのGPUアクセラレーションを最大245倍実現する、専用のオープンソースPythonフレームワークです。
NVIDIA Warpは、シミュレーション、ロボティクス、機械学習のワークロード向けに構造化されたアプローチを提供し、PythonのアクセシビリティとネイティブCUDAコードに匹敵するパフォーマンスを兼ね備えています。
Warpは、PyTorch、JAX、NVIDIA PhysicsNeMo、NVIDIA OmniverseのMLパイプラインと統合する、GPUアクセラレーションによる3Dシミュレーションワークフローの作成をサポートします。これにより、開発者はPythonプログラミング環境を離れることなく、複雑なシミュレーションタスクを実行し、大規模なデータ生成を行うことができます。
CUDAレベルのパフォーマンスとPythonレベルの生産性を提供することで、Warpは高性能シミュレーションワークフローの開発を簡素化します。Warpは、GPUプログラミングの障壁を低減し、高度なシミュレーションとデータ生成をより効率的かつ広く利用できるようにすることで、AI研究とエンジニアリングを加速するように設計されています。
Siemens、Neural Concept、Luminary Cloudなど、多くの企業がNVIDIA Warpを採用しています。
NVIDIA BlueField-4 DPU:AIファクトリーのOSを支えるプロセッサ
AIファクトリーのOSを支えるBlueField-4をご紹介 🔗
ワシントンD.C.で開催されたGTCで発表されたNVIDIA BlueField-4 DPUは、AIファクトリーのOSを支えています。ネットワーク、ストレージ、セキュリティといった重要なデータセンター機能をオフロード、高速化、分離することで、CPUとGPUを解放し、計算集約型のワークロードに完全に集中できるようにします。
BlueField-4は、64コアのNVIDIA Grace CPUとNVIDIA ConnectX-9ネットワークを組み合わせることで、かつてないパフォーマンス、効率性、そしてゼロトラストセキュリティを大規模に実現します。マルチテナント環境、高速データアクセス、リアルタイム保護をサポートし、NVIDIA DOCAマイクロサービスとのネイティブ統合により、スケーラブルでコンテナ化されたAI運用を実現します。これらを組み合わせることで、データセンターを1兆トークン以上のAIに対応するインテリジェントなソフトウェア定義エンジンへと変革します。
AIファクトリーやスーパーコンピューティングセンターは規模と能力の拡大を続けており、大規模なトレーニングと推論のための構造化データ、非構造化データ、そしてAIネイティブデータを管理するために、より高速でインテリジェントなストレージインフラストラクチャを必要としています。
ストレージのイノベーターとして世界をリードするDDN、VAST Data、WEKAは、AIと科学研究ワークロードのパフォーマンスと効率性を再定義するためにBlueField-4を採用しています。
DDNは次世代AIファクトリーを構築し、データパイプラインを高速化することで、AIとHPCワークロードにおけるGPU利用率を最大化しています。
VAST Dataは、大規模AIクラスター全体にわたるインテリジェントなデータ移動とリアルタイム効率により、AIパイプラインを進化させています。
WEKAは、BlueField-4上でNeuralMeshアーキテクチャをリリースし、DPU上で直接ストレージサービスを実行することで、AIインフラストラクチャの簡素化と高速化を実現します。
これらのHPCストレージリーダーは、NVIDIA BlueField-4がデータ移動と管理をどのように変革し、ストレージを次世代のスーパーコンピューティングとAIインフラストラクチャにおけるパフォーマンスの倍増器へと変えるかを実証しています。
NVIDIA ConnectX-9 SuperNIC
NVIDIA Co-Packaged Opticsを採用し、速度と信頼性を実現 🔗
TACC、Lambda、CoreWeaveは、早ければ来年にもNVIDIA Quantum-X Photonics CPOスイッチを次世代システムに統合することを発表しました。
NVIDIA Quantum-X Photonicsネットワーキングスイッチは、AIファクトリーやスーパーコンピューティングセンターのエネルギー消費量と運用コストを大幅に削減します。NVIDIAは、電子回路と光通信のこの大規模な融合を実現しました。
AIファクトリーがかつてない規模に成長するにつれ、ネットワークもそれに追いつくために進化する必要があります。ジョブ実行時の障害の一般的な原因となる従来のプラガブルトランシーバーを排除することで、NVIDIA Photonicsスイッチシステムは、電力効率を3.5倍向上させるだけでなく、10倍の耐障害性を実現し、アプリケーションの中断のない実行時間を5倍に延ばします。
シリコンバレーで開催されたGTC 2024において、NVIDIAは、兆パラメータ規模の生成AIモデルに対応するために特別に設計されたNVIDIA Quantum-X800 InfiniBandスイッチを発表しました。これらのプラットフォームは、SHARPv4やFP8のサポートといった革新的な技術により、800Gb/sという驚異的なエンドツーエンドスループットを実現します。これは、従来製品と比較して帯域幅は2倍、ネットワーク内コンピューティング能力は9倍に相当します。
NVIDIA Quantum-X800 は、大規模 AI の需要に応えるため、引き続き広く採用されています。今年初めの GTC で発表された NVIDIA Quantum-X Photonics は、さらに大規模な導入における重要な電力、耐障害性、シグナルインテグリティの課題に対処します。スイッチに光モジュールを直接統合することで、プラガブルトランシーバーやリンクフラップによる障害を排除し、ワークロードを大規模環境でも中断なく実行できるようにします。また、インフラストラクチャは、プラガブルトランシーバーを使用する場合よりも最大 5 倍優れたパフォーマンスで、次世代のコンピューティング集約型アプリケーションをサポートできます。
「NVIDIA Quantum-X Photonics は、高性能で耐障害性に優れた AI ネットワーク構築における次のステップを象徴しています」と、Lambda のクラウドインフラストラクチャ担当プロダクトマネージャーである Maxx Garrison 氏は述べています。「電力効率、シグナルインテグリティ、信頼性におけるこれらの進歩は、お客様の大規模ワークロードを効率的にサポートするための鍵となるでしょう。」
SHARPv4は、ネットワーク内での集約と削減を可能にし、GPU間通信のオーバーヘッドを最小限に抑えます。FP8精度と組み合わせることで、帯域幅と計算負荷を削減し、兆パラメータモデルのトレーニングを高速化します。これにより、収束速度とスループットが向上し、NVIDIA Quantum-X800およびQuantum-X Photonicsスイッチに標準装備されています。
「CoreWeaveはAIに不可欠なクラウドを構築しています」と、CoreWeaveの共同創業者兼最高技術責任者であるピーター・サランキ氏は述べています。「NVIDIA Quantum-X Photonicsにより、電力効率を向上させ、大規模なAIワークロードを大規模にサポートするCoreWeaveの信頼性をさらに向上させ、お客様が次世代AIの潜在能力を最大限に引き出すお手伝いをします。」
NVIDIA Quantum Q3450 CPOベースのInfiniBandスイッチとConnectX-8 SuperNICを基盤とするNVIDIA Quantum-X Photonicsプラットフォームは、大幅な低消費電力、高い耐障害性、低レイテンシも求められる最高性能環境向けに設計されています。
世界中のスーパーコンピューティングセンターがNVQLinkを採用
世界トップクラスの科学計算センター12カ所以上が、アクセラレーテッドコンピューティングと量子プロセッサを連携させるユニバーサルインターコネクトであるNVQLinkを採用しています。
NVIDIAのアクセラレーテッドコンピューティング担当バイスプレジデント兼ゼネラルマネージャーであるイアン・バック氏は、「スーパーコンピューティング部門では、次世代の量子GPU、CPU、GPUスーパーコンピュータの構築に熱心に取り組み、それらを量子コンピューティングのための特定の研究分野や展開プラットフォームに接続する方法に関心を持つ世界中のスーパーコンピューティングセンターと協力関係を築いてきたことを発表します」と述べています。
NVQLink は量子プロセッサと NVIDIA GPU を接続し、CUDA-Q ソフトウェア プラットフォームを活用した大規模ワークフローを実現します。NVQLink のオープン アーキテクチャは、スーパーコンピューティング センターが多様な量子プロセッサを統合し、FP4 精度で 40 ペタフロップスの AI 性能を実現するために必要な重要なリンクを提供します。
将来的には、すべてのスーパーコンピュータが量子プロセッサを活用して解決可能な問題を拡大し、すべての量子プロセッサが正常に動作するために GPU スーパーコンピュータに依存するようになります。
量子コンピューティング企業 Quantinuum の新しい Helios QPU は、NVQLink を介して NVIDIA GPU と統合され、スケーラブルな qLDPC 量子誤り訂正符号のリアルタイム デコードに世界で初めて成功しました。NVQLink のマイクロ秒単位の低レイテンシにより、システムは 99% の忠実度を維持しました。これは、訂正なしの場合の 95% と比較して大幅に向上しています。
NVQLinkにより、科学者や開発者は量子ハードウェアと従来ハードウェアを繋ぐ普遍的な橋渡しを実現し、スケーラブルなエラー訂正、ハイブリッドアプリケーション、リアルタイム量子GPUワークフローを実現します。
アジア太平洋地域では、日本の産業技術総合研究所(AIST)と理化学研究所計算科学研究センターの量子AI技術ビジネスグローバル研究開発センター(G-QuAT)、韓国の韓国科学技術情報研究院(KISTI)、台湾の国立高性能計算センター(NCHC)、シンガポールの国立量子コンピューティングハブ(シンガポール量子技術センター、A*STAR高性能計算研究所、シンガポール国立スーパーコンピューティングセンターの共同イニシアチブ)、そしてオーストラリアのPawseyスーパーコンピューティング研究センターなどが早期導入機関です。
ヨーロッパと中東では、CINECA、デンマークのAIスーパーコンピュータ運営会社DCAI、フランスのGrand Équipement National de Calcul Intensif(GENCI)、チェコ共和国のIT4Innovations National Supercomputing Center(IT4I)、ドイツのユーリヒ・スーパーコンピューティング・センター(JSC)、ポーランドのポズナン・スーパーコンピューティング・ネットワーキング・センター(PCSS)、テクノロジー・イノベーション・インスティテュート(TII)、UAE、サウジアラビアのキング・アブドラ科学技術大学(KAUST)など、主要な国立研究所がNVQLinkを採用しています。
米国では、ブルックヘブン国立研究所、フェルミ国立加速器研究所、ローレンス・バークレー国立研究所、ロスアラモス国立研究所、MITリンカーン研究所、国立エネルギー研究科学計算センター、オークリッジ国立研究所、パシフィック・ノースウェスト国立研究所、サンディア国立研究所など、主要な国立研究所もNVQLinkを採用し、量子古典融合研究を推進しています。
実世界におけるハイブリッドアプリケーションの開発
NVQLinkを搭載したQuantinuumのHelios QPUは、以下の成果を実現しました。
qLDPC誤り訂正符号のリアルタイムデコードに初めて成功
NVQLink訂正ありで約99%の忠実度(NVQLinkなしの場合約95%)
反応時間60マイクロ秒(Heliosの1ミリ秒要件を16倍上回る)
NVQLinkは、量子プロセッサとGPUスーパーコンピューティングを統合し、スケーラブルな誤り訂正とハイブリッドアプリケーションを実現します。科学者はCUDA-Q APIを通じて単一のプログラミング環境を利用できます。開発者は量子GPUワークフローをリアルタイムで構築・テストできます。
NVQLinkを活用することで、世界中のスーパーコンピューティングセンターは、多様な量子プロセッサをNVIDIAアクセラレーテッドコンピューティングにかつてない速度と規模で接続し、実用的な量子古典システムの基盤を構築しています。
NVIDIAと理化学研究所、日本の科学の最先端を開拓
NVIDIAと理化学研究所は、科学AIと量子コンピューティングにおける日本のリーダーシップ拡大を目指し、2基の新たなGPUアクセラレーション・スーパーコンピュータを構築しています。これらのシステムは、GB200 NVL4プラットフォームとNVIDIA Quantum-X800 InfiniBandネットワークを介して接続された2,140基のNVIDIA Blackwell GPUを搭載し、日本の主権AI戦略と安全な国内インフラの強化に貢献します。
AI for Scienceシステム:1,600基のBlackwell GPUが、ライフサイエンス、材料科学、気候・気象予報、製造、ラボオートメーションといった分野の研究を支援します。
量子コンピューティングシステム:540基のBlackwell GPUが、量子アルゴリズム、ハイブリッドシミュレーション、量子古典的手法を高速化します。
このパートナーシップは、理化学研究所が富士通およびNVIDIAと共同で「富岳」スーパーコンピュータの後継機「富岳NEXT」を共同設計した実績に基づいています。富岳NEXTは、2030年までに100倍のアプリケーション性能を実現し、実用レベルの量子コンピュータを統合することが期待されています。
理化学研究所の新しい2つのシステムは、2026年春の運用開始が予定されています。
ArmがNVIDIA NVLink Fusionを採用 🔗
AIは、一世代に一度のアーキテクチャ変革によってデータセンターのあり方を大きく変えつつあり、ワットあたりの効率が成功を決定づけています。その中心となるのがArm Neoverseです。Arm Neoverseは10億コア以上に導入されており、2025年までにハイパースケーラー市場シェアの50%に達すると予測されています。AWS、Google、Microsoft、Oracle、Metaといった主要プロバイダーはすべてNeoverseを基盤として構築しており、大規模なAIの実現におけるその役割を強調しています。
急増する需要に対応するため、Armは、Grace Blackwellと共同で開発した高帯域幅のコヒーレントインターコネクトであるNVIDIA NVLink FusionでNeoverseを拡張しています。 NVLink Fusion は、CPU、GPU、アクセラレータを統合されたラックスケールアーキテクチャに統合し、AI パフォーマンスを制限するメモリと帯域幅のボトルネックを解消します。Arm の AMBA CHI C2C プロトコルと接続することで、Arm ベースの CPU とパートナーが推奨するアクセラレータ間のシームレスなデータ移動を実現します。
Arm と NVIDIA は協力して AI インフラストラクチャの新たな標準を確立し、エコシステムパートナーが AI 時代におけるイノベーションを加速する、差別化されたエネルギー効率の高いシステムを構築できるようにします。
「独自に ARM CPU を構築している方、あるいは Arm IP を使用している方は、NVLink Fusion にアクセスし、その ARM CPU を NVIDIA GPU やその他の NVLink エコシステムに接続できるようになります。これはラックやスケールアップインフラストラクチャで実現します」と Buck 氏は述べています。
アクセラレーテッドコンピューティングのためのよりスマートな電力
AI ファクトリーの規模拡大に伴い、エネルギーが新たなボトルネックになりつつあります。NVIDIA Domain Power Service (DPS) は、この制約を機会へと転換し、電力を動的かつオーケストレーションされたリソースへと変換します。 Kubernetes サービスとして実行される DPS は、ラックから部屋、施設に至るまで、データセンター全体のエネルギー使用量をモデル化および管理します。これにより、オペレーターは電力をインテリジェントに制限することでメガワットあたりのパフォーマンスを向上させ、インフラストラクチャを拡張することなくスループットを向上させることができます。
DPS は、次世代データセンターの設計と運用のためのプラットフォームである NVIDIA Omniverse DSX Blueprint と緊密に統合されています。Power Reservation Steering などのテクノロジーと連携して施設全体のワークロードのバランスを調整し、Workload Power Profile Solution によって特定のジョブのニーズに合わせて GPU 電力を調整します。これらを組み合わせることで、DSX Boost が実現します。これは、エネルギーを考慮した制御レイヤーであり、パフォーマンス目標を達成しながら効率を最大化します。
DPS はデータセンター以外にも拡張可能です。グリッド対応 API を使用することで、自動負荷制限とデマンドレスポンスをサポートし、電力会社がピーク時にグリッドを安定化させるのに役立ちます。その結果、あらゆるワットを測定可能な進捗に変換する、回復力に優れたグリッドインタラクティブな AI ファクトリーが実現します。
NVIDIAとCoreWeave、Graph500 BFSベンチマークで優勝、過去最高記録の2倍を達成 🔗
NVIDIAは本日、ダラスのCoreWeaveデータセンターにホストされた8,192基のNVIDIA H100 GPUを使用し、1秒あたり410兆エッジのトラバースを達成し、第30回Graph500幅優先探索リストで1位を獲得しました。これは、過去最高記録の2倍以上のパフォーマンスです。
このベンチマークは、大規模なグラフデータセットを処理するシステムの能力を測る指標です。優勝に至った実行では、NVIDIAは2.2兆頂点、35兆エッジのグラフを使用しました。
8,192基のH100 GPUを搭載したCoreWeaveクラスター上で実行されたNVIDIAの提出結果は、第30回Graph500幅優先探索リストのリーダーボードで首位を獲得しました。
これらの成果は、NVIDIA Hopper GPU アーキテクチャ、NVIDIA Quantum-2 InfiniBand ネットワーキング、NVIDIA と CoreWeave の連携、そして多くの NVIDIA テクノロジーを活用したカスタム ソフトウェア実装によって実現されました。これには、CUDA プラットフォーム、NVSHMEM 並列プログラミング インターフェース、InfiniBand GPUDirect Async テクノロジー、そして高性能 GPU 間アクティブ メッセージング用に構築されたライブラリが含まれます。
NVIDIA、HPCwire アワードを 13 回受賞 🔗
NVIDIA は 21 年連続で HPCwire Readers’ Choice アワードと Editors’ Choice アワードを受賞し、合計 13 回受賞しました。これらの成果は、エンジニア、開発者、研究者、パートナー、顧客など、科学コミュニティ全体の努力の成果です。
受賞対象は以下の通りです。
読者賞:最優秀AI製品・テクノロジー賞 — NVIDIA GB300 NVL72
読者賞:エネルギー分野におけるHPCの最優秀活用賞 — 国立スーパーコンピューティング応用研究所(National Center for Supercomputing Applications)とイリノイ大学アーバナ・シャンペーン校の研究者が、仮想センシング・デジタルツインをベースとし、NVIDIA GH200搭載のDeltaAI HPCクラスターでトレーニングしたディープラーニング演算子を開発しました。
編集者賞:HPCアプリケーション拡張のためのAI手法の最優秀活用賞 — バーミンガム大学の高スループット生物多様性スクリーニングキット。同大学のBlueBEARクラスターとNVIDIA A100 GPUを使用しています。
読者賞:クラウドにおけるHPCの最優秀活用賞 — 米国国立科学財団(NSF)が資金提供するサンディエゴ・スーパーコンピュータ・センターの早期概念探索研究助成金プロジェクト。NVIDIA DGXクラウド・プラットフォームを使用して、国立人工知能研究リソース(National Artificial Intelligence Research Resource)のパイロットプロジェクトを実行しました。
読者賞:最優秀HPCプログラミングツール・テクノロジー賞 — NVIDIA Warp
読者選出:最優秀HPCインターコネクト製品またはテクノロジー — NVIDIA Quantum-X800
読者選出:最高のエネルギー効率を誇るHPCの成果 — NVIDIA cuBLASは、NVIDIA B200 GPUを搭載したあらゆるシステムのエネルギー効率スコアを2倍に向上させます
読者選出:最高のHPC対応科学的成果 — マックス・プランク気象研究所のICONチームは、NVIDIA GH200スーパーチップを使用して、1.25 kmグリッド間隔で地球全体のシステムを初めてグローバルシミュレーションしました
読者選出:注目のベンダートップ5 — NVIDIA
読者選出:注目の新製品またはテクノロジートップ5 — NVIDIA Quantum-X800
読者選出:注目の新製品またはテクノロジートップ5 — NVIDIA Warp
読者選出:注目の新製品またはテクノロジートップ5 — NVIDIA Spectrum-X Ethernet
編集者選出:注目の新製品またはテクノロジートップ5 — NVIDIA NVLink Fusion
カテゴリー: 企業 | データセンター | ハードウェア | ネットワーキング | スーパーコンピューティング
タグ: デジタルツイン | NVIDIA Blackwell プラットフォーム | NVIDIA BlueField | NVLink | Omniverse Enterprise | 量子コンピューティング | シミュレーションと設計
出典: 元記事を読む
※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。