NVIDIA ソフトウェアのオプトインによりデータセンター フリート管理が可能に

トレンドセッター
この記事を読むのにかかる時間: 2

AIインフラストラクチャの規模と複雑さが増すにつれ、データセンター運営者は、パフォーマンス、温度、電力使用量といった要素を継続的に可視化する必要があります。これらのインサイトにより、データセンター運営者は大規模分散システム全体のデータセンター構成を積極的に監視・調整し、システムが最高の効率と信頼性で稼働していることを検証できます。

NVIDIAは、NVIDIA GPU群を可視化・監視するためのソフトウェアソリューションを開発しており、クラウドパートナーや企業に、コンピューティングインフラストラクチャ全体のGPU稼働率向上に役立つインサイトダッシュボードを提供します。

このサービスは、GPUの使用状況、構成、エラーを監視する、お客様がインストールするオプトイン型のサービスです。オープンソースのクライアントソフトウェアエージェントも含まれており、これは、お客様がGPU搭載システムを最大限に活用できるよう支援する、オープンで透明性のあるソフトウェアに対するNVIDIAの継続的なサポートの一環です。

このサービスにより、データセンター運営者は以下のことが可能になります。

電力使用量の急増を追跡し、エネルギー予算内でワットあたりのパフォーマンスを最大化しながら維持する。

フリート全体の使用率、メモリ帯域幅、相互接続の健全性を監視する。
ホットスポットやエアフローの問題を早期に検出し、サーマルスロットリングやコンポーネントの早期劣化を回避します。
ソフトウェアの構成と設定の一貫性を確認し、再現性のある結果と信頼性の高い動作を確保します。
エラーや異常を検出し、故障箇所を早期に特定します。

これらの機能により、企業やクラウドプロバイダーはGPUフリートを可視化し、システムのボトルネックを解消し、生産性を最適化して投資収益率を向上させることができます。

このオプションサービスは、各GPUシステムが外部クラウドサービスと通信し、GPUメトリクスを共有することで、リアルタイム監視を提供します。NVIDIA GPUには、ハードウェア追跡技術、キルスイッチ、バックドアはありません。

オープンソースエージェントがデータセンター所有者に洞察を提供

このサービスは、お客様がインストールしてノードレベルのGPUテレメトリデータをNVIDIA NGCでホストされるポータルにストリーミングできるクライアントソフトウェアエージェントを備えています。お客様は、ダッシュボードでGPUフリートの使用状況をグローバルまたはコンピューティングゾーン(同じ物理ロケーションまたはクラウドロケーションに登録されているノードのグループ)ごとに可視化できます。

ダッシュボードは、お客様のグローバルフリート全体のGPUステータスに関する洞察を提供します。

クライアントツールエージェントもオープンソース化される予定で、透明性と監査可能性を実現します。これにより、お客様はNVIDIAツールを自社のGPUインフラストラクチャ監視ソリューションに組み込む方法の実例を、重要なコンピューティングクラスターからフリート全体まで、実用的に利用できるようになります。

このソフトウェアは、企業のGPUインベントリに関する洞察を提供しますが、GPU構成や基盤となる操作を変更することはできません。読み取り専用のテレメトリデータを提供し、お客様が管理・カスタマイズ可能です。

このサービスでは、GPUフリート情報を詳細に記述したレポートを生成することも可能になります。

AIアプリケーションの数と複雑さが増すにつれ、現代のAIインフラストラクチャ管理も進化を続けています。AIがあらゆる業界とアプリケーションに革命をもたらす中、AIデータセンターが最高の状態で稼働していることを確保することは不可欠です。このソフトウェアサービスは、そのお手伝いをいたします。

詳細については、3月16日から19日までカリフォルニア州サンノゼで開催されるNVIDIA GTCにご登録ください。

ソフトウェア製品情報に関するお知らせをご覧ください。

カテゴリ:企業|ソフトウェア
タグ:サイバーセキュリティ

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH