スマートに考える:AIファクトリーの推論パフォーマンスを最適化する方法

トレンドセッター
この記事を読むのにかかる時間: 5

深い調査を行うAIアシスタントから、瞬時にナビゲーションの判断を行う自動運転車まで、AIの導入は業界全体で爆発的に増加しています。

こうしたあらゆるインタラクションの背後には推論があります。推論とは、トレーニング後にAIモデルが入力を処理し、リアルタイムで出力を生成する段階です。

今日の最先端のAI推論モデルは、多段階のロジックと複雑な意思決定が可能で、従来のモデルと比較して1回のインタラクションで生成されるトークンの量がはるかに多く、トークン使用量の急増と、大規模なインテリジェンス製造を可能にするインフラの必要性が高まっています。

AIファクトリーは、こうした高まるニーズに応える一つの方法です。

しかし、このような大規模な推論を実行するには、単に計算リソースを投入するだけでは不十分です。

AIを最大限の効率で導入するには、Think SMARTフレームワークに基づいて推論を評価する必要があります。

規模と複雑さ
多次元パフォーマンス
アーキテクチャとソフトウェア
パフォーマンスに基づく投資収益率
テクノロジーエコシステムとインストールベース
規模と複雑さ

モデルがコンパクトなアプリケーションから大規模なマルチエキスパートシステムへと進化するにつれ、推論はますます多様化するワークロードに対応する必要があります。迅速な単発クエリへの回答から、数百万のトークンを伴う多段階推論まで、そのペースは加速します。

AIモデルの規模と複雑さの拡大は、リソース集約度、レイテンシとスループット、エネルギーとコスト、そしてユースケースの多様性など、推論に大きな影響をもたらします。

こうした複雑さに対応するため、AIサービスプロバイダーと企業はインフラストラクチャのスケールアップを進めており、CoreWeave、Dell Technologies、Google Cloud、Nebiusなどのパートナー企業から新たなAIファクトリーが稼働しています。

多次元パフォーマンス

複雑なAI導入をスケールアップするには、AIファクトリーが、精度、レイテンシ、コストのバランスを取りながら、幅広いユースケースにわたってトークンを提供できる柔軟性が必要です。

リアルタイム音声テキスト翻訳などのワークロードでは、超低レイテンシとユーザーあたりの大量のトークンが求められ、応答性を最大化するために計算リソースに負担がかかります。一方、数十もの複雑な質問への回答を同時に生成するなど、レイテンシの影響を受けず、純粋なスループットに重点が置かれたワークロードもあります。

しかし、最も一般的なリアルタイムシナリオは、その中間のどこかで動作します。つまり、ユーザー満足度を維持するための迅速な応答と、最大数百万のユーザーに同時にサービスを提供するための高いスループットが求められ、トークンあたりのコストを最小限に抑える必要があります。

例えば、NVIDIA推論プラットフォームは、レイテンシとスループットの両方のバランスをとるように構築されており、gpt-oss、DeepSeek-R1、Llama 3.1などのモデルで推論ベンチマークを実行できます。

最適な多次元パフォーマンスを実現するために評価すべきこと
スループット:システムは1秒あたりに何個のトークンを処理できるか?トークンが多いほど、ワークロードと収益のスケーリングに有利です。
レイテンシ:システムは個々のプロンプトにどれだけ速く応答するか?低レイテンシはユーザーエクスペリエンスの向上を意味し、これはインタラクティブアプリケーションにとって極めて重要です。
スケーラビリティ:システム構成は、需要の増加に合わせて、複雑な再構築やリソースの無駄をすることなく、1基のGPUから数千基のGPUへと迅速に適応できますか?
コスト効率:コストパフォーマンスは高く、システム需要の増加に伴い、その向上は持続可能でしょうか?
アーキテクチャとソフトウェア

AI推論のパフォーマンスは、根本から設計する必要があります。これは、ハードウェアとソフトウェアが同期して動作することで実現されます。つまり、GPU、ネットワーク、そしてコードが調整され、ボトルネックを回避し、あらゆるサイクルを最大限に活用できるということです。

強力なアーキテクチャでも、スマートなオーケストレーションがなければ、潜在能力は無駄になります。優れたソフトウェアでも、高速で低レイテンシのハードウェアがなければ、パフォーマンスは低下します。重要なのは、プロンプトを迅速かつ効率的かつ柔軟に、有用な回答に変換できるシステムを設計することです。

企業はNVIDIAインフラストラクチャを活用することで、最適なパフォーマンスを提供するシステムを構築できます。

AIファクトリー規模の推論に最適化されたアーキテクチャ

NVIDIA Blackwell プラットフォームは、AIファクトリーの推論生産性を50倍向上させます。つまり、企業は最も複雑なモデルを実行する場合でも、スループットとインタラクティブな応答性を最適化できます。

NVIDIA GB200 NVL72 ラックスケールシステムは、36 基の NVIDIA Grace CPU と 72 基の Blackwell GPU を NVIDIA NVLink インターコネクトで接続し、要求の厳しい AI 推論ワークロードにおいて、収益ポテンシャルを 40 倍、スループットを 30 倍、エネルギー効率を 25 倍、水効率を 300 倍向上させます。

さらに、NVFP4 は低精度フォーマットであり、NVIDIA Blackwell で最高のパフォーマンスを発揮し、精度を損なうことなく電力、メモリ、帯域幅の需要を大幅に削減します。そのため、ユーザーはワットあたりのクエリ数を増やし、トークンあたりのコストを削減できます。

Blackwell で高速化されたフルスタック推論プラットフォーム

AIファクトリー規模の推論を実現するには、高速化されたアーキテクチャ以上のものが求められます。複数のレイヤーにわたるソリューションとツールが連携して動作するフルスタックプラットフォームが必要です。

現代のAI導入には、1基から数千基のGPUまで、動的なオートスケーリングが必要です。NVIDIA Dynamoプラットフォームは、分散推論を制御し、GPUを動的に割り当ててデータフローを最適化することで、コスト増加なしで最大4倍のパフォーマンスを実現します。新しいクラウド統合により、スケーラビリティと導入の容易さがさらに向上します。

大規模なエキスパートモデルの高速化など、GPUあたりの最適なパフォーマンスの実現に重点を置いた推論ワークロードでは、NVIDIA TensorRT-LLMなどのフレームワークが、開発者が画期的なパフォーマンスを実現するのを支援します。

PyTorchを中心とした新しいワークフローを備えたTensorRT-LLMは、手動によるエンジン管理の必要性を排除することで、AI導入を効率化します。これらのソリューションは単体でも強力であるだけでなく、連携して動作するように構築されています。例えば、DynamoとTensorRT-LLMを活用することで、Basetenのようなミッションクリティカルな推論プロバイダーは、gpt-ossのような最先端のモデルでも、最先端のモデルパフォーマンスを即座に提供できます。

モデルに関しては、NVIDIA Nemotronなどのファミリーは、透明性を確保するためにオープンなトレーニングデータを使用して構築されており、高度な推論タスクを高精度で処理するのに十分な速さでトークンを生成します。しかも、計算コストは​​増加しません。また、NVIDIA NIMを利用することで、これらのモデルをすぐに実行できるマイクロサービスにパッケージ化できるため、チームはモデルを複数の環境に展開し、拡張しやすくなり、総所有コストを最小限に抑えることができます。

これらのレイヤー(動的なオーケストレーション、最適化された実行、適切に設計されたモデル、簡素化されたデプロイメント)は、クラウドプロバイダーと企業の両方にとって、推論を実現する基盤を形成します。

パフォーマンスが推進する投資収益率

AIの導入が進むにつれ、組織はユーザークエリごとの投資収益率を最大化することへの関心が高まっています。

パフォーマンスは投資収益率を最も大きく左右する要素です。 NVIDIA Hopper アーキテクチャから Blackwell アーキテクチャへのパフォーマンスの 4 倍向上は、同等の電力予算内で最大 10 倍の利益増加をもたらします。

電力制限のあるデータセンターや AI ファクトリーでは、ワットあたりのトークン生成量を増やすことが、ラックあたりの収益増加に直結します。トークンのスループットを効率的に管理し、レイテンシ、精度、ユーザー負荷のバランスをとることは、コスト削減に不可欠です。

業界ではコスト削減が急速に進んでおり、スタック全体の最適化により、100 万トークンあたりのコストが 80% 削減されるケースもあります。ハイパースケールデータセンターでもローカル AI PC でも、NVIDIA の推論エコシステムが提供する gpt-oss やその他のオープンソースモデルを実行することで、同様のメリットが得られます。

テクノロジーエコシステムとインストールベース

モデルが進化するにつれて、コンテキストウィンドウの延長、トークンの増加、より洗練されたランタイム動作など、推論パフォーマンスは向上します。

オープンモデルはこの勢いを牽引しており、今日の AI 推論ワークロードの 70% 以上を高速化しています。これらのツールにより、スタートアップ企業も大企業も、あらゆる分野でカスタムエージェント、コパイロット、アプリケーションを構築できます。

オープンソースコミュニティは、生成型AIエコシステムにおいて、コラボレーションの促進、イノベーションの加速、そしてアクセスの民主化といった重要な役割を果たしています。NVIDIAは、GitHub上に1,000以上のオープンソースプロジェクトを保有しているほか、Hugging Face上に450以上のモデルと80以上のデータセットを保有しています。これらのプロジェクトは、JAX、PyTorch、vLLM、TensorRT-LLMといった人気のフレームワークをNVIDIAの推論プラットフォームに統合するのに役立ち、あらゆる構成において最大限の推論性能と柔軟性を確保しています。

だからこそ、NVIDIAはllm-dなどのオープンソースプロジェクトへの貢献を継続し、Llama、Google Gemma、NVIDIA Nemotron、DeepSeek、gpt-ossといったオープンモデルに関する業界リーダーとの連携も進めています。これにより、AIアプリケーションをアイデアから実用化まで、かつてないスピードで実現できるよう支援しています。

最適化された推論の要点

NVIDIA推論プラットフォームと、最新のAIワークロードを展開するためのThink SMARTフレームワークを組み合わせることで、企業は急速に進化するモデルの需要にインフラストラクチャが対応し、生成される各トークンが最大限の価値を提供できるようにすることができます。

推論がAIファクトリーの収益創出ポテンシャルをどのように高めるかについて詳しくは、こちらをご覧ください。

毎月の最新情報については、NVIDIA Think SMARTニュースレターにご登録ください。

カテゴリ:データセンター
タグ:AIファクトリー | 人工知能 | dynamo | 推論

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH