OpenAI の新しいオープンモデルが NVIDIA GeForce RTX および RTX PRO GPU でローカルに高速化

トレンドセッター
この記事を読むのにかかる時間: 4

NVIDIA は OpenAI との協力により、同社の新しいオープンソース gpt-oss モデルを NVIDIA GPU 向けに最適化し、クラウドから PC までスマートで高速な推論を実現しました。これらの新しい推論モデルは、Web 検索や詳細な調査など、エージェント型 AI アプリケーションを可能にします。

gpt-oss-20b と gpt-oss-120b のリリースにより、OpenAI は最先端のモデルを数百万人のユーザーに公開しました。AI 愛好家や開発者は、Ollama、llama.cpp、Microsoft AI Foundry Local といった人気のツールやフレームワークを通じて、NVIDIA RTX AI PC やワークステーションで最適化されたモデルを使用でき、NVIDIA GeForce RTX 5090 GPU では最大 256 トークン/秒のパフォーマンスが期待できます。

NVIDIA の創業者兼 CEO であるジェンスン フアン (Jensen Huang) は次のように述べています。「OpenAI は NVIDIA AI で何が実現できるかを世界に示したのです。そして今、OpenAI はオープンソース ソフトウェアにおけるイノベーションを推進しています。」 gpt-ossモデルにより、世界中の開発者が最先端のオープンソース基盤を基盤として開発を進め、AIにおける米国の技術リーダーシップを強化できます。しかも、すべて世界最大のAIコンピューティング・インフラストラクチャ上で実現されます。

これらのモデルのリリースは、トレーニングから推論、そしてクラウドからAI PCに至るまで、NVIDIAのAIリーダーシップを強調するものです。

誰でも利用可能

gpt-oss-20bとgpt-oss-120bはどちらも、思考連鎖機能と調整可能な推論努力レベルを備えた、柔軟性の高いオープンウェイト推論モデルです。人気の高いMixture-of-Expertsアーキテクチャを採用しています。これらのモデルは、命令追従やツール使用などの機能をサポートするように設計されており、NVIDIA H100 GPUでトレーニングされています。AI開発者は、NVIDIAテクニカルブログで詳細を確認し、命令の使用を開始できます。

これらのモデルは、最大131,072のコンテキスト長をサポートでき、これはローカル推論で利用可能な最長クラスの長さです。つまり、これらのモデルはコンテキスト問題を推論できるため、Web検索、コーディング支援、文書理解、詳細な調査といったタスクに最適です。

OpenAIオープンモデルは、NVIDIA RTXでサポートされる最初のMXFP4モデルです。MXFP4は高品質のモデルを実現し、他の精度タイプと比較して少ないリソースで高速かつ効率的なパフォーマンスを提供します。

Ollamaを使用してNVIDIA RTXでOpenAIモデルを実行

これらのモデルをRTX AI PC(少なくとも24GBのVRAMを搭載したGPU)でテストする最も簡単な方法は、新しいOllamaアプリを使用することです。Ollamaは統合の容易さからAI愛好家や開発者に人気があり、新しいユーザーインターフェース(UI)にはOpenAIのオープンウェイトモデルがすぐにサポートされています。OllamaはRTX向けに完全に最適化されているため、PCやワークステーションでパーソナルAIのパワーを体験したいユーザーに最適です。

Ollamaをインストールすると、モデルとの迅速かつ簡単なチャットが可能になります。ドロップダウンメニューからモデルを選択し、メッセージを送信するだけです。 OllamaはRTX向けに最適化されているため、対応GPUで最高のパフォーマンスを確保するために追加の設定やコマンドは必要ありません。

OllamaでOpenAIのオープンモデルをテストするのは簡単です。

Ollamaの新しいアプリには、チャット内でのPDFやテキストファイルの簡単なサポート、対応モデルでのマルチモーダルサポート(プロンプトに画像を含めることができる)、大容量ドキュメントやチャットを扱う際のコンテキスト長の簡単なカスタマイズなど、その他の新機能も含まれています。

開発者は、コマンドラインインターフェースまたはアプリのソフトウェア開発キット(SDK)を介してOllamaを使用し、アプリケーションやワークフローを強化することもできます。

RTXで新しいOpenAIモデルを使用するその他の方法

愛好家や開発者は、16GB以上のVRAMを搭載したGPU上で、RTXを搭載した様々なアプリケーションやフレームワークを通じて、RTX AI PCでgpt-ossモデルを試すこともできます。

NVIDIA は、RTX GPU のパフォーマンスを最適化するため、llama.cpp と GGML テンソルライブラリの両方においてオープンソース コミュニティとの連携を継続しています。最近の貢献としては、オーバーヘッドを削減するための CUDA グラフの実装や、CPU オーバーヘッドを削減するアルゴリズムの追加などが挙げられます。まずは llama.cpp の GitHub リポジトリをご覧ください。

さまざまな RTX AI PC における gpt-oss-20b モデルの全体的なパフォーマンス。

Windows 開発者は、現在パブリックプレビュー中の Microsoft AI Foundry Local を介して OpenAI の新しいモデルにアクセスすることもできます。Foundry Local は、コマンドライン、SDK、またはアプリケーション プログラミング インターフェイスを介してワークフローに統合できる、デバイス上の AI 推論ソリューションです。Foundry Local は、CUDA で最適化された ONNX ランタイムを使用し、NVIDIA TensorRT for RTX のサポートも近日中に開始されます。使い始めるのは簡単です。Foundry Local をインストールし、ターミナルで「Foundry model run gpt-oss-20b」と入力するだけです。

これらのオープンソースモデルのリリースは、AI アクセラレーション対応 Windows アプリケーションに推論機能を追加したいと考えている愛好家や開発者による、AI イノベーションの新たな波の幕開けとなります。

RTX AI Garage ブログシリーズでは毎週、コミュニティ主導の AI イノベーションとコンテンツを特集しています。NVIDIA NIM マイクロサービスや AI ブループリントについて学びたい方、AI PC やワークステーションで AI エージェント、クリエイティブ ワークフロー、生産性向上アプリなどを構築したい方などを対象としています。

Facebook、Instagram、TikTok、X で NVIDIA AI PC をフォローしてください。また、RTX AI PC ニュースレターに登録して最新情報を入手してください。NVIDIA の Discord サーバーに参加して、コミュニティの開発者や AI 愛好家とつながり、RTX AI の可能性について議論しましょう。

LinkedIn と X で NVIDIA Workstation をフォローしてください。

ソフトウェア製品情報に関するお知らせをご覧ください。

カテゴリ: ジェネレーティブ AI
タグ: 人工知能 | GeForce | ジェネレーティブ AI | 推論 | NVIDIA RTX | オープンソース | RTX AI Garage

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH