世界中の研究者は、研究の基盤としてオープンソース テクノロジーを活用しています。NVIDIA は、デジタル AI とフィジカル AI の最新の進歩をコミュニティに提供するために、オープン AI モデル、データセット、ツールのコレクションをさらに拡充しています。これらは、ほぼすべての研究分野への応用が期待されます。
世界トップクラスの AI カンファレンスである NeurIPS において、NVIDIA は研究を支援するオープンなフィジカル AI モデルとツールを発表しました。これには、自動運転向けの世界初の業界規模のオープン推論型視覚言語動作 (VLA) モデルである Alpamayo-R1 が含まれます。デジタル AI 分野では、音声と AI の安全性に関する新しいモデルとデータセットをリリースします。
NVIDIA の研究者は、カンファレンスで 70 件を超える論文、講演、ワークショップを発表し、AI 推論、医療研究、自動運転車 (AV) 開発など、幅広い分野にわたる革新的なプロジェクトを共有します。
これらの取り組みは、AI のベンチマークを行う独立機関である Artificial Analysis の新しい Openness Index によって認められた、NVIDIA のオープンソースへのコミットメントをさらに深めるものです。 Artificial Analysis Open Indexは、モデルライセンスの許容性、データの透明性、技術詳細の入手可能性に基づき、最先端AI開発向けのオープンテクノロジーであるNVIDIA NemotronファミリーをAIエコシステムの中で最もオープンなテクノロジーの1つとして評価しました。
NVIDIA DRIVE Alpamayo-R1が自動運転の新たな研究領域を切り開く
自動運転研究向けの世界初のオープン推論VLAモデルであるNVIDIA DRIVE Alpamayo-R1 (AR1)は、思考連鎖AI推論と経路計画を統合します。経路計画は、複雑な道路シナリオにおける自動運転の安全性向上とレベル4の自動運転の実現に不可欠な要素です。
従来の自動運転モデルは、歩行者の多い交差点、迫りくる車線閉鎖、自転車レーンにおける二重駐車車両など、微妙な状況への対応に苦労していましたが、推論技術によって自動運転車は人間に近い運転をするための常識を獲得します。
AR1は、シナリオを細分化し、各ステップで推論を行うことでこれを実現します。あらゆる経路を考慮し、コンテキストデータを用いて最適なルートを選択します。
例えば、AR1 によって実現される思考連鎖推論を活用することで、自転車レーンに隣接する歩行者の多いエリアを走行する自動運転車は、走行経路からデータを取得し、推論の軌跡(特定の行動をとった理由の説明)を組み込み、その情報を用いて、自転車レーンから離れたり、横断歩道を渡らない歩行者のために停止したりするなど、将来の経路を計画することができます。
ビデオプレーヤーhttps://blogs.nvidia.com/wp-content/uploads/2025/12/construction_worker.mp400:0300:0000:07 上下矢印キーで音量を調整できます。
NVIDIA Cosmos Reason をベースとする AR1 のオープン基盤により、研究者はベンチマークや実験的な自動運転アプリケーションの構築など、独自の非商用ユースケースに合わせてモデルをカスタマイズできます。
AR1のトレーニング後処理では、強化学習が特に効果的であることが証明されています。研究者たちは、事前トレーニング済みモデルと比較して、AR1の推論能力が大幅に向上することを確認しています。
NVIDIA DRIVE Alpamayo-R1は現在、GitHubとHugging Faceで公開されており、モデルのトレーニングと評価に使用されたデータのサブセットは、NVIDIA Physical AI Open Datasetsで公開されています。NVIDIAは、AR1を評価するためのオープンソースフレームワークAlpaSimもリリースしています。
自動運転向け推論VLAモデルの詳細については、こちらをご覧ください。
あらゆる物理AIユースケース向けのNVIDIA Cosmosのカスタマイズ
開発者は、Cosmosクックブックで提供されるステップバイステップのレシピ、クイックスタート推論例、高度なトレーニング後ワークフローを使用して、Cosmosベースのモデルの使用方法とトレーニング後処理を学ぶことができます。これは、データキュレーション、合成データ生成、モデル評価など、AI開発のあらゆるステップを網羅した、物理AI開発者向けの包括的なガイドです。
Cosmosベースのアプリケーションには、事実上無限の可能性が秘められています。 NVIDIA の最新事例には、以下のものがあります。
LidarGen:AV シミュレーション用の LIDAR データを生成できる初のワールドモデル。
Omniverse NuRec Fixer:NVIDIA Cosmos Predict を活用し、ニューラルネットワークで再構成されたデータに含まれる、新しい画像やノイズの多いデータによるぼやけや穴などのアーティファクトをほぼ瞬時に修正する、AV およびロボティクス シミュレーション用モデル。
Cosmos Policy:大規模な事前学習済みビデオモデルを堅牢なロボットポリシー(ロボットの行動を規定する一連のルール)に変換するためのフレームワーク。
ProtoMotions3:NVIDIA Newton と Isaac Lab を基盤として構築された、オープンソースの GPU アクセラレーション フレームワーク。Cosmos ワールド ファンデーション モデル (WFM) によって生成されたリアルなシーンを使用して、物理的にシミュレートされたデジタルヒューマンおよびヒューマノイドロボットをトレーニングします。
Cosmos 上に構築された LidarGen モデルの出力例。上段は、入力データに生成された LIDAR データを重ねて表示しています。中段は、生成された LIDAR 距離マップと実際の LIDAR 距離マップを示しています。左下は実際の LiDAR ポイント クラウド、右下は LidarGen によって生成されたポイント クラウドを示しています。
ポリシー モデルは NVIDIA Isaac Lab および Isaac Sim でトレーニングでき、ポリシー モデルから生成されたデータは、ロボティクス向け NVIDIA GR00T N モデルのポストトレーニングに使用できます。
Isaac Sim で ProtoMotions3 を使用してトレーニングされたヒューマノイド ポリシーと、Lyra によって Cosmos WFM を使用して生成された 3D 背景シーン。
NVIDIA エコシステム パートナーは、Cosmos WFM を使用して最新テクノロジを開発しています。
AV 開発者の Voxel51 は、Cosmos Cookbook にモデル レシピを提供しています。物理 AI 開発者の 1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI、X-Humanoid は、最新の物理 AI アプリケーションに WFM を使用しています。また、ETH Zurich の研究者は、Cosmos モデルを使用してリアルでまとまりのある 3D シーンを作成する方法について紹介する NeurIPS 論文を発表しています。
NVIDIA Nemotron の追加機能により、デジタル AI 開発者ツールキットが強化されます
NVIDIA は、推論機能と AI の安全性向上のためのデータセットを備えた新しいマルチスピーカー音声 AI モデルに加え、強化学習やドメイン固有のモデルカスタマイズのための高品質な合成データセットを生成するオープンツールもリリースします。これらのツールには以下が含まれます。
MultiTalker Parakeet: ストリーミングオーディオ用の自動音声認識モデル。複数の話者が重なり合った会話やテンポの速い会話でも理解できます。
Sortformer: オーディオストリーム内の複数の話者をリアルタイムで正確に識別できる最先端モデル。このプロセスはダイアライゼーションと呼ばれます。
Nemotron Content Safety Reasoning: ドメイン全体でカスタムポリシーを動的に適用する推論ベースの AI 安全性モデル。
Nemotron Content Safety Audio Dataset: 安全でないオーディオコンテンツを検出するためのモデルのトレーニングを支援する合成データセット。テキストとオーディオのモダリティ全体で機能するガードレールの開発を可能にします。
NeMo Gym:LLMトレーニング用の強化学習環境の開発を加速・簡素化するオープンソースライブラリです。NeMo Gymには、検証可能な報酬からの強化学習(RLVR)を可能にする、すぐに使えるトレーニング環境も数多く収録されており、現在も増え続けています。
NeMo Data Designer Library:Apache 2.0の下でオープンソース化されたこのライブラリは、ドメイン固有のモデルのカスタマイズと評価を含む、生成AI開発のための高品質な合成データセットを生成、検証、改良するためのエンドツーエンドのツールキットを提供します。
NVIDIA NemotronとNeMoツールを使用して、安全で特化したエージェントAIを構築しているNVIDIAエコシステムパートナーには、CrowdStrike、Palantir、ServiceNowなどがあります。
NeurIPS参加者は、本日午後4時から8時(太平洋標準時)まで開催されるNemotron Summitでこれらのイノベーションを体験できます。開会の挨拶は、NVIDIAの応用ディープラーニング研究担当バイスプレジデントであるBryan Catanzaro氏が行います。
NVIDIAの研究が言語AIのイノベーションを加速
NeurIPSで発表されたNVIDIAによる数十件の研究論文の中から、言語モデルの進化に焦点を当てた注目すべき論文をいくつかご紹介します。
Audio Flamingo 3:完全オープンな大規模音声言語モデルによる音声インテリジェンスの進化:この大規模音声言語モデルは、音声、サウンド、音楽の推論が可能です。最大10分間の音声セグメントを理解・推論でき、20を超えるベンチマークで最先端の結果を達成しています。
Minitron-SSM:グループを考慮したSSMプルーニングによる効率的なハイブリッド言語モデル圧縮:このポスターでは、ハイブリッドモデルを圧縮できるプルーニング手法を紹介しています。Nemotron-H 8Bのパラメーターを80億から40億にプルーニング・抽出することで、その効果を実証しています。結果として得られたモデルは、同規模のモデルを上回る精度を実現しながら、推論スループットを2倍高速化しています。
Jet-Nemotron: ニューラルアーキテクチャ探索後の効率的な言語モデル:本研究では、新しい効率的な言語モデルアーキテクチャを開発するための、コスト効率の高いトレーニング後パイプラインを提示し、このパイプラインを用いて生成されるハイブリッドアーキテクチャモデルファミリーを紹介します。これらのモデルは、主要なフルアテンションベースラインの精度と同等かそれを上回る一方で、大幅に高い生成スループットを実現します。
Nemotron-Flash: レイテンシ最適化ハイブリッド小規模言語モデルの開発:本プロジェクトでは、パラメータ数ではなく実世界のレイテンシに基づいてSLMを再設計する新しい小規模言語モデル(SLM)アーキテクチャを紹介し、最先端の速度と精度を実現します。
ProRL: 長期強化学習により大規模言語モデルの推論限界を拡大:長期強化学習(ProRL)は、モデルのトレーニング期間を延長する手法です。このNeurIPSポスターでは、NVIDIAの研究者が、この手法によって推論においてベースモデルを一貫して上回るモデルがどのように実現されるかを説明しています。
12月7日(日)までサンディエゴで開催されるNeurIPSのイベント一覧をご覧ください。
ソフトウェア製品情報に関するお知らせをご覧ください。
カテゴリー:企業 | 運転 | ジェネレーティブAI | 研究 | ロボティクス | ソフトウェア タグ:エージェントAI | 人工知能 | Cosmos | NVIDIA Research | オープンソース | フィジカルAI | 合成データ生成 | 交通
出典: 元記事を読む
※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。