AIモデルは急速に、そして大規模に進化しています。
しかし、AIモデルには(ほとんどの)人間にはない、何が欠けているのでしょうか?それは常識です。鳥は後ろ向きに飛べないこと、鏡は反射すること、氷は溶けて水になることなど、実世界での経験を通して培われた理解です。
こうした原則は人間にとっては自明の理に見えますが、複雑な質問に正確に答え、工場倉庫や道路といった予測不可能な物理環境をナビゲートするAIモデルには、それらを教え込む必要があります。
NVIDIAは、物理世界の限界についてAIモデルを指導するための一連のテストを開発することで、この課題に取り組んでいます。言い換えれば、AIに常識を教えるということです。
これらのテストは、時間的に根拠のある応答を生成することに長けた物理AIアプリケーション向けのオープンな推論視覚言語モデル(VLM)であるNVIDIA Cosmos Reasonなどの推論モデルの開発に使用されています。Cosmos Reasonは、Hugging Faceにおける物理推論のリーダーボードでトップに立ったばかりです。
Cosmos Reason は、ロボット工学、自動運転車、スマートスペースなどの分野における物理 AI 開発を加速させるように設計されており、従来の VLM とは一線を画しています。このモデルは、物理的な常識に基づく知識を用いて、これまでにないシナリオを推論・推論できます。
モデルが産業空間や実験室などの複雑な環境を理解するには、まず小規模な環境から始める必要があります。例えば、以下に示すテストでは、Cosmos Reason モデルは、動画内の相対的な動きに関する多肢選択式の質問に答える必要があります。
動画プレーヤー https://blogs.nvidia.com/wp-content/uploads/2025/08/ModelReasoning_DrivingExample.mp400:0000:0000:06 上下矢印キーで音量を上げ下げできます。
Cosmos Reason 評価データセットの例
AI モデルにおける推論とは?
NVIDIA モデルは、推論能力を開発するために、強化学習を通じて現実世界に関する物理的な常識を学習しています。
例えば、ロボットは左、右、上、下の方向を直感的に認識できません。こうした空間的・時間的な制約は、訓練を通して教え込まれます。車両衝突試験などの安全性試験に使用されるAI搭載ロボットは、自らの物理的形状が周囲とどのように相互作用するかを認識できるように訓練する必要があります。
これらのロボットの訓練に常識を組み込まなければ、導入時に問題が発生する可能性があります。
「物理世界に関する基本的な知識がなければ、ロボットは転倒したり、誤って何かを壊したりして、周囲の人々や環境に危険をもたらす可能性があります」と、NVIDIAのCosmos ReasonリサーチサイエンティストであるYin Cui氏は述べています。
物理世界に関する人間の常識をモデルに凝縮することで、NVIDIAは次世代AIを実現しています。
そこで登場するのが、バイオエンジニアリング、ビジネス、言語学など、様々なバックグラウンドを持つグローバルアナリストのグループであるNVIDIAデータファクトリーチームです。彼らは、生成AIモデルの推論方法を訓練するために使用する数十万のデータユニットの開発、分析、コンパイルに取り組んでいます。
データキュレーションプロセス
NVIDIA データファクトリーチームのプロジェクトの一つは、物理 AI アプリケーション向けのワールド基盤モデルの開発に重点を置いています。これらの仮想環境は、シミュレーション領域に基づいて、推論モデルのトレーニングにおいてより安全かつ効果的なディープラーニングニューラルネットワークを構築します。
すべては、ビデオデータに基づいて質問と回答のペアを作成する NVIDIA アノテーショングループから始まります。これらのビデオはすべて現実世界のものであり、鶏小屋の中を歩き回る鶏から田舎道を走る車まで、あらゆる種類の映像を含めることができます。
例えば、アノテーターは以下のビデオについて「この人はどちらの手でスパゲッティを切っていますか?」と質問するかもしれません。
ビデオプレーヤー https://blogs.nvidia.com/wp-content/uploads/2025/08/ModelReasoning_SpaghettiExample.mp400:0000:0000:05 上下矢印キーで音量を上げたり下げたりできます。
Cosmos Reason 評価データセットの例
その後、アノテーターは A、B、C、D とラベル付けされた 4 つの多肢選択式回答を作成します。モデルはこれらのデータを入力し、推論を行って正しい回答を選択する必要があります。
「基本的には、モデルのテストを作成しているようなものです」と Cui 氏は述べています。「すべての質問は、学校の試験で生徒が受けるような多肢選択式です。」
これらの質問と回答のペアは、Michelle Li 氏をはじめとする NVIDIA のアナリストによって品質チェックされます。
Li 氏は公衆衛生とデータ分析のバックグラウンドを持ち、分析するデータのより広い目的を捉えることができます。
「フィジカル AI の場合、物理世界を理解するモデルをトレーニングするという明確な目標があります。そのため、Q&A のペアや提示される質問の種類を見る際に、全体像を把握するのに役立ちます」と Li 氏は述べています。「私は、自分が見ている Q&A のペアが、プロジェクトのガイドラインの目的と一致しているかどうかを自問自答しています。」その後、データはプロジェクトのデータファクトリーリーダーによってレビューされ、品質基準を満たし、Cosmos Reason 研究チームに送信できる状態であることを確認します。その後、科学者たちは数十万のデータユニット(この場合は Q&A のペア)をモデルに入力し、物理世界の境界と限界に関する強化学習によってモデルをトレーニングします。
推論 AI の用途とは?
推論モデルは、時間空間を理解し、結果を予測できるという点で優れています。状況を分析し、起こりうる結果の思考ネットワークを構築し、最も可能性の高いシナリオを推論することができます。
簡単に言えば、推論 AI は人間のような思考を示します。その動作を示し、ユーザーに応答の背後にあるロジックへの洞察を提供します。
ユーザーは、これらのモデルに、道路を走行する 2 台の車のビデオなどの分析を依頼できます。「同じ車線で車が互いに向かい合って走行していたらどうなるでしょうか?」のような質問をすると、モデルは推論を行い、提案されたシナリオにおける最も可能性の高い結果(たとえば、自動車事故)を決定できます。 NVIDIAのCosmos Reasonチームの主席リサーチサイエンティストであるTsung-Yi Lin氏は、「私たちは、フィジカルAIに焦点を当てた先駆的な推論モデルを構築しています」と述べています。
NVIDIAの推論モデルのイノベーションが進む中で、データファクトリーチームが高品質なデータを生成できる能力は、現実世界と安全に相互作用できるインテリジェントな自律エージェントやフィジカルAIシステムの開発を推進する上で不可欠です。
NVDIA Cosmos-Reason1のプレビューをご覧いただくか、Hugging FaceとGitHubからモデルをダウンロードしてください。
カテゴリ:ジェネレーティブAI | ロボティクス タグ:人工知能 | Cosmos | NVIDIA Research | フィジカルAI
出典: 元記事を読む
※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。