AIオン:エージェント型AIをコンピュータービジョンアプリケーションに導入する3つの方法

トレンドセッター
この記事を読むのにかかる時間: 5

編集者注:この記事は、エージェントAI、チャットボット、コパイロットの最新技術と実世界における応用を探求する「AI On」ブログシリーズの一部です。このシリーズでは、高度なAIエージェントを支えるNVIDIAのソフトウェアとハ​​ードウェアについても取り上げています。これらのAIエージェントは、洞察を収集し、タスクを実行して日常の体験を変革し、業界を再構築するAIクエリエンジンの基盤となっています。
今日のコンピュータービジョンシステムは、物理的な空間やプロセスで何が起こっているかを特定することには優れていますが、シーンの詳細とその重要性、そして次に何が起こるかを推論する能力が欠けています。
ビジョン言語モデル(VLM)を搭載したエージェントインテリジェンスは、このギャップを埋めるのに役立ちます。チームは、テキスト記述子と時空間情報、そしてシステムが毎日収集する数十億もの視覚データポイントを結び付ける重要な洞察と分析に、迅速かつ容易にアクセスできるようになります。
組織がエージェントインテリジェンスを活用してレガシーコンピュータービジョンシステムを強化するために使用できる3つのアプローチは次のとおりです。

検索可能な視覚コンテンツに高密度のキャプションを適用する。
詳細なコンテキストでシステムアラートを拡張する。
AI推論を用いて、複雑なシナリオから情報を要約し、質問に答えます。

高精細なキャプションでビジュアルコンテンツを検索可能に
従来の畳み込みニューラルネットワーク(CNN)ベースの動画検索ツールは、トレーニング、コンテキスト、セマンティクスが限られているため、洞察を得るのが手作業で、面倒で時間のかかる作業でした。CNNは、異常の発見など特定の視覚タスクを実行するように調整されており、視覚情報をテキストに変換するマルチモーダルな能力が欠けています。
企業はVLMを既存のアプリケーションに直接組み込むことで、画像や動画の非常に詳細なキャプションを生成できます。これらのキャプションは、非構造化コンテンツをリッチで検索可能なメタデータに変換し、ファイル名や基本的なタグに制約されない、はるかに柔軟なビジュアル検索を可能にします。
例えば、自動車両検査システムUVeyeは、毎月7億枚以上の高解像度画像を処理し、世界最大級の車両および部品データセットを構築しています。 UVeyeはVLMを適用することで、この視覚データを構造化された状態レポートに変換し、微細な欠陥、変更、異物を優れた精度と信頼性で検出し、検索を可能にします。
VLMを活用した視覚的理解は重要なコンテキストを追加し、コンプライアンス、安全性、品質管理のための透明性と一貫性のある洞察を提供します。UVeyeは欠陥の96%を検出しますが、手動による方法では24%しか検出されません。そのため、早期介入によりダウンタイムを削減し、メンテナンスコストを抑えることができます。

ビデオプレーヤーhttps://blogs.nvidia.com/wp-content/uploads/2025/11/UVeye-video-1.mp400:0000:0000:47上下矢印キーで音量を上げたり下げたりできます。
AIを活用したスポーツマーケティング測定サービスを提供するRelo Metricsは、ブランドがメディア投資の価値を定量化し、支出を最適化できるよう支援しています。 Relo Metricsは、VLMとコンピュータービジョンを組み合わせることで、基本的なロゴ検出にとどまらず、試合のウィニングショット時に表示されたコートサイドのバナーなどのコンテキストを捉え、それをリアルタイムの金銭的価値に変換します。

このコンテキストインサイト機能は、特にインパクトの大きい瞬間にロゴが表示されるタイミングと方法を強調表示することで、マーケティング担当者に投資収益率(ROI)と戦略の最適化方法をより明確に提供します。例えば、Stanley Black & Decker(傘下のDewaltブランドを含む)は、以前はシーズン終了時のレポートに頼ってスポンサー資産のパフォーマンスを評価していたため、タイムリーな意思決定が制限されていました。Relo Metricsのリアルタイムインサイトを活用することで、Stanley Black & Deckerは看板の配置を調整し、スポンサーメディアの価値損失を130万ドル削減しました。
VLM推論によるコンピュータービジョンシステムアラートの強化
CNNベースのコンピュータービジョンシステムは、多くの場合、「はい/いいえ」や「真/偽」といったバイナリ検出アラートを生成します。 VLM の推論能力がなければ、誤検知や詳細の見逃しが発生し、安全性とセキュリティにおけるコストのかかるミスやビジネスインテリジェンスの損失につながる可能性があります。これらの CNN ベースのコンピュータービジョンシステムを完全に置き換えるのではなく、VLM はインテリジェントなアドオンとしてこれらのシステムを容易に拡張できます。CNN ベースのコンピュータービジョンシステムの上に VLM を重ねることで、検知アラートはフラグ付けされるだけでなく、コンテキスト理解に基づいてレビューされ、インシデントがどこで、どのように、なぜ発生したかが説明されます。
よりスマートな都市交通管理を実現するために、Linker Vision は VLM を使用して、交通事故、洪水、嵐による電柱や木の倒壊など、重要な都市アラートを検証しています。これにより誤検知が削減され、各イベントに重要なコンテキストが追加され、リアルタイムの自治体対応が向上します。
ビデオプレーヤー https://blogs.nvidia.com/wp-content/uploads/2025/11/Updated-VLM-1-1.mp400:0000:0000:18 上下矢印キーで音量を上げたり下げたりできます。
Linker VisionのエージェントAIアーキテクチャは、5万台を超える多様なスマートシティカメラのストリームからのイベント分析を自動化し、部門横断的な修復を可能にします。つまり、インシデント発生時に、交通管制、公共事業、緊急対応要員などのチーム間でアクションを調整します。すべてのカメラストリームを同時にクエリできるため、システムは観察結果を迅速かつ自動的に洞察に変換し、次善のアクションを推奨できます。
エージェントAIによる複雑なシナリオの自動分析
エージェントAIシステムは、音声、テキスト、ビデオ、センサーデータなどのビデオストリームやモダリティ全体にわたって、複雑なクエリを処理、推論、回答できます。これは、VLMを推論モデル、大規模言語モデル(LLM)、検索拡張生成(RAG)、コンピュータービジョン、音声文字変換と組み合わせることで実現します。
既存のコンピュータービジョンパイプラインへのVLMの基本的な統合は、重要な瞬間の短いビデオクリップの検証に役立ちます。しかし、このアプローチは、単一のモデルが一度に処理できる視覚トークンの数に制限があり、結果として、長期間にわたるコンテキストや外部知識を考慮に入れない表面的な回答しか得られません。
一方、エージェントAIを基盤としたアーキテクチャ全体は、長時間かつマルチチャンネルのビデオアーカイブをスケーラブルかつ正確に処理することを可能にします。これにより、表面的な理解を超えた、より深く、より正確で、より信頼性の高い洞察が得られます。エージェントシステムは、根本原因分析や長時間の検査ビデオの分析に使用でき、タイムスタンプ付きの洞察を含むレポートを生成できます。
Levatasは、移動ロボットと自律システムを用いた目視検査ソリューションを開発しており、電力変電所、燃料ターミナル、鉄道操車場、物流ハブなどの重要なインフラ資産の安全性、信頼性、パフォーマンスを向上させています。LevatasはVLM(仮想現実)を用いて、検査映像を自動的に確認し、詳細な検査レポートを作成するビデオ分析AIエージェントを構築しました。これにより、従来は手作業で行われ、時間のかかるプロセスが大幅に加速されました。
American Electric Power(AEP)などの顧客向けに、Levatas AIはSkydio X10デバイスと統合し、電力インフラの検査を効率化しています。 Levatas は、AEP が電柱を自律的に点検し、熱の問題を特定し、機器の損傷を検知することを可能にします。問題が検出されると、AEP チームに即座にアラートが送信されるため、迅速な対応と解決が可能になり、信頼性が高くクリーンで手頃な価格のエネルギー供給が保証されます。
ビデオプレーヤーhttps://blogs.nvidia.com/wp-content/uploads/2025/11/Levatas-Compressed.mp400:0000:0000:17上下矢印キーで音量を調整できます。
Eklipse などの AI ゲームハイライトツールは、VLM 搭載エージェントを使用して、ビデオゲームのライブストリームにキャプションとインデックスメタデータを追加し、クエリ、要約、洗練されたハイライト動画の作成を数分で実行します。これは従来のソリューションの 10 倍の速度であり、コンテンツ消費体験の向上につながります。
ビデオ プレーヤーhttps://blogs.nvidia.com/wp-content/uploads/2025/11/Eklipse-Compressed.mp400:0000:0000:57 上下矢印キーで音量を上げ下げできます。
NVIDIA テクノロジでエージェント型ビデオ インテリジェンスを強化
高度な検索と推論を実現するために、開発者は NVCLIP、NVIDIA Cosmos Reason、Nemotron Nano V2 などのマルチモーダル VLM を使用して、メタデータを豊富に含む検索インデックスを構築できます。
VLM をコンピューター ビジョン アプリケーションに統合するには、NVIDIA Metropolis プラットフォームの一部であるビデオ検索および要約 (VSS) 向け NVIDIA ブループリントのイベント レビュー機能を使用できます。
より複雑なクエリや要約タスクを実行するには、VSS ブループリントをカスタマイズして、VLM に直接アクセスする AI エージェントや、LLM、RAG、コンピューター ビジョン モデルと組み合わせて VLM を使用する AI エージェントを構築できます。これにより、よりスマートな運用、より充実したビデオ分析、そして組織のニーズに合わせて拡張可能なリアルタイムのプロセスコンプライアンスが実現します。
NVIDIA 搭載のエージェント型ビデオ分析について詳しくは、こちらをご覧ください。
NVIDIA の Vision AI ニュースレターの購読、コミュニティへの参加、LinkedIn、Instagram、X、Facebook での NVIDIA AI のフォローで最新情報を入手してください。
VLM の技術ブログ、自習型ビデオチュートリアル、ライブストリームをご覧ください。

カテゴリ: ジェネレーティブ AI | ロボティクス タグ: エージェント型 AI | コンピュータービジョン | Metropolis | NVIDIA Blueprints

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH