この記事のポイント
- DeepSeekが「識図モード」を一般公開し、AIが画像を見る能力を大幅に向上させました。
- 「視覚原語思考」という独自のフレームワークにより、AIは複雑な空間認識や推論が可能になりました。
- 他の大手モデルと比較して、算力消費が少なく、応答速度が速いという利点があります。
- 一方で、知識の更新遅延や、視覚錯覚のような難解なタスクにおける不安定さなどの課題も存在します。
- 今後は、知識ベースの更新、アルゴリズムの改善、画像生成などの多機能化が期待されています。
DeepSeek、画像認識モードを一般公開
最近、AIモデルDeepSeekが画像認識モードのベータテストを開始し、多くのユーザーが体験できるようになりました。
このモードを有効にすると、ユーザーは画像を直接アップロードしてDeepSeekに「見せる」ことができます。その能力は、単なる文字抽出をはるかに超えるものです。例えば、博物館で撮影された不明な遺物の画像をアップロードし、「ディープシンキング」モードをオンにすると、モデルは遺物の質感や素材を詳細に描写するだけでなく、その年代や様式まで正確に推測しました。また、流行のミーム画像やネット上のジョーク画像も正確に理解できます。
DeepSeekの「開眼」は、他の主要な大規模モデルとどのような能力差があるのでしょうか? また、どのような利点と欠点があるのでしょうか? 科技日報の記者は、この点について専門家にインタビューしました。
DeepSeekの画像認識モードと他モデルとの違い
「他の大規模モデルと比較して、DeepSeekの画像認識モードの最も大きな違いは、技術的なアプローチ、計算リソースの消費、そして対話のロジックにあります」と、サイディコンサルティングのAI・ビッグデータ研究センターのアナリストである白潤軒氏は述べています。
彼は、DeepSeekの画像認識モードは「視覚原語思考」を中核としていると説明します。この中核フレームワークは、単なるOCR(光学文字認識)や基本的な画像認識ではなく、正確な空間推論と複雑なシーン解析を重視しています。一方、豆包(Doubao)などのモデルは、インターネット検索と連携して認識の即時性を高めることに重点を置いており、伝統的な画像エンコーディングを経てテキスト理解を行うことが多いため、空間推論の精度はやや劣るとのことです。
同時に、このフレームワークは実際の運用において「計算リソースに優しい」という特徴があります。白潤軒氏によると、DeepSeekは800×800ピクセルの画像を処理するのに約90トークンしか消費せず、GPTなどの主要モデルよりもはるかに少なく、応答速度も速いとのことです。
さらに、DeepSeekの画像認識モードは独立した入口を持ち、純粋な視覚理解に特化しており、インターネット検索機能を別途有効にしません。一方、豆包などの大規模モデルは自動的に検索と連携します。
「視覚原語思考」の革新的な点は?
画像認識モードのリリースに伴い、DeepSeekは、その背後にあるマルチモーダルモデルの技術詳細も公開し、「視覚原語思考」という中核フレームワークを発表しました。
「このフレームワークの核心的な革新は、主流モデルの『解像度を積み重ねる』という考え方から脱却し、伝統的なマルチモーダルモデルが抱える『指示の断絶』という困難な問題の解決に焦点を当てている点です」と白潤軒氏は説明します。
伝統的なマルチモーダル大規模モデルは、密集したシーンに直面した際に「指示の断絶」という困難を抱えています。モデルは画像を見ることができますが、推論の過程で「左側の大きなもの」といった曖昧な自然言語で論理的な連鎖を構築する際に、説明が不正確なために注意が逸れてしまうことがよくあります。
しかし、「視覚原語思考」フレームワークは、点や境界ボックスなどの空間的な視覚要素を「思考」の基本単位としてモデルの推論プロセス全体に組み込んでいます。これは、AIに「サイバー指」を搭載するようなもので、AIが推論する際に「頭の中」でターゲットオブジェクトを正確に指し示すことができ、考えながら指し示すことで、複雑な空間配置や密集したオブジェクトのカウントなどのシーンにおける推論精度を大幅に向上させます。
現在の課題と今後の改善点
白潤軒氏の見解では、DeepSeekの画像認識モードには現在、3つの主な課題があります。
第一に、知識ベースの更新が遅れていることです。モデルのトレーニングデータは2025年までのものであり、2025年末以降にリリースされた新しい製品を認識する際に、モデルの誤判断が発生しやすいです。
第二に、難易度の高いシーンでのパフォーマンスがまだ不安定であることです。視覚錯覚画像や複雑なオブジェクトのカウントなど、直感に反するタスクに対して、モデルの回答の安定性が低く、偶発的に論理的な崩壊が発生することがあります。
第三に、機能の範囲が狭いことです。現在は純粋な視覚理解のみをサポートしており、画像生成、動画理解、クロスモーダル作成能力はまだ備わっていません。また、高負荷時には解析失敗や応答遅延が発生することがあります。
「今後は、知識ベースの更新を迅速化し、直感に反するシーンのアルゴリズムを最適化することを推奨します。同時に、マルチモーダル機能を拡張し、システム安定性をさらに向上させて、より多くのユーザーのニーズに対応していくべきです」と白潤軒氏は述べています。
出典:科技日報
出典: 元記事を読む
-
求人
プロセッサ・マイクロコントローラ この分野に関連する最新の求人情報はこちら›
-
求人
メモリデバイス この分野に関連する最新の求人情報はこちら›
-
求人
ASIC/SoC設計 この分野に関連する最新の求人情報はこちら›
※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。