なぜ人工知能は時々「物事をでっち上げる」のでしょうか?

この記事を読むのにかかる時間: 3

Reference News Networkは10月29日、スペインの雑誌「Muy Interesante」の10月8日号の記事を引用し、生成型人工知能(AI)の発展には厄介な問題が伴うと報じ​​ました。それは、AIが驚くほどの確信を持って事実を捏造できるという問題です。新たな研究により、言語モデルが誤ったデータを生成する理由と、その潜在的なリスクが明らかになりました。

近年、生成型AIは創造的な回答、流暢な文章、そして専門家のような診断で世界を驚かせてきました。しかし、この技術的飛躍には、いわゆる「AI錯覚」と呼ばれる、検証可能な事実と矛盾する回答をAIが自信を持って表現するという、憂慮すべき現象が伴います。問題は、機械が真実と妥当性を区別できないことにあります。

回答の検証

最新の研究は、シンプルでありながら強力な説明を提供しています。言語モデルは真実を語るためではなく、単語列の次の単語を予測するために設計されているのです。言い換えれば、回答は説得力があるように聞こえるように訓練されているものの、必ずしも正確ではないということです。研究者たちはこれを、訓練の目的とユーザーの期待の不一致と定義しています。つまり、私たちは信頼できる情報を求めているのに、聞こえは良いものの実際には間違っている情報を受け取るのです。

そのため、非常に具体的、稀、あるいは最新の質問に直面した場合、モデルは虚構の内容でそのギャップを埋めようとする傾向があります。何も知らないユーザーにとって、事実と幻想の境界線は曖昧になる可能性があります。人工知能は意図的に嘘をつくのではなく、即興の語り手のようにギャップを埋めるだけなのです。

この問題の深刻さを踏まえ、科学界は回答の信憑性を検証するための実験を設計しました。最も頻繁に引用される実験は、TruthfulQAデータセットです。これは、AIがよくある誤解に陥っていないか、あるいはよくあるオンラインエラーを繰り返していないかを検出する一連の質問です。実験によると、モデルの回答に自信があるほど、ユーザーは誤った情報を信じてしまう可能性が高くなることが示されています。

SelfCheckGPTなどの他の手法では、モデルの自己検証を推奨しています。これは、モデルに同じ質問に対して複数の回答を提示させ、それらを比較する手法です。もしそれらが矛盾する場合、それは錯覚である可能性が高いです。この手法は外部データベースへのアクセスを必要とせず、リアルタイム応答を必要とするシステムにとって魅力的です。

さらに、最近の研究では錯覚を様々なタイプに分類しています。完全に架空のものから、実際のデータと微妙な誤情報が混在している場合までです。科学界はもはや、問題を単に明らかにするだけでなく、複雑で測定可能な現象として分析しています。

錯覚の軽減

研究者たちは、錯覚を軽減するために、データベースや検索エンジンなどの検証可能な外部ソースにモデルを接続することを提案しています。検索拡張生成(RAG)と呼ばれるこの手法は、AIに空想で答えを作り出すのではなく、特定の文献に基づいて答えを構築するように強制します。課題はもはやテキスト生成に限定されず、裏付けとなる証拠の提供も必要になります。

RA-DITシステムは、この高度なアプローチの好例です。モデルを内部検索エンジンで同時にトレーニングすることで、引用精度を向上させます。研究によると、この手法は、医学や法律など、誤りが深刻な結果をもたらす可能性のある専門分野において、虚偽の内容を効果的に削減できることが示されています。

しかし、すべてがデータベースに依存しているわけではありません。もう一つの有望なアプローチは、検証チェーン(CoVe)です。AIはまず回答を作成し、次に検証用の質問を計画し、最後に検証結果に基づいてテキストを書き換えます。この自己修正プロセスは、自動化されたシステムであっても、公開前に「二度確認」する必要があることを示しています。

検証機能に加えて、いくつかの実験では、AIに計算機や翻訳ツールなどの外部ツールを使用することを学習させ、捏造された結果を回避することにも成功しています。Toolformerプロジェクトは、特定のニーズが検出された際に、モデルがこれらのリソースを呼び出すことを学習できることを実証しています。

この研究の結論は明確です。ツールを持たないAIは創造的かもしれませんが、ツールを備えることで、より信頼性が高まります。

他のチームは、リアルタイム検出技術を研究しています。システムが回答がサンプルによって異なる、または証拠が不足していると判断した場合、回答しないか、ユーザーに警告を発することができます。考え方はシンプルです。「わかりません」という正直な回答は、巧妙な嘘よりも優れているのです。

質問の設計

最後に、質問の設計は非常に重要です。引用を求める明確な指示、回答の範囲の制限、そして正直で「情報に乏しい」回答を評価することで、錯覚の頻度を効果的に減らすことができます。人間とコンピュータの相互作用は、AIの想像力を制御するための鍵であり続けます。

技術的ソリューションは急速に発展していますが、その先にあるのは私たち人間です。AIは「回答」よりも「補足」を行うことを一般の人々に認識させることが不可欠です。流暢なテキストを盲目的に信頼するのは危険です。

専門家は、ジャーナリズムの検証手法を採用することを推奨しています。完璧すぎるコンテンツには注意し、情報源を追跡し、他の参考文献と比較し、可能な場合は公式文書で検証してください。

AIは出発点にはなり得ますが、決して探索の終わりではありません。本質的に、この議論はより深い問題を反映しています。それは、人間のように見えて人間ではないテクノロジーとどのように共存していくか、ということです。ソーシャルメディア上の噂を見分ける方法を学ぶように、機械に対する批判的な目を養う時が来ています。重要なのは、機械の使用をやめることではなく、適切なタイミングで警戒することを学ぶことです。

機械は夢を見ませんが、時には夢を見ます。私たちが日常的に使用するAIシステムは、予期せぬ反応を示すことがよくあります。時には不条理で、時には嘘に近い反応です。これらのエラーは、システムの欠陥であると同時に、アルゴリズムの複雑さを反映しています。

もしAIに欠陥がないと仮定していたら、これほど多くのSF小説は生まれなかったでしょう。ほとんどすべてのSF小説は同じ前提に基づいています。AIは、制御不能になるまでは論理的に健全で、客観的に信頼できるものです。結局のところ、AIが予測不可能な行動をとらなければ、作家は書くべきものなどほとんど何もないのです。しかし、この優れた創作素材が現実世界で起こった場合、大変な頭痛の種となる可能性は十分にあります。というか、すでに頭痛の種になっている。なぜなら、実際にすでにそれが起こっているからだ。(劉立偉訳)

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH