近親交配は人工知能の未来を脅かす

この記事を読むのにかかる時間: 3

フランスの新聞「ル・フィガロ」のウェブサイトで8月13日に掲載された記事を引用し、Reference News Networkが9月24日に報じた。インターネットユーザーは数ヶ月前から、奇妙な現象に気づいていた。人工知能(AI)が生成した画像が一般的に黄色がかっているのだ。この視覚的な偏りは肖像画と動画の両方に見られ、非常に広範囲に及んでいるため、この偏りを「除去」するためのチュートリアルがオンラインで多数登場している。専門家は、これは単なるレンダリングの問題ではなく、AIが直面しているより深刻な危機の兆候だと指摘している。原因は、AIモデルが他のAIによって生成されたデータを用いて学習される際に生じる「デジタル近親交配」現象だ。「新しいモデルを以前のモデルのデータで学習させると、最終的にはモデルの崩壊につながる」と、NEOMAビジネススクールのデジタル担当副ディレクター、アラン・グデ氏は説明する。

研究者のジェイソン・サドウスキー氏は、ハプスブルク家の近親婚を想起させ、これを冗談めかして「AIのハプスブルク現象」と呼んでいる。実験結果は明確です。英国とカナダの研究者がNature誌に論文を発表しました。彼らはまず、実際の手書き数字のデータセットを用いてAIモデルを学習させ、数字を生成しました。その後、各ステップを前のAIが生成した数字を用いて再学習させました。20世代目までに数字はぼやけ、30世代目までに完全に収束し、判別不能な単一の形状になりました。「2024年に発表されたこの研究は、自己生成データを用いたわずか5世代の学習で、モデルの欠陥が増幅されるのに十分であることを実証しました」とグッド氏は強調しました。「分散、つまり多様性が減少し、それに応じて応答の精度も低下しました。」

テキスト生成の状況も同様に憂慮すべきものでした。「感謝祭の七面鳥を調理するには…が必要です」という文章を完成させるタスクを与えられたチャットボットは、複数回の反復処理を経て、最初は長々としたリストを出力しましたが、最終的には「…人生の方向性をまだ明確にしていないなら、明確にしなければなりません」といった意味不明な文の無限ループに陥りました。グッド氏は、「モデルは平均値へと収束し、少数のケースは徐々に消えていくでしょう」と分析しました。「これは早期崩壊と呼ばれ、その後に後期崩壊が続きます。応答は貧弱になり、時には現実からかけ離れてしまいます。」

この劣化の根本的な原因は、人間のデータがますます入手しにくくなっていることです。ChatGPT、Gemini、Claudeといった主流のモデルは、長年にわたりインターネット上で利用可能なほぼすべてのコンテンツで学習されてきました。企業は事業拡大を続けるため、より豊富で安価で著作権制限のない合成データに目を向けてきました。しかし、これらのデータは品質が低い場合が多く、近親交配のリスクを高めています。グッド氏は、「画像、テキスト、動画を問わず、わずか0.01%の汚染データ混入でもパフォーマンスの急落につながる可能性がある」と指摘した。

画像分野では、この収束はすでに目に見えている。「人々は黄色いフィルターを繰り返し目にしており、ソーシャルネットワーク上で『ジブリ風』の画像が蔓延していることが原因だと考える人もいる」とグーデイ氏は説明し、「生成AIモデルの均質化、創造性の喪失、バイアスの増幅」の兆候を例に挙げた。モデルの学習に必要な計算能力とエネルギーは増大する一方で、結果の多様性は低下している。この「デジタル貧困化」はユーザーの信頼を損なう可能性がある。「まるで凱旋門とエッフェル塔だけが掲載されているパリ旅行ガイドの第9版のようなものだ」とグーデイ氏は比喩的に語った。

「自己中毒」を避ける最も直接的な方法は、多様な人間コンテンツを使用することだ。 OpenAIやMistral AIといった企業は、写真ライブラリや報道機関と提携しています。また、AI生成コンテンツの検出とラベル付けに取り組んでいる企業もあります。「しかし現状では、コンテンツが完全に人間によって作成されたものであることを保証する方法はまだありません」とグーデイ氏は警告しました。AIコンテンツを識別するために使用される「デジタル透かし」(認識可能な信号を埋め込む)は、依然として回避される可能性があります。

他の解決策として、「汚染された」コンテンツを検出して削除することでモデルのトレーニングライブラリを浄化すること、あるいは可能な限り最高品質の人間由来のデータセットを構築することが検討されています。「OpenAIとAP通信、そしてMistral AIとAFPの協力は、次世代モデルのトレーニングデータの信頼性を確保することを目的としています」とグッド氏は指摘しました。「しかし、劣化の速度は指数関数的であるため、これは時間との競争です。」バイアスが適時に修正されなければ、人工知能はさらに大きなバイアスと奇妙で単調な状態へと陥る新たな時代を迎える可能性があります。(パン・ゲピン編集)

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH