タニヤ・バーガー=ウルフ氏の最初の計算生物学プロジェクトは、同僚との賭けから始まりました。動物学者よりも速くシマウマを個体識別できるAIモデルを構築できるかどうか、という賭けです。
彼女は見事に成功しました。
現在、トランスレーショナル・データ・アナリティクス研究所の所長であり、オハイオ州立大学の教授でもあるバーガー=ウルフ氏は、BioCLIP 2を用いて動物界全体に挑戦しています。BioCLIP 2は、これまでで最大かつ最も多様な生物データセットで学習された生物学に基づく基礎モデルです。このモデルは、今年のNeurIPS AI研究会議で展示されます。
BioCLIP 2は、画像から情報を抽出するだけにとどまりません。種の特徴を識別し、種内外の関係を判定することができます。例えば、このモデルはダーウィンフィンチをくちばしの大きさで並べましたが、サイズの概念を教えることはありませんでした(下の画像を参照)。
散布図は、BioCLIP 2がダーウィンフィンチをくちばしの大きさで左から右へと並べている様子を示しています。
これらの機能により、研究者はモデルを生物学百科事典、強力な科学プラットフォーム、そして推論機能を備えたインタラクティブな研究ツールとして活用し、保全生物学における継続的な課題である特定の種のデータ不足の解決に貢献できるようになります。
「シャチのような象徴的な種については、個体数を決定するのに十分なデータが不足しており、ホッキョクグマに至っては個体数が不明です」とバーガー=ウルフ氏は述べています。「これらの種のデータがなければ、甲虫や菌類に何の希望があるというのでしょうか?」
AIモデルは、このデータ不足のギャップを埋めることで、絶滅危惧種とその生息地に対する既存の保全活動を強化することができます。
BioCLIP 2はHugging Faceでオープンソースライセンスの下で公開されており、先月45,000回以上ダウンロードされました。この論文は、1年以上前にリリースされた最初のBioCLIPモデルに基づいています。最初のBioCLIPモデルもNVIDIA GPUでトレーニングされ、Computer Vision and Pattern Recognition (CVPR)カンファレンスで最優秀学生論文賞を受賞しました。
BioCLIP 2の論文は、11月30日から12月5日までメキシコシティで、12月2日から7日までサンディエゴで開催されるNeurIPSで発表されます。
世界最大の生物学フラッシュカードデッキの構築
このプロジェクトは、サルからミールワーム、モクレンまで、92万5000以上の分類群にわたる生物の画像2億1400万枚からなる、大規模なデータセット「TREEOFLIFE-200M」の作成から始まりました。
この膨大な量のデータをキュレーションするために、イメージオミクス研究所のバーガー=ウルフ氏のチームは、スミソニアン協会、様々な大学の専門家、そして他の関連団体と協力しました。
これらの研究者たちは、これまで以上に多くのデータで生物学モデルを学習させたらどうなるかを探ろうとしました。
バーガー=ウルフ氏によると、チームは「個々の生物の科学を超えて、生態系の科学へと進むことができるかどうか」を検証したかったのです。
32基のNVIDIA H100 GPUで10日間のトレーニングを行ったBioCLIP 2は、明示的に学習させることなく、成体と幼体、さらには種内のオスとメスを区別するなど、新たな能力を発揮しました。
また、シマウマが他のウマ科動物とどのように関係しているかを理解するなど、近縁種間の関連付けも行いました。
「このモデルは、分類学のあらゆるレベルにおいて、シマウマの画像にはすべて特定の属ラベルが付けられていること、そしてシマウマ、ウマ、ロバを含むウマ科動物の画像には特定の科的特徴があることなどを学習します」と彼女は述べています。「このモデルは、指示されることなく、これらの関連付けを通してのみ階層構造を学習します。」
このモデルは、トレーニングデータに基づいて生物の健康状態を判定することさえ可能です。例えば、下の散布図を生成する際に、健康なリンゴやブルーベリーの葉と病気の葉を区別し、さまざまな種類の病気も認識することができました。
散布図は、モデルの学習が進むにつれて、植物種がより明確に区別されることを示しています。種内変異もクラスターを形成するため、分離が容易になります。
Berger-Wolf氏のチームは、モデルのトレーニングを高速化するために64基のNVIDIA Tensor Core GPUクラスターを使用し、推論には個々のTensor Core GPUを使用しました。
「BioCLIPのような基礎モデルは、NVIDIAのアクセラレーテッドコンピューティングなしでは実現できませんでした」とBerger-Wolf氏は述べています。
野生生物デジタルツイン:生態系関係研究の未来
研究者たちの次の取り組みは、野生生物をベースとしたインタラクティブなデジタルツインを開発することです。このデジタルツインは、種間の生態学的相互作用や環境との関わり方を視覚化し、シミュレーションするために使用できます。
目標は、生態系への影響と撹乱を最小限に抑えながら、野生で自然に発生する生物間の関係を安全かつ容易に研究する方法を提供することです。
「デジタルツインは、種間の相互作用を視覚化し、文脈の中で捉えることを可能にします。また、実際の環境を破壊することなく、仮定のシナリオをシミュレーションし、モデルを検証することもできます。つまり、環境への影響を最小限に抑えることができるのです」とバーガー=ウルフ氏は述べています。
デジタルツインは、科学者にシミュレーション環境内で研究対象の種の視点を探求する機会を与え、より複雑で正確な生態学的研究の無限の可能性を切り開きます。
最終的には、この技術のいくつかのバージョンが、動物園のインタラクティブプラットフォームなどを通じて一般向けに展開される可能性もあります。人々は、全く新しい視点から自然環境とそこに生息する多くの種を探索し、視覚化し、学ぶことができるようになります。
「子供が動物園に来て、『わあ、もし自分があの群れのシマウマだったら、あるいはあの爪とぎに座っている小さなクモだったら、こんな光景が見えるんだ』と思う光景を想像するだけで、鳥肌が立ちます」とバーガー=ウルフ氏は言います。
BioCLIP 2 について詳しくはこちらをご覧ください。
カテゴリー: 生成AI | 研究
タグ: 人工知能 | 教育 | 科学
出典: 元記事を読む
※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。