世界には約7,000の言語がありますが、AI言語モデルでサポートされているのはごくわずかです。NVIDIAは、クロアチア語、エストニア語、マルタ語など、利用可能なデータが限られている言語を含む、ヨーロッパ25言語向けの高品質音声認識・翻訳AIの開発をサポートする新しいデータセットとモデルで、この課題に取り組んでいます。
これらのツールにより、開発者はAIアプリケーションをより容易に拡張し、多言語チャットボット、カスタマーサービス音声エージェント、準リアルタイム翻訳サービスといった実稼働規模のユースケースにおいて、高速で正確な音声テクノロジーで世界中のユーザーをサポートできるようになります。ツールには以下のものが含まれます。
Granary:約100万時間分の音声を収録した、大規模なオープンソースの多言語音声データセットコーパス。音声認識に約65万時間、音声翻訳に35万時間以上を収録。
NVIDIA Canary-1b-v2:Granaryでトレーニングされた10億パラメータのモデルで、ヨーロッパ言語の高品質な文字起こしに加え、英語と24のサポート対象言語間の翻訳が可能です。 Hugging Faceの多言語音声認識精度におけるオープンモデルのリーダーボードでトップを獲得しました。
NVIDIA Parakeet-tdt-0.6b-v3は、Granaryがサポートする言語のリアルタイムまたは大規模な書き起こし向けに設計された、合理化された6億パラメータモデルです。書き起こされた音声の長さを計算時間で割った値で測定すると、Hugging Faceのリーダーボードで多言語モデルの中で最も高いスループットを誇ります。
Granaryの論文は、8月17日から21日までオランダで開催される言語処理カンファレンスInterspeechで発表されます。データセット、および新しいCanaryモデルとParakeetモデルは、現在Hugging Faceで公開されています。
Granaryがデータ不足に対処する方法
Granaryデータセットを開発するために、NVIDIAの音声AIチームは、カーネギーメロン大学とFondazione Bruno Kesslerの研究者と協力しました。研究チームは、ラベル付けされていない音声を、NVIDIA NeMo Speech Data Processor ツールキットを搭載した革新的な処理パイプラインに通し、構造化された高品質なデータに変換しました。
このパイプラインにより、研究者たちは、大量のリソースを投入する人手によるアノテーションを必要とせずに、公共の音声データを AI トレーニングに使用可能な形式に強化することができました。このパイプラインは GitHub でオープンソースとして公開されています。
Granary のクリーンですぐに使用できるデータを利用することで、開発者は、欧州連合(EU)のほぼすべての公用語に加え、ロシア語とウクライナ語の文字起こしと翻訳タスクに対応するモデルの構築を迅速に開始できます。
人手によるアノテーションが付与されたデータセットで十分に表現されていないヨーロッパの言語にとって、Granary は、より少ないトレーニングデータで、大陸の言語的多様性をより適切に反映する、より包括的な音声技術を開発するための重要なリソースを提供します。
研究チームは Interspeech 論文の中で、他の一般的なデータセットと比較して、自動音声認識(ASR)と自動音声翻訳(AST)の目標精度レベルを達成するために必要な Granary のトレーニングデータは、約半分であることを実証しました。
NVIDIA NeMo を活用し、文字起こしを高速化
新しい Canary モデルと Parakeet モデルは、開発者が Granary を使用して構築し、対象アプリケーションに合わせてカスタマイズできるモデルの一例です。Canary-1b-v2 は複雑なタスクの精度向上に最適化されており、parakeet-tdt-0.6b-v3 は高速かつ低レイテンシのタスク向けに設計されています。
Granary データセットとこれら 2 つのモデルの背後にある手法を共有することで、NVIDIA は世界中の音声 AI 開発者コミュニティがこのデータ処理ワークフローを他の ASR または AST モデル、あるいは追加言語に適応できるようにし、音声 AI のイノベーションを加速させます。
Permissive ライセンスで提供される Canary-1b-v2 は、Canary ファミリーのサポート言語を 4 言語から 25 言語に拡張します。文字起こしと翻訳の品質は従来の 3 倍の規模でありながら、推論の実行速度は最大 10 倍高速です。
ビデオ プレーヤーhttps://blogs.nvidia.com/wp-content/uploads/2025/08/Canary-demo.mp400:0000:0000:27 上下矢印キーで音量を上げ下げできます。
AI エージェントのライフサイクルを管理するためのモジュラー ソフトウェア スイートである NVIDIA NeMo は、音声 AI モデルの開発を加速させました。このソフトウェア スイートの一部である NeMo Curator により、チームはソース データから合成サンプルを除外し、モデルのトレーニングに高品質のサンプルのみを使用できるようになりました。また、チームは NeMo Speech Data Processor ツールキットを活用して、トランスクリプトと音声ファイルの整合や、データを必要な形式に変換するなどのタスクを実行しました。
Parakeet-tdt-0.6b-v3 は高スループットを優先し、1 回の推論パスで 24 分間の音声セグメントを文字起こしできます。このモデルは入力された音声言語を自動的に検出し、追加のプロンプト手順なしで文字起こしを行います。
Canary モデルと Parakeet モデルはどちらも、正確な句読点、大文字小文字の区別、単語レベルのタイムスタンプを出力します。
GitHub で詳細を確認し、Hugging Face で Granary を使い始めましょう。
カテゴリ: 生成型 AI タグ: 人工知能 | NVIDIA NeMo | オープンソース
出典: 元記事を読む
※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。