島々を越えて:UK-LLM、NVIDIA Nemotron で英国の言語に AI を導入

トレンドセッター
この記事を読むのにかかる時間: 10

コーンウォール語、アイルランド語、スコットランド・ゲール語、ウェールズ語を含むケルト諸語は、英国最古の現存言語です。これらの言語話者を支援するため、UK-LLM主権AIイニシアチブは、NVIDIA Nemotronをベースとした、英語とウェールズ語(現在ウェールズで約85万人が話す言語)の両方で推論可能なAIモデルを構築しています。

ウェールズ語で高品質なAI推論を実現することで、ウェールズ語による医療、教育、法的リソースなどの公共サービスの提供を支援します。

英国のキール・スターマー首相は、「英国の隅々まで人工知能の恩恵を受けられるようにしたいと考えています。AIがウェールズ語で推論できるようにすることで、医療から教育に至るまで、誰もがそれぞれの言語で公共サービスにアクセスできるようになります」と述べました。これは、ブリストルにある英国最先端のAIスーパーコンピュータで訓練された最新のAI技術が、公共の利益に貢献し、文化遺産を守り、そして国全体の機会を解き放つことができることを示す力強い例です。

2023年にBritLLMとして設立され、ユニバーシティ・カレッジ・ロンドンが主導するUK-LLMプロジェクトは、これまでに英国の言語向けに2つのモデルを公開しています。ウェールズのバンガー大学とNVIDIAと共同で開発されたウェールズ語向けの新モデルは、ウェールズ政府が2050年までに話者数を100万人にするという目標を掲げ、ウェールズ語の積極的な利用を促進する取り組み(Cymraeg 2050)に合致しています。

英国を拠点とするAIクラウドプロバイダーのNscaleは、この新モデルを自社のアプリケーションプログラミングインターフェース(API)を通じて開発者に提供します。

「ウェールズ語が時代とともに発展し続ける、生き生きとした言語であり続けることを目指しています」と、ウェールズ語サービス、研究、テクノロジーを専門とするキャノルファン・ベドウィル大学の言語技術ユニット責任者で上級用語研究員のグリフィズ・プリス氏は述べています。「AIは、ウェールズ語の第二言語習得を支援するだけでなく、ネイティブスピーカーの語学力向上にも大きな可能性を秘めています。」

この新しいモデルは、ウェールズで活動する公共機関や企業がコンテンツを翻訳したり、バイリンガルチャットボットサービスを提供したりできるようにすることで、ウェールズ語のリソースへのアクセス性を向上させる可能性も秘めています。これにより、医療提供者、教育者、放送局、小売業者、レストラン経営者などの団体は、自社の書面によるコンテンツを英語と同様にウェールズ語で容易に入手できるようになります。

UK-LLMチームは、ウェールズ語以外にも、コーンウォール語、アイルランド語、スコットランド語、スコットランド・ゲール語など、英国全土で話されている他の言語向けのAIモデル開発に、この新しいモデルに使用したのと同じ手法を適用することを目指しています。また、国際的な協力者と協力し、アフリカや東南アジアの言語向けのモデル構築も進めています。

「NVIDIAとバンガー大学とのこのコラボレーションにより、新たなトレーニングデータを作成し、記録的な速さで新しいモデルをトレーニングすることができ、ウェールズ語向けの史上最高の言語モデルを構築するという目標を加速させることができました」と、ユニバーシティ・カレッジ・ロンドンの自然言語処理教授であり、人工知能センターの副所長でもあるポンタス・ステネトープ氏は述べています。「私たちの目標は、ウェールズ語モデルから得られた知見を、英国および世界中の他の少数言語に適用することです。」

モデル開発のためのソブリンAIインフラストラクチャの活用

ウェールズ語向けの新しいモデルは、オープンな重み、データセット、レシピを備えたオープンソースモデルファミリーであるNVIDIA Nemotronをベースにしています。 UK-LLM開発チームは、490億パラメータのLlama Nemotron Superモデルと90億パラメータのNemotron Nanoモデルを活用し、ウェールズ語データで事後学習を行いました。

英語やスペイン語などの言語と比較して、ウェールズ語のAI学習に利用できるソースデータは少ないです。そこで、十分な規模のウェールズ語学習データセットを作成するために、チームはgpt-oss-120bとDeepSeek-R1用のNVIDIA NIMマイクロサービスを活用し、3,000万エントリを超えるNVIDIA Nemotronオープンデータセットを英語からウェールズ語に翻訳しました。

彼らはNVIDIA DGX Cloud Leptonプラットフォームを介してGPUクラスターを使用し、英国で最も強力なスーパーコンピュータであるIsambard-AI(政府から2億2,500万ポンドの投資を受け、ブリストル大学に拠点を置く)に搭載された数百個のNVIDIA GH200 Grace Hopperスーパーチップを活用して、翻訳と学習のワークロードを高速化しています。

この新しいデータセットは、チームのこれまでの取り組みで得られた既存のウェールズ語データを補完するものです。

慎重な評価で言語的ニュアンスを捉える

ウェールズ語話者の割合が最も高いグウィネズにあるバンガー大学は、言語的および文化的な専門知識を活かして、この新しいモデルの開発を支援しています。

ウェールズ語への翻訳:「ウェールズ語が、時代とともに発展し続ける、生き生きとした言語であり続けることを目指しています。」— バンガー大学 グリフィズ

バンガー大学ウェールズ語センターのプリズ氏は、ウェールズ語の言語技術に関する約20年にわたる経験をこの共同研究に持ち込みます。彼と彼のチームは、機械翻訳されたトレーニングデータと人力翻訳された評価データの精度検証に加え、AIが通常​​苦手とするウェールズ語のニュアンス(ウェールズ語の単語の頭の子音が隣接する単語によって変化する様子など)をモデルがどのように処理するかを評価しています。

このモデルとウェールズ語のトレーニングおよび評価データセットは、企業や公共部門での利用に提供され、さらなる研究、モデルトレーニング、アプリケーション開発を支援することが期待されています。

「このAI機能をウェールズ語で提供することと、それを誰もが利用できるようにすることは別問題です」とPrys氏は述べています。「この微妙な違いが、このテクノロジーが活用されるかされないかの違いを生む可能性があります。」

NVIDIA NemotronとNIMマイクロサービスでソブリンAIモデルを展開

UK-LLMのウェールズ語モデル開発に使用されたフレームワークは、世界中の多言語AI開発の基盤として機能します。

ベンチマークでトップを獲得したNemotronモデル、データ、レシピは、開発者がほぼあらゆる言語、ドメイン、ワークフローに合わせた推論モデルを構築できるように公開されています。NVIDIA NIMマイクロサービスとしてパッケージ化されたNemotronモデルは、費用対効果の高いコンピューティング向けに最適化されており、ノートパソコンからクラウドまで、あらゆる環境で実行できます。

欧州企業は、Perplexity AI搭載検索エンジン上で、オープンで独立したモデルを実行できるようになります。

NVIDIA Nemotronを使い始めましょう。

ウェールズ語訳: 

Ymestyn Ar が Ynysoedd を描きます: Mae DU-LLM yn Dod â Deallusrwydd Artiffisial i Ieithoedd y DU Gyda NVIDIA Nemotron

Wedi’i hyfforddi は、今年の gyfrifiadur Isambard-AI、前モデルの newydd と ddatblygwyd gan University College London、NVIDIA、Phrifysgol Bangor yn mantesio ar dechnegau a setiau data ffynhonnell amard NVIDIA Nemotron i alluogi rhesymu Deallusrwydd Artificial ar gyfer y Gymraeg ac ieithoedd eraily y DU ar gyfer gwasanaethau cyhoeddus gan gynnwys gofal iechyd、addysg ACアドノダウシフライチオール。

Ieithoedd Celtaidd — gan gynnwys Cernyweg、Gwyddeleg、Gaeleg yr Alban a Chymraeg — yw ieithoedd byw hynaf y DU。 Er mwyn grymuso eu siaradwyr, mae menter Deallusrwydd Artificial sofran y DU-LLM yn adeiladu model Deallusrwydd Artificial yn seiliedig ar NVIDIA Nemotron とすべての再シミュレーション、Saesneg、Chymraeg hefyd、iaith a siaredir gan tua 850,000 ボブリン・ギムル・ヘディウ。

Bydd galluogi rhesymu Deallusrwydd Artificial o ansawdd uchel yn y Gymraeg yn cefnogi’r ddarpariaeth o wasanaethau cyhoeddus gan gynnwys gofal iechyd、addysg ac adnoddau cyfreithiol yn yr iaith。

「Rwyf am i bob cwr o’r DU allu harneisio mantaision deallusrwydd artiffisial。Drwy alluogi deallusrwydd artiffisial i resymu yn y Gymraeg, rydym yn sicrhau bod gwasanaethau cyhoeddus — o ofal iechyd i addysg — yn hygyrch iバーブ、私はあなたがいる前に、私はあなたを見て、」メダイ、プリフ・ウェイニドグとDU、キア・スターマー。 「メー・ホン・イン・イングラフト・ブウェルス・オ・スティ・ガリー・デクノレッグ・ディディウェダラフ、ウェディ・ヒッフォードディ・アル・ウッチ・ギフリフィアドゥル・ディールスルウィッド・人工的ムウィャフ・ダットブライゲディグ・ドゥ・イム・ミスターリスト、ワサナエトゥル・レス・イ・サイホエド、アムディフィン」トレフタデス・ディウィリアノール・ア・ダットグロイ・シフレエド・リードルド・ユー・ワッド。」

DU-LLM は、2023 年に英国の LLM としてユニバーシティ カレッジ ロンドンに在籍し、フラエノロールの研究者として活躍しました。メイ・エイ・フォデル・ニューウィッド・アル・ギファー・ジムレーグ、ダットブリュグウィド・ミューン・シドウェイスレディアド・フリフィスゴル・バンゴー・シムル、NVIDIA、イン・シド・ファインド・アグ・ユムドレチオン・リウォドラエス・シムル・イ・ハイブ・デフニッド・グヴァイトレドール・オーリアイス、ガイダール・ノッド・オーgyflawni miliwn または siaradwyr erbyn 2050 — メンターまたは Cymraeg 2050。

Bydd darparwr cwmwl Deallusrwydd Artificial yn y DU、Nscale、yn sicrhau ボディ モデル newydd ar gael i ddatblygwyr trwy ei ryngwynebラグレンヌ・ラグレンニ(API)。

「ああ、うなずいて、ジムレーグ・イン・パルハウ、私は自分のことを信じている、シン・アナドル・アク・シン・パルハウ、私はダートブリーグ・ガイダー・オーズだ」メダイ・グリフィズ・プライズ、私はデルミノレギッド・ア・フェナエット・イヤー・ウンド・テクノレガウ・アイアイス・イング・ナノルファンBedwyr、canolfan、brifysgol、gyfer gwasanaethau、ymchwil、thechnoleg、Gymraeg。 「メイ・ディアルスウィッドは人工的なものでダンゴの潜在的なアルスロールを助け、ギダ・チャファエルとジムラグ・フェル・アイアイス・イン・オジスタル、ガルオギ・シアラドヴィル・ブロドロール、私はうまくやっている、ギリアウ・アイス。」

Gallai’r モデル newydd hwn hefyd roi hwb i hygyrchedd adnoddau Cymraeg drwy alluogi sefydliadau cyhoeddus abusnesau sy’n gweithredu yng Nghymru i gyfieithu cynnwys neu ddarparu gwasanaethau sgwrsfotドゥイアイトホグ。ガル・ヒュン・ヘルプ・ガン・ギンウィス・ダーパルヴィル・ゴーファル・イエチド、アディスグヴィル、ダーレドヴィル、マンワースヴィル・ア・ペルクノギオン・ブワイタイ・シクラハウ・ボード・ユー・シンウィス・イスグリフェネディグ・イヤー・ウン・モー・ハウッド・アル・ゲイル・イン・ジムレーグ・アグ・メイ・インサースネグ。

Y tu hwnt i’r Gymraeg, mae tîm y DU-LLM yn anelu at Gymhwyso’r un fethodoleg a ddefnyddiwyd ar gyfer ei fodel newydd i ddatblygu modelau Deallusrwydd Artificial ar gyfer ieithoedd erails a siaredir ledled y DU Felelチェルニウェグ、グウィデレグ、スゴテグ、ゲーレグ、アルバン — アフリカとアジアのデドウィレイン アジアを舞台に、グウィチオ ギダ チドウェイスヴィル リンブラドルとアデイラドゥ モデルを体験。

「主に cydweithrediad hwn gydag NVIDIA a Phrifysgol Bangor wedi ein galluogi i greu data hyfforddi newydd a hyfforddi model newydd mewn amser Record, gan gyflymu ein nod o adeiladu’r model iaith gorau erioed ar gyfer y Gymraeg, meddai Pontus 氏ステネトープ、ロンドンのユニバーシティ カレッジで、自然を研究し、ガノルファン ディールス氏の人工物を作成しました。 「私は、キムリドとミュンウェレディアダウ、モデルのキムレーグとミュンウェレディアウ、私はアイソエド、レイアフリフォル・エライルを知っています、そして、あなたはあなたを描きます。

Manteisio ar Seilwaith Deallusrwydd 人工ソフラン ar gyfer Datblygu モデル 

Mae’r モデルは、NVIDIA Nemotron の新しい gyfer と Gymraeg yn seiliedig を使用し、ffynhonnell は sy’n cynnwys pwysau を心配し、setiau データは ryseitiau agored です。Mae’r tîm datblygu DU-LLM wedi mantesio ar fodel 49-ビリン-パラメドル・ラマNemotron Super a モデル 9-bilwn-paramedr Nemotron Nano、gan eu hôl hyfforddi ar ddata iaith Gymraeg。

ああ、ジムハルは、セースネグ・ノイ・スバイネグ、メーライ・オ・デ・データ、フィンホンネル・アル・ゲール・イン・Y、ジムレーグ・アー・ガイファー・ヒフォードディアン・ディアルス・ウィッド・アーティフィシャル。フェリー、えー、mwyn クルーの設定 ddata hyfforddi Cymraeg ddigon mawr、defnyddiodd y tîm ficrowasanaethau NVIDIA NIM ar gyfer gpt-oss-120b a DeepSeek-R1 i gyfieithu setiau data agored NVIDIA gyda dros 30 miliwn o gofnodion or ‘r Saesneg私はジムレーグです。

Defnyddion nhw glwstwr GPU drwy blatfform NVIDIA DGX Cloud Lepton ac yn harneisio cannoedd o Uwchsglodion NVIDIA GH200 Grace Hopper ar Isambard-AI — uwchgyfrifiadur mwyaf pwerus y DU、gyda Chefnogaeth £225 miliwn o fuddsoddiad gan y llywodraeth ac wedi’i leoli ym Mhrifysgol Bryste — 私は gyflymu eu llwythi gwaith cyfieithu a hyfforddi。

前に、今年のデータを新しいデータに設定し、ジムラーエグとブレノロールのデータを設定しました。

シピオナウズ・イエイティドル・ギダ・グヴェルトゥシアド・ゴファルス

Mae Prifysgol Bangor、sydd wedi’i lleoli yng Ngwynedd — y sir gyda’r ganran uchaf o siaradwyr Cymraegs — yn cefnogi datblygiad y model newydd gydag arbenigedd ieithyddol a diwylliannol。

メイ・プライス、オ・ガノルファン・ジムレーグとブリファイスゴル、イン・ドッド・ア・トゥア・ダウ・デゴード・オブ・ブロフィアド・ギダ・テクノレッグ・アイス・アー・ガイファー、ジムレーグ・アイル・シドウェイスレディアド。 Mae ef a’i dim yn helpu i wirio cywirdeb data hyfforddi aギフィエイティル・ガン・ベイリアンナウ・データ・グウェルトゥーソ・ア・ギフィエイティル・ロー、ユン・オギスタル・アグ・アセス・スト・マエア・モデル・イン・イムドリン・ナウズ・ジムレイグ・イ・メイ・ディアルス・ウィッド人工フェル・アーファー・イン・カエル・トラファース・アンウィー・メギス・イ・フォード・マエcytseiniaid ar ddechrau geiriau Cymraeg yn newid yn seiliedig ar eiriau cyfagos。

Disgwylir モデル、Yyn ogystal および Setiau データ hyfforddiant、Gwerthuso’r Gymraeg、fod ar gael、fentrau a’r セクター cyhoeddus eu defnyddio、gan gefnogi ymchwil ychwanegol、hyfforddiantモデル、datblygu rhaglenni。

「前に、私は自分とガル、ディアルスウィッド、人為的なもの、身体、ジムレーグ、そして前にベス・アラル、嘆きの声、そして衛生的な声を上げました」とメダイ・プライス。 「Gall y gwahaniaeth cinnil hwnnw fod y gwahaniaeth rhwng y dechnoleg hon yn cael ei defnyddio ai peidio.」

Defnyddio Modelau Deallusrwydd Artificial Sofran Gyda NVIDIA Nemotron、Microwasanaethau NIM

ガルとフラムウェイス、ddefnyddiwyd、ddatblygu モデル DU-LLM ar gyfer y Gymraeg fod yn sylfaen ar gyfer datblygu Deallusrwydd 人工 amlieithog は、led y byd を導きました。

前モデル、データはネモトロン、sy’n cyrraedd y brig、ar gael yn gyhoeddus i ddatblygwyr er mwyn iddynt adeiladu modelau rhesymu sydd wedi’u teilwra i bron unrhyw iaith、parth a llif gwaith。ウェディウ・ペシンヌ・フェルmicrogwasanaethau NVIDIA NIM、前モデルの Nemotron wedi’u hoptimeiddio ar gyfer cyfrifiadura のコスト効率、rhedeg yn unrhyw le、o liniadur i’r cwmwl。

Bydd 氏は、Ewrop yn galu rhedeg modelau ared, sofra ar y peiriant chwilio Perplexity wedi’i bweru gan Ddeallusrwydd Artificial を作成しました。

NVIDIA Nemotron を使用してください。

カテゴリ: ディープラーニング |生成AI
タグ: 人工知能 |教育 | NVIDIA NIM |社会的影響 |ソブリン AI |合成データの生成

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH