無形 IP から AI を網羅するアプリケーションまで、Arm China が「Zhouyi」X3 NPU を発売!

この記事を読むのにかかる時間: 9

概要:AIGC大規模モデル処理能力が10倍向上し、FP8 80 TFLOPS、シングルコア帯域幅256GB/s、プリフィルコンピューティング電力使用率は72%、復調実効帯域幅使用率は100%を超えました。

2025年11月13日、中国・上海 – 中国の大手チップIP設計・サービスプロバイダーであるArm Chinaは本日、上海で開催された製品発表イベントにおいて、新型NPU IP「Zhouyi」X3を発表しました。Arm Chinaの「All in AI」製品戦略に基づく初の主要製品であり、「AI Arm CHINA」戦略的開発方針の重要な実践となる「Zhouyi」X3 NPU IPは、大規模モデル向けに特別に設計された最新のDSP+DSAアーキテクチャを基盤としています。エッジAIコンピューティングの効率性における新たなベンチマークを確立し、パフォーマンス、機能、使いやすさの総合的な飛躍を実現することを目指しています。インフラ、スマートカー、モバイル端末、スマートIoTという4つの主要分野をターゲットとし、アクセラレータカード、スマートコックピット、ADAS(先進運転支援システム)、エンボディド・インテリジェンス、AI PC、AIフォン、スマートゲートウェイ、スマートIPC(ネットワークカメラ)といったデバイスに、これまでにないAIコンピューティング体験をもたらします。

Arm China 製品開発担当バイスプレジデント、Liu Hao氏

Arm China 製品開発担当バイスプレジデント、Liu Hao氏は次のように述べています。「『All in AI』製品戦略に基づき、私たちは投資を拡大し続け、トップクラスの研究開発リソースを将来を見据えたビジョンと統合し、オープンな協力体制を堅持し、ハードウェア、ソフトウェア、サービスに至るまで、業界をリードするエンドツーエンドのソリューションをエコシステムパートナーに提供することで、パートナーの製品イノベーションと商業化を強力に支援していきます。」

「Zhouyi」X3 NPU IP 新製品発表イベント

パフォーマンスの飛躍

5年間の将来計画:安定的かつ効果的なエッジモデル開発の実現

半導体IP分野では、「今後5年間の製品方向性を見据えた将来計画」が業界のコンセンサスとなっており、IPの研究開発、チップおよび端末製品の研究開発、そして量産までを網羅しています。Arm Chinaはこのトレンドを深く理解し、「Zhouyi」X3にCNNとTransformerアーキテクチャの両方に対応するユニバーサルアーキテクチャ設計を積極的に採用しました。これにより、あらゆるコンピューティングパワータイプをサポートし、浮動小数点演算(FLOPS)を向上させることで、固定小数点演算から浮動小数点演算への重要な移行を促進し、大規模モデル演算の需要に対応します。これは、今後5年間におけるGen AI、Agentic AI、Physical AIのエッジ展開のための技術基盤となります。

大規模AIモデル技術の急速な発展に伴い、スマートフォン、AI PC、スマートカーなどのエッジデバイスにおけるAI機能への需要は爆発的に増加しています。マルチモーダル音声アシスタントからリアルタイム画像生成、インテリジェントコックピットインタラクションから運転支援判断まで、エッジデバイスはますます複雑化するAIコンピューティングタスクを処理する必要があります。しかし、エッジAIの導入は、限られたコンピューティングパワー、高いエネルギー効率要件、帯域幅のボトルネック、高い開発障壁など、多くの課題に直面しています。限られた消費電力とコンピューティングリソースで大規模モデルを効率的に運用する方法は、業界が早急に克服すべき重要な課題となっています。

「Zhouyi」X3は、大規模モデル向けに特別に設計された最新のDSP+DSAアーキテクチャを基盤としています。計算効率、帯域幅、精度適応、タスク処理の4つの側面で性能が向上し、エッジでの大規模AIモデル実行の課題を的確に解決し、エッジAIの計算効率における新たなベンチマークを確立します。

シングルクラスターで最大4コアをサポートし、柔軟な構成で8~80 FP8 TFLOPSの演算能力と、シングルコア帯域幅最大256GB/sを誇ります。「Zhouyi」X2と比較して、「Zhouyi」X3はCNNモデルにおいて30%~50%の性能向上を実現し、マルチコア演算の線形性は70%~80%に達します。同じ演算能力仕様において、AIGC大規模モデル処理能力は前世代比10倍に向上しており、FP16 TFLOPSは16倍、コア帯域幅は4倍、SoftmaxおよびLayerNormの性能は10倍以上向上しています。

これらの最適化により、エッジ側での大規模モデル推論の効率が向上します。Llama2 7B大規模モデルを用いた実環境テストでは、「Zhouyi」X3 NPU IPは、プレフィルフェーズで最大72%の演算能力利用率を達成しました。さらに、Arm Chinaが独自開発した解凍ハードウェアWDCのサポートにより、デコードフェーズにおける実効帯域幅利用率は100%を超え、業界平均をはるかに上回り、大規模モデルのデコードフェーズにおける高スループット要件を満たしました。

「Zhouyi」X3 NPU IPのハイライト

さらに、「Zhouyi」X3はアーキテクチャレベルで複数のイノベーションを実装し、以下の主要機能を統合しています。

* 自社開発の解凍ハードウェアWDCを統合:大規模モデルの重みをソフトウェアでロスレス圧縮した後、ハードウェア解凍を行うことで、15%~20%相当の帯域幅増加を実現します。

* エッジ側での大規模モデル演算に不可欠なW4A8/W4A16演算アクセラレーションモードを追加:モデルの重みに対して低ビット量子化を実行することで、帯域幅消費を大幅に削減し、大規模モデルのクラウドからエッジへの効率的な移行をサポートします。

AI専用ハードウェアエンジンAIFF(AI固定関数)と専用強化スケジューラを統合:超低CPU負荷(最小0.5%)と低スケジューリングレイテンシを実現し、エッジサイドのマルチタスクシナリオや任意優先度スケジューリングシナリオを柔軟にサポートし、高優先度タスクへの即時応答を保証します。

int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32のマルチ精度融合コンピューティングと強力な浮動小数点コンピューティングをサポート:従来のCNNから、スマートフォンエッジデプロイメント、AI PC推論、スマートカーにおける最先端の大規模モデルまで、幅広いデータ型要件に柔軟に適応し、パフォーマンスとエネルギー効率のバランスを実現します。

Arm Chinaプロダクトディレクター、バオ・ミンチー氏

Arm Chinaプロダクトディレクター、バオ・ミンチー氏は次のように述べています。「『Zhouyi』X3は、『ハードウェアとソフトウェアのシナジー、フルサイクルサービス、カスタマーサクセス』という製品理念に基づき、ハードウェアとソフトウェアからアフターサービスまで、フルチェーンのサポートを提供します。先進的な設計、プロフェッショナルなチームによるデリバリー、そして綿密なサービス投資により、お客様の製品の成功と商業化を包括的に支援します。」

ハードウェアとソフトウェアのシナジー

「使いやすさ」から「効果的な利用」へ。Compassの「ゴールドメダルアシスタンス」が開発効率を向上

『Zhouyi』X3 NPU IPは、高性能なハードウェアを提供するだけでなく、包括的で使いやすい『Zhouyi』Compass AIソフトウェアプラットフォームも搭載しています。「ハードウェアとソフトウェアの統合」というシナジー設計により、開発者は「使いやすさ」から「効果的な利用」へと進化し、開発と展開の効率を大幅に向上させることができます。

Compass AIソフトウェアプラットフォームは、開発プロセス全体をカバーするツールチェーン、卓越したユーザビリティを実現する最適化、そしてオープンなエコシステムレイアウトを通じて、エッジAI開発における「適応の難しさ、開発サイクルの長さ、そして高い敷居」といった課題を解決します。コアツールであるプラットフォームのNNコンパイラは、パーサー、オプティマイザー、GBuilder、そしてAIPULLM(大規模モデル実行ツール)を統合し、主流モデルの効率的な変換、自動最適化、そしてデプロイメント構成の生成を可能にします。Compass AIは、以下のコア機能を備えています。

**広範なフレームワークとモデルのサポート:** 160以上の演算子と270以上のモデルをサポートし、TensorFlow、ONNX、PyTorch、Hugging Faceといった主流AIフレームワークと互換性があり、すぐに使えるModel Zooを提供します。

**革新的なHugging Faceモデルのワンクリックデプロイメント:** AIPULLMツールチェーンを通じてHugging Face形式のモデルを直接サポートし、ワンストップの変換とデプロイメントを実現することで、開発の敷居を大幅に低減します。

**革新的なワンクリック・ハギングフェイス・モデルの導入:** AIPULLMツールチェーンを通じて、ハギングフェイス形式のモデルを直接サポートし、ワンストップの変換と導入を実現することで、開発のハードルを大幅に下げます。高度なモデル推論最適化:大規模モデルにおいて業界をリードする動的形状サポートを実現し、任意の長さの入力シーケンスを効率的に処理します。テンソル/チャネル/トークンレベルを含む多様な量子化手法に加え、GPTQなどの大規模モデル向けの主流の量子化スキームも提供します。さらに、LLM/VLM/VLAおよびMoEモデルに対する高性能サポートを追加することで、推論精度を確保し、クラウドからエッジへの迅速な移行を可能にします。

柔軟な開発者エンパワーメント:ユーザーモデルとカスタム演算子の開発とデバッグをサポートする複数のオープンインターフェースを提供します。豊富なデバッグツールとビット精度のソフトウェアシミュレーションプラットフォームを備え、マルチレベルのホワイトボックス開発とパフォーマンスチューニングをサポートし、アルゴリズムの移植と導入を大幅に簡素化します。

包括的なシステム互換性と異機種間互換性:Android、Linux、RTOS、QNXなどの複数のオペレーティングシステムをサポートし、TVM/ONNXを通じてSoC異機種間コンピューティングを実現し、CPU、GPU、NPUなどのコンピューティングリソースを効率的にスケジューリングします。

Arm Chinaはオープンエコシステムの構築に積極的に取り組んでいます。Compass AIソフトウェアプラットフォームのコアコンポーネント(パーサー、オプティマイザー、Linuxドライバー、TVM、内部IRフォーマットなど)はオープンソース化されており、開発者のホワイトボックス展開ニーズを満たす豊富なデバッグツールを提供しています。また、より使いやすいDSL演算子プログラミング言語もサポートしています。これにより、開発者はより高度なカスタマイズ機能を実現できます。お客様は、プラットフォームのコンパイラ、デバッガー、またはDSL言語を使用して独自のカスタム演算子を開発できるだけでなく、パーサーやオプティマイザーなどのツールを使用して独自のモデルコンパイラを作成することもできます。これにより、差別化された設計と開発効率の向上を実現できます。

「Zhouyi」NPU Compass AIソフトウェアプラットフォーム

さらに、Arm Chinaの技術チームは、「Zhouyi」X3 NPU IPとCompass AIソフトウェアプラットフォーム間のハードウェアとソフトウェアの相乗効果を綿密に設計し、繰り返し検証することで、お客様の最終的な実装ソリューションの効率性とエネルギー効率の向上を目指しています。例えば、「Zhouyi」X3 NPU IPのAIFFモジュールのハードウェアとソフトウェアの設計では、ハードウェア側がソフトウェアの使用シナリオと完全に統合され、バス帯域幅の拡大とDMA(ダイレクトメモリアクセス)の未処理命令またはデータ要求の強化により、データ転送とデータ並列処理の効率が向上します。一方、ソフトウェア側では、モデルを合理的に分割することでマルチコア並列処理のメリットを最大限に活用するなど、ハードウェア特性に合わせた専用の使用モードを設計しています。

Arm China NPU製品ライン責任者兼チーフアーキテクト、シュ・ハオ博士

シュ・ハオ博士は、「Zhouyi」X3製品の優位性は、汎用性、柔軟性、効率性、そしてハードウェアとソフトウェアが連携するシステムアーキテクチャ設計にあると考えています。この設計により、幅広い業界への適用性と、エッジAIアプリケーションシナリオへの柔軟なマッチング能力が両立しています。

マルチシナリオ展開

無形IPからAIの包括的な領域まで、エッジインテリジェンスは手の届くところにあります

新世代の「Zhouyi」X3 NPU IPは、エッジインテリジェンスの境界をより幅広いアプリケーションシナリオへと拡大し、インフラ、スマートカー、モバイル端末、スマートIoTという4つの主要分野をターゲットとしています。これは、エッジAI需要の爆発的な増加に的確に対応し、アクセラレータカード、スマートコックピット、ADAS、エンボディド・インテリジェンス、AI PC、AIフォン、スマートゲートウェイ、スマートIPCといったAIデバイスに幅広く活用できます。

インフラ分野:アクセラレータカードのシナリオにおいて、「Zhouyi」X3 NPU IPは、CNNや大規模モデルといった多様な構造を持つAIモデルの効率的なアクセラレーションをサポートし、データセンターやエッジコンピューティングノードの中核となるコンピューティングパワーを提供します。

インテリジェントビークル分野: 「Zhouyi」X3 NPU IPは、インテリジェントドライビングとインテリジェントコックピットの実現を同時に実現します。ADASシステムでは、自動駐車などの運転支援機能をサポートする高性能AIコンピューティングパワーを提供し、IVI(車載インフォテインメント)システムでは、車内外からの音声やビデオ/画像入力に基づくインテリジェントなインタラクションをサポートします。

モバイル端末分野:「Zhouyi」X3 NPU IPは、AI PCやAIスマートフォンにおいて超解像レンダリングを実現し、ディスプレイ解像度を向上させるとともに、大規模モデルに基づくAIエージェントアプリケーションをサポートすることで、よりインテリジェントでスムーズなインタラクティブ体験をユーザーに提供します。

インテリジェントIoT分野:「Zhouyi」X3 NPU IPは、インテリジェントゲートウェイやインテリジェントIPCなどのデバイスにおいて、ローカルAI推論をサポートし、より高速な応答性とよりインテリジェントな端末体験を実現し、リアルタイム性能とプライバシー保護に対するエッジデバイスの高度な要件を満たします。

「Zhouyi」NPU IPシリーズファミリー オンサイトデモエリア

今回の発表イベントでは、「Zhouyi」NPU製品ファミリーの技術進化と実用的成果を体系的に紹介し、目に見えないコンピューティングパワーを、容易に利用可能なインテリジェント体験へと変換する様子を鮮やかに示しました。

Zhouyi Z1:演算能力0.32~3.75 TOPS。AIoTシナリオに対応し、顔認識、顔および人物のキーポイント検出、テキスト認識を幅広くサポート。AIスマートスピーカーなど、様々な製品に搭載されています。

Zhouyi Z2/Z3:演算能力1.25~5 TOPS。AIoTおよびエントリーレベルのコックピット市場をターゲットとし、先進的な運転支援ソリューション、コックピット統合駐車ソリューション、安全ダッシュボードソリューション、画像超解像最適化をサポートします。

Zhouyi X1:演算能力10 TOPS。ハイエンドAIoTおよび自動車コックピット市場をターゲットとし、ドライバーモニタリング、パッセンジャーモニタリング、自動駐車、AVM 360度サラウンドビュー、AI画像ノイズ低減をサポートします。

10~30 TOPSの演算能力を備えた「Zhouyi」X2は、ハイエンドAIoT、AI PC、AI Pad、携帯電話市場をターゲットとしています。 Stable Diffusion v1.5 を用いたテキストから画像への生成機能と、CLIP を用いたテキストから画像への検索機能を実証し、エッジでのスムーズなマルチモーダル AI 運用を実現しました。

8~80 FP8 TFLOPS の演算能力を備えた「Zhouyi」X3 は、インフラ、スマートカー、モバイル端末、AIoT 市場をターゲットとしています。DeepSeek-R1-Distill-Qwen-1.5B モデルを用いたスムーズなテキストからテキストへの AI 対話、Stable Diffusion v1.5 を用いたテキストから画像への生成効果、MiniCPM v2.6 モデルを用いた画像認識および画像からテキストへのマルチモーダルアプリケーションなど、「Zhouyi」X3 をベースとした主流の大規模モデルのパフォーマンスを実証し、いずれも優れたエッジサイド大規模モデル推論性能を示しました。

「Zhouyi」Z1の基本認識から「Zhouyi」X3の複雑な認識まで、この技術進化の軌跡は、エッジAIが単機能実装から、複数のモデルを統合し、動的なシナリオに適応する「ユニバーサルアクセシビリティ」という新たな段階へと移行していることを明確に示しています。「Zhouyi」X3 NPU IPの設計は、エッジAIにおける「シナリオ深化」のトレンドを的確に先取りしています。「マルチモデルフュージョン」のコンピューティングパワー要件を極めて高いコンピューティングパワー性能で解決し、あらゆるコンピューティングパワータイプと強化された浮動小数点演算(FLOPS)によって「精度の動的進化」のシナリオの違いに適応し、ソフトウェアとハ​​ードウェアの協働エコシステムを通じてエッジコンピューティングのパワー基盤を構築します。

「Zhouyi」X3 NPU IP新製品発表イベント

「Zhouyi」X3 NPU IPの発表は、Arm Chinaの「All in AI」製品戦略の正式なスタートを告げるものです。 Arm Chinaは、「AI Arm CHINA」を戦略的開発方針として掲げ、「AI+」アクションプランに積極的に対応し、技術革新を継続的に深化させるとともに、パートナーとの連携を通じてオープンエコシステムを構築しています。これにより、中国の「AI+」産業の高度化に向けたインテリジェントコンピューティング基盤の構築を加速し、様々な産業のインテリジェント変革を支える強力なIP「コア」パワーを提供しています。

Arm Chinaは、中国におけるリーディングカンパニーとして、チップIP設計およびサービスプロバイダーです。独立系合弁会社として、現地のイノベーションに根ざし、自社開発のビジネス技術革新とArm技術ライセンスを組み合わせ、中国の集積回路業界に豊富な製品ポートフォリオとソリューションを提供することで、中国のインテリジェントコンピューティング「チップ」エコシステムを強化しています。

出典: 元記事を読む

※現在お読みいただいているこの記事は、国内外のニュースソース等から取得した情報を自動翻訳した上で掲載しています。
内容には翻訳による解釈の違いが生じる場合があり、また取得時の状況により本文以外の情報や改行、表などが正しく反映されない場合がございます。
順次改善に努めてまいりますので、参考情報としてご活用いただき、必要に応じて原文の確認をおすすめいたします。

TOP
CLOSE
 
SEARCH