2025年、生成AIは「クラウド中心」から「端末内(オンデバイス)中心」へと明確に重心が移った。PCではNPU(Neural Processing Unit)を前提とする新カテゴリが広がり、40TOPS(1秒間に1兆回の演算処理ができる)級のNPUを搭載した量販モデルが各社から投入された。
そして、世界のPC出荷は2025年Q2に前年比6.5%増となり、商用更新サイクルとAI機能の採用拡大が重なった。これは、生成AIを端末で動かす設計思想が、ハードウエア更新の直接的な動機になっていることを示している。スマートフォンでも翻訳・要約・画像生成など小型〜中型のAIモデルを端末内で動かす設計が普及し、待機時の低負荷タスクをNPUへオフロードする最適化が進んでいるからだ。
本稿は、生成AIの進化によってNPUの重要度が増してきた現状について、調達と運用の現場に直結する四つの視点——①NPUに求められる性能、②帯域とモデル運用、③電池と熱(持続性能)、④データ保護と企業統制——からその現状を考察する。
NPUに求められる性能:40TOPS超であることが最低ライン

現在のPCの主役はもはやCPU/GPUではなく、NPUである言える。Windowsの最新ガイドは、NPUが40TOPS超であることを新しいAI PCの要件として位置づけている。各社の製品計画もこれに沿い、最大50TOPS級のNPUを視野に入れる動きが見られる。
このように最低ラインは“40TOPS超だが、しかし、PC性能を処理数値だけで測るのでは不備がある。まず必要なのは、処理効率なのである。TOPS/W(1Wあたりの演算性能)が低い機種は、同じTOPSでも発熱と電池消費が大きく、連続処理で性能が落ちやすい。実務では自社の代表タスク(会議の要約、音声の常時待受、ローカル画像生成など)を定義し、mWh/ジョブで実測する。これにより、カタログ値を超えた機種間の“持続性能差”が見えてくるのである。
また、適合性を確認することも欠かせない。重視するアプリがNPU経路で動作するかを、OS付属のモニタやベンダーのツールで可視化し、ISVのサポートマトリクスとロードマップをRFPへ添付させる。「土台=40TOPS超」「効率=TOPS/WとmWh/ジョブ」「適合=NPU実行の可視化とISVロードマップ」の三点を一体で求めると、見た目のスペック差よりも運用再現性の高い選定が可能になる。
帯域とモデル運用:帯域×キャッシュ×同時実行

オンデバイスAIPCの主役は、音声認識・要約・画像生成などの小型〜中型モデルである。その評価の焦点はやはり処理速度であるが、その速さに求められるのは“瞬間最大の速さ”ではなく“速さの継続“なのだ。ここでその速さの能力を左右するのが、メモリ帯域とキャッシュ運用なのだ。
次世代のPCモデルでは、サムスン電子の「LPDDR5X」のデュアルチャネル構成など帯域の太い設計が良い見本である。これは、NPU近傍のSRAM/キャッシュにデータを保持し、DRAM往復を減らすことで、1分後に始まる失速を抑える。また、ストレージも軽視できない。モデルの初回ロードや差分更新が多い運用では、ランダムリード性能が体感の安定性に直結するからだ。
一方、スマートフォンは、同時実行が増えている。通知解析から要約、翻訳、カメラ処理へと短いタスクが連なるため、RAMは12GB級を一つの目安とし、新しいUFS規格の採用が“多重実行の失速防止”につながる。評価では単発ベンチに頼らず、例えば「60秒連続の画像生成」で平均と最小スループットを取り、「5分の常時要約」でNPU稼働率・メモリ帯域の使用率、温度とスロットリング発生タイミングをログ化する。同じTOPSであっても、帯域やキャッシュ設計が弱ければ必ず持続性能で差が出るのだ。
電池と熱(持続性能):mWh/ジョブと放熱設計
オンデバイスAIの価値は、起動待ちがない点にあると言える。したがって、ピーク性能よりも低〜中負荷の効率と連続稼働の安定を重視するべきである。主要プラットフォームは、音声の待受や画面の要約などをNPUへオフロードし、待機電力を抑える方向へ最適化している。
実務の検証は次の観点で十分に再現できる。
- 効率:TOPS/Wに加え、代表シナリオでmWh/ジョブの実測を取る。
- 熱設計:10〜15分の連続推論でクロック維持、表面温度、スロットリング発生条件を計測する。薄型筐体は放熱余力がKPIになる。
- 騒音と放熱のトレードオフ:ヒートスプレッダやベイパーチャンバー、ファンカーブの設定により、持続性能と静粛性の最適点を見つける。
- 1日の再現テスト:会議2本+要約、移動中の音声対話30分、画像生成10枚など自社の“1日”をシナリオ化し、残量、総消費mWh、平均・最大温度、処理件数をログ化して横並び比較する。
データ保護と企業統制:暗号・除外・MDM

オンデバイスAIは、データをクラウドに送らないことによる漏えいリスクの低減が利点である。一方で、画面要約や通知解析、音声ログなど、端末内に情報が残る機会は増える。求められるのは既定値の設計と企業ポリシーの実装容易性である。
まず暗号化と認証である。端末内保存は強力な暗号で保護し、生体認証と連動させる。モバイルでは、AI向けに強化された暗号基盤や量子耐性の導入といった最新の保護策が提示されており、企業のMDMと組み合わせることで一括適用しやすい。
次に除外設定である。画面要約やOCRなどの横断機能は、金融・医療・CRMなど対象外アプリを確実に除外できるUIと管理項目が必要だ。さらに、ローカルAI処理の監査ログをどの粒度で、どの期間保持し、どこに保管するか(端末かサーバか)を明文化する。RFPの落とし所は、「オンデバイスで完結させる処理の範囲」と「保存/破棄の既定値」を前提条件として、NPU対応、暗号化、除外設定、MDM適用、監査ログ運用を“標準機能”として要求することにある。これにより、セキュリティレビューとユーザー体験(遅延・電池)を両立できる。
“常時・低負荷・連続”に強い経路の標準化を目指す
Windowsは、「Copilot+ PC」という新カテゴリでNPU 40TOPS超を軸にリアルタイム翻訳や画像生成などの機能をローカルで支える方針を打ち出している。
モバイルでは、AndroidがGKIや神経回路API経由でのオフロード最適化を進め、iOSはデバイス処理に加え、Private Cloud Computeとの役割分担で機密性と機能性の両立を図る。PC側でもモバイル側でも、基本思想は“常時・低負荷・連続”に強い経路を標準化することであり、ベンダーごとの差はあれど、目指す方向は同じ方向を向いている。
供給側は“土台40TOPS、上限は拡張中”

ここで、供給側の動きも確認しておく。PC向けでは最大50TOPS級のNPUをうたう発表があり、ARM系の新プラットフォームは80TOPS級のNPUまで視野に入れるなど、“土台40、上限は拡張”の段階にある。これは短期的にアプリ側のNPU最適化を促し、中期的にはメモリ帯域やストレージのI/O設計を含むシステム全体の最適化競争へ波及する。
“軽量モデル×端末最適化”が2025–26年の現実解

これまでみてきたように、今後の勝ち筋は大型モデルを無理に端末へ押し込むことではない。日常の高頻度タスク(翻訳、要約、議事録化、画像生成など)を、軽量で特化度の高いモデルで確実に実行できるようにし、NPU×帯域×効率の設計で“速さの継続”を実現することにある。
設計ではメモリ帯域とキャッシュ運用を詰め、ピークではなく持続性能を狙う。運用では暗号化・除外設定・MDM・監査ログを標準機能として前提化し、「どの処理を端末で完結させ、何を残し、何を捨てるか」というルールを明文化すること。
この一連の意思決定がそろって初めて、オンデバイスAIは“目新しい機能”から“日常生活を向上させる基盤”へと変わるのだ。2025–26年に最も費用対効果の高い投資は、この地味だが確実な持続性能の積み上げなのである。
*この記事は以下のサイトを参考に執筆しました。
参考リンク