- 2025/12/04 掲載
NVIDIA の新AIサーバー、Moonshoot AI や DeepSeek 向け推論モデルを「最大10倍」高速化
中華AIなどグローバルAIインフラ向けにも優位性を強調
ビジネス+IT
この性能向上の背景には、サーバー1台に最大72個の高性能チップを搭載し、それらを高速なインターコネクトでつなぐ新アーキテクチャがある。これによりチップ間通信のボトルネックを大幅に削減でき、特にMoE型モデルのように多数のサブネットワーク(“エキスパート”)間で計算を分散する方式で大きな性能メリットが得られるとしている。
MoE方式の採用は、すでにDeepSeekやMoonshoot AIのような新興モデルで広がっており、NVIDIAも自社サーバーでこれらを高速サービングする能力をアピール。NVIDIAによれば、これらのモデルはトレーニング時点だけでなく、実際にユーザーに応答を返す「推論(インファレンス)」環境においても、従来比で大幅なスループット改善が可能という。
すでに今年(2025年)3月の開発者イベント「NVIDIA GTC 2025」では、NVIDIAはDeepSeek-R1モデルの推論性能について、8基の最新GPU(Blackwell 搭載 DGX システム)で「1ユーザーあたり250トークン/秒以上」「システム全体で最大30,000トークン/秒以上」のスループットを達成したと報告していた。
さらに、NVIDIAはオープンソースの推論ソフトウェア「NVIDIA Dynamo」によって、DeepSeek-R1 などのモデルを「同じ数のGPUで最大30倍の推論スループット」にできると主張していた。
今回の発表は、このようなソフトウェアとハードウェア両面の改善が、Moonshoot や DeepSeek といったモダンなAIモデルの展開において、本番環境(サービス運用)でも現実的な性能改善につながることを示すものとなる。 NVIDIAは今回の成果をもって、AIモデルの「トレーニング競争」だけでなく、「実用・提供フェーズでの効率化」に力を入れる姿勢を改めて示した。特に、複数GPUを束ねて大規模モデルを低遅延かつ高スループットで運用したい企業やサービス提供者に向けて、優位性をアピールしている。
近年、AIモデルは巨大化し、学習だけでなく運用時の効率やコストが重要になっている。特にMoE型のモデルは、必要なExpertだけを動かすことで計算コストを抑えつつ高性能を維持できるため注目されている。NVIDIAの新サーバーは、そのようなモデルのサービングに最適化されており、AIの商用サービス化や大規模なマルチユーザー展開を後押しするインフラとして機能する可能性がある。
また、同社が過去に発表した推論最適化技術と新サーバーのアーキテクチャが両輪で機能することで、AI提供コストの削減や性能/スループットの大幅改善が見込まれる。これはAIサービスの量産・大量投入を目指す事業者にとって重要なインパクトを持つ。
今回の発表は、AIハードウェア市場で依然強い存在感を持つNVIDIAが、単なる学習用GPUから「大規模展開・サービス用インフラ」の提供者へとポジションを強化していることを示すものであり、今後のAI産業の拡大を支える重要な技術進展と評価できる。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR