2025/12/05 掲載

MIT、LLMの推論コストを半減可能な「動的スケーリング」技術を発表

推論コストを最大で約50％削減可能に

ビジネス+IT

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

MITの研究者らが、実行時にモデルや処理量をタスクに応じて切り替える「動的スケーリング（Adaptive Scaling）」などの新技術を開発し、推論コストを最大で約50％削減できる可能性を示した。複数の研究成果が同時期に発表され、効率的かつ柔軟なLLM運用の道を拓いた。

MITおよび関連研究機関は、大規模言語モデル（LLM）の推論時に用いる計算量や使用モデルをタスク内容や出力の不確実性に応じて動的に切り替える「動的スケーリング（Adaptive Scaling）」技術を発表し、その結果、従来と比べて推論コストを約半分に削減できるという研究成果を示した。この技術によって、高性能モデルを常に使い続ける必要がなくなり、利用コストや計算リソースの消費を大幅に軽減できる可能性がある。例えば、あるモデルファミリーでは、全トークンのうち比較的「容易・単純」な部分のみ軽量／低コストモデルでまかない、複雑・高不確実性な部分のみ高性能モデルに切り替えることで、全体の計算コストを大きく下げられるという。

この考え方は、2025年2月に発表された論文 Entropy Adaptive Decoding（EAD）によっても支持されている。EADでは、出力の不確実性（モデルがどれだけ確信を持って次のトークンを予測するか）をモデルの “logit エントロピー” で測り、予測が容易な範囲では小型モデルに切り替える。実験では、たとえば 11B パラメータモデルを基準とした場合で、性能を約 96.7% 保ったまま計算コストを約 41.5% 削減できたという結果が報告されている。より差の大きいモデル間の切り替えでは、さらにコスト削減率が高くなるとのこと。

また、別の手法として提案されている Adaptive Branching Monte Carlo Tree Search（AB-MCTS）は、単純な繰り返しサンプリングだけでなく、探索と改善を繰り返すマルチターン推論方式により、推論品質を維持しつつ低コスト化を狙う。AB-MCTS を用いることで、複雑な推論やコード生成、長文応答などで、従来の単純サンプリングより高効率な結果が得られる可能性があると報告されている。

こうした研究成果は、推論コストを下げる「軽量モデル or 高性能モデルの動的振り分け」「不確実性に応じたモデル切り替え」「推論時の制御戦略の改善」といった共通の設計思想に立っている。これにより、単に最大能力を出すために常に最も大きいモデルを使うのではなく、応答内容やタスクの難易度に応じて柔軟にリソースを使い分けることで、計算資源とコストの大幅な節約を実現する可能性が示されている。

最近このようなスケーリング研究に注力している背景には、LLMのサイズ・コンピューティングコストの急激な拡大、クラウド課金負荷、環境負荷などがあるとMIT側は説明しており、今後このような「効率的で適応的な推論」の技術は、LLMの商用運用や大規模導入にとって極めて重要になると考えられている。実際、MIT-IBM Watson AI Lab は多数のモデル・性能データをまとめたスケーリング法則の調査報告も最近公表しており、学習段階だけでなく推論段階のコスト最適化に道が開かれている。

なお、MITの最新研究には「推論能力そのものを飛躍的に改善する」ものも含まれており、高効率スケーリングと推論性能強化の双方を狙うアプローチが並列して進んでいる。これらを組み合わせることで、コストを抑えつつより高度な応答や推論が可能になるとの期待がある。

評価する

いいね！でぜひ著者を応援してください