- 2025/12/05 掲載
MIT、LLMの推論コストを半減可能な「動的スケーリング」技術を発表
推論コストを最大で約50%削減可能に
ビジネス+IT
この考え方は、2025年2月に発表された論文 Entropy Adaptive Decoding(EAD) によっても支持されている。EADでは、出力の不確実性(モデルがどれだけ確信を持って次のトークンを予測するか)をモデルの “logit エントロピー” で測り、予測が容易な範囲では小型モデルに切り替える。実験では、たとえば 11B パラメータモデルを基準とした場合で、性能を約 96.7% 保ったまま計算コストを約 41.5% 削減できたという結果が報告されている。より差の大きいモデル間の切り替えでは、さらにコスト削減率が高くなるとのこと。
また、別の手法として提案されている Adaptive Branching Monte Carlo Tree Search(AB-MCTS)は、単純な繰り返しサンプリングだけでなく、探索と改善を繰り返すマルチターン推論方式により、推論品質を維持しつつ低コスト化を狙う。AB-MCTS を用いることで、複雑な推論やコード生成、長文応答などで、従来の単純サンプリングより高効率な結果が得られる可能性があると報告されている。
こうした研究成果は、推論コストを下げる「軽量モデル or 高性能モデルの動的振り分け」「不確実性に応じたモデル切り替え」「推論時の制御戦略の改善」といった共通の設計思想に立っている。これにより、単に最大能力を出すために常に最も大きいモデルを使うのではなく、応答内容やタスクの難易度に応じて柔軟にリソースを使い分けることで、計算資源とコストの大幅な節約を実現する可能性が示されている。
最近このようなスケーリング研究に注力している背景には、LLMのサイズ・コンピューティングコストの急激な拡大、クラウド課金負荷、環境負荷などがあるとMIT側は説明しており、今後このような「効率的で適応的な推論」の技術は、LLMの商用運用や大規模導入にとって極めて重要になると考えられている。実際、MIT-IBM Watson AI Lab は多数のモデル・性能データをまとめたスケーリング法則の調査報告も最近公表しており、学習段階だけでなく推論段階のコスト最適化に道が開かれている。
なお、MITの最新研究には「推論能力そのものを飛躍的に改善する」ものも含まれており、高効率スケーリングと推論性能強化の双方を狙うアプローチが並列して進んでいる。これらを組み合わせることで、コストを抑えつつより高度な応答や推論が可能になるとの期待がある。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR