研究者視点で見た「GPT-4o」の評価と謎、GPT-5に向けた「たった1秒」の伏線とは

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

新型AIモデル「GPT-4o」が発表されたものの、実は多くの謎が残されており、研究者たちからもさまざまな疑問が投げかけられています。特に、旧GPT-4に比べて驚異的に高速化された出力スピードは、単なるハードウェアの改善だけでは説明できないレベルのものです。一方、性能の一部が低下しているという報告もあり、今後の詳細な検証が求められそうです。GPT-4oは汎用人工知能（AGI）に近づく一歩とされており、次世代の「GPT-5」への期待も高まっています。この記事では、『生成AIで世界はこう変わる』の著者で、東大松尾研究室の今井翔太氏が、研究者の視点でGPT-4oの性能と次世代のGPT-5への可能性について解説します。

執筆：東京大学松尾研究室今井翔太

東京大学松尾研究室今井翔太

1994年、石川県金沢市生まれ。東京大学大学院工学系研究科技術経営戦略学専攻松尾研究室に所属後、現在はAI研究者。博士（工学、東京大学）。人工知能分野における強化学習の研究、特にマルチエージェント強化学習の研究に従事。ChatGPT登場以降は、大規模言語モデル等の生成AIにおける強化学習の活用に興味。著書に『深層学習教科書ディープラーニング G検定（ジェネラリスト）公式テキスト第2版』（翔泳社）、『AI白書2022』（角川アスキー総合研究所）、訳書にR. Sutton著『強化学習（第２版）』（森北出版）など。

GPT-4oは数年前なら「AGI（汎用人工知能）」といわれるレベルに達した

（出典：OpenAI）

前回記事・前々回記事はこちら
GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力
（https://www.sbbit.jp/article/cont1/140613）

GPT-4oの動画・画像、音声の能力は？これから使える機能、今わかっていることまとめ
（https://www.sbbit.jp/article/cont1/140613）

研究者の視点から見てもGPT-4oは「謎が多いモデル」

　ここからは少し研究的な視点での解説になります。用語についても少し研究的な色が強くなり、使われている用語の傾向が少し変わること（言語生成AI→大規模言語モデルなど）をご了承ください。

　手前味噌で恐縮ですが、以下のような生成AIに関する研究的な内容も理解したいという方のために拙著『生成AIで世界はこう変わる』をおすすめさせていただきます。

　ここまでGPT-4oの圧倒的な性能を解説してきたところですが、GPT-4oのまとまった研究報告や論文といったものは公式からも他の研究機関からも（少なくともこの記事の執筆時点では）まだ少ない状況です。

　すべての情報が明らかにされないまでも一応Technical Reportが存在していたGPT-4と比べてもGPT-4oは謎が多いモデルです。

　なお、OpenAI CEOサム・アルトマン氏が後日出演した対談動画によると、アルトマン氏本人もGPT-4oに触れている期間は1週間程度しかないということらしく、グーグルの発表に合わせて急遽リリースしたというのも背景にありそうです。

サム・アルトマン氏ですらGPT-4oについて触れている期間は1週間程度だったという

（出典：Sam Altman talks GPT-4o and Predicts the Future of AI）

　ただ、発表から1週間程度が経過し、私自身や他のユーザーが実際に利用した知見も貯まってきていますので、そこからある程度推測可能なGPT-4oの詳しい性能を書いてみようと思います。

編集部おすすめ記事

【保存版】Geminiの出力精度が劇的に変わる…「プロンプト設計」解説

出力スピードが「異常なレベル」で高速化

　まず、GPT-4oの処理スピードとテキストの出力性能に関するものです。GPT-4oの出力スピードは旧GPT-4oと比較しても「異常なレベル」で早くなっています。

　GPT-4などの大規模言語モデルは一般的にとてつもなく巨大なニューラルネットワークを利用しており、そのニューラルネットワークのTransformerというアーキテクチャーの仕様からも、処理はどうしても遅くならざるを得ませんでした。

　一度のやり取りで数十秒かかることすらザラであり、筆者などは、GPT-4の出力が完了するまでの間にメールを書いたり、YouTubeの動画を見ていたくらいです。

　これに対して、GPT-4oの処理はかなり長い文章であっても数秒レベルであり、これはChatGPTの処理の最適化やハードウェアをどうにかした程度で実現できるものではありません。

　おそらく、ベースとなるGPT-4oのニューラルネットワーク自体に、GPT-4と比べてかなり仕様が異なるものを利用しています。

　出力スピードを考えるとGPT-4oのニューラルネットワークは旧GPT-4と比べて相当に小型なものを利用していることが推測されます。

　大きなニューラルネットワークの出力をまねるように小型のニューラルネットワークを学習する蒸留（distillation）、不要なパラメーターを削除する枝狩り（pruning）、パラメーターの値の低精度化して表現幅を減らす量子化（quantization）、良質なデータを学習に使う、トークナイザーを改善することなど、大規模言語モデルを圧縮して高性能な小型のモデルを使う手法はいくつかありますが、GPT-4oはこれらの技術のいずれか、あるいはOpenAI内で開発した新手法などをつかってGPT-4oの小型化を実現していると考えられます。

　旧GPT-4は有料ユーザーのみに開放されていましたが、OpenAIがGPT-4oを一般ユーザーに無料で公開し始めたという点を見ても、GPT-4oが小型モデル化に成功したがゆえに運用コストが下がり、収益の目処が立ったと考えることができます。

「スケーリング則」を無視した飛躍がもたらす意味

　さて、ここまでの話なら単に「小型の大規模言語モデルでGPT-4レベルの性能を出すことに成功した」ということになるのですが、今まで研究者の間で常識とされていたことを考えると、これは「はい、そうですか」と済ませることはできません。

　大規模言語モデルに関する有名な説として「スケーリング則」というものがあります。これは一言でいうと、「Transformerを使った言語モデルの性能は、モデルサイズ（パラメーター数）、学習に利用するデータの量、学習に使う計算量によって決まる」というものです。

　これら3つの変数を「同時に」大きくする（スケーリングさせる）ことでGPTのような言語モデルの性能は上昇していくと主張していくわけです。

　もう少し詳しく言うと、これらの3つの変数を10倍、100倍と増やしていくと、それに合わせて言語モデルの「間違いやすさ」を示す学習中のテスト誤差が綺麗な直線関係で下がっていきます。

　このスケーリング則を考えると、報告されているGPT-4oの圧倒的な性能は（実は）少し不自然なのです。

　上述のようにスケーリング則が成立するには、モデルサイズ、データ量、計算量を「同時に」上昇させる必要があります。

　つまり、小型のモデルでGPT-4並みの性能を出そうといっても、モデルサイズが小型で固定される以上は、どれだけデータ量を増やそうが、計算量を増やそうが、普通は実現できません。

　スケーリング則自体は、あくまでテスト誤差が3つの変数を上げることで小さくなっていくことを主張しているに過ぎないため、厳密にはスケーリング則のみで小型のモデル＝性能が低いという結論をそのまま導けるわけではありません。

　ただ、スケーリング則は、現在の研究者たちの世界ではおおむねそのまま生成AIの言語性能に直結する絶対的なものであると認識されています。

　実際、GAFAMや世界中の研究機関による小型モデルの開発、私自身も研究室で開催された大規模言語モデルのコンペの結果を見ていた結果などを考慮すると、ほとんどの結論は「大規模言語モデルの性能は大きさが正義である」というものです。

　先ほど大規模言語モデルの小型化の研究を紹介しましたが、それらの研究によって本当に小型化に成功して実運用されている最先端モデルはほとんどなく、実用的な大規模言語モデルの性能を比較・ランキング化するChatbot Arenaというサイトの上位はまさに「大規模言語モデルの性能は大きさが正義である」を体現したような巨大モデルばかりです（参考：https://chat.lmsys.org/）。

　ましてGPT-4oの元の旧GPT-4は約1.8兆パラメーターを持つとされる（※これはリーク情報によるもので公式の確定情報ではありません）、特別に大きなモデルです。

　GPT-4oがその性能を保ったまま、あそこまで高速に動作するモデルになるのは考えにくいのです。先ほど、小型化の研究をいくつか紹介しましたが、最近の高性能モデルはすでに知識がギリギリまでそのパラメーターに詰め込まれているせいか、圧縮がほとんどできないという報告もあります。【次ページ】GPT-4oは一部の機能で性能低下がみられる？