• 2026/05/23 掲載

GPT5.5は「136」Opus 4.7が「132」AIの知能指数をはかる「AI IQ」公開

最先端のフロンティアモデルを単一のスコアで可視化

1
会員(無料)になると、いいね!でマイページに保存できます。
エンジニアで起業家のライアン・シー氏は2026年5月、主要な人工知能(AI)モデルの性能を人間の知能指数(IQ)スケールで換算・評価するプロジェクト「AI IQ」を公開した。GPT-5.5やClaude Opus 4.7といった最先端のフロンティアモデルを単一のスコアで可視化し、複雑化するAIモデルの性能比較に新たな評価軸を導入した。
photo
(画像:ビジネス+IT)
 人工知能の能力向上に伴い、従来の個別タスクに特化したベンチマークは性能の天井に直面している。この課題に対し、乱立する評価データを統合し、各モデルの相対的な位置づけを可視化する試みとして「AI IQ」が開発された。評価対象には、OpenAIのGPT-5.5、AnthropicのClaude Opus 4.7をはじめ、Gemini 3.1、Grok 4.3、DeepSeek V4、Kimi K2.6など50以上の主要AIモデルが含まれる。

 同プロジェクトは複数の公開ベンチマークを基に各モデルの推定IQを算出し、人間のIQ分布を示す標準的なベルカーブ上にマッピングする。複数の指標が並ぶ従来のランキング表に代わり、直感的な性能比較を可能にした。業界内ではこの手法に対し、複雑なAI市場の性能評価に明確さをもたらすと評価する声がある一方、多角的な推論能力を単一の数値に還元することの危うさを指摘する意見も存在し、評価が分かれている。

画像
【図版付き記事はこちら】AIの知能指数を図る「AI IQ」公開(図版:ビジネス+IT)

 AIモデルのIQ評価を巡っては、学習データへのテスト内容の混入(データ汚染)という技術的課題も浮き彫りになっている。外部評価サイト「TrackingAI」が実施した検証によると、インターネット上に公開されている既存のIQテストではGPT-5.5が140を超えるスコアを記録した。しかし、学習データに一切含まれない完全に非公開のオフラインテスト環境では、同モデルのスコアが70付近まで低下した。対照的に、同条件の非公開テストでClaude Opus 4.7は118を記録しており、評価環境の前提条件によってモデル間の優位性が大きく変動する事実が確認された。

画像
各モデルの推定IQを標準正規IQ分布上にプロットしたもの(図版:AI IQ)

 実務環境における性能分析では、GPT-5.5がトークンの出力速度やコスト効率面で優位に立ち、Claude Opus 4.7が適応型推論や複雑なタスク処理において高いパフォーマンスを示す傾向にある。AI IQのような統合的な単一指標の登場と、独立環境でのプライベートな検証結果の双方が、利用者のモデル選定における新たな判断基準として機能している。

Googleで見つけやすく

評価する

いいね!でぜひ著者を応援してください

  • 1

会員(無料)になると、いいね!でマイページに保存できます。

共有する

  • 0

  • 0

  • 0

  • 0

  • 0

関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

基本情報公開時のサンプル画像
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます

基本情報公開時のサンプル画像