• 会員限定
  • 2024/09/01 掲載

プリンストン大調査で判明、AI選定を誤らせる「ベンチマーク」の大問題

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
記事をお気に入りリストに登録することができます。
生成AI市場では、単一の大規模言語モデルではなく、複数のモデルで構成されるAIエージェントの活用を試みる動きが活発化している。単一モデルでは難しいWebタスクやコーディングタスクなどの自動化が進められているのだ。これに伴い、AIエージェント用のベンチマークも続々と登場し、注目を集めている。しかし、AIエージェントやそもそものLLM、AIモデルのベンチマークにはさまざまな問題が内在するとの指摘もなされている。どのような問題があるのか、プリンストン大学の研究チームによる分析を紹介しよう。
執筆:細谷 元
photo
ベンチマークを額面どおり受け取ると、AIモデルやAIエージェントの選定を誤るリスクもある
(Photo/Shutterstock.com)

AIエージェントとは?

 AIエージェントは、人工知能(AI)技術の中でも特に注目を集める分野の1つだ。従来のAIシステムと比較して、より複雑な環境で自律的に行動し、目標を追求する能力を持つ。プリンストン大学の研究者らによると、AIエージェントは「環境を認識し、その環境に対して行動を起こす存在」として定義される。

 AIエージェントの特徴は、単なる言語モデルとは異なり、複数のタスクを連続して実行できる点にある。たとえば、Webブラウジングやプログラミング、ツールの使用など、より実世界に近い複雑なタスクを遂行できる。さらに、AIエージェントは自然言語での指示を理解し、ユーザーに代わって自律的に行動することが可能だ。

 エージェントベースのアプリケーションも増えつつある。たとえば、Webタスクを自動化するZeta Labsの「Jace」。ユーザーとチャットする大規模言語モデル(LLM)とWebタスクを遂行するLLMで構成されるエージェントシステムで、旅行の予約や支払いなどを遂行する能力を持っている。このほかにも、コード生成、デバッグ、レビュー、ドキュメント生成などをこなすソフトウェアAIエージェント「SWE-agent」など、コーディング分野でもさまざまなエージェントが登場している。

 この状況下、単一のLLMではなく、AIエージェントのパフォーマンスを評価しようという動きが活発化しており、エージェント用のベンチマークテストの開発が加速の様相だ。さまざまなエージェント用のベンチマークが登場しており、エージェントベースのアプリケーション開発などで参考にされるケースも増えている。

画像
エージェントベンチマークの一覧

 一方、プリンストン大学の研究者らによる分析では、エージェント用のベンチマークには多くの問題が内在しており、それを参考にした場合、予期せぬ問題に直面する可能性があることが判明した。

AIエージェントのベンチマークに内在する課題

 プリンストン大学の研究チームは、現在のAIエージェントのベンチマークと評価手法に重大な欠陥があることを指摘している。最も深刻な問題の1つは、精度のみに焦点を当てた評価方法だ。

 研究チームによると、これらのベンチマークではコストが考慮されておらず、ベンチマークが示す精度のみでエージェントを選ぶと、コストが跳ね上がるリスクを負うことになるという。

 単一LLMのコーディング能力評価でも使用されるHumanEvalベンチマークにおいて、同程度の精度を持つエージェント間でもコストが大きく異なることが明らかになったのだ。たとえば、Reflexionエージェントと比較して、LATS(Language Agent Tree Search)エージェントは16倍以上のコストがかかる。

 ここでReflexionエージェントとLATSエージェントについて簡単に説明しておきたい。Reflexionエージェントは、言語強化学習を用いて自己反省と改善を行うAIエージェントだ。失敗したタスクに対して「反省」を生成し、その反省を基に再度タスクに挑戦する能力を持つ。一方、LATSエージェントは、言語モデルの推論能力を活用して、問題解決のための行動を選択するエージェント。ツリー探索アルゴリズムを用いて、最適な行動系列を見つけ出す。

画像
エージェントの精度とコストの比較

 具体的な数字を見ると、エージェントではない単一のGPT-4を使用した場合は、平均1.93ドルのコストで89.6%の精度を達成できる。

 一方、複雑なエージェントアーキテクチャを採用したLATSは、134.50ドルものコストがかかった一方で、精度は88.0%だった。70倍近いコスト差があるにもかかわらず、精度が低下してしまったケースとなる。

 この調査結果を踏まえ、研究チームは、精度だけでなくコストも考慮に入れることの重要性を強調している。

 実際に研究チームは、このような最適化を設計・実装し、精度を維持しながらコストを大幅に削減できる可能性を示した。その1つ「Warming」戦略は、HumanEvalで93.2%の精度を2.45ドルで達成、LATSと比較しても同等以上の精度を1/55以下のコストで実現した計算となる。

 Warming戦略とは、初回の試行で温度(ランダム性)をゼロに設定。その後の試行で徐々に温度を上げていく(Warming)。2回目と3回目は0.3、4回目と5回目は0.5といった具合だ。

 モデルのランダム性を高めると、斬新なアイデアを生み出す可能性が高くなる。上げ過ぎると一貫性を失ってしまうリスクを伴うが、バランスを取りつつ、ランダム性を活用できれば、袋小路に入る可能性を下げ、クリエイティブな回答生成が可能になる。

 このWarming戦略を使うと、GPT-4単体(89.6%)に比べ、4ポイントほど精度を高めることができ、かつコストを2.45ドルに抑えられる。 【次ページ】コスト「以外」のさまざまな問題

関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます