メタが注目するLLM開発の次のステージ、自己改善ループを可能にする仕組みとは

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

大規模言語モデルの開発において、アウトプットの質をチェックする「エバリュエーション（評価）」プロセスは非常に重要だ。ChatGPTが人間らしい回答を生成できるのも、このプロセスがあってこそといわれている。しかし、このプロセスには大量の人的資源・時間・資金が必要となるだけでなく、バイアス問題などの課題が多数存在しており、現在その課題解決に向けた動きが活発化している。そんな中、メタが2024年8月に発表した「Self-Taught Evaluator」は、LLMに自己改善ループの能力を与えるアプローチとして注目を集める存在に。どのようなアプローチなのか、評価プロセスの現状に触れつつ、その詳細を解説したい。

執筆：細谷元

細谷元

バークリー音大提携校で2年間ジャズ／音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

　構成：ビジネス＋IT編集部

メタが発表した新しいアプローチ「Self-Taught Evaluator」を解説

（Photo：QubixStudio / Shutterstock.com）

LLMにおけるエバリュエーションの重要性

　大規模言語モデル（LLM）の開発において、エバリュエーション（評価）は極めて重要な役割を果たしている。エバリュエーションとは、LLMの性能や出力の質を測定し、改善点を特定するプロセスを指す。

　エバリュエーションが重要視される理由は複数ある。まず、LLMの性能向上を測定し、開発の方向性を決定するための指標となる。また、異なるモデル間の比較を可能にし、最適なモデルの選択や改善点の特定に役立つ。さらに、LLMの出力の質や信頼性を確保し、実用化に向けた課題を明らかにする上でも重要な役割を果たす。

　エバリュエーションにはさまざまな種類がある。最も一般的なのは、人間の評価者による主観的評価だ。これは、LLMの出力を直接評価し、質や適切さを判断するもので、ChatGPTの開発でもこの手法が用いられた。しかし、この方法は時間とコストがかかり、評価者のバイアスや一貫性の問題も存在する。

　そのため、自動化されたエバリュエーション手法の開発が進んでいる。たとえば、参照回答との比較による自動評価や、LLMを評価者として利用するLLM-as-a-Judge手法などがある。LLM-as-a-Judgeは、評価対象のLLMとは別のLLMを使用して評価を行うもので、人間の評価に近い結果を得られる可能性がある。

　最近では、OpenAIのGPT-4やアンソロピックのClaude、グーグルのGeminiなど、強力なLLMを評価者として利用する手法が注目を集めている。これらのモデルは、人間の評価者に匹敵する、あるいはそれ以上の評価能力を持つ可能性があるとされている。

　しかし、LLMによるエバリュエーションにも課題がある。モデルのバイアスや、評価基準の一貫性の確保、評価結果の解釈の難しさなどが指摘されている。また、評価用LLMの選択や、評価プロンプトの設計など、エバリュエーションプロセス自体の最適化も重要な課題となっている。

　こうした課題に対処するため、エバリュエーション手法の研究開発が活発化している。人間の評価とLLMによる評価を組み合わせたハイブリッドアプローチや、複数のLLMを組み合わせたアンサンブル評価など、より精度の高い評価手法の探求が続けられている。

AIが「自分で自分を教育していく」ような仕組みだ

（Photo/Shutterstock.com）

編集部おすすめ記事

【保存版】Geminiの出力精度が劇的に変わる…「プロンプト設計」解説

エバリュエーションに関する課題

　大規模言語モデル（LLM）のエバリュエーションには、いくつかの重要な課題が指摘されている。その中でも特に注目されているのが、人間による評価の限界と、LLMによる自己評価バイアスだ。

　人間による評価は、これまでLLMの性能を測る上で最も信頼できる方法とされてきた。しかし、LLMの能力が向上するにつれ、人間評価者の限界が露呈しつつある。LLMの出力が人間の評価者の能力を上回る場合、適切な評価が困難になるためだ。また、評価に多大な時間とコストがかかることも大きな課題となっている。

　さらに、人間評価者の主観性やバイアスも問題となる。評価者の知識や経験、個人的な嗜好によって評価が左右される可能性があるためだ。また、評価者が無意識のうちに、流暢さや言語の複雑さといった表面的な特徴に基づいて判断を下してしまう傾向も指摘されている。

　一方、LLMを評価者として利用する手法も注目を集めているが、これにも課題がある。最も懸念されているのが「自己選好バイアス（self-preference bias）」だ。これは、LLMが自身の生成したテキストを、他のLLMや人間が生成したテキストよりも高く評価してしまう傾向を指す。

　たとえば、GPT-4を用いた対話ベンチマークや要約タスクにおいて、GPT-4が自身の出力を他のモデルや人間の出力よりも高く評価する傾向が観察されている。この自己選好バイアスは、LLMによる自己評価の信頼性を大きく損なう可能性がある。

　自己選好バイアスの根本的な原因は完全には解明されていないが、研究者たちは以下のような仮説を提唱している。これらの仮説は、LLMの学習プロセスや内部メカニズムに関連するものだ。

学習データへの過適合：
　LLMは膨大な量のテキストデータで訓練されているが、その過程で自身の出力パターンに類似したスタイルや構造を持つテキストに対して敏感になっている可能性がある。つまり、自身の生成したテキストが、学習データにより近いと認識し、それを高く評価してしまう傾向があると考えられている。

内部表現の一貫性：
　LLMは、入力テキストを内部で一定の表現形式に変換して処理する。自身が生成したテキストは、この内部表現とより一貫性が高くなる傾向があるため、それを「より理解しやすい」あるいは「より適切」と判断してしまう可能性がある。

自己認識の欠如：
　現在のLLMは、真の意味での自己認識能力を持っていない。そのため、自身の出力と他者の出力を客観的に区別することが難しく、結果として自身の出力に対してバイアスがかかってしまうと考えられている。

　これらの仮説は互いに排他的ではなく、複数の要因が組み合わさって自己選好バイアスを引き起こしている可能性が高いとされている。この問題の解決に向けては、LLMの内部メカニズムのさらなる解明と、バイアスを軽減するための新たなトレーニング手法やアーキテクチャの開発が必要になる。【次ページ】メタの最新研究、評価改善を自己ループさせるアプローチ