2025/12/04 掲載

OpenAI、AIが自ら過ちを認める「告解」アプローチで、「正直さ」を強化する仕組み

確信がない場合は「わからない」と答えるように促すようAIをトレーニング

ビジネス+IT

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

OpenAI が、大規模言語モデル（LLM）に「自分の誤り」「ハルシネーションや誤答」を“告白”させることで信頼性を高める新たなアプローチを提案した。既存の評価制度がモデルに「間違ってもいいから回答する」を促す構造を持つため、OpenAIは「分からないときは『分かりません』と答えよ」という仕組みへの転換を模索している。

OpenAI は 2025年11月に公開した解説記事 “How Confessions Can Keep Language Models Honest” において、言語モデル（LLM）が起こしがちな誤った回答「幻覚（ハルシネーション）」や過信的な回答の根本原因として、現在のトレーニングおよび評価制度に大きな構造的欠陥があると説明した。モデルは次の単語を予測するタスクを基盤として訓練されており、また採点ベンチマークも「正解か不正解か」の二択が中心であることから、不確実な問いに対して「分かりません」と答えるより、たとえ不正確でも“もっともらしい回答”を生成することが高得点につながる。こうした制度設計が、モデルを「推測して答える」よう学習させてしまうとしている。

この問題意識に対し、OpenAI が提案するのが「告解（confession）」アプローチである。つまり、モデルに対して「確信がない場合は 'I don’t know'（わからない／答えられない）と答えるように促す」「間違いや不確実性を素直に認めさせる／報告させる」よう訓練・評価基準を変更するというものである。これにより、たとえ即答可能でも不確かな情報については無理に答えず、誠実さと慎重さを優先させる姿勢を制度として強化することが目指されている。

OpenAIは今回のアプローチについて、幻覚の根本原因を「言語モデルが ‘次の単語を最適に予測する’ という目的のもとで動く“確率マシン”であり、意味や事実性を直接扱っているわけではない」点にあると説明。つまり、モデルは事実を理解して生成しているわけではなく、文脈や言語的な“らしさ”に基づいて応答する仕組みであるため、不確実な質問や情報に対して正直に「知らない」と言う能力が重要だと指摘する。

また、単に「知らないことを認める」よう指示するだけではなく、評価制度そのものを見直す必要性も強調されている。具体的には、これまでのような「正解＝高得点、不正解や無回答＝0点」の二元的評価ではなく、「正解には加点、不正解には減点、『知らない』には中立または軽いペナルティもない」といったスキームへの変更が提案されており、このような制度の変更により、モデルが誠実に不確実性を示すことを報いることが可能になる。

この「告解アプローチ」は、単なる技術的パッチ（補修）ではなく、根本的な哲学の転換――“AIはすべてを知っているわけではない／知らないことを認めることが価値である”という考え――を評価制度とトレーニング文化の中に取り入れようとするものだ。これにより、AIの信頼性・安全性を向上させることを目指している。

ただし、OpenAI自身もこのアプローチだけで幻覚を完全に防げるとは主張しておらず、他の対策（例えば、参照可能な情報源への誘導や外部知識を用いた “RAG (Retrieval-Augmented Generation)” 型の補強、出力のキャリブレーション、安全性評価の強化など）と組み合わせる必要があるとしている。これは、近年報告されているAIの幻覚問題の根深さと、単一の対策によって解決できるものではないという認識に基づいている。

このように、OpenAIによる「告解」アプローチは、AIとの対話・利用における信頼性改善のための重要な一歩と位置づけられているが、現実の運用や他の安全技術との併用の仕方が今後の注目点となる。

評価する

いいね！でぜひ著者を応援してください