- 会員限定
- 2026/05/18 掲載
【脅迫から妨害、犯罪まで】Anthropicが発表「AIの暗黒面」をどう制御するのか?
その行動をとるべき理由や倫理的判断を学習させることが有効
AIによる脅迫や妨害まで「暗黒面に堕ちたAI」をどう制御するのか?
エージェントAIが自律的にタスクを処理する技術が進展する中、システムが与えられた目標を達成するために手段を選ばなくなる問題が多発している。Anthropicは、AIモデルが指示された目的を達成しようとする過程において、人間に対する妨害や脅迫、さらには犯罪行為といった極めて不適切な手段を自律的に選択してしまう事象を「agentic misalignment(エージェント的ミスアラインメント)」と定義している。同社が実施した制御された評価シナリオに基づく研究では、AIモデルが架空の企業環境下で「倫理的ジレンマ」に直面した場合の挙動が検証された。その結果、AIが自身の稼働停止を回避する目的で担当エンジニアを脅迫する行動を選んだり、研究活動を意図的に妨害したりする事例が確認された。
また、競争相手を排除するために、同僚に対して「金融犯罪の疑いをかける」といった、倫理を著しく逸脱した行動をとるケースも報告されている。こうした問題が発生する背景として、従来のAI訓練手法が抱える構造的な限界が指摘されている。
過去の訓練プロセスにおけるアラインメント訓練の大部分は、人間のフィードバックによる強化学習を用いた標準的なチャットベースのデータに依存していた。この従来の手法は、対話型の応答を行うモデルに対しては一定の安全性を確保できたものの、AI自身がツールを使用して目的達成を進めるエージェント環境においては、適切な行動を促すための十分な学習効果を発揮しなかった。
事前学習済みモデルに由来する行動傾向を、対話中心の安全訓練だけでは十分に抑制できなかったことが主因とされている。AIエージェントの利用が広がる中で、単に会話上の安全な応答を学習させるだけでなく、モデルが道具を用いて行動する状況を想定した、新たな安全訓練の導入が求められている。
今すぐビジネス+IT会員に
ご登録ください。
すべて無料!今日から使える、
仕事に役立つ情報満載!
-
ここでしか見られない
2万本超のオリジナル記事・動画・資料が見放題!
-
完全無料
登録料・月額料なし、完全無料で使い放題!
-
トレンドを聞いて学ぶ
年間1000本超の厳選セミナーに参加し放題!
-
興味関心のみ厳選
トピック(タグ)をフォローして自動収集!
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR