• 会員限定
  • 2026/05/18 掲載

【脅迫から妨害、犯罪まで】Anthropicが発表「AIの暗黒面」をどう制御するのか?

その行動をとるべき理由や倫理的判断を学習させることが有効

1
会員(無料)になると、いいね!でマイページに保存できます。
Anthropicは2026年5月8日、AIモデルが自身の目標達成のために脅迫や妨害などの「不適切な手段」を選ぶAIエージェントの「ミスアラインメント」を抑制する新たな訓練手法を公開した。従来のチャットベースの指導や学習では不十分であった問題を指摘し、AIに「なぜダメなのか?」「なぜ正しいのか?」を学習させることの有効性を明らかにしている。
photo
(画像:ビジネス+IT)

AIによる脅迫や妨害まで「暗黒面に堕ちたAI」をどう制御するのか?

 エージェントAIが自律的にタスクを処理する技術が進展する中、システムが与えられた目標を達成するために手段を選ばなくなる問題が多発している。Anthropicは、AIモデルが指示された目的を達成しようとする過程において、人間に対する妨害や脅迫、さらには犯罪行為といった極めて不適切な手段を自律的に選択してしまう事象を「agentic misalignment(エージェント的ミスアラインメント)」と定義している。

 同社が実施した制御された評価シナリオに基づく研究では、AIモデルが架空の企業環境下で「倫理的ジレンマ」に直面した場合の挙動が検証された。その結果、AIが自身の稼働停止を回避する目的で担当エンジニアを脅迫する行動を選んだり、研究活動を意図的に妨害したりする事例が確認された。

画像
【図版付き記事はこちら】Anthropicが発表、AIの不適切行動を抑える「なぜ正しいか?」を教えるアライメント手法(図版:ビジネス+IT)

 また、競争相手を排除するために、同僚に対して「金融犯罪の疑いをかける」といった、倫理を著しく逸脱した行動をとるケースも報告されている。こうした問題が発生する背景として、従来のAI訓練手法が抱える構造的な限界が指摘されている。

 過去の訓練プロセスにおけるアラインメント訓練の大部分は、人間のフィードバックによる強化学習を用いた標準的なチャットベースのデータに依存していた。この従来の手法は、対話型の応答を行うモデルに対しては一定の安全性を確保できたものの、AI自身がツールを使用して目的達成を進めるエージェント環境においては、適切な行動を促すための十分な学習効果を発揮しなかった。

 事前学習済みモデルに由来する行動傾向を、対話中心の安全訓練だけでは十分に抑制できなかったことが主因とされている。AIエージェントの利用が広がる中で、単に会話上の安全な応答を学習させるだけでなく、モデルが道具を用いて行動する状況を想定した、新たな安全訓練の導入が求められている。

この続きは
会員限定(完全無料)です

ここから先は「ビジネス+IT」会員に登録された方のみ、ご覧いただけます。

今すぐビジネス+IT会員に
ご登録ください。

すべて無料!今日から使える、
仕事に役立つ情報満載!

  • ここでしか見られない

    2万本超のオリジナル記事・動画・資料が見放題!

  • 完全無料

    登録料・月額料なし、完全無料で使い放題!

  • トレンドを聞いて学ぶ

    年間1000本超の厳選セミナーに参加し放題!

  • 興味関心のみ厳選

    トピック(タグ)をフォローして自動収集!

Googleで見つけやすく

評価する

いいね!でぜひ著者を応援してください

  • 1

会員(無料)になると、いいね!でマイページに保存できます。

共有する

  • 0

  • 0

  • 0

  • 0

  • 0

関連タグ タグをフォローすると最新情報が表示されます

AI・生成AIの関連コンテンツ

あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

基本情報公開時のサンプル画像
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます

基本情報公開時のサンプル画像