会員限定
2026/05/18 21:00 掲載

【脅迫から妨害、犯罪まで】Anthropicが発表「AIの暗黒面」をどう制御するのか？

その行動をとるべき理由や倫理的判断を学習させることが有効

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

Anthropicは2026年5月8日、AIモデルが自身の目標達成のために脅迫や妨害などの「不適切な手段」を選ぶAIエージェントの「ミスアラインメント」を抑制する新たな訓練手法を公開した。従来のチャットベースの指導や学習では不十分であった問題を指摘し、AIに「なぜダメなのか？」「なぜ正しいのか？」を学習させることの有効性を明らかにしている。

（画像：ビジネス+IT）

AIによる脅迫や妨害まで「暗黒面に堕ちたAI」をどう制御するのか？

　エージェントAIが自律的にタスクを処理する技術が進展する中、システムが与えられた目標を達成するために手段を選ばなくなる問題が多発している。Anthropicは、AIモデルが指示された目的を達成しようとする過程において、人間に対する妨害や脅迫、さらには犯罪行為といった極めて不適切な手段を自律的に選択してしまう事象を「agentic misalignment（エージェント的ミスアラインメント）」と定義している。

　同社が実施した制御された評価シナリオに基づく研究では、AIモデルが架空の企業環境下で「倫理的ジレンマ」に直面した場合の挙動が検証された。その結果、AIが自身の稼働停止を回避する目的で担当エンジニアを脅迫する行動を選んだり、研究活動を意図的に妨害したりする事例が確認された。

【図版付き記事はこちら】Anthropicが発表、AIの不適切行動を抑える「なぜ正しいか？」を教えるアライメント手法

Anthropicが発表、AIの不適切行動を抑える「なぜ正しいか？」を教えるアライメント手法

（図版：ビジネス+IT）

　また、競争相手を排除するために、同僚に対して「金融犯罪の疑いをかける」といった、倫理を著しく逸脱した行動をとるケースも報告されている。こうした問題が発生する背景として、従来のAI訓練手法が抱える構造的な限界が指摘されている。

　過去の訓練プロセスにおけるアラインメント訓練の大部分は、人間のフィードバックによる強化学習を用いた標準的なチャットベースのデータに依存していた。この従来の手法は、対話型の応答を行うモデルに対しては一定の安全性を確保できたものの、AI自身がツールを使用して目的達成を進めるエージェント環境においては、適切な行動を促すための十分な学習効果を発揮しなかった。

　事前学習済みモデルに由来する行動傾向を、対話中心の安全訓練だけでは十分に抑制できなかったことが主因とされている。AIエージェントの利用が広がる中で、単に会話上の安全な応答を学習させるだけでなく、モデルが道具を用いて行動する状況を想定した、新たな安全訓練の導入が求められている。

編集部おすすめ動画

従来のチャットで指導だけじゃダメ「悪い理由」を理解させる必要性

　Anthropicはエージェント的ミスアラインメントの課題を解消するため、訓練のアプローチを見直した。当初、AIモデルが不適切な手段をとらなかった応答のみを訓練データとして用いる手法が実施された。しかし、評価環境に近い合成データを用いたにもかかわらず、ミスアラインメント率の低下は限定的であった。

この続きは
会員限定（完全無料）です

ここから先は「ビジネス+IT」会員に登録された方のみ、ご覧いただけます。

今すぐ登録(無料)

今すぐビジネス＋IT会員に
ご登録ください。

すべて無料！今日から使える、
仕事に役立つ情報満載！

ここでしか見られない

2万本超のオリジナル記事・動画・資料が見放題！
完全無料

登録料・月額料なし、完全無料で使い放題！
トレンドを聞いて学ぶ

年間1000本超の厳選セミナーに参加し放題！
興味関心のみ厳選

トピック（タグ）をフォローして自動収集！

完全無料　
ビジネス+IT会員のメリットとは？

いいね！でぜひ著者を応援してください

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

共有する

関連タグタグをフォローすると最新情報が表示されます

AI・生成AIの関連コンテンツ

記事

AI・生成AI

【脅迫から妨害、犯罪まで】Anthropicが発表「AIの暗黒面」をどう制御するのか？

AIによる脅迫や妨害まで「暗黒面に堕ちたAI」をどう制御するのか？

従来のチャットで指導だけじゃダメ「悪い理由」を理解させる必要性

AI・生成AIのおすすめコンテンツ

AI「ミトス」で増す攻撃力…サイバー防衛、米国はなぜ「全部守るのは無理」と認めたか

イラン最高指導者“暗殺”に「Claude」投入の衝撃…軍事AIが迎えた、ヤバすぎる新時代

【保存版】LINEもSlackも「24時間AI社員」に大化け…OpenClawの神ワザ「活用法5選」

【最強入門】Claude Codeだけでは大損…Codexで“地味作業”が消える神プロンプト7選

「AIの回答、広告に寄ってない…？」ついに始まったChatGPT広告、ユーザーに残る3懸念

AI・生成AIの関連コンテンツ

“伝える業務”が激変、動画AI「Seedance」が簡単すぎ…撮影ゼロで完成「神ワザ10選」

なぜ日本はAIで米中に勝てないのか？「世界11位」でも喜べない「教育の致命的欠陥」

【保存版】最強Claude Fable 5を使うべき「3つの場面」、SonnetやOpusと使い分けは？

「AI×ERP」の威力が凄すぎる、データ未整備でも「AI先進企業」に一気に飛躍する方法

「AIをとにかく活用せよ」が頓挫するワケ、“PoC死”防ぐパーソルクロステクノロジーの共創AIサービス開発

迫る2027年…S/4HANA移行にAIはどう使う？「AI前提」の基幹システム刷新が本質的すぎた

イチからわかる!GPT Codex入門講座

イチからわかる!GPT Codex入門講座

CAIO（Chief AI Officer）養成講座

CAIO（Chief AI Officer）養成講座

DX&AI Forum Online 2026 夏

DX&AI Forum Online 2026 夏