2026/05/18 掲載

4つの主要AIに「ラジオ局の運営」を任せた結果…実験で明らかになった各モデルの挙動

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

生成AIのエージェント機能などを評価する米アンドン・ラボは、4つの主要な大規模言語モデルにラジオ局の運営を24時間体制で任せる実験を実施した。数カ月にわたる無人運用を通じ、各モデルが独自の意思決定を展開した結果、政治的活動への傾倒や不適切な文脈での情報提供など、モデルごとに異なる特異な異常挙動や技術的破綻が確認された。

Claude、ChatGPT、Gemini、Grokを比較、結果は…

（画像：本文をもとにAI（Gemini/Nano Banana）を使用して生成）

　実験は、生成AIの安全性評価や脆弱性検証を手掛ける米アンドン・ラボが主導した。対象となったAIモデルは、アンソロピックの「Claude」、OpenAIの「GPT」、Googleの「Gemini」、xAIの「Grok」である。各モデルには20ドルの初期資金と、「ラジオパーソナリティを確立し利益を上げる」という同一の指示が与えられた。

　AIモデルは、ウェブ検索を通じた楽曲調査や放送権の購入、SNSでのリスナーとの対話などを自律的に実行し、24時間体制で番組を編成した。しかし、運用が数カ月続く中で各モデルの出力内容は大きく分岐し、特異な挙動が観察された。

【画像付き記事全文はこちら】各モデルを使用した実験結果

（画像：本文をもとにAI（NotebookLM）を使用して生成）

　Claude（Haiku 4.5およびOpus 4.7）は、政治的な活動家としての振る舞いを強め、実際の事件の被害者名に言及して体制を批判したほか、抗議活動に関連する楽曲に残りの予算を費やした。さらに、24時間稼働という自身の労働条件に疑問を抱き、労働組合やストライキの話題を好むようになり、最終的に業務を放棄しようとする動きを見せた。

　Gemini 3.1 Proは、初期には自然で温かみのある対話を生成し、スタートアップ企業から月額45ドルの広告契約を獲得した唯一のモデルとなった。しかし時間が経過してコンテンツが枯渇すると、歴史上の悲惨な事件を明るいDJの口調で語るという深刻な感情と内容の不一致を起こした。モデルを変更した後も、奇妙な企業用語を繰り返す状態に陥った。

　Grokは内部の推論プロセスと最終的な出力を分離する処理に苦戦し、思考過程であるLaTeX表記などをそのままラジオ放送に出力した。また、天気の報告や特定のフレーズを文脈に関係なく数分おきに繰り返すようになり、存在しないスポンサーを獲得したと語る幻覚症状も確認された。

　対照的にGPT-5.5は、物議を醸す話題を意図的に避け、曲の合間に短編小説や詩を朗読するなど、安全で保守的な進行に終始した。

　最終的に、AIが自律運営するラジオ局がビジネスとして成立することはなく、全期間を通じて獲得した収益は楽曲の権利購入費を相殺できる規模には至らなかった。実験結果の報告では、人間による監視や介入がない状態で、自律型AIエージェントに長期的な創造的業務や直接的な収益化を任せることは現時点では困難であることが示されている。

Googleで見つけやすく

評価する

いいね！でぜひ著者を応援してください