必要なのは「15秒」だけ？OpenAIの音声AI「もはや怖い」スゴすぎる実力とは

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

OpenAIが今年3月に発表した、音声生成AIモデル「Voice Engine」。超短時間の音声サンプルから話者の声を模倣できる高い実力を持つ一方、そのクオリティの高さから悪用も懸念されている。日本でも現在、俳優や声優の声を無断で使用して作成される「AI声優」の問題が顕在化しており、政府が今月公表した新たな「クールジャパン戦略」内では、生成AIによる俳優や声優の声の利用・生成に関して、不正競争防止法との関係整理を行い、必要に応じて見直しを検討する旨が明記された。Voice Engineは、こうした悪用のリスクに対してどう対策を講じているのか。同ツールの特徴とともに解説する。

執筆：細谷元

細谷元

バークリー音大提携校で2年間ジャズ／音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

OpenAIの音声合成サービスについて解説する

（Photo：Koshiro K / Shutterstock.com）

OpenAIの「音声生成AI」とは

　テキスト生成から画像、動画生成へとAIモデルを次々と発表してきたOpenAIが、新たな領域に踏み込んだ。音声生成AIだ。同社は今年3月、話者の声を模倣する音声クローンAIモデル「Voice Engine」を発表した。

　Voice Engineは、2022年から開発が進められてきたモデルで、OpenAIのテキスト読み上げAPIやChatGPTの音声機能を支えている技術でもある。その仕組みは以下の通りだ。

Voice Engineの仕組み

人間の話者が、電話やコンピューターのマイクを通して15秒間の音声を録音する
Voice Engineが、その音声サンプルを解析し、話者の声の特徴を学習する
以降、ユーザーが入力したテキストを、学習した話者の声で自然に読み上げることができる

　事前に大量の音声データを学習させる必要がなく、ごく短い音声サンプルから特定の話者の声を再現できる点が特徴だ。音声コンテンツ制作の効率化や、音声ベースのインタラクションの向上など、さまざまな用途が期待されている。

　OpenAIのWebサイトでは、Voice Engineで生成された音声を聴くことができるが、英語の音声クローニングはほぼ完璧な印象を受ける。ただ、日本語に関しては、若干不自然さが残っており、今後さらなる改善が期待されるところだ。

OpenAIのWebサイトでは、Voice Engineで生成された音声を聴くことができる

（出典：Open AI）

　OpenAIはすでに一部のパートナー企業とVoice Engineを活用した取り組みを進めている。

　たとえば、教育テクノロジー企業のAge of Learningは、Voice EngineとGPT-4を組み合わせ、生徒のために音声コンテンツを事前生成したり、リアルタイムで個別の応答を生成したりしている。

　ビジュアルストーリーテリングプラットフォームのHeyGenは、Voice Engineを利用した動画の翻訳機能を提供。話者のアクセントを保ったまま多言語の音声を生成し、グローバルなオーディエンスにリーチする方法を模索中だという。

編集部おすすめ記事

アジフライ定食2,400円の衝撃……訪日客で激変、「食べログ」も動く“急成長市場”

「なりすまし」への対策は？

　Voice Engineの活用事例の中でも特に注目を集めているのが、医療分野でのユースケースだ。

　OpenAIの公式ブログで紹介されているように、非営利医療機関のLifespanは、Voice Engineを活用し、がんや神経疾患により発話能力を失った患者の音声再生に取り組んでいる。Lifespanの医師であるロハイド・アリ氏らは、脳腫瘍のために流ちょうな発話ができなくなった若い患者の声を、学校のプロジェクト用に録音されていた動画の音声サンプルから復元することに成功したという。

　Voice Engineは、わずか15秒間の音声サンプルから話者の声を学習できるため、過去の限られた録音データからでも患者の声を再現することが可能だ。このような音声再生技術は、疾患により声を失った患者のQOL（生活の質）向上に大きく貢献すると期待されている。

　ただし、音声合成技術の悪用リスクも無視できない。特に2024年は、アメリカ大統領選挙をはじめとして各国でさまざまな選挙が行われる年で、なりすましの音声による影響が危惧されている。

　なりすましに関しては、政治分野以外でも、声優や俳優の声をAIにより無断で再現する、いわゆる「AI声優」により本人に損失が発生する「声の権利」問題も懸念されている。

　日本でも、今月4日に政府が5年ぶりに改訂し公表した「クールジャパン戦略」内で、生成AIに関する対応方針が新たに盛り込まれた。生成 AI における俳優や声優などの肖像・声の利用・生成に関し、不正競争防止法との関係について考え方の整理を行い、必要に応じて見直しの検討を行うとした。また併せて、民間でも俳優、声優、アナウンサーなどの肖像・声を利用して、 AI によりデジタルレプリカを生成してコンテンツとして利用することについて、人格・職域保護の観点から民間ルールの検討に取り組む旨も明記された。

　OpenAIは、限られたパートナーに限定しVoice Engineを提供することで、こうした悪用の懸念増大を抑えつつ、同技術の可能性を探っているところだ。

　Voice Engineの利用にあたっては、事前に厳格なポリシーへの同意が求められる。パートナーは、本人の同意や法的権利なしに他者や組織になりすます行為を禁止され、音声提供者からの明示的な同意を得る必要がある。また、Voice Engineで生成された音声であることを視聴者に明確に開示することも求められる。

　さらにOpenAIは、Voice Engineで生成された音声の出どころをトレースするための透かし入れや、不正利用の積極的なモニタリングなどの安全対策も実装しているという。【次ページ】アップルの元AIリーダーも注目の「ライバル」とは