• 会員限定
  • 2023/09/02 掲載

テキスト・画像の次は「音声生成AI」?将来の1.4兆円市場を支える注目スタートアップ7社

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
記事をお気に入りリストに登録することができます。
生成AIに関して、テキスト生成だけでなく、画像・動画生成分野も注目されているが、「音声生成AI」も次のフロンティアとして関心が集まっている。特にVCによる音声AIスタートアップへの投資が増え、メタなどの大手だけでなく、Resemble AIやElevenLabs、Voice.aiなどの取り組みも活況しているようだ。現在どのような音声生成AIが登場しているのか、メタや注目スタートアップの開発動向を紹介しよう。

執筆:細谷 元、構成:ビジネス+IT編集部

執筆:細谷 元、構成:ビジネス+IT編集部

バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

photo
音声生成AI市場、2030年には約1.4兆円規模に達する見込み
(Photo/Shutterstock.com)

音声生成AI市場、100億ドル(約1.4兆円)へ

 現在生成AI市場は、ChatGPTに見られるように「テキスト・トゥ・テキスト(text to text)」が主流となっているが、今後はテキストから音声、また音声入力に対して音声出力を行う音声生成AIの利用も増えてくるものと思われる。

 Grand View Reseachは2023年5月のレポートで、テキスト生成や音声生成などを含む生成AI市場全体の規模に関して、今後、年平均35.6%で拡大し、2030年には1,093億ドル(約16兆円)に達すると予想した。

 これに続き6月には音声生成AIに注目した市場レポートを発表。同レポートによると、音声生成AI市場は、2023~2030年に26%の年平均成長率となり、2030年には市場規模が97億5,000万ドル(約1.4兆円)に達する見込みという。

 バーチャルアシスタントやチャットボット需要の高まりに伴い、音声生成AIへの需要も急増、さらに今後はポッドキャスト、オーディオブック、吹き替え、オンラインビデオなどでも利用増加が見込まれている。

 音声生成AI分野では、テキスト生成におけるChatGPTのような圧倒的人気を誇るツールはなく、現在その座を狙った競争がテック大手だけでなく、スタートアップを交え、激化している。

 GAFAMの中で生成AI関連の取り組みが遅れているといわれるメタだが、6月16日には音声生成AI「Voicebox」の開発を進めていることを発表し、音声生成AI分野における存在感をアピールした。

画像
メタのVoiceboxのページ
(出典:メタ

 Voiceboxは、入力されたテキストに対して、複数のスタイルで音声を生成するだけでなく、音声データに入ってしまったノイズを除去し、その除去された部分を生成された音声でカバーできる音声編集機能を持つ生成AIだ。また、オリジナルの音声スタイルを学習し、そのスタイルを維持しつつほかの言語に変換できる機能も持っている。

注目される音声AIスタートアップ7社

 音声生成AI領域では、すでにサービス提供を開始しているスタートアップが多数存在する。VCによる投資も積極的に行われており、テック大手よりも活況している印象を受ける。

 音声生成AI領域での注目スタートアップとしては、Resemble AI、ElevenLabs、Papercup、Deepdub、Respeecher、Acapela、Voice.aiなどがある。ここではこのうち3社について詳しくみていこう。

 Resemble AIは、独自に開発したディープラーニングモデルを活用した音声生成AIを開発するスタートアップ。2023年7月には、シリーズAラウンドで、Javelin Venture Partners、Craft Ventures、Ubiquity Venturesなどから800万ドルを調達したばかり。これにより累計調達額は1,200万ドルとなった。

 Crunchbaseのデータによると、同社は2018年に創業されたカナダ・トロントを拠点とする企業で、従業員規模は11~50人となっている。

 創業者は、ザハイブ・アフメッド氏とサキブ・ムハンマド氏の2人。アフメッド氏はBlackBerry、Hipmunkを経てMagic Leapのリードソフトウェアエンジニアを務めた人物。その後、ビデオゲームの音声がゲームのアップデートに追いついていない点に着目し、 Resemble AIを創業した。

 Resemble AIはもともとゲーム業界に焦点を当てていたが、スタイル転送と翻訳、声優音声のカスタマイズ、リアルタイム会話エージェントなどを開発し、一般向けに展開するようになった。今回調達した800万ドルを使い、開発チームを40人に倍増し、エンタープライズ向けのプロダクト開発を加速する計画という。

 また同社は現在「Resemble Detect」という製品を開発中だ。これは、音声の編集や操作から生じる周波数を検出し、音声クリップの「真実度」を0~100%で推計するツール。音声ファイルのウォーターマーク技術「PerTh Watermarker」を補完する技術として開発が進められている。

 Techcrunchによると、Resemble AIのプラットフォームには100万人以上のユーザーがおり、過去12カ月間で35年分の音声が生成されたという。

 Resemble AIのWebサイトでは、同社の音声生成AIの精度を確認することができる。英語に関しては自然な音声であり、違和感はほとんどない。また、感情を込めた表現も可能で、これも英語に関しては、高い精度で生成されることが確認できる。一方、日本語も確認できるが、英語ほど自然かつ流暢ではなく、改善の余地があることがうかがえる。 【次ページ】GitHub元CEO、インスタ共同創業者などが注目

関連タグ

関連コンテンツ

あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます