• 会員限定
  • 2020/12/12 掲載

スマホやスマートスピーカーはどうやって音声を認識している? 音のデジタル化を解説

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
記事をお気に入りリストに登録することができます。
私たちが何気なく過ごしている毎日の中には、どこにでも「科学」が隠れています。ここでは、そんな身近な科学をわかりやすく解説しましょう。今回取り上げるのは音の「デジタル化」です。これにより、一昔前は考えられなかった技術が実用化されていますが、最近、爆発的に広まっているのがスマホやスマートスピーカーなどで活用される「音声認識」です。
執筆:左巻 健男
画像
音声認識のイメージ(後ほど詳しく解説します)
※本記事は『身近な科学が人に教えられるほどよくわかる本』を再構成したものです。


スマホやスマートスピーカーはなぜ人の言葉がわかるのか?

 スマホやスマートスピーカーに向かって「Hey Siri」「アレクサ」「OK google」などと呼びかけてみると、反応があります。毎朝、天気をたずねたりする人もいるでしょう。どのように私たちの言葉を「理解」しているのでしょうか。

 「Hey Siri」「アレクサ」「OK google」といった言葉は、ウェイクワードといって、システムを呼び出す言葉です。この言葉でシステムが動きはじめます。人の言葉そのものを認識する必要があるため、このシステムには音声認識が必要になります。人がしゃべっている会話を、音声信号として取り出すことからはじまります。

画像
ウェイクワードを探す。音声認識に対応したスマホやスマートスピーカーは、人が話す言葉から「Hey Siri」「アレクサ」「OK google」などを探す

 取り出した音声信号は、コンピューターが認識できるデータ(デジタル)に変換します。その中から、「意味のある文字」を「つながりのある言葉」として認識します。

 音声認識では、ディープラーニングの技術が重要な役割を担っています。ディープラーニングは、人間の脳の仕組みをコンピューター上で数値的に再現したものです。ここでいう脳の仕組みとは、ニューロン(脳を構成する神経細胞)とシナプス(他のニューロンとの接合部分)のことです。

 ニューロンとニューロンはシナプスで結びつき、記憶したり判断したりしています。この仕組みを真似た、層状のニューラルネットワーク(脳の構造を模したもの)をつくり、それぞれのつながりや関係を重みづけして判断に役立てていきます。

 たとえば、私が「こうきな」といったとします。AIのシステムは「こうきな」を「ほうきな」「おうきな」「ほくひあ」「そうきこ」……など、聞き間違えやすい発音から、私が言っていそうな発音を選んでいきます。

画像
音声認識のイメージ。アナログの信号をデジタルの信号に変えて、コンピューターが認識できるようにする。例の場合、「こうきな」は「KO・U・KI・NA」「O・O・KI・NA」「HO・U・KI・NA」などの中から、最適だと考えられるものが選ばれるが、ときに聞き間違えることもある

 このときもディープラーニングの手法を使います。「こうきな」は過去に聞いたことがありそうなので、高い確率で選ばれます。その次に「ほうきな」、これも聞いたことがありそうなので、その次の候補に選んでいきます。このようにして、過去に聞いたことがある発音のつながりが候補に挙がります。

 次に、音声認識で得た情報を、人間の使う言葉や文章の持つ意味として認識します。自然言語処理(Natural Language Processing)です。

 私が「こうきな」に続いて、「かおり」といったとします。AIのシステムは、「こうきな」の音声認識で理解したのと同様に「かおり」も認識します。「こうきな」「かおり」といっていることを理解し、この発音のつながりから、意味のある文章を探し出します。

人と「会話」すればするほど賢くなっていく

 「こうきな」からは、「高貴な」「好奇な」「幸喜な」……と、意味がつながる言葉を探します。次に「かおり」から「香」「香り」「香織」「薫り」……などを候補に挙げていきます。出てきた候補から、文章として意味があり、過去に使われていた言葉や文章を選びます。その結果「高貴な香り」が選ばれるのです。

画像
自然言語処理のイメージ。「こうきな」から「高貴な」「好奇な」「幸喜な」……などの言葉を選び、後に続く「かおり」も候補を選び、「高貴な香り」を選び出す。ここでも重みづけが重要になる

 ディープラーニングでは、今まで聞いたことがある音声のつながりや、言葉のつながり、文章で重みづけをしていきます。私たちがよく使う言葉や発音などを参考に言葉を選んだり、文章を理解したりするのですから、私たちとAIが過去にどんな会話をしたかが重要です。繰り返し学習し、私たちの話しかけた内容を正確に理解するようになっていくのです。

画像
siriやアレクサは、人との会話をデータとして学習している。このような人との会話が履歴として、重みづけの参考になっていく

 デジタル化がもたらしたのは「音声認識」だけではありません。今、私たちがスマホで通話するとき、そのスピーカーから聞こえてくる声は、本人の声ではなく、事前に登録された声の波形データから作成されています。

【次ページ】スマホの音声は本物ではない?

関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます