開閉ボタン
ユーザーメニュー
ユーザーメニューコンテンツ
ログイン

  • 会員限定
  • 2020/12/12

スマホやスマートスピーカーはどうやって音声を認識している? 音のデジタル化を解説

私たちが何気なく過ごしている毎日の中には、どこにでも「科学」が隠れています。ここでは、そんな身近な科学をわかりやすく解説しましょう。今回取り上げるのは音の「デジタル化」です。これにより、一昔前は考えられなかった技術が実用化されていますが、最近、爆発的に広まっているのがスマホやスマートスピーカーなどで活用される「音声認識」です。

左巻 健男

左巻 健男

1949年、栃木県生まれ。千葉大学教育学部卒。東京学芸大学大学院教育学研究科修了(物理化学講座)。元・同志社女子大学教授、元・法政大学教授。著書は『面白くて眠れなくなる物理』(PHP研究所)、『学校に入り込むニセ科学』(平凡社)、『図解・化学「超」入門』(サイエンス・アイ新書)など多数。

画像
音声認識のイメージ(後ほど詳しく解説します)
※本記事は『身近な科学が人に教えられるほどよくわかる本』を再構成したものです。


スマホやスマートスピーカーはなぜ人の言葉がわかるのか?

 スマホやスマートスピーカーに向かって「Hey Siri」「アレクサ」「OK google」などと呼びかけてみると、反応があります。毎朝、天気をたずねたりする人もいるでしょう。どのように私たちの言葉を「理解」しているのでしょうか。

 「Hey Siri」「アレクサ」「OK google」といった言葉は、ウェイクワードといって、システムを呼び出す言葉です。この言葉でシステムが動きはじめます。人の言葉そのものを認識する必要があるため、このシステムには音声認識が必要になります。人がしゃべっている会話を、音声信号として取り出すことからはじまります。

画像
ウェイクワードを探す。音声認識に対応したスマホやスマートスピーカーは、人が話す言葉から「Hey Siri」「アレクサ」「OK google」などを探す

 取り出した音声信号は、コンピューターが認識できるデータ(デジタル)に変換します。その中から、「意味のある文字」を「つながりのある言葉」として認識します。

 音声認識では、ディープラーニングの技術が重要な役割を担っています。ディープラーニングは、人間の脳の仕組みをコンピューター上で数値的に再現したものです。ここでいう脳の仕組みとは、ニューロン(脳を構成する神経細胞)とシナプス(他のニューロンとの接合部分)のことです。

 ニューロンとニューロンはシナプスで結びつき、記憶したり判断したりしています。この仕組みを真似た、層状のニューラルネットワーク(脳の構造を模したもの)をつくり、それぞれのつながりや関係を重みづけして判断に役立てていきます。

 たとえば、私が「こうきな」といったとします。AIのシステムは「こうきな」を「ほうきな」「おうきな」「ほくひあ」「そうきこ」……など、聞き間違えやすい発音から、私が言っていそうな発音を選んでいきます。

画像
音声認識のイメージ。アナログの信号をデジタルの信号に変えて、コンピューターが認識できるようにする。例の場合、「こうきな」は「KO・U・KI・NA」「O・O・KI・NA」「HO・U・KI・NA」などの中から、最適だと考えられるものが選ばれるが、ときに聞き間違えることもある

 このときもディープラーニングの手法を使います。「こうきな」は過去に聞いたことがありそうなので、高い確率で選ばれます。その次に「ほうきな」、これも聞いたことがありそうなので、その次の候補に選んでいきます。このようにして、過去に聞いたことがある発音のつながりが候補に挙がります。

 次に、音声認識で得た情報を、人間の使う言葉や文章の持つ意味として認識します。自然言語処理(Natural Language Processing)です。

 私が「こうきな」に続いて、「かおり」といったとします。AIのシステムは、「こうきな」の音声認識で理解したのと同様に「かおり」も認識します。「こうきな」「かおり」といっていることを理解し、この発音のつながりから、意味のある文章を探し出します。

人と「会話」すればするほど賢くなっていく

 「こうきな」からは、「高貴な」「好奇な」「幸喜な」……と、意味がつながる言葉を探します。次に「かおり」から「香」「香り」「香織」「薫り」……などを候補に挙げていきます。出てきた候補から、文章として意味があり、過去に使われていた言葉や文章を選びます。その結果「高貴な香り」が選ばれるのです。

画像
自然言語処理のイメージ。「こうきな」から「高貴な」「好奇な」「幸喜な」……などの言葉を選び、後に続く「かおり」も候補を選び、「高貴な香り」を選び出す。ここでも重みづけが重要になる

 ディープラーニングでは、今まで聞いたことがある音声のつながりや、言葉のつながり、文章で重みづけをしていきます。私たちがよく使う言葉や発音などを参考に言葉を選んだり、文章を理解したりするのですから、私たちとAIが過去にどんな会話をしたかが重要です。繰り返し学習し、私たちの話しかけた内容を正確に理解するようになっていくのです。

画像
siriやアレクサは、人との会話をデータとして学習している。このような人との会話が履歴として、重みづけの参考になっていく

 デジタル化がもたらしたのは「音声認識」だけではありません。今、私たちがスマホで通話するとき、そのスピーカーから聞こえてくる声は、本人の声ではなく、事前に登録された声の波形データから作成されています。

【次ページ】スマホの音声は本物ではない?

その他ハードウェア ジャンルのトピックス

その他ハードウェア ジャンルのIT導入支援情報

ビジネス+IT 会員登録で、会員限定コンテンツやメルマガを購読可能、スペシャルセミナーにもご招待!