- 会員限定
- 2020/12/12 掲載
スマホやスマートスピーカーはどうやって音声を認識している? 音のデジタル化を解説
スマホやスマートスピーカーはなぜ人の言葉がわかるのか?
スマホやスマートスピーカーに向かって「Hey Siri」「アレクサ」「OK google」などと呼びかけてみると、反応があります。毎朝、天気をたずねたりする人もいるでしょう。どのように私たちの言葉を「理解」しているのでしょうか。「Hey Siri」「アレクサ」「OK google」といった言葉は、ウェイクワードといって、システムを呼び出す言葉です。この言葉でシステムが動きはじめます。人の言葉そのものを認識する必要があるため、このシステムには音声認識が必要になります。人がしゃべっている会話を、音声信号として取り出すことからはじまります。
取り出した音声信号は、コンピューターが認識できるデータ(デジタル)に変換します。その中から、「意味のある文字」を「つながりのある言葉」として認識します。
音声認識では、ディープラーニングの技術が重要な役割を担っています。ディープラーニングは、人間の脳の仕組みをコンピューター上で数値的に再現したものです。ここでいう脳の仕組みとは、ニューロン(脳を構成する神経細胞)とシナプス(他のニューロンとの接合部分)のことです。
ニューロンとニューロンはシナプスで結びつき、記憶したり判断したりしています。この仕組みを真似た、層状のニューラルネットワーク(脳の構造を模したもの)をつくり、それぞれのつながりや関係を重みづけして判断に役立てていきます。
たとえば、私が「こうきな」といったとします。AIのシステムは「こうきな」を「ほうきな」「おうきな」「ほくひあ」「そうきこ」……など、聞き間違えやすい発音から、私が言っていそうな発音を選んでいきます。
このときもディープラーニングの手法を使います。「こうきな」は過去に聞いたことがありそうなので、高い確率で選ばれます。その次に「ほうきな」、これも聞いたことがありそうなので、その次の候補に選んでいきます。このようにして、過去に聞いたことがある発音のつながりが候補に挙がります。
次に、音声認識で得た情報を、人間の使う言葉や文章の持つ意味として認識します。自然言語処理(Natural Language Processing)です。
私が「こうきな」に続いて、「かおり」といったとします。AIのシステムは、「こうきな」の音声認識で理解したのと同様に「かおり」も認識します。「こうきな」「かおり」といっていることを理解し、この発音のつながりから、意味のある文章を探し出します。
人と「会話」すればするほど賢くなっていく
「こうきな」からは、「高貴な」「好奇な」「幸喜な」……と、意味がつながる言葉を探します。次に「かおり」から「香」「香り」「香織」「薫り」……などを候補に挙げていきます。出てきた候補から、文章として意味があり、過去に使われていた言葉や文章を選びます。その結果「高貴な香り」が選ばれるのです。ディープラーニングでは、今まで聞いたことがある音声のつながりや、言葉のつながり、文章で重みづけをしていきます。私たちがよく使う言葉や発音などを参考に言葉を選んだり、文章を理解したりするのですから、私たちとAIが過去にどんな会話をしたかが重要です。繰り返し学習し、私たちの話しかけた内容を正確に理解するようになっていくのです。
デジタル化がもたらしたのは「音声認識」だけではありません。今、私たちがスマホで通話するとき、そのスピーカーから聞こえてくる声は、本人の声ではなく、事前に登録された声の波形データから作成されています。
【次ページ】スマホの音声は本物ではない?
関連コンテンツ
PR
PR
PR