- 2021/11/12 掲載
NTTテクノクロス、音声認識ソフトウェア「SpeechRec Server」の新バージョンを販売
■背景
近年、デジタルトランスフォーメーション(DX)の浸透や働き方改革により、官公庁やコンタクトセンターをはじめとする企業などにおいて、音声認識ソフトウェアのニーズが高まっています。このような中、NTTテクノクロスでは、50年以上にもおよぶNTT研究所の音声研究の成果や最新技術を活用し、音声認識ソフトウェア「SpeechRec」を2012年より展開しています。今回、NTT コンピュータ&データサイエンス研究所が開発した次世代メディア処理AI「MediaGnosis(TM)」(*1)を「SpeechRec Server」に活用し、より高精度で多機能な音声認識を実現しました。
■特長
(1)人間の脳と同じような音声情報処理により高精度にテキスト化
「SpeechRec Server」新バージョンでは「MediaGnosis(TM)」を活用した音声情報処理として「End-to-End」方式(*2)を採用しました。これまで一部の音声情報処理のみに適用していたディープニューラルネットワーク(以下、DNN)(*3)をすべてに適用し、音声データ入力からテキスト出力までをオールインワンで実現しています。人間の脳と同じように、音声から日本語を理解するスムーズな処理が可能になり、音声認識精度がさらに向上しました。
(2)コールバックの状況を一覧化し、コールセンター管理業務を効率化
各オペレーターの画面にはコールバック情報が一覧表示されるとともに、未対応が一定時間経過するとアラートが表示され、応対遅延による顧客満足度の低下を防止します。また、スーパーバイザー(管理者)はコールバックする各担当オペレーターや応対状況、当日の件数をリアルタイムで確認することができ、コールバックの管理体制の強化が図れます。
(3)音声の特徴から話者を識別(話者ダイアリゼーション機能)
複数の話者が話す場合、話者を識別するために話者の音声を事前登録したり、話者ごとにマイクを分けたりする必要がなく、話者の声質や波形などの特徴から「MediaGnosis(TM)」が自動で話者を識別します。
*1:MediaGnosis(TM)
音声音響・画像映像・自然言語といったマルチメディアを統合的にオールインワンで扱うことで、人間の脳に近い情報処理機構を実現した次世代メディア処理AIです。日本電信電話株式会社が開発しました。(https://group.ntt/jp/newsrelease/2021/11/01/211101b.html)
*2:「End-to-End」方式
従来の「Hybrid」方式では、音響モデルや認識辞書、言語モデルなど複数の処理を組み合わせていましたが、「End-to-End」方式ではそれらの処理をDNNにより一括で行うことが可能です。
*3:ディープニューラルネットワーク(DNN)
機械学習の一種であるニューラルネットワークの階層を深くしたアルゴリズムで、画像認識や音声認識などの分野で活用されています。
関連コンテンツ
PR
PR
PR