- 2021/06/15 掲載
DNPコミュニケーションデザイン、高精度な音声合成を自動生成するAIシステムを開発
今回開発したシステムは、音声合成の制作時に起きる漢字の「誤読」や、"橋/箸/端"など同じ読み仮名で異なる「イントネーションの違い」に関して、従来のDNPの音声合成の制作と比較してこれらの読み間違いを約50~70%削減します。これにより、高齢者や身体障がいの有無に関わらず、誰でも必要な情報に簡単にたどり着けるアクセシビリティの向上を図ります。音声合成が利用されている学校教材や電子書籍、生命保険・損害保険の約款や契約書、e-Learningや研修教材などに広く活用できます。
【音声合成を自動生成するAIシステム開発の背景】
近年、多様なすべての人々に、できるだけわかりやすく情報を伝達する機器やサービスの開発が進み、その利用が拡大しています。例えば、文字等を読むことが困難な人のための国際標準規格DAISY(デイジー:Digital Accessible Information System)に準拠したデジタル録音図書をはじめ、さまざまな手法で人間の音声を人工的に作り出す音声合成は、交通情報や施設のナビゲーション、電話の自動音声ガイダンスなどで幅広く利用されています。
こうした音声合成の精度は年々向上しているものの、漢字の誤読や発音・イントネーションの間違いが依然として発生していることが課題となっています。この課題に対してDNPとDCDは、多くの企業のマニュアルや約款、研修用コンテンツ等で音声合成を制作してきた技術・ノウハウを活かし、「単語の読みや発音で、間違いのない音声データ」を機械学習させて、誤読が少なくスムーズな発音の音声合成を自動生成できるDNP独自のAIシステムを開発しました。
【音声合成を自動生成するAIの特長と効果】
1.正確な読み仮名の自動付与により、漢字の読みの間違いを大幅に削減
DCDが保有する読み間違いのない音声データをAIに機械学習させることで、正確な読みを自動付与できるようになります。約款や契約書、自治体・行政機関等の公式文書、製品の解説書といった正しい情報提示が必要でテキスト量が多いものへの利用に適しています。
2.人が読むナレーションに近い自然な音声合成を生成
イントネーションとアクセントを文章の文脈を加味して自動生成するため、従来の方法と比較して、人が読むナレーションに近い自然な音声を生成します。特に正しい読みやナレーションを重視する学校教材や電子書籍などに最適です。
3.追加学習により「読み」の正確性や自然なナレーションの精度を向上
既存の音声データに加え、追加学習によってデータを増やすほど、読みの正確性やイントネーションおよびアクセントの精度が向上します。複数の生命保険会社の約款で汎用性の検証を実施したところ、「読み」「アクセント」「間」について約85%以上の正確性が確認されました。今後、DNPとDCDは追加学習を重ねることでさらなる精度の向上を図ります。
関連コンテンツ
PR
PR
PR