- 会員限定
- 2019/08/07 掲載
テレビ局3社が語る「自動字幕」の裏側 AbemaのAIポンはすでに実用レベル?
TBSは“8:1:1”のハイブリッド方式で正確な字幕を実現
2018年2月、総務省は「放送分野における情報アクセシビリティに関する指針」を発表した。県域局での放送(いわゆるローカル放送)に対して2027年までに字幕付与率80%を達成するよう目標を定めたのだ。キー局でさえ字幕付与率の向上に苦慮している中、さらにハードルが上がったと言える。それを受けてTBSがまず目指したのは、TBS NEWSでの24時間字幕付与だった。TBSテレビ 技術局 送出部 木村浩也氏はシステム要件についてこう語る。
同社では現在、音声認識技術を利用した文字起こしエディター「もじこ」を開発中で、当初はこれを利用したシステム化も検討した。しかし、メインに据えるにはリアルタイム性に欠けた。
そこで思いついたのがプロンプタシステムの有効活用だ。プロンプタシステムは、キャスター向けに原稿を表示するモニターシステムだ。そのプロンプタシステムに用意する放送原稿を字幕で見せる原稿とすることにした。
結果的に、プロンプタシステム8割、従来の手入力による地上波字幕送出ログ1割、AIを利用した音声認識技術(開発中)1割の割合で構成される、「ハイブリッド方式字幕付与システム」が完成した。
最初の放送で送出された字幕はログ保存されて、録画放送サーバと連携する。録画再放送ではアルバイト1人いればボタン操作のみで字幕を送り出せるようになった。全自動にしなかったのは、音声認識での誤表示とディレイ(遅延)を避けるためだったという。同氏はこのシステムの開発により、第45回 放送文化基金賞を受賞した。
音声認識技術+AIで全自動リアルタイム字幕のAbemaTV
一方、テレビ朝日 技術局 技術戦略部 藤井祐介氏は同社が開発した字幕システム「AIポン」を紹介した。サイバーエージェントとテレビ朝日が出資して設立されたインターネットテレビの AbemaTV内、AbemaNewsチャンネルの昼のレギュラー番組「けやきヒルズ」で、“リアルタイムAI字幕”を提供しているのが「AIポン」だ。
「AIポン」は、グーグルの音声認識技術「Google Speech API」を使い音声をテキストに変換。それをAIで修正して、Web通信で送出する仕組みだ。AIが関与しているのは、句読点の付与、「まあ」「あの」といった不要語の削除、放送禁止用語の自動削除・置換などだ。
これにより無人で自動、しかもディレイが1秒以内という字幕付与システムを実現した。「AIポン」は、“対象がニュースである” “話者が同時に話さない”などの好条件の下では90%以上の正解率を出しているという。
特長的なのは、変換途中のデータも放送画面に映すことだ。そのため後で字幕の内容が変わることもあるが、その分ディレイを抑制できる利点がある。
「現在、『AIポン』はオープンキャプション(常に表示されている字幕)の位置づけにありますが、ゆくゆくはクローズドキャプション(表示・非表示を切り替えられる字幕)として放送規格に合わせた送出も目指したいです。最近は、“スマートフォンで見ていて音声を出せない”というケースも増えているので、音声がなくても情報が得られる環境の構築に貢献していければと考えています」(藤井氏)
【次ページ】NHKはWeb経由のセカンドスクリーン字幕を実験中
関連コンテンツ
PR
PR
PR