会員限定
2019/08/07 掲載

テレビ局3社が語る「自動字幕」の裏側　AbemaのAIポンはすでに実用レベル？

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

コンテンツ・エンタメ・文化芸能・スポーツ

|

タグをもっとみる

聴覚障害者などのためにテレビ音声を字幕で表示する「字幕放送」。その字幕制作は、これまで主に手作業で担われてきた。プロフェッショナルがチームを組み、リレー方式で音声を聞きながらリアルタイム入力するため、どうしてもコストがかかっていた。しかし現在、放送局各社では、音声認識技術や人工知能（AI）を活用した次の技術研究を進めている。TBS、テレビ朝日、NHKら3社の担当者が「Connected Media Tokyo 2019」でその裏側を語った。

TBS、テレビ朝日、NHK。各局を代表して担当者が取り組みの詳細を語った。

TBSは“8：1：1”のハイブリッド方式で正確な字幕を実現

　2018年2月、総務省は「放送分野における情報アクセシビリティに関する指針」を発表した。県域局での放送（いわゆるローカル放送）に対して2027年までに字幕付与率80％を達成するよう目標を定めたのだ。キー局でさえ字幕付与率の向上に苦慮している中、さらにハードルが上がったと言える。

　それを受けてTBSがまず目指したのは、TBS NEWSでの24時間字幕付与だった。TBSテレビ技術局送出部木村浩也氏はシステム要件についてこう語る。

TBSテレビ
技術局送出部
木村浩也氏

関連記事

▲ 閉じる ▼ すべて表示

「報道という性格上、被害者の名前など情報は正確を期さねばならず、字幕にもミスは許されません。また字幕送出のスピードも要求され、運用コストが安価でなければ24時間適用できません」

　同社では現在、音声認識技術を利用した文字起こしエディター「もじこ」を開発中で、当初はこれを利用したシステム化も検討した。しかし、メインに据えるにはリアルタイム性に欠けた。

　そこで思いついたのがプロンプタシステムの有効活用だ。プロンプタシステムは、キャスター向けに原稿を表示するモニターシステムだ。そのプロンプタシステムに用意する放送原稿を字幕で見せる原稿とすることにした。

　結果的に、プロンプタシステム8割、従来の手入力による地上波字幕送出ログ1割、AIを利用した音声認識技術（開発中）1割の割合で構成される、「ハイブリッド方式字幕付与システム」が完成した。

　最初の放送で送出された字幕はログ保存されて、録画放送サーバと連携する。録画再放送ではアルバイト1人いればボタン操作のみで字幕を送り出せるようになった。全自動にしなかったのは、音声認識での誤表示とディレイ（遅延）を避けるためだったという。同氏はこのシステムの開発により、第45回放送文化基金賞を受賞した。

音声認識技術＋AIで全自動リアルタイム字幕のAbemaTV

テレビ朝日
技術局技術戦略部
藤井祐介氏

　一方、テレビ朝日技術局技術戦略部藤井祐介氏は同社が開発した字幕システム「AIポン」を紹介した。サイバーエージェントとテレビ朝日が出資して設立されたインターネットテレビの AbemaTV内、AbemaNewsチャンネルの昼のレギュラー番組「けやきヒルズ」で、“リアルタイムAI字幕”を提供しているのが「AIポン」だ。

　「AIポン」は、グーグルの音声認識技術「Google Speech API」を使い音声をテキストに変換。それをAIで修正して、Web通信で送出する仕組みだ。AIが関与しているのは、句読点の付与、「まあ」「あの」といった不要語の削除、放送禁止用語の自動削除・置換などだ。

　これにより無人で自動、しかもディレイが1秒以内という字幕付与システムを実現した。「AIポン」は、“対象がニュースである” “話者が同時に話さない”などの好条件の下では90％以上の正解率を出しているという。

　特長的なのは、変換途中のデータも放送画面に映すことだ。そのため後で字幕の内容が変わることもあるが、その分ディレイを抑制できる利点がある。

「現在、『AIポン』はオープンキャプション（常に表示されている字幕）の位置づけにありますが、ゆくゆくはクローズドキャプション（表示・非表示を切り替えられる字幕）として放送規格に合わせた送出も目指したいです。最近は、“スマートフォンで見ていて音声を出せない”というケースも増えているので、音声がなくても情報が得られる環境の構築に貢献していければと考えています」（藤井氏）

【次ページ】NHKはWeb経由のセカンドスクリーン字幕を実験中