ビジネス+IT

ビジネス課題別で探す

ITジャンル別で探す

会員限定

2017年08月15日

「手軽に自作で」ディープラーニングの衝撃、動画から説明文や音声合成を組み合わせ

ディープラーニングの活用が加速してきた。写真や動画から自動で説明文(キャプション)を作成したり、その説明文を音声合成する技術が成熟化してきたからだ。さらに、こうした技術を組み合わせて、自作で「自動キャプション生成スピーチ装置」(Video-to-Speech装置)を製作した“つわもの”も登場。NVIDIA プロダクトマーケティング・マネージャー 矢戸知得氏が個人で製作した同装置は、交通量の把握や観光案内などにも応用できるものになったという。

執筆:フリーライター 井上 猛雄

photo
(クリックで拡大)

矢戸氏がDIYで製作した「自動キャプション生成スピーチ装置」。Webカメラから映像データを取り込み、その状況を認識して、テキストと音声合成でアウトプットする


AIによりロボットや機械の知能化も進展

photo

NVIDIA
プロダクトマーケティング・マネージャー
矢戸 知得 氏

 ディープラーニングの技術はもともと、画像処理や自然言語処理を中心に使われていたものだが、近年さまざまなアプリケーションに応用され、具体的な成果を出すようになった。

 Maker Faire Tokyo 2017(主催:オライリー・ジャパン)のセミナーに登壇したNVIDIA プロダクトマーケティング・マネージャー 矢戸知得氏は「たとえば、グーグルのAlphaGoが人間のプロ棋士を負せたことは記憶に新しいだろう。碁の打ち手の組み合わせは天文学的な数になり、コンピュータ処理は難しいとされていたが、その課題を解決した。またDOOMのような複雑なダンジョンゲームをプレイしたり、モネやゴッホの画風を学んで、そのスタイルで絵を描けるようになった。自然な会話ができる音声合成技術や、写真から説明文を生成する技術も発展した」と説明する。

 AIによって、ロボットや機械の知能化も進んだ。

「ロボットで運動技能を習得できるようになったことは大きな進展だ。複雑な関節を組み合わせて、何らかのタスクを実行できる。これをAIによってトライ&エラーで学べる。さらに難しい2足歩行技術も習得できるようになった。これは歩行に加え、時間的な制約の要素も入る。また自動車の自動運転にもAIが大きな威力を発揮している」(矢戸氏)

ディープラーニングによる3つの恩恵

関連記事
 矢戸氏によれば、ディープラーニングの恩恵は「ロバスト性」「一般性」「スケーラブル」の3つがあるという。

「人が指示するのではなく、コンピュータが自動的にデータから特徴を学びとる。人間が気づかなかった外乱(通信系などに外から加わる不要な信号)に対しても影響を受けずに性能を発揮できるロバスト性を持つ。また同じニューラルネットワークのアプローチを別のタスクや動作に対して適用できる一般性がある。さらに多くのデータを使って並列処理を行うことで、パフォーマンスが向上するスケーラブル性を有する」(矢戸氏)

 GPUディープラーニングによる新しいコンピューティングモデルでは、未学習のニューラルネットワークモデルを用意し、そこに既存データを流し込んで答え合わせをする。その結果をもとに、ニューラルネットワーク自体の重み付けを調整。何度も繰り返すことで、十分な能力を発揮する学習済みのモデルが生まれる。このモデルに未知のデータを適用し、推論処理をするという流れだ。

photo
(クリックで拡大)

GPUディープラーニングの仕組み。未学習のモデルに大量データを流し込む。ニューラルネットワークの重みを調整しながら学習済みのモデルを生成し、未知データから推論する


【次ページ】自作できる「自動キャプション生成スピーチ装置」

AI・人工知能・機械学習 ジャンルのセミナー

一覧へ

AI・人工知能・機械学習 ジャンルのトピックス

一覧へ

AI・人工知能・機械学習 ジャンルのIT導入支援情報

一覧へ

関連キーワード

AI記事

PR

注目のIT導入支援情報

一覧へ

注目のイベント・セミナー情報

一覧へ

イベント・セミナー情報の登録(無料)

記事アクセスランキング

イベント・セミナー情報アクセスランキング