会員限定
2021/05/06 掲載

ディープラーニングは「画像認識」が得意なワケ、その秘密は「ネオコグニトロン」？

連載：図でわかる3分間AIキソ講座

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

ディープラーニングが誕生し、最初に活躍したのは画像認識の領域でした。ディープラーニングがなぜ画像認識に強かったのか、そして登場直後のディープラーニングはどのようにしてその性能を発揮したのか、簡単に解説していきましょう。

フリーライター三津村直貴

合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー（翔泳社）』『図解これだけは知っておきたいAIビジネス入門（成美堂）』、執筆協力『マンガでわかる人工知能（池田書店）』など。

ディープラーニングによる画像認識の仕組みとは…？（後ほど詳しく解説します）

連載一覧

▲ 閉じる ▼ すべて表示

人間の視覚神経を参考に作られた「ネオコグニトロン」

　ニューラルネットワークの研究が進む中で、ディープラーニングよりも先に「ネオコグニトロン」と呼ばれる人間の視覚神経を参考にした多層ニューラルネットワークが日本の研究者である福島邦彦氏によって考案されました。

　ネオコグニトロンは、ニューラルネットワークの階層ごとに、それぞれ「特徴を抽出する層」や「曖昧さや誤差を吸収する層」などの役割で分かれており、これにより手書き文字認識などに高い性能を発揮します。

　この発想は手書き文字認識以外にも画像認識の分野に役立ちます。

　たとえば、ディープラーニングにおける「畳み込みニューラルネットワーク」（CNN:Convolutional Neural Network）は、このネオコグニトロンのアイデアを参考にしており、「画像の特徴を抽出しつつ、無駄な情報を省いて情報を圧縮する」といったニューラルネットワーク内の情報処理に活用されています。

人間の視覚神経を参考に作られた「ネオコグニトロン」とは？

（Photo/Getty Images）

ディープラーニングが注目されるキッカケ「Super Vision」

　そして、ディープラーニングが最初に注目されたのは2012年に開催された画像認識の競技会「ILSVRC（ImageNet Large Scale Visual Recognition Challenge）」でのことでした。

　ディープラーニングの考案者であるトロント大学のジェフリー・ヒントン氏のチームが開発したディープラーニング活用した画像認識システム「Super Vision」が出場し、ここで圧倒的な成績を残したのです。

　競技会で行われた種目は、画像に写っているものが何かを判別する「分類」と、それがどこにあるのかを特定する「位置特定」の2つでした。大半のAI（人工知能）は分類の正答率が70％台前半、「分類」＋「位置特定」では50％未満というレベルでしのぎを削っていました。

　ところが、Super Visionは「分類」の種目で85％近い成績を上げ、「分類」＋「位置特定」の種目でも67％前後のスコアを記録したのです。これは100m走のタイムを10秒台で争っている中で1人だけ9秒台を叩き出すような、圧倒的な差であり、まさに衝撃だったのです。

画像認識における大きな課題

　ちなみに、画像認識において、「何の画像か」を分類できるのにもかかわらず、画像のうち、「対象物が写っている場所」を特定することは難しい技術でした。それは、機械学習ならではの理由があります。

　たとえば、船を映したほとんどの写真には、船以外に海や湖が映り込んでいます。そうした、海や湖も映り込んだ船の写真を見せられて、「これは船の写真だ」とAIに教えたとしても、背景に映る海や湖が「船」自体に関係あるかどうかは、AIには判別できません。

　この「船と海は別物である」という人間にとっては当たり前のことを学ばせるには、AIに事物の「概念」を教えなければなりません。この概念の学習は、単純な分類に比べるとはるかに難しく、AIにおいてはある種の鬼門になると考えられていました。しかし、その壁も越えることに成功します。

【次ページ】「対象物」を判別できるカラクリ