開閉ボタン
ユーザーメニュー
ユーザーメニューコンテンツ
ログイン

  • 会員限定
  • 2021/01/27

ビッグデータ活用の必須技術、「検索エンジン」「フィルタリング」とは

連載:図でわかる3分間AIキソ講座

インターネットが普及し、人々が自由に情報発信できるようになったことで誕生したのが「ビッグデータ」です。膨大な情報群であるビッグデータの中には、無数の宝が眠っている一方で、活用価値のないようなガラクタデータも多く、扱いが難しい特徴があります。そうしたビッグデータは、人工知能(AI)研究にも大きな影響を与えています。今回は、ビックデータとAIの関係、さらには膨大なデータを有効活用するために不可欠な「検索技術」と「フィルタリング」について解説していきます。

フリーライター 三津村直貴

フリーライター 三津村直貴

合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執筆協力『マンガでわかる人工知能(池田書店)』など。

画像
ビッグデータの仕組みのイメージ(後ほど詳しく解説します)



ビッグデータとは

 ビッグデータとは、インターネットなどを通じて増え続ける膨大なデータの集合体を指します。インターネットが普及した社会では、SNSをはじめとする情報プラットフォームが数多く誕生したこともあり、情報量が爆発的に増えています。こうした増え続けるSNS投稿などに加え、インターネットを利用する人々のアクセス履歴など、あらゆる情報がビッグデータに含まれます。

 ここ数年は、そうしたビッグデータを分析し、ビジネスに生かそうとする企業が増えていますが、ビックデータは保管しておくだけでも莫大なコストがかかるほか、最終的に活用方法が分からず廃棄されるケースも数多く存在します。それくらい、ビッグデータの活用は簡単ではないのです。

 そうした中、人工知能(AI)の登場は大きな転機になりました。AIの機械学習には膨大な学習データが必要となるため、その学習データとしてビッグデータの活用に白羽の矢が立ったのです。さらに今度は、学習したAIがビッグデータの解析などに応用できることが分かり、ビッグデータの活用が進みます。

 活用の対象となるビッグデータですが、具体的には検索情報、購買情報、SNSの投稿情報、位置情報、端末へのアクセス情報などが含まれ、そうした情報は毎分毎秒、膨大に蓄積されていきます。

 このように、あらゆるデータを含むことが、ビッグデータの活用を難しくしている側面もあります。データ分析を行う際、本来であれば、扱うデータの種類がバラバラであれば分析するためのアルゴリズムやツールも変わってしまうため、分析するデータの種類に合わせて最適化する必要があります。しかし、これではコストがかかりすぎてしまい、データを有効利用するためのハードルが上がります。

 一方、近年は、機械学習などの汎用性が高い技術を用いたAIのおかげで、完璧とは言えないまでも、高い精度のビッグデータの分析ができるようになりました。AIの登場前に比べ、ビッグデータの利用ハードルが大きく下がったのです。

 AIとビッグデータは相互に補い合うような関係にあると言えるでしょう。

画像
ビッグデータとAIには密接な関係がある…?
(Photo/Getty Images)
 

ビッグデータがAIに与えた影響

 AIの発展に、ビッグデータが貢献したという側面もあります。これを理解いただくために、まずはAIの特性を人間の特徴と比較しながら説明したいと思います。

 たとえば、人間の子どもに猫を認識させるには、おそらく動物図鑑が1冊あれば十分です。ほんの数ページを読むだけで、ほとんど間違いなく猫とそうでない動物を見極められるようになるかと思います。

 一方、グーグルの開発したAIが猫を認識した事例では、AIが猫の顔を見分けられるようになるまで1000万枚もの画像を学ばせる必要がありました。

 このことから分かるように、AIの機械学習には、人間に比べて膨大な教材が必要なのです。エキスパートシステムなどで注目された第2次AIブームの終焉も、分析のための教材(データ)不足が原因の1つでした。

 インターネットの普及によるビッグデータの登場は、この弱点を一気に補うものになりました。インターネットを活用した情報収集は、チェスや将棋のAIでも行われています。チェスのディープブルー、将棋のボナンザ、囲碁のAlphaGo、そのすべてにおいて、過去の膨大な対戦履歴が活用されています。

【次ページ】ビッグデータを扱うための技術:「検索エンジン」「フィルタリング」

お勧め記事

AI・人工知能・機械学習 ジャンルのセミナー

AI・人工知能・機械学習 ジャンルのトピックス

AI・人工知能・機械学習 ジャンルのIT導入支援情報

PR

ビジネス+IT 会員登録で、会員限定コンテンツやメルマガを購読可能、スペシャルセミナーにもご招待!