開閉ボタン
ユーザーメニュー
ユーザーメニューコンテンツ
ログイン

  • 2020/12/28

データマイニングがよくワカル、「おむつとビール」のたとえ話とは?

連載:図でわかる3分間AIキソ講座

人工知能(AI)を活用した分析の目的の1つに、膨大な情報の中から、人間が見つけ出すことのできない「価値ある情報を見つける」ことが挙げられます。そうした価値ある情報を見つけ出すためには、ある程度整理された「構造化データ」を準備し、AIに学ばせる必要があります。今回は、読み込むデータが構造化データか非構造化データであるかに関わらず、あらゆるデータから価値ある情報を見つけ出してくれる「データマイニング」と呼ばれる手法について解説します。

フリーライター 三津村直貴

フリーライター 三津村直貴

合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執筆協力『マンガでわかる人工知能(池田書店)』など。

画像
データマイニングの理解を深める「スーパーマーケットのおむつとビール」のたとえ話(後ほど詳しく解説します)


「データマイニング」とは

 前回、構造化データを作る手法「オントロジー(情報理論)」のうち、「ヘビーウェイト・オントロジー」と「ライトウェイト・オントロジー」を紹介しました。しかし、このオントロジーは、あくまで「概念」や「知識」に関するアプローチであり、どちらかと言えば、かなり体系化された情報を扱います。言ってみれば、AI専用の辞書を作るような手法です。

 このオントロジー手法をすぐにビジネスの世界に転用できるかというと、微妙なところです。たとえば、同手法によって売れ筋商品を見つけ出させようとしても、まず売れ筋商品の定義を見つけ出そうとしてしまうでしょう。

 ここで言う、売れ筋商品の定義とは、企業にとって価値ある情報になります。完璧な定義を見つけ出すことができれば、その定義に合った商品を探すという方法によって、商品の販売個数の推移などを見ずに、売れ筋商品を見つけ出すことができるかもしれません。

 他方、ビジネスの世界では理由が分からなかったとしても「販売数が急上昇している商品の情報」などが重要になります。そうした情報は、膨大な購買データなどの中に埋もれています。そうした単体だけでは意味をなさないデータの中から、隠れていた新しい「価値ある情報」を見つけ出すような技術を「データマイニング(情報採掘)」と言います。

 データの関係性をプログラム自らが見つけるという点では、前回紹介したライトウェイト・オントロジーと共通していますが、違いがあります。ライトウェイト・オントロジーは情報が持つ「知識」や「意味」を見つけるのに対し、データマイニングは「価値」を見つけようとします。意味は理解しようとせず、価値の有無だけを探すのがデータマイニングです。これはデータを扱う上では非常に重要なポイントです。

 また、データマイニングでは非構造化データを構造化データに変えることもあれば、非構造化データのまま扱うこともあり、データの扱い方もさまざまです。さらに、得られた「価値ある情報」をAIに限らず、人間が利用するケースが多いのも特徴と言えるでしょう。

データマイニングの理解を深める「たとえ話」

 データマイニングの解説によく用いられるのが、「スーパーマーケットのおむつとビール」のたとえ話です。

 あるスーパーがレジで収集した膨大な購買情報をもとにデータマイニングを行った結果、おむつとビールが同時に買われているケースが多いことがわかりました。なぜそうなるのかという「意味」はまったく不明ですが、おむつとビールの棚を近づければ売上アップにつながる可能性を示す「価値」のある情報なのは明らかです。これがデータマイニングの見つけ出す「価値」の一例です。

 つまり、データマイニングは、扱うデータの意味を考えず、情報の中に隠れた価値を見つけ出してくれる手法なのです。なお、データマイニングであれば、構造化データも非構造化データも扱えます。

 ライトウェイト・オントロジーのアプローチで同じことするには、その意味を見つけなければなりません。たとえば、「乳幼児のおむつを購入」「母親は育児に忙しい」「買い物は父親」「仕事帰りに買い物」といった情報を見つけ出し、そこで「仕事終わりの晩酌にビール」という情報の組み合わせが現れてはじめて、おむつとビールが売れるということに気づきます。

 このプロセスは人間にも似ているかもしれません。同じような気づきを得られるプログラムだったとしても、論理的に気づきを得る人間的な手法とデータの関係性から気づきを得る手法では、プロセスがまったく異なることが分かるでしょう。

情報の持つ「意味」と「価値」

 ライトウェイト・オントロジーは「意味」を扱う都合、自然言語処理と深い結びつきがあり、分野が少々狭いです。一方で、幅広い意味での「価値」を探すデータマイニングの適用分野は非常に幅広くなっています。

 根本的な原因を探ったり、現象を正しく理解したりするためには、オントロジーが重要になりますが、単に「価値ある情報」を見出すだけならデータマイニングで構いません。

 さまざまな価値ある商品を扱うビジネスの世界では、おむつとビールのような人間には意味もわからない、しかし「価値のある関係性」が「意味」よりも重要です。また、現象や物事の「意味」の取り扱いに関しては、現時点ではAIよりも人間の方が優れているため、まずはAIに価値ある情報を見つけ出してもらって、その意味は人間が考えることがほとんどです。

 そのうえで、上手く意味付けができれば、それは知識になります。そうなれば、改めてAIに教えなおし、また別の発見につなげることができるようになるかもしれません。

 情報の持つ「意味」と「価値」、似ているようで似ていないデータに隠れた「何か」をAIと人間が協力して見出すことではじめて、情報を余すことなく活用できるようになるのではないでしょうか。

お勧め記事

AI・人工知能・機械学習 ジャンルのセミナー

AI・人工知能・機械学習 ジャンルのトピックス

AI・人工知能・機械学習 ジャンルのIT導入支援情報

PR

ビジネス+IT 会員登録で、会員限定コンテンツやメルマガを購読可能、スペシャルセミナーにもご招待!