IT導入支援

会員限定

日本アイ・ビー・エム株式会社提供コンテンツ

2017年07月25日

データレイクの構築方法、「ただ貯めておくだけ」にならないための3つのポイント

「データレイク」という言葉が急速に広まっているが、その定義はあいまいだ。データを貯めておくだけでいいという見解もあるが本当にそれで役に立つのか?データ形式は何でもいいというがどのような技術でそれが可能になるのか?そもそもDWH(データウェアハウス)と何が違うのかなど疑問は尽きない。本稿では、ビジネスに直結するデータレイクの構築方法を解説する。

photo

データレイク(湖)をデータスワンプ(沼)にしてはいけない

(© イルン 奉 – Fotolia)

現場でのデータ利活用が必須な時代になった

 ビジネスの世界でのデータ利活用が、年々高度化・活発化している。たとえばマーケティング部門はかつて、キャンペーンの露出効果のみを見ていればよかったが、今はそれだけでは済まない。マーケティングイベントと顧客の行動を突き合わせて、キャンペーンでどのような顧客体験を提供すれば売上の最大化につながるかを、データを基に分析し、実行しなければならない。

 営業部門では、営業成績の向上という命題に対して、顧客データや販売データを分析するだけでなく、たとえば顧客のカバレッジ体制の最適化といったような高度なテーマにも取り組まなければならない。製造現場でも、品質向上といった複合的な要素が絡む事象を精緻に分析しなければならず、財務部門でも人事部門でも、いままで以上に高度なデータ分析が必要になってきているという観点で事情は同じだ。

 仮説を立てて、実地で検証し、その結果から新しい仮説を立てるという試行錯誤のサイクルを、今までよりずっと的確に、そして速く回さなければならない時代になったのである。このような時代に、先に分析内容を決めてから、それに応じてIT部門がデータ分析基盤を数カ月かけて構築していては、ビジネスのスピードに追い付かないのは明らかだ。

 そこで登場したのが、現場部門がビジネス目的に応じて、自ら必要なデータを選択して分析を行う「セルフサービス・アナリティクス」の考え方である。今までの「セルフサービスBI」の場合、IT部門があらかじめ用意した、分析目的別のデータマートの中にあるデータを、ユーザーが自由に分析するという考え方だった。しかし、前述のように、現場部門の分析ニーズが高度化している現代においては、「必要なデータ」だけでなく「必要となる可能性があるデータ」も使える状態にしておかなければならないし、社内にあるデータだけでは十分な分析ができないかもしれない。従来型のデータマートやDWHではなく、もっと広い視野に基づき社内外のデータを形式に関係なく丸ごと蓄積しておく「データレイク」という貯蔵庫が必要になるのだ。

 データマートやDWHとデータレイクの相違点は、魚介の流通で例えるとわかりやすい。データマートは、魚を切り身で提供する「スーパーマーケット」、DWHはスーパーマーケットに出荷できるよう貯蔵しておく「倉庫」のようなものであり、提供する側のプロが利用者のために用途まで考えて準備したものと言える。これに対し、データレイクは利用する側が使い方まで考えて自ら素材を選べる「いけす」のようなものと例えられる。つまりデータレイクとは、より広い範囲で自由度高くデータを利活用できる環境を提供するものなのだ。

photo
(クリックで拡大)

データマートやDWH(データウェアハウス)とデータレイクの違い


 一方で、データレイクをただ単に「データを貯めておく場所」と誤解している向きもあるが、それではデータレイクではなく、「データスワンプ(データの泥沼)」になってしまいやすい。真のデータレイクには活用にも構築にもいくつかのポイントが存在するのである。

先進企業はデータレイクをこのように活用している

この続きは会員限定です

関連リンク