- 2016/07/04 掲載
データ・レイクとは何か? ガートナーが解説する企業導入・活用のポイント

データ・レイクとは何か?
データ・レイクとは何か。ガートナーはこれを「各種データ資産のストレージ・インスタンスの集合」と定義しており、「データ・レイク内のデータ資産は、データ・ソースにおけるフォーマットをほとんど、あるいは完全に複製した形で保存されており、起源となるデータ・ストアに付加されている」と説明している。「ガートナー ビジネス・インテリジェンス、アナリティクス&情報活用サミット2016」で登壇したヒューデカー氏は、「あるがままのデータを他の環境に置くのがデータ・レイクだ。データ・レイクには、データをネイティブフォーマットで保存する必要がある。データ・レイクとは、つまりストレージの戦略だ」と説明する。
「データ・レイクは、今ある情報資産の環境に対して付加的に提供されるものだ。ガートナーのペース・レイヤ戦略における記録システムや差別化システムではなく、革新システムに対応するもので、データ・レイクは、革新システムにおいて新しいクエリをかける対象となる環境だということを理解して欲しい」
参考までにペース・レイヤ戦略とは、アプリケーションを使用目的と変更の頻度に応じて、記録システム・差別化システム・革新システムの3つに分類し、その分類ごとに異なる管理とガバナンスのプロセスを定義する手法だ。
「たとえば従来環境にあるデータ群の中に何かビジネスチャンスがありそうだ、しかしそれが見えないという時、既存の環境のままではあまりにもデータが膨大過ぎて分析できない、あるいはコストがかかりすぎるという際にデータ・レイクを利用する。ネイティブフォーマットでデータをデータ・レイクに保存し、新しいビジネスチャンスに向けて活用する」
データ・レイクの技術的な実装方法
しかしガートナーの定義には、データ・レイクの技術的な要項は書かれていない。「データ・レイクとはあくまで概念で、これをどのように実装するかは、さまざまな選択肢がある。Hadoopでもいいし、共有されたファイルシステムでもいい。あるいはRDBをデータ・レイク用に使うというケースもあるし、NoSQLのデータベースでもいい。自社のニーズに合っていれば、好きなテクノロジを選択することができる」
そしてヒューデカー氏は、「まずは自社が何を分析したいのか、つまりデータ・レイクにどんな問いかけをしたいのかを明らかにした上で、データ・レイクをどう最適化していくかを決めていくことが大切だ」と続ける。
「何を分析したいのか、あるいは何を知りたいのかを明確にした時、もしかしたらデータ・レイクは適した環境ではないと結論付けられるかもしれない。まずはデータ・レイクに問いかける質問を見える化することが重要だ」
またデータ・レイクの活用に当たっては、非構造化データのための環境を用意する必要があるという。
「“分析のための質問”の約80%で利用するのは、今あるデータの約20%だ。別の言い方をすれば、分析用の質問の80%が構造化されたもので、その質問に対する解を導くために、企業データ全体の20%に相当する構造化データが用いられるということだ。しかし、残り20%の質問は構造化されたものではなく、それをどのように形作ればいいのか分からない状態にある。しかし企業にとっては、これが最も重要な質問で、この質問に対する答えを導き出すためには、データ全体の80%に相当する非構造化されたデータを使わななければならない。そのための環境が求められることになる」
活用に求められる7つの役割
それではデータ・レイクを活用して成功を収めるためには、何が重要となるのか。この点についてヒューデカー氏は「多様な人材」を挙げる。「たとえば非構造化データを分析して、そこから新たな相関関係を導き出すためには、抜本的な分析スキルが求められる。スタート地点として、まずはデータサイエンティストと呼ばれる人たちが必要だ」
データサイエンティストは、事業について深く理解しているし、ITに関するスキルも有している。そして数多くのユースケースも把握している。
「次に新たな役割ということでここ1年で台頭してきているのが、市民データサイエンティストだ。彼らはさまざまなツールを使って、発見された事実を活用する。しかし彼らがデータサイエンティストに置き換わることは決してない」
また多くの場合、データサイエンティストのチームに属しているのがデータエンジニアだ。分析用のデータを準備し、データを使えるように提供する役割を担う人たちで、データエンジニから提供されたデータをデータサイエンティストが活用することになる。
それからビジネスエキスパートと呼ばれる人たちも必要だ。実際にどんなデータを使って、どんな結果を導き出すのかというアナリティクスの「文脈」を提供する役割を担っている。もちろんソースコードを書き、それを本番環境に展開するソフトウェアエンジニアも重要で、全体のワークフローの中でデータエンジニアとともに適切なガバナンスが適用されていることを担保してくれる。
「ここまでの5つに加えて実はあと2つ、必要な役割がある。1つは、データサイエンスのシナリオの中ではそれほど一般的ではないが、金融サービスや保険という領域で専門性を発揮する人たちで、豊富なユースケースを有している人たちだ」
そしてもう1つが、ITを活用する新興の有力企業で、さまざまな能力を持ったこうした企業とも協業しながら、データ分析の新たな領域を作り上げていくという取り組みが必要だ。
データ・レイクの「統合」における4つのポイント
そして最後にヒューデカー氏はデータ・レイクへと統合する必要を強調し、その際の留意事項として、4つのポイントを挙げた。「まず1つめとして、社内外を含め、色々なデータソースからデータを取得してくる必要がある。しかしそれは皆さんが何をしたいのかに依存する。人材の分析をしたいなら人材に関するデータ・レイクを、マーケティング施策を考えたいならマーケティング用のデータ・レイクを構築する。そうして各データ・レイクの責任の範疇を明確にしていくことが重要だ」
そこから2つめの発見・開発のフェーズに移る。ここで分析のための質問を導き出すことになる。要は取得したデータで何を明らかにしたいのかということだ。3つめに、データを未加工の状態から最適化していく。これがデータエンジニアの役割だ。そして4つめとして、最適化されたデータを消費(=活用)して目的とする答えを導き出す。
「データ・レイクの活用に当たっては、この4つのフェーズを論理的もしくは物理的に別々に設定し、統合していく必要がある。データ・レイクの統合戦略を考える際には是非、この4つの要素を念頭に置いていただきたい」
一部文章を修正しました。[2016/11/24 10:31]
関連タグ
PR
PR
PR