活用に求められる7つの役割
それではデータ・レイクを活用して成功を収めるためには、何が重要となるのか。この点についてヒューデカー氏は「多様な人材」を挙げる。
「たとえば非構造化データを分析して、そこから新たな相関関係を導き出すためには、抜本的な分析スキルが求められる。スタート地点として、まずはデータサイエンティストと呼ばれる人たちが必要だ」
データサイエンティストは、事業について深く理解しているし、ITに関するスキルも有している。そして数多くのユースケースも把握している。
「次に新たな役割ということでここ1年で台頭してきているのが、市民データサイエンティストだ。彼らはさまざまなツールを使って、発見された事実を活用する。しかし彼らがデータサイエンティストに置き換わることは決してない」
また多くの場合、データサイエンティストのチームに属しているのがデータエンジニアだ。分析用のデータを準備し、データを使えるように提供する役割を担う人たちで、データエンジニから提供されたデータをデータサイエンティストが活用することになる。
それからビジネスエキスパートと呼ばれる人たちも必要だ。実際にどんなデータを使って、どんな結果を導き出すのかというアナリティクスの「文脈」を提供する役割を担っている。もちろんソースコードを書き、それを本番環境に展開するソフトウェアエンジニアも重要で、全体のワークフローの中でデータエンジニアとともに適切なガバナンスが適用されていることを担保してくれる。
「ここまでの5つに加えて実はあと2つ、必要な役割がある。1つは、データサイエンスのシナリオの中ではそれほど一般的ではないが、金融サービスや保険という領域で専門性を発揮する人たちで、豊富なユースケースを有している人たちだ」
そしてもう1つが、ITを活用する新興の有力企業で、さまざまな能力を持ったこうした企業とも協業しながら、データ分析の新たな領域を作り上げていくという取り組みが必要だ。
データ・レイクの「統合」における4つのポイント
そして最後にヒューデカー氏はデータ・レイクへと統合する必要を強調し、その際の留意事項として、4つのポイントを挙げた。
「まず1つめとして、社内外を含め、色々なデータソースからデータを取得してくる必要がある。しかしそれは皆さんが何をしたいのかに依存する。人材の分析をしたいなら人材に関するデータ・レイクを、マーケティング施策を考えたいならマーケティング用のデータ・レイクを構築する。そうして各データ・レイクの責任の範疇を明確にしていくことが重要だ」
そこから2つめの発見・開発のフェーズに移る。ここで分析のための質問を導き出すことになる。要は取得したデータで何を明らかにしたいのかということだ。3つめに、データを未加工の状態から最適化していく。これがデータエンジニアの役割だ。そして4つめとして、最適化されたデータを消費(=活用)して目的とする答えを導き出す。
「データ・レイクの活用に当たっては、この4つのフェーズを論理的もしくは物理的に別々に設定し、統合していく必要がある。データ・レイクの統合戦略を考える際には是非、この4つの要素を念頭に置いていただきたい」