- 会員限定
- 2012/04/16 掲載
「ETLフレームワーク」でグーグルとフェイスブックから学ぶビッグデータ活用の基本
2005年東京大学大学院情報理工学研究科修了。博士(情報理工学)。英国ケンブリッジ大学コンピュータ研究所訪問研究員を経て、2006年日興シティグループ証券にてITサービス・ソフトウェア担当の証券アナリストとして従事したのち、2009年3月にフューチャーブリッジパートナーズ(株)を設立。経営コンサルタントとして、経営の視点から、企業分析、情報システム評価、IR支援等に携わる。アプリックスIPホールディングス(株) 取締役 チーフエコノミスト。共著に『使って学ぶIPv6』(アスキー02年4月初版)、著書に『これならわかるネットワーク』(講談社ブルーバックス、08年5月)、『ネット企業の新技術と戦略がよーくわかる本』(秀和システム、11年9月)。『ビックデータ戦略』(秀和システム、12年3月)、『図解:スマートフォンビジネスモデル』(秀和システム、12年11月)。
ホームページ: http://www.futurebridge.jp
ETLフレームワークの基本
世の中にはデータが溢れています。たとえば、企業では、出社時刻・退社時刻を記録した勤怠データ、顧客の情報を記録した顧客データ、製品の売上を記録した販売データがあるでしょう。あるいは、Web検索、携帯メール、ツイッター、フェイスブックへの書き込みなど、私たちの身の回りにもデータは存在しています。ただ、これらのデータをただ集めただけでは、単なる文字列の羅列で何の意味もありません。では、どうやって、集めたデータから収益を上げるのでしょうか?その答えの一つが、ETLフレームワークです。ETLフレームワークとは、E(Extract:抽出)、T(Transform:変換・加工)、L(Load:積み込み)の3つのプロセスを経ることによって、単なる文字の羅列であるデータから付加価値を生み出す考え方です。
まずは、このETLフレームワークをみていきましょう。ETLフレークワークは、図1のように、データを集めることから始まります。それがE(Extract:抽出)です。この段階では、それぞれのデータがどんな意味を持つのかはあまり気にしません。とにかく、データを収集します。
しかしながら、データを単に収集しただけでは何も付加価値はありません。収集したデータを何かしらの切り口に基づいて整理整頓(仕分け)する必要があります。これがT(Transform:変換・加工)です。
たとえば、集めたデータ中の性別のフィールドに、“紳士”、“男性”、“Male”という3つの同じ意味でも異なる語句の場合、それをまとめて、“男”として変換・加工(正規化)します。これによって、バラバラに取得したデータを同じ土俵で比較することができるようになります。
最後に、同じ土俵で比較できるようになったデータをデータ倉庫(DWH:データウェアハウス)に保存して、いつでも取り出せて、更新があれば書き換えるようにデータを出し入れします。これが最後のL(Load:積み込み)です。
このETLフレームワークによって、単に文字の羅列であるデータから付加価値を生み出すサービスへと変えるのです。ETLフレームワークは、データウェアハウスを構築する場合に必須の概念ですが、データウェアハウスに限った話ではありません。
そこで、データ活用の代表的な企業であるグーグルおよびフェイスブックの2社に焦点をあてて、どのようにデータを価値あるものにしているのかについて、解説していきましょう。
【次ページ】グーグルのデータ活用戦略
関連タグ
PR
PR
PR