「Apache Spark」を8つのステップで学ぶ、データレイク構築ガイド
DX(デジタルトランスフォーメーション)にデータ活用は不可欠で、近年、非構造化データの分析、利活用が注目を集めている。そこで注目されるのが、あらゆる構造化 & 非構造化データを統合して管理し、活用のための前処理を行える「データレイク」だ。本書は、Databricksの「Delta Lake」と「Apache Spark」を用いたデータレイク構築に関する開発者向けの解説書だ。インメモリで処理を行う並列分散処理フレームワーク「Apache Spark」と、高信頼性とパフォーマンス、ライフサイクル管理を可能にするオープンソースストレージレイヤー「Delta Lake(デルタレイク)」を用い、データサイエンティストやエンジニア、ビジネスユーザーが利用しやすいデータレイクの構築方法について学習できる。