AWSではじめるデータレイク

RDBMS/DWHの次へ!「データレイク」の構築と活用を徹底解説

「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。
本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。
従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMakerなど、データレイクを支えるさまざまな仕組みが存在します。
本書ではそれらの活用の指針を解説するとともに、後半ではシステムの構築例を具体的に解説していきます。ビジネスデータ分析とログなどの生成データ分析を例に、システム構築の流れを詳しく紹介し、機械学習や統計分析をビジネスの現場で活かせる仕組みの技術的なヒントを数多く提供します。

目次

第1部 データレイクの概念と知識
序章 データレイ クを始めよう
第1章 データレイクの構築
第2章 データレイクの活用
第3章 データレイクの運用
第4章 データレイクのセキュリティ

第2部 データレイクの実践(基礎編)
第5章 ハンズオンの概要 ービジネスデータのデータレイクー
第6章 データを可視化する
第7章 サーバーレスSQLによるデータ分析
第8章 データを変換する
第9章 データを分析する(データウェアハウス)

第3部 データレイクの実践(応用編)
第10章 システムの概要 ーログデータのデータレイクー
第11章 ログを集める
第12章 ログの保管とカタログ化
第13章 ログを加工する
第14章 ログを分析する

正誤情報

本書に以下の誤りがありました。お詫びして下記のように訂正いたします。

ページ数
P. 8 本文2行目RBBMSからRDBMSから
P. 15 コラム15行目Informaticaインフォテリア
P. 17 本文下から6行目電力小売完全自由化電力小売全面自由化
P. 30 図12登録購読
P. 66 図2.1Amazon Redshift/Amazon SageMakerのアイコンがそれぞれ逆でした。正しくは双方のアイコンを入れ替えたものとなります。
P. 96 本文22行目Amazon EBSのGP1ボリュームAmazon EBSのgp2ボリューム
P. 97 本文22行目ST1であれば、GP2(SSD)よりもst1であれば、gp2(SSD)よりも
P. 105 図3.2登録購読
P. 207 本文下から2行目[chap8-classfier][chap8-classifier]
P. 250 リスト13行目GROUP BYgroup byGROUP BY
P. 252 リスト2行目WHERERWHERE
P. 273 本文9行目、ディレクトリ構成3行目templatestemplate
P. 274 本文1行目、コマンドライン1行目templatestemplate
P. 309 本文下から9行目以降数分待つとBlueprint の作成が完了するため、[Start it now?]ダイアログが表示されたことを確認します。ただし、この時点でまだ[Start it now?]をクリックしないようにご注意ください。
左側メニューから[Jobs]を開き、[lakeformation-alb etl xxxxxxxx]を選択します。[Actions]プルダウンリストから[Edit job]をクリックします。[Glue version]を「Spark 2.2, Python 2 (Glue Version 0.9)」に変更し、[Save]ボタンをクリックします。再度Lake Formation コンソールに戻り、左側メニューから[Blueprints]を開きます[Workflows]の下にある[lakeformation-alb]をクリックします。[Actions]プルダウンリストから[Start]をクリックします。
数分待つとBlueprint の作成が完了するため、[Start it now?]ダイアログが表示されたことを確認します。
確認したら[Start it now?]をクリックします。これにより、Lake Formation Blueprint によって作成されたGlue workflow が実行されます。以上の手順により、Lake Formation Blueprint を利用してALB のログをカタログ化することができます。

Copyright© テッキーメディア , 2024 All Rights Reserved.