劍指大數據 企業級數據倉庫項目實戰 在線教育版 版權信息
- ISBN:9787121459375
- 條形碼:9787121459375 ; 978-7-121-45937-5
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
劍指大數據 企業級數據倉庫項目實戰 在線教育版 本書特色
從需求規劃、需求實現到可視化展示等,遵循項目開發的主要流程,全景介紹了在線教育行業離線數據倉庫的搭建過程。
劍指大數據 企業級數據倉庫項目實戰 在線教育版 內容簡介
本書從需求規劃、需求實現到可視化展示等,遵循項目開發的主要流程,全景介紹了在線教育行業離線數據倉庫的搭建過程。在整個數據倉庫的搭建過程中,介紹了主要組件的安裝部署、需求實現的具體思路、問題的解決方案等,并在其中穿插了許多大數據和數據倉庫相關的理論知識,包括數據倉庫的概念介紹、在線教育業務概述、數據倉庫理論介紹和數據倉庫建模等。
本書的第1章至第3章是項目前期準備階段,主要為讀者介紹了數據倉庫的概念、應用場景和搭建需求等,并初步搭建了數據倉庫項目所需的基本環境;第4章至第6章是數據倉庫搭建的核心部分,詳細講解了數據倉庫建模理論和數據從采集到分層搭建的全過程;第7章和第8章介紹了全流程調度和指標可視化。本書適合具有一定編程基礎的讀者學習。通過閱讀本書,讀者可以快速地了解數據倉庫,全面掌握數據倉庫的相關技術。
劍指大數據 企業級數據倉庫項目實戰 在線教育版 目錄
第1章 大數據與數據倉庫概論1
1.1 什么是數據倉庫1
1.2 數據倉庫的演進歷史2
1.3 數據倉庫技術4
1.4 數據倉庫基本架構5
1.5 數據庫和數據倉庫的區別8
1.6 學前導讀9
1.6.1 學習的基礎要求9
1.6.2 你將學到什么9
1.7 本章總結10
第2章 項目需求描述11
2.1 前期調研11
2.2 項目架構分析12
2.2.1 在線教育數據倉庫產品描述12
2.2.2 系統功能結構13
2.2.3 系統流程圖13
2.3 項目業務概述14
2.3.1 采集模塊業務描述14
2.3.2 數據倉庫需求業務描述15
2.3.3 數據可視化業務描述16
2.4 系統運行環境17
2.4.1 硬件環境17
2.4.2 軟件環境18
2.5 本章總結20
第3章 項目部署的環境準備21
3.1 Linux環境準備21
3.1.1 安裝VMware21
3.1.2 安裝CentOS21
3.1.3 遠程終端安裝30
3.2 Linux環境配置33
3.2.1 網絡配置33
3.2.2 網絡IP地址配置34
3.2.3 主機名配置35
3.2.4 防火墻配置36
3.2.5 一般用戶設置36
3.3 Hadoop環境搭建37
3.3.1 虛擬機環境準備37
3.3.2 安裝JDK42
3.3.3 安裝Hadoop43
3.3.4 Hadoop分布式集群部署44
3.4 本章總結50
第4章 用戶行為數據采集模塊51
4.1 日志生成51
4.1.1 數據埋點51
4.1.2 用戶行為日志格式52
4.1.3 安裝MySQL57
4.1.4 數據模擬59
4.2 消息隊列Kafka66
4.2.1 安裝ZooKeeper66
4.2.2 ZooKeeper集群啟動、停止腳本67
4.2.3 安裝Kafka68
4.2.4 Kafka集群啟動、停止腳本70
4.2.5 Kafka topic相關操作70
4.3 采集日志的Flume71
4.3.1 Flume組件72
4.3.2 安裝Flume72
4.3.3 采集日志Flume配置73
4.3.4 Flume的74
4.3.5 采集日志Flume啟動、停止腳本77
4.4 消費Kafka日志的Flume79
4.4.1 日志消費層Flume配置79
4.4.2 時間戳81
4.4.3 日志消費層Flume啟動、停止腳本83
4.4.4 數據通道測試83
4.5 采集通道啟動、停止腳本84
4.6 本章總結86
第5章 業務數據采集模塊87
5.1 在線教育業務概述87
5.1.1 在線教育業務流程87
5.1.2 在線教育表結構88
5.1.3 數據同步策略96
5.1.4 數據同步工具選擇98
5.2 業務數據采集99
5.2.1 業務數據模型梳理99
5.2.2 安裝DataX102
5.2.3 安裝Maxwell104
5.2.4 全量數據同步108
5.2.5 增量數據同步116
5.3 數據采集流程總結126
5.4 本章總結129
第6章 數據倉庫搭建模塊130
6.1 數據倉庫理論準備130
6.1.1 數據建模概述130
6.1.2 關系模型與范式理論131
6.1.3 維度模型134
6.1.4 維度建模理論之事實表136
6.1.5 維度建模理論之維度表138
6.1.6 星形模型、雪花模型與星座模型141
6.2 數據倉庫建模實踐142
6.2.1 名詞概念142
6.2.2 為什么要分層144
6.2.3 數據倉庫構建流程144
6.2.4 數據倉庫開發規范150
6.3 數據倉庫搭建環境準備154
6.3.1 安裝Hive154
6.3.2 Hive on Spark配置157
6.3.3 YARN容量調度器并發度問題159
6.3.4 數據倉庫開發環境配置159
6.3.5 模擬數據準備162
6.3.6 常用函數164
6.3.7 復雜數據類型166
6.4 數據倉庫搭建――ODS層167
6.4.1 用戶行為數據167
6.4.2 ODS層用戶行為數據導入腳本169
6.4.3 業務數據170
6.4.4 ODS層業務數據導入腳本179
6.5 數據倉庫搭建――DIM層181
6.5.1 章節維度表(全量)181
6.5.2 課程維度表(全量)182
6.5.3 視頻維度表(全量)184
6.5.4 試卷維度表(全量)185
6.5.5 來源維度表(全量)186
6.5.6 題目維度表(全量)186
6.5.7 地區維度表(全量)187
6.5.8 時間維度表(特殊)188
6.5.9 用戶維度表(拉鏈表)189
6.5.10 DIM層首日數據裝載腳本193
6.5.11 DIM層每日數據裝載腳本193
6.6 數據倉庫搭建――DWD層194
6.6.1 交易域加購事務事實表194
6.6.2 交易域加購周期快照事實表197
6.6.3 交易域試聽下單累積快照事實表198
6.6.4 交易域下單事務事實表203
6.6.5 交易域支付成功事務事實表208
6.6.6 流量域頁面瀏覽事務事實表212
6.6.7 流量域啟動事務事實表213
6.6.8 流量域動作事務事實表215
6.6.9 流量域曝光事務事實表217
6.6.10 流量域錯誤事務事實表219
6.6.11 互動域收藏事務事實表221
6.6.12 互動域章節評價事務事實表222
6.6.13 互動域課程評價事務事實表223
6.6.14 考試域答卷事務事實表224
6.6.15 考試域答題事務事實表226
6.6.16 學習域播放周期快照事實表227
6.6.17 學習域播放事務事實表232
6.6.18 用戶域用戶注冊事務事實表234
6.6.19 用戶域用戶登錄事務事實表237
6.6.20 DWD層首日數據裝載腳本238
6.6.21 DWD層每日數據裝載腳本239
6.7 數據倉庫搭建――DWS層239
6.7.1 *近1日匯總表240
6.7.2 *近n日匯總表250
6.7.3 歷史至今匯總表254
6.8 數據倉庫搭建――ADS層257
6.8.1 流量主題指標257
6.8.2 用戶主題指標262
6.8.3 課程主題指標269
6.8.4 交易主題指標278
6.8.5 考試主題指標280
6.8.6 播放主題指標285
6.8.7 完課主題指標287
6.8.8 ADS層數據導入腳本291
6.9 數據模型評價及優化291
6.10 本章總結292
第7章 DolphinScheduler全流程調度293
7.1 DolphinScheduler概述與安裝293
7.1.1 DolphinScheduler概述293
7.1.2 DolphinScheduler安裝部署294
7.2 報表數據導出300
7.2.1 創建MySQL數據庫和表300
7.2.2 DataX數據導出306
7.3 全調度流程316
7.3.1 數據準備316
7.3.2 全流程調度配置316
7.4 郵件報警324
7.4.1 注冊郵箱324
7.4.2 配置郵件報警325
7.5 本章總結328
第8章 數據可視化模塊329
8.1 Superset部署329
8.1.1 環境準備329
8.1.2 Superset安裝330
8.2 Superset使用334
8.2.1 對接MySQL數據源334
8.2.2 制作儀表盤337
8.3 Superset實戰342
8.3.1 制作餅狀圖343
8.3.2 制作折線圖344
8.3.3 制作桑基圖345
8.3.4 合成儀表盤頁面347
8.4 ECharts可視化348
8.5 本章總結349
展開全部
劍指大數據 企業級數據倉庫項目實戰 在線教育版 作者簡介
尚硅谷教育是一家專業的IT教育培訓機構,開設了JavaEE、大數據、HTML5前端等多門學科,在互聯網上發布的JavaEE、大數據、HTML5前端、區塊鏈、C語言、Python等技術視頻教程廣受贊譽。