構建數(shù)據(jù)湖倉 版權信息
- ISBN:9787302624479
- 條形碼:9787302624479 ; 978-7-302-62447-9
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
構建數(shù)據(jù)湖倉 本書特色
超越數(shù)據(jù)庫與數(shù)據(jù)湖,新一代數(shù)據(jù)管理的新模式——數(shù)據(jù)湖倉為數(shù)據(jù)分析帶來新變革,為更有效、更便捷、更科學、更可靠、更靈活的數(shù)據(jù)分析提供基礎。
構建數(shù)據(jù)湖倉 內容簡介
在數(shù)據(jù)湖倉的所有新增要素中,排名**的就是可以利于數(shù)據(jù)分析和機器學習所用的分析基礎設施。分析基礎設施包括一眾大家廣為熟悉的東西,當然也包括一些可能對大家還有些陌生或略帶新鮮感的概念。比如包括:元數(shù)據(jù)、數(shù)據(jù)血緣、 數(shù)據(jù)體量的度量 、數(shù)據(jù)創(chuàng)建的歷史記錄、數(shù)據(jù)轉換描述。
數(shù)據(jù)湖倉的第二個新增要素,是識別和使用通用連接器。通用連接器允許合并和比較所有不同來源的數(shù)據(jù)。如果沒有通用連接器,就很難(實際上是幾乎不可能)將數(shù)據(jù)湖倉中的不同數(shù)據(jù)關聯(lián)起來。但有了這個中西,就可以關聯(lián)任何類型的數(shù)據(jù)。
使用數(shù)據(jù)湖倉,就有可能實現(xiàn)以往任何其它方式都不可行或不可能實現(xiàn)的某種程度的數(shù)據(jù)分析和機器學習。 但與其它架構一樣,我們需要理解數(shù)據(jù)湖倉的架構以及它的能力,以便于我們基于這種架構創(chuàng)建數(shù)據(jù)分析藍圖和開展數(shù)據(jù)分析規(guī)劃。
構建數(shù)據(jù)湖倉 目錄
目錄
引言
**章向數(shù)據(jù)湖倉演進
1.技術的演進3
2.組織內的全部數(shù)據(jù)8
3.商業(yè)價值在哪里?12
4.數(shù)據(jù)湖13
5.當前數(shù)據(jù)架構的挑戰(zhàn)14
6.數(shù)據(jù)湖倉的出現(xiàn)15
第二章數(shù)據(jù)科學家和終端用戶
1.數(shù)據(jù)湖20
2.分析基礎設施21
3.不同的受眾21
4.分析工具不同22
5.分析目的不同23
6.分析方法不同24
7.數(shù)據(jù)類型不同24
第三章數(shù)據(jù)湖倉中的不同類型數(shù)據(jù)
1.數(shù)據(jù)的類型28
2.不同數(shù)據(jù)的容量31
3.跨越不同類型數(shù)據(jù)的關聯(lián)數(shù)據(jù)32
4.基于訪問概率對數(shù)據(jù)進行分片33
5.模擬和物聯(lián)網(wǎng)環(huán)境中的關聯(lián)數(shù)據(jù)33
6.分析基礎設施35
第四章開放的湖倉環(huán)境
1.開放系統(tǒng)的演進38
2.與時俱進的創(chuàng)新39
3.建立在開放、標準文件格式之上的非結構化湖倉39
4.開源數(shù)據(jù)湖倉軟件40
5.數(shù)據(jù)湖倉提供超越SQL的開放API41
6.數(shù)據(jù)湖倉支持開放數(shù)據(jù)共享42
7.數(shù)據(jù)湖倉支持開放數(shù)據(jù)探索43
8.數(shù)據(jù)湖倉通過開放數(shù)據(jù)目錄簡化數(shù)據(jù)發(fā)現(xiàn)44
9.利用云原生架構的數(shù)據(jù)湖倉45
10.向開放的數(shù)據(jù)湖倉演進46
第五章機器學習和數(shù)據(jù)湖倉
1.機器學習47
2.機器學習需要湖倉提供什么?48
3.從數(shù)據(jù)中挖掘出新價值48
4.解決這個難題48
5.非結構化數(shù)據(jù)問題49
6.開源的重要性51
7.發(fā)揮云的彈性優(yōu)勢51
8.為數(shù)據(jù)平臺設計“MLOps”52
9.案例:運用機器學習對胸透X光片進行分類53
10.數(shù)據(jù)湖倉的非結構化組件的演進55
第六章數(shù)據(jù)湖倉中的分析基礎設施
1.元數(shù)據(jù)58
2.數(shù)據(jù)模型59
3.數(shù)據(jù)質量60
4.ETL61
5.文本ETL62
6.分類標準62
7.數(shù)據(jù)體量63
8.數(shù)據(jù)血緣64
9.KPI65
10.數(shù)據(jù)的粒度66
11.事務66
12.鍵66
13.處理計劃67
14.匯總數(shù)據(jù)67
15.*低要求68
第七章數(shù)據(jù)湖倉中的數(shù)據(jù)融合
1.湖倉和數(shù)據(jù)湖倉69
2.數(shù)據(jù)的源頭70
3.不同類型的分析70
4.通用標識符72
5.結構化標識符72
6.重復數(shù)據(jù)73
7.文本環(huán)境中的標識符74
8.文本數(shù)據(jù)和結構化數(shù)據(jù)的融合76
9.匹配的重要性81
第八章跨數(shù)據(jù)湖倉架構的分析類型
1.已知查詢83
2.啟發(fā)式分析85
第九章數(shù)據(jù)湖倉倉務管理
1.數(shù)據(jù)集成和互操作92
2.數(shù)據(jù)湖倉的主數(shù)據(jù)及參考數(shù)據(jù)94
3.數(shù)據(jù)湖倉的隱私、保密和數(shù)據(jù)保護96
4.數(shù)據(jù)湖倉中面向未來的數(shù)據(jù)97
5.面向未來的數(shù)據(jù)的五個階段101
6.數(shù)據(jù)湖倉的例行維護108
第十章可視化
1.將數(shù)據(jù)轉化為信息110
2.什么是數(shù)據(jù)可視化?為什么它很重要?112
3.數(shù)據(jù)可視化、數(shù)據(jù)分析和數(shù)據(jù)解釋之間的差異113
4.數(shù)據(jù)可視化的優(yōu)勢115
第十一章數(shù)據(jù)湖倉架構中的數(shù)據(jù)血緣
1.計算鏈124
2.數(shù)據(jù)選取126
3.算法差異126
4.文本數(shù)據(jù)血緣127
5.其他非結構化環(huán)境的數(shù)據(jù)血緣128
6.數(shù)據(jù)血緣129
第十二章數(shù)據(jù)湖倉架構中的訪問概率
1.數(shù)據(jù)的高效排列131
2.數(shù)據(jù)的訪問概率131
3.數(shù)據(jù)湖倉中不同的數(shù)據(jù)類型133
4.數(shù)據(jù)量的相對差異133
5.數(shù)據(jù)分片的優(yōu)勢134
6.使用大容量存儲134
7.附加索引135
第十三章跨越鴻溝
1.合并數(shù)據(jù)136
2.不同種類的數(shù)據(jù)137
3.不同的業(yè)務需求137
4.跨越鴻溝137
第十四章數(shù)據(jù)湖倉中的海量數(shù)據(jù)
1.海量數(shù)據(jù)的分布145
2.高性能、大容量的數(shù)據(jù)存儲146
3.附加索引和摘要146
4.周期性的數(shù)據(jù)過濾148
5.數(shù)據(jù)標記法148
6.分離文本和數(shù)據(jù)庫149
7.歸檔存儲149
8.監(jiān)測活動150
9.并行處理151
第十五章數(shù)據(jù)治理與數(shù)據(jù)湖倉
1.數(shù)據(jù)治理的目的152
2.數(shù)據(jù)生命周期管理154
3.數(shù)據(jù)質量管理156
4.元數(shù)據(jù)管理的重要性157
5.隨著時間推移的數(shù)據(jù)治理157
6.數(shù)據(jù)治理的類型158
7.貫穿數(shù)據(jù)湖倉的數(shù)據(jù)治理159
8.數(shù)據(jù)治理的注意事項160
第十六章現(xiàn)代數(shù)據(jù)倉庫
1.應用程序的普及162
2.信息孤島163
3.復雜網(wǎng)絡環(huán)境164
4.數(shù)據(jù)倉庫165
5.數(shù)據(jù)倉庫的定義166
6.歷史數(shù)據(jù)167
7.關系模型167
8.數(shù)據(jù)的本地形式168
9.集成數(shù)據(jù)的需要169
10.時過境遷170
11.當今世界170
12.不同體量的數(shù)據(jù)172
13.數(shù)據(jù)與業(yè)務的關系173
14.將數(shù)據(jù)納入數(shù)據(jù)倉庫173
15.現(xiàn)代數(shù)據(jù)倉庫174
16.什么時候我們不再需要數(shù)據(jù)倉庫?175
17.數(shù)據(jù)湖176
18.以數(shù)據(jù)倉庫作為基礎177
19.數(shù)據(jù)堆棧178
展開全部
構建數(shù)據(jù)湖倉 作者簡介
胡博,國際數(shù)據(jù)管理協(xié)會(DAMA)中國理事,國家重點研發(fā)計劃課題負責人。發(fā)表過學術論文20余篇,在云平臺、數(shù)據(jù)中臺等方面授權國家發(fā)明專利12項;是中國計算機學會高級會員、中國計算機協(xié)會服務計算專委會執(zhí)行委員、SCI期刊IJWSR 執(zhí)行主編、華中農(nóng)業(yè)大學、深圳大學、武漢科技大學和海南師范大學碩士生導師。