云數據湖 構建健壯的云數據架構 版權信息
- ISBN:9787111762751
- 條形碼:9787111762751 ; 978-7-111-76275-1
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
云數據湖 構建健壯的云數據架構 本書特色
企業比以往任何時候都更加了解云數據湖架構對于從數據中獲取價值的重要性。但是,要構建一個穩健、可擴展、性能卓越的數據湖,仍然是一個復雜的命題,因為需要大量的工具和選項協同工作,以提供從數據到洞察力的無縫端到端管道。
這本實用書籍簡明而全面地概述了云數據湖的設置、管理和治理。作者Rukmani Gopalan是一位產品管理領導者和數據愛好者,他指導數據架構師和工程師了解云數據湖工作的主要方面,從設計考慮因素和*佳實踐到數據格式優化、性能優化、成本管理和治理。
通過閱讀本書,你將: ? 了解基于云的大數據戰略對企業的益處。
? 獲得設計高性能、可擴展數據湖的指導和*佳實踐。
? 研究架構和設計選擇以及數據管理原則和策略。
? 構建可隨著組織和業務需求的增加而擴展的數據戰略。
? 在云中實施可擴展的數據湖。
? 使用基于云的高級分析,從數據中獲取更多價值。
云數據湖 構建健壯的云數據架構 內容簡介
本書詳細介紹了可用于數據處理的表格格式、云產品、框架、存儲層,以及如何將這些內容組合在一起,以獲得適合自己需求的高性能解決方案。作者在書中提供的決策框架將幫助你明智地決定選擇哪種數據湖。本書是大數據領域每個人的必讀書。閱讀本書后,你將了解構建云數據湖所需的所有基礎知識,并能夠以多種方式應用這些知識。本書主要面向數據架構師、數據開發人員和數據運維專業人員,他們希望廣泛地了解設置和運營云數據湖的各個方面。
云數據湖 構建健壯的云數據架構 目錄
目錄
前言1
第1章 大數據—超越喧囂9
1.1 什么是大數據10
1.2 彈性數據基礎設施的挑戰14
1.3 云計算基礎15
1.3.1 云計算術語16
1.3.2 云的價值主張17
1.4 云數據湖架構19
1.4.1 本地數據倉庫解決方案的限制20
1.4.2 什么是云數據湖架構21
1.4.3 云數據湖架構的優勢21
1.5 開啟云數據湖之旅23
1.6 總結26
第2章 云上的大數據架構27
2.1 為什么Klodars公司要遷移到云27
2.2 云數據湖架構基礎28
2.2.1 淺談數據的多樣性29
2.2.2 云數據湖存儲31
2.2.3 大數據分析引擎33
2.2.4 云數據倉庫39
2.3 現代數據倉庫架構41
2.3.1 參考架構41
2.3.2 現代數據倉庫架構的用例43
2.3.3 現代數據倉庫架構的優勢和挑戰45
2.4 數據湖倉一體架構45
2.4.1 參考架構46
2.4.2 數據湖倉一體架構的用例52
2.4.3 數據湖倉一體架構的優勢和挑戰54
2.4.4 數據倉庫和非結構化數據56
2.5 數據網格56
2.5.1 參考架構57
2.5.2 數據網格架構的用例59
2.5.3 數據網格架構的優勢和挑戰59
2.6 什么是適合的架構60
2.6.1 了解客戶60
2.6.2 了解業務驅動因素61
2.6.3 考慮增長和未來場景62
2.6.4 設計注意事項62
2.6.5 混合方法64
2.7 總結64
第3章 數據湖的設計注意事項66
3.1 設置云數據湖基礎設施66
3.1.1 確定目標67
3.1.2 規劃架構和可交付成果70
3.1.3 云數據湖實施74
3.1.4 發布和運行75
3.2 在數據湖中組織數據75
3.2.1 數據生命中的一天75
3.2.2 數據湖區76
3.2.3 組織機制79
3.3 數據治理簡介80
3.3.1 數據治理的參與者81
3.3.2 數據分類83
3.3.3 元數據管理、數據目錄和數據共享84
3.3.4 數據訪問管理85
3.3.5 數據質量和可觀測性86
3.3.6 Klodars公司的數據治理89
3.3.7 數據治理總結90
3.4 管理數據湖成本91
3.4.1 揭秘云上的數據湖成本92
3.4.2 數據湖成本策略94
3.5 總結96
第4章 可擴展的數據湖97
4.1 可擴展性探秘97
4.1.1 什么是可擴展性98
4.1.2 日常生活中的規模98
4.1.3 數據湖架構中的可擴展性101
4.2 數據湖處理系統的內部104
4.2.1 內部數據復制105
4.2.2 內部ELT/ETL處理107
4.2.3 關于其他交互式查詢的說明110
4.3 可擴展數據湖解決方案的注意事項110
4.3.1 選擇合適的云產品111
4.3.2 峰值容量規劃114
4.3.3 數據格式和作業配置文件116
4.4 總結117
第5章 優化云數據湖架構以提高性能118
5.1 度量性能的基礎知識118
5.1.1 性能的目標和指標120
5.1.2 度量性能121
5.1.3 優化以提高性能122
5.2 云數據湖性能124
5.2.1 SLA、SLO和SLI124
5.2.2 示例:Klodars公司如何管理其SLA、SLO和SLI125
5.3 性能驅動因素126
5.3.1 復制作業的性能驅動因素127
5.3.2 Spark作業的性能驅動因素129
5.4 性能調優的優化原則和技術132
5.4.1 數據格式132
5.4.2 數據組織和分區138
5.4.3 在Apache Spark上選擇正確的配置140
5.5 減少數據傳輸開銷142
5.6 優質產品和性能143
5.6.1 大型虛擬機案例144
5.6.2 閃存案例144
5.7 總結145
第6章 深入了解數據格式146
6.1 為什么我們需要這些開放數據格式146
6.1.1 為什么我們需要存儲表格數據147
6.1.2 為什么在云數據湖中存儲表格數據是一個問題148
6.2 Delta Lake149
6.2.1 為什么開發Delta Lake149
6.2.2 Delta Lake如何工作152
6.2.3 什么時候使用Delta Lake153
6.3 Apache Iceberg154
6.3.1 為什么開發Apache Iceberg154
6.3.2 Apache Iceberg是如何工作的155
6.3.3 什么時候使用Apache Iceberg157
6.4 Apache Hudi159
6.4.1 為什么孵化Apache Hudi159
6.4.2 Apache Hudi如何工作160
6.4.3 什么時候使用Apache Hudi163
6.5 總結164
第7章 架構的決策框架165
7.1 云數據湖評估166
7.2 云數據湖評估分析168
7.2.1 從零開始169
7.2.2 將現有數據湖或數據倉庫遷移到云169
7.2.3 改進現有的云數據湖170
7.3 決策框架的第1階段:評估171
7.3.1 了解客戶需求171
7.3.2 了解改進的機會172
7.3.3 了解業務驅動因素174
7.3.4 確定需求的優先級來完成評估階段175
7.4 決策框架的第2階段:定義176
7.4.1 確定云數據湖的設計選擇178
7.4.2 規劃云數據湖項目可交付成果181
7.5 決策框架的第3階段:實施183
7.6 決策框架的第4階段:操作185
7.7 總結186
第8章 數據啟迪未來的六大經驗187
8.1 第1課:關注云數據湖的工作方式和時間,而不是“如果”和
“為什么”188
8.2 第2課:權力越大,責任越大—數據也不例外188
8.3 第3課:客戶引領技術,而不是技術引領客戶190
8.4 第4課:改變是不可避免的,所以要做好準備192
8.5 第5課:建立同理心,分清輕重緩急192
8.6 第6課:巨大的影響不會在一夜之間發生193
8.7 總結194
附錄 云數據湖決策框架模板195
展開全部
云數據湖 構建健壯的云數據架構 作者簡介
[美]魯克米尼·戈帕蘭(Rukmani Gopalan),是微軟經驗豐富的產品管理負責人。除了開發高度可擴展的服務和令人愉悅的端到端客戶體驗外,她還與零售、制造和醫療保健等不同行業的各種客戶合作,在云上構建他們的大數據分析解決方案。 在從單一的本地數據平臺遷移時,Rukmani還致力于在云上構建高度可擴展的數據湖架構。