-
>
以利為利:財政關系與地方政府行為
-
>
立足飯碗 藏糧于地——基于中國人均耕地警戒值的耕地保護視角
-
>
營銷管理
-
>
茶葉里的全球貿易史(精裝)
-
>
近代華商股票市場制度與實踐(1872—1937)
-
>
麥肯錫圖表工作法
-
>
海龜交易法則
數據資產管理核心技術與應用 版權信息
- ISBN:9787302666998
- 條形碼:9787302666998 ; 978-7-302-66699-8
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
數據資產管理核心技術與應用 本書特色
《數據資產管理核心技術與應用》從核心技術和應用實踐兩個角度,講述如何管理好數據資產、如何解決數據資產管理中面臨的諸多技術痛點,幫助數據資產管理者、開發者架構好數據服務的技術基礎,從而幫助數據資產使用人員、數據分析師、經營決策人員等快速地找到自己想要的數據,讓數據可以發揮出更大的價值。
數據資產管理核心技術與應用 內容簡介
《數據資產管理核心技術與應用》深入探討數據資產管理的核心技術與應用,融入作者在大數據領域多年的豐富經驗。《數據資產管理核心技術與應用》為讀者提供一套可以落地的數據資產管理框架,并詳解兩個基于該框架進行數據資產管理的應用案例,使讀者能更好地了解數據資產管理底層所涉及的眾多核心技術,讓數據可以發揮出更大的價值。《數據資產管理核心技術與應用》配套PPT課件、示例源代碼、作者微信群答疑服務。 全書共分10章,第1章主要讓讀者認識數據資產,了解數據資產相關的基礎概念,以及數據資產的發展情況。第2~8章主要介紹大數據時代數據資產管理所涉及的核心技術,內容包括元數據的采集與存儲、數據血緣、數據質量、數據監控與告警、數據服務、數據權限與安全、數據資產管理架構等。第9~10章主要從實戰的角度介紹數據資產管理技術的應用實踐,包括如何對元數據進行管理以發揮出數據資產的更大潛力,以及如何對數據進行建模以挖掘出數據中更大的價值。 《數據資產管理核心技術與應用》適合數據資產管理者、數據資產管理初學者、數據應用開發工程師、數據分析師、數據庫管理員、架構師、產品經理、技術經理作為技術參考書,也適合高等院校或高職高專數據資產管理相關課程的教學參考書。
數據資產管理核心技術與應用 目錄
1.1 數據資產的基本介紹 1
1.2 數據資產的分類 4
1.3 數據資產的價值評估 5
1.4 數據資產的質量 6
1.5 數據資產的存儲 6
1.6 數據資產管理 9
1.7 數據資產管理的信息化建設 11
1.8 數據資產與人工智能 11
第 2 章 元數據的采集與存儲 13
2.1 Hive中的元數據采集 14
2.1.1 基于Hive Meta DB的元數據采集 14
2.1.2 基于Hive Catalog的元數據采集 18
2.1.3 基于Spark Catalog的元數據采集 21
2.2 Delta Lake中的元數據采集 29
2.2.1 基于Delta Lake自身設計來采集元數據 31
2.2.2 基于Spark Catalog來采集元數據 32
2.3 MySQL中的元數據采集 34
2.4 Apache Hudi中的元數據采集 41
2.4.1 基于Spark Catalog采集元數據 42
2.4.2 Hudi Timeline Meta Server 43
2.4.3 基于Hive Meta DB采集元數據 47
2.5 Apache Iceberg中的元數據采集 49
2.5.1 Iceberg的元數據設計 50
2.5.2 Iceberg元數據的采集 54
2.6 元數據的存儲模型設計 56
2.6.1 如何對元數據進行整合 56
2.6.2 元數據的存儲模型設計 57
第 3 章 數據血緣 59
3.1 獲取數據血緣的技術實現 59
3.1.1 如何從Hive中獲取數據血緣 60
3.1.2 從Spark執行計劃中獲取數據血緣 66
3.1.3 從Spark SQL語句中獲取數據血緣 82
3.1.4 從Flink中獲取數據血緣 91
3.1.5 從數據任務的編排系統中獲取數據血緣 92
3.2 數據血緣的存儲模型與展示設計 94
第 4 章 數據質量的技術實現 98
4.1 質量數據采集的技術實現 100
4.1.1 定義數據采集的規則 100
4.1.2 定時Job的技術選型 103
4.2 如何處理采集到的質量數據 109
4.3 質量數據的存儲模型設計 110
4.4 常見的開源數據質量管理平臺 112
4.4.1 Apache Griffin 112
4.4.2 Qualitis 113
第 5 章 數據監控與告警 116
5.1 數據監控 116
5.1.1 數據監控的種類 116
5.1.2 監控數據的特點與存儲方式 117
5.2 常見的數據監控目標 118
5.2.1 數據鏈路監控 118
5.2.2 數據任務監控 124
5.2.3 數據質量監控 125
5.2.4 數據服務監控 125
5.2.5 數據處理資源監控 126
5.3 Prometheus簡介 128
5.4 Grafana簡介 135
5.5 使用Grafana和Prometheus來實現數據監控與告警 138
5.5.1 數據鏈路的告警實現 138
5.5.2 數據任務的告警實現 141
5.5.3 數據質量的告警實現 142
5.5.4 數據服務的告警實現 142
5.5.5 數據處理資源的告警實現 143
第 6 章 數據服務 146
6.1 如何設計數據服務 146
6.1.1 數據源管理 148
6.1.2 數據服務的敏捷化和可配置化 148
6.1.3 數據服務文檔的自動生成 151
6.1.4 數據服務的統一認證與鑒權 151
6.1.5 數據服務的監控與告警 153
6.2 數據服務的性能 155
6.3 數據服務的熔斷與降級 159
第 7 章 數據權限與安全 163
7.1 常見的權限設計模式 163
7.1.1 基于角色的訪問控制 164
7.1.2 基于屬性的訪問控制 165
7.1.3 基于對象的訪問控制 165
7.2 數據權限 166
7.2.1 列權限控制 167
7.2.2 行權限控制 170
7.3 數據脫敏 171
7.4 數據安全 174
第 8 章 數據資產架構 176
8.1 數據資產的架構設計 177
8.1.1 數據獲取層 177
8.1.2 數據處理層 178
8.1.3 數據存儲層 180
8.1.4 數據管理層 182
8.1.5 數據分析層 182
8.1.6 數據服務層 183
8.2 常見的開源數據資產管理平臺 185
8.2.1 Apache Atlas 185
8.2.2 Data Hub 186
8.2.3 OpenMetadata 189
第 9 章 元數據管理實踐 193
9.1 如何理解元數據 194
9.1.1 為何需要元數據 194
9.1.2 如何讓元數據產生更大價值 195
9.1.3 元數據分類及其好處 196
9.1.4 元數據管理 198
9.1.5 參與角色 201
9.2 元數據管理 202
9.2.1 元數據模型的組織關系 202
9.2.2 元數據的采集 204
9.2.3 業務域設計 205
9.2.4 業務術語設計 209
9.2.5 元數據標簽設計 212
9.2.6 數據Owner 214
9.2.7 數據生命周期 215
9.2.8 元數據注冊和發布 216
9.2.9 核心功能介紹 218
第 10 章 數據建模實踐 224
10.1 什么是數據建模 224
10.1.1 數據模型分類 224
10.1.2 數據建模方法 227
10.2 數據倉庫建模架構 229
10.3 關系型數據建模 231
10.3.1 概念模型階段 231
10.3.2 邏輯模型階段 235
10.3.3 物理模型階段 238
10.4 維度建模 240
10.4.1 基本概念 240
10.4.2 維度表設計 246
10.4.3 事實表分類 250
10.4.4 基于維度建模的數據分析實踐 251
參考文獻 253
數據資產管理核心技術與應用 相關資料
福特中國新能源技術、數字化及整車硬件研發執行總監 陳兵 我相信,本書的出版將為廣大數據從業者、研究者和管理者提供寶貴的參考和借鑒。本書將幫助我們更好地理解數據資產和數據應用的重要性和價值,推動我們在實踐中不斷探索和創新,共同開創數據治理和數據應用的美好未來。 Apache DolphinScheduler PMC Chair、Apache SeaTunnel PMC 代立冬 我與本書的作者永清是因為當下十分流行的大數據工作流調度平臺Apache DolphinScheduler 開源項目結識的。永清是該項目的積極貢獻者,也是國內開源社區的活躍參與者。國內開源社區的發展需要眾多開發貢獻者的積極參與來壯大本土開源。希望開源社區能有更多像永清這樣的伙伴,將自己的技術和經驗以書籍的形式輸出,更好地服務大眾。 福特中國數字化高級經理 周楊 本書從技術和實戰兩個角度很好的解決了大數據資產管理中面臨的諸多痛點問題,手把手指導企業或者組織對大數據資產的管理、分析和挖掘,從而更加深入的掌握市場走勢、提升自身產品的體驗以及運營效率,在產品競爭中能始終立于不敗之地。 Databricks高級架構師 吳舒 我與永清認識于2021年底,當時的他正負責評估Databricks平臺的計算引擎和存儲介質的接入,當時我們一起探討測試過很多書中討論的技術內容。這本書詳細探討了很多企業級數據平臺比較頭疼的問題——如何更好地管理數據與元數據,尤其是像Databricks這樣有開源基因的商用SaaS平臺如何與其他開源技術更好的整合,以符合用戶的最終實際需要,這在業界是比較罕見的實操案例,而良好的數據管理是企業級生成式AI真正的護城河,相信這本實戰書籍能帶給讀者一些啟發。
數據資產管理核心技術與應用 作者簡介
張永清,從事功能測試、自動化測試、性能測試、Java軟件開發、大數據開發、架構師等工作十多年,在自動化測試設計、性能測試設計、性能診斷、性能調優、分布式架構設計等方面積累了多年經驗。參與過的系統涉及公安、互聯網、移動互聯網、大數據、人工智能等領域。先后任職于江蘇飛搏軟件、蘇寧大數據研發中心、蘇寧研究院、蘇寧人工智能研發中心、紫金普惠研發中心、福特汽車工程研究有限公司,歷任測試經理、技術經理、部門經理、高級架構師等職位。重點關注大數據、圖像處理、高性能分布式架構設計等領域。著有圖書《軟件性能測試、分析與調優實踐之路(第2版)》《軟件性能測試、分析與調優實踐之路》《Robot Framework自動化測試框架核心指南》。
- >
李白與唐代文化
- >
莉莉和章魚
- >
煙與鏡
- >
伊索寓言-世界文學名著典藏-全譯本
- >
苦雨齋序跋文-周作人自編集
- >
史學評論
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
月亮虎