數據湖倉 版權信息
- ISBN:9787115638885
- 條形碼:9787115638885 ; 978-7-115-63888-5
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數據湖倉 本書特色
1.本書的一作為比爾·恩門,被譽為“數據倉庫之父”,先提出數據倉庫概念的學者,在數據庫技術管理與數據庫設計方面擁有超過35年的經驗。
2.本書由國際專業的數據管理專業團體DAMA中國團隊翻譯。
3.本書涵蓋數據湖倉的多個主題,包括基本概念、應用領域和案例分析等,內容豐富多樣,語言易懂簡潔,能夠滿足不同領域讀者的需求。
4.本書不僅介紹數據湖倉構建的理論知識,而且包含非常有趣的案例分析,可以幫助讀者更好地理解理論知識在實際問題中的應用。
數據湖倉 內容簡介
數據湖倉是下一代數據倉庫和數據湖,旨在滿足復雜多變的現代信息系統的需求。本書主要展示了如何構建作為人工智能、機器學習和數據網格的基礎的數據湖倉,同時介紹了數據湖倉的缺陷和使用技巧,以*大限度地提高數據湖倉的商業價值。
在本書中,我們將深入探討數據湖倉的核心特性及其成功的關鍵因素。首先,我們將認識到數據質量的重要性,并通過檢查輸入錯誤、解決鍵的非兼容性問題以及維護良好的文檔編制來提高數據的質量和可信度。其次,我們將學習數據湖倉的不同存儲類型,包括未充分利用但極具價值的大容量存儲器。我們也將針對數據湖倉中的3種主要數據類型——結構化數據、文本數據和模擬/物聯網數據,學習如何為人工智能、機器學習和數據網格構建堅實的基礎。同時,我們將探討如何利用針對結構化數據的數據模型、針對文本數據的本體和分類標準,以及針對模擬/物聯網數據的數據蒸餾算法,來抽象化這些數據,以滿足未來的業務需求。*后,我們將學習如何應用ETL技術解決數據轉換問題,確保構建一個高效、滿足業務需求的數據湖倉。
數據湖倉 目錄
第 1章 讓數據可信 1
1.1 做一個成熟的終端用戶 2
1.2 不斷攀升的可信目標 5
1.3 可信數據的要素 7
1.4 小結 8
第 2章 基礎數據 9
2.1 構建應用程序 9
2.2 以人工智能醫療為例 10
2.3 基礎數據的組成要素 12
2.4 小結 14
第3章 如何避免不良數據 15
3.1 輸入錯誤 16
3.2 鍵的問題 18
3.3 重復記錄 18
3.4 拼寫錯誤 19
3.5 兼容性 19
3.6 編制文檔 21
3.7 小結 22
第4章 不同類型的數據 24
4.1 數據量 24
4.2 數據的業務價值 25
4.3 數據的訪問概率 27
4.4 數據降級 29
4.5 基于大容量存儲器的數據歸檔機制 30
4.6 小結 30
第5章 數據抽象 31
5.1 結構化數據模型 32
5.2 本體和分類標準 34
5.3 模擬/物聯網數據的蒸餾算法 36
5.4 小結 37
第6章 結構化數據 39
6.1 業務交易生成的數據 40
6.2 結構化記錄 40
6.3 鍵 42
6.4 聯機事務處理 43
6.5 組織數據 45
6.6 小結 46
第7章 文本數據 48
7.1 文本數據的類型 48
7.2 使用文本數據時的語言障礙 50
7.3 多義詞 51
7.4 提取業務的含義 51
7.5 小結 54
第8章 模擬/物聯網數據 56
8.1 數據有用性的差異 57
8.2 攝像頭 58
8.3 人工審視 59
8.4 日期分隔 60
8.5 數據篩選 61
8.6 閾值方法 61
8.7 時間排序方法 62
8.8 小結 63
第9章 大容量存儲器與數據湖倉 65
9.1 大容量存儲器的優缺點 66
9.2 訪問概率 67
9.3 索引 70
9.4 元數據和大容量存儲器 71
9.5 小結 71
第 10章 數據架構與數據工程 73
10.1 兩個角色如何通力配合 74
10.2 角色與數據類型 75
10.3 小結 79
第 11章 業務價值 81
11.1 業務價值才是驅動力 81
11.2 一切都離不開錢 82
11.3 基礎數據 83
11.4 難以協調 84
11.5 領域 85
11.6 小結 86
第 12章 數據需要的層次 87
12.1 數據獲取 89
12.2 數據傳輸與存儲 90
12.3 數據轉換 91
12.4 數據標簽、整合與匯聚 92
12.5 數據分析與機器學習 93
12.6 小結 95
第 13章 數據湖倉中的數據集成 97
13.1 不同種類數據的集成 98
13.2 自動集成 98
13.3 ETL 99
13.4 文本ETL 101
13.5 數據蒸餾算法 103
13.6 小結 104
第 14章 分析 105
14.1 結構化數據分析 105
14.2 文本數據分析 107
14.3 模擬/物聯網數據分析 108
14.4 結構化數據和文本數據的結合 109
14.5 連接3個環境 111
14.6 執行分析 112
14.7 小結 113
第 15章 軟數據 114
15.1 電子表格數據 115
15.2 互聯網數據 116
15.3 政府數據 117
15.4 小結 117
第 16章 描述性數據 119
16.1 數據模型 121
16.2 元數據 122
16.3 結構化數據轉換 123
16.4 結構化數據源 124
16.5 數據選擇標準 125
16.6 數據定義語言 125
16.7 數據編碼 126
16.8 數據關系 127
16.9 文本數據 128
16.10 本體 129
16.11 分類標準 131
16.12 關聯 132
16.13 上下文情境 133
16.14 文本數據源 134
16.15 模擬/物聯網數據 135
16.16 算法 136
16.17 閾值 136
16.18 時間排序 137
16.19 模擬/物聯網數據源 138
16.20 數據血緣 138
16.21 小結 139
第 17章 數據目錄 140
17.1 永久維護 141
17.2 開放 141
17.3 不同數據類型的內部結構 142
17.4 小結 143
第 18章 數據架構的演化 144
18.1 伊始 144
18.2 應用程序 145
18.3 磁帶文件 146
18.4 硬盤存儲 147
18.5 OLTP 148
18.6 個人計算機 149
18.7 4GL處理技術和數據抽取應用程序 150
18.8 數據倉庫 152
18.9 數據集市 153
18.10 互聯網和物聯網數據 154
18.11 數據湖 155
18.12 數據湖倉 157
18.13 小結 158
展開全部
數據湖倉 作者簡介
比爾·恩門,被譽為“數據倉庫之父”,出版了60本書并被譯為多種語言,《計算機世界》將他評為計算機專業歷史上具影響力的十大人物之一。
戴夫·拉皮恩,是辛辛那提大學林德納商學院的副教授,有著超過25年的教學經驗,還開發和管理了許多不同行業的大規模數據集成系統。
瓦萊麗·巴特爾特,在印第安納大學凱利商學院獲得信息系統博士學位和商業碩士學位,并且在電信學院獲得了沉浸式媒介環境碩士學位。