-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據技術概論 版權信息
- ISBN:9787113248185
- 條形碼:9787113248185 ; 978-7-113-24818-5
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
大數據技術概論 本書特色
大數據技術是一個面向實際應用的技術。從大數據中獲取有價值信息是大數據技術的精髓。本書概括性介紹了數據科學與大數據技術的主要內容。全書分為 9 章,主要包括概述、大數據處理平臺、大數據獲取與存儲管理技術、大數據抽取技術、大數據清洗技術、大數據去噪與標準化、大數據約簡與集成技術、大數據分析與挖掘技術、大數據分析結果解釋與展現。
本書在內容上,注重基本概念、基本方法介紹,實例豐富、語言精練、邏輯層次清晰,適合作為大學“數據科學與大數據技術”專業和相近專業的教材,也可以作為科技人員的參考書。
大數據技術概論 內容簡介
全面:對大數據涉及的各項技術如Hadoop、MapReduce、Storm、Spark等做了深入簡出的介紹。
實用:配有多個實際操作案例供讀者參考,輕松學習。
大數據技術概論 目錄
1.1 數據科學 ................................................2
1.1.1 數據科學的產生與發展 ................2
1.1.2 數據科學的相關術語 ....................2
1.1.3 數據科學的主要內容 ....................3
1.1.4 數據科學的研究過程與體系框架.................................................4
1.1.5 數據科學、數據技術與數據工程.................................................6
1.1.6 大數據問題 ....................................6
1.2 大數據的生態環境 ................................7
1.2.1 互聯網世界 ....................................7
1.2.2 物理世界 ........................................9
1.3 大數據的概念 ........................................9
1.3.1 數據容量 ......................................10
1.3.2 數據類型 ...................................... 11
1.3.3 價值密度 ...................................... 11
1.3.4 速度 .............................................. 11
1.3.5 真實性 .......................................... 11
1.4 大數據的性質 ...................................... 11
1.4.1 非結構性 ......................................12
1.4.2 不完備性 ......................................13
1.4.3 時效性 ..........................................13
1.4.4 安全性 ..........................................13
1.4.5 可靠性 ..........................................13
1.5 大數據處理周期 ..................................13
1.5.1 大數據處理全過程 ......................14
1.5.2 大數據技術的特征 ......................15
1.5.3 大數據的一些熱點技術 ..............17
1.6 科學研究范式 ......................................18
1.6.1 科學研究范式的產生與發展 ......18
1.6.2 數據密集型科學研究第四范式....19
小結 ...............................................................23
第 2 章 大數據處理平臺 ........................ 24
2.1 Hadoop 大數據處理平臺 ....................24
2.1.1 離線計算概述 ..............................25
2.1.2 MapReduce 分布編程模型 ..........26
2.1.3 基于 Hadoop 的分布計算 ............27
2.1.4 MapReduce 程序設計分析 ..........31
2.1.5 Hadoop 環境部署與程序運行 .....36
2.2 Storm 大數據處理平臺 .......................42
2.2.1 流式數據的概念與特征 ..............43
2.2.2 大數據的計算模式 ......................45
2.2.3 流式數據處理技術的應用 ..........46
2.2.4 流式計算的系統架構 ..................50
2.2.5 Storm 流處理過程 ........................52
2.2.6 單詞計數 topology .......................56
2.3 Spark 大數據處理平臺 ........................58
2.3.1 交互式處理系統的問題 ..............58
2.3.2 Scala 編程語言簡介 .....................58
2.3.3 Spark 的主要特點 ........................59
2.3.4 軟件棧 ..........................................60
2.3.5 核心概念 ......................................61
2.3.6 彈性分布式數據集 RDD .............62
2.3.7 單詞計數實例分析 ......................66
小結 ...............................................................67
第 3 章 大數據獲取與存儲管理技術 ...... 68
3.1 大數據獲取 ..........................................69
3.1.1 大數據獲取的挑戰 ......................69
3.1.2 傳統的數據獲取與大數據獲取的區別...............................................69
3.2 領域數據 ..............................................70
3.2.1 文本數據 ......................................70
3.2.2 語音數據 ......................................71
3.2.3 圖片數據 ......................................71
3.2.4 攝像頭視頻數據 ..........................71
3.2.5 圖像數字化數據 ..........................71
3.2.6 圖形數字化數據 ..........................71
3.2.7 空間數據 ......................................72
3.3 網站數據 ..............................................72
3.3.1 網站內部數據 ..............................73
3.3.2 網站外部數據 ...........................73
3.3.3 移動網站數據 ..............................73
3.4 網絡爬蟲 ..............................................73
3.4.1 網絡爬蟲的工作過程 ..................74
3.4.2 通用網絡爬蟲 ..............................74
3.4.3 聚焦網絡爬蟲 ..............................77
3.4.4 數據抓取目標的定義 ..................79
3.4.5 網頁分析算法 ..............................80
3.4.6 更新策略 ......................................81
3.4.7 分布式爬蟲的系統結構 ..............82
3.5 大數據存儲 ..........................................84
3.5.1 大數據存儲模型 ..........................84
3.5.2 大數據存儲問題 ..........................84
3.5.3 大數據存儲方式 ..........................85
3.6 大數據存儲管理技術 ..........................86
3.6.1 數據容量問題 ..............................86
3.6.2 大圖數據 ......................................87
3.6.3 數據存儲管理 ..............................88
3.7 NoSQL 和 NewSQL .............................89
3.7.1 NoSQL ..........................................90
3.7.2 NewSQL 數據庫 ..........................93
3.7.3 不同數據庫架構混合應用模式....93
3.8 分布式文件系統 ..................................94
3.8.1 評價指標 ......................................94
3.8.2 HDFS 文件系統 ...........................95
3.8.3 NFS 文件系統 ..............................96
3.9 虛擬存儲技術 ......................................97
3.9.1 虛擬存儲的特點 ..........................98
3.9.2 虛擬存儲的應用 ..........................98
3.10 云存儲技術 ........................................99
3.10.1 云存儲原理 ................................99
3.10.2 網絡結構 ....................................99
3.10.3 云的分類 ....................................99
小結 .............................................................100
第 4 章 大數據抽取技術 ...................... 101
4.1 大數據抽取技術概述 .......................101
4.1.1 數據抽取的定義 ........................102
4.1.2 數據映射與數據遷移 ................102
4.1.3 數據抽取程序 ............................103
4.1.4 抽取、轉換和加載 ....................103
4.1.5 數據抽取方式 ............................104
4.2 增量數據抽取技術 ............................104
4.2.1 增量抽取的特點與策略 ............105
4.2.2 基于觸發器的增量抽取方式.............................................105
4.2.3 基于時間戳的增量抽取方式.............................................105
4.2.4 全表刪除插入方式 ..................106
4.2.5 全表比對抽取方式 ....................106
4.2.6 日志表方式 ................................107
4.2.7 系統日志分析方式 ....................107
4.2.8 各種數據抽取機制的比較與分析.........................................107
4.3 非結構化數據抽取 ............................109
4.3.1 非結構化數據類型 ....................109
4.3.2 非結構化數據模型 ....................109
4.3.3 非結構化數據組織 .................... 111
4.3.4 純文本抽取通用程序庫 ............ 112
4.4 基于 Hadoop 平臺的數據抽取 ......... 113
小結 ............................................................. 114
第 5 章 大數據清洗技術 .......................115
5.1 數據質量與數據清洗 ........................ 115
5.1.1 數據質量 .................................... 116
5.1.2 數據質量提高技術 .................... 118
5.1.3 數據清洗算法的標準 ................120
5.1.4 數據清洗的過程與模型 ............120
5.2 不完整數據清洗 ................................121
5.2.1 基本方法 ....................................121
5.2.2 基于 k-NN 近鄰缺失數據的填充算法.....................................123
5.3 異常數據清洗 ....................................124
5.3.1 異常值產生的原因 ....................125
5.3.2 統計方法 ....................................125
5.3.3 基于鄰近度的離群點檢測 ........126
5.4 重復數據清洗 ....................................127
5.4.1 使用字段相似度識別重復值算法.............................................127
5.4.2 搜索引擎快速去重算法 ............128
5.5 文本清洗 ............................................128
5.5.1 字符串匹配算法 ........................129
5.5.2 文本相似度度量 ........................131
5.5.3 文檔去重算法 ............................135
5.6 數據清洗的實現 ................................135
5.6.1 數據清洗的步驟 ........................135
5.6.2 基于 MapReduce 的大數據去重.............................................136
小結 .............................................................138
第 6 章 大數據去噪與標準化 ............... 139
6.1 基本的數據轉換方法 ........................139
6.1.1 對數轉換 ....................................139
6.1.2 平方根轉換 ................................140
6.1.3 平方轉換 ....................................140
6.1.4 倒數變換 ....................................140
6.2 數據平滑技術 ....................................140
6.2.1 移動平均法 ................................141
6.2.2 指數平滑法 ................................142
6.2.3 分箱平滑法 ................................146
6.3 數據規范化 ........................................148
6.3.1 zui小 - zui大規范化方法 ............148
6.3.2 z 分數規范化方法 ......................149
6.3.3 小數定標規范化方法 ................149
6.4 數據泛化處理 ....................................150
6.4.1 空間數據支配泛化算法 ............150
6.4.2 非空間數據支配泛化方法 ........151
6.4.3 統計信息網格方法 ....................151
小結 .............................................................151
第 7 章 大數據約簡與集成技術 ........... 152
7.1 數據約簡概述 ....................................153
7.1.1 數據約簡定義 ............................153
7.1.2 數據約簡方式 ............................153
7.2 特征約簡 ............................................153
7.2.1 特征提取 ....................................154
7.2.2 特征選擇 ....................................154
7.3 樣本約簡 ............................................155
7.3.1 簡單隨機抽樣 ............................155
7.3.2 系統抽樣 ....................................155
7.3.3 分層抽樣 ....................................155
7.4 數據立方體聚集 ................................155
7.4.1 多維性 ........................................156
7.4.2 數據聚集 ....................................156
7.5 維約簡 ................................................157
7.5.1 維約簡的目的 ............................157
7.5.2 維約簡的基本策略 ....................158
7.5.3 維約簡的分類 ............................158
7.6 屬性子集選擇算法 ............................159
7.6.1 逐步向前選擇屬性 ....................159
7.6.2 逐步向后刪除屬性 ....................159
7.6.3 混合式選擇 ...............................159
7.6.4 判定樹歸納 ................................159
7.7 數據壓縮 ............................................160
7.7.1 離散小波變換方法 ....................160
7.7.2 主成分分析壓縮方法 ................161
7.8 數值約簡 ............................................162
7.8.1 有參數值約簡 ............................162
7.8.2 無參數值約簡 ............................162
7.9 數據集成的概念與相關問題 ............163
7.9.1 數據集成的核心問題 ................165
7.9.2 數據集成的分類 ........................166
7.10 數據遷移 ..........................................168
7.10.1 在組織內部移動數據 ..............169
7.10.2 非結構化數據集成 ..................169
7.10.3 將處理移動到數據端 ..............170
7.11 數據集成模式 ..................................171
7.11.1 聯邦數據庫集成模式 ...............171
7.11.2 中間件集成模式 ......................172
7.11.3 數據倉庫集成模式 ..................173
7.12 數據集成系統 ..................................173
7.12.1 全局模式 ..................................174
7.12.2 語義映射 ..................................175
7.12.3 查詢重寫 ..................................175
7.13 數據聚類集成 ..................................175
7.13.1 數據聚類集成概述 ..................175
7.13.2 高維數據聚類集成 ..................176
小結 .............................................................178
第 8 章 大數據分析與挖掘技術 ........... 179
8.1 大數據分析概述 ................................180
8.1.1 大數據分析的類型 ...................180
8.1.2 數字特征 ....................................182
8.1.3 統計方法論 ...............................184
8.1.4 模型與構建 ................................186
8.1.5 R 語言 .........................................186
8.2 統計分析方法 ....................................188
8.2.1 基本方法 ...................................188
8.2.2 常用分析方法 ............................194
8.3 數據挖掘理論基礎 ............................ 211
8.3.1 數據挖掘是面向應用的技術 .... 211
8.3.2 數據挖掘的理論基礎 ................212
8.3.3 基于數據存儲方式的數據挖掘.............................................212
8.4 關聯規則挖掘 ....................................214
8.4.1 頻繁項目集生成算法 ................215
8.4.2 關聯規則挖掘質量 ....................217
8.5 分類方法 ............................................218
8.5.1 基于距離的分類算法 ................219
8.5.2 KNN 算法的 MapReduce實現 ............................................220
8.5.3 決策樹分類方法 ........................220
8.6 聚類方法 ............................................223
8.6.1 聚類定義與分類 ........................223
8.6.2 距離與相似性的度量 ................225
8.6.3 劃分聚類方法 ............................226
8.6.4 層次聚類方法 ............................228
8.7 序列模式挖掘與文本數據挖掘 ........229
8.7.1 時間序列預測的常用方法 ........229
8.7.2 序列模式挖掘 ............................230
8.8 非結構化文本數據挖掘 ....................231
8.8.1 用戶反饋文本 ............................232
8.8.2 用戶反饋文本挖掘的一般過程 ............................................232
8.8.3 文本的自然語言處理 ...............234
8.9 基于 MapReduce 的分析與挖掘實例 ....................................................235
8.9.1 大數據平均值計算 ....................235
8.9.2 大數據排序 ................................236
8.9.3 倒排索引 ....................................237
小結 .............................................................241
第 9 章 大數據分析結果解釋與展現 .... 242
9.1 數據分析結果解釋的目的與內容 ....243
9.1.1 解釋的目的 ................................243
9.1.2 檢查和驗證假設 ........................243
9.1.3 追蹤分析過程 ............................244
9.2 數據的基本展現方式 ........................245
9.2.1 基于時間變化的可視化展現 ....245
9.2.2 由大及小的可視化展現 ............245
9.2.3 由小及大的可視化展現 ............246
9.2.4 突出對比的可視化展現 ............246
9.2.5 地域空間可視化展現 ................246
9.2.6 概念可視化展現 ........................248
9.2.7 氣泡圖可視化展現 ....................248
9.2.8 注重交叉點的數據可視化展現 ............................................248
9.2.9 剖析原因的數據可視化展現 ....248
9.2.10 描繪出異常值的可視化展現 ..........................................249
9.3 大數據可視化 ....................................249
9.3.1 文本可視化 ................................249
9.3.2 網絡(圖)可視化 ....................250
9.3.3 時空數據可視化 ........................252
9.3.4 多維數據可視化 ........................252
9.4 大數據可視分析 ................................253
9.4.1 可視分析的理論基礎 ................254
9.4.2 大數據可視分析技術 ................257
9.5 數據可視化實現 ................................260
小結 .............................................................262
參考文獻 ............................................... 263
?
大數據技術概論 作者簡介
陳明,國內計算機科學領域資深專家,曾任大連理工大學計算機科學與工程系教授、系主任,中國石油大學(北京)計算機科學與技術系教授、系主任。中國計算機學會理事、中國人工智能學會理事、中國人工智能學會智能信息網專委會副主任。全國高校計算機基礎教育研究會常務理事、教育部IT&AT 教育工程專家組成員。
- >
史學評論
- >
【精裝繪本】畫給孩子的中國神話
- >
巴金-再思錄
- >
姑媽的寶刀
- >
羅曼·羅蘭讀書隨筆-精裝
- >
我與地壇
- >
經典常談
- >
我從未如此眷戀人間