-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據分析原理與實踐 版權信息
- ISBN:9787111569435
- 條形碼:9787111569435 ; 978-7-111-56943-5
- 裝幀:暫無
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
大數據分析原理與實踐 本書特色
本書介紹了大數據分析的多種模型、所涉及的算法和技術、實現大數據分析系統所需的工具以及大數據分析的具體應用。本書共16章。第1章為緒論,就大數據、大數據分析等概念進行了闡釋,并對本書內容進行了概述;第2~7章介紹了關聯分析模型、分類分析模型、聚類分析模型、結構分析模型和文本分析模型;第8章介紹大數據分析的數據預處理問題;第9章介紹降維方法;第10章介紹了數據倉庫的概念、內涵、組成、體系結構和建立方法,還介紹了分布式數據倉庫系統和內存數據倉庫系統。第11章介紹大數據分析算法中的回歸算法、關聯規則挖掘算法、分類算法以及聚類算法的實現。第12~14章介紹了三種用于實現大數據分析算法的平臺,即并行計算平臺、流式計算平臺和大圖分析平臺。第15章和第16章介紹兩類大數據分析的具體應用,分別講述了社會網絡分析和推薦系統。本書可作為高等院校大數據相關專業的教學用書,也可以作為從事大數據相關工作的工程技術人員的參考用書。
大數據分析原理與實踐 內容簡介
本書介紹了大數據分析的多種模型、所涉及的算法和技術、實現大數據分析系統所需的工具以及大數據分析的具體應用。本書共16章。第1章為緒論,就大數據、大數據分析等概念進行了闡釋,并對本書內容進行了概述;第2~7章介紹了關聯分析模型、分類分析模型、聚類分析模型、結構分析模型和文本分析模型;第8章介紹大數據分析的數據預處理問題;第9章介紹降維方法;第10章介紹了數據倉庫的概念、內涵、組成、體系結構和建立方法,還介紹了分布式數據倉庫系統和內存數據倉庫系統。第11章介紹大數據分析算法中的回歸算法、關聯規則挖掘算法、分類算法以及聚類算法的實現。第12~14章介紹了三種用于實現大數據分析算法的平臺,即并行計算平臺、流式計算平臺和大圖分析平臺。第15章和第16章介紹兩類大數據分析的具體應用,分別講述了社會網絡分析和推薦系統。本書可作為高等院校大數據相關專業的教學用書,也可以作為從事大數據相關工作的工程技術人員的參考用書。
大數據分析原理與實踐 目錄
序
前言
教學建議
第1章 緒論 1
1.1 什么是大數據 1
1.2 哪里有大數據 3
1.3 什么是大數據分析 4
1.4 大數據分析的過程、技術與難點 5
1.5 全書概覽 8
小結 10
習題 10
第2章 大數據分析模型 11
2.1 大數據分析模型建立方法 11
2.2 基本統計量 13
2.2.1 全表統計量 14
2.2.2 皮爾森相關系數 15
2.3 推斷統計 16
2.3.1 參數估計 16
2.3.2 假設檢驗 20
2.3.3 假設檢驗的阿里云實現 23
小結 28
習題 28
第3章 關聯分析模型 30
3.1 回歸分析 31
3.1.1 回歸分析概述 31
3.1.2 回歸模型的拓展 35
3.1.3 回歸的阿里云實現 43
3.2 關聯規則分析 52
3.3 相關分析 54
小結 57
習題 58
第4章 分類分析模型 60
4.1 分類分析的定義 60
4.2 判別分析的原理和方法 61
4.2.1 距離判別法 61
4.2.2 Fisher判別法 64
4.2.3 貝葉斯判別法 67
4.3 基于機器學習分類的模型 71
4.3.1 支持向量機 72
4.3.2 邏輯回歸 74
4.3.3 決策樹與回歸樹 75
4.3.4 k近鄰 78
4.3.5 隨機森林 78
4.3.6 樸素貝葉斯 81
4.4 分類分析實例 82
4.4.1 二分類實例 82
4.4.2 多分類實例 94
小結 101
習題 102
第5章 聚類分析模型 105
5.1 聚類分析的定義 105
5.1.1 基于距離的親疏關系度量 105
5.1.2 基于相似系數的相似性度量 108
5.1.3 個體與類以及類間的親疏關系度量 110
5.1.4 變量的選擇與處理 111
5.2 聚類分析的分類 111
5.3 聚類有效性的評價 112
5.4 聚類分析方法概述 112
5.5 聚類分析的應用 113
5.6 聚類分析的阿里云實現 114
小結 119
習題 119
第6章 結構分析模型 122
6.1 *短路徑 122
6.2 鏈接排名 123
6.3 結構計數 125
6.4 結構聚類 126
6.5 社團發現 128
6.5.1 社團的定義 128
6.5.2 社團的分類 128
6.5.3 社團的用途 128
6.5.4 社團的數學定義 128
6.5.5 基于阿里云的社團發現 130
小結 132
習題 133
第7章 文本分析模型 135
7.1 文本分析模型概述 135
7.2 文本分析方法概述 136
7.2.1 SplitWord 136
7.2.2 詞頻統計 137
7.2.3 TF-IDF 138
7.2.4 PLDA 140
7.2.5 Word2Vec 147
小結 148
習題 149
第8章 大數據分析的數據預處理 150
8.1 數據抽樣和過濾 150
8.1.1 數據抽樣 150
8.1.2 數據過濾 154
8.1.3 基于阿里云的抽樣和過濾實現 154
8.2 數據標準化與歸一化 157
8.3 數據清洗 159
8.3.1 數據質量概述 159
8.3.2 缺失值填充 160
8.3.3 實體識別與真值發現 162
8.3.4 錯誤發現與修復 169
小結 171
習題 171
第9章 降維 173
9.1 特征工程 173
9.1.1 特征工程概述 173
9.1.2 特征變換 175
9.1.3 特征選擇 178
9.1.4 特征重要性評估 183
9.2 主成分分析 191
9.2.1 什么是主成分分析 191
9.2.2 主成分分析的計算過程 192
9.2.3 基于阿里云的主成分分析 194
9.2.4 主成分的表現度量 195
9.3 因子分析 196
9.3.1 因子分析概述 196
9.3.2 因子分析的主要分析指標 196
9.3.3 因子分析的計算方法 197
9.4 壓縮感知 203
9.4.1 什么是壓縮感知 203
9.4.2 壓縮感知的具體模型 204
9.5 面向神經網絡的降維 205
9.5.1 面向神經網絡的降維方法概述 205
9.5.2 如何利用神經網絡降維 206
9.6 基于特征散列的維度縮減 207
9.6.1 特征散列方法概述 207
9.6.2 特征散列算法 207
9.7 基于Lasso算法的降維 208
9.7.1 Lasso方法簡介 208
9.7.2 Lasso方法 209
9.7.3 Lasso算法的適用情景 211
小結 211
習題 212
第10章 面向大數據的數據倉庫系統 214
10.1 數據倉庫概述 214
10.1.1 數據倉庫的基本概念 214
10.1.2 數據倉庫的內涵 215
10.1.3 數據倉庫的基本組成 215
10.1.4 數據倉庫系統的體系結構 216
10.1.5 數據倉庫的建立 217
10.2 分布式數據倉庫系統 221
10.2.1 基于Hadoop的數據倉庫系統 221
10.2.2 Shark:基于Spark的數據倉庫系統 227
10.2.3 Mesa 228
10.3 內存數據倉庫系統 231
10.3.1 SAP HANA 231
10.3.2 HyPer 234
10.4 阿里云數據倉庫簡介 236
小結 238
習題 239
第11章 大數據分析算法 240
11.1 大數據分析算法概述 240
11.2 回歸算法 242
11.3 關聯規則挖掘算法 248
11.4 分類算法 255
11.4.1 二分類算法 256
11.4.2 多分類算法 273
11.5 聚類算法 283
11.5.1 k-means算法 283
11.5.2 CLARANS算法 291
小結 293
習題 293
第12章 大數據計算平臺 295
12.1 Spark 295
12.1.1 Spark簡介 295
12.1.2 基于Spark的大數據分析實例 296
12.2 Hyracks 299
12.2.1 Hyracks簡介 299
12.2.2 基于Hyracks的大數據分析實例 299
12.3 DPark
大數據分析原理與實踐 作者簡介
王宏志,博士,博士生導師,哈爾濱工業大學計算機科學與技術學院副教授,中國計算機學會高級會員,YOCSEF黑龍江省分論壇AC。2008年7月在哈爾濱工業大學計算機軟件與理論學科獲得博士學位,博士論文獲得“中國計算機學博士論文”和“哈爾濱工業大學博士論文”。研究方向包括XML數據管理、圖數據管理、數據質量、信息集成等。先后被評為“微軟學者”、“中國數據庫工程師”和“IBM博士英才”。曾先后擔任全國數據庫會議等多個學術會議的程序委員會委員和IEEE TKDE等多個重要國際期刊的審稿人。
- >
史學評論
- >
李白與唐代文化
- >
小考拉的故事-套裝共3冊
- >
有舍有得是人生
- >
我從未如此眷戀人間
- >
上帝之肋:男人的真實旅程
- >
伊索寓言-世界文學名著典藏-全譯本
- >
煙與鏡