中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >
Spark機(jī)器學(xué)習(xí)實(shí)戰(zhàn)

包郵 Spark機(jī)器學(xué)習(xí)實(shí)戰(zhàn)

出版社:人民郵電出版社出版時(shí)間:2020-09-01
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 520
中 圖 價(jià):¥80.6(6.3折) 定價(jià)  ¥128.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車(chē) 收藏
開(kāi)年大促, 全場(chǎng)包郵
?新疆、西藏除外
本類五星書(shū)更多>

Spark機(jī)器學(xué)習(xí)實(shí)戰(zhàn) 版權(quán)信息

Spark機(jī)器學(xué)習(xí)實(shí)戰(zhàn) 本書(shū)特色

1.機(jī)器學(xué)習(xí)算法的學(xué)習(xí)能力已經(jīng)催生了非常廣泛的應(yīng)用,比如我們?nèi)粘=佑|到的產(chǎn)品推薦和垃圾郵件過(guò)濾,甚至還有自動(dòng)駕駛和個(gè)性化醫(yī)療等應(yīng)用。2.Spark非常適合用于大規(guī)模的機(jī)器學(xué)習(xí)任務(wù),它是一種彈性集群計(jì)算系統(tǒng)。3.本書(shū)提供了Apache Spark機(jī)器學(xué)習(xí)API的全面解決方案,不僅介紹了用Spark完成機(jī)器學(xué)習(xí)任務(wù)所需的基礎(chǔ)知識(shí),也涉及一些Spark機(jī)器學(xué)習(xí)的高級(jí)技能。4.本書(shū)步驟清晰,講解細(xì)致,適合讀者邊學(xué)邊做,快速掌握Spark編程技能。

Spark機(jī)器學(xué)習(xí)實(shí)戰(zhàn) 內(nèi)容簡(jiǎn)介

機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科,可以通過(guò)模擬來(lái)讓計(jì)算機(jī)獲取新的知識(shí)或技能。Apache Spark是一種通用大數(shù)據(jù)框架,也是一種近實(shí)時(shí)彈性分布式計(jì)算和數(shù)據(jù)虛擬化技術(shù),Spark使人們可以大規(guī)模使用機(jī)器學(xué)習(xí)技術(shù),而無(wú)須在專用數(shù)據(jù)中心或硬件上進(jìn)行大量投資。 本書(shū)提供了Apache Spark機(jī)器學(xué)習(xí)API的全面解決方案,不僅介紹了用Spark完成機(jī)器學(xué)習(xí)任務(wù)所需的基礎(chǔ)知識(shí),也涉及一些Spark機(jī)器學(xué)習(xí)的不錯(cuò)技能。全書(shū)共有13章,從環(huán)境配置講起,陸續(xù)介紹了線性代數(shù)庫(kù)、數(shù)據(jù)處理機(jī)制、構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)的常見(jiàn)攻略、回歸和分類、用Spark實(shí)現(xiàn)推薦引擎、無(wú)監(jiān)督學(xué)習(xí)、梯度下降算法、決策樹(shù)和集成模型、數(shù)據(jù)降維、文本分析和Spark Steaming的使用。 本書(shū)是為那些掌握了機(jī)器學(xué)習(xí)技術(shù)的Scala開(kāi)發(fā)人員準(zhǔn)備的,尤其適合缺乏Spark實(shí)踐經(jīng)驗(yàn)的讀者。本書(shū)假定讀者已經(jīng)掌握機(jī)器學(xué)習(xí)算法的基礎(chǔ)知識(shí),并且具有使用Scala實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的一些實(shí)踐經(jīng)驗(yàn)。但不要求讀者提前了解Spark ML庫(kù)及其生態(tài)系統(tǒng)。

Spark機(jī)器學(xué)習(xí)實(shí)戰(zhàn) 目錄

第 1章 Scala和Spark的機(jī)器學(xué)習(xí)實(shí)戰(zhàn) 1
1.1 引言 1
1.1.1 Apache Spark 2
1.1.2 機(jī)器學(xué)習(xí) 3
1.1.3 Scala 4
1.1.4 本書(shū)的軟件版本和使用的
類庫(kù) 5
1.2 下載和安裝JDK 6
1.2.1 準(zhǔn)備工作 6
1.2.2 操作步驟 6
1.3 下載和安裝IntelliJ 6
1.3.1 準(zhǔn)備工作 7
1.3.2 操作步驟 7
1.4 下載和安裝Spark 7
1.4.1 準(zhǔn)備工作 7
1.4.2 操作步驟 7
1.5 用IntelliJ配置Spark 8
1.5.1 準(zhǔn)備工作 8
1.5.2 操作步驟 8
1.5.3 更多 19
1.5.4 參考資料 19
1.6 運(yùn)行Spark機(jī)器學(xué)習(xí)示例代碼 20
1.6.1 準(zhǔn)備工作 20
1.6.2 操作步驟 20
1.7 獲取機(jī)器學(xué)習(xí)實(shí)戰(zhàn)所需的數(shù)據(jù)源 22
1.7.1 準(zhǔn)備工作 22
1.7.2 操作步驟 22
1.7.3 更多 23
1.8 用IntelliJ IDE運(yùn)行第 一個(gè)Apache Spark 2.0程序 25
1.8.1 操作步驟 25
1.8.2 工作原理 31
1.8.3 更多 31
1.8.4 參考資料 32
1.9 在Spark程序中添加圖表 32
1.9.1 操作步驟 32
1.9.2 工作原理 36
1.9.3 更多 37
1.9.4 參考資料 37
第 2章 Spark機(jī)器學(xué)習(xí)中的線性代數(shù)庫(kù) 38
2.1 引言 38
2.2 Vector和Matrix的包引入和初始化設(shè)置 40
2.2.1 操作步驟 40
2.2.2 更多 41
2.2.3 參考資料 42
2.3 用Spark 2.0創(chuàng)建和配置DenseVector 42
2.3.1 操作步驟 43
2.3.2 工作原理 43
2.3.3 更多 44
2.3.4 參考資料 45
2.4 用Spark 2.0創(chuàng)建和配置SparseVector 45
2.4.1 操作步驟 45
2.4.2 工作原理 47
2.4.3 更多 48
2.4.4 參考資料 48
2.5 用Spark 2.0創(chuàng)建和配置DenseMatrix 48
2.5.1 操作步驟 49
2.5.2 工作原理 50
2.5.3 更多 52
2.5.4 參考資料 52
2.6 用Spark 2.0的本地SparseMatrix 52
2.6.1 操作步驟 53
2.6.2 工作原理 55
2.6.3 更多 56
2.6.4 參考資料 57
2.7 用Spark 2.0進(jìn)行Vector運(yùn)算 57
2.7.1 操作步驟 57
2.7.2 工作原理 59
2.7.3 更多 60
2.7.4 參考資料 61
2.8 用Spark 2.0進(jìn)行Matrix運(yùn)算 61
2.8.1 操作步驟 61
2.8.2 工作原理 64
2.9 研究Spark 2.0分布式RowMatrix 66
2.9.1 操作步驟 67
2.9.2 工作原理 70
2.9.3 更多 71
2.9.4 參考資料 72
2.10 研究Spark 2.0分布式IndexedRowMatrix 72
2.10.1 操作步驟 72
2.10.2 工作原理 74
2.10.3 參考資料 75
2.11 研究Spark 2.0分布式CoordinateMatrix 75
2.11.1 操作步驟 75
2.11.2 工作原理 76
2.11.3 參考資料 77
2.12 研究Spark 2.0分布式BlockMatrix 77
2.12.1 操作步驟 78
2.12.2 工作原理 79
2.12.3 參考資料 79

第3章 Spark機(jī)器學(xué)習(xí)的三劍客 80
3.1 引言 81
3.1.1 RDD— 一切是從什么開(kāi)始 81
3.1.2 DataFrame—使用高級(jí)API統(tǒng)一API和SQL的自然演變 82
3.1.3 Dataset— 一個(gè)高級(jí)的統(tǒng)一數(shù)據(jù)API 83
3.2 用Spark 2.0的內(nèi)部數(shù)據(jù)源創(chuàng)建RDD 85
3.2.1 操作步驟 86
3.2.2 工作原理 88
3.3 用Spark 2.0的外部數(shù)據(jù)源創(chuàng)建RDD 88
3.3.1 操作步驟 88
3.3.2 工作原理 90
3.3.3 更多 90
3.3.4 參考資料 91
3.4 用Spark 2.0的filter() API轉(zhuǎn)換RDD 92
3.4.1 操作步驟 92
3.4.2 工作原理 95
3.4.3 更多 95
3.4.4 參考資料 95
3.5 用flatMap() API轉(zhuǎn)換RDD 96
3.5.1 操作步驟 96
3.5.2 工作原理 98
3.5.3 更多 98
3.5.4 參考資料 99
3.6 用集合操作API轉(zhuǎn)換RDD 99
3.6.1 操作步驟 99
3.6.2 工作原理 101
3.6.3 參考資料 101
3.7 用groupBy()和reduceByKey()函數(shù)對(duì)RDD轉(zhuǎn)換/聚合 102
3.7.1 操作步驟 102
3.7.2 工作原理 104
3.7.3 更多 104
3.7.4 參考資料 105
3.8 用zip() API轉(zhuǎn)換RDD 105
3.8.1 操作步驟 105
3.8.2 工作原理 107
3.8.3 參考資料 107
3.9 用paired鍵值RDD進(jìn)行關(guān)聯(lián)轉(zhuǎn)換 107
3.9.1 操作步驟 107
3.9.2 工作原理 110
3.9.3 更多 110
3.10 用paired鍵值RDD進(jìn)行匯總和分組轉(zhuǎn)換 110
3.10.1 操作步驟 110
3.10.2 工作原理 112
3.10.3 參考資料 112
3.11 根據(jù)Scala數(shù)據(jù)結(jié)構(gòu)創(chuàng)建DataFrame 112
3.11.1 操作步驟 113
3.11.2 工作原理 115
3.11.3 更多 115
3.11.4 參考資料 116
3.12 不使用SQL方式創(chuàng)建DataFrame 116
3.12.1 操作步驟 116
3.12.2 工作原理 120
3.12.3 更多 121
3.12.4 參考資料 121
3.13 根據(jù)外部源加載DataFrame和配置 121
3.13.1 操作步驟 121
3.13.2 工作原理 125
3.13.3 更多 125
3.13.4 參考資料 125
3.14 用標(biāo)準(zhǔn)SQL語(yǔ)言(即SparkSQL)創(chuàng)建DataFrame 126
3.14.1 操作步驟 126
3.14.2 工作原理 130
3.14.3 更多 130
3.14.4 參考資料 131
3.15 用Scala序列處理Dataset API 132
3.15.1 操作步驟 132
3.15.2 工作原理 135
3.15.3 更多 135
3.15.4 參考資料 135
3.16 根據(jù)RDD創(chuàng)建和使用Dataset,再反向操作 136
3.16.1 操作步驟 136
3.16.2 工作原理 140
3.16.3 更多 140
3.16.4 參考資料 140
3.17 用Dataset API和SQL一起處理JSON 140
3.17.1 操作步驟 141
3.17.2 工作原理 144
3.17.3 更多 144
3.17.4 參考資料 144
3.18 用領(lǐng)域?qū)ο髮?duì)Dataset API進(jìn)行函數(shù)式編程 145
3.18.1 操作步驟 145
3.18.2 工作原理 148
3.18.3 更多 149
3.18.4 參考資料 149
第4章 構(gòu)建一個(gè)穩(wěn)健的機(jī)器學(xué)習(xí)系統(tǒng)的常用攻略 150
4.1 引言 151
4.2 借助Spark的基本統(tǒng)計(jì)API構(gòu)建屬于自己的算法 151
4.2.1 操作步驟 151
4.2.2 工作原理 153
4.2.3 更多 153
4.2.4 參考資料 154
4.3 用于真實(shí)機(jī)器學(xué)習(xí)應(yīng)用的ML管道 154
4.3.1 操作步驟 154
4.3.2 工作原理 156
4.3.3 更多 157
4.3.4 參考資料 157
4.4 用Spark標(biāo)準(zhǔn)化數(shù)據(jù) 157
4.4.1 操作步驟 158
4.4.2 工作原理 160
4.4.3 更多 160
4.4.4 參考資料 161
4.5 將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集 161
4.5.1 操作步驟 161
4.5.2 工作原理 163
4.5.3 更多 163
4.5.4 參考資料 163
4.6 新Dataset API的常見(jiàn)操作 163
4.6.1 操作步驟 163
4.6.2 工作原理 166
4.6.3 更多 166
4.6.4 參考資料 167
4.7 在Spark 2.0中從文本文件創(chuàng)建和使用RDD、DataFrame和Dataset 167
4.7.1 操作步驟 167
4.7.2 工作原理 170
4.7.3 更多 170
4.7.4 參考資料 171
4.8 Spark ML的LabeledPoint數(shù)據(jù)結(jié)構(gòu) 171
4.8.1 操作步驟 171
4.8.2 工作原理 173
4.8.3 更多 173
4.8.4 參考資料 174
4.9 用Spark 2.0訪問(wèn)Spark集群 174
4.9.1 操作步驟 174
4.9.2 工作原理 176
4.9.3 更多 176
4.9.4 參考資料 177
4.10 用Spark 2.0之前的版本訪問(wèn)Spark集群 178
4.10.1 操作步驟 178
4.10.2 工作原理 180
4.10.3 更多 180
4.10.4 參考資料 180
4.11 在Spark 2.0中使用SparkSession對(duì)象訪問(wèn)SparkContext 180
4.11.1 操作步驟 181
4.11.2 工作原理 184
4.11.3 更多 184
4.11.4 參考資料 184
4.12 Spark 2.0中的新模型導(dǎo)出及PMML標(biāo)記 185
4.12.1 操作步驟 185
4.12.2 工作原理 188
4.12.3 更多 188
4.12.4 參考資料 189
4.13 用Spark 2.0進(jìn)行回歸模型評(píng)估 189
4.13.1 操作步驟 189
4.13.2 工作原理 191
4.13.3 更多 191
4.13.4 參考資料 192
4.14 用Spark 2.0進(jìn)行二分類模型評(píng)估 192
4.14.1 操作步驟 192
4.14.2 工作原理 196
4.14.3 更多 196
4.14.4 參考資料 196
4.15 用Spark 2.0進(jìn)行多類分類模型評(píng)估 197
4.15.1 操作步驟 197
4.15.2 工作原理 200
4.15.3 更多 200
4.15.4 參考資料 201
4.16 用Spark 2.0進(jìn)行多標(biāo)簽分類模型評(píng)估 201
4.16.1 操作步驟 201
4.16.2 工作原理 203
4.16.3 更多 203
4.16.4 參考資料 204
4.17 在Spark 2.0中使用Scala Breeze庫(kù)處理圖像 204
4.17.1 操作步驟 204
4.17.2 工作原理 207
4.17.3 更多 207
4.17.4 參考資料 208
第5章 使用Spark 2.0實(shí)踐機(jī)器學(xué)習(xí)中的回歸和分類——第 一部分 209
5.1 引言 209
5.2 用傳統(tǒng)方式擬合一條線性回歸直線 211
5.2.1 操作步驟 211
5.2.2 工作原理 214
5.2.3 更多 215
5.2.4 參考資料 215
5.3 Spark 2.0中的廣義線性回歸 216
5.3.1 操作步驟 216
5.3.2 工作原理 219
5.3.3 更多 219
5.3.4 參考資料 220
5.4 Spark 2.0中Lasso和L-BFGS的線性回歸API 221
5.4.1 操作步驟 221
5.4.2 工作原理 224
5.4.3 更多 225
5.4.4 參考資料 225
5.5 Spark 2.0中Lasso和自動(dòng)優(yōu)化選擇的線性回歸API 226
5.5.1 操作步驟 226
5.5.2 工作原理 229
5.5.3 更多 229
5.5.4 參考資料 230
5.6 Spark 2.0中嶺回歸和自動(dòng)優(yōu)化選擇的線性回歸API 230
5.6.1 操作步驟 230
5.6.2 工作原理 233
5.6.3 更多 233
5.6.4 參考資料 233
5.7 Spark 2.0中的保序回歸 233
5.7.1 操作步驟 234
5.7.2 工作原理 236
5.7.3 更多 237
5.7.4 參考資料 237
5.8 Spark 2.0中的多層感知機(jī)分類器 238
5.8.1 操作步驟 238
5.8.2 工作原理 241
5.8.3 更多 242
5.8.4 參考資料 243
5.9 Spark 2.0中的一對(duì)多分類器 244
5.9.1 操作步驟 244
5.9.2 工作原理 247
5.9.3 更多 247
5.9.4 參考資料 248
5.10 Spark 2.0中的生存回歸—參數(shù)化的加速失效時(shí)間模型 248
5.10.1 操作步驟 249
5.10.2 工作原理 252
5.10.3 更多 253
5.10.4 參考資料 254
第6章 用Spark 2.0實(shí)踐機(jī)器學(xué)習(xí)中的回歸和分類——第二部分 255
6.1 引言 255
6.2 Spark 2.0使用SGD優(yōu)化的線性回歸 257
6.2.1 操作步驟 257
6.2.2 工作原理 260
6.2.3 更多 261
6.2.4 參考資料 261
6.3 Spark 2.0使用SGD優(yōu)化的邏輯回歸 262
6.3.1 操作步驟 262
6.3.2 工作原理 266
6.3.3 更多 267
6.3.4 參考資料 268
6.4 Spark 2.0使用SGD優(yōu)化的嶺回歸 268
6.4.1 操作步驟 268
6.4.2 工作原理 272
6.4.3 更多 273
6.4.4 參考資料 274
6.5 Spark 2.0使用SGD優(yōu)化的Lasso回歸 274
6.5.1 操作步驟 274
6.5.2 工作原理 277
6.5.3 更多 278
6.5.4 參考資料 279
6.6 Spark 2.0使用L-BFGS優(yōu)化的邏輯回歸 279
6.6.1 操作步驟 279
6.6.2 工作原理 282
6.6.3 更多 283
6.6.4 參考資料 283
6.7 Spark 2.0的支持向量機(jī)(SVM) 283
6.7.1 操作步驟 284
6.7.2 工作原理 287
6.7.3 更多 288
6.7.4 參考資料 289
6.8 Spark 2.0使用MLlib庫(kù)的樸素貝葉斯分類器 289
6.8.1 操作步驟 289
6.8.2 工作原理 294
6.8.3 更多 294
6.8.4 參考資料 294
6.9 Spark 2.0使用邏輯回歸研究ML管道和DataFrame 295
6.9.1 操作步驟 295
6.9.2 工作原理 302
6.9.3 更多 302
6.9.4 參考資料 303
第7章 使用Spark實(shí)現(xiàn)大規(guī)模的推薦引擎 304
7.1 引言 304
7.1.1 內(nèi)容過(guò)濾 306
7.1.2 協(xié)同過(guò)濾 306
7.1.3 近鄰方法 306
7.1.4 隱因子模型技術(shù) 306
7.2 用Spark 2.0生成可擴(kuò)展推薦引擎所需的數(shù)據(jù) 307
7.2.1 操作步驟 307
7.2.2 工作原理 308
7.2.3 更多 308
7.2.4 參考資料 309
7.3 用Spark 2.0研究推薦系統(tǒng)的電影數(shù)據(jù) 309
7.3.1 操作步驟 310
7.3.2 工作原理 313
7.3.3 更多 313
7.3.4 參考資料 313
7.4 用Spark 2.0研究推薦系統(tǒng)的評(píng)分?jǐn)?shù)據(jù) 314
7.4.1 操作步驟 314
7.4.2 工作原理 317
7.4.3 更多 318
7.4.4 參考資料 318
7.5 用Spark 2.0和協(xié)同過(guò)濾構(gòu)建可擴(kuò)展的推薦引擎 318
7.5.1 操作步驟 318
7.5.2 工作原理 324
7.5.3 更多 326
7.5.4 參考資料 327
7.5.5 在訓(xùn)練過(guò)程中處理隱式的輸入數(shù)據(jù) 327
第8章 Spark 2.0的無(wú)監(jiān)督聚類算法 329
8.1 引言 329
8.2 用Spark 2.0構(gòu)建KMeans分類系統(tǒng) 331
8.2.1 操作步驟 331
8.2.2 工作原理 334
8.2.3 更多 337
8.2.4 參考資料 337
8.3 介紹Spark 2.0中的新算法,二分KMeans 337
8.3.1 操作步驟 338
8.3.2 工作原理 342
8.3.3 更多 342
8.3.4 參考資料 343
8.4 在Spark 2.0中使用高斯混合和期望*大化(EM)對(duì)數(shù)據(jù)分類 343
8.4.1 操作步驟 343
8.4.2 工作原理 347
8.4.3 更多 348
8.4.4 參考資料 349
8.5 在Spark 2.0中使用冪迭代聚類(PIC)對(duì)圖中節(jié)點(diǎn)進(jìn)行分類 349
8.5.1 操作步驟 349
8.5.2 工作原理 352
8.5.3 更多 353
8.5.4 參考資料 353
8.6 用隱狄利克雷分布(LDA)將文檔和文本劃分為不同主題 353
8.6.1 操作步驟 354
8.6.2 工作原理 357
8.6.3 更多 358
8.6.4 參考資料 359
8.7 用Streaming KMeans實(shí)現(xiàn)近實(shí)時(shí)的數(shù)據(jù)分類 359
8.7.1 操作步驟 359
8.7.2 工作原理 363
8.7.3 更多 364
8.7.4 參考資料 365
第9章 *優(yōu)化——用梯度下降法尋找*小值 366
9.1 引言 366
9.2 優(yōu)化二次損失函數(shù),使用數(shù)學(xué)方法尋找*小值進(jìn)行分析 369
9.2.1 操作步驟 369
9.2.2 工作原理 372
9.2.3 更多 372
9.2.4 參考資料 372
9.3 用梯度下降法(GD)編碼實(shí)現(xiàn)二次損失函數(shù)的優(yōu)化過(guò)程 373
9.3.1 操作步驟 374
9.3.2 工作原理 377
9.3.3 更多 380
9.3.4 參考資料 382
9.4 用梯度下降優(yōu)化算法解決線性回歸問(wèn)題 383
9.4.1 操作步驟 383
9.4.2 工作原理 391
9.4.3 更多 393
9.4.4 參考資料 393
9.5 在Spark 2.0中使用正規(guī)方程法解決線性回歸問(wèn)題 393
9.5.1 操作步驟 394
9.5.2 工作原理 396
9.5.3 更多 396
9.5.4 參考資料 396
第 10章 使用決策樹(shù)和集成模型構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng) 397
10.1 引言 397
10.1.1 集成方法 399
10.1.2 不純度的度量 401
10.2 獲取和預(yù)處理實(shí)際的醫(yī)療數(shù)據(jù),在Spark 2.0中研究決策樹(shù)和集成模型 404
10.2.1 操作步驟 404
10.2.2 工作原理 406
10.3 用Spark 2.0的決策樹(shù)構(gòu)建分類系統(tǒng) 406
10.3.1 操作步驟 407
10.3.2 工作原理 411
10.3.3 更多 411
10.3.4 參考資料 412
10.4 用Spark 2.0的決策樹(shù)解決回歸問(wèn)題 412
10.4.1 操作步驟 412
10.4.2 工作原理 416
10.4.3 參考資料 417
10.5 用Spark 2.0的隨機(jī)森林構(gòu)建分類系統(tǒng) 417
10.5.1 操作步驟 417
10.5.2 工作原理 420
10.5.3 參考資料 421
10.6 用Spark 2.0的隨機(jī)森林解決回歸問(wèn)題 421
10.6.1 操作步驟 421
10.6.2 工作原理 425
10.6.3 參考資料 425
10.7 用Spark 2.0的梯度提升樹(shù)(GBR)構(gòu)建分類系統(tǒng) 425
10.7.1 操作步驟 425
10.7.2 工作原理 428
10.7.3 更多 429
10.7.4 參考資料 429
10.8 用Spark 2.0的梯度提升樹(shù)(GBT)解決回歸問(wèn)題 429
10.8.1 操作步驟 429
10.8.2 工作原理 432
10.8.3 更多 433
10.8.4 參考資料 433
第 11章 大數(shù)據(jù)中的高維災(zāi)難 434
11.1 引言 434
11.2 Spark提取和準(zhǔn)備CSV文件的2種處理方法 438
11.2.1 操作步驟 438
11.2.2 工作原理 441
11.2.3 更多 442
11.2.4 參考資料 442
11.3 Spark使用奇異值分解(SVD)對(duì)高維數(shù)據(jù)降維 442
11.3.1 操作步驟 443
11.3.2 工作原理 448
11.3.3 更多 449
11.3.4 參考資料 450
11.4 Spark使用主成分分析(PCA)為機(jī)器學(xué)習(xí)挑選*有效的
潛在因子 450
11.4.1 操作步驟 451
11.4.2 工作原理 455
11.4.3 更多 458
11.4.4 參考資料 458
第 12章 使用Spark 2.0 ML庫(kù)實(shí)現(xiàn)文本分析 459
12.1 引言 459
12.2 用Spark統(tǒng)計(jì)詞頻 462
12.2.1 操作步驟 462
12.2.2 工作原理 465
12.2.3 更多 465
12.2.4 參考資料 465
12.3 用Spark和Word2Vec查找相似詞 465
12.3.1 操作步驟 466
12.3.2 工作原理 468
12.3.3 更多 468
12.3.4 參考資料 469
12.4 構(gòu)建真實(shí)的Spark機(jī)器學(xué)習(xí)項(xiàng)目 469
12.4.1 操作步驟 469
12.4.2 更多 471
12.4.3 參考資料 471
12.5 用Spark 2.0和潛在語(yǔ)義分析實(shí)現(xiàn)文本分析 472
12.5.1 操作步驟 472
12.5.2 工作原理 476
12.5.3 更多 476
12.5.4 參考資料 477
12.6 用Spark 2.0和潛在狄利克雷實(shí)現(xiàn)主題模型 477
12.6.1 操作步驟 477
12.6.2 工作原理 481
12.6.3 更多 481
12.6.4 參考資料 482
第 13章 Spark Streaming和機(jī)器學(xué)習(xí)庫(kù) 483
13.1 引言 483
13.2 用于近實(shí)時(shí)機(jī)器學(xué)習(xí)的structured streaming 487
13.2.1 操作步驟 487
13.2.2 工作原理 490
13.2.3 更多 491
13.2.4 參考資料 491
13.3 用于實(shí)時(shí)機(jī)器學(xué)習(xí)的流式DataFrame 492
13.3.1 操作步驟 492
13.3.2 工作原理 494
13.3.3 更多 494
13.3.4 參考資料 494
13.4 用于實(shí)時(shí)機(jī)器學(xué)習(xí)的流式Dataset 494
13.4.1 操作步驟 495
13.4.2 工作原理 497
13.4.3 更多 497
13.4.4 參考資料 498
13.5 流式數(shù)據(jù)和用于調(diào)試的queueStream 498
13.5.1 操作步驟 498
13.5.2 工作原理 501
13.5.3 參考資料 502
13.6 下載并熟悉著名的Iris數(shù)據(jù),用于無(wú)監(jiān)督分類 502
13.6.1 操作步驟 502
13.6.2 工作原理 503
13.6.3 更多 503
13.6.4 參考資料 504
13.7 用于實(shí)時(shí)在線分類器的流式KMeans 504
13.7.1 操作步驟 504
13.7.2 工作原理 508
13.7.3 更多 508
13.7.4 參考資料 508
13.8 下載葡萄酒質(zhì)量數(shù)據(jù),用于流式回歸 509
13.8.1 操作步驟 509
13.8.2 工作原理 509
13.8.3 更多 510
13.9 用于實(shí)時(shí)回歸的流式線性回歸 510
13.9.1 操作步驟 510
13.9.2 參考資料 514
13.9.3 更多 514
13.9.4 參考資料 514
13.10 下載Pima糖尿病數(shù)據(jù),用于監(jiān)督分類 514
13.10.1 操作步驟 515
13.10.2 工作原理 515
13.10.3 更多 516
13.10.4 參考資料 516
13.11 用于在線分類器的流式邏輯回歸 516
13.11.1 操作步驟 516
13.11.2 工作原理 519
13.11.3 更多 520
13.11.4 參考資料 520
展開(kāi)全部

Spark機(jī)器學(xué)習(xí)實(shí)戰(zhàn) 作者簡(jiǎn)介

西亞瑪克·阿米爾霍吉(Siamak Amirghodsi)是***的高級(jí)技術(shù)執(zhí)行主管,在大數(shù)據(jù)戰(zhàn)略、云計(jì)算、定量風(fēng)險(xiǎn)管理、高級(jí)分析、大規(guī)模監(jiān)管數(shù)據(jù)平臺(tái)、企業(yè)架構(gòu)、技術(shù)路線圖、多項(xiàng)目執(zhí)行等領(lǐng)域具有豐富的企業(yè)管理經(jīng)驗(yàn),而且入選了《財(cái)富》全球二十大人物。明那什·拉杰德蘭(Meenakshi Rajendran)是一位大數(shù)據(jù)分析和數(shù)據(jù)管理經(jīng)理,在大規(guī)模數(shù)據(jù)平臺(tái)和機(jī)器學(xué)習(xí)方面非常專業(yè),在全球技術(shù)人才圈中也非常出類拔萃。她為**金融機(jī)構(gòu)提供一整套全面的數(shù)據(jù)分析和數(shù)據(jù)科學(xué)服務(wù),經(jīng)驗(yàn)非常豐富。Meenakshi擁有企業(yè)管理碩士學(xué)位,獲得PMP認(rèn)證,在全球軟件交付行業(yè)擁有十幾年的經(jīng)驗(yàn),不僅了解大數(shù)據(jù)和數(shù)據(jù)科學(xué)技術(shù)的基礎(chǔ)知識(shí),而且對(duì)人性也有很深刻的理解。布羅德里克·霍爾(Broderick Hall)是一位大數(shù)據(jù)分析專家,擁有計(jì)算機(jī)科學(xué)碩士學(xué)位,在設(shè)計(jì)和開(kāi)發(fā)大規(guī)模的實(shí)時(shí)性和符合制度要求的復(fù)雜企業(yè)軟件應(yīng)用程序方面擁有20多年的經(jīng)驗(yàn)。曾經(jīng)為美國(guó)的一些**金融機(jī)構(gòu)和交易所設(shè)計(jì)和構(gòu)建實(shí)時(shí)金融應(yīng)用程序,在這些方面擁有豐富的經(jīng)驗(yàn)。此外,他還是深度學(xué)習(xí)的早期開(kāi)拓者,目前正在開(kāi)發(fā)具有深度學(xué)習(xí)網(wǎng)絡(luò)擴(kuò)展功能的大規(guī)模基于云的數(shù)據(jù)平臺(tái)。肖恩·梅(Shuen Mei)是一位大數(shù)據(jù)分析平臺(tái)專家,在金融服務(wù)行業(yè)已經(jīng)從業(yè)超過(guò)15年,在設(shè)計(jì)、構(gòu)建和執(zhí)行具有關(guān)鍵任務(wù)、低延遲要求的大型企業(yè)分布式財(cái)務(wù)系統(tǒng)方面具有豐富的經(jīng)驗(yàn)。目前已通過(guò)Apache Spark、Cloudera大數(shù)據(jù)平臺(tái)(包括Developer、Admin和HBase)的認(rèn)證。

暫無(wú)評(píng)論……
書(shū)友推薦
本類暢銷(xiāo)
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 上海网站建设-上海网站制作-上海网站设计-上海做网站公司-咏熠软件 | 生产自动包装秤_颗粒包装秤_肥料包装秤等包装机械-郑州鑫晟重工科技有限公司 | 安德建奇火花机-阿奇夏米尔慢走丝|高维|发那科-北京杰森柏汇 | 聚氨酯复合板保温板厂家_廊坊华宇创新科技有限公司 | 直读光谱仪,光谱分析仪,手持式光谱仪,碳硫分析仪,创想仪器官网 | 低温柔性试验仪-土工布淤堵-沥青车辙试验仪-莱博特(天津)试验机有限公司 | TPE塑胶原料-PPA|杜邦pom工程塑料、PPSU|PCTG材料、PC/PBT价格-悦诚塑胶 | 重庆磨床过滤机,重庆纸带过滤机,机床伸缩钣金,重庆机床钣金护罩-重庆达鸿兴精密机械制造有限公司 | 一体化净水器_一体化净水设备_一体化水处理设备-江苏旭浩鑫环保科技有限公司 | 成都软件开发_OA|ERP|CRM|管理系统定制开发_成都码邻蜀科技 | 谈股票-今日股票行情走势分析-牛股推荐排行榜 | 集菌仪_智能集菌仪_全封闭集菌仪_无菌检查集菌仪厂家-那艾 | 【星耀裂变】_企微SCRM_任务宝_视频号分销裂变_企业微信裂变增长_私域流量_裂变营销 | 钢制暖气片散热器_天津钢制暖气片_卡麦罗散热器厂家 | 武汉高低温试验箱_恒温恒湿试验箱厂家-武汉蓝锐环境科技有限公司 | 碳纤维布-植筋胶-灌缝胶-固特嘉加固材料公司 | 深圳工程师职称评定条件及流程_深圳职称评审_职称评审-职称网 | LED显示屏_LED屏方案设计精准报价专业安装丨四川诺显科技 | 股指期货-期货开户-交易手续费佣金加1分-保证金低-期货公司排名靠前-万利信息开户 | 慈溪麦田广告公司,提供慈溪广告设计。 | 中空玻璃生产线,玻璃加工设备,全自动封胶线,铝条折弯机,双组份打胶机,丁基胶/卧式/立式全自动涂布机,玻璃设备-山东昌盛数控设备有限公司 | 直线模组_滚珠丝杆滑台_模组滑台厂家_万里疆科技 | 冰晶石|碱性嫩黄闪蒸干燥机-有机垃圾烘干设备-草酸钙盘式干燥机-常州市宝康干燥 | 路面机械厂家| EDLC超级法拉电容器_LIC锂离子超级电容_超级电容模组_软包单体电容电池_轴向薄膜电力电容器_深圳佳名兴电容有限公司_JMX专注中高端品牌电容生产厂家 | 自动记录数据电子台秤,记忆储存重量电子桌称,设定时间记录电子秤-昆山巨天 | 防爆大气采样器-防爆粉尘采样器-金属粉尘及其化合物采样器-首页|盐城银河科技有限公司 | 全自动端子机|刺破式端子压接机|全自动双头沾锡机|全自动插胶壳端子机-东莞市傅氏兄弟机械设备有限公司 | 10吨无线拉力计-2吨拉力计价格-上海佳宜电子科技有限公司 | 珠宝展柜-玻璃精品展柜-首饰珠宝展示柜定制-鸿钛展柜厂家 | 重庆小面培训_重庆小面技术培训学习班哪家好【终身免费复学】 | 量子管通环-自清洗过滤器-全自动反冲洗过滤器-北京罗伦过滤技术集团有限公司 | 测试治具|过炉治具|过锡炉治具|工装夹具|测试夹具|允睿自动化设备 | 胀套-锁紧盘-风电锁紧盘-蛇形联轴器「厂家」-瑞安市宝德隆机械配件有限公司 | 微波萃取合成仪-电热消解器价格-北京安合美诚科学仪器有限公司 | 高压包-点火器-高压发生器-点火变压器-江苏天网 | 黄石东方妇产医院_黄石妇科医院哪家好_黄石无痛人流医院 | 金属波纹补偿器厂家_不锈钢膨胀节价格_非金属伸缩节定制-庆达补偿器 | 合同书格式和范文_合同书样本模板_电子版合同,找范文吧 | 嘉兴恒升声级计-湖南衡仪声级计-杭州爱华多功能声级计-上海邦沃仪器设备有限公司 | 气力输送_输送机械_自动化配料系统_负压吸送_制造主力军江苏高达智能装备有限公司! |