中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
SPARK機器學習(第2版)

包郵 SPARK機器學習(第2版)

出版社:人民郵電出版社出版時間:2018-01-01
開本: 其他 頁數: 375
中 圖 價:¥71.3(7.2折) 定價  ¥99.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

SPARK機器學習(第2版) 版權信息

  • ISBN:9787115497833
  • 條形碼:9787115497833 ; 978-7-115-49783-3
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

SPARK機器學習(第2版) 本書特色

本書結合案例研究講解Spark 在機器學習中的應用,并介紹如何從各種公開渠道獲取用于機器學習系統的數據。內容涵蓋推薦系統、回歸、聚類、降維等經典機器學習算法及其實際應用。第2版新增了有關機器學習數學基礎以及Spark ML Pipeline API 的章節,內容更加系統、全面、與時俱進。

SPARK機器學習(第2版) 內容簡介

本書結合案例研究講解Spark 在機器學習中的應用,并介紹如何從各種公開渠道獲取用于機器學習系統的數據。內容涵蓋推薦系統、回歸、聚類、降維等經典機器學習算法及其實際應用。第2版新增了有關機器學習數學基礎以及Spark ML Pipeline API 的章節,內容更加系統、全面、與時俱進。

SPARK機器學習(第2版) 目錄

第 1章 Spark的環境搭建與運行 1
1.1 Spark的本地安裝與配置 2
1.2 Spark集群 3
1.3 Spark編程模型 4
1.3.1 SparkContext類與SparkConf類 4
1.3.2 SparkSession 5
1.3.3 Spark shell 6
1.3.4 彈性分布式數據集 8
1.3.5 廣播變量和累加器 12
1.4 SchemaRDD 13
1.5 Spark data frame 13
1.6 Spark Scala編程入門 14
1.7 Spark Java編程入門 17
1.8 Spark Python編程入門 19
1.9 Spark R編程入門 21
1.10 在Amazon EC2上運行Spark 23
1.11 在Amazon Elastic Map Reduce上配置并運行Spark 28
1.12 Spark用戶界面 31
1.13 Spark所支持的機器學習算法 32
1.14 Spark ML的優勢 36
1.15 在Google Compute Engine上用Dataproc構建Spark集群 38
1.15.1 Hadoop和Spark版本 38
1.15.2 創建集群 38
1.15.3 提交任務 41
1.16 小結 43
第 2章 機器學習的數學基礎 44
2.1 線性代數 45
2.1.1 配置IntelliJ Scala環境 45
2.1.2 配置命令行Scala環境 47
2.1.3 域 48
2.1.4 矩陣 54
2.1.5 函數 64
2.2 梯度下降 68
2.3 先驗概率、似然和后驗概率 69
2.4 微積分 69
2.4.1 可微微分 69
2.4.2 積分 70
2.4.3 拉格朗日乘子 70
2.5 可視化 71
2.6 小結 72
第3章 機器學習系統設計 73
3.1 機器學習是什么 73
3.2 MovieStream介紹 74
3.3 機器學習系統商業用例 75
3.3.1 個性化 75
3.3.2 目標營銷和客戶細分 76
3.3.3 預測建模與分析 76
3.4 機器學習模型的種類 76
3.5 數據驅動的機器學習系統的組成 77
3.5.1 數據獲取與存儲 77
3.5.2 數據清理與轉換 78
3.5.3 模型訓練與測試循環 79
3.5.4 模型部署與整合 79
3.5.5 模型監控與反饋 80
3.5.6 批處理或實時方案的選擇 80
3.5.7 Spark數據管道 81
3.6 機器學習系統架構 82
3.7 Spark MLlib 83
3.8 Spark ML的性能提升 83
3.9 MLlib支持算法的比較 85
3.9.1 分類 85
3.9.2 聚類 85
3.9.3 回歸 85
3.10 MLlib支持的函數和開發者API 86
3.11 MLlib愿景 87
3.12 MLlib版本的變遷 87
3.13 小結 88
第4章 Spark上數據的獲取、處理與準備 89
4.1 獲取公開數據集 90
4.2 探索與可視化數據 92
4.2.1 探索用戶數據 94
4.2.2 探索電影數據 102
4.2.3 探索評級數據 104
4.3 數據的處理與轉換 109
4.4 從數據中提取有用特征 112
4.4.1 數值特征 112
4.4.2 類別特征 113
4.4.3 派生特征 114
4.4.4 文本特征 116
4.4.5 正則化特征 121
4.4.6 用軟件包提取特征 123
4.5 小結 126
第5章 Spark 構建推薦引擎 127
5.1 推薦模型的分類 128
5.1.1 基于內容的過濾 128
5.1.2 協同過濾 128
5.1.3 矩陣分解 130
5.2 提取有效特征 139
5.3 訓練推薦模型 140
5.3.1 使用MovieLens 100k數據集訓練模型 141
5.3.2 使用隱式反饋數據訓練模型 143
5.4 使用推薦模型 143
5.4.1 ALS模型推薦 144
5.4.2 用戶推薦 145
5.4.3 物品推薦 148
5.5 推薦模型效果的評估 152
5.5.1 ALS模型評估 152
5.5.2 均方差 154
5.5.3 K值平均準確率 156
5.5.4 使用MLlib內置的評估函數 159
5.6 FP-Growth算法 161
5.6.1 FP-Growth的基本例子 161
5.6.2 FP-Growth在MovieLens數據集上的實踐 163
5.7 小結 164
第6章 Spark構建分類模型 165
6.1 分類模型的種類 167
6.1.1 線性模型 167
6.1.2 樸素貝葉斯模型 177
6.1.3 決策樹 180
6.1.4 樹集成模型 183
6.2 從數據中抽取合適的特征 188
6.3 訓練分類模型 189
6.4 使用分類模型 190
6.4.1 在Kaggle StumbleUpon evergreen數據集上進行預測 191
6.4.2 評估分類模型的性能 191
6.4.3 預測的正確率和錯誤率 191
6.4.4 準確率和召回率 193
6.4.5 ROC曲線和AUC 194
6.5 改進模型性能以及參數調優 196
6.5.1 特征標準化 197
6.5.2 其他特征 199
6.5.3 使用正確的數據格式 202
6.5.4 模型參數調優 203
6.6 小結 211
第7章 Spark構建回歸模型 212
7.1 回歸模型的種類 212
7.1.1 *小二乘回歸 213
7.1.2 決策樹回歸 214
7.2 評估回歸模型的性能 215
7.2.1 均方誤差和均方根誤差 215
7.2.2 平均絕對誤差 215
7.2.3 均方根對數誤差 216
7.2.4 R-平方系數 216
7.3 從數據中抽取合適的特征 216
7.4 回歸模型的訓練和應用 220
7.4.1 BikeSharingExecutor 220
7.4.2 在bike sharing數據集上訓練回歸模型 221
7.4.3 決策樹集成 229
7.5 改進模型性能和參數調優 235
7.5.1 變換目標變量 235
7.5.2 模型參數調優 242
7.6 小結 256
第8章 Spark構建聚類模型 257
8.1 聚類模型的類型 258
8.1.1 K-均值聚類 258
8.1.2 混合模型 262
8.1.3 層次聚類 262
8.2 從數據中提取正確的特征 262
8.3 K-均值訓練聚類模型 265
8.3.1 訓練K-均值聚類模型 266
8.3.2 用聚類模型來預測 267
8.3.3 解讀預測結果 267
8.4 評估聚類模型的性能 271
8.4.1 內部評估指標 271
8.4.2 外部評估指標 272
8.4.3 在MovieLens數據集上計算性能指標 272
8.4.4 迭代次數對WSSSE的影響 272
8.5 二分K-均值 275
8.5.1 二分K-均值——訓練一個聚類模型 276
8.5.2 WSSSE和迭代次數 280
8.6 高斯混合模型 283
8.6.1 GMM聚類分析 283
8.6.2 可視化GMM類簇分布 285
8.6.3 迭代次數對類簇邊界的影響 286
8.7 小結 287
第9章 Spark應用于數據降維 288
9.1 降維方法的種類 289
9.1.1 主成分分析 289
9.1.2 奇異值分解 289
9.1.3 和矩陣分解的關系 290
9.1.4 聚類作為降維的方法 290
9.2 從數據中抽取合適的特征 291
9.3 訓練降維模型 299
9.4 使用降維模型 302
9.4.1 在LFW數據集上使用PCA投影數據 302
9.4.2 PCA和SVD模型的關系 303
9.5 評價降維模型 304
9.6 小結 307
第 10章 Spark高級文本處理技術 308
10.1 文本數據處理的特別之處 308
10.2 從數據中抽取合適的特征 309
10.2.1 詞加權表示 309
10.2.2 特征散列 310
10.2.3 從20 Newsgroups數據集中提取TF-IDF特征 311
10.3 使用TF-IDF 模型 324
10.3.1 20 Newsgroups數據集的文本相似度和TF-IDF特征 324
10.3.2 基于20 Newsgroups數據集使用TF-IDF訓練文本分類器 326
10.4 評估文本處理技術的作用 328
10.5 Spark 2.0上的文本分類 329
10.6 Word2Vec模型 331
10.6.1 借助Spark MLlib訓練Word2Vec模型 331
10.6.2 借助Spark ML訓練Word2Vec模型 332
10.7 小結 334
第 11章 Spark Streaming實時機器學習 335
11.1 在線學習 335
11.2 流處理 336
11.2.1 Spark Streaming介紹 337
11.2.2 Spark Streaming緩存和容錯機制 339
11.3 創建Spark Streaming應用 340
11.3.1 消息生成器 341
11.3.2 創建簡單的流處理程序 343
11.3.3 流式分析 346
11.3.4 有狀態的流計算 348
11.4 使用Spark Streaming進行在線學習 349
11.4.1 流回歸 350
11.4.2 一個簡單的流回歸程序 350
11.4.3 流式K-均值 354
11.5 在線模型評估 355
11.6 結構化流 358
11.7 小結 359
第 12章 Spark ML Pipeline API 360
12.1 Pipeline簡介 360
12.1.1 DataFrame 360
12.1.2 Pipeline組件 360
12.1.3 轉換器 361
12.1.4 評估器 361
12.2 Pipeline工作原理 363
12.3 Pipeline機器學習示例 367
12.4 小結 375

展開全部

SPARK機器學習(第2版) 作者簡介

拉結帝普·杜瓦(Rajdeep Dua) Salesforce公司工程主管,致力于打造云計算和人工智能團隊。曾參與Google的大數據分析工具BigQuery的宣傳團隊。在云計算、大數據分析和機器學習領域有近20年的經驗。 曼普利特·辛格·古特拉(Manpreet Singh Ghotra) Salesforce公司軟件工程主管,擁有十余年軟件開發經驗,目前致力于開發基于Apache Spark的機器學習平臺。 尼克·彭特里思(Nick Pentreath) IBM開源數據及人工智能技術中心首席工程師,大數據及機器學習公司Graphflow聯合創始人,Spark項目管理委員會成員。 【譯者簡介】 蔡立宇 曾從事自然語言處理和圖數據分析相關工作,現提供數據分析相關的獨立咨詢和開發服務。坐標深圳。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 电解抛光加工_不锈钢电解抛光_常州安谱金属制品有限公司 | 蓝鹏测控平台 - 智慧车间系统 - 车间生产数据采集与分析系统 | 苏州注册公司_苏州代理记账_苏州工商注册_苏州代办公司-恒佳财税 | 首页-瓜尔胶系列-化工单体系列-油田压裂助剂-瓜尔胶厂家-山东广浦生物科技有限公司 | 影合社-影视人的内容合作平台 | 楼承板设备-楼承板成型机-免浇筑楼承板机器厂家-捡来 | 短信群发平台_群发短信软件_短信营销-讯鸽科技 | 【德信自动化】点胶机_全自动点胶机_自动点胶机厂家_塑料热压机_自动螺丝机-深圳市德信自动化设备有限公司 | 防火阀、排烟防火阀、电动防火阀产品生产销售商-德州凯亿空调设备有限公司 | 打造全球沸石生态圈 - 国投盛世| 东莞市踏板石餐饮管理有限公司_正宗桂林米粉_正宗桂林米粉加盟_桂林米粉加盟费-东莞市棒子桂林米粉 | 超声骨密度仪,双能X射线骨密度仪【起草单位】,骨密度检测仪厂家 - 品源医疗(江苏)有限公司 | 衬塑管道_衬四氟管道厂家-淄博恒固化工设备有限公司 | 学习安徽网| 广州食堂承包_广州团餐配送_广州堂食餐饮服务公司 - 旺记餐饮 | 电竞学校_电子竞技培训学校学院-梦竞未来电竞学校官网 | 宿松新闻网 宿松网|宿松在线|宿松门户|安徽宿松(直管县)|宿松新闻综合网站|宿松官方新闻发布 | 岛津二手液相色谱仪,岛津10A液相,安捷伦二手液相,安捷伦1100液相-杭州森尼欧科学仪器有限公司 | 锂辉石检测仪器,水泥成分快速分析仪-湘潭宇科分析仪器有限公司 | 沈阳楼承板_彩钢板_压型钢板厂家-辽宁中盛绿建钢品股份有限公司 轴承振动测量仪电箱-轴承测振动仪器-测试仪厂家-杭州居易电气 | 企业微信scrm管理系统_客户关系管理平台_私域流量运营工具_CRM、ERP、OA软件-腾辉网络 | 深圳离婚律师咨询「在线免费」华荣深圳婚姻律师事务所专办离婚纠纷案件 | 细沙回收机-尾矿干排脱水筛设备-泥石分离机-建筑垃圾分拣机厂家-青州冠诚重工机械有限公司 | 【甲方装饰】合肥工装公司-合肥装修设计公司,专业从事安徽办公室、店面、售楼部、餐饮店、厂房装修设计服务 | IHDW_TOSOKU_NEMICON_EHDW系列电子手轮,HC1系列电子手轮-上海莆林电子设备有限公司 | T恤衫定做,企业文化衫制作订做,广告T恤POLO衫定制厂家[源头工厂]-【汉诚T恤定制网】 | 耐破强度测试仪-纸箱破裂强度试验机-济南三泉中石单品站 | LHH药品稳定性试验箱-BPS系列恒温恒湿箱-意大利超低温冰箱-上海一恒科学仪器有限公司 | 中空玻璃生产线,玻璃加工设备,全自动封胶线,铝条折弯机,双组份打胶机,丁基胶/卧式/立式全自动涂布机,玻璃设备-山东昌盛数控设备有限公司 | 全自动包装秤_全自动上袋机_全自动套袋机_高位码垛机_全自动包装码垛系统生产线-三维汉界机器(山东)股份有限公司 | 鼓风干燥箱_真空烘箱_高温干燥箱_恒温培养箱-上海笃特科学仪器 | 彩超机-黑白B超机-便携兽用B超机-多普勒彩超机价格「大为彩超」厂家 | 专业的新乡振动筛厂家-振动筛品质保障-环保振动筛价格—新乡市德科筛分机械有限公司 | 合肥防火门窗/隔断_合肥防火卷帘门厂家_安徽耐火窗_良万消防设备有限公司 | 船用锚链|专业锚链生产厂家|安徽亚太锚链制造有限公司 | 电脑知识|软件|系统|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网 | 色谱柱-淋洗液罐-巴罗克试剂槽-巴氏吸管-5ml样品瓶-SBS液氮冻存管-上海希言科学仪器有限公司 | 环讯传媒,永康网络公司,永康网站建设,永康小程序开发制作,永康网站制作,武义网页设计,金华地区网站SEO优化推广 - 永康市环讯电子商务有限公司 | 喷砂机厂家_自动除锈抛丸机价格-成都泰盛吉自动化喷砂设备 | 济南网站建设|济南建网站|济南网站建设公司【济南腾飞网络】【荐】 | 3D全息投影_地面互动投影_360度立体投影_水幕灯光秀 | 广东银虎 蜂窝块状沸石分子筛-吸附脱硫分子筛-萍乡市捷龙环保科技有限公司 |