中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊

包郵 Spark機(jī)器學(xué)習(xí)

作者:彭特里思
出版社:人民郵電出版社出版時間:2015-09-01
開本: 16開 頁數(shù): 224
中 圖 價:¥43.5(7.4折) 定價  ¥59.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>
買過本商品的人還買了

Spark機(jī)器學(xué)習(xí) 版權(quán)信息

Spark機(jī)器學(xué)習(xí) 本書特色

《spark機(jī)器學(xué)習(xí)》每章都設(shè)計了案例研究,以機(jī)器學(xué)習(xí)算法為主線,結(jié)合實例探討了spark 的實際應(yīng)用。書中沒有讓人抓狂的數(shù)據(jù)公式,而是從準(zhǔn)備和正確認(rèn)識數(shù)據(jù)開始講起,全面涵蓋了推薦系統(tǒng)、回歸、聚類、降維等經(jīng)典的機(jī)器學(xué)習(xí)算法及其實際應(yīng)用。

Spark機(jī)器學(xué)習(xí) 內(nèi)容簡介

apache spark是一個分布式計算框架,專為滿足低延遲任務(wù)和內(nèi)存數(shù)據(jù)存儲的需求而優(yōu)化。現(xiàn)有并行計算框架中,鮮有能兼顧速度、可擴(kuò)展性、內(nèi)存處理以及容錯性,同時還能簡化編程,提供靈活、表達(dá)力豐富的強(qiáng)大api的,apache spark就是這樣一個難得的框架。   本書介紹了spark的基礎(chǔ)知識,從利用spark api來載入和處理數(shù)據(jù),到將數(shù)據(jù)作為多種機(jī)器學(xué)習(xí)模型的輸入。此外還通過詳細(xì)的例子和現(xiàn)實應(yīng)用講解了常見的機(jī)器學(xué)習(xí)模型,包括推薦系統(tǒng)、分類、回歸、聚類和降維。另外還介紹了一些高階內(nèi)容,如大規(guī)模文本數(shù)據(jù)的處理,以及spark streaming下的在線機(jī)器學(xué)習(xí)和模型評估方法。   如果你是一名scala、java或python開發(fā)者,對機(jī)器學(xué)習(xí)和數(shù)據(jù)分析感興趣,并想借助spark框架來實現(xiàn)常見機(jī)器學(xué)習(xí)技術(shù)的大規(guī)模應(yīng)用,那么本書便是為你而寫。有spark的基礎(chǔ)知識,但并不要求你有實踐經(jīng)驗。   通過學(xué)習(xí)本書,你將能夠:   用scala、java或python語言編寫你的一個spark程序;   在你的本機(jī)和amazon ec2上創(chuàng)建和配置spark開發(fā)環(huán)境;   獲取公開的機(jī)器學(xué)習(xí)數(shù)據(jù)集,以及使用spark對數(shù)據(jù)進(jìn)行載入、處理、清理和轉(zhuǎn)換;   借助spark機(jī)器學(xué)習(xí)庫,利用協(xié)同過濾、分類、回歸、聚類和降維等常見的機(jī)器學(xué)習(xí)模型來編寫程序;   編寫spark函數(shù)來評估你的機(jī)器學(xué)習(xí)模型的性能;   了解大規(guī)模文本數(shù)據(jù)的處理方法,包括特征提取和將文本數(shù)據(jù)作為機(jī)器學(xué)習(xí)模型的輸入;   探索在線學(xué)習(xí)方法,利用spark streaming來進(jìn)行在線學(xué)習(xí)和模型評估。

Spark機(jī)器學(xué)習(xí) 目錄

第1 章 spark 的環(huán)境搭建與運(yùn)行 1
1.1 spark 的本地安裝與配置 2
1.2 spark 集群 3
1.3 spark 編程模型 4
1.3.1 sparkcontext類與sparkconf類 4
1.3.2 spark shell 5
1.3.3 彈性分布式數(shù)據(jù)集 6
1.3.4 廣播變量和累加器 10
1.4 spark scala 編程入門 11
1.5 spark java 編程入門 14
1.6 spark python 編程入門 17
1.7 在amazon ec2 上運(yùn)行spark 18
1.8 小結(jié) 23
第2 章 設(shè)計機(jī)器學(xué)習(xí)系統(tǒng) 24
2.1 moviestream 介紹 24
2.2 機(jī)器學(xué)習(xí)系統(tǒng)商業(yè)用例 25
2.2.1 個性化 26
2.2.2 目標(biāo)營銷和客戶細(xì)分 26
2.2.3 預(yù)測建模與分析 26
2.3 機(jī)器學(xué)習(xí)模型的種類 27
2.4 數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)系統(tǒng)的組成 27
2.4.1 數(shù)據(jù)獲取與存儲 28
2.4.2 數(shù)據(jù)清理與轉(zhuǎn)換 28
2.4.3 模型訓(xùn)練與測試回路 29
2.4.4 模型部署與整合 30
2.4.5 模型監(jiān)控與反饋 30
2.4.6 批處理或?qū)崟r方案的選擇 31
2.5 機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu) 31
2.6 小結(jié) 33
第3 章 spark 上數(shù)據(jù)的獲取、處理與準(zhǔn)備 34
3.1 獲取公開數(shù)據(jù)集 35
3.2 探索與可視化數(shù)據(jù) 37
3.2.1 探索用戶數(shù)據(jù) 38
3.2.2 探索電影數(shù)據(jù) 41
3.2.3 探索評級數(shù)據(jù) 43
3.3 處理與轉(zhuǎn)換數(shù)據(jù) 46
3.4 從數(shù)據(jù)中提取有用特征 48
3.4.1 數(shù)值特征 48
3.4.2 類別特征 49
3.4.3 派生特征 50
3.4.4 文本特征 51
3.4.5 正則化特征 55
3.4.6 用軟件包提取特征 56
3.5 小結(jié) 57
第4 章 構(gòu)建基于spark 的推薦引擎 58
4.1 推薦模型的分類 59
4.1.1 基于內(nèi)容的過濾 59
4.1.2 協(xié)同過濾 59
4.1.3 矩陣分解 60
4.2 提取有效特征 64
4.3 訓(xùn)練推薦模型67
4.3.1 使用movielens 100k 數(shù)據(jù)集訓(xùn)練模型 67
4.3.2 使用隱式反饋數(shù)據(jù)訓(xùn)練模型 68
4.4 使用推薦模型 69
4.4.1 用戶推薦 69
4.4.2 物品推薦 72
4.5 推薦模型效果的評估 75
4.5.1 均方差 75
4.5.2 k 值平均準(zhǔn)確率 77
4.5.3 使用mllib 內(nèi)置的評估函數(shù) 81
4.6 小結(jié) 82
第5 章 spark 構(gòu)建分類模型 83
5.1 分類模型的種類 85
5.1.1 線性模型 85
5.1.2 樸素貝葉斯模型 89
5.1.3 決策樹 90
5.2 從數(shù)據(jù)中抽取合適的特征 91
5.3 訓(xùn)練分類模型 93
5.4 使用分類模型 95
5.5 評估分類模型的性能 96
5.5.1 預(yù)測的正確率和錯誤率 96
5.5.2 準(zhǔn)確率和召回率 97
5.5.3 roc 曲線和auc 99
5.6 改進(jìn)模型性能以及參數(shù)調(diào)優(yōu) 101
5.6.1 特征標(biāo)準(zhǔn)化 101
5.6.2 其他特征 104
5.6.3 使用正確的數(shù)據(jù)格式 106
5.6.4 模型參數(shù)調(diào)優(yōu) 107
5.7 小結(jié) 115
第6 章 spark 構(gòu)建回歸模型 116
6.1 回歸模型的種類 116
6.1.1 *小二乘回歸 117
6.1.2 決策樹回歸 117
6.2 從數(shù)據(jù)中抽取合適的特征 118
6.3 回歸模型的訓(xùn)練和應(yīng)用 123
6.4 評估回歸模型的性能 125
6.4.1 均方誤差和均方根誤差 125
6.4.2 平均**誤差 126
6.4.3 均方根對數(shù)誤差 126
6.4.4 r-平方系數(shù) 126
6.4.5 計算不同度量下的性能 126
6.5 改進(jìn)模型性能和參數(shù)調(diào)優(yōu) 127
6.5.1 變換目標(biāo)變量 128
6.5.2 模型參數(shù)調(diào)優(yōu) 132
6.6 小結(jié) 140
第7 章 spark 構(gòu)建聚類模型 141
7.1 聚類模型的類型 142
7.1.1 k-均值聚類 142
7.1.2 混合模型 146
7.1.3 層次聚類 146
7.2 從數(shù)據(jù)中提取正確的特征 146
7.3 訓(xùn)練聚類模型 150
7.4 使用聚類模型進(jìn)行預(yù)測 151
7.5 評估聚類模型的性能 155
7.5.1 內(nèi)部評價指標(biāo) 155
7.5.2 外部評價指標(biāo) 156
7.5.3 在movielens 數(shù)據(jù)集計算性能 156
7.6 聚類模型參數(shù)調(diào)優(yōu) 156
7.7 小結(jié) 158
第8 章 spark 應(yīng)用于數(shù)據(jù)降維 159
8.1 降維方法的種類 160
8.1.1 主成分分析 160
8.1.2 奇異值分解 160
8.1.3 和矩陣分解的關(guān)系 161
8.1.4 聚類作為降維的方法 161
8.2 從數(shù)據(jù)中抽取合適的特征 162
8.3 訓(xùn)練降維模型 169
8.4 使用降維模型 172
8.4.1 在lfw數(shù)據(jù)集上使用pca投影數(shù)據(jù) 172
8.4.2 pca 和svd 模型的關(guān)系 173
8.5 評價降維模型 174
8.6 小結(jié) 176
第9 章 spark 高級文本處理技術(shù) 177
9.1 處理文本數(shù)據(jù)有什么特別之處 177
9.2 從數(shù)據(jù)中抽取合適的特征 177
9.2.1 短語加權(quán)表示 178
9.2.2 特征哈希 179
9.2.3 從20 新聞組數(shù)據(jù)集中提取tf-idf 特征 180
9.3 使用tf-idf 模型 192
9.3.1 20 newsgroups 數(shù)據(jù)集的文本相似度和tf-idf 特征 192
9.3.2 基于20 newsgroups 數(shù)據(jù)集使用tf-idf 訓(xùn)練文本分類器 194
9.4 評估文本處理技術(shù)的作用 196
9.5 word2vec 模型 197
9.6 小結(jié) 200
第10 章 spark streaming 在實時機(jī)器學(xué)習(xí)上的應(yīng)用 201
10.1 在線學(xué)習(xí) 201
10.2 流處理 202
10.2.1 spark streaming 介紹 202
10.2.2 使用spark streaming 緩存和容錯 205
10.3 創(chuàng)建spark streaming 應(yīng)用 206
10.3.1 消息生成端 207
10.3.2 創(chuàng)建簡單的流處理程序 209
10.3.3 流式分析 211
10.3.4 有狀態(tài)的流計算213
10.4 使用spark streaming 進(jìn)行在線學(xué)習(xí) 215
10.4.1 流回歸 215
10.4.2 一個簡單的流回歸程序 216
10.4.3 流k-均值 220
10.5 在線模型評估 221
10.6 小結(jié) 224
展開全部

Spark機(jī)器學(xué)習(xí) 作者簡介

Nick Pentreath是Graphflow公司聯(lián)合創(chuàng)始人。Graphflow是一家大數(shù)據(jù)和機(jī)器學(xué)習(xí)公司,專注于以用戶為中心的推薦系統(tǒng)和客戶服務(wù)智能化技術(shù)。Nick擁有金融市場、機(jī)器學(xué)習(xí)和軟件開發(fā)背景,曾任職于高盛集團(tuán),之后去在線廣告營銷創(chuàng)業(yè)公司Cognitive Match Limited(倫敦)擔(dān)任研究科學(xué)家,后又去非洲**的社交網(wǎng)絡(luò)Mxit領(lǐng)導(dǎo)數(shù)據(jù)科學(xué)與分析團(tuán)隊。Nick是Apache Spark項目管理委員會成員之一。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 贴板式电磁阀-不锈钢-气动上展式放料阀-上海弗雷西阀门有限公司 工业机械三维动画制作 环保设备原理三维演示动画 自动化装配产线三维动画制作公司-南京燃动数字 | 体检车_移动CT车_CT检查车_CT车_深圳市艾克瑞电气有限公司移动CT体检车厂家-深圳市艾克瑞电气有限公司 | 车辆定位管理系统_汽车GPS系统_车载北斗系统 - 朗致物联 | 南京兰江泵业有限公司-水解酸化池潜水搅拌机-絮凝反应池搅拌机-好氧区潜水推进器 | 百度爱采购运营研究社社群-店铺托管-爱采购代运营-良言多米网络公司 | 南京试剂|化学试剂|分析试剂|实验试剂|cas号查询-专业60年试剂销售企业 | 商标转让-购买商标专业|放心的商标交易网-蜀易标商标网 | 意大利Frascold/富士豪压缩机_富士豪半封闭压缩机_富士豪活塞压缩机_富士豪螺杆压缩机 | 洗砂机械-球磨制砂机-洗沙制砂机械设备_青州冠诚重工机械有限公司 | 小型手持气象站-空气负氧离子监测站-多要素微气象传感器-山东天合环境科技有限公司 | 空气弹簧|橡胶气囊|橡胶空气弹簧-上海松夏减震器有限公司 | 发电机价格|发电机组价格|柴油发电机价格|柴油发电机组价格网 | 河北中仪伟创试验仪器有限公司是专业生产沥青,土工,水泥,混凝土等试验仪器的厂家,咨询电话:13373070969 | 真空泵维修保养,普发,阿尔卡特,荏原,卡西亚玛,莱宝,爱德华干式螺杆真空泵维修-东莞比其尔真空机电设备有限公司 | LZ-373测厚仪-华瑞VOC气体检测仪-个人有毒气体检测仪-厂家-深圳市深博瑞仪器仪表有限公司 | 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | Eiafans.com_环评爱好者 环评网|环评论坛|环评报告公示网|竣工环保验收公示网|环保验收报告公示网|环保自主验收公示|环评公示网|环保公示网|注册环评工程师|环境影响评价|环评师|规划环评|环评报告|环评考试网|环评论坛 - Powered by Discuz! | 线粒体膜电位荧光探针-细胞膜-标记二抗-上海复申生物科技有限公司 | 婚博会2024时间表_婚博会门票领取_婚博会地址-婚博会官网 | TwistDx恒温扩增-RAA等温-Jackson抗体-默瑞(上海)生物科技有限公司 | 课件导航网_ppt课件_课件模板_课件下载_最新课件资源分享发布平台 | 动库网动库商城-体育用品专卖店:羽毛球,乒乓球拍,网球,户外装备,运动鞋,运动包,运动服饰专卖店-正品运动品网上商城动库商城网 - 动库商城 | 钢格栅板_钢格板网_格栅板-做专业的热镀锌钢格栅板厂家-安平县迎瑞丝网制造有限公司 | 雾度仪_雾度计_透光率雾度仪价格-三恩时(3nh)光电雾度仪厂家 | 凝胶成像系统(wb成像系统)百科-上海嘉鹏 | 网站优化公司_北京网站优化_抖音短视频代运营_抖音关键词seo优化排名-通则达网络 | 熔体泵|换网器|熔体齿轮泵|熔体计量泵厂家-郑州巴特熔体泵有限公司 | 深圳展厅设计_企业展馆设计_展厅设计公司_数字展厅设计_深圳百艺堂 | 包头市鑫枫装饰有限公司| 艺术涂料_进口艺术涂料_艺术涂料加盟_艺术涂料十大品牌 -英国蒙太奇艺术涂料 | 模具钢_高速钢_不锈钢-万利钢金属材料 | 退火炉,燃气退火炉,燃气热处理炉生产厂家-丹阳市丰泰工业炉有限公司 | 十字轴_十字轴万向节_十字轴总成-南京万传机械有限公司 | 锂电池砂磨机|石墨烯砂磨机|碳纳米管砂磨机-常州市奥能达机械设备有限公司 | 热闷罐-高温罐-钢渣热闷罐-山东鑫泰鑫智能热闷罐厂家 | 横河变送器-横河压力变送器-EJA变送器-EJA压力变送器-「泉蕴仪表」 | 岩石钻裂机-液压凿岩机-劈裂机-挖改钻_湖南烈岩科技有限公司 | 机械加工_绞车配件_立式离心机_减速机-洛阳三永机械厂 | 耐驰泵阀管件制造-耐驰泵阀科技(天津)有限公司 | 标准件-非标紧固件-不锈钢螺栓-非标不锈钢螺丝-非标螺母厂家-三角牙锁紧自攻-南京宝宇标准件有限公司 | 包塑软管|金属软管|包塑金属软管-闵彬管业 |