中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
基于Spark的下一代機器學習:XGBoost、LightGBM、Spark NLP與Keras分布式深度學習實例

包郵 基于Spark的下一代機器學習:XGBoost、LightGBM、Spark NLP與Keras分布式深度學習實例

出版社:機械工業出版社出版時間:2021-05-01
開本: 16開 頁數: 296
中 圖 價:¥69.3(7.0折) 定價  ¥99.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

基于Spark的下一代機器學習:XGBoost、LightGBM、Spark NLP與Keras分布式深度學習實例 版權信息

  • ISBN:9787111681250
  • 條形碼:9787111681250 ; 978-7-111-68125-0
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

基于Spark的下一代機器學習:XGBoost、LightGBM、Spark NLP與Keras分布式深度學習實例 本書特色

適讀人群 :機器學習從業者、數據科學家,以及對機器學習、Spark和Spark MLlib感興趣的讀者本書介紹如何利用Spark平臺上的實際文檔和示例來構建大型企業級機器學習應用。在過去10年中,機器學習領域取得了一系列突破性進展。這些突破性進展正在對我們的生活和各行各業產生深遠影響。本書首先對Spark和Spark MLlib做了介紹,除標準Spark MLlib庫之外,還介紹了更強大的第三方機器學習算法和庫。在本書的*后解釋了通過對多個實際用例,以幫助讀者了解機器學習知識在實際生活中的應用。 本書內容:機器學習、Spark和Spark MLlib 2.4.x的相關內容。使用XGBoost4J-Spark和LightGBM庫實現Spark上的快速梯度提升。利用Spark的孤立森林算法實現異常檢測。使用支持多種語言的Spark NLP和Stanford CoreNLP庫。使用Alluxio內存數據加速器優化Spark上的機器學習工作負載。使用GraphX和GraphFrames進行圖分析。使用卷積神經網絡進行圖像識別。通過Spark使用Keras框架和分布式深度學習庫。

基于Spark的下一代機器學習:XGBoost、LightGBM、Spark NLP與Keras分布式深度學習實例 內容簡介

本書先簡單介紹了Spark和Spark MLlib,然后介紹標準Spark MLlib庫之外的更強大的第三方機器學習算法和庫。通過閱讀本書,你將能夠通過幾十個實際的例子和深刻的解釋,將所學到的知識應用到真實世界的用例。

基于Spark的下一代機器學習:XGBoost、LightGBM、Spark NLP與Keras分布式深度學習實例 目錄

目  錄

前言

致謝

關于作者

關于技術審校人員

第1章 機器學習介紹 1

1.1 人工智能和機器學習用例 2

1.1.1 零售業 2

1.1.2 交通運輸 3

1.1.3 金融服務 3

1.1.4 醫療保健和生物技術 3

1.1.5 制造業 3

1.1.6 政府部門 4

1.2 機器學習與數據 4

1.3 機器學習方法 6

1.3.1 有監督學習 6

1.3.2 無監督學習 6

1.3.3 半監督學習 6

1.3.4 強化學習 6

1.4 深度學習 7

1.5 神經網絡 7

1.6 卷積神經網絡 7

1.7 特征工程 7

1.7.1 特征選擇 8

1.7.2 特征重要性 9

1.7.3 特征提取 9

1.7.4 特征構建 9

1.8 模型評估 10

1.8.1 準確率 10

1.8.2 精度 10

1.8.3 召回率 11

1.8.4 F1度量 11

1.8.5 AUROC 11

1.9 過擬合與欠擬合 12

1.10 模型選擇 12

1.11 總結 12

1.12 參考資料 13

第2章 Spark和Spark MLlib

介紹 16

2.1 概述 16

2.2 架構 17

2.3 執行Spark應用程序 19

2.3.1 集群模式 19

2.3.2 客戶端模式 19

2.4 spark-shell介紹 19

2.4.1 SparkSession 20

2.4.2 彈性分布式數據集 21

2.5 Spark SQL、DataSet和DataFrame的 API 29

2.6 Spark數據源 31

2.6.1 CSV 31

2.6.2 XML 31

2.6.3 JSON 32

2.6.4 關系數據庫和MPP數據庫 33

2.6.5 Parquet 36

2.6.6 HBase 36

2.6.7 Amazon S3 41

2.6.8 Solr 42

2.6.9 Microsoft Excel 43

2.6.10 SFTP 44

2.7 Spark MLlib介紹 44

2.8 ML管道 46

2.8.1 管道 47

2.8.2 轉換器 47

2.8.3 估計器 47

2.8.4 ParamGridBuilder 47

2.8.5 CrossValidator 47

2.8.6 評估器 47

2.9 特征提取、轉換和選擇 48

2.9.1 StringIndexer 48

2.9.2 Tokenizer 49

2.9.3 VectorAssembler 50

2.9.4 StandardScaler 51

2.9.5 StopWordsRemover 52

2.9.6 n-gram 52

2.9.7 OneHotEncoderEstimator 53

2.9.8 SQLTransformer 54

2.9.9 詞頻–逆文檔頻率 55

2.9.10 主成分分析 57

2.9.11 ChiSqSelector 57

2.9.12 Correlation 58

2.10 評估指標 60

2.10.1 AUROC 60

2.10.2 F1度量 61

2.10.3 均方根誤差 61

2.11 模型持久化 62

2.12 Spark MLlib示例 62

2.13 圖處理 66

2.14 超越Spark MLlib:第三方機器學習集成 66

2.15 利用Alluxio優化Spark和Spark MLlib 66

2.16 為什么使用Alluxio 68

2.16.1 顯著提高大數據處理性能和可擴展性 68

2.16.2 多個框架和應用程序可以以讀寫內存的速度共享數據 69

2.17 在應用程序終止或失敗時提供高可用性和持久性 71

2.18 優化總體內存使用并*小化垃圾收集 74

2.19 降低硬件要求 74

2.20 Apache Spark和Alluxio 75

2.21 總結 75

2.22 參考資料 76

第3章 有監督學習 79

3.1 分類 79

3.1.1 分類類型 79

3.1.2 Spark MLlib分類算法 80

3.1.3 第三方分類和回歸算法 85

3.1.4 使用邏輯回歸算法的多類別分類 86

3.1.5 使用隨機森林算法進行流失預測 95

3.1.6 使用XGBoost4J-Spark的極端梯度提升算法 108

3.1.7 LightGBM:來自微軟的快速梯度提升算法 118

3.1.8 使用樸素貝葉斯進行情感分析 127

3.2 回歸 133

3.2.1 簡單線性回歸 134

3.2.2 使用XGBoost4J-Spark進行多元回歸分析 137

3.2.3 使用LightGBM進行多元回歸分析 143

3.3 總結 148

3.4 參考資料 149

第4章 無監督學習 154

4.1 k-means聚類算法 154

4.2 使用隱含狄利克雷分布進行主題建模 162

4.2.1 Stanford CoreNLP 163

4.2.2 John Snow實驗室的Spark NLP 164

4.2.3 示例 170

4.3 使用孤立森林進行異常檢測 182

4.3.1 參數 185

4.3.2 示例 186

4.4 使用主成分分析進行降維 188

4.5 總結 197

4.6 參考資料 197

第5章 推薦 200

5.1 推薦引擎的種類 201

5.1.1 使用交替*小二乘法的協同過濾 201

5.1.2 參數 203

5.1.3 示例 203

5.2 使用FP增長進行購物籃分析 209

5.2.1 示例 210

5.2.2 基于內容的過濾 217

5.3 總結 218

5.4 參考資料 218

第6章 圖分析 221

6.1 圖介紹 221

6.1.1 無向圖 221

6.1.2 有向圖 222

6.1.3 有向多重圖 222

6.1.4 屬性圖 223

6.2 圖分析用例 223

6.2.1 欺詐檢測和反洗錢 224

6.2.2 數據治理和法規遵從性 224

6.2.3 風險管理 224

6.2.4 運輸 225

6.2.5 社交網絡 225

6.2.6 網絡基礎設施管理 225

6.3 GraphX簡介 225

6.3.1 Graph 225

6.3.2 VertexRDD 226

6.3.3 Edge 226

6.3.4 EdgeRDD 226

6.3.5 EdgeTriplet 226

6.3.6 EdgeContext 226

6.3.7 GraphX 示例 226

6.3.8 圖算法 229

6.3.9 GraphFrames 232

6.4 總結 235

6.5 參考資料 236

第7章 深度學習 238

7.1 神經網絡 239

7.2 神經網絡的簡短歷史 240

7.3 卷積神經網絡 242

7.4 深度學習框架 247

7.4.1 TensorFlow 247

7.4.2 Theano 247

7.4.3 PyTorch 247

7.4.4 DeepLearning4J 247

7.4.5 CNTK 248

7.4.6 Keras 248

7.4.7 使用Keras進行深度學習 248

7.5 Spark分布式深度學習 258

7.5.1 模型并行與數據并行 258

7.5.2 Spark分布式深度學習框架 259

7.6 Elephas:使用Keras和Spark進行分布式深度學習 261

7.7 Dist-Keras 270

7.7.1 使用基于Keras和Spark的Dist-Keras來識別MNIST中的手寫數字 271

7.7.2 貓和狗的圖像分類 276

7.8 總結 283

7.9 參考資料 283

展開全部

基于Spark的下一代機器學習:XGBoost、LightGBM、Spark NLP與Keras分布式深度學習實例 作者簡介

Butch Quinto是Intelvi AI這家人工智能公司的創始人兼首席人工智能官,該公司為國防、工業和交通行業開發尖端解決方案。作為首席人工智能官,Butch負責戰略、創新、研究和開發。此前,他曾在一家領先的技術公司擔任人工智能主管,在一家人工智能初創公司擔任首席數據官。在任職德勤(Deloitte)的分析總監期間,他曾領導多個企業級人工智能和物聯網解決方案的開發,以及戰略、業務發展和風險投資盡職調查方面的工作。Butch在銀行與金融、電信、政府部門、公共事業、交通運輸、電子商務、零售業、制造業和生物信息學等多個行業擁有20多年的技術和領導經驗。他是Next-Generation Big Data(Apress,2018)的作者,也是人工智能促進協會(AAAI)和美國科學促進會(AAAS)的成員。 關于技術審校人員 Irfan Elahi在數據科學和機器學習領域擁有多年經驗。他曾在咨詢公司、自己的創業公司和學術研究實驗室等多個垂直領域工作過。多年來,他在電信、零售業、網絡、公共部門和能源等不同領域參與過很多數據科學和機器學習項目,旨在使企業從其數據資產中獲得巨大價值。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 车辆定位管理系统_汽车GPS系统_车载北斗系统 - 朗致物联 | 阿米巴企业经营-阿米巴咨询管理-阿米巴企业培训-广东键锋企业管理咨询有限公司 | 欧必特空气能-商用空气能热水工程,空气能热水器,超低温空气源热泵生产厂家-湖南欧必特空气能公司 | 工业PH计|工业ph酸度计|在线PH计价格-合肥卓尔仪器仪表有限公司 济南画室培训-美术高考培训-山东艺霖艺术培训画室 | 北京亦庄厂房出租_经开区产业园招商信息平台 | 123悬赏网_发布悬赏任务_广告任务平台 | LHH药品稳定性试验箱-BPS系列恒温恒湿箱-意大利超低温冰箱-上海一恒科学仪器有限公司 | 半容积式换热器_北京浮动盘管换热器厂家|北京亿丰上达 | 纸箱网 -纸箱机械|设备|包装纸盒|包装印刷行业门户网站 | 电杆荷载挠度测试仪-电杆荷载位移-管桩测试仪-北京绿野创能机电设备有限公司 | 电抗器-能曼电气-电抗器专业制造商| 捆扎机_气动捆扎机_钢带捆扎机-沈阳海鹞气动钢带捆扎机公司 | 安全光栅|射频导纳物位开关|音叉料位计|雷达液位计|两级跑偏开关|双向拉绳开关-山东卓信机械有限公司 | 上海APP开发-APP制作-APP定制开发-上海APP开发制作公司-咏熠科技 | 开云(中国)Kaiyun·官方网站-登录入口| 西门子伺服控制器维修-伺服驱动放大器-828D数控机床维修-上海涌迪 | Eiafans.com_环评爱好者 环评网|环评论坛|环评报告公示网|竣工环保验收公示网|环保验收报告公示网|环保自主验收公示|环评公示网|环保公示网|注册环评工程师|环境影响评价|环评师|规划环评|环评报告|环评考试网|环评论坛 - Powered by Discuz! | 下水道疏通_管道疏通_马桶疏通_附近疏通电话- 立刻通 | 重庆私家花园设计-别墅花园-庭院-景观设计-重庆彩木园林建设有限公司 | 云阳人才网_云阳招聘网_云阳人才市场_云阳人事人才网_云阳人家招聘网_云阳最新招聘信息 | 工业铝型材-铝合金电机壳-铝排-气动执行器-山东永恒能源集团有限公司 | 超声波气象站_防爆气象站_空气质量监测站_负氧离子检测仪-风途物联网 | 对夹式止回阀厂家,温州对夹式止回阀制造商--永嘉县润丰阀门有限公司 | 北京网站建设公司_北京网站制作公司_北京网站设计公司-北京爱品特网站建站公司 | 德国BOSCH电磁阀-德国HERION电磁阀-JOUCOMATIC电磁阀|乾拓百科 | 洛阳防爆合格证办理-洛阳防爆认证机构-洛阳申请国家防爆合格证-洛阳本安防爆认证代办-洛阳沪南抚防爆电气技术服务有限公司 | ★店家乐|服装销售管理软件|服装店收银系统|内衣店鞋店进销存软件|连锁店管理软件|收银软件手机版|会员管理系统-手机版,云版,App | 地磅-地秤-江阴/无锡地磅-江阴天亿计量设备有限公司_ | 郑州大巴车出租|中巴车租赁|旅游大巴租车|包车|郑州旅游大巴车租赁有限公司 | 电动百叶窗,开窗器,电动遮阳百叶,电动开窗机生产厂家-徐州鑫友工控科技发展有限公司 | 旗帜网络笔记-免费领取《旗帜网络笔记》电子书 | 洛阳永磁工业大吊扇研发生产-工厂通风降温解决方案提供商-中实洛阳环境科技有限公司 | 美侍宠物-专注宠物狗及宠物猫训练|喂养|医疗|繁育|品种|价格 | 广西资质代办_建筑资质代办_南宁资质代办理_新办、增项、升级-正明集团 | 警方提醒:赣州约炮论坛真的安全吗?2025年新手必看的网络交友防坑指南 | C形臂_动态平板DR_动态平板胃肠机生产厂家制造商-普爱医疗 | 钢衬四氟管道_钢衬四氟直管_聚四氟乙烯衬里管件_聚四氟乙烯衬里管道-沧州汇霖管道科技有限公司 | 全自动面膜机_面膜折叠机价格_面膜灌装机定制_高速折棉机厂家-深圳市益豪科技有限公司 | 葡萄酒灌装机-食用油灌装机-液体肥灌装设备厂家_青州惠联灌装机械 | Brotu | 关注AI,Web3.0,VR/AR,GPT,元宇宙区块链数字产业 | 彼得逊采泥器-定深式采泥器-电动土壤采样器-土壤样品风干机-常州索奥仪器制造有限公司 |