中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
大數據應用與技術叢書Scala和Spark大數據分析.函數式編程.數據流和機器學習

包郵 大數據應用與技術叢書Scala和Spark大數據分析.函數式編程.數據流和機器學習

出版社:清華大學出版社出版時間:2020-06-01
開本: 其他 頁數: 624
中 圖 價:¥99.5(6.3折) 定價  ¥158.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

大數據應用與技術叢書Scala和Spark大數據分析.函數式編程.數據流和機器學習 版權信息

大數據應用與技術叢書Scala和Spark大數據分析.函數式編程.數據流和機器學習 本書特色

近年來,Scala得以迅速流行,在數據科學和分析領域勢頭更盛。基于Scala的Spark被廣泛應用于生產環境,海量數據的分析可瞬間完成!本書全面系統地介紹Spark應用開發的面向對象和函數式編程概念,指導你用Scala編寫強大的Spark程序。本書瞄準*前沿的技術,包含Spark SQL、結構流、graphX和Spark MLib等所有API。本書面向想利用Scala和Spark執行數據分析的人士。 ? 本書包含大量精妙的、緊貼實用的大數據分析問題,并說明如何使用Hadoop生態系統上的Scala解決這些問題。 ? 一本十分有用的大塊頭書籍,它呈現概念,并透徹地講述如何實現概念。 ? 本書內容豐富,討論了PySpark、SparkR、Alixuio和Zeppelin,包羅一切。 ? 學習將函數式編程和面向對象概念融為一體的精妙Scala類型系統。 ? 處理大范圍的應用,從簡單的批處理、流處理乃至機器學習 ? 分析*常見的用例和一些復雜用例,使用Spark執行大規模數據分析

大數據應用與技術叢書Scala和Spark大數據分析.函數式編程.數據流和機器學習 內容簡介

本書介紹Spark應用開發的面向對象和函數式編程概念,討論RDD和DataFrame基本抽象,講述如何使用SparkSQL、GraphX和Spark來開發可擴展的、容錯的流式應用程序,很后介紹監控、配置、調試、測試和開發等不錯主題。通過本書的學習,你將能使用SparkR和PySpark API開發Spark應用程序,使用Zeppelin進行交互式數據分析,使用Alluxio進行內存數據處理,將透徹理解Spark,并能對海量數據執行全棧數據分析,很終成為數據科學家。

大數據應用與技術叢書Scala和Spark大數據分析.函數式編程.數據流和機器學習 目錄

第1章 Scala簡介 1

1.1 Scala的歷史與設計目標 2

1.2 平臺與編輯器 2

1.3 安裝與創建Scala 3

1.3.1 安裝Java 3

1.3.2 Windows 4

1.3.3 macOS 6

1.4 Scala:可擴展的編程語言 9

1.4.1 Scala是面向對象的 9

1.4.2 Scala是函數式的 9

1.4.3 Scala是靜態類型的 9

1.4.4 在JVM上運行Scala 10

1.4.5 Scala可以執行Java代碼 10

1.4.6 Scala可以完成并發與同步處理 10

1.5 面向Java編程人員的Scala 10

1.5.1 一切類型都是對象 10

1.5.2 類型推導 11

1.5.3 Scala REPL 11

1.5.4 嵌套函數 13

1.5.5 導入語句 13

1.5.6 作為方法的操作符 14

1.5.7 方法與參數列表 15

1.5.8 方法內部的方法 15

1.5.9 Scala中的構造器 16

1.5.10 代替靜態方法的對象 16

1.5.11 特質 17

1.6 面向初學者的Scala 19

1.6.1 你的**行代碼 20

1.6.2 交互式運行Scala! 21

1.6.3 編譯 21

1.7 本章小結 22

第2章 面向對象的Scala 23

2.1 Scala中的變量 24

2.1.1 引用與值不可變性 25

2.1.2 Scala中的數據類型 26

2.2 Scala中的方法、類和對象 28

2.2.1 Scala中的方法 28

2.2.2 Scala中的類 30

2.2.3 Scala中的對象 30

2.3 包與包對象 41

2.4 Java的互操作性 42

2.5 模式匹配 43

2.6 Scala中的隱式 45

2.7 Scala中的泛型 46

2.8 SBT與其他構建系統 49

2.8.1 使用SBT進行構建 49

2.8.2 Maven與Eclipse 50

2.8.3 Gradle與Eclipse 51

2.9 本章小結 55

第3章 函數式編程概念 56

3.1 函數式編程簡介 57

3.2 面向數據科學家的函數式Scala 59

3.3 學習Spark為何要掌握函數式編程和Scala 59

3.3.1 為何是Spark? 59

3.3.2 Scala與Spark編程模型 60

3.3.3 Scala與Spark生態 61

3.4 純函數與高階函數 62

3.4.1 純函數 62

3.4.2 匿名函數 64

3.4.3 高階函數 66

3.4.4 以函數作為返回值 70

3.5 使用高階函數 71

3.6 函數式Scala中的錯誤處理 72

3.6.1 Scala中的故障與異常 73

3.6.2 拋出異常 73

3.6.3 使用try和catch捕獲異常 73

3.6.4 finally 74

3.6.5 創建Either 75

3.6.6 Future 76

3.6.7 執行任務,而非代碼塊 76

3.7 函數式編程與數據可變性 76

3.8 本章小結 77

第4章 集合API 78

4.1 Scala集合API 78

4.2 類型與層次 79

4.2.1 Traversable 79

4.2.2 Iterable 80

4.2.3 Seq、LinearSeq和IndexedSeq 80

4.2.4 可變型與不可變型 80

4.2.5 Array 82

4.2.6 List 85

4.2.7 Set 86

4.2.8 Tuple 88

4.2.9 Map 89

4.2.10 Option 91

4.2.11 exists 94

4.2.12 forall 96

4.2.13 filter 96

4.2.14 map 97

4.2.15 take 97

4.2.16 groupBy 98

4.2.17 init 98

4.2.18 drop 98

4.2.19 takeWhile 98

4.2.20 dropWhile 99

4.2.21 flatMap 99

4.3 性能特征 100

4.3.1 集合對象的性能特征 100

4.3.2 集合對象的內存使用 102

4.4 Java互操作性 103

4.5 Scala隱式的使用 104

4.6 本章小結 108

第5章 狙擊大數據——Spark加入戰團 109

5.1 數據分析簡介 109

5.2 大數據簡介 114

5.3 使用Apache Hadoop進行分布式計算 116

5.3.1 Hadoop分布式文件系統(HDFS) 117

5.3.2 MapReduce框架 122

5.4 Apache Spark駕到 125

5.5 本章小結 131

第6章 開始使用Spark——REPL和RDD 132

6.1 深入理解Apache Spark 132

6.2 安裝Apache Spark 136

6.3 RDD簡介 142

6.4 使用Spark shell 147

6.5 action與transformation算子 150

6.6 緩存 162

6.7 加載和保存數據 165

6.7.1 加載數據 165

6.7.2 保存RDD 166

6.8 本章小結 166

第7章 特殊RDD操作 167

7.1 RDD的類型 167

7.2 聚合操作 178

7.3 分區與shuffle 187

7.3.1 分區器 188

7.3.2 shuffle 190

7.4 廣播變量 193

7.5 累加器 196

7.6 本章小結 199

第8章 介紹一個小結構——Spark SQL 200

8.1 Spark SQL與數據幀 200

8.2 數據幀API與SQL API 203

8.3 聚合操作 214

8.4 連接 226

8.5 本章小結 237

第9章 讓我流起來,Scotty——Spark Streaming 238

9.1 關于流的簡要介紹 238

9.2 Spark Streaming 243

9.3 離散流 249

9.4 有狀態/無狀態轉換 256

9.5 檢查點 257

9.6 與流處理平臺(Apache Kafka)的互操作 261

9.7 結構化流 265

9.8 本章小結 269

第10章 萬物互聯——GraphX 270

10.1 關于圖論的簡要介紹 270

10.2 GraphX 275

10.3 VertexRDD和EdgeRDD 277

10.4 圖操作 280

10.5 Pregel API 284

10.6 PageRank 290

10.7 本章小結 291

第11章 掌握機器學習Spark MLlib

和ML 292

11.1 機器學習簡介 292

11.2 Spark機器學習API 298

11.3 特征提取與轉換 299

11.4 創建一個簡單的pipeline 308

11.5 無監督機器學習 309

11.6 分類 314

11.7 本章小結 330

第12章 貝葉斯與樸素貝葉斯 332

12.1 多元分類 332


12.2 貝葉斯推理 338

12.3 樸素貝葉斯 339

12.4 決策樹 349

12.5 本章小結 354

第13章 使用Spark MLlib對數據進行聚類分析 355

13.1 無監督學習 355

13.2 聚類技術 357

13.3 基于中心的聚類(CC) 358

13.4 分層聚類(HC) 366

13.5 基于分布的聚類(DC) 367

13.6 確定聚類的數量 372

13.7 聚類算法之間的比較分析 373

13.8 提交用于聚類分析的Spark作業 374

13.9 本章小結 374

第14章 使用Spark ML進行文本分析 376

14.1 理解文本分析 376

14.2 轉換器與評估器 378

14.3 分詞 381

14.4 StopWordsRemover 383

14.5 NGram 385

14.6 TF-IDF 386

14.7 Word2Vec 390

14.8 CountVectorizer 392

14.9 使用LDA進行主題建模 393

14.10 文本分類實現 395

14.11 本章小結 400

第15章 Spark調優 402

15.1 監控Spark作業 402

15.2 Spark配置 417

15.3 Spark應用開發中的常見錯誤 420

15.4 優化技術 425

15.5 本章小結 434

第16章 該聊聊集群了——在集群環境中部署Spark 435

16.1 集群中的Spark架構 435

16.2 在集群中部署Spark應用 444

16.3 本章小結 464

第17章 Spark測試與調試 465

17.1 在分布式環境中進行測試 465

17.2 測試Spark應用 468

17.3 調試Spark應用 483

17.4 本章小結 495

第18章 PySpark與SparkR 496

18.1 PySpark簡介 496

18.2 安裝及配置 497

18.3 SparkR簡介 517

18.4 本章小結 527

第19章 高級機器學習*佳實踐 529

19.1 機器學習*佳實踐 529

19.2 ML模型的超參調整 536

19.3 一個Spark推薦系統 548

19.4 主題建模——文本聚類的*佳實踐 555

19.5 本章小結 568

附錄A 使用Alluxio加速Spark 569

附錄B 利用Apache Zeppelin進行交互式數據分析 583



展開全部

大數據應用與技術叢書Scala和Spark大數據分析.函數式編程.數據流和機器學習 作者簡介

Md. Rezaul Karim 是德國Fraunhofer FIT的研究學者,也是德國亞琛工業大學的博士學位研究生預科生。他擁有計算機科學的學士與碩士學位。在加盟Fraunhofer FIT之前,他曾作為研究員任職于愛爾蘭的數據分析深入研究中心。更早之前,他還擔任過三星電子公司全球研究中心的首席工程師;該研究中心分布于韓國、印度、越南、土耳其以及孟加拉。再早之前,他還在韓國慶熙大學的數據庫實驗室擔任過助理研究員,在韓國的BMTech21公司擔任過研發工程師,在孟加拉國的i2軟件技術公司擔任過軟件工程師。 Karim擁有超過8年的研發領域工作經驗,并在如下算法和數據結構領域具有深厚的技術背景:C/C++、Java、Scala、R、Python、Docker、Mesos、Zeppelin、Hadoop以及MapReduce,并深入學習了如下技術:Spark、Kafka、DC/OS、DeepLearning4j以及H2O-Sparking Water。他的研究興趣包括機器學習、深度學習、語義網絡、關聯數據(Linked Data)、大數據以及生物信息學。同時,他還是Packt出版社出版的以下兩本書籍的作者: ● Large-Scale Machine Learning with Spark ● Deep Learning with TensorFlow Sridhar Alla是一位大數據專家,他曾幫助大大小小的諸多公司解決各種復雜的問題,例如數據倉庫、數據治理、安全、實時數據處理、高頻率的交易系統以及建立大規模的數據科學實踐項目等。他也是敏捷技術的實踐者,是一位獲得認證的敏捷DevOps實踐者和實施者。他在美國網域存儲公司,以存儲軟件工程師的身份開始了自己的職業生涯。然后成為位于波士頓的eIQNetworks公司的CTO,該公司是一家網絡安全公司。在他的履歷表中,還包括曾擔任位于費城的Comcast公司的數據科學與工程總監。他是很多會議或者活動(如Hadoop World、Spark峰會等)的熱心參與者,在多項技術上提供面授/在線培訓。他在美國商標專利局(US PTO)也有多項專利技術,內容涉及大規模計算與分布式系統等。他還持有印度尼赫魯科技大學計算機科學方向的學士學位。目前,他和妻子居住在新澤西州。 Alla在Scala、Java、C、C++、Python、R以及Go語言上有超過18年的編程經驗,他的技術研究范圍也擴展到Spark、Hadoop、Cassandra、HBase、MongoDB、Riak、Redis、Zeppelin、Mesos、Docker、Kafka、ElasticSearch、Solr、H2O、機器學習、文本分析、分布式計算以及高性能計算等領域。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 武汉刮刮奖_刮刮卡印刷厂_为企业提供门票印刷_武汉合格证印刷_现金劵代金券印刷制作 - 武汉泽雅印刷有限公司 | 广州办公室设计,办公室装修,写字楼设计,办公室装修公司_德科 | 大连海岛旅游网>>大连旅游,大连海岛游,旅游景点攻略,海岛旅游官网 | 热镀锌槽钢|角钢|工字钢|圆钢|H型钢|扁钢|花纹板-天津千百顺钢铁贸易有限公司 | 重庆LED显示屏_显示屏安装公司_重庆LED显示屏批发-彩光科技公司 重庆钣金加工厂家首页-专业定做监控电视墙_操作台 | 深圳货架厂_仓库货架公司_重型仓储货架_线棒货架批发-深圳市诺普泰仓储设备有限公司 | 污水处理设备-海普欧环保集团有限公司 | 冲锋衣滑雪服厂家-冲锋衣定制工厂-滑雪服加工厂-广东睿牛户外(S-GERT) | 博莱特空压机|博莱特-阿特拉斯独资空压机品牌核心代理商 | 英国雷迪地下管线探测仪-雷迪RD8100管线仪-多功能数字听漏仪-北京迪瑞进创科技有限公司 | 苏州工作服定做-工作服定制-工作服厂家网站-尺品服饰科技(苏州)有限公司 | 鹤壁创新仪器公司-全自动量热仪,定硫仪,煤炭测硫仪,灰熔点测定仪,快速自动测氢仪,工业分析仪,煤质化验仪器 | 加气混凝土砌块设备,轻质砖设备,蒸养砖设备,新型墙体设备-河南省杜甫机械制造有限公司 | 刹车盘机床-刹车盘生产线-龙口亨嘉智能装备 | 电磁流量计厂家_涡街流量计厂家_热式气体流量计-青天伟业仪器仪表有限公司 | 卫生型双针压力表-高温防腐差压表-安徽康泰电气有限公司 | 深圳市万色印象美业有限公司 | 成都思迪机电技术研究所-四川成都思迪编码器 | 水厂自动化-水厂控制系统-泵站自动化|控制系统-闸门自动化控制-济南华通中控科技有限公司 | 探鸣起名网-品牌起名-英文商标起名-公司命名-企业取名包满意 | 气动隔膜阀_气动隔膜阀厂家_卫生级隔膜阀价格_浙江浙控阀门有限公司 | 耙式干燥机_真空耙式干燥机厂家-无锡鹏茂化工装备有限公司 | 光环国际-新三板公司_股票代码:838504 | 航拍_专业的无人机航拍摄影门户社区网站_航拍网 | 直流电能表-充电桩电能表-导轨式电能表-智能电能表-浙江科为电气有限公司 | 镀锌角钢_槽钢_扁钢_圆钢_方矩管厂家_镀锌花纹板-海邦钢铁(天津)有限公司 | 富森高压水枪-柴油驱动-养殖场高压清洗机-山东龙腾环保科技有限公司 | nalgene洗瓶,nalgene量筒,nalgene窄口瓶,nalgene放水口大瓶,浙江省nalgene代理-杭州雷琪实验器材有限公司 | 电缆接头_防水接头_电缆防水接头 - 乐清市新豪电气有限公司 | 成都思迪机电技术研究所-四川成都思迪编码器 | 自动气象站_农业气象站_超声波气象站_防爆气象站-山东万象环境科技有限公司 | 上海软件开发-上海软件公司-软件外包-企业软件定制开发公司-咏熠科技 | 环氧铁红防锈漆_环氧漆_无溶剂环氧涂料_环氧防腐漆-华川涂料 | 法兰连接型电磁流量计-蒸汽孔板节流装置流量计-北京凯安达仪器仪表有限公司 | TMT观察网_独特视角观察TMT行业| 天津蒸汽/热水锅炉-电锅炉安装维修直销厂家-天津鑫淼暖通设备有限公司 | 截齿|煤截齿|采煤机截齿|掘进机截齿|旋挖截齿-山东卓力截齿厂家报价 | 穿线管|波纹穿线管|包塑金属软管|蛇皮管?闵彬专注弱电工程? | 长沙印刷厂-包装印刷-画册印刷厂家-湖南省日大彩色印务有限公司 青州搬家公司电话_青州搬家公司哪家好「鸿喜」青州搬家 | 济南品牌设计-济南品牌策划-即合品牌策划设计-山东即合官网 | 在线浊度仪_悬浮物污泥浓度计_超声波泥位计_污泥界面仪_泥水界面仪-无锡蓝拓仪表科技有限公司 |