中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊

包郵 高性能Spark

出版社:中國電力出版社出版時間:2018-01-01
開本: 16開 頁數: 372
中 圖 價:¥49.0(5.0折) 定價  ¥98.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>
買過本商品的人還買了

高性能Spark 版權信息

高性能Spark 本書特色

Apache Spark擴展、優化的*佳實踐在一切都順利時,Apache Spark會帶給你極致的體驗。但如果你沒有達到所希望的性能提升結果,或者對于生產上應用Spark沒有足夠的信心,那么這本書對你來說很實用。在這里,本書作者通過一些性能優化讓Spark查詢運行得更快,能夠處理更大的數據量級,同時只用到更少的資源。 本書提到的相關技術可以節約數據系統架構的成本以及開發人員的時間,適用軟件工程師、數據工程師,以及面對大規模數據應用的系統管理員。此外你還可以加深對Spark的理解,然后學會如何駕馭它。 “本書可以幫助你設計出生產級別Apache Spark方案。同時有助于理解一些關鍵的Spark優化和內部原理。”——Denny Lee微軟Azure DocumentDB團隊核心項目經理

高性能Spark 內容簡介

通過本書,你可以了解到:Spark SQL的新接口如何為SQL的RDD數據結構提升性能。Spark Core與Spark SQL中數據join的不同選擇方式。充分利用標準RDD轉換的技術。如何解決Spark中鍵值范式的性能問題。不借助Scala或其他JVM語言來編寫高性能的Spark代碼。采用改進建議后,如何來測試其功能及性能情況。使用Spark MLlib和Spark ML機器學習庫。Spark的流處理組件、外部的社區擴展包。

高性能Spark 目錄

目錄
前言 .1
第1 章 高性能Spark 介紹 7
1.1 Spark 是什么以及性能的重要性 .7
1.2 你可以從本書中得到什么 8
1.3 Spark 版本 .9
1.4 為什么是 Scala ? 9
1.4.1 成為一名 Spark 專家必須要學習一點 Scala .9
1.4.2 Spark 的 Scala API 比 Java API 更好用 10
1.4.3 Scala 比 Python 更高效 10
1.4.4 為什么不用 Scala ? 11
1.4.5 學習 Scala 11
1.5 小結 12
第2 章 Spark 運行原理 .13
2.1 Spark 如何融入大數據生態系統 14
2.2 Spark 并行計算模型:RDD 16
2.2.1 惰性求值 17
2.2.2 內存持久化和內存管理 20
2.2.3 不可變性和 RDD 接口 . 21
2.2.4 RDD 的類型 23
2.2.5 RDD 上的函數:轉換與行動 24
2.2.6 寬依賴和窄依賴 25
2.3 Spark 作業調度 . 27
2.3.1 應用程序間的資源分配 27
2.3.2 Spark 應用程序 . 28
2.4 Spark Job 剖析 29
2.4.1 有向無環圖(DAG) 30
2.4.2 作業(Job) 31
2.4.3 階段(Stage) 31
2.4.4 任務(Task) 32
2.5 小結 34
第 3 章 DataFrame、Dataset 和Spark SQL 35
3.1 從 SparkSession(或者 HiveContext 和 SQLContext)入門 . 36
3.2 Spark SQL 依賴 39
3.2.1 管理 Spark 依賴 39
3.2.2 避免使用 Hive JAR 40
3.3 schema 基礎 41
3.4 DataFrame API 45
3.4.1 轉換 45
3.4.2 基于多個 DataFrame 的轉換 . 56
3.4.3 普通的 SQL 查詢以及與 Hive 數據交互 . 57
3.5 DataFrame 和 Dataset 中的數據表示 . 58
3.6 數據加載和保存函數 . 59
3.6.1 DataFrameWriter 和 DataFrameReader . 60
3.6.2 格式 60
3.6.3 保存模式 70
3.6.4 分區(發現和寫入) . 70
3.7 Dataset 71
3.7.1 與 RDD、DataFrame 和本地集合的互操作性 72
3.7.2 編譯時強類型 73
3.7.3 簡易函數式轉換操作(類似 RDD) . 74
3.7.4 關系型轉換操作 74
3.7.5 多 Dataset 關系轉換操作 . 75
3.7.6 Dataset 的分組操作 75
3.8 使用用戶自定義的函數和聚合函數(UDF、UDAF)進行擴展 . 76
3.9 查詢優化器 . 79
3.9.1 邏輯和物理計劃 79
3.9.2 代碼生成 79
3.9.3 大型查詢計劃和迭代算法 80
3.10 調試 Spark SQL 查詢 80
3.11 JDBC/ODBC 服務器 81
3.12 小結 . 82
第 4 章 Join (SQL 和Spark Core) 84
4.1 Spark Core 中的 Join . 84
4.1.1 選擇 Join 類型 86
4.1.2 選擇執行計劃 88
4.2 Spark SQL 中的 Join 91
4.2.1 DataFrame 的 Join 91
4.2.2 Dataset 的 Join 95
4.3 小結 96
第 5 章 高效的轉換 .97
5.1 窄轉換與寬轉換 98
5.1.1 對于性能的影響 100
5.1.2 對于容錯的影響 101
5.1.3 coalesce 的特殊情況 102
5.2 轉換會返回什么類型的 RDD . 102
5.3 *小化對象創建成本 104
5.3.1 重用現有對象 . 104
5.3.2 使用更小的數據結構 108
5.4 mapPartitions 迭代器到迭代器的轉換 111
5.4.1 什么是迭代器到迭代器的轉換? 112
5.4.2 空間和時間優勢 113
5.4.3 案例 . 114
5.5 集合操作 117
5.6 降低初始化開銷 118
5.6.1 共享變量 119
5.6.2 廣播變量 119
5.6.3 累加器 121
5.7 重用 RDD . 125
5.7.1 重用的案例 126
5.7.2 判斷重新計算是否足夠劃算 129
5.7.3 重用類型:緩存、持久化、檢查點、shuffle 文件 130
5.7.4 Alluxio(之前的 Tachyon) 135
5.7.5 LRU 緩存 . 135
5.7.6 繁忙集群的注意事項 137
5.7.7 與累加器交互 . 138
5.8 小結 . 139
第 6 章 處理鍵值對數據 . 140
6.1 金發女孩案例 . 142
6.1.1 金發女孩之版本 0:迭代方案 143
6.1.2 如何使用 PairRDDFunctions 和 OrderedRDDFunctions 146
6.2 鍵值對上的行動操作 147
6.3 groupByKey 函數有什么風險 . 148
6.3.1 金發女孩之版本 1:groupByKey 方案 148
6.3.2 為什么 groupByKey 會失敗 150
6.4 選擇聚合操作 . 152
6.5 涉及多個 RDD 的操作 156
6.6 分區器和鍵值對數據 157
6.6.1 使用 Spark 的分區器對象 . 158
6.6.2 哈希分區 158
6.6.3 范圍分區 159
6.6.4 自定義分區 160
6.6.5 保留跨不同轉換的分區信息 160
6.6.6 利用協同位置(Co-located)和協同分區(Co-Partitioned)
的 RDD 161
6.6.7 PairRDDFunctions 中關于映射和分區函數的字典 163
6.7 OrderedRDDFunctions 字典 165
6.8 二級排序和 repartitionAndSortWithinPartitions 167
6.8.1 在按鍵分組和按值排序的函數中利用
repartitionAndSortWithinPartitions 168
6.8.2 如何不按照兩個排序鍵排序 172
6.8.3 金發女孩之版本 2:二級排序 172
6.8.4 金發女孩問題的另外一種不同解法 . 176
6.8.5 金發女孩之版本 3:對單元格值排序 . 181
6.9 掉隊檢測與不均衡數據 . 182
6.9.1 再次回到金發女孩問題 . 184
6.9.2 金發女孩之版本 4:在每個分區上歸并為不同值 184
6.10 小結 191
第 7 章 Scala 之外 192
7.1 JVM 之內、Scala 之外 194
7.2 Scala 之外、JVM 之外 198
7.2.1 PySpark 工作原理 . 198
7.2.2 SparkR 工作原理 207
7.2.3 Spark.jl(Julia Spark) 209
7.2.4 Eclair JS 工作原理 210
7.2.5 Spark 基于公共語言運行時(CLR),C# 及類似語言 211
7.3 在 Spark 中調用其他語言 . 211
7.3.1 使用管道及類似工具 211
7.3.2 JNI 213
7.3.3 Java 本地訪問(JNA) . 216
7.3.4 一切的背后都是 FORTRAN 217
7.3.5 談談 GPU . 218
7.4 未來 . 219
7.5 小結 . 219
第 8 章 測試和驗證 221
8.1 單元測試 221
8.1.1 一般 Spark 單元測試 222
8.1.2 模擬 RDD . 227
8.2 獲取測試數據 . 228
8.2.1 生成大數據集 . 229
8.2.2 抽樣 . 230
8.3 用 ScalaCheck 檢查屬性 232
8.4 集成測試 235
8.5 性能驗證 237
8.5.1 用于性能驗證的 Spark 計數器 237
8.5.2 性能驗證相關項目 238
8.6 作業驗證 239
8.7 小結 . 240
第 9 章 Spark MLlib 和ML 241
9.1 在 Spark MLlib 和 Spark ML 之間選擇 . 241
9.2 使用 MLlib 242
9.2.1 MLlib 入門(組織和導入) 242
9.2.2 MLlib 特征編碼和數據準備 244
9.2.3 特征縮放和選擇 248
9.2.4 MLlib 模型訓練 . 249
9.2.5 預測 . 250
9.2.6 服務和持久化 . 251
9.2.7 模型評估 254
9.3 使用 Spark ML 254
9.3.1 Spark ML 組織和導入 254
9.3.2 管道階段 256
9.3.3 參數解釋 257
9.3.4 數據編碼 258
9.3.5 數據清洗 261
9.3.6 Spark ML 模型 261
9.3.7 整合成管道 262
9.3.8 訓練管道 263
9.3.9 訪問單個階段 . 264
9.3.10 數據持久化和 Spark ML . 264
9.3.11 使用自定義算法擴展 Spark ML 管道 267
9.3.12 模型和管道持久化與 Spark ML 服務 275
9.4 一般服務考量因素 276
9.5 小結 . 276
第 10 章 Spark 組件和包 278
10.1 基于 Spark 的流處理 280
10.1.1 Source 和 Sink . 281
10.1.2 批處理間隔 283
10.1.3 數據 checkpoint 間隔 284
10.1.4 DStream 的注意事項 284
10.1.5 Structured Streaming 的考量因素 286
10.1.6 高可用性模式(或處理 Driver 程序故障或進行 checkpoint) 294
10.2 GraphX 295
10.3 使用社區包和庫 295
10.4 小結 298
附錄 調優、調試以及開發者容易忽略的其他問題 301

展開全部

高性能Spark 作者簡介

Holden Karau是一位加拿大人,在IBM的Spark技術中心擔任軟件開發工程師。同時作為一位Spark committer,經常在PySpark和機器學習方面進行貢獻。另外曾在多次國際會議中發表關于Spark的演講。 Rachel Warren是Alpine Data的軟件工程師和數據科學家。在工作中,她利用Spark來解決實際場景中的數據處理和機器學習問題。另外,她還曾在工業界以及學術界擔任過分析師和導師。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 综合管廊模具_生态,阶梯护坡模具_检查井模具制造-致宏模具厂家 | 苏商学院官网 - 江苏地区唯一一家企业家自办的前瞻型、实操型商学院 | 合肥活动房_安徽活动板房_集成打包箱房厂家-安徽玉强钢结构集成房屋有限公司 | 自动气象站_气象站监测设备_全自动气象站设备_雨量监测站-山东风途物联网 | 耳模扫描仪-定制耳机设计软件-DLP打印机-asiga打印机-fitshape「飞特西普」 | 六维力传感器_三维力传感器_二维力传感器-南京神源生智能科技有限公司 | 海外仓系统|国际货代系统|退货换标系统|WMS仓储系统|海豚云 | 立式硫化罐-劳保用品硫化罐-厂家直销-山东鑫泰鑫硫化罐厂家 | 智能监控-安防监控-监控系统安装-弱电工程公司_成都万全电子 | 广州食堂承包_广州团餐配送_广州堂食餐饮服务公司 - 旺记餐饮 | 车件|铜件|车削件|车床加工|五金冲压件-PIN针,精密车件定制专业厂商【东莞品晔】 | 压缩空气冷冻式干燥机_吸附式干燥机_吸干机_沪盛冷干机 | 蔬菜配送公司|蔬菜配送中心|食材配送|饭堂配送|食堂配送-首宏公司 | 智能汉显全自动量热仪_微机全自动胶质层指数测定仪-鹤壁市科达仪器仪表有限公司 | 炒货机-炒菜机-炒酱机-炒米机@霍氏机械 | IIS7站长之家-站长工具-爱网站请使用IIS7站长综合查询工具,中国站长【WWW.IIS7.COM】 | 深圳市超时尚职业培训学校,培训:月嫂,育婴,养老,家政;化妆,美容,美发,美甲. | 酒糟烘干机-豆渣烘干机-薯渣烘干机-糟渣烘干设备厂家-焦作市真节能环保设备科技有限公司 | 美名宝起名网-在线宝宝、公司、起名平台| 酒万铺-酒水招商-酒水代理 | 自动气象站_气象站监测设备_全自动气象站设备_雨量监测站-山东风途物联网 | 扒渣机厂家_扒渣机价格_矿用扒渣机_铣挖机_撬毛台车_襄阳永力通扒渣机公司 | 深圳市万色印象美业有限公司| 广州二手电缆线回收,旧电缆回收,广州铜线回收-广东益福电缆线回收公司 | 空压机网_《压缩机》杂志| 色谱柱-淋洗液罐-巴罗克试剂槽-巴氏吸管-5ml样品瓶-SBS液氮冻存管-上海希言科学仪器有限公司 | 济南侦探调查-济南调查取证-山东私家侦探-山东白豹调查咨询公司 密集架|电动密集架|移动密集架|黑龙江档案密集架-大量现货厂家销售 | 订做不锈钢_不锈钢定做加工厂_不锈钢非标定制-重庆侨峰金属加工厂 | 黑龙江「京科脑康」医院-哈尔滨失眠医院_哈尔滨治疗抑郁症医院_哈尔滨精神心理医院 | 搬运设备、起重设备、吊装设备—『龙海起重成套设备』 | 纸布|钩编布|钩针布|纸草布-莱州佳源工艺纸布厂 | 北京开业庆典策划-年会活动策划公司-舞龙舞狮团大鼓表演-北京盛乾龙狮鼓乐礼仪庆典策划公司 | 代办建筑资质升级-建筑资质延期就找上海国信启航 | 成都思迪机电技术研究所-四川成都思迪编码器 | 玻纤土工格栅_钢塑格栅_PP焊接_单双向塑料土工格栅_复合防裂布厂家_山东大庚工程材料科技有限公司 | 西子馋火锅鸡加盟-太原市龙城酉鼎餐饮管理有限公司 | 微水泥_硅藻泥_艺术涂料_艺术漆_艺术漆加盟-青岛泥之韵环保壁材 武汉EPS线条_EPS装饰线条_EPS构件_湖北博欧EPS线条厂家 | 磁力抛光机_磁力研磨机_磁力去毛刺机_精密五金零件抛光设备厂家-冠古科技 | 纯水设备_苏州皙全超纯水设备水处理设备生产厂家 | 基业箱_环网柜_配电柜厂家_开关柜厂家_开关断路器-东莞基业电气设备有限公司 | 污水处理设备维修_污水处理工程改造_机械格栅_过滤设备_气浮设备_刮吸泥机_污泥浓缩罐_污水处理设备_污水处理工程-北京龙泉新禹科技有限公司 |