中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊

包郵 高性能Spark

出版社:中國電力出版社出版時間:2018-01-01
開本: 16開 頁數: 372
中 圖 價:¥38.2(3.9折) 定價  ¥98.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
溫馨提示:5折以下圖書主要為出版社尾貨,大部分為全新(有塑封/無塑封),個別圖書品相8-9成新、切口
有劃線標記、光盤等附件不全詳細品相說明>>
本類五星書更多>
買過本商品的人還買了

高性能Spark 版權信息

高性能Spark 本書特色

Apache Spark擴展、優化的*佳實踐在一切都順利時,Apache Spark會帶給你極致的體驗。但如果你沒有達到所希望的性能提升結果,或者對于生產上應用Spark沒有足夠的信心,那么這本書對你來說很實用。在這里,本書作者通過一些性能優化讓Spark查詢運行得更快,能夠處理更大的數據量級,同時只用到更少的資源。 本書提到的相關技術可以節約數據系統架構的成本以及開發人員的時間,適用軟件工程師、數據工程師,以及面對大規模數據應用的系統管理員。此外你還可以加深對Spark的理解,然后學會如何駕馭它。 “本書可以幫助你設計出生產級別Apache Spark方案。同時有助于理解一些關鍵的Spark優化和內部原理。”——Denny Lee微軟Azure DocumentDB團隊核心項目經理

高性能Spark 內容簡介

通過本書,你可以了解到:Spark SQL的新接口如何為SQL的RDD數據結構提升性能。Spark Core與Spark SQL中數據join的不同選擇方式。充分利用標準RDD轉換的技術。如何解決Spark中鍵值范式的性能問題。不借助Scala或其他JVM語言來編寫高性能的Spark代碼。采用改進建議后,如何來測試其功能及性能情況。使用Spark MLlib和Spark ML機器學習庫。Spark的流處理組件、外部的社區擴展包。

高性能Spark 目錄

目錄
前言 .1
第1 章 高性能Spark 介紹 7
1.1 Spark 是什么以及性能的重要性 .7
1.2 你可以從本書中得到什么 8
1.3 Spark 版本 .9
1.4 為什么是 Scala ? 9
1.4.1 成為一名 Spark 專家必須要學習一點 Scala .9
1.4.2 Spark 的 Scala API 比 Java API 更好用 10
1.4.3 Scala 比 Python 更高效 10
1.4.4 為什么不用 Scala ? 11
1.4.5 學習 Scala 11
1.5 小結 12
第2 章 Spark 運行原理 .13
2.1 Spark 如何融入大數據生態系統 14
2.2 Spark 并行計算模型:RDD 16
2.2.1 惰性求值 17
2.2.2 內存持久化和內存管理 20
2.2.3 不可變性和 RDD 接口 . 21
2.2.4 RDD 的類型 23
2.2.5 RDD 上的函數:轉換與行動 24
2.2.6 寬依賴和窄依賴 25
2.3 Spark 作業調度 . 27
2.3.1 應用程序間的資源分配 27
2.3.2 Spark 應用程序 . 28
2.4 Spark Job 剖析 29
2.4.1 有向無環圖(DAG) 30
2.4.2 作業(Job) 31
2.4.3 階段(Stage) 31
2.4.4 任務(Task) 32
2.5 小結 34
第 3 章 DataFrame、Dataset 和Spark SQL 35
3.1 從 SparkSession(或者 HiveContext 和 SQLContext)入門 . 36
3.2 Spark SQL 依賴 39
3.2.1 管理 Spark 依賴 39
3.2.2 避免使用 Hive JAR 40
3.3 schema 基礎 41
3.4 DataFrame API 45
3.4.1 轉換 45
3.4.2 基于多個 DataFrame 的轉換 . 56
3.4.3 普通的 SQL 查詢以及與 Hive 數據交互 . 57
3.5 DataFrame 和 Dataset 中的數據表示 . 58
3.6 數據加載和保存函數 . 59
3.6.1 DataFrameWriter 和 DataFrameReader . 60
3.6.2 格式 60
3.6.3 保存模式 70
3.6.4 分區(發現和寫入) . 70
3.7 Dataset 71
3.7.1 與 RDD、DataFrame 和本地集合的互操作性 72
3.7.2 編譯時強類型 73
3.7.3 簡易函數式轉換操作(類似 RDD) . 74
3.7.4 關系型轉換操作 74
3.7.5 多 Dataset 關系轉換操作 . 75
3.7.6 Dataset 的分組操作 75
3.8 使用用戶自定義的函數和聚合函數(UDF、UDAF)進行擴展 . 76
3.9 查詢優化器 . 79
3.9.1 邏輯和物理計劃 79
3.9.2 代碼生成 79
3.9.3 大型查詢計劃和迭代算法 80
3.10 調試 Spark SQL 查詢 80
3.11 JDBC/ODBC 服務器 81
3.12 小結 . 82
第 4 章 Join (SQL 和Spark Core) 84
4.1 Spark Core 中的 Join . 84
4.1.1 選擇 Join 類型 86
4.1.2 選擇執行計劃 88
4.2 Spark SQL 中的 Join 91
4.2.1 DataFrame 的 Join 91
4.2.2 Dataset 的 Join 95
4.3 小結 96
第 5 章 高效的轉換 .97
5.1 窄轉換與寬轉換 98
5.1.1 對于性能的影響 100
5.1.2 對于容錯的影響 101
5.1.3 coalesce 的特殊情況 102
5.2 轉換會返回什么類型的 RDD . 102
5.3 *小化對象創建成本 104
5.3.1 重用現有對象 . 104
5.3.2 使用更小的數據結構 108
5.4 mapPartitions 迭代器到迭代器的轉換 111
5.4.1 什么是迭代器到迭代器的轉換? 112
5.4.2 空間和時間優勢 113
5.4.3 案例 . 114
5.5 集合操作 117
5.6 降低初始化開銷 118
5.6.1 共享變量 119
5.6.2 廣播變量 119
5.6.3 累加器 121
5.7 重用 RDD . 125
5.7.1 重用的案例 126
5.7.2 判斷重新計算是否足夠劃算 129
5.7.3 重用類型:緩存、持久化、檢查點、shuffle 文件 130
5.7.4 Alluxio(之前的 Tachyon) 135
5.7.5 LRU 緩存 . 135
5.7.6 繁忙集群的注意事項 137
5.7.7 與累加器交互 . 138
5.8 小結 . 139
第 6 章 處理鍵值對數據 . 140
6.1 金發女孩案例 . 142
6.1.1 金發女孩之版本 0:迭代方案 143
6.1.2 如何使用 PairRDDFunctions 和 OrderedRDDFunctions 146
6.2 鍵值對上的行動操作 147
6.3 groupByKey 函數有什么風險 . 148
6.3.1 金發女孩之版本 1:groupByKey 方案 148
6.3.2 為什么 groupByKey 會失敗 150
6.4 選擇聚合操作 . 152
6.5 涉及多個 RDD 的操作 156
6.6 分區器和鍵值對數據 157
6.6.1 使用 Spark 的分區器對象 . 158
6.6.2 哈希分區 158
6.6.3 范圍分區 159
6.6.4 自定義分區 160
6.6.5 保留跨不同轉換的分區信息 160
6.6.6 利用協同位置(Co-located)和協同分區(Co-Partitioned)
的 RDD 161
6.6.7 PairRDDFunctions 中關于映射和分區函數的字典 163
6.7 OrderedRDDFunctions 字典 165
6.8 二級排序和 repartitionAndSortWithinPartitions 167
6.8.1 在按鍵分組和按值排序的函數中利用
repartitionAndSortWithinPartitions 168
6.8.2 如何不按照兩個排序鍵排序 172
6.8.3 金發女孩之版本 2:二級排序 172
6.8.4 金發女孩問題的另外一種不同解法 . 176
6.8.5 金發女孩之版本 3:對單元格值排序 . 181
6.9 掉隊檢測與不均衡數據 . 182
6.9.1 再次回到金發女孩問題 . 184
6.9.2 金發女孩之版本 4:在每個分區上歸并為不同值 184
6.10 小結 191
第 7 章 Scala 之外 192
7.1 JVM 之內、Scala 之外 194
7.2 Scala 之外、JVM 之外 198
7.2.1 PySpark 工作原理 . 198
7.2.2 SparkR 工作原理 207
7.2.3 Spark.jl(Julia Spark) 209
7.2.4 Eclair JS 工作原理 210
7.2.5 Spark 基于公共語言運行時(CLR),C# 及類似語言 211
7.3 在 Spark 中調用其他語言 . 211
7.3.1 使用管道及類似工具 211
7.3.2 JNI 213
7.3.3 Java 本地訪問(JNA) . 216
7.3.4 一切的背后都是 FORTRAN 217
7.3.5 談談 GPU . 218
7.4 未來 . 219
7.5 小結 . 219
第 8 章 測試和驗證 221
8.1 單元測試 221
8.1.1 一般 Spark 單元測試 222
8.1.2 模擬 RDD . 227
8.2 獲取測試數據 . 228
8.2.1 生成大數據集 . 229
8.2.2 抽樣 . 230
8.3 用 ScalaCheck 檢查屬性 232
8.4 集成測試 235
8.5 性能驗證 237
8.5.1 用于性能驗證的 Spark 計數器 237
8.5.2 性能驗證相關項目 238
8.6 作業驗證 239
8.7 小結 . 240
第 9 章 Spark MLlib 和ML 241
9.1 在 Spark MLlib 和 Spark ML 之間選擇 . 241
9.2 使用 MLlib 242
9.2.1 MLlib 入門(組織和導入) 242
9.2.2 MLlib 特征編碼和數據準備 244
9.2.3 特征縮放和選擇 248
9.2.4 MLlib 模型訓練 . 249
9.2.5 預測 . 250
9.2.6 服務和持久化 . 251
9.2.7 模型評估 254
9.3 使用 Spark ML 254
9.3.1 Spark ML 組織和導入 254
9.3.2 管道階段 256
9.3.3 參數解釋 257
9.3.4 數據編碼 258
9.3.5 數據清洗 261
9.3.6 Spark ML 模型 261
9.3.7 整合成管道 262
9.3.8 訓練管道 263
9.3.9 訪問單個階段 . 264
9.3.10 數據持久化和 Spark ML . 264
9.3.11 使用自定義算法擴展 Spark ML 管道 267
9.3.12 模型和管道持久化與 Spark ML 服務 275
9.4 一般服務考量因素 276
9.5 小結 . 276
第 10 章 Spark 組件和包 278
10.1 基于 Spark 的流處理 280
10.1.1 Source 和 Sink . 281
10.1.2 批處理間隔 283
10.1.3 數據 checkpoint 間隔 284
10.1.4 DStream 的注意事項 284
10.1.5 Structured Streaming 的考量因素 286
10.1.6 高可用性模式(或處理 Driver 程序故障或進行 checkpoint) 294
10.2 GraphX 295
10.3 使用社區包和庫 295
10.4 小結 298
附錄 調優、調試以及開發者容易忽略的其他問題 301

展開全部

高性能Spark 作者簡介

Holden Karau是一位加拿大人,在IBM的Spark技術中心擔任軟件開發工程師。同時作為一位Spark committer,經常在PySpark和機器學習方面進行貢獻。另外曾在多次國際會議中發表關于Spark的演講。 Rachel Warren是Alpine Data的軟件工程師和數據科學家。在工作中,她利用Spark來解決實際場景中的數據處理和機器學習問題。另外,她還曾在工業界以及學術界擔任過分析師和導師。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 标准品网_标准品信息网_【中检计量】| 中央空调温控器_风机盘管温控器_智能_液晶_三速开关面板-中央空调温控器厂家 | 超细|超微气流粉碎机|气流磨|气流分级机|粉体改性机|磨粉机|粉碎设备-山东埃尔派粉体科技 | 回转支承-转盘轴承-回转驱动生产厂家-洛阳隆达轴承有限公司 | 绿萝净除甲醛|深圳除甲醛公司|测甲醛怎么收费|培训机构|电影院|办公室|车内|室内除甲醛案例|原理|方法|价格立马咨询 | 无菌水质袋-NASCO食品无菌袋-Whirl-Pak无菌采样袋-深圳市慧普德贸易有限公司 | China plate rolling machine manufacturer,cone rolling machine-Saint Fighter | 河南档案架,档案密集架,手动密集架,河南密集架批发/报价 | 全自动真空上料机_粉末真空上料机_气动真空上料机-南京奥威环保科技设备有限公司 | 门禁卡_智能IC卡_滴胶卡制作_硅胶腕带-卡立方rfid定制厂家 | 陶瓷砂磨机,盘式砂磨机,棒销式砂磨机-无锡市少宏粉体科技有限公司 | 定制异形重型钢格栅板/钢格板_定做踏步板/排水沟盖板_钢格栅板批发厂家-河北圣墨金属制品有限公司 | 气动|电动调节阀|球阀|蝶阀-自力式调节阀-上海渠工阀门管道工程有限公司 | 短信通106短信接口验证码接口群发平台_国际短信接口验证码接口群发平台-速度网络有限公司 | 锂电池生产厂家-电动自行车航模无人机锂电池定制-世豹新能源 | 青州开防盗门锁-配汽车芯片钥匙-保险箱钥匙-吉祥修锁店 | 河南卓美创业科技有限公司-河南卓美防雷公司-防雷接地-防雷工程-重庆避雷针-避雷器-防雷检测-避雷带-避雷针-避雷塔、机房防雷、古建筑防雷等-山西防雷公司 | 知名电动蝶阀,电动球阀,气动蝶阀,气动球阀生产厂家|价格透明-【固菲阀门官网】 | 德州万泰装饰 - 万泰装饰装修设计软装家居馆 | 纯化水设备-纯水设备-超纯水设备-[大鹏水处理]纯水设备一站式服务商-东莞市大鹏水处理科技有限公司 | 雷达液位计_超声波风速风向仪_雨量传感器_辐射传感器-山东风途物联网 | 防火门|抗爆门|超大门|医疗门|隔声门-上海加汇门业生产厂家 | 对夹式止回阀厂家,温州对夹式止回阀制造商--永嘉县润丰阀门有限公司 | 重庆中专|职高|技校招生-重庆中专招生网 | 工业机械三维动画制作 环保设备原理三维演示动画 自动化装配产线三维动画制作公司-南京燃动数字 聚合氯化铝_喷雾聚氯化铝_聚合氯化铝铁厂家_郑州亿升化工有限公司 | 北京开业庆典策划-年会活动策划公司-舞龙舞狮团大鼓表演-北京盛乾龙狮鼓乐礼仪庆典策划公司 | Win10系统下载_32位/64位系统/专业版/纯净版下载 | 申江储气罐厂家,储气罐批发价格,储气罐规格-上海申江压力容器有限公司(厂) | 鄂泉泵业官网|(杭州、上海、全国畅销)大流量防汛排涝泵-LW立式排污泵 | 好看的韩国漫画_韩漫在线免费阅读-汗汗漫画 | 法兰连接型电磁流量计-蒸汽孔板节流装置流量计-北京凯安达仪器仪表有限公司 | 圆窗水平仪|伊莉莎冈特elesa+ganter | 西安微信朋友圈广告投放_微信朋友圈推广_西安度娘网络科技有限公司 | 接地电阻测试仪[厂家直销]_电缆故障测试仪[精准定位]_耐压测试仪-武汉南电至诚电力设备 | 上海单片机培训|重庆曙海培训分支机构—CortexM3+uC/OS培训班,北京linux培训,Windows驱动开发培训|上海IC版图设计,西安linux培训,北京汽车电子EMC培训,ARM培训,MTK培训,Android培训 | 油罐车_加油机_加油卷盘_加油机卷盘_罐车人孔盖_各类球阀_海底阀等车用配件厂家-湖北华特专用设备有限公司 | 知网论文检测系统入口_论文查重免费查重_中国知网论文查询_学术不端检测系统 | 深圳公司注册-工商注册代理-注册公司流程和费用_护航财税 | 贝朗斯动力商城(BRCPOWER.COM) - 买叉车蓄电池上贝朗斯商城,价格更超值,品质有保障! | 山东风淋室_201/304不锈钢风淋室净化设备厂家-盛之源风淋室厂家 翻斗式矿车|固定式矿车|曲轨侧卸式矿车|梭式矿车|矿车配件-山东卓力矿车生产厂家 | 不锈钢丸厂家,铝丸,铸钢丸-淄博智源铸造材料有限公司 |