中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊

包郵 SPARK性能優化實戰

作者:謝雪葵
出版社:清華大學出版社出版時間:2023-11-01
開本: 其他 頁數: 355
中 圖 價:¥69.9(7.0折) 定價  ¥99.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

SPARK性能優化實戰 版權信息

SPARK性能優化實戰 本書特色

全面、深入地總結資深工程師多年大數據項目實戰經驗
理論結合實踐,由淺入深地展現Spark性能優化的核心技術
內容全面:涵蓋Spark性能優化的基礎知識、核心技術和應用實踐,對Spark性能優化進行全面、系統的探討。
實用性強:不但介紹理論知識,而且結合350多個示例和多個實戰案例解析Spark性能優化的核心技術與應用,幫助讀者更好地實施優化策略。
適用面廣:無論是Spark性能優化初學者,還是開發人員、數據工程師和數據科學家等從業人員,都可以從本書中獲得需要的知識和技能。
前瞻性強:基于Spark的新版本寫作,不但介紹其新特性,而且介紹其集成Hadoop、Kafka和Elasticsearch使用時的性能優化方法。
講解深入:對Spark性能優化的核心技術與工作原理進行深入講解,以便讓讀者能夠理解Spark的內部結構和運行機制,從而更有效地對其性能進行優化。

SPARK性能優化實戰 內容簡介

《Spark性能優化實戰:突破性能瓶頸,遨游數據重洋》全面、系統、深入地介紹Apache Spark性能優化的相關技術和策略,涵蓋從Spark性能優化的基礎知識到核心技術,再到應用實踐的方方面面。本書不但系統地介紹各種監控工具的使用,而且還結合實戰案例,詳細介紹Spark性能優化的各種經驗和技巧,提升讀者的實際應用技能。 《Spark性能優化實戰:突破性能瓶頸,遨游數據重洋》共8章。第1章從性能優化的基本概念出發,介紹Spark的基礎知識,并介紹如何進行性能優化;第2章介紹Spark性能優化的幾個方面,包括程序設計優化、資源優化、網絡通信優化和數據讀寫優化等;第3章深入介紹Spark任務執行過程優化;第4章介紹Spark SQL性能優化;第5章結合實戰案例全面解析Spark性能優化的核心技術與應用;第6章詳細介紹不同應用場景的性能優化策略;第7章介紹Spark集成Hadoop、Kafka和Elasticsearch使用時的性能優化,從而提供更實用的Spark性能提升方案;第8章介紹Spark應用程序開發與優化,以及集群管理實踐。 《Spark性能優化實戰:突破性能瓶頸,遨游數據重洋》內容豐富,講解深入淺出,適合Apache Spark開發人員、數據工程師和數據科學家閱讀,也適合需要處理大規模數據集和對Spark性能優化感興趣的技術人員閱讀,還可作為高等院校大數據專業的教材和相關培訓機構的教學用書。

SPARK性能優化實戰 目錄

第1章 性能優化基礎 1
1.1 Spark簡介 1
1.2 什么是Spark性能優化 1
1.3 Spark應用程序性能指標 2
1.4 自帶的Spark Web UI 5
1.4.1 Jobs模塊 6
1.4.2 Stages模塊 12
1.4.3 Storage模塊 16
1.4.4 Environment模塊 17
1.4.5 Executors模塊 18
1.4.6 SQL模塊 19
1.5 自帶的Spark歷史服務器 21
1.5.1 Spark歷史服務器簡介 21
1.5.2 配置、啟動和訪問Spark
歷史服務器 22
1.6 Spark事件日志 23
1.6.1 Spark的常見事件 23
1.6.2 事件信息 24
1.6.3 Spark啟動事件分析案例 24
1.6.4 Spark事件日志的用途 25
1.6.5 CPU密集型與內存密集型
分析案例 26
1.7 Spark驅動程序日志 27
1.8 Spark Executor日志 28
1.8.1 Spark Executor日志簡介 28
1.8.2 日志解析 28
1.8.3 配置Executor打印日志到
Driver節點 29
1.8.4 使用Executor完成時間異常
分析案例 30
1.9 Linux系統監控工具 31
1.9.1 top命令 31
1.9.2 htop命令 32
1.9.3 iostat命令 32
1.9.4 vmstat命令 34
1.9.5 sar命令 35
1.9.6 Spark進程的CPU和內存
監控案例 35
1.10 JVM監控工具 36
1.10.1 JConsole監控工具 37
1.10.2 JVisualVM監控工具 38
1.10.3 使用JVisualVM定位內存
泄漏案例 41
1.11 第三方工具Prometheus 42
1.11.1 Prometheus簡介 42
1.11.2 Prometheus架構的
工作原理 42
1.11.3 安裝Prometheus 43
1.11.4 使用Prometheus Web UI 46
1.11.5 基于PromQL磁盤的多維度
分析案例 47
1.12 第三方工具Grafana 48
1.12.1 Grafana簡介 48
1.12.2 安裝Grafana 48
1.12.3 數據源和儀表盤 49
1.12.4 在Grafana中創建查詢和
可視化 52
1.12.5 監控分析Spark指標案例 55
1.13 Spark性能測試與驗證 56
1.13.1 性能測試之基準測試 56
1.13.2 性能測試之壓力測試 57
1.13.3 性能測試之資源測試 59
1.13.4 性能測試之基準優化測試 61
1.13.5 獲取測試數據 62 1.13.6 使用Spark MLlib生成電商網站
測試數據案例 64
1.13.7 性能測試工具SparkPerf 65
1.13.8 性能測試工具HiBench 68
1.13.9 ScalaCheck檢查屬性案例 70
1.13.10 準確性驗證之單元測試 71
1.13.11 準確性驗證之集成測試 73
1.13.12 準確性驗證之作業驗證 75
1.14 Spark執行計劃 77
1.14.1 Spark執行計劃簡介 77
1.14.2 Spark執行計劃的生成
過程 78
1.14.3 執行計劃中的邏輯計劃 80
1.14.4 執行計劃中的物理計劃 84
1.14.5 Spark鎢絲計劃Tungsten 89
1.14.6 Spark階段劃分和
任務劃分 90
1.14.7 Spark執行計劃的優化和
調試 91
1.14.8 Spark執行計劃的可視化 92
1.14.9 Shuffle性能瓶頸識別案例 93
1.15 Spark任務性能瓶頸的定位 94
1.15.1 性能瓶頸的定義和識別性能
瓶頸的意義 95
1.15.2 數據傾斜引發的性能問題 96
1.15.3 數據本地性問題 98
1.15.4 網絡瓶頸問題 100
1.15.5 內存管理問題 102
1.15.6 垃圾回收問題 104
1.15.7 Spark長時任務性能瓶頸
定位案例 105
第2章 Spark應用程序性能優化 107
2.1 程序設計優化 107
2.1.1 數據模型策略優化 107
2.1.2 緩存策略優化 108
2.1.3 廣播變量策略優化 109
2.1.4 累加器策略優化 111
2.1.5 函數式編程策略優化 113
2.1.6 全局變量策略優化 115
2.1.7 程序設計優化綜合案例 116
2.2 資源優化 118
2.2.1 Spark資源管理的重要性 118
2.2.2 Spark內存管理的
優化技巧 119
2.2.3 Spark中的CPU優化技巧 123
2.2.4 Spark磁盤管理的
優化技巧 125
2.2.5 Spark Shuffle分配的
優化技巧 125
2.2.6 Spark并行度與資源分配的
平衡 127
2.2.7 Spark分區策略優化 129
2.2.8 Spark內存溢出的
應對策略 130
2.2.9 Spark Shuffle分配優化
案例 131
2.3 網絡通信優化 133
2.3.1 網絡通信架構和組件 133
2.3.2 網絡通信協議和數據
傳輸方式 134
2.3.3 數據壓縮策略 135
2.3.4 序列化策略 137
2.3.5 網絡緩存策略 139
2.3.6 I/O優化策略 140
2.3.7 帶寬限制和網絡擁塞控制 141
2.3.8 數據本地性優化策略 142
2.3.9 網絡安全和認證優化 143
2.3.10 進程本地化優化案例 144
2.4 數據讀寫優化 147
2.4.1 數據讀取的優化技巧 147
2.4.2 數據寫入的優化技巧 147
2.4.3 過濾數據的讀取優化 148
2.4.4 分區讀取數據的優化 149
2.4.5 批量寫入數據的優化 150
2.4.6 并行寫入數據的優化 152
2.4.7 列存儲數據的讀取優化 153
2.4.8 數據預處理優化技巧 154
2.4.9 數據存儲位置優化技巧 154
2.4.10 內存和磁盤數據緩存
優化技巧 155
2.4.11 數據格式優化技巧 156
2.4.12 轉換方式優化技巧 157
2.4.13 索引數據讀取優化技巧 159
2.4.14 數據讀寫錯誤的處理和
容錯技巧 160
2.4.15 Alluxio的使用 162
2.4.16 利用壓縮數據減少傳輸量
案例 166
第3章 Spark任務執行過程優化 169
3.1 調度優化 169
3.1.1 資源管理器的基本原理 169
3.1.2 理解Spark資源管理器 171
3.1.3 資源分配策略 174
3.1.4 資源調度算法 176
3.1.5 集群資源池化技術 180
3.1.6 Docker容器 182
3.1.7 基于YARN的資源管理 184
3.1.8 基于Mesos的資源管理 188
3.1.9 基于Kubernetes的資源
管理 190
3.1.10 Spark資源利用率和性能
優化案例 204
3.2 任務執行器優化 206
3.2.1 Spark任務執行器組件簡介 206
3.2.2 Spark任務執行器的線程池
配置優化 210
3.2.3 Spark任務執行器的JVM參數
配置優化 211
3.2.4 Spark任務執行器的堆內存
配置優化 213
3.2.5 Spark任務執行器的直接內存
配置優化 215
3.2.6 Spark任務執行器的內存分配
方式優化 216
3.2.7 Spark任務執行器的GC策略
配置優化 218 3.2.8 Spark任務執行器的資源隔離
配置優化 219
3.2.9 Spark任務執行器的容錯機制
優化 220
3.2.10 Spark任務線程池的并行度
提升和吞吐量增強案例 221
第4章 Spark SQL性能優化 223
4.1 常用的查詢優化 223
4.1.1 謂詞下推 223
4.1.2 窄依賴 224
4.1.3 聚合查詢優化 224
4.1.4 Join查詢優化 226
4.1.5 子查詢優化 227
4.1.6 聯合查詢優化 228
4.1.7 窗口函數優化 229
4.1.8 排序查詢優化 232
4.1.9 內置函數優化 232
4.1.10 Union連接優化 233
4.1.11 表設計優化 233
4.1.12 使用窗口函數實現高效的
分組統計案例 234
4.2 Spark 3.0的新特性 236
4.2.1 AQE的自動分區合并 236
4.2.2 AQE的自動傾斜處理 238
4.2.3 AQE的Join策略調整 239
4.2.4 DPP動態分區剪裁 240
4.2.5 Join Hints的使用技巧 241
4.2.6 使用Join Hints解決數據傾斜
案例 244
4.3 Spark SQL數據傾斜優化 245
4.3.1 廣播變量 245
4.3.2 采樣 246
4.3.3 手動指定Shuffle分區數 248
4.3.4 隨機前綴和哈希 249
4.3.5 使用Map Join方法 251
4.3.6 預先聚合 253
4.3.7 排序 255
4.3.8 動態重分區 257 4.3.9 手動實現動態重分區案例 258
4.4 特定場景優化 259
4.4.1 大表連接小表 259
4.4.2 大表連接大表 262
4.4.3 窗口函數優化 265
4.4.4 復雜邏輯和函數調用優化 268
4.4.5 多表關聯查詢優化 270
4.4.6 寬表查詢優化 272
4.4.7 使用兩階段Shuffle解決傾斜
大表關聯案例 272
第5章 Spark性能優化
案例分析 281
5.1 基于Spark的短視頻推薦系統
性能優化 281
5.1.1 短視頻推薦系統概述 281
5.1.2 將Spark作為短視頻推薦系統的
計算框架 285
5.1.3 客戶端Push業務 287
5.1.4 Model_Server大寬表 288
5.1.5 推薦請求表ETL的優化 289
5.1.6 Model_Server大寬表的
優化 294
5.1.7 案例總結 296
5.2 基于Spark的航空數據分析系統性能
優化 297
5.2.1 系統概述 297
5.2.2 性能評估與瓶頸分析 299
5.2.3 數據分區與存儲優化 300
5.2.4 任務調度與資源管理 301
5.2.5 數據預處理與轉換優化 302
5.2.6 查詢優化與性能優化 304
5.2.7 并行計算與調度優化 305
5.2.8 監控與優化策略 306
第6章 不同場景的Spark性能
優化 309
6.1 批處理模式的優化策略 309
6.1.1 數據傾斜優化之預聚合 309 6.1.2 數據傾斜優化之鍵值對
重分區 313
6.1.3 數據傾斜優化之調整分區
數量 314
6.1.4 數據傾斜優化之廣播變量 316
6.1.5 數據傾斜優化之動態調整分區
大小 317
6.1.6 數據傾斜優化之使用Map Join
方法 318
6.1.7 數據傾斜優化之隨機前綴和
擴容RDD 319
6.1.8 數據傾斜優化之采樣傾斜
key 320
6.1.9 數據傾斜優化之過濾特定
數據 322
6.1.10 數據傾斜優化之組合策略 323
6.1.11 基于內存的Shuffle操作
優化 324
6.1.12 基于Sort的Shuffle操作
優化 325
6.1.13 基于壓縮和序列化的Shuffle
操作優化 326
6.1.14 基于增量式的Shuffle
操作優化 326
6.2 流式處理場景的優化策略 327
6.2.1 批處理間隔優化 327
6.2.2 狀態管理優化 328
6.2.3 窗口操作優化 329
6.3 機器學習場景的優化策略 330
6.3.1 模型訓練優化 330
6.3.2 特征工程優化 331
第7章 Spark集成其他技術的
性能優化 333
7.1 Spark與Hadoop整合優化 333
7.1.1 數據讀寫優化 333
7.1.2 數據存儲優化 334
7.2 Spark與Kafka整合優化 336
7.2.1 數據讀寫優化 336 7.2.2 數據處理優化 337
7.3 Spark與Elasticsearch的整合優化 339
7.3.1 數據寫入和索引優化 340
7.3.2 數據查詢和性能優化 341
第8章 Spark性能優化實踐 344
8.1 Spark應用程序開發建議 344
8.1.1 代碼規范 344
8.1.2 數據分析 346
8.1.3 數據處理 348
8.2 Spark應用程序優化建議 349
8.2.1 數據壓縮 349
8.2.2 合理使用緩存 350
8.2.3 Shuffle操作 351
8.3 Spark集群管理的優化建議 352
8.3.1 資源管理 352
8.3.2 任務調度 353
8.3.3 故障處理 354
結束語 356 Spark性能優化實戰:突破性能瓶頸,遨游數據重洋
  
目錄
  
·VIII·
  
  
·IX·
  
  
  
  
  
  
展開全部

SPARK性能優化實戰 作者簡介

謝雪葵: 資深研發工程師,CCF會員,阿誠網絡創始人。有多年的軟件設計和開發經驗,專注于大數據技術與服務。近年來主持和參與多個大型銀行和互聯網公司的大數據項目,累積了豐富的大數據項目開發及性能優化經驗。為多家企業提供技術支持,幫助其降低成本和提高效率。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 集装箱箱号识别_自重载重图像识别_铁路车号自动识别_OCR图像识别 | 超声波清洗机-超声波清洗设备定制生产厂家 - 深圳市冠博科技实业有限公司 | 超细|超微气流粉碎机|气流磨|气流分级机|粉体改性机|磨粉机|粉碎设备-山东埃尔派粉体科技 | 油缸定制-液压油缸厂家-无锡大鸿液压气动成套有限公司 | 沈阳网站建设_沈阳网站制作_沈阳网页设计-做网站就找示剑新零售 沈阳缠绕膜价格_沈阳拉伸膜厂家_沈阳缠绕膜厂家直销 | 耐火浇注料-喷涂料-浇注料生产厂家_郑州市元领耐火材料有限公司 耐力板-PC阳光板-PC板-PC耐力板 - 嘉兴赢创实业有限公司 | 卓能JOINTLEAN端子连接器厂家-专业提供PCB接线端子|轨道式端子|重载连接器|欧式连接器等电气连接产品和服务 | 网站建设-网站制作-网站设计-网站开发定制公司-网站SEO优化推广-咏熠软件 | 广东青藤环境科技有限公司-水质检测 | ERP企业管理系统永久免费版_在线ERP系统_OA办公_云版软件官网 | 汽车润滑油厂家-机油/润滑油代理-高性能机油-领驰慧润滑科技(河北)有限公司 | 免费分销系统 — 分销商城系统_分销小程序开发 -【微商来】 | 开云(中国)Kaiyun·官方网站-登录入口 | 并离网逆变器_高频UPS电源定制_户用储能光伏逆变器厂家-深圳市索克新能源 | 冷却塔降噪隔音_冷却塔噪声治理_冷却塔噪音处理厂家-广东康明冷却塔降噪厂家 | 波纹补偿器_不锈钢波纹补偿器_巩义市润达管道设备制造有限公司 | 上海公司注册-代理记账-招投标审计-上海昆仑扇财税咨询有限公司 上海冠顶工业设备有限公司-隧道炉,烘箱,UV固化机,涂装设备,高温炉,工业机器人生产厂家 | 玉米深加工设备|玉米加工机械|玉米加工设备|玉米深加工机械-河南成立粮油机械有限公司 | 数显水浴恒温振荡器-分液漏斗萃取振荡器-常州市凯航仪器有限公司 | 土壤墒情监测站_土壤墒情监测仪_土壤墒情监测系统_管式土壤墒情站-山东风途物联网 | 云南丰泰挖掘机修理厂-挖掘机维修,翻新,再制造的大型企业-云南丰泰工程机械维修有限公司 | 天津力值检测-天津管道检测-天津天诚工程检测技术有限公司 | 福州甲醛检测-福建室内空气检测_环境检测_水质检测-福建中凯检测技术有限公司 | 便民信息网_家电维修,家电清洗,开锁换锁,本地家政公司 | 干洗店加盟_洗衣店加盟_干洗店设备-伊蔻干洗「武汉总部」 | 带式过滤机厂家_价格_型号规格参数-江西核威环保科技有限公司 | 不锈钢闸阀_球阀_蝶阀_止回阀_调节阀_截止阀-可拉伐阀门(上海)有限公司 | 耐磨陶瓷,耐磨陶瓷管道_厂家-淄博拓创陶瓷科技 | 玉米深加工设备|玉米加工机械|玉米加工设备|玉米深加工机械-河南成立粮油机械有限公司 | 大型工业风扇_工业大风扇_大吊扇_厂房车间降温-合昌大风扇 | 楼承板-钢筋楼承板-闭口楼承板-无锡优贝斯楼承板厂 | 户外环保不锈钢垃圾桶_标识标牌制作_园林公园椅厂家_花箱定制-北京汇众环艺 | 四探针电阻率测试仪-振实密度仪-粉末流动性测定仪-宁波瑞柯微智能 | 商秀—企业短视频代运营_抖音企业号托管 | 罗茨真空机组,立式无油往复真空泵,2BV水环真空泵-力侨真空科技 | 丹佛斯压力传感器,WISE温度传感器,WISE压力开关,丹佛斯温度开关-上海力笙工业设备有限公司 | 北京工业设计公司-产品外观设计-产品设计公司-千策良品工业设计 北京翻译公司-专业合同翻译-医学标书翻译收费标准-慕迪灵 | 铝合金电阻-无源谐波滤波器-上海稳达电讯设备厂 | 福建珂朗雅装饰材料有限公司「官方网站」 | 我爱古诗词_古诗词名句赏析学习平台 | 广州番禺搬家公司_天河黄埔搬家公司_企业工厂搬迁_日式搬家_广州搬家公司_厚道搬迁搬家公司 |