中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
大數據處理框架Apache Spark設計與實現(全彩)

包郵 大數據處理框架Apache Spark設計與實現(全彩)

作者:許利杰
出版社:電子工業出版社出版時間:2020-07-01
開本: 其他 頁數: 276
中 圖 價:¥52.9(5.0折) 定價  ¥106.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

大數據處理框架Apache Spark設計與實現(全彩) 版權信息

大數據處理框架Apache Spark設計與實現(全彩) 本書特色

中科院博士多年沉淀之作,行文嚴謹,全彩印刷,內容扎實,深入Spark底層,打通大數據處理“任督二脈”,讓你能開發出性能更好、可靠性更高的大數據應用,拒絕做somebody! 1 作者為中科院軟件所博士,其多年發表論文的經驗使得這本書的行文完全會讓你眼前一亮,嚴謹且準確。 2 作者精心繪制200余幅圖,本書用四色印刷盡力真實還原出來,呈現著作者強大的技術工匠精神。 3 本書采用問題驅動的敘述方式,強調基本原理的闡述,內容非常扎實,且更多的是關乎大數據處理框架的底層原理描述,所以一旦學懂,肯定會讓你在大數據領域更上一層樓。

大數據處理框架Apache Spark設計與實現(全彩) 內容簡介

近年來,以Apache Spark為代表的大數據處理框架在學術界和工業界得到了廣泛的使用。本書以Apache Spark框架為核心,總結了大數據處理框架的基礎知識、核心理論、典型的Spark應用,以及相關的性能和可靠性問題。本書分9章,主要包含四部分內容。部分 大數據處理框架的基礎知識(~2章):介紹大數據處理框架的基本概念、系統架構、編程模型、相關的研究工作,并以一個典型的Spark應用為例概述Spark應用的執行流程。第二部分 Spark大數據處理框架的核心理論(第3~4章):介紹Spark框架將應用程序轉化為邏輯處理流程,進而轉化為可并行執行的物理執行計劃的一般過程及方法。第三部分 典型的Spark應用(第5章):介紹迭代型的Spark機器學習應用和圖計算應用。第四部分 大數據處理框架性能和可靠性保障機制(第6~9章):介紹Spark框架的Shuffle機制、數據緩存機制、錯誤容忍機制、內存管理機制等。

大數據處理框架Apache Spark設計與實現(全彩) 目錄

目 錄
第 1 章 大數據處理框架概覽 .....................2
1.1 大數據及其帶來的挑戰 .....................2
1.2 大數據處理框架 ........................3
1.3 大數據應用及編程模型 .....................4
1.4 大數據處理框架的四層結構 ...................5
1.4.1 用戶層 .......................... 7
1.4.2 分布式數據并行處理層 ...................11
1.4.3 資源管理與任務調度層 ...................13
1.4.4 物理執行層 ........................15
1.5 錯誤容忍機制 .........................17
1.6 其他大數據處理框架 ......................18
1.7 本章小結 ...........................18
1.8 擴展閱讀 ...........................18
第 2 章 Spark 系統部署與應用運行的基本流程 .............20
2.1 Spark 安裝部署 ........................20
2.2 Spark 系統架構 ........................21
2.3 Spark 應用例子 ........................24
2.3.1 用戶代碼基本邏輯 ................... .24
2.3.2 邏輯處理流程 ....................... 28
2.3.3 物理執行計劃 ....................... 32
2.3.4 可視化執行過程 ...................... 34
2.4 Spark 編程模型 ........................38
2.5 本章小結 ...........................39
第 3 章 Spark 邏輯處理流程 ...................41
3.1 Spark 邏輯處理流程概覽 ....................41
3.2 Spark 邏輯處理流程生成方法 ..................43
3.2.1 根據應用程序如何產生 RDD,產生什么樣的 RDD ......... 44
3.2.2 如何建立 RDD 之間的數據依賴 關系............ 44
3.2.3 如何計算 RDD 中的數據 .................. 49
3.3 常用 transformation() 數據操作 ................50
3.4 常用 action() 數據操作 ..................86
3.5 對比 MapReduce,Spark 的優缺點...............98
3.6 本章小結 .........................99
3.7 擴展閱讀 .........................100
第 4 章 Spark 物理執行計劃 ...................101
4.1 Spark 物理執行計劃概覽 ..................101
4.2 Spark 物理執行計劃生成方法 ................105
4.3 常用數據操作生成的物理執行計劃...............113
4.4 本章小結 .........................121
4.5 擴展閱讀 .........................121
第 5 章 迭代型 Spark 應用 ...................123
5.1 迭代型 Spark 應用的分類及特點...............123
5.2 迭代型機器學習應用 SparkLR ................124
5.2.1 應用描述 ........................124
5.2.2 算法原理 ....................... 125
5.2.3 基于 Spark 的并行化實現 ................ 129
5.2.4 深入討論 ....................... 131
5.3 迭代型機器學習應用――廣義 線性模型............132
5.3.1 算法原理 ....................... 132
5.3.2 基于 Spark 的并行化實現 ................ 136
5.3.3 深入討論 ....................... 139
5.4 迭代型圖計算應用――PageRank ...............140
5.4.1 應用描述 ....................... 140
5.4.2 基于 Spark 的并行化實現 ................ 143
5.4.3 深入討論 ....................... 149
5.5 本章小結 .........................151
第 6 章 Shuffle 機制 ......................153
6.1 Shuffle 的意義及設計挑戰 .................153
6.2 Shuffle 的設計思想 ....................155
6.2.1 解決數據分區和數據聚合問題 ...............156
6.2.2 解決 map() 端 combine問題 ............... 158
6.2.3 解決 sort 問題 ..................... 158
6.2.4 解決內存不足問題 .................... 159
6.3 Spark 中 Shuffle 框架的設計 ...............160
6.3.1 Shuffle Write 框架設計和實現 ............... 161
6.3.2 Shuffle Read 框架設計和實現 ............. 166
6.4 支持高效聚合和排序的數據 結構..............170
6.4.1 AppendOnlyMap 的原理 ................. 171
6.4.2 ExternalAppendOnlyMap ................173
6.4.3 PartitionedAppendOnlyMap .............. 176
6.4.4 PartitionedPairBuffer ................ 176
6.5 與 Hadoop MapReduce 的 Shuffle 機制對比.........177
6.6 本章小結 ........................179
第 7 章 數據緩存機制 ......................180
7.1 數據緩存的意義 ......................180
7.2 數據緩存機制的設計原理 ..................181
7.2.1 決定哪些數據需要被緩存 ................181
7.2.2 包含數據緩存操作的邏輯處理流程和物理執行計劃 ..... 184
7.2.3 緩存級別 ....................... 186
7.2.4 緩存數據的寫入方法 ..................189
7.2.5 緩存數據的讀取方法 .................. 191
7.2.6 用戶接口的設計 .................... 192
7.2.7 緩存數據的替換與回收方法 .................193
7.3 與 Hadoop MapReduce 的緩存機制進行對比............197
7.4 本章小結 ..........................198
第 8 章 錯誤容忍機制 ......................199
8.1 錯誤容忍機制的意義及挑戰 ..................199
8.2 錯誤容忍機制的設計思想 ...................201
8.3 重新計算機制 ........................201
8.3.1 重新計算是否能夠得到與之前一樣的結果 .......... 202
8.3.2 從哪里開始重新計算 ...................204
8.3.3 重新計算機制小結 ....................207
8.4 checkpoint 機制的設計與實現 ................207
8.4.1 哪些數據需要使用 checkpoint機制 ............ 207
8.4.2 checkpoint 數據的寫入及接口 ...............210
8.4.3 checkpoint 時機及計算順序 ................212
8.4.4 checkpoint 數據的讀取 .......... .......213
8.4.5 checkpoint 數據寫入和讀取的實現細節 .......... 213
8.4.6 checkpoint 語句位置的影響.... ..........216
8.4.7 cache + checkpoint .................. 220
8.5 checkpoint 與數據緩存的區別 ...............225
8.6 本章小結 .........................226
第 9 章 內存管理機制 ......................227
9.1 內存管理機制問題及挑戰 .................227
9.2 應用內存消耗來源及影響因素 ..............228
9.2.1 內存消耗來源 1:用戶代碼 .............. 229
9.2.2 內存消耗來源 2:Shuffle 機制中產生的中間數據 ......230
9.2.3 內存消耗來源 3:緩存數據 .............. 231
9.3 Spark 框架內存管理模型 ..................232
9.3.1 靜態內存管理模型 .................... 233
9.3.2 統一內存管理模型 .................... 234
9.4 Spark 框架執行內存消耗與管理................237
9.4.1 Shuffle Write 階段內存消耗及管理 ............ 239
9.4.2 Shuffle Read 階段內存消耗及管理 ............. 245
9.5 數據緩存空間管理 .......................249
9.5.1 RDD 緩存數據 ....................... 250
9.5.2 廣播數據 ......................... 253
9.5.3 task 的計算結果 ..................... 254
9.6 本章小結 ..........................256
參考文獻 ............................258

展開全部

大數據處理框架Apache Spark設計與實現(全彩) 作者簡介

許利杰現任中國科學院軟件研究所副研究員、碩士生導師,于中科院軟件所獲得博士學位。當前主要從事大數據系統方面的研究工作,已在國際權威會議如VLDB、ICDCS、IPDPS、ISSRE、ICAC等發表論文10余篇,主持多項國家自然科學基金,以及華為、京東、聯想等企業的合作研發項目。曾為Apache Spark和Hadoop修復多個內核代碼嚴重錯誤,編寫的SparkInternals技術文檔被社區廣泛關注,獲得四千多顆星。博士期間曾在微軟亞洲研究院、阿里巴巴、騰訊擔任客座研究學生。目前還擔任中國計算機學會系統軟件專委會委員、中國科學院青年創新促進會會員。方亞芬現任中國科學院軟件研究所工程師,于南開大學獲得學士學位、中科院軟件所獲得碩士學位。當前主要從事大數據系統、操作系統方面的研發工作,參與多項國家自然科學基金、國家重點研發計劃,以及華為、騰訊、中國郵政等企業的合作研發項目。曾在阿里巴巴等擔任客座研究學生,目前是華為openEuler社區樹莓派項目負責人。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 泰兴市热钻机械有限公司-热熔钻孔机-数控热熔钻-热熔钻孔攻牙一体机 | 微型气泵-真空-蠕动-水泵-厂家-深圳市品亚科技有限公司 | 木材烘干机,木炭烘干机,纸管/佛香烘干设备-河南蓝天机械制造有限公司 | 黑龙江京科脑康医院-哈尔滨精神病医院哪家好_哈尔滨精神科医院排名_黑龙江精神心理病专科医院 | 哈希PC1R1A,哈希CA9300,哈希SC4500-上海鑫嵩实业有限公司 | 千斤顶,液压千斤顶-力良企业,专业的液压千斤顶制造商,shliliang.com | elisa试剂盒价格-酶联免疫试剂盒-猪elisa试剂盒-上海恒远生物科技有限公司 | 尾轮组_头轮组_矿用刮板_厢式刮板机_铸石刮板机厂家-双驰机械 | 机床主轴维修|刀塔维修|C轴维修-常州翔高精密机械有限公司 | 空调风机,低噪声离心式通风机,不锈钢防爆风机,前倾皮带传动风机,后倾空调风机-山东捷风风机有限公司 | 重庆网站建设,重庆网站设计,重庆网站制作,重庆seo,重庆做网站,重庆seo,重庆公众号运营,重庆小程序开发 | 炭黑吸油计_测试仪,单颗粒子硬度仪_ASTM标准炭黑自销-上海贺纳斯仪器仪表有限公司(HITEC中国办事处) | 浙江工业冷却塔-菱电冷却塔厂家 - 浙江菱电冷却设备有限公司 | 高防护蠕动泵-多通道灌装系统-高防护蠕动泵-www.bjhuiyufluid.com慧宇伟业(北京)流体设备有限公司 | 保温杯,儿童婴童奶瓶,运动水壶「广告礼品杯定制厂家」超朗保温杯壶 | HEYL硬度计量泵-荧光法在线溶解氧仪-净时测控技术(上海)有限公司 | 急救箱-应急箱-急救包厂家-北京红立方医疗设备有限公司 | 环氧树脂地坪漆_济宁市新天地漆业有限公司 | 京马网,京马建站,网站定制,营销型网站建设,东莞建站,东莞网站建设-首页-京马网 | 喷涂流水线,涂装流水线,喷漆流水线-山东天意设备科技有限公司 | 全自动包装秤_全自动上袋机_全自动套袋机_高位码垛机_全自动包装码垛系统生产线-三维汉界机器(山东)股份有限公司 | 耐磨焊丝,堆焊焊丝,耐磨药芯焊丝,碳化钨焊丝-北京耐默公司 | 搪瓷反应釜厂家,淄博搪瓷反应釜-淄博卓耀 | 双能x射线骨密度检测仪_dxa骨密度仪_双能x线骨密度仪_品牌厂家【品源医疗】 | 脱硝喷枪-氨水喷枪-尿素喷枪-河北思凯淋环保科技有限公司 | ★店家乐|服装销售管理软件|服装店收银系统|内衣店鞋店进销存软件|连锁店管理软件|收银软件手机版|会员管理系统-手机版,云版,App | 缠绕机|缠绕膜包装机|缠绕包装机-上海晏陵智能设备有限公司 | 压接机|高精度压接机|手动压接机|昆明可耐特科技有限公司[官网] 胶泥瓷砖胶,轻质粉刷石膏,嵌缝石膏厂家,腻子粉批发,永康家德兴,永康市家德兴建材厂 | 黑田精工电磁阀-CAMMOZI气缸-ROSS电磁-上海茂硕机械设备有限公司 | 水篦子|雨篦子|镀锌格栅雨水篦子|不锈钢排水篦子|地下车库水箅子—安平县云航丝网制品厂 | 专注氟塑料泵_衬氟泵_磁力泵_卧龙泵阀_化工泵专业品牌 - 梭川泵阀 | 陕西安玻璃自动感应门-自动重叠门-磁悬浮平开门厂家【捷申达门业】 | 卷筒电缆-拖链电缆-特种柔性扁平电缆定制厂家「上海缆胜」 | 物和码官网,物和码,免费一物一码数字化营销SaaS平台 | 成都思迪机电技术研究所-四川成都思迪编码器 | 泰安办公家具-泰安派格办公用品有限公司 | 滚筒烘干机_转筒烘干机_滚筒干燥机_转筒干燥机_回转烘干机_回转干燥机-设备生产厂家 | 硫酸钡厂家_高光沉淀硫酸钡价格-河南钡丰化工有限公司 | 广州监控安装公司_远程监控_安防弱电工程_无线wifi覆盖_泉威安防科技 | 微型气象仪_气象传感器_防爆气象传感器-天合传感器大全 | 查分易-成绩发送平台官网|