中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊

包郵 Spark實戰(第2版)

出版社:清華大學出版社出版時間:2022-05-30
開本: 16開 頁數: 368
中 圖 價:¥68.9(6.9折) 定價  ¥99.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

Spark實戰(第2版) 版權信息

Spark實戰(第2版) 本書特色

企業數據的分析始于讀取、過濾和合并來自多個數據源的文件和數據流。Spark數據處理引擎是這方面的佼佼者,可處理各種量級的數據,其傳輸速度比Hadoop 系統快100倍。得益于SQL的支持、直觀的界面和簡單的多語言API,你可輕松使用Spark,而不必學習復雜的新型生態系統。 《Spark實戰(第2版)》將引導你創建端到端分析應用程序。在本書中,你可學習基于Java的有趣示例,包括用于處理NASA衛星數據的完整數據管道。你還可查看托管在GitHub.上的有關Java、Python和Scala的代碼示例, 并探索、修改此代碼。此外,本書的附錄為你提供速查表,幫助你安裝工具和理解特定的Spark術語。

Spark實戰(第2版) 內容簡介

  企業數據的分析始于讀取、過濾和合并來自多個數據源的文件和數據流。Spark數據處理引擎是這方面的佼佼者,可處理各種量級的數據,其傳輸速度比Hadoop系統快100倍。得益于SQL的支持、直觀的界面和簡單的多語言API,你可輕松使用Spark,而不必學習復雜的新型生態系統。  《Spark實戰(第2版)》將引導你創建端到端分析應用程序。在書中,你可學習基于Java的有趣示例,包括用于處理NASA衛星數據的完整數據管道。你還可查看托管在GitHub上的有關Java、Python和Scala的代碼示例,并探索、修改此代碼。此外,《Spark實戰(第2版)》的附錄為你提供速查表,幫助你安裝工具和理解特定的Spark術語。  主要內容  用Java編寫的Spark應用程序  Spark應用架構  提取文件、數據庫、數據流和Elasticsearch的數據  使用Spark SQL查詢分布式數據集  閱讀門檻  《Spark實戰(第2版)》讀者不需要具備有關Spark、Scala或Hadoop的經驗。

Spark實戰(第2版) 目錄

PAGE IV Spark實戰(第2版) STYLEREF 章上 MERGEFORMAT 目 錄 PAGE V 目 錄 第Ⅰ部分 通過示例講解理論 第1章 Spark介紹 3 1.1 Spark簡介及其作用 4 1.1.1 什么是Spark 4 1.1.2 Spark神力的四個支柱 5 1.2 如何使用Spark 7 1.2.1 數據處理/工程場景中的Spark 7 1.2.2 數據科學場景中的Spark 8 1.3 使用Spark,能做些什么 9 1.3.1 使用Spark預測NC餐飲行業的_x00B_餐館質量 10 1.3.2 Spark允許Lumeris進行快速數據_x00B_傳輸 10 1.3.3 Spark分析CERN的設備日志 10 1.3.4 其他用例 11 1.4 為什么你應該喜歡數據幀 11 1.4.1 從Java角度了解數據幀 11 1.4.2 從RDBMS角度理解數據幀 12 1.4.3 數據幀的圖形表示 12 1.5 **個示例 13 1.5.1 推薦軟件 13 1.5.2 下載代碼 13 1.5.3 運行**個應用程序 14 1.5.4 **份代碼 15 1.6 小結 16 第2章 架構和流程 17 2.1 構建思維模型 17 2.2 使用Java代碼構建思維模型 18 2.3 運行應用程序 21 2.3.1 連接到主機 21 2.3.2 加載或提取CSV文件 22 2.3.3 轉換數據 25 2.3.4 將數據幀中完成的工作保存到_x00B_數據庫中 26 2.4 小結 29 第3章 數據幀的重要作用 31 3.1 數據幀在Spark中的基本作用 32 3.1.1 數據幀的組織 32 3.1.2 不變性并非貶低之詞 33 3.2 通過示例演示數據幀的使用 35 3.2.1 簡單提取CSV后的數據幀 36 3.2.2 數據存儲在分區中 40 3.2.3 挖掘模式 41 3.2.4 提取JSON后的數據幀 43 3.2.5 合并兩個數據幀 48 3.3 數據幀Dataset 53 3.3.1 重用POJO 53 3.3.2 創建字符串數據集 54 3.3.3 來回轉換 55 3.4 數據幀的祖先:RDD 60 3.5 小結 61 第4章 Spark的“惰性”本質 63 4.1 現實中懶惰但高效的示例 64 4.2 懶惰但高效的Spark示例 65 4.2.1 查看數據轉換和數據操作的_x00B_結果 65 4.2.2 數據轉換的過程,逐步進行 66 4.2.3 數據轉換/操作流程的后臺代碼 68 4.2.4 在182毫秒內創建700多萬個_x00B_數據點的奧秘 71 4.2.5 操作計時背后的奧秘 72 4.3 與RDBMS和傳統應用程序進行_x00B_比較 76 4.3.1 使用青少年生育率數據集 76 4.3.2 分析傳統應用程序和Spark_x00B_應用程序之間的區別 77 4.4 對于以數據為中心的應用程序_x00B_而言,Spark的表現出乎意料 78 4.5 Catalyst是應用程序的催化器 79 4.6 小結 81 第5章 構建一個用于部署的簡單_x00B_應用程序 83 5.1 無數據提取的示例 83 5.1.1 計算π 84 5.1.2 計算近似值π的代碼 85 5.1.3 Java中的lambda函數是什么 90 5.1.4 使用lambda函數估算π 92 5.2 與Spark交互 93 5.2.1 本地模式 94 5.2.2 集群模式 95 5.2.3 Scala和Python的交互模式 97 5.3 小結 102 第6章 部署簡單的應用程序 105 6.1 示例之外:組件的作用 106 6.1.1 快速瀏覽組件及其之間的交互 107 6.1.2 Spark架構的故障排除技巧 110 6.1.3 知識拓展 110 6.2 構建集群 111 6.2.1 如何構建集群 111 6.2.2 設置環境 112 6.3 構建應用程序,在集群上運行 115 6.3.1 構建應用程序的超級JAR 115 6.3.2 使用Git和Maven構建應用_x00B_程序 117 6.4 在集群上運行應用程序 119 6.4.1 提交超級JAR 119 6.4.2 運行應用程序 120 6.4.3 分析Spark的用戶界面 121 6.5 小結 122 第Ⅱ部分 數據提取 第7章 從文件中提取數據 125 7.1 解析器的常見行為 126 7.2 從CSV中提取數據_x00B_(比較復雜) 126 7.2.1 預期輸出 128 7.2.2 代碼 128 7.3 使用已知模式提取CSV 129 7.3.1 預期輸出 130 7.3.2 代碼 130 7.4 提取JSON文件 132 7.4.1 預期輸出 134 7.4.2 代碼 134 7.5 提取多行JSON文件 135 7.5.1 預期輸出 137 7.5.2 代碼 137 7.6 提取XML文件 138 7.6.1 預期輸出 140 7.6.2 代碼 140 7.7 提取文本文件 142 7.7.1 預期輸出 143 7.7.2 代碼 143 7.8 用于大數據的文件格式 144 7.8.1 傳統文件格式的問題 144 7.8.2 Avro是基于模式的序列化_x00B_格式 145 7.8.3 ORC是一種列式存儲格式 145 7.8.4 Parquet也是一種列式存儲_x00B_格式 146 7.8.5 比較Avro、ORC和Parquet 146 7.9 提取Avro、ORC和Parquet_x00B_文件 146 7.9.1 提取Avro 146 7.9.2 提取ORC 148 7.9.3 提取Parquet 150 7.9.4 用于提取Avro、ORC或Parquet_x00B_的參考表格 151 7.10 小結 151 第8章 從數據庫中提取數據 153 8.1 從關系數據庫中提取數據 154 8.1.1 數據庫連接備忘錄 154 8.1.2 了解示例中使用的數據 155 8.1.3 預期輸出 156 8.1.4 代碼 157 8.1.5 可替代的代碼 159 8.2 dialect的作用 160 8.2.1 什么是dialect 160 8.2.2 Spark提供的JDBC dialect 161 8.2.3 構建自定義dialect 161 8.3 高級查詢和提取 163 8.3.1 使用WHERE子句進行過濾 163 8.3.2 在數據庫中連接數據 166 8.3.3 執行數據提取和分區 168 8.3.4 高級功能總結 171 8.4 從Elasticsearch中提取數據 171 8.4.1 數據流 171 8.4.2 Spark提取的NYC餐館_x00B_數據集 172 8.4.3 從 Elasticsearch中提取NYC_x00B_餐館數據集的代碼 173 8.5 小結 175 第9章 數據提取進階:尋找數據源與_x00B_構建自定義數據源 177 9.1 什么是數據源 179 9.2 直接連接數據源的好處 179 9.2.1 臨時文件 180 9.2.2 數據質量腳本 181 9.2.3 按需提供數據 181 9.3 查找Spark軟件包中的數據源 181 9.4 構建自己的數據源 181 9.4.1 示例項目的范圍 182 9.4.2 數據源API和選項 183 9.5 幕后工作:構建數據源本身 185 9.6 使用注冊器文件和廣告器類 186 9.7 理解數據和模式之間的關系 188 9.7.1 數據源構建關系 189 9.7.2 關系內部 191 9.8 使用JavaBean構建模式 194 9.9 使用實用程序構建數據幀的_x00B_神奇方法 196 9.10 其他類 201 9.11 小結 201 第10章 提取結構化流數據 203 10.1 什么是流數據 204 10.2 創建首個流數據 205 10.2.1 生成文件流數據 206 10.2.2 消費記錄 208 10.2.3 獲取記錄,而非數據行 213 10.3 從網絡流數據中提取數據 214 10.4 處理多個流數據 216 10.5 區分離散化流數據和結構化_x00B_流數據 221 10.6 小結 221 第III部分 轉換數據 第11章 使用SQL 225 11.1 使用Spark SQL 225 11.2 本地視圖與全局視圖之間的_x00B_區別 229 11.3 混合使用數據幀API和_x00B_Spark SQL 230 11.4 不要刪除數據 233 11.5 進一步了解SQL 235 11.6 小結 235 第12章 轉換數據 237 12.1 數據轉換是什么 238 12.2 在記錄層面進行數據轉換的_x00B_過程和示例 238 12.2.1 數據發現,了解數據的_x00B_復雜性 240 12.2.2 數據映射,繪制過程 241 12.2.3 編寫轉換代碼 244 12.2.4 審查數據轉換,確保質量_x00B_流程 249 12.2.5 如何排序 251 12.2.6 結束Spark數據轉換的首次_x00B_演示 251 12.3 連接數據集 251 12.3.1 仔細查看要連接的數據集 252 12.3.2 構建各縣的高等教育機構_x00B_列表 253 12.3.3 執行連接操作 258 12.4 執行更多的數據轉換 263 12.5 小結 263 第13章 轉換整個文檔 265 13.1 轉換整個文檔及其結構 265 13.1.1 展平JSON文檔 266 13.1.2 構建嵌套文檔,用于數據_x00B_傳輸和存儲 270 13.2 靜態函數背后的魔力 274 13.3 執行更多的數據轉換 275 13.4 小結 275 第14章 使用自定義函數擴展數據_x00B_轉換 277 14.1 擴展Apache Spark 278 14.2 注冊和調用UDF 279 14.2.1 在Spark中注冊UDF 281 14.2.2 將UDF與數據幀API結合_x00B_起來使用 282 14.2.3 使用SQL處理UDF 283 14.2.4 實現UDF 284 14.2.5 編寫服務代碼 285 14.3 使用UDF,確保數據高質量 287 14.4 考慮UDF的約束 289 14.5 小結 289 第15章 聚合數據 291 15.1 使用Spark聚合數據 291 15.1.1 簡單回顧數據聚合 292 15.1.2 使用Spark執行基本的數據_x00B_聚合 294 15.2 使用實時數據執行數據聚合 296 15.2.1 準備數據集 297 15.2.2 聚合數據,更好地了解_x00B_學校 301 15.3 使用UDAF構建自定義的_x00B_聚合操作 306 15.4 小結 311 第IV部分 百尺竿頭,更進一步 第16章 緩存和檢查點:增強Spark的_x00B_性能 315 16.1 使用緩存和檢查點可提高_x00B_性能 315 16.1.1 Spark緩存的用途 317 16.1.2 Spark檢查點的妙用 318 16.1.3 使用緩存和檢查點 318 16.2 緩存實戰 326 16.3 有關性能優化的知識拓展 335 16.4 小結 335 第17章 導出數據,構建完整數據_x00B_管道 337 17.1 導出數據的主要概念 337 17.1.1 使用NASA數據集構建_x00B_管道 338 17.1.2 將列轉換為日期時間_x00B_(datetime) 341 17.1.3 將置信度百分比轉換為_x00B_置信度等級 341 17.1.4 導出數據 342 17.1.5 導出數據:實際發生了_x00B_什么 344 17.2 Delta Lake:使用系統核心的_x00B_數據庫 346 17.2.1 理解需要數據庫的原因 346 17.2.2 在數據管道中使用_x00B_Delta Lake 347 17.2.3 消費來自Delta Lake的_x00B_數據 351 17.3 從Spark訪問云存儲服務 353 17.4 小結 354 第18章 探索部署約束:了解生態_x00B_系統 355 18.1 使用YARN、Mesos和_x00B_Kubernetes管理資源 356 18.1.1 使用內置的獨立模式_x00B_管理資源 356 18.1.2 在Hadoop環境中,使用_x00B_YARN管理資源 357 18.1.3 Mesos是獨立的資源_x00B_管理器 358 18.1.4 Kubernetes編排容器 360 18.1.5 選擇合適的資源管理器 360 18.2 與Spark共享文件 361 18.2.1 訪問文件中包含的數據 362 18.2.2 通過分布式文件系統共享_x00B_文件 362 18.2.3 訪問共享驅動器或文件_x00B_服務器上的文件 363 18.2.4 使用文件共享服務分發_x00B_文件 364 18.2.5 訪問Spark文件的其他_x00B_選項 365 18.2.6 用于與Spark共享文件的_x00B_混合解決方案 365 18.3 確保Spark應用程序的安全 365 18.3.1 保護基礎架構的網絡組件 366 18.3.2 保護Spark磁盤的使用 367 18.4 小結 367 附錄部分內容通過封底二維碼下載獲取 附錄A 安裝Eclipse 369 附錄B 安裝Maven 375 附錄C 安裝Git 379 附錄D 下載代碼,啟用Eclipse 381 附錄E 企業數據的歷史 387 附錄F 有關關系數據庫的幫助信息 391 附錄G 靜態函數使數據轉換變得容易 397 附錄H 簡略的Maven備忘單 407 附錄I 數據轉換和數據操作的_x00B_參考資料 411 附錄J Scala簡介 421 附錄K 在生產環境中安裝Spark,以及一些提示 423 附錄L 關于數據提取的參考資料 435 附錄M 關于連接的參考資料 447 附錄N 安裝Elasticsearch和_x00B_示例數據 459 附錄O 生成流數據 465 附錄P 有關流數據的參考資料 469 附錄Q 有關導出數據的參考資料 479 附錄R 遇到困難,尋找幫助 487
展開全部

Spark實戰(第2版) 作者簡介

Jean-Georges Perrin是-位經驗豐富的數據和軟件架構師。他是法國的第一位IBM Champion,并連續12年獲獎,成為終身IBM Chempion。Jean-Georges Perrin 對軟件工程和數據的各個方面充滿熱情。新項目促使他轉向分布式的數據工程,在此項目中,他在混合云環境中廣泛使用Apache Spark、Java和其他工具。他很自豪地成為法國第一個公認的IBM Champion,并連續12年獲獎。作為獲獎的數據和軟件工程專家,現在,他在全球范圍內都開展了業務,但重心在他所居住的美國。Jean-Georges是資深的會議演講者和參與者,他以書面或在線媒體的形式發表文章,分享他在IT行業超過25年的經驗。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: H型钢切割机,相贯线切割机,数控钻床,数控平面钻,钢结构设备,槽钢切割机,角钢切割机,翻转机,拼焊矫一体机 | 高压负荷开关-苏州雷尔沃电器有限公司 | 净化车间_洁净厂房_净化公司_净化厂房_无尘室工程_洁净工程装修|改造|施工-深圳净化公司 | 3d可视化建模_三维展示_产品3d互动数字营销_三维动画制作_3D虚拟商城 【商迪3D】三维展示服务商 广东健伦体育发展有限公司-体育工程配套及销售运动器材的体育用品服务商 | 等离子空气净化器_医用空气消毒机_空气净化消毒机_中央家用新风系统厂家_利安达官网 | 桂林腻子粉_内墙外墙抗裂砂浆腻子粉推荐广西鑫达涂料厂家供应 | 经济师考试_2025中级经济师报名时间_报名入口_考试时间_华课网校经济师培训网站 | RO反渗透设备_厂家_价格_河南郑州江宇环保科技有限公司 | 发电机组|柴油发电机组-批发,上柴,玉柴,潍柴,康明斯柴油发电机厂家直销 | 山东钢衬塑罐_管道_反应釜厂家-淄博富邦滚塑防腐设备科技有限公司 | 回转窑-水泥|石灰|冶金-巩义市瑞光金属制品有限责任公司 | Type-c防水母座|贴片母座|耳机接口|Type-c插座-深圳市步步精科技有限公司 | MVE振动电机_MVE震动电机_MVE卧式振打电机-河南新乡德诚生产厂家 | 广西正涛环保工程有限公司【官网】 | 玄米影院| 健康管理师报名入口,2025年健康管理师考试时间信息网-网站首页 塑料造粒机「厂家直销」-莱州鑫瑞迪机械有限公司 | 安德建奇火花机-阿奇夏米尔慢走丝|高维|发那科-北京杰森柏汇 | 天长市晶耀仪表有限公司| 黑龙江「京科脑康」医院-哈尔滨失眠医院_哈尔滨治疗抑郁症医院_哈尔滨精神心理医院 | 液压中心架,数控中心架,自定心中心架-烟台恒阳机电设计有限公司 行星搅拌机,双行星搅拌机,动力混合机,无锡米克斯行星搅拌机生产厂家 | 广州企亚 - 数码直喷、白墨印花、源头厂家、透气无手感方案服务商! | 小学教案模板_中学教师优秀教案_高中教学设计模板_教育巴巴 | 自恢复保险丝_贴片保险丝_力特保险丝_Littelfuse_可恢复保险丝供应商-秦晋电子 | 海峰资讯 - 专注装饰公司营销型网站建设和网络营销培训 | 钛合金标准件-钛合金螺丝-钛管件-钛合金棒-钛合金板-钛合金锻件-宝鸡远航钛业有限公司 | POM塑料_PBT材料「进口」聚甲醛POM杜邦原料、加纤PBT塑料报价格找利隆塑料 | 华溶溶出仪-Memmert稳定箱-上海协烁仪器科技有限公司 | 雷达液位计_超声波风速风向仪_雨量传感器_辐射传感器-山东风途物联网 | 杰福伦_磁致伸缩位移传感器_线性位移传感器-意大利GEFRAN杰福伦-河南赉威液压科技有限公司 | 坏男孩影院-提供最新电影_动漫_综艺_电视剧_迅雷免费电影最新观看 | 仿真茅草_人造茅草瓦价格_仿真茅草厂家_仿真茅草供应-深圳市科佰工贸有限公司 | 杜甫仪器官网|实验室平行反应器|升降水浴锅|台式低温循环泵 | ISO9001认证咨询_iso9001企业认证代理机构_14001|18001|16949|50430认证-艾世欧认证网 | 砂石生产线_石料生产线设备_制砂生产线设备价格_生产厂家-河南中誉鼎力智能装备有限公司 | 冷镦机-多工位冷镦机-高速冷镦机厂家-温州金诺机械设备制造有限公司 | 农产品溯源系统_农产品质量安全追溯系统_溯源系统 | 杭州营业执照代办-公司变更价格-许可证办理流程_杭州福道财务管理咨询有限公司 | 山东活动策划|济南活动公司|济南公关活动策划-济南锐嘉广告有限公司 | 专注提供国外机电设备及配件-工业控制领域一站式服务商-深圳市华联欧国际贸易有限公司 | 考勤系统_人事考勤管理系统_本地部署BS考勤系统_考勤软件_天时考勤管理专家 | 钢格板|镀锌钢格板|热镀锌钢格板|格栅板|钢格板|钢格栅板|热浸锌钢格板|平台钢格板|镀锌钢格栅板|热镀锌钢格栅板|平台钢格栅板|不锈钢钢格栅板 - 专业钢格板厂家 |