中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
計算機科學優選技術譯叢SPARK實戰

包郵 計算機科學優選技術譯叢SPARK實戰

出版社:機械工業出版社出版時間:2018-04-01
開本: 16開 頁數: 372
中 圖 價:¥69.3(7.0折) 定價  ¥99.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

計算機科學優選技術譯叢SPARK實戰 版權信息

  • ISBN:9787111617488
  • 條形碼:9787111617488 ; 978-7-111-61748-8
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>>

計算機科學優選技術譯叢SPARK實戰 本書特色

本書介紹了Spark應用程序及更高級應用的工作流程,主要從使用角度進行了描述,每個具體內容都有對應的代碼。本書涵蓋了Apache Spark和它豐富的API,構成Spark的組件(包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX),在Spark standalone、 Hadoop YARN以及 Mesos clusters上運行Spark應用程序的部署和安裝。通過對應的實例全面、詳細地介紹了整個Spark實戰開發的流程。*后,還介紹了Spark的高級應用,包括Spark流應用程序及可擴展和快速的機器學習框架H2O。
本書可以作為高等院校計算機、軟件工程、數據科學與大數據技術等專業的大數據課程材料,可用于指導Spark編程實踐,也可供相關技術人員參考使用。

計算機科學優選技術譯叢SPARK實戰 內容簡介

本書介紹了Spark應用程序及更不錯應用的工作流程,主要從使用角度進行了描述,每個具體內容都有對應的代碼。本書涵蓋了Apache Spark和它豐富的API,構成Spark的組件(包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX),在Spark standalone、 Hadoop YARN以及 Mesos clusters上運行Spark應用程序的部署和安裝。通過對應的實例全面、詳細地介紹了整個Spark實戰開發的流程。*后,還介紹了Spark的不錯應用,包括Spark流應用程序及可擴展和快速的機器學習框架H2O。本書可以作為高等院校計算機、軟件工程、數據科學與大數據技術等專業的大數據課程材料,可用于指導Spark編程實踐,也可供相關技術人員參考使用。

計算機科學優選技術譯叢SPARK實戰 目錄

目錄
譯者序
致謝
前言
關于本書
關于作者
關于封面
第1部分 第1步
第1章 Apache Spark介紹
1.1什么是Spark
1.1.1 Spark革命
1.1.2 MapReduce的缺點
1.1.3 Spark帶來了什么有價值的東西
1.2 Spark組件
1.2.1 Spark核心
1.2.2 Spark SQL
1.2.3 Spark Streaming
1.2.4 Spark MLlib
1.2.5 Spark GraphX
1.3 Spark程序流
1.4 Spark生態系統
1.5 建立spark-in-action 虛擬機
1.5.1下載啟動虛擬機
1.5.2 停止虛擬機
1.6總結
第2章 Spark基礎
2.1使用spark-in-action虛擬機
2.1.1 復制Spark in Action GitHub存儲庫
2.1.2 找到java
2.1.3 用虛擬機的Hadoop安裝
2.1.4 檢查虛擬機的Spark安裝
2.2用Spark shell(殼)編寫**個Spark程序
2.2.1 啟動Spark shell
2.2.2 **個Spark代碼示例
2.2.3 彈性分布式數據集的概念
2.3基礎RDD行為和轉換
2.3.1 使用用map轉換
2.3.2 使用distinct和flatMap 轉換
2.3.3 使用sample、take和takeSample操作獲取RDD的元素
2.4 Double RDD功能
2.4.1 Double RDD基本統計
2.4.2 使用直方圖可視化數據分布
2.4.3 近似求和與平均值
2.5 總結
第3章 編寫Spark應用程序
3.1在Eclipse上生成一個新的Spark項目
3.2開發應用程序
3.2.1 準備 GitHub 檔案數據
3.2.2 加載 JSON
3.2.3 從Eclipse運行應用
3.2.4 數據匯總
3.2.5 排除非公司員工
3.2.6 廣播變量
3.2.7 使用整個數據集
3.3提交應用程序
3.3.1 建立uberjar
3.3.2 調整應用程序
3.3.3 使用spark-submit
3.4 總結
第4章 深入Spark API
4.1使用鍵值對RDD
4.1.1 創建鍵值對RDD
4.1.2 鍵值對RDD的基本功能
4.2了解數據分區和減少數據混排
4.2.1 使用spark數據分區器
4.2.2 了解和避免不必要的數據混排
4.2.3 RDD重新分區
4.2.4 在分區中映射數據
4.3 連接、排序、分組數據
4.3.1 連接數據
4.3.2 數據排序
4.3.3 數據分組
4.4 理解RDD依賴
4.4.1 RDD依賴和Spark執行
4.4.2 Spark階段和任務
4.4.3 使用檢查點保存Spark譜系
4.5 使用累加器和廣播變量與spark執行器進行溝通
4.5.1 使用累加器從執行器獲取數據
4.5.2 使用廣播變量將數據發送數據到執行器
4.6總結
第二部分 認識Spark家族
第5章 Spark SQL查詢
5.1使用DataFrames
5.1.1 從RDD創建DataFrames
5.1.2 DataFrame API 基礎知識
5.1.3 用SQL函數執行數據計算
5.1.4 使用缺失值
5.1.5 將DataFrames轉換為RDD
5.1.6 分組和連接數據
5.1.7 執行連接
5.2超越DataFrames:引入DataSet
5.3使用SQL命令
5.3.1 表目錄和Hive metastore
5.3.2 執行SQL查詢
5.3.3 通過Thrift服務器連接到Spark SQL
5.4保存并加載DataFrame 數據
5.4.1 內置數據源
5.4.2 保存數據
5.4.3 加載數據
5.5 Catalyst 優化器
5.6 Tungsten性能改進
5.7總結
第6章 使用Spark Streaming提取數據
6.1編寫Spark Streaming應用程序
6.1.1 介紹示例程序
6.1.2 創建流上下文
6.1.3 創建離散流
6.1.4 使用離散流
6.1.5 把結果保存到文檔
6.1.6 啟動和停止流計算
6.1.7 隨著保存計算狀態
6.1.8 使用窗口操作進行限制計算
6.1.9 檢查其他內置輸入流
6.2使用外部數據源
6.2.1 設置kafka
6.2.2 使用kafka更改流應用程序
6.3 Spark Streaming任務的性能
6.3.1 獲得良好的性能
6.3.2 實現容錯
6.4結構化流
6.4.1 創建流式DataFrame
6.4.2 輸出流數據
6.4.3 檢查流執行
6.4.4 結構化流的未來方向
6.5總結
第7章 使用MLlib變聰明
7.1機器學習簡介
7.1.1 機器學習的定義
7.1.2 機器學習算法分類
7.1.3 使用Spark進行機器學習
7.2 Spark中的線性代數
7.2.1 本地向量與矩陣實現
7.2.2 分布式矩陣
7.3線性回歸
7.3.1 有關線性回歸
7.3.2 簡單的線性回歸
7.3.3 將模型擴展到多元線性回歸
7.4分析和準備數據
7.4.1 分析數據分布
7.4.2 分析列余弦相似性
7.4.3 協方差矩陣的計算
7.4.4 轉化為標記點
7.4.5 拆分數據
7.4.6 特征縮放和平均歸一化
7.5擬合和使用線性回歸模型
7.5.1 預測目標值
7.5.2 評估模型性能
7.5.3 解釋模型參數
7.5.4 加載和保存模型
7.6調整算法
7.6.1 找到正確的步長和迭代次數
7.6.2 添加高階多項式
7.6.3 偏差-方差權衡和模型復雜度
7.6.4 繪制殘差圖
7.6.5 利用正則化避免過度擬合
7.6.6 k折交叉驗證
7.7優化線性回歸
7.7.1 小批量隨機梯度下降
7.7.2 LBFGS優化
7.8總結
八、ML:分類和聚類
8.1 Spark ML 圖書館
8.1.1 估計器,變壓器和評估器
8.1.2 ML參數
8.1.3 ML管道
8.2邏輯回歸
8.2.1 二元邏輯回歸模型
8.2.2準備數據在Spark中使用邏輯回歸
8.2.3 訓練模型
8.2.4 評估分類模型
8.2.5 執行k折交叉驗證
8.2.6 多類邏輯回歸
8.3決策樹和隨機森林
8.3.1 決策樹
8.3.2 隨機森林
8.4使用k均值聚類
8.4.1 k均值聚類
8.5總結
第9章 使用GraphX連接點
9.1 Spark圖處理
9.1.1 使用GraphX API構造圖
9.1.2 轉換圖
9.2圖算法
9.2.1 數據集的介紹
9.2.2 *短路徑算法
9.2.3 頁面排名
9.2.4 連通分量
9.2.5 強連通分量
9.3實現A *搜索算法
9.3.1 了解A *搜索算法
9.3.2 實現A *搜索算法
9.3.3 測試實現
9.4總結
第3部分 Spark ops
第10章 運行Spark
10.1 Spark的運行時架構概述
10.1.1 Spark運行組件
10.1.2 Spark集群類型
10.2作業與資源調度
10.2.1 集群資源調度
10.2.2 Spark作業調度
10.2.3 數據局部性考慮
10.2.4 Spark內存調度
10.3配置Spark
10.3.1 Spark配置文件
10.3.2 命令行參數
10.3.3 系統環境變量
10.3.4 譯編程方式設置配置
10.3.5 master參數
10.3.6 查看所有配置的參數
10.4 Spark Web UI (網絡用戶界面)
10.4.1 Jobs(作業)頁面
10.4.2 Stages(階段)頁面
10.4.3 Storage(存儲)頁面
10.4.4 Environment(環境)頁面
10.4.5 Executors(執行器)頁面
10.5在本地機器運行Spark
10.5.1 本地模式
10.5.2 本地集群模式
10.6總結
第11章 在Spark獨立集群上運行
11.1 Spark Standalone集群組件
11.1.1 啟動Stanalone集群
11.1.2 用shell腳本啟動群集
11.1.3 手動啟動集群
11.1.4 查看Spark進程
11.1.5 Standalone master高可用性和恢復
11.3 Standalone集群網絡用戶界面
11.4 在3Standalone集群中運行應用程序
11.4.1 驅動器的位置
11.4.2 指定執行器的數量
11.4.3 指定額外的類路徑和文件
11.4.4 終止應用程序
11.4.5 應用程序自動重啟
11.5 Spark歷史記錄服務器和事件日志記錄
11.6 在Amazon EC2上運行
11.6.1 先決條件
11.6.2 創建一個E2C獨立集群
11.6.3 使用E2C集群
11.6.4 銷毀集群
11.7 總結
第12章 在YARN and Mesos運行
12.1 在YARN上運行Spark
12.1.1 YARN架構
12.1.2 安裝配置啟動YARN
12.1.3 YARN中的資源調度
12.1.4 向YARN提交Spark應用程序
12.1.5 在YARN上配置Spark
12.1.6 為Spark工作配置資源
12.1.7 YARN UI
12.1.8 在YARN上尋找日志
12.1.9 安全注意事項
12.1.10 動態資源分配
12.2在Mesos上運行Spark
12.2.1 Mesos架構
12.2.2 安裝配置Mesos
12.2.3 Mesos Web UI
12.2.4 Mesos資源調度
12.2.5 向Mesos提交Spark應用程序
12.2.6 使用 Docker運行Spark
12.3總結
第4部分 協同使用
第13章 實例學習:實時儀表盤
13.1了解用例
13.1.1 概況
13.1.2 了解應用程序組件
13.2 運行應用程序
13.2.1 在spark-in-action VM中運行應用程序
13.2.2 手動啟動應用程序
13.3 理解源代碼
13.3.1 KafkaLogsSimulator項目
13.3.2 Streaming Log Analyzer項目
13.3.3 Web統計信息顯示板項目
13.3.4 建設項目
13.4總結
第14章 H20深入學習Spark
14.1什么是深入學習
14.2 在Spark中使用H2O和
14.2.1 什么是H2O
14.4.2 在Spark中啟動Sparkling Water
14.4.3 啟動H2O集群
14.4.4 訪問Flow UI
14.3 使用H2O的深度學習進行回歸
14.4.3 將數據加載到H2O框架中
14.4.4 使用Flow UI構建和評估深度學習模型
14.4.5 使用Sparkling Water API構建和評估深度學習模型
14.4使用H2O的深度學習進行分類
14.4.1 加載和拆分數據
14.4.2 通過Flow UI 建造模型
14.4.3 通過Sparkling Water API建造模型
14.4.4 停止H2O集群
14.5總結
附錄A 安裝Apache Spark
附錄B 了解MapReduce
附錄C 線性代數基礎
展開全部
商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 仓储笼_金属箱租赁_循环包装_铁网箱_蝴蝶笼租赁_酷龙仓储笼租赁 测试治具|过炉治具|过锡炉治具|工装夹具|测试夹具|允睿自动化设备 | 植筋胶-粘钢胶-碳纤维布-碳纤维板-环氧砂浆-加固材料生产厂家-上海巧力建筑科技有限公司 | 云南成人高考网| LZ-373测厚仪-华瑞VOC气体检测仪-个人有毒气体检测仪-厂家-深圳市深博瑞仪器仪表有限公司 | 德国GMN轴承,GMN角接触球轴承,GMN单向轴承,GMN油封,GMN非接触式密封 | 仓储笼_金属箱租赁_循环包装_铁网箱_蝴蝶笼租赁_酷龙仓储笼租赁 测试治具|过炉治具|过锡炉治具|工装夹具|测试夹具|允睿自动化设备 | 直流电能表-充电桩电能表-导轨式电能表-智能电能表-浙江科为电气有限公司 | 新能源汽车教学设备厂家报价[汽车教学设备运营18年]-恒信教具 | 金属雕花板_厂家直销_价格低-山东慧诚建筑材料有限公司 | 广州网站建设_小程序开发_番禺网站建设_佛山网站建设_粤联网络 | 食品无尘净化车间,食品罐装净化车间,净化车间配套风淋室-青岛旭恒洁净技术有限公司 | 全自动端子机|刺破式端子压接机|全自动双头沾锡机|全自动插胶壳端子机-东莞市傅氏兄弟机械设备有限公司 | 挤出机_橡胶挤出机_塑料挤出机_胶片冷却机-河北伟源橡塑设备有限公司 | 数控车床-立式加工中心-多功能机床-小型车床-山东临沂金星机床有限公司 | 航拍_专业的无人机航拍摄影门户社区网站_航拍网 | 无纺布包装机|径向缠绕包装机|缠绕膜打包机-上海晏陵智能设备有限公司 | 玄米影院| 传爱自考网_传爱自学考试网 | 家德利门业,家居安全门,别墅大门 - 安徽家德利门业有限公司 | 隐形纱窗|防护纱窗|金刚网防盗纱窗|韦柏纱窗|上海青木装潢制品有限公司|纱窗国标起草单位 | 深圳离婚律师咨询「在线免费」华荣深圳婚姻律师事务所专办离婚纠纷案件 | 西门子伺服电机维修,西门子电源模块维修,西门子驱动模块维修-上海渠利 | TTCMS自助建站_网站建设_自助建站_免费网站_免费建站_天天向上旗下品牌 | 深圳宣传片制作_产品视频制作_深圳3D动画制作公司_深圳短视频拍摄-深圳市西典映画传媒有限公司 | 金现代信息产业股份有限公司--数字化解决方案供应商 | 储能预警-储能消防系统-电池舱自动灭火装置-四川千页科技股份有限公司官网 | 挤塑板-XPS挤塑板-挤塑板设备厂家[襄阳欧格] | 顺景erp系统_erp软件_erp软件系统_企业erp管理系统-广东顺景软件科技有限公司 | 能量回馈_制动单元_电梯节能_能耗制动_深圳市合兴加能科技有限公司 | 合肥弱电工程_安徽安防工程_智能化工程公司-合肥雷润 | 全自动包装机_灌装机生产厂家-迈驰包装设备有限公司 | 聚合氯化铝厂家-聚合氯化铝铁价格-河南洁康环保科技 | 通辽信息港 - 免费发布房产、招聘、求职、二手、商铺等信息 www.tlxxg.net | PSI渗透压仪,TPS酸度计,美国CHAI PCR仪,渗透压仪厂家_价格,微生物快速检测仪-华泰和合(北京)商贸有限公司 | 爱佩恒温恒湿测试箱|高低温实验箱|高低温冲击试验箱|冷热冲击试验箱-您身边的模拟环境试验设备技术专家-合作热线:400-6727-800-广东爱佩试验设备有限公司 | 承插管件_不锈钢承插管件_锻钢高压管件-温州科正阀门管件有限公司 | 车间除尘设备,VOCs废气处理,工业涂装流水线,伸缩式喷漆房,自动喷砂房,沸石转轮浓缩吸附,机器人喷粉线-山东创杰智慧 | 上海瑶恒实业有限公司|消防泵泵|离心泵|官网 | 定硫仪,量热仪,工业分析仪,马弗炉,煤炭化验设备厂家,煤质化验仪器,焦炭化验设备鹤壁大德煤质工业分析仪,氟氯测定仪 | 瓶盖扭矩仪(扭力值检测)-百科 | 谷歌关键词优化-外贸网站优化-Google SEO小语种推广-思亿欧外贸快车 |