-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據處理技術基礎與應用(HADOOP+SPARK) 版權信息
- ISBN:9787115637680
- 條形碼:9787115637680 ; 978-7-115-63768-0
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
大數據處理技術基礎與應用(HADOOP+SPARK) 本書特色
1.本書是《大數據》編委會針對校企合作的精心力作。
2.本書凝結了曙光瑞翼多年的教學經驗,能夠滿足校企融合教學的需求。
3.本書旨在介紹Hadoop和Spark的基礎知識,為即將學習大數據技術的讀者奠定基礎。
4.本書采用任務驅動的編寫方式,讀者可以直接進行實驗效果體驗,并進行自由調整。
5.本書采用大量的實踐案例,結合行業典型應用,編寫行業實踐。
6.本書提供豐富的教學資源,包括電子課件、實驗設計等。
大數據處理技術基礎與應用(HADOOP+SPARK) 內容簡介
本書是一本介紹大數據處理技術的專業圖書,力求提高讀者對大數據處理的認知水平和動手能力。本書首先介紹大數據技術的相關概念和發展歷程,從實踐的角度介紹 Hadoop 和 Spark 的安裝部署、編程基礎和使用方法;然后結合具體案例,重點介紹 Spark RDD、 Spark SQL、 Spark Streaming、 Spark GraphFrame 等的應用思路和方法,并通過具體代碼,讓讀者更好地感受大數據處理技術的效果。 本書既可以作為高等院校計算機、大數據等相關專業的教材,也可以作為大數據技術相關從業人員的參考書,還可作為零基礎人員學習 Hadoop 和 Spark 技術的入門圖書。
大數據處理技術基礎與應用(HADOOP+SPARK) 目錄
1.1 大數據技術簡介1
1.1.1 大數據的發展1
1.1.2 大數據的流程4
1.2 大數據的主流軟件5
1.2.1 Hadoop5
1.2.2 Spark8
1.2.3 Flink10
1.2.4 Hadoop與Spark對比11
1.3 大數據的主流編程語言12
1.3.1 Python語言12
1.3.2 Java語言13
1.3.3 Scala語言13
1.4 本章小結13
第 2章 Hadoop部署安裝與使用14
2.1 Linux基本操作14
2.1.1 Linux簡介14
2.1.2 新建與刪除用戶15
2.1.3 目錄權限的查看與修改16
2.1.4 Linux的常用命令18
2.1.5 任務實現21
2.2 搭建Hadoop完全分布式集群21
2.2.1 關閉防火墻21
2.2.2 安裝SSH22
2.2.3 安裝Xshell及Xftp(可選)22
2.2.4 安裝Java24
2.2.5 安裝Hadoop25
2.2.6 克隆主機27
2.2.7 安裝完全分布式模式29
2.3 查看Hadoop集群的基本信息37
2.3.1 查詢存儲系統信息37
2.3.2 查詢計算資源信息38
2.4 本章小結39
第3章 HDFS基本操作40
3.1 Hadoop Shell命令操作HDFS40
3.1.1 HDFS簡介40
3.1.2 HDFS Shell命令簡介45
3.1.3 目錄操作47
3.1.4 文件操作47
3.1.5 利用Web界面管理HDFS50
3.1.6 任務實現52
3.2 Java操作HDFS52
3.2.1 在Eclipse中創建HDFS交互Java項目53
3.2.2 在Java項目中編寫Java應用程序57
3.2.3 編譯運行應用程序與打包文件59
3.2.4 任務實現63
3.2.5 文件常用操作的參考代碼65
3.3 本章小結71
第4章 MapReduce基本原理與編程實現72
4.1 MapReduce基本原理72
4.1.1 MapReduce簡介72
4.1.2 MapReduce編程核心思想73
4.1.3 MapReduce編程規范74
4.1.4 MapReduce的輸入格式75
4.1.5 MapReduce的輸出格式77
4.1.6 分區77
4.1.7 合并78
4.2 編程實現——按訪問次數排序79
4.2.1 編程思路與處理邏輯79
4.2.2 核心模塊代碼81
4.2.3 任務實現83
4.3 本章小結86
第5章 Hive部署與編程基礎87
5.1 搭建偽分布式Hive87
5.1.1 Hive概述87
5.1.2 Hive安裝和配置89
5.2 Hive基本操作91
5.2.1 數據庫基本操作92
5.2.2 數據表基本操作93
5.2.3 數據基本操作95
5.3 編程實現——部門工資統計96
5.4 本章小結98
第6章 Spark部署與編程基礎99
6.1 Spark的運行原理99
6.1.1 集群架構99
6.1.2 運行流程100
6.1.3 核心數據集RDD101
6.1.4 核心原理101
6.2 Scala安裝與使用102
6.2.1 Scala 語言概述102
6.2.2 Scala特性102
6.2.3 環境設置與安裝103
6.3 Spark安裝與使用105
6.3.1 環境搭建前的準備105
6.3.2 Spark的安裝與配置106
6.3.3 在PySpark中運行代碼109
6.3.4 編程實現——Spark獨立應用程序111
6.4 本章小結112
第7章 Spark RDD:彈性分布式數據集113
7.1 RDD概述113
7.2 RDD編程114
7.2.1 RDD編程基礎114
7.2.2 鍵值對RDD136
7.2.3 數據讀 寫操作141
7.3 編程實現145
7.3.1 任務1:取出排名前五的訂單支付金額145
7.3.2 任務2:文件排序149
7.3.3 任務3:二次排序153
7.4 本章小結158
第8章 Spark SQL:結構化數據文件處理159
8.1 Spark SQL概述159
8.1.1 Spark SQL簡介159
8.1.2 Spark SQL CLI配置160
8.1.3 Spark SQL與Shell交互161
8.2 DataFrame基礎操作161
8.2.1 創建DataFrame對象162
8.2.2 DataFrame查看數據168
8.2.3 DataFrame查詢操作171
8.2.4 DataFrame輸出操作176
8.3 Spark SQL與MySQL的交互177
8.4 本章小結180
第9章 Spark Streaming:實時計算框架181
9.1 Spark Streaming概述181
9.1.1 Spark Streaming應用場景181
9.1.2 流計算概述181
9.1.3 Spark Streaming特性分析184
9.2 DStream編程模型基礎187
9.2.1 DStream概述187
9.2.2 基本輸入源188
9.2.3 轉換操作196
9.2.4 輸出操作201
9.3 編程實現——流數據過濾與分析206
9.4 本章小結210
第 10章 Spark GraphFrames:圖計算211
10.1 圖計算概述211
10.1.1 圖的基本概念211
10.1.2 圖計算的應用212
10.1.3 GraphFrames簡介213
10.2 GraphFrames編程模型基礎213
10.2.1 創建實例化圖213
10.2.2 視圖和圖操作214
10.2.3 保存和加載圖216
10.3 編程實現——基于GraphFrames的網頁排名216
10.3.1 準備數據集217
10.3.2 GraphFrames實現算法218
10.3.3 使用PageRank進行網頁排名220
10.4 本章小結220
第 11章 大數據生態常用工具介紹221
11.1 Flume的安裝與使用221
11.1.1 安裝及配置Flume221
11.1.2 實例分析223
11.2 Kafka的安裝與使用225
11.2.1 Kafka相關概念225
11.2.2 安裝Kafka225
11.2.3 實例分析225
11.3 Sqoop的安裝與使用226
11.3.1 安裝及配置Sqoop227
11.3.2 添加MySQL驅動程序229
11.3.3 測試Sqoop與MySQL的連接229
11.4 編程實現——編寫Spark程序使用Kafka數據源230
11.4.1 Kafka準備工作230
11.4.2 Spark準備工作231
11.4.3 編寫代碼233
11.5 本章小結237
大數據處理技術基礎與應用(HADOOP+SPARK) 作者簡介
許桂秋,北京中科特瑞科技有限公司運營總監,主要研究方向為大數據、人工智能技術 ,已出版《大數據導論》《Python編程基礎與應用》《NoSQL數據庫原理與應用》《數據挖掘與機器學習》等圖書。
- >
詩經-先民的歌唱
- >
中國歷史的瞬間
- >
苦雨齋序跋文-周作人自編集
- >
羅庸西南聯大授課錄
- >
龍榆生:詞曲概論/大家小書
- >
小考拉的故事-套裝共3冊
- >
我與地壇
- >
月亮虎