-
>
闖進數(shù)學世界――探秘歷史名題
-
>
中醫(yī)基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫(yī)內(nèi)科學·全國中醫(yī)藥行業(yè)高等教育“十四五”規(guī)劃教材
Hadoop技術原理與案例教程 微課版 版權信息
- ISBN:9787115639691
- 條形碼:9787115639691 ; 978-7-115-63969-1
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
Hadoop技術原理與案例教程 微課版 本書特色
體系完整:涵蓋Hadoop全生態(tài)技術原理與工具。
面向問題:問題引入,需求驅動、案例實踐。
理論與實踐并重:學習路線為“技術基礎技術原理案例開發(fā)”,每章前有思維導圖,后有常見問題與解決方案、本章小結。
資源豐富:提供微課、課件、視頻、習題等配套教學資源。
Hadoop技術原理與案例教程 微課版 內(nèi)容簡介
本書系統(tǒng)地介紹Hadoop技術原理與應用。全書分為四篇,**篇為分布式存儲與計算基礎,第二篇為數(shù)據(jù)倉庫Hive,第三篇為非關系數(shù)據(jù)庫HBase,第四篇為綜合案例。本書共14章,包括大數(shù)據(jù)基礎、Hadoop簡介、Hadoop分布式文件系統(tǒng)、Hadoop分布式計算系統(tǒng)、Hadoop資源管理器Yam、Hadoop案例開發(fā)、Hive原理與應用、Hive數(shù)據(jù)定義、Hive數(shù)據(jù)分析基礎、Hive數(shù)據(jù)分析案例、HBase基礎知識、HBase原理與架構、HBase案例開發(fā)、綜合案例等。本書原理與實踐并重,前三篇每章都有基本案例和課后習題,以及相應的綜合應用案例,第四篇是總結性的綜合案例,以便讀者能夠深入理解原理并培養(yǎng)相應的工程實踐能力。本書可作為高等院校大數(shù)據(jù)、計算機、信息處理等相關專業(yè)的大數(shù)據(jù)課程教材,也可作為大數(shù)據(jù)等相關技術人員的培訓教材。
Hadoop技術原理與案例教程 微課版 目錄
第1章 大數(shù)據(jù)基礎
1.1 數(shù)據(jù)、信息和知識 2
1.2 大數(shù)據(jù) 3
1.2.1 大數(shù)據(jù)的發(fā)展歷程 3
1.2.2 大數(shù)據(jù)的定義 5
1.3 數(shù)據(jù)分析流程 7
1.3.1 確定數(shù)據(jù)分析目標 7
1.3.2 數(shù)據(jù)采集 7
1.3.3 數(shù)據(jù)預處理 10
1.3.4 數(shù)據(jù)分析 11
1.4 大數(shù)據(jù)技術生態(tài)體系 13
1.5 大數(shù)據(jù)應用場景 17
1.5.1 基于大數(shù)據(jù)的電子商務 18
1.5.2 能源大數(shù)據(jù)體系建設 18
1.5.3 交通大數(shù)據(jù)體系建設 19
1.5.4 政務大數(shù)據(jù)體系建設 20
1.5.5 基于大數(shù)據(jù)的人口遷徙 21
1.5.6 農(nóng)業(yè)大數(shù)據(jù)體系建設 21
1.6 本章小結 23
習題 23
第2章 Hadoop簡介
2.1 Hadoop概述 25
2.1.1 起源 26
2.1.2 Hadoop發(fā)行版本 26
2.1.3 Hadoop架構變遷 27
2.1.4 Hadoop特點 27
2.2 Hadoop“生態(tài)圈” 28
2.3 Hadoop核心架構 29
2.3.1 HDFS 29
2.3.2 MapReduce 29
2.3.3 Yarn 30
2.4 Hadoop運行模式 30
2.4.1 本地模式 30
2.4.2 偽分布式模式 30
2.4.3 完全分布式模式 31
2.5 Hadoop集群搭建 31
2.5.1 集群規(guī)劃 31
2.5.2 基本軟件的安裝 32
2.5.3 完全分布式集群的搭建 33
2.6 常見問題及解決方案 46
2.7 本章小結 47
習題 47
第3章 Hadoop分布式文件系統(tǒng)
3.1 HDFS概述 50
3.1.1 文件系統(tǒng) 50
3.1.2 傳統(tǒng)文件系統(tǒng) 50
3.1.3 HDFS的引入 51
3.1.4 HDFS的設計目標 51
3.1.5 HDFS的使用場景 52
3.1.6 HDFS的局限性 52
3.2 HDFS的技術架構 53
3.2.1 分塊存儲 53
3.2.2 副本機制 55
3.2.3 NameNode 55
3.2.4 DataNode 56
3.2.5 SecondaryNameNode 57
3.2.6 BackupNode 58
3.2.7 HDFS寫入數(shù)據(jù)流程 58
3.2.8 HDFS讀取數(shù)據(jù)流程 59
3.3 HDFS的Shell操作 60
3.3.1 基本命令 60
3.3.2 上傳命令 61
3.3.3 下載命令 61
3.3.4 高級操作 61
3.4 HDFS的API實戰(zhàn)開發(fā) 62
3.4.1 環(huán)境介紹 62
3.4.2 pom.xml配置說明 62
3.4.3 HDFS操作 63
3.5 HDFS核心解密 65
3.5.1 再談NameNode 65
3.5.2 節(jié)點的服役 67
3.5.3 節(jié)點的退役 68
3.5.4 DataNode多目錄的配置 69
3.6 常見問題及解決方案 69
3.7 本章小結 70
習題 70
第4章 Hadoop分布式計算系統(tǒng)
4.1 MapReduce概述 74
4.2 WordCount入門 74
4.2.1 下載Hadoop配置文件 74
4.2.2 項目配置 75
4.2.3 打包在集群運行 77
4.3 MapReduce編程思想 78
4.3.1 MapReduce原理 79
4.3.2 MapReduce進程 80
4.3.3 MapReduce編程規(guī)范 80
4.4 Hadoop序列化 81
4.4.1 序列化與反序列化 81
4.4.2 Hadoop序列化要求 81
4.4.3 Hadoop序列化機制 82
4.5 MapReduce輸入 83
4.6 Shuffle過程 87
4.6.1 Shuffle原理 87
4.6.2 分區(qū) 88
4.6.3 排序 89
4.6.4 分組 91
4.7 Combiner過程 92
4.8 MapReduce輸出 93
4.9 常見問題及解決方案 94
4.10 本章小結 98
習題 98
第5章 Hadoop資源管理器Yarn
5.1 Yarn基本結構 100
5.1.1 ResourceManager 101
5.1.2 ApplicationMaster 101
5.1.3 NodeManager 102
5.1.4 Container 102
5.2 Yarn工作機制 102
5.3 Yarn資源調度器 103
5.3.1 FIFO Scheduler 104
5.3.2 Capacity Scheduler 104
5.3.3 Fair Scheduler 107
5.4 本章小結 107
習題 107
第6章 Hadoop案例開發(fā)
6.1 WordCount 109
6.2 *值 112
6.3 全排序 113
6.4 二次排序 115
6.5 MapReduce鏈 117
6.6 MapReduce數(shù)據(jù)合并 120
6.6.1 案例描述 120
6.6.2 Reduce JOIN實現(xiàn) 121
6.6.3 Map JOIN實現(xiàn) 124
6.7 本章小結 125
習題 125
第二篇 數(shù)據(jù)倉庫Hive
第7章 Hive原理與應用
7.1 Hive簡介 127
7.1.1 數(shù)據(jù)倉庫簡介 127
7.1.2 Hive起源 127
7.1.3 Hive的主要特點 128
7.1.4 Hive下載 128
7.1.5 Hive安裝包 129
7.2 Hive組件簡介 131
7.2.1 Hive元數(shù)據(jù)管理 131
7.2.2 Metastore 132
7.2.3 HiveServer2 132
7.3 Hive啟動方式 133
7.3.1 Hive Metastore部署模式 133
7.3.2 JDBC訪問Hive 139
7.4 Hive配置文件詳解 142
7.4.1 Hive的核心配置文件 142
7.4.2 Hive運行環(huán)境參數(shù)配置 145
7.4.3 Hive的本地運行模式 146
7.5 本章小結 147
習題 147
第8章 Hive數(shù)據(jù)定義
8.1 Hive的數(shù)據(jù)結構 149
8.1.1 創(chuàng)建數(shù)據(jù)庫與表 149
8.1.2 加載數(shù)據(jù)到表中 153
8.1.3 查詢數(shù)據(jù)庫與表 160
8.1.4 修改數(shù)據(jù)庫與表 162
8.1.5 刪除數(shù)據(jù)庫與表 163
8.1.6 導出數(shù)據(jù) 164
8.2 Hive的數(shù)據(jù)類型 165
8.2.1 Hive原生數(shù)據(jù)類型 165
8.2.2 Hive復雜數(shù)據(jù)類型 169
8.2.3 數(shù)據(jù)類型轉換 174
8.3 Hive的數(shù)據(jù)模型 175
8.3.1 外部表與內(nèi)部表的定義與區(qū)別 176
8.3.2 分區(qū)的概念與作用 182
8.3.3 分桶的概念與作用 193
8.3.4 Hive數(shù)據(jù)表的序列化與反序列化 197
8.4 本章小結 199
習題 199
第9章 Hive數(shù)據(jù)分析基礎
9.1 基于IntelliJ IDEA實現(xiàn)Hive操作 204
9.1.1 基于IntelliJ IDEA配置Hive 204
9.1.2 Hive服務器連接 204
9.1.3 Console功能區(qū) 206
9.2 數(shù)據(jù)查詢 209
9.2.1 基本查詢 209
9.2.2 分組查詢 214
9.2.3 子查詢 218
9.2.4 Hive的JOIN操作 220
9.2.5 Hive的JOIN原理 228
9.3 常用系統(tǒng)函數(shù) 231
9.3.1 聚合函數(shù) 231
9.3.2 窗口函數(shù) 232
9.3.3 表值函數(shù) 236
9.3.4 時間日期函數(shù) 238
9.3.5 字符串函數(shù) 240
9.3.6 數(shù)學函數(shù) 242
9.3.7 集合函數(shù) 243
9.4 自定義函數(shù) 244
9.4.1 UDF 245
9.4.2 UDAF 248
9.4.3 UDTF 250
9.5 本章小結 251
習題 251
第10章 Hive數(shù)據(jù)分析案例
10.1 數(shù)據(jù)分析流程與數(shù)據(jù)分析目標的選定 255
10.1.1 數(shù)據(jù)分析流程 255
10.1.2 數(shù)據(jù)分析目標的選定 255
10.2 常用數(shù)據(jù)分析方法 256
10.2.1 描述性數(shù)據(jù)分析 256
10.2.2 探索性數(shù)據(jù)分析 258
10.2.3 預測性數(shù)據(jù)分析 260
10.3 二手車數(shù)據(jù)集 261
10.3.1 數(shù)據(jù)集簡介 261
10.3.2 數(shù)據(jù)分析目標 262
10.3.3 數(shù)據(jù)導入 262
10.4 二手車市場特征和需求探索案例 263
10.4.1 二手車數(shù)據(jù)描述性分析 263
10.4.2 二手車數(shù)據(jù)處理與轉換 269
10.4.3 二手車數(shù)據(jù)探索性分析 270
10.4.4 二手車數(shù)據(jù)異常值與缺失值處理 271
10.5 二手車數(shù)據(jù)變量關系分析 272
10.5.1 相關系數(shù)簡介 272
10.5.2 二手車數(shù)據(jù)相關系數(shù)分析 272
10.5.3 特征關系可視化分析 275
10.5.4 結果分析與結論 276
10.6 二手車數(shù)據(jù)聚類分析 277
10.7 本章小結 278
習題 278
第三篇 非關系數(shù)據(jù)庫HBase
第11章 HBase基礎知識
11.1 HBase概述 281
11.1.1 NoSQL的出現(xiàn) 281
11.1.2 HBase的出現(xiàn) 281
11.1.3 HBase的相關學習資源 281
11.2 HBase系統(tǒng)部署 281
11.2.1 版本選擇 281
11.2.2 系統(tǒng)準備 282
11.2.3 組件的上傳和解壓 283
11.2.4 配置環(huán)境變量 283
11.2.5 配置ZooKeeper 284
11.2.6 配置HBase 284
11.3 HBase基本Shell操作 286
11.3.1 啟動HBase Shell 286
11.3.2 創(chuàng)建和刪除表 286
11.3.3 寫入數(shù)據(jù) 287
11.3.4 查詢數(shù)據(jù) 288
11.3.5 刪除數(shù)據(jù) 289
11.3.6 表結構處理 289
11.4 HBase基本API操作 290
11.4.1 Maven工程基本結構 290
11.4.2 創(chuàng)建和刪除表 291
11.4.3 寫入數(shù)據(jù) 293
11.4.4 查詢數(shù)據(jù) 294
11.4.5 刪除數(shù)據(jù) 294
11.5 本章小結 295
習題 295
第12章 HBase原理與架構
12.1 HBase數(shù)據(jù)存儲結構 297
12.1.1 大數(shù)據(jù)時代的MySQL 297
12.1.2 解決問題的思路 299
12.1.3 兩類存儲思路的對比 300
12.1.4 HBase的數(shù)據(jù)格式 300
12.2 HBase架構 300
12.2.1 HBase整體架構 301
12.2.2 客戶端和HBase的通信過程 302
12.2.3 WAL與HLOG 302
12.2.4 HBase與HDFS 302
12.3 本章小結 303
習題 303
第13章 HBase案例開發(fā)
13.1 數(shù)據(jù)準備 304
13.2 基礎統(tǒng)計任務 306
13.2.1 基本查詢 306
13.2.2 過濾器 307
13.2.3 基本統(tǒng)計任務 310
13.3 高級統(tǒng)計任務 312
13.3.1 HBase on MapReduce 312
13.3.2 HBase with Hive 317
13.4 本章小結 318
習題 319
第四篇 綜合案例
第14章 綜合案例:維基百科數(shù)據(jù)挖掘
14.1 案例介紹 320
14.1.1 常見文本語料格式 320
14.1.2 語料介紹 321
14.2 案例步驟 322
14.2.1 數(shù)據(jù)的下載與上傳 322
14.2.2 創(chuàng)建Hive外接表 325
14.2.3 正文字段預處理 328
14.2.4 文章單詞統(tǒng)計 329
14.2.5 文章倒排表 330
14.2.6 正負面分析 332
14.3 本章小結 333
參考文獻 334
Hadoop技術原理與案例教程 微課版 作者簡介
韓玉民,長期從事計算機教育與軟件研發(fā),擔任中原工學院軟件學院教學副院長十多年,創(chuàng)新教學理念,具有豐富的專業(yè)建設、課程與教材建設、教研教改經(jīng)驗。軟件工程專業(yè)入選國家一流本科專業(yè)建設點。 主持、參與完成省級以上教研項目多項,獲省級以上教學成果獎勵四項,一項獲2021年度河南省教學成果特等獎,并入選國家級2022年教學成果獎推薦名單。 主編、副主編專業(yè)教材12部,獲得首屆河南省教材建設二等獎一項
- >
苦雨齋序跋文-周作人自編集
- >
名家?guī)阕x魯迅:故事新編
- >
【精裝繪本】畫給孩子的中國神話
- >
山海經(jīng)
- >
朝聞道
- >
姑媽的寶刀
- >
巴金-再思錄
- >
名家?guī)阕x魯迅:朝花夕拾