-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據基礎應用 版權信息
- ISBN:9787111763864
- 條形碼:9787111763864 ; 978-7-111-76386-4
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
大數據基礎應用 本書特色
本書遵循教指委相關指導文件和高等院校學生學習規律編寫而成。踐行四新理念,融入思政元素,注重理論與實踐相結合。
大數據基礎應用 內容簡介
本書首先介紹了大數據基礎應用:重點講解了如何搭建Hadoop分布式集群平臺,使用Java語言進行MapReduce分布式編程;HBase及Hive數據庫環境的安裝和數據的增、刪、改、查操作;Spark平臺的搭建、RDD操作及Spark SQL查詢;Flink平臺的搭建,Kafka消息中間件的使用及流批一體計算。其次對數據預處理的常用方法及如何使用Matplotlib實現數據可視化進行了討論。*后講解了大數據與機器學習、深度學習。本書將機器學習算法劃分為分類及回歸兩個問題進行了討論,并結合scikit-learn進行了實例講解。在深度學習部分,對深度神經網絡及卷積神經網絡進行了介紹,就如何使用Keras框架實現圖像分類進行了實例講解,此外介紹了循環神經網絡LSTM的原理及應用。 本書適用于計算機類及信息技術類相關專業在讀本科生及研究生,也可供大數據及人工智能相關領域的技術人員參考。 為了方便教學,本書配備電子課件、程序源代碼等教學資源。凡選用本書作為教材的教師均可登錄機械工業出版社教育服務網(www.cmpedu.com)注冊后免費下載。
大數據基礎應用 目錄
前言
第1章 Hadoop分布式集群 1
1.1 什么是大數據 1
1.1.1 大數據的基本概念 1
1.1.2 大數據的產生和應用 2
1.2 大數據關鍵技術 2
1.2.1 文件系統 2
1.2.2 數據庫系統 3
1.2.3 索引與查詢技術 4
1.2.4 大數據分析技術 5
1.2.5 大數據處理工具 6
1.2.6 機器學習與深度學習 7
1.3 Hadoop生態圈 8
1.4 Hadoop分布式集群環境搭建 11
1.4.1 實驗環境安裝及配置 11
1.4.2 Hadoop集群平臺的搭建 16
1.4.3 MapReduce測試 21
第2章 分布式計算框架
MapReduce 23
2.1 MapReduce分布式框架 23
2.1.1 MapReduce原理 23
2.1.2 合并函數(Combiner) 26
2.2 WordCount的處理過程 27
2.2.1 WordCount示例代碼運行 27
2.2.2 WordCount源碼分析 28
2.2.3 WordCount詳細處理過程 32
2.2.4 MapReduce新舊版區別 33
2.3 MapReduce編程示例 33
2.3.1 Eclipse開發環境搭建 33
2.3.2 數據去重 38
2.3.3 數據排序 41
2.3.4 平均成績 43
2.3.5 單表關聯 45
2.3.6 多表關聯 51
2.3.7 倒排索引 54
第3章 NoSQL數據庫 60
3.1 NoSQL數據庫概述 60
3.1.1 NoSQL數據庫的特點 60
3.1.2 NoSQL數據庫與關系數據庫的
比較 61
3.1.3 NoSQL數據庫的分類 61
3.2 HBase列式數據庫 62
3.2.1 HBase的基本概念 62
3.2.2 HBase的安裝及基本操作 64
3.2.3 HBase客戶端編程 69
3.3 Hive數據倉庫工具 82
3.3.1 Hive的安裝及環境配置 82
3.3.2 Hive的基本使用 86
第4章 分布式計算框架Spark 93
4.1 Spark分布式計算引擎 93
4.1.1 Spark的基本概念 93
4.1.2 Spark的核心技術 95
4.1.3 Spark生態系統 96
4.1.4 Spark技術分析 96
4.1.5 Spark的應用場景 97
4.2 Spark分布式集群環境搭建 98
4.2.1 環境搭建 98
4.2.2 環境測試 100
4.3 RDD分布式編程技術 102
4.3.1 RDD的基本使用 102
4.3.2 RDD操作 104
4.3.3 共享變量 115
4.4 Spark SQL查詢分析技術 118
4.4.1 DataSet(DataFrame)和RDD 119
4.4.2 Spark SQL操作 121
4.4.3 Spark SQL與數據源的交互 125
4.4.4 Spark SQL與Hive交互 126
4.4.5 Spark SQL的分區及分桶 127
第5章 流式計算 130
5.1 Flink的基本概念 130
5.1.1 Flink框架 130
5.1.2 Flink的應用 131
5.2 Flink的安裝和開發環境設置 133
5.2.1 Flink本地安裝 133
5.2.2 Flink開發環境設置 134
5.3 數據流接口 137
5.3.1 DataStream概述 137
5.3.2 數據流接口的基本應用 144
5.3.3 Kafka消息中間件 148
5.4 水位線和窗口 161
5.4.1 水位線(WaterMark) 161
5.4.2 窗口(Window) 165
5.4.3 應用舉例 169
5.5 表接口和表查詢 175
5.5.1 動態表 176
5.5.2 表接口和表查詢的應用 179
第6章 數據可視化分析與預處理 184
6.1 數據可視化分析 184
6.1.1 分位數與箱線圖 184
6.1.2 數據的相關性與散點圖 186
6.1.3 數據的分布與直方圖 189
6.1.4 Matplotlib繪圖 191
6.2 數據預處理 203
6.2.1 連續型輸入特征的
處理(歸一化) 204
6.2.2 類別(離散)型輸入特征的
處理 206
6.2.3 分類標簽的處理 209
6.2.4 主成因分析(PCA-Principal Component Analysis) 209
第7章 大數據與機器學習 214
7.1 使用scikit-learn進行機器學習 214
7.1.1 scikit-learn簡介 214
7.1.2 使用scikit-learn進行
機器學習 215
7.2 分類問題 218
7.2.1 邏輯回歸 219
7.2.2 混淆矩陣 222
7.2.3 多分類 224
7.2.4 不平衡分類 226
7.2.5 交叉驗證和參數尋優 235
7.3 回歸問題 237
7.3.1 一元線性回歸 237
7.3.2 多元線性回歸 246
第8章 大數據與深度學習 254
8.1 深度學習概述 254
8.1.1 從神經網絡到深度學習 255
8.1.2 深度學習框架Keras 262
8.2 深度神經網絡 263
8.2.1 深度神經網絡示例 263
8.2.2 模型的保存和讀取 266
8.2.3 模型訓練的歷史過程 267
8.3 卷積神經網絡 268
8.3.1 卷積神經網絡的層 270
8.3.2 使用CNN進行圖像分類 278
8.3.3 使用VGG16網絡模型 285
8.4 循環神經網絡 287
8.4.1 RNN 287
8.4.2 LSTM 289
參考文獻 296
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
推拿
- >
月亮虎
- >
中國歷史的瞬間
- >
朝聞道
- >
煙與鏡
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
羅庸西南聯大授課錄