大數據技術原理與應用:概念、存儲、處理、分析與應用 版權信息
- ISBN:9787115544056
- 條形碼:9787115544056 ; 978-7-115-54405-6
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
大數據技術原理與應用:概念、存儲、處理、分析與應用 本書特色
1.大數據教學名師之作;2.提供豐富的配套資源:建設了高校大數據課程公共服務平臺(http://dblab.xmu.edu.cn/post/bigdata-teaching- platform/),為教師教學和學生學習大數據課程提供包括教學大綱、講義PPT、學習指南、備課指南、實驗指南、上機習題、授課視頻、技術資料等全方位、一站式免費服務,平臺每年訪問量超過200萬次,累計訪問量超過750萬次
大數據技術原理與應用:概念、存儲、處理、分析與應用 內容簡介
本書系統介紹了大數據的相關知識,分為大數據基礎篇、大數據存儲與管理篇、大數據處理與分析篇、大數據應用篇。全書共17章,內容包含大數據的基本概念、大數據處理架構Hadoop、分布式文件系統HDFS、分布式數據庫HBase、NoSQL數據庫、云數據庫、MapReduce、數據倉庫Hive、Spark、流計算、Flink、圖計算、數據可視化以及大數據在互聯網、生物醫學領域和其他行業的應用。本書在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等重要章節安排了入門級的實踐操作,以便讀者更好地學習和掌握大數據關鍵技術。
大數據技術原理與應用:概念、存儲、處理、分析與應用 目錄
**章大數據概述
1.pan style="font-family:宋體">大數據時代
1.1.pan style="font-family:宋體">第三次信息化浪潮
1.1.2信息科技為大數據時代提供技術
支撐
1.1.3數據產生方式的變革促成大數據
時代的來臨
1.1.4大數據的發展歷程
1.2大數據的概念
1.2.pan style="font-family:宋體">數據量大
1.2.2數據類型繁多·
1.2.3處理速度快
1.2.4價值密度低·
1.3大數據的影響
1.3.pan style="font-family:宋體">大數據對科學研究的影響
1.3.2大數據對思維方式的影響
1.3.3大數據對社會發展的影響
1.3.4大數據對就業市場的影響
1.3.5大數據對人才培養的影響
1.4大數據的應用
1.5大數據關鍵技術·
1.6大數據計算模式
1.6.1 批處理計算·
1.6.2 流計算
1.6.3圖計算
1.6.4查詢分析計算
1.7大數據產業
1.8大數據與云計算、物聯網
1.8.1 云計算
1.8.2 物聯網
1.8.3大數據與云計算、物聯網的
關系
1.9本章小結
1.pan style="font-family:宋體">/span>
第2章 大數據處理架構Hadoop29
2.pan style="font-family:宋體">概述
2.1.1 Hadoop簡介
2.1.2Hadoop的發展簡史
2.1.3Hadoop的特性
2.1.4 Hadoop的應用現狀
2.1.5Hadoop的版本
2.2Hadoop生態系統·
2.2.1 HDFS.
2.2.2 HBase
2.2.3 MapReduce
2.2.4 Hive·
2.2.5 Pig
2.2.6 Mahout·
2.2.7 ZooKeeper
2.2.8 Flume·
2.2.9 Sqoop·
2.2.10 Ambari
2.3Hadoop的安裝與使用
2.3.1 創建Hadoop用戶
2.3.2 更新apt和安裝Vim編輯器
2.3.3安裝SSH和配置SSH無密碼
登錄
2.3.4安裝Java環境·
2.3.5安裝單機Hadoop
2.3.6 Hadoop偽分布式安裝
2.4本章小結
2.5
實驗pan>熟悉常用的Linux作和Hadoop
作
第二篇 大數據存儲與管理
第3章 分布式文件系統HDFS
3.pan style="font-family:宋體">分布式文件系統
3.1.pan style="font-family:宋體">計算機集群結構
3.1.2分布式文件系統的結構
3.1.3分布式文件系統的設計需求
3.2HDFS簡介·
3.3 HDFS的相關概念
3.3.1 塊
3.3.2名稱節點和數據節點
3.3.3第二名稱節點
3.4HDFS體系結構
3.4.1 概述
3.4.2 HDFS命名空間管理
3.4.3通信協議
3.4.4客戶端
3.4.5HDFS體系結構的局限性
3.5HDFS的存儲原理
3.5.pan style="font-family:宋體">數據的冗余存儲
3.5.2數據存取策略
3.5.3數據錯誤與恢復
3.6HDFS的數據讀寫過程
3.6.pan style="font-family:宋體">讀數據的過程
3.6.2寫數據的過程
3.7 HDFS編程實踐·
3.7.1HDFS常用命令
3.7.2 HDFS的Web頁面
3.7.3 HDFS 常用Java API 及應用實例
3.8本章小結
3.9 /span>
實驗2熟悉常用的HDFS作
第4章 分布式數據庫HBase
4.1 概述
4.1.1 從BigTable 說起
4.1.2HBase簡介·
4.1.3 HBase與傳統關系數據庫的對比
分析
4.2 HBase 訪問接口
4.3HBase 數據模型
4.3.1 數據模型概述
4.3.2數據模型的相關概念
4.3.3數據坐標
4.3.4概念視圖
4.3.5物理視圖
4.3.6面向列的存儲
4.4 HBase的實現原理
4.4.1 HBase
4.4.2 表和Region
4.4.3Region 的定位
4.5 HBase 運行機制
4.5.1HBase系統架構
4.5.2 Region服務器的工作原理
4.5.3Store的工作原理
4.5.4HLog的工作原理
4.6 HBase編程實踐
4.6.1 HBase 常用的 Shell 命令
4.6.2 HBase常用的Java API及應用實例
4.7本章小結
4.8/span>
實驗3熟悉常用的HBase 作
第5章 NoSQL數據庫
5.1NoSOL簡介
5.2 NoSQL興起的原因
5.2.pan style="font-family:宋體">關系數據庫無法滿足Web2.0的
需求
5.2.2 關系數據庫的關鍵特性在Web 2.0
時代成為“雞肋”
5.3 NoSQL與關系數據庫的比較
5.4 NoSQL的四大類型·
5.4.pan style="font-family:宋體">鍵值數據庫·
5.4.2列族數據庫·
5.4.3文檔數據庫·
5.4.4 圖數據庫
5.5 NoSQL的三大基石
5.5.1 CAP
5.5.2 BASE
5.5.3*終一致性
5.6 從NoSQL到NewSQL數據庫
5.7本章小結
5.8 /span>
實驗4 NoSQL和關系數據庫的作比較
第6章云數據庫
6.pan style="font-family:宋體">云數據庫概述
6.1.pan style="font-family:宋體">云計算是云數據庫興起的基礎
6.1.2云數據庫的概念·
6.1.3 云數據庫的特性
6.1.4云數據庫是個性化數據存儲需求
的理想選擇
6.1.5云數據庫與其他數據庫的關系
6.2云數據庫產品
6.2.1 云數據庫廠商概述
6.2.2 Amazon的云數據庫產品
6.2.3 Google的云數據庫產品
6.2.4 Microsoft的云數據庫產品
6.2.5其他云數據庫產品
6.3云數據庫系統架構·
6.3.1UMP系統概述
6.3.2UMP系統架構
6.3.3UMP能
6.4本章小結
6.5 /span>
第三篇大數據處理與分析
第7章 MapReduce
7.1 概述
7.1.pan style="font-family:宋體">分布式并行編程
7.1.2 MapReduce模型簡介
7.1.3 Map 和 Reduce 函數
7.2 MapReduce的工作流程
7.2.pan style="font-family:宋體">工作流程概述
7.2.2 MapReduce 的各個執行階段
7.2.3 Shuffle過程詳解
7.3 實例分析:WordCount
7.3.1WordCount的程序任務
7.3.2 WordCount的設計思路
7.3.3 WordCount的具體執行過程
7.3.4 一個 WordCount 執行過程的
實例
7.4 MapReduce 的具體應用
7.4.1 MapReduce在關系代數運算中的
應用
7.4.2分組與聚合運算
7.4.3矩陣-向量乘法
7.4.4矩陣乘法·
7.5 MapReduce編程實踐
7.5.pan style="font-family:宋體">任務要求
7.5.2編寫Map處理邏輯
7.5.3 編寫 Reduce 處理邏輯
7.5.4 編寫main方法
7.5.5編譯代碼以及運行程序
7.6本章小結·
7.7/span>
實驗5 MapReduce初級編程實踐
第8章 Hadoop再探討
8.1Hadoop的優化與發展
8.1.1 Hadoop的局限與不足
8.1.2 針對Hadoop的與提升
8.2HDFS 2.0的新特性
8.2.1 HDFS HA
8.2.2 HDFS聯邦
8.3新一代資源管理調度框架YARN
8.3.1 MapReduce 1.0的缺陷
8.3.2YARN設計思路
……
11.3.1 應用場景pan>:實時分析
11.3.2應用場景2:實時交通
11.4 開源流計算框架Storm
11.4.1 Storm簡介
11.4.2 Storm的特點
11.4.3Storm的設計思想
11.4.4 Storm的框架設計
11.4.5 Storm實例
11.5 Spark Streaming
11.5.1 Spark Streaming 設計
11.5.2 Spark Streaming 與Storm 的
對比
11.6本章小結
11.7/span>
第12章 Flink
12.1 Flink簡介
12.2 為什么選擇Flink
12.2.pan style="font-family:宋體">傳統數據處理架構
12.2.2 大數據Lambda架構 237
12.2.3
流處理架構
12.2.4 Flink是理想的流計算框架239
12.2.5Flink的優勢
12.3 Flink 應用場景
12.3.pan style="font-family:宋體">事件驅動型應用
12.3.2數據分析應用
12.3.3數據流水線應用
12.4Flink技術棧
12.5Flink體系架構
12.6Flink編程模型·
12.7Flink編程實踐
12.7.1 安裝Flink
12.7.2編程實現WordCount程序247
12.8本章小結
12.9 /span>
實驗8 Flink初級編程實踐
第13章圖計算
13.pan style="font-family:宋體">圖計算簡介
13.1.pan style="font-family:宋體">傳統圖計算解決方案的不足
之處
13.1.2通用圖計算軟件
13.2 Pregel 簡介
13.3 Pregel圖計算模型
13.3.pan style="font-family:宋體">有向圖和頂點
13.3.2頂點之間的消息傳遞 255
13.3.3 Pregel的計算過程256
13.3.4 Pregel 計算過程的實例257
13.4 Pregel的C++ API
13.4.pan style="font-family:宋體">消息傳遞機制
13.4.2 Combiner·
13.4.3 Aggregator·
13.4.4 拓撲改變
13.4.5輸入和輸出
13.5 Pregel的體系結構
13.5.1Pregel的執行過程
13.5.2 容錯性
13.5.3 Worker·
13.5.4 Master
13.5.5 Aggregator
13.6 Pregel的應用實例
13.6.pan style="font-family:宋體">單源*短路徑
13.6.2二分匹配
13.7 Pregel 和MapReduce實現PageRank
算法的對比
13.7.1PageRank算法
13.7.2 PageRank算法在Pregel 中的
實現
13.7.3 PageRank 算法在 MapReduce
中的實現
13.7.4 PageRank算法在 Pregel和
MapReduce 中實現的比較
13.8本章小結
13.9/span>
.
第14章數據可視化
14.pan style="font-family:宋體">可視化概述
14.1.pan style="font-family:宋體">什么是數據可視化
14.1.2可視化的發展歷程
14.1.3可視化的重要作用
14.2可視化工具
14.2.pan style="font-family:宋體">入門級工具
14.2.2信息圖表工具
14.2.3 地圖工具
14.2.4時間線工具
14.2.5高級分析工具
14.3可視化典型案例
14.3.pan style="font-family:宋體">全球黑客活動
14.3.2互聯網地圖
14.3.3 編程語言之間的影響力關系
14.3.4國家健康與財富之間的
關系
14.3.5 3D可視化互聯網地圖App
14.4本章小結
14.5/span>
第四篇大數據應用
第15章 大數據在互聯網領域的
應用
15.pan style="font-family:宋體">推薦系統概述
15.1.pan style="font-family:宋體">什么是推薦系統
15.1.2長尾理論
15.1.3 推薦方法
15.1.4推薦系統模型
15.1.5推薦系統的應用
15.2 協同過濾
15.2.pan style="font-family:宋體">基于用戶的協同過濾
基于物品的協同過濾
15.2.3 UserCF算法和ItemCF算法的
對比
15.3協同過濾實踐
15.3.pan style="font-family:宋體">實踐背景
15.3.2數據處理
15.3.3 計算相似度矩陣.
15.3.4計算推薦結果.
15.3.5展示推薦結果
15.4本章小結
15.5/span>
第16章大數據在生物醫學
領域的應用
16.1 流行病預測
16.1.pan style="font-family:宋體">傳統流行病預測機制的不足
16.1.2基于大數據的流行病預測
16.1.3基于大數據的流行病預測的
重要作用
16.2智慧
16.3 生物信息學
16.4案例:基于大數據的綜合健康服務
16.4.pan style="font-family:宋體"臺概述
16.4.2
16.4.3
16.4.4
16.5本章小結
16.6/span>
第17章 大數據的其他應用306
7.pan style="font-family:宋體">大數據在物流領域中的應用306
17.1.pan style="font-family:宋體">智能物流的概念
17.1.2智能物流的作用
17.1.3 智能物流的應用
17.1.4 大數據是智能物流的關鍵
17.1.5 中國智能物流骨干網——菜鳥
17.2大數據在城市管理中的應用
17.2.1 智能交通
17.2.2 環保監測
17.2.3城市規劃
17.2.4 安防領域
17.3大數據在金融行業中的應用
17.3.1 高頻交易
17.3.2市場情緒分析
17.3.3信貸風險分析
17.4大數據在汽車行業中的應用
17.5大數據在行業中的應用
17.5.pan style="font-family:宋體">發現關聯購買行為
17.5.2客戶群體細分
17.5.3 供應鏈管理
17.6大數據在餐飲行業中的應用
17.6.pan style="font-family:宋體">餐飲行業擁抱大數據
17.6.2 餐飲
17.7大數據在電信行業中的應用
17.8大數據在能源行業中的應用
17.9大數據在體育和娛樂領域中的
應用·
17.9.1 訓練球隊
17.9.2 投拍影視作品
17.9.3預測比賽結果
17.10 大數據在領域中的應用
17.10.pan style="font-family:宋體">大數據與國家·
17.10.2應用大數據技術防御網絡
攻擊
17.10.3警察應用大數據工具
犯罪
17.pan style="font-family:宋體">大數據在政府領域中的應用
17.pan style="font-family:宋體">大數據在日常生活中的應用
17.pan style="font-family:宋體">本章小結
17.pan style="font-family:宋體">/span>
參考文獻
展開全部
大數據技術原理與應用:概念、存儲、處理、分析與應用 作者簡介
林子雨(1978-),男,博士,國內高校知名大數據教師,廈門大學計算機科學系副教授,廈門大學云計算與大數據研究中心創始成員,廈門大學數據庫實驗室負責人,中國計算機學會數據庫專委會委員,中國計算機學會信息系統專委會委員,中國高校**“數字教師”提出者和建設者。2013年開始在廈門大學開設大數據課程,建設了國內高校**大數據課程公共服務平臺,平臺累計網絡訪問量超過700萬次,成為全國高校大數據教學****,并榮獲“2018年福建省教學成果二等獎”,主持的課程《大數據技術原理與應用》獲評“2018年國家精品在線開放課程”。主講課程:《大數據技術原理與應用》《大數據處理技術》《大數據導論》。個人主頁:http://dblab.xmu.edu.cn/post/linziyu。E-mail: ziyulin@xmu.edu.cn。數據庫實驗室網站:http://dblab.xmu.edu.cn。建設了高校大數據課程公共服務平臺(http://dblab.xmu.edu.cn/post/bigdata-teaching- platform/),為教師教學和學生學習大數據課程提供包括教學大綱、講義PPT、學習指南、備課指南、實驗指南、上機習題、授課視頻、技術資料等全方位、一站式免費服務,平臺每年訪問量超過200萬次,累計訪問量超過750萬次,同時提供面向高校的大數據實驗平臺建設方案和大數據課程師資培訓服務。