大數據采集技術與應用 版權信息
- ISBN:9787560653921
- 條形碼:9787560653921 ; 978-7-5606-5392-1
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
大數據采集技術與應用 本書特色
該教材主要講解了當前流行的數據采集及數據清洗技術,如Datax,Kettle等。本教材基于德拓大數據處理平臺,對每一章節中的技術進行了實戰演練。*后通過三個綜合示例講解大數據分析過程中的數據采集和數據清洗技術的綜合應用。
大數據采集技術與應用 內容簡介
本書以當前流行的大數據采集技術和清洗技術為主, 從大數據采集技術特性和實現入手, 對其基本架構、實現原理、應用部署等方面進行了全面翔實的介紹。本書主要內容包括: 大數據采集技術與應用概述、大數據同步技術 —— Datax、大數據清洗技術 —— Kettle、大數據日志采集技術 —— Logstash等。
大數據采集技術與應用 目錄
第1章 大數據采集技術與應用概述 1
1.1 大數據概述 1
1.1.1 大數據時代 2
1.1.2 大數據的概念 5
1.1.3 大數據的特征 5
1.1.4 大數據的應用 8
1.1.5 大數據關鍵技術 9
1.1.6 大數據處理流程 10
1.2 大數據采集技術概述 11
1.2.1 數據采集與大數據采集 11
1.2.2 大數據采集流程 14
1.3 大數據采集技術應用 15
1.3.1 大數據處理平臺介紹 15
1.3.2 政務大數據融合平臺 16
1.3.3 交通大數據融合平臺 16
1.3.4 出入境大數據融合平臺 17
本章小結 18
課后作業 18
第2章 大數據同步技術——Datax 19
2.1 Datax概述 19
2.1.1 Datax介紹 20
2.1.2 Datax特點 21
2.1.3 Datax結構模式 22
2.1.4 Datax的優勢 26
2.2 Datax安裝與配置 30
2.2.1 配置Java環境 30
2.2.2 安裝Python 31
2.2.3 安裝Datax 31
2.3 Datax應用實例 33
2.3.1 跨文件系統數據同步 33
2.3.2 跨數據庫數據同步 37
2.3.3 同類數據庫數據同步 41
本章小結 43
課后作業 43
第3章 大數據清洗技術——Kettle 44
3.1 Kettle概述 44
3.1.1 Kettle概念 45
3.1.2 Kettle設計原則 47
3.1.3 Kettle設計模塊 48
3.1.4 Kettle應用場景 60
3.2 Kettle安裝與配置 61
3.2.1 配置Java環境 61
3.2.2 安裝Kettle 61
3.2.3 安裝MySQL 64
3.3 Kettle應用實例 66
3.3.1 數據表記錄去重 66
3.3.2 數據表記錄過濾 69
3.3.3 數據表記錄聚合 71
本章小結 73
課后作業 73
第4章 大數據日志采集技術——Logstash 74
4.1 Logstash概述 74
4.1.1 Logstash概念 75
4.1.2 Logstash工作原理 75
4.1.3 Logstash優勢 76
4.2 Logstash安裝與配置 76
4.2.1 安裝Logstash 76
4.2.2 配置Logstash 80
4.2.3 Logstash運行方式 94
4.3 Logstash應用實例 95
4.3.1 日志數據整合 95
4.3.2 日志數據過濾 96
4.3.3 日志數據分析 98
本章小結 100
課后作業 100
第5章 大數據實時采集技術——Kafka 101
5.1 Kafka概述 101
5.1.1 Kafka概念與特性 102
5.1.2 Kafka基本架構 103
5.1.3 Kafka應用場景 105
5.2 Kafka安裝與部署 105
5.2.1 安裝Kafka 106
5.2.2 搭建單機版Kafka 108
5.2.3 搭建多個Broker的Kafka集群 109
5.2.4 搭建完全分布式Kafka集群 111
5.3 Kafka應用實例 113
5.3.1 Kafka生產者實例 113
5.3.2 Kafka消費者實例 119
5.3.3 Kafka生產者與消費者綜合實例 124
本章小結 132
課后作業 132
第6章 態勢感知——輿情熱點大數據平臺中的數據采集技術 133
6.1 項目背景 133
6.2 輿情熱點大數據平臺數據采集需求分析 134
6.2.1 項目目標與意義 134
6.2.2 項目特色 135
6.2.3 項目準備 135
6.2.4 項目需求分析 136
6.3 輿情熱點大數據平臺數據采集設計與實現 137
6.3.1 輿情熱點數據采集 137
6.3.2 輿情熱點數據抽取 156
6.3.3 輿情熱點數據清洗 160
本章小結 163
課后作業 163
參考文獻 164
展開全部
大數據采集技術與應用 作者簡介
致力于“數據智能”的科學研究。基于數據管理領域實踐基礎,利用創新的超融合大數據技術,DATATOM可以提供數據基礎架構、超融合管理平臺和數據開發者服務,幫助用戶智能化的收集、存儲、分類、處理、分享、可視、連接和應用數據,降低用戶信息化投入成本,提高數據使用效率,加速數據價值創新應用。