-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
數據采集與預處理技術應用 版權信息
- ISBN:9787111733850
- 條形碼:9787111733850 ; 978-7-111-73385-0
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
數據采集與預處理技術應用 本書特色
聚焦大數據關鍵技術要點,詳解數據采集與數據預處理理論與技術
介紹主流數據采集工具(Flume、Kafka、日志易、Scribe、Scrapy框架等),及主流數據預處理工具(Python、Kettle、Pig、OpenRefine)的應用
隨書提供全套教學課件、教學大綱、授課計劃、數據集、源代碼等教學資源
數據采集與預處理技術應用 內容簡介
本書重點介紹了數據采集和數據預處理的相關理論與技術。全書共9章,主要包括數據采集與預處理概述,大數據開發環境的搭建,使用Flume采集系統日志數據,使用Kafka采集系統日志數據,其他常用的系統日志數據采集工具,使用網絡爬蟲采集Web數據,Python數據預處理庫的使用,使用ETL工具Kettle進行數據預處理,以及其他常用的數據預處理工具。本書在第2章至第9章安排了豐富的實踐操作,實現了理論與實踐的有機結合,幫助讀者更好地學習和掌握數據采集與預處理的關鍵技術。本書可以作為高等院校大數據專業的大數據課程教材,也可以作為計算機相關專業的專業課或選修課教材,同時也可以作為從事大數據相關專業的工作人員的參考用書。
數據采集與預處理技術應用 目錄
出版說明
前言
第1章 數據采集與預處理概述1
1.1 大數據簡介1
1.1.1 數據的概念、類型、組織形式1
1.1.2 大數據的概念、特點與作用3
1.1.3 大數據的技術應用4
1.2 數據分析簡介5
1.2.1 數據分析的基本流程5
1.2.2 數據分析的方法與技術6
1.3 數據采集簡介8
1.3.1 數據采集的三大方式及工具8
1.3.2 數據采集的應用場景11
1.4 數據預處理簡介12
1.4.1 數據預處理的目的與意義13
1.4.2 數據預處理的流程13
1.4.3 數據預處理的工具介紹15
習題17
第2章 大數據開發環境的搭建18
2.1 安裝Python與JDK18
2.1.1 Java和Python概述18
2.1.2 Python的安裝與配置19
2.1.3 JDK的安裝與配置20
2.1.4 Python與Java的IDE介紹21
2.2 MySQL數據庫的安裝與配置22
2.2.1 SQL概述22
2.2.2 安裝MySQL數據庫23
2.2.3 MySQL數據庫的基本使用24
2.3 Hadoop的安裝與配置26
2.3.1 單節點環境26
2.3.2 偽分布式環境27
2.3.3 節點間免密通信28
2.3.4 Hadoop的啟動和測試29
2.4 在Hadoop集群上運行
WordCount31
2.4.1 運行Java版本WordCount實例31
2.4.2 運行Python版本WordCount
實例33
習題36
第3章 使用Flume采集系統日志
數據37
3.1 Flume概述37
3.2 Flume的安裝運行38
3.3 Flume的核心組件38
3.3.1 Agent39
3.3.2 Source40
3.3.3 Sink40
3.3.4 Channel40
3.3.5 Event41
3.4 Flume攔截器與選擇器41
3.4.1 Flume內置攔截器41
3.4.2 自定義攔截器46
3.5 Flume負載均衡與故障轉移49
3.6 實踐案例:使用Flume采集數據
上傳到HDFS52
習題54
第4章 使用Kafka采集系統日志
數據55
4.1 Kafka概述55
4.1.1 消息隊列55
4.1.2 Kafka的特點56
4.1.3 Kafka與Flume的區別57
4.2 Kafka的安裝部署57
4.2.1 集群規劃57
4.2.2 安裝Zookeeper57
4.2.3 安裝Kafka59
4.3 Kafka的基本架構60
4.3.1 Kafka的消息系統60
4.3.2 Producer與Consumer60
4.3.3 主題與分區61
4.3.4 Broker與Kafka集群61
4.3.5 Zookeeper在Kafka中的作用62
4.4 實踐案例:使用Kafka采集本地
日志數據63
4.5 實踐案例:Kafka與Flume結合
采集日志數據65
習題67
第5章 其他常用的系統日志數據采集
工具68
5.1 Scribe68
5.1.1 Scribe簡介68
5.1.2 Scribe的配置文件68
5.1.3 實踐案例:使用Scribe采集系統
日志數據70
5.2 Chukwa71
5.2.1 Chukwa簡介71
5.2.2 Chukwa架構與數據采集72
5.2.3 實踐案例:使用Chukwa采集系統
日志數據74
5.3 Splunk75
5.3.1 Splunk概述75
5.3.2 Splunk的安裝與基本使用75
5.3.3 實踐案例:使用Splunk采集系統
日志數據77
5.4 日志易80
5.4.1 日志易的特點80
5.4.2 注冊日志易賬號81
5.4.3 實踐案例:使用日志易采集搜索
本地日志文件82
5.5 Logstash90
5.5.1 Logstash簡介90
5.5.2 Logstash的工作原理90
5.5.3 Logstash安裝與部署90
5.5.4 實踐案例:使用Logstash采集并
處理系統日志數據91
5.5.5 實踐案例:使用Logstash將數據
導入Elasticsearch93
5.6 Fluentd94
5.6.1 Fluentd簡介95
5.6.2 Fluentd的安裝與配置95
5.6.3 Fluentd的基本命令96
5.6.4 實踐案例:使用Fluentd采集系統
日志數據97
習題99
第6章 使用網絡爬蟲采集Web
數據100
6.1 網絡爬蟲概述100
6.1.1 網絡爬蟲的基本原理100
6.1.2 網絡爬蟲的類型100
6.2 網絡爬蟲基礎101
6.2.1 網絡爬蟲的基本爬取方式101
6.2.2 使用正則表達式進行字符串
匹配103
6.2.3 使用解析庫解析網頁104
6.2.4 Ajax數據的爬取106
6.2.5 使用selenium抓取動態渲染
頁面106
6.3 常見的網絡爬蟲框架107
6.3.1 Scrapy框架107
6.3.2 WebMagic框架110
6.3.3 Crawler4j框架111
6.3.4 WebCollector框架113
6.4 實踐案例:使用Scrapy爬取電商
網站數據114
習題118
第7章 Python數據預處理庫的使用119
7.1 Python與數據分析119
7.1.1 Python的特點119
7.1.2 為何使用Python進行數據分析120
7.2 NumPy:數組與向量計算120
7.3 Pandas:數據結構化操作123
7.4 SciPy:科學化計算127
7.5 Matplotlib:數據可視化130
7.6 實踐案例:使用Python預處理
旅游路線數據137
習題143
第8章 使用ETL工具Kettle進行
數據預處理144
8.1 Kettle概述144
8.2 Kettle的安裝與配置144
8.3 Kettle的基本使用145
8.3.1 Kettle的使用界面145
8.3.2 新建轉換與任務146
8.3.3 數據獲取149
8.3.4 數據清洗與轉換156
8.3.5 數據遷移和裝載160
8.4 實踐案例:使用Kettle處理某
電商網站數據163
習題167
第9章 其他常用的數據預處理工具168
9.1 Pig168
9.1.1 Pig概述168
9.1.2 Pig的安裝和配置169
9.1.3 Pig Latin的基本概念170
9.1.4 使用Pig進行數據預處理176
9.2 OpenRefine182
9.2.1 OpenRefine概述183
9.2.2 OpenRefine創建項目183
9.2.3 OpenRefine的基本使用186
9.3 實踐案例:使用Pig和
OpenRefine預處理
數據采集與預處理技術應用 作者簡介
安俊秀,成都信息工程大學教授,訪問學者,碩士生導師。軟件自動生成與智能服務四川省 學術帶頭人(知識本體和大數據方向)。并行計算與大數據研究所負責人。長期從事數據科學與大數據技術相關的研究與教學工作,已發表研究領域相關論文40余篇,主編大數據與人工智能方面專著或教材10余部。
- >
姑媽的寶刀
- >
煙與鏡
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
唐代進士錄
- >
【精裝繪本】畫給孩子的中國神話
- >
隨園食單
- >
回憶愛瑪儂
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)