-
>
闖進數(shù)學世界――探秘歷史名題
-
>
中醫(yī)基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫(yī)內(nèi)科學·全國中醫(yī)藥行業(yè)高等教育“十四五”規(guī)劃教材
數(shù)據(jù)采集與預處理(第2版 ) 版權(quán)信息
- ISBN:9787115657282
- 條形碼:9787115657282 ; 978-7-115-65728-2
- 裝幀:平裝
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
數(shù)據(jù)采集與預處理(第2版 ) 本書特色
1.實驗部署在Linux操作系統(tǒng),同時,教學資源中提供Windows系統(tǒng)實驗,便于不同院校教學。
2.突出實踐,增加案例數(shù)量,與更多行業(yè)相結(jié)合,便于學生掌握數(shù)據(jù)采集與預處理技術的應用。
3. 配套資源豐富:題庫、PPT、教案、教學大綱、授課視頻、實驗指南、課后習題答案等。
數(shù)據(jù)采集與預處理(第2版 ) 內(nèi)容簡介
本書詳細闡述了大數(shù)據(jù)領域數(shù)據(jù)采集與預處理的相關理論和技術。全書共8章,內(nèi)容包括概述、大數(shù)據(jù)實驗環(huán)境搭建、網(wǎng)絡數(shù)據(jù)采集、分布式消息系統(tǒng)Kafka、日志采集系統(tǒng)Flume、數(shù)據(jù)倉庫中的數(shù)據(jù)集成、ETL工具Kettle、使用pandas進行數(shù)據(jù)清洗。本書包含豐富的實踐操作和應用案例,以幫助讀者更好地學習和掌握數(shù)據(jù)采集與預處理的關鍵技術。 本書可以作為高等院校大數(shù)據(jù)專業(yè)的大數(shù)據(jù)課程教材,也可供相關技術人員參考。
數(shù)據(jù)采集與預處理(第2版 ) 目錄
1.1 數(shù)據(jù) 1
1.1.1 數(shù)據(jù)的概念 1
1.1.2 數(shù)據(jù)的類型 2
1.1.3 數(shù)據(jù)的組織形式 2
1.1.4 數(shù)據(jù)的價值 2
1.1.5 數(shù)據(jù)爆炸 3
1.2 數(shù)據(jù)分析過程 3
1.3 數(shù)據(jù)采集與預處理的任務 4
1.4 數(shù)據(jù)采集 5
1.4.1 數(shù)據(jù)采集的概念 5
1.4.2 數(shù)據(jù)采集的三大要點 5
1.4.3 數(shù)據(jù)采集的數(shù)據(jù)源 6
1.4.4 數(shù)據(jù)采集方法 7
1.5 數(shù)據(jù)清洗 8
1.5.1 數(shù)據(jù)清洗的應用領域 8
1.5.2 數(shù)據(jù)清洗的實現(xiàn)方式 8
1.5.3 數(shù)據(jù)清洗的內(nèi)容 9
1.5.4 數(shù)據(jù)清洗的注意事項 9
1.5.5 數(shù)據(jù)清洗的基本流程 10
1.5.6 數(shù)據(jù)清洗的評價標準 10
1.6 數(shù)據(jù)集成 11
1.7 數(shù)據(jù)轉(zhuǎn)換 11
1.7.1 數(shù)據(jù)轉(zhuǎn)換策略 11
1.7.2 平滑處理 12
1.7.3 規(guī)范化處理 13
1.8 數(shù)據(jù)歸約 14
1.9 數(shù)據(jù)脫敏 16
1.9.1 數(shù)據(jù)脫敏原則 16
1.9.2 數(shù)據(jù)脫敏方法 16
1.10 本章小結(jié) 17
1.11 習題 17
第2章 大數(shù)據(jù)實驗環(huán)境搭建 19
2.1 Linux操作系統(tǒng)的安裝和使用 19
2.1.1 下載安裝文件 19
2.1.2 Linux操作系統(tǒng)的安裝方式 20
2.1.3 安裝Linux虛擬機 20
2.1.4 創(chuàng)建hadoop用戶 29
2.1.5 在Windows操作系統(tǒng)和Linux虛擬機之間互相復制文件 29
2.1.6 使用FTP實現(xiàn)Windows和Linux之間的文件傳輸 31
2.1.7 vim編輯器的安裝和使用 33
2.1.8 設置中文輸入法 34
2.1.9 常用的Linux命令 36
2.1.10 文件解壓 36
2.1.11 目錄的權(quán)限 37
2.1.12 更新APT 37
2.1.13 Linux操作系統(tǒng)的一些使用技巧 37
2.2 Python的安裝和使用 37
2.2.1 Python簡介 38
2.2.2 Python的安裝 39
2.2.3 Python的基本使用方法 39
2.2.4 Python基礎語法知識 40
2.2.5 Python第三方模塊的安裝 43
2.3 JDK的安裝 44
2.4 Hadoop的安裝和使用 45
2.4.1 Hadoop簡介 45
2.4.2 安裝Hadoop前的準備工作 46
2.4.3 安裝Hadoop的3種模式 48
2.4.4 下載Hadoop安裝文件 48
2.4.5 偽分布式模式配置 48
2.4.6 分布式文件系統(tǒng)HDFS 51
2.4.7 HDFS的基本使用方法 52
2.5 MySQL數(shù)據(jù)庫的安裝和使用 53
2.5.1 關系數(shù)據(jù)庫 53
2.5.2 關系數(shù)據(jù)庫標準語言SQL 55
2.5.3 安裝MySQL 57
2.5.4 MySQL數(shù)據(jù)庫的使用方法 58
2.5.5 使用Python操作MySQL數(shù)據(jù)庫 59
2.6 MongoDB的安裝和使用 63
2.6.1 MongoDB簡介 63
2.6.2 安裝MongoDB 6.0 63
2.6.3 MongoDB基礎操作 65
2.6.4 使用Python操作MongoDB 67
2.7 Redis的安裝和使用 69
2.7.1 Redis簡介 69
2.7.2 安裝Redis 69
2.7.3 Redis操作實例 70
2.7.4 使用Python操作Redis數(shù)據(jù)庫 72
2.8 本章小結(jié) 73
2.9 習題 73
實驗1 熟悉MySQL和HDFS的操作 73
第3章 網(wǎng)絡數(shù)據(jù)采集 76
3.1 網(wǎng)絡爬蟲概述 76
3.1.1 網(wǎng)絡爬蟲的定義及工作原理 76
3.1.2 網(wǎng)絡爬蟲的類型 77
3.1.3 反爬蟲機制 77
3.1.4 爬取策略制訂 79
3.2 網(wǎng)頁基礎知識 80
3.2.1 超文本和HTML 80
3.2.2 HTTP 80
3.3 用Python實現(xiàn)HTTP請求 81
3.3.1 urllib模塊 81
3.3.2 urllib3模塊 82
3.3.3 requests模塊 82
3.4 定制requests 83
3.4.1 傳遞URL參數(shù) 83
3.4.2 定制請求頭 84
3.4.3 網(wǎng)絡超時處理 84
3.5 解析網(wǎng)頁 85
3.5.1 BeautifulSoup簡介 85
3.5.2 BeautifulSoup四大對象 86
3.5.3 遍歷文檔樹 88
3.5.4 搜索文檔樹 92
3.5.5 CSS選擇器 95
3.6 綜合實例 96
3.6.1 實例1:采集網(wǎng)頁數(shù)據(jù)保存到文本文件 96
3.6.2 實例2:采集網(wǎng)頁數(shù)據(jù)保存到MySQL數(shù)據(jù)庫 99
3.6.3 實例3:采集網(wǎng)頁數(shù)據(jù)保存到MongoDB數(shù)據(jù)庫 101
3.6.4 實例4:采集網(wǎng)頁數(shù)據(jù)保存到Redis數(shù)據(jù)庫 102
3.7 Scrapy框架 104
3.7.1 Scrapy框架概述 104
3.7.2 XPath語言 105
3.7.3 Scrapy框架應用實例 109
3.8 通過JSON接口爬取網(wǎng)站數(shù)據(jù) 115
3.8.1 為什么選擇JSON接口 115
3.8.2 通過JSON接口爬取數(shù)據(jù)的步驟 116
3.8.3 實例 116
3.9 本章小結(jié) 118
3.10 習題 119
實驗2 網(wǎng)絡爬蟲初級實踐 119
第4章 分布式消息系統(tǒng)Kafka 121
4.1 Kafka簡介 121
4.1.1 Kafka的特性 121
4.1.2 Kafka的主要應用場景 122
4.1.3 Kafka的消息傳遞模式 122
4.2 Kafka在大數(shù)據(jù)生態(tài)系統(tǒng)中的作用 123
4.3 Kafka和Flume的區(qū)別與聯(lián)系 124
4.4 Kafka相關概念 124
4.5 Kafka的安裝和使用 125
4.5.1 安裝Kafka 125
4.5.2 使用Kafka 126
4.6 使用Python操作Kafka 127
4.7 Kafka與MySQL的組合使用 130
4.8 Kafka采集數(shù)據(jù)保存到MongoDB中 132
4.8.1 任務描述 132
4.8.2 實現(xiàn)代碼 132
4.8.3 執(zhí)行過程 133
4.9 本章小結(jié) 133
4.10 習題 133
實驗3 熟悉Kafka的基本使用方法 134
第5章 日志采集系統(tǒng)Flume 136
5.1 Flume簡介 136
5.2 Flume的安裝和使用 137
5.2.1 Flume的安裝 137
5.2.2 Flume的使用 138
5.3 Flume和Kafka的組合使用 139
5.3.1 Flume采集NetCat數(shù)據(jù)到
Kafka 139
5.3.2 Flume采集文件數(shù)據(jù)到Kafka 141
5.3.3 Flume采集MySQL數(shù)據(jù)庫中的數(shù)據(jù)到Kafka 143
5.4 采集日志文件到HDFS 145
5.4.1 采集目錄到HDFS 145
5.4.2 采集文件到HDFS 147
5.5 采集MySQL數(shù)據(jù)庫中的數(shù)據(jù)到HDFS 148
5.5.1 準備工作 149
5.5.2 創(chuàng)建MySQL數(shù)據(jù)庫 149
5.5.3 配置和啟動Flume 149
5.6 Flume多數(shù)據(jù)源應用實例 151
5.6.1 方案設計 151
5.6.2 配置Flume 152
5.6.3 執(zhí)行過程 154
5.7 本章小結(jié) 154
5.8 習題 155
實驗4 熟悉Flume的基本使用方法 155
第6章 數(shù)據(jù)倉庫中的數(shù)據(jù)集成 157
6.1 數(shù)據(jù)倉庫的概念 157
6.1.1 傳統(tǒng)的數(shù)據(jù)倉庫 157
6.1.2 實時主動數(shù)據(jù)倉庫 158
6.2 數(shù)據(jù)集成 159
6.2.1 數(shù)據(jù)集成方式 159
6.2.2 數(shù)據(jù)分發(fā)方式 160
6.2.3 數(shù)據(jù)集成技術 160
6.3 ETL 161
6.3.1 ETL簡介 161
6.3.2 ETL基本模塊 162
6.3.3 ETL模式 163
6.3.4 ETL工具 164
6.4 CDC 165
6.4.1 CDC的特性 165
6.4.2 CDC的組成 166
6.4.3 CDC的具體應用場景 166
6.4.4 對于CDC需要思考和重視的問題 167
6.5 本章小結(jié) 168
6.6 習題 168
第7章 ETL工具Kettle 169
7.1 Kettle的基本概念 169
7.2 Kettle的基本功能 170
7.3 安裝Kettle 172
7.4 數(shù)據(jù)抽取 174
7.4.1 把文本文件導入Excel文件 174
7.4.2 把文本文件導入MySQL數(shù)據(jù)庫 179
7.4.3 把Excel文件導入MySQL數(shù)據(jù)庫 183
7.5 數(shù)據(jù)清洗與轉(zhuǎn)換 186
7.5.1 使用Kettle實現(xiàn)數(shù)據(jù)排序 187
7.5.2 在Kettle中用正則表達式清洗數(shù)據(jù) 189
7.5.3 使用Kettle去除缺失值記錄 192
7.5.4 使用Kettle轉(zhuǎn)化MySQL數(shù)據(jù)庫中的數(shù)據(jù) 197
7.6 數(shù)據(jù)加載 203
7.6.1 把本地文件加載到HDFS中 203
7.6.2 把HDFS文件加載到MySQL數(shù)據(jù)庫中 208
7.7 本章小結(jié) 212
7.8 習題 212
實驗5 熟悉Kettle的基本使用方法 212
第8章 使用Pandas進行數(shù)據(jù)清洗 215
8.1 NumPy的基本使用方法 215
8.1.1 數(shù)組創(chuàng)建 215
8.1.2 數(shù)組索引和切片 217
8.1.3 數(shù)組運算 218
8.1.4 數(shù)組對象的常用函數(shù) 218
8.2 Pandas的數(shù)據(jù)結(jié)構(gòu) 221
8.2.1 Series 221
8.2.2 DataFrame 224
8.2.3 索引對象 228
8.3 Pandas導入導出數(shù)據(jù) 229
8.3.1 導入與導出Excel文件 229
8.3.2 導入與導出CSV文件 230
8.3.3 導入與導出TXT文件 231
8.3.4 將數(shù)據(jù)導入與導出MySQL數(shù)據(jù)庫 231
8.4 Pandas的基本功能 233
8.4.1 數(shù)據(jù)拆分與合并 233
8.4.2 重新索引 237
8.4.3 丟棄指定軸上的項 239
8.4.4 索引、選取和過濾 240
8.4.5 算術運算 241
8.4.6 DataFrame和Series之間的運算 241
8.4.7 函數(shù)應用和映射 242
8.4.8 排序和排名 243
8.4.9 分組 246
8.4.10 其他常用函數(shù) 248
8.5 匯總和描述統(tǒng)計 251
8.5.1 與描述統(tǒng)計相關的函數(shù) 251
8.5.2 唯一值、值計數(shù)及成員資格 253
8.6 處理缺失數(shù)據(jù) 254
8.6.1 檢查缺失值 255
8.6.2 清理/填充缺失值 255
8.6.3 排除缺少的值 256
8.7 清洗格式內(nèi)容 257
8.7.1 刪除字符串中的空格 257
8.7.2 清洗大小寫混用 258
8.8 綜合實例 258
8.8.1 Matplotlib的使用方法 258
8.8.2 實例1:對食品數(shù)據(jù)集進行基本操作 261
8.8.3 實例2:對電影數(shù)據(jù)集進行清洗 262
8.8.4 實例3:百度搜索指數(shù)分析 263
8.8.5 示例4:B站數(shù)據(jù)分析 265
8.8.6 實例5:電影評分數(shù)據(jù)分析 270
8.8.7 實例6:App行為數(shù)據(jù)預處理 273
8.9 本章小結(jié) 281
8.10 習題 281
實驗6 Pandas數(shù)據(jù)清洗初級實踐 281
參考文獻 284
數(shù)據(jù)采集與預處理(第2版 ) 作者簡介
林子雨,男,博士,國內(nèi)高校知名大數(shù)據(jù)教師,廈門大學計算機科學與技術系副教授,廈門大學數(shù)據(jù)庫實驗室負責人,中國計算機學會數(shù)據(jù)庫專委會委員,中國計算機學會信息系統(tǒng)專委會委員,入選“2021年高校計算機專業(yè)優(yōu)秀教師獎勵計劃”,榮獲“2022年福建省高等教育教學成果獎特等獎(個人排名第一)”和“2018年福建省高等教育教學成果獎二等獎(個人排名第一)”,編著出版12本大數(shù)據(jù)系列教材,被國內(nèi)500多所高校采用,建設了國內(nèi)高校首個大數(shù)據(jù)課程公共服務平臺,平臺累計網(wǎng)絡訪問量超過2300萬次,成為全國高校大數(shù)據(jù)教學知名品牌,主持的課程《大數(shù)據(jù)技術原理與應用》獲評“2018年國家精品在線開放課程”和“2020年國家級線上一流本科課程”,主持的課程《Spark編程基礎》獲評“2021年國家級線上一流本科課程”。
- >
月亮與六便士
- >
名家?guī)阕x魯迅:故事新編
- >
史學評論
- >
回憶愛瑪儂
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
苦雨齋序跋文-周作人自編集
- >
煙與鏡
- >
大紅狗在馬戲團-大紅狗克里弗-助人