中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊
> >
數(shù)據(jù)采集與預處理(第2版 )

包郵 數(shù)據(jù)采集與預處理(第2版 )

作者:林子雨 著
出版社:人民郵電出版社出版時間:2025-02-01
開本: 16開 頁數(shù): 284
本類榜單:教材銷量榜
中 圖 價:¥51.3(7.3折) 定價  ¥69.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

數(shù)據(jù)采集與預處理(第2版 ) 版權(quán)信息

數(shù)據(jù)采集與預處理(第2版 ) 本書特色

1.實驗部署在Linux操作系統(tǒng),同時,教學資源中提供Windows系統(tǒng)實驗,便于不同院校教學。

2.突出實踐,增加案例數(shù)量,與更多行業(yè)相結(jié)合,便于學生掌握數(shù)據(jù)采集與預處理技術的應用。

3. 配套資源豐富:題庫、PPT、教案、教學大綱、授課視頻、實驗指南、課后習題答案等。

數(shù)據(jù)采集與預處理(第2版 ) 內(nèi)容簡介

本書詳細闡述了大數(shù)據(jù)領域數(shù)據(jù)采集與預處理的相關理論和技術。全書共8章,內(nèi)容包括概述、大數(shù)據(jù)實驗環(huán)境搭建、網(wǎng)絡數(shù)據(jù)采集、分布式消息系統(tǒng)Kafka、日志采集系統(tǒng)Flume、數(shù)據(jù)倉庫中的數(shù)據(jù)集成、ETL工具Kettle、使用pandas進行數(shù)據(jù)清洗。本書包含豐富的實踐操作和應用案例,以幫助讀者更好地學習和掌握數(shù)據(jù)采集與預處理的關鍵技術。 本書可以作為高等院校大數(shù)據(jù)專業(yè)的大數(shù)據(jù)課程教材,也可供相關技術人員參考。

數(shù)據(jù)采集與預處理(第2版 ) 目錄

第1章 概述 1

1.1 數(shù)據(jù) 1

1.1.1 數(shù)據(jù)的概念 1

1.1.2 數(shù)據(jù)的類型 2

1.1.3 數(shù)據(jù)的組織形式 2

1.1.4 數(shù)據(jù)的價值 2

1.1.5 數(shù)據(jù)爆炸 3

1.2 數(shù)據(jù)分析過程 3

1.3 數(shù)據(jù)采集與預處理的任務 4

1.4 數(shù)據(jù)采集 5

1.4.1 數(shù)據(jù)采集的概念 5

1.4.2 數(shù)據(jù)采集的三大要點 5

1.4.3 數(shù)據(jù)采集的數(shù)據(jù)源 6

1.4.4 數(shù)據(jù)采集方法 7

1.5 數(shù)據(jù)清洗 8

1.5.1 數(shù)據(jù)清洗的應用領域 8

1.5.2 數(shù)據(jù)清洗的實現(xiàn)方式 8

1.5.3 數(shù)據(jù)清洗的內(nèi)容 9

1.5.4 數(shù)據(jù)清洗的注意事項 9

1.5.5 數(shù)據(jù)清洗的基本流程 10

1.5.6 數(shù)據(jù)清洗的評價標準 10

1.6 數(shù)據(jù)集成 11

1.7 數(shù)據(jù)轉(zhuǎn)換 11

1.7.1 數(shù)據(jù)轉(zhuǎn)換策略 11

1.7.2 平滑處理 12

1.7.3 規(guī)范化處理 13

1.8 數(shù)據(jù)歸約 14

1.9 數(shù)據(jù)脫敏 16

1.9.1 數(shù)據(jù)脫敏原則 16

1.9.2 數(shù)據(jù)脫敏方法 16

1.10 本章小結(jié) 17

1.11 習題 17

第2章 大數(shù)據(jù)實驗環(huán)境搭建 19

2.1 Linux操作系統(tǒng)的安裝和使用 19

2.1.1 下載安裝文件 19

2.1.2 Linux操作系統(tǒng)的安裝方式 20

2.1.3 安裝Linux虛擬機 20

2.1.4 創(chuàng)建hadoop用戶 29

2.1.5 在Windows操作系統(tǒng)和Linux虛擬機之間互相復制文件 29

2.1.6 使用FTP實現(xiàn)Windows和Linux之間的文件傳輸 31

2.1.7 vim編輯器的安裝和使用 33

2.1.8 設置中文輸入法 34

2.1.9 常用的Linux命令 36

2.1.10 文件解壓 36

2.1.11 目錄的權(quán)限 37

2.1.12 更新APT 37

2.1.13 Linux操作系統(tǒng)的一些使用技巧 37

2.2 Python的安裝和使用 37

2.2.1 Python簡介 38

2.2.2 Python的安裝 39

2.2.3 Python的基本使用方法 39

2.2.4 Python基礎語法知識 40

2.2.5 Python第三方模塊的安裝 43

2.3 JDK的安裝 44

2.4 Hadoop的安裝和使用 45

2.4.1 Hadoop簡介 45

2.4.2 安裝Hadoop前的準備工作 46

2.4.3 安裝Hadoop的3種模式 48

2.4.4 下載Hadoop安裝文件 48

2.4.5 偽分布式模式配置 48

2.4.6 分布式文件系統(tǒng)HDFS 51

2.4.7 HDFS的基本使用方法 52

2.5 MySQL數(shù)據(jù)庫的安裝和使用 53

2.5.1 關系數(shù)據(jù)庫 53

2.5.2 關系數(shù)據(jù)庫標準語言SQL 55

2.5.3 安裝MySQL 57

2.5.4 MySQL數(shù)據(jù)庫的使用方法 58

2.5.5 使用Python操作MySQL數(shù)據(jù)庫 59

2.6 MongoDB的安裝和使用 63

2.6.1 MongoDB簡介 63

2.6.2 安裝MongoDB 6.0 63

2.6.3 MongoDB基礎操作 65

2.6.4 使用Python操作MongoDB 67

2.7 Redis的安裝和使用 69

2.7.1 Redis簡介 69

2.7.2 安裝Redis 69

2.7.3 Redis操作實例 70

2.7.4 使用Python操作Redis數(shù)據(jù)庫 72

2.8 本章小結(jié) 73

2.9 習題 73

實驗1 熟悉MySQL和HDFS的操作 73

第3章 網(wǎng)絡數(shù)據(jù)采集 76

3.1 網(wǎng)絡爬蟲概述 76

3.1.1 網(wǎng)絡爬蟲的定義及工作原理 76

3.1.2 網(wǎng)絡爬蟲的類型 77

3.1.3 反爬蟲機制 77

3.1.4 爬取策略制訂 79

3.2 網(wǎng)頁基礎知識 80

3.2.1 超文本和HTML 80

3.2.2 HTTP 80

3.3 用Python實現(xiàn)HTTP請求 81

3.3.1 urllib模塊 81

3.3.2 urllib3模塊 82

3.3.3 requests模塊 82

3.4 定制requests 83

3.4.1 傳遞URL參數(shù) 83

3.4.2 定制請求頭 84

3.4.3 網(wǎng)絡超時處理 84

3.5 解析網(wǎng)頁 85

3.5.1 BeautifulSoup簡介 85

3.5.2 BeautifulSoup四大對象 86

3.5.3 遍歷文檔樹 88

3.5.4 搜索文檔樹 92

3.5.5 CSS選擇器 95

3.6 綜合實例 96

3.6.1 實例1:采集網(wǎng)頁數(shù)據(jù)保存到文本文件 96

3.6.2 實例2:采集網(wǎng)頁數(shù)據(jù)保存到MySQL數(shù)據(jù)庫 99

3.6.3 實例3:采集網(wǎng)頁數(shù)據(jù)保存到MongoDB數(shù)據(jù)庫 101

3.6.4 實例4:采集網(wǎng)頁數(shù)據(jù)保存到Redis數(shù)據(jù)庫 102

3.7 Scrapy框架 104

3.7.1 Scrapy框架概述 104

3.7.2 XPath語言 105

3.7.3 Scrapy框架應用實例 109

3.8 通過JSON接口爬取網(wǎng)站數(shù)據(jù) 115

3.8.1 為什么選擇JSON接口 115

3.8.2 通過JSON接口爬取數(shù)據(jù)的步驟 116

3.8.3 實例 116

3.9 本章小結(jié) 118

3.10 習題 119

實驗2 網(wǎng)絡爬蟲初級實踐 119

第4章 分布式消息系統(tǒng)Kafka 121

4.1 Kafka簡介 121

4.1.1 Kafka的特性 121

4.1.2 Kafka的主要應用場景 122

4.1.3 Kafka的消息傳遞模式 122

4.2 Kafka在大數(shù)據(jù)生態(tài)系統(tǒng)中的作用 123

4.3 Kafka和Flume的區(qū)別與聯(lián)系 124

4.4 Kafka相關概念 124

4.5 Kafka的安裝和使用 125

4.5.1 安裝Kafka 125

4.5.2 使用Kafka 126

4.6 使用Python操作Kafka 127

4.7 Kafka與MySQL的組合使用 130

4.8 Kafka采集數(shù)據(jù)保存到MongoDB中 132

4.8.1 任務描述 132

4.8.2 實現(xiàn)代碼 132

4.8.3 執(zhí)行過程 133

4.9 本章小結(jié) 133

4.10 習題 133

實驗3 熟悉Kafka的基本使用方法 134

第5章 日志采集系統(tǒng)Flume 136

5.1 Flume簡介 136

5.2 Flume的安裝和使用 137

5.2.1 Flume的安裝 137

5.2.2 Flume的使用 138

5.3 Flume和Kafka的組合使用 139

5.3.1 Flume采集NetCat數(shù)據(jù)到

Kafka 139

5.3.2 Flume采集文件數(shù)據(jù)到Kafka 141

5.3.3 Flume采集MySQL數(shù)據(jù)庫中的數(shù)據(jù)到Kafka 143

5.4 采集日志文件到HDFS 145

5.4.1 采集目錄到HDFS 145

5.4.2 采集文件到HDFS 147

5.5 采集MySQL數(shù)據(jù)庫中的數(shù)據(jù)到HDFS 148

5.5.1 準備工作 149

5.5.2 創(chuàng)建MySQL數(shù)據(jù)庫 149

5.5.3 配置和啟動Flume 149

5.6 Flume多數(shù)據(jù)源應用實例 151

5.6.1 方案設計 151

5.6.2 配置Flume 152

5.6.3 執(zhí)行過程 154

5.7 本章小結(jié) 154

5.8 習題 155

實驗4 熟悉Flume的基本使用方法 155

第6章 數(shù)據(jù)倉庫中的數(shù)據(jù)集成 157

6.1 數(shù)據(jù)倉庫的概念 157

6.1.1 傳統(tǒng)的數(shù)據(jù)倉庫 157

6.1.2 實時主動數(shù)據(jù)倉庫 158

6.2 數(shù)據(jù)集成 159

6.2.1 數(shù)據(jù)集成方式 159

6.2.2 數(shù)據(jù)分發(fā)方式 160

6.2.3 數(shù)據(jù)集成技術 160

6.3 ETL 161

6.3.1 ETL簡介 161

6.3.2 ETL基本模塊 162

6.3.3 ETL模式 163

6.3.4 ETL工具 164

6.4 CDC 165

6.4.1 CDC的特性 165

6.4.2 CDC的組成 166

6.4.3 CDC的具體應用場景 166

6.4.4 對于CDC需要思考和重視的問題 167

6.5 本章小結(jié) 168

6.6 習題 168

第7章 ETL工具Kettle 169

7.1 Kettle的基本概念 169

7.2 Kettle的基本功能 170

7.3 安裝Kettle 172

7.4 數(shù)據(jù)抽取 174

7.4.1 把文本文件導入Excel文件 174

7.4.2 把文本文件導入MySQL數(shù)據(jù)庫 179

7.4.3 把Excel文件導入MySQL數(shù)據(jù)庫 183

7.5 數(shù)據(jù)清洗與轉(zhuǎn)換 186

7.5.1 使用Kettle實現(xiàn)數(shù)據(jù)排序 187

7.5.2 在Kettle中用正則表達式清洗數(shù)據(jù) 189

7.5.3 使用Kettle去除缺失值記錄 192

7.5.4 使用Kettle轉(zhuǎn)化MySQL數(shù)據(jù)庫中的數(shù)據(jù) 197

7.6 數(shù)據(jù)加載 203

7.6.1 把本地文件加載到HDFS中 203

7.6.2 把HDFS文件加載到MySQL數(shù)據(jù)庫中 208

7.7 本章小結(jié) 212

7.8 習題 212

實驗5 熟悉Kettle的基本使用方法 212

第8章 使用Pandas進行數(shù)據(jù)清洗 215

8.1 NumPy的基本使用方法 215

8.1.1 數(shù)組創(chuàng)建 215

8.1.2 數(shù)組索引和切片 217

8.1.3 數(shù)組運算 218

8.1.4 數(shù)組對象的常用函數(shù) 218

8.2 Pandas的數(shù)據(jù)結(jié)構(gòu) 221

8.2.1 Series 221

8.2.2 DataFrame 224

8.2.3 索引對象 228

8.3 Pandas導入導出數(shù)據(jù) 229

8.3.1 導入與導出Excel文件 229

8.3.2 導入與導出CSV文件 230

8.3.3 導入與導出TXT文件 231

8.3.4 將數(shù)據(jù)導入與導出MySQL數(shù)據(jù)庫 231

8.4 Pandas的基本功能 233

8.4.1 數(shù)據(jù)拆分與合并 233

8.4.2 重新索引 237

8.4.3 丟棄指定軸上的項 239

8.4.4 索引、選取和過濾 240

8.4.5 算術運算 241

8.4.6 DataFrame和Series之間的運算 241

8.4.7 函數(shù)應用和映射 242

8.4.8 排序和排名 243

8.4.9 分組 246

8.4.10 其他常用函數(shù) 248

8.5 匯總和描述統(tǒng)計 251

8.5.1 與描述統(tǒng)計相關的函數(shù) 251

8.5.2 唯一值、值計數(shù)及成員資格 253

8.6 處理缺失數(shù)據(jù) 254

8.6.1 檢查缺失值 255

8.6.2 清理/填充缺失值 255

8.6.3 排除缺少的值 256

8.7 清洗格式內(nèi)容 257

8.7.1 刪除字符串中的空格 257

8.7.2 清洗大小寫混用 258

8.8 綜合實例 258

8.8.1 Matplotlib的使用方法 258

8.8.2 實例1:對食品數(shù)據(jù)集進行基本操作 261

8.8.3 實例2:對電影數(shù)據(jù)集進行清洗 262

8.8.4 實例3:百度搜索指數(shù)分析 263

8.8.5 示例4:B站數(shù)據(jù)分析 265

8.8.6 實例5:電影評分數(shù)據(jù)分析 270

8.8.7 實例6:App行為數(shù)據(jù)預處理 273

8.9 本章小結(jié) 281

8.10 習題 281

實驗6 Pandas數(shù)據(jù)清洗初級實踐 281

參考文獻 284

展開全部

數(shù)據(jù)采集與預處理(第2版 ) 作者簡介

林子雨,男,博士,國內(nèi)高校知名大數(shù)據(jù)教師,廈門大學計算機科學與技術系副教授,廈門大學數(shù)據(jù)庫實驗室負責人,中國計算機學會數(shù)據(jù)庫專委會委員,中國計算機學會信息系統(tǒng)專委會委員,入選“2021年高校計算機專業(yè)優(yōu)秀教師獎勵計劃”,榮獲“2022年福建省高等教育教學成果獎特等獎(個人排名第一)”和“2018年福建省高等教育教學成果獎二等獎(個人排名第一)”,編著出版12本大數(shù)據(jù)系列教材,被國內(nèi)500多所高校采用,建設了國內(nèi)高校首個大數(shù)據(jù)課程公共服務平臺,平臺累計網(wǎng)絡訪問量超過2300萬次,成為全國高校大數(shù)據(jù)教學知名品牌,主持的課程《大數(shù)據(jù)技術原理與應用》獲評“2018年國家精品在線開放課程”和“2020年國家級線上一流本科課程”,主持的課程《Spark編程基礎》獲評“2021年國家級線上一流本科課程”。

商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 全自动变压器变比组别测试仪-手持式直流电阻测试仪-上海来扬电气 | 房屋质量检测-厂房抗震鉴定-玻璃幕墙检测-房屋安全鉴定机构 | 信阳网站建设专家-信阳时代网联-【信阳网站建设百度推广优质服务提供商】信阳网站建设|信阳网络公司|信阳网络营销推广 | 鹤壁创新仪器公司-全自动量热仪,定硫仪,煤炭测硫仪,灰熔点测定仪,快速自动测氢仪,工业分析仪,煤质化验仪器 | 金属回收_废铜废铁回收_边角料回收_废不锈钢回收_废旧电缆线回收-广东益夫金属回收公司 | 定硫仪,量热仪,工业分析仪,马弗炉,煤炭化验设备厂家,煤质化验仪器,焦炭化验设备鹤壁大德煤质工业分析仪,氟氯测定仪 | 东莞猎头公司_深圳猎头公司_广州猎头公司-广东万诚猎头提供企业中高端人才招聘服务 | YAGEO国巨电容|贴片电阻|电容价格|三星代理商-深圳市巨优电子有限公司 | 危废处理系统,水泥厂DCS集散控制系统,石灰窑设备自动化控制系统-淄博正展工控设备 | 移动厕所租赁|移动卫生间|上海移动厕所租赁-家瑞租赁 | 知企服务-企业综合服务(ZiKeys.com)-品优低价、种类齐全、过程管理透明、速度快捷高效、放心服务,知企专家! | 整车VOC采样环境舱-甲醛VOC预处理舱-多舱法VOC检测环境仓-上海科绿特科技仪器有限公司 | 不发火防静电金属骨料_无机磨石_水泥自流平_修补砂浆厂家「圣威特」 | 步进_伺服_行星减速机,微型直流电机,大功率直流电机-淄博冠意传动机械 | 色谱柱-淋洗液罐-巴罗克试剂槽-巴氏吸管-5ml样品瓶-SBS液氮冻存管-上海希言科学仪器有限公司 | 细砂提取机,隔膜板框泥浆污泥压滤机,螺旋洗砂机设备,轮式洗砂机械,机制砂,圆锥颚式反击式破碎机,振动筛,滚筒筛,喂料机- 上海重睿环保设备有限公司 | 大倾角皮带机-皮带输送机-螺旋输送机-矿用皮带输送机价格厂家-河南坤威机械 | 智能垃圾箱|垃圾房|垃圾分类亭|垃圾分类箱专业生产厂家定做-宿迁市传宇环保设备有限公司 | 余姚生活网_余姚论坛_余姚市综合门户网站 | 青岛侦探_青岛侦探事务所_青岛劝退小三_青岛婚外情取证-青岛王军侦探事务所 | 合肥卓创建筑装饰,专业办公室装饰、商业空间装修与设计。 | 微波萃取合成仪-电热消解器价格-北京安合美诚科学仪器有限公司 | 客服外包专业服务商_客服外包中心_网萌科技 | 代理记账_公司起名核名_公司注册_工商注册-睿婕实业有限公司 | 膜结构车棚|上海膜结构车棚|上海车棚厂家|上海膜结构公司 | 空气能采暖,热泵烘干机,空气源热水机组|设备|厂家,东莞高温热泵_正旭新能源 | 废水处理-废气处理-工业废水处理-工业废气处理工程-深圳丰绿环保废气处理公司 | 线材成型机,线材折弯机,线材成型机厂家,贝朗自动化设备有限公司1 | 打包钢带,铁皮打包带,烤蓝打包带-高密市金和金属制品厂 | 德州网站开发定制-小程序开发制作-APP软件开发-「两山开发」 | 深圳高新投三江工业消防解决方案提供厂家_服务商_园区智慧消防_储能消防解决方案服务商_高新投三江 | 硬齿面减速机_厂家-山东安吉富传动设备股份有限公司 | 闭端端子|弹簧螺式接线头|防水接线头|插线式接线头|端子台|电源线扣+护线套|印刷电路板型端子台|金笔电子代理商-上海拓胜电气有限公司 | 假肢-假肢价格-假肢厂家-河南假肢-郑州市力康假肢矫形器有限公司 | 北京易通慧公司从事北京网站优化,北京网络推广、网站建设一站式服务商-北京网站优化公司 | 南京泽朗生物科技有限公司-液体饮料代加工_果汁饮料代加工_固体饮料代加工 | 天空彩票天下彩,天空彩天空彩票免费资料,天空彩票与你同行开奖,天下彩正版资料大全 | 恒温恒湿试验箱_高低温试验箱_恒温恒湿箱-东莞市高天试验设备有限公司 | 并网柜,汇流箱,电控设备,中高低压开关柜,电气电力成套设备,PLC控制设备订制厂家,江苏昌伟业新能源科技有限公司 | 电梯乘运质量测试仪_电梯安全评估测试仪-武汉懿之刻 | 不发火防静电金属骨料_无机磨石_水泥自流平_修补砂浆厂家「圣威特」 |