數(shù)據(jù)采集及預處理基礎(chǔ)與應(yīng)用 版權(quán)信息
- ISBN:9787115635259
- 條形碼:9787115635259 ; 978-7-115-63525-9
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
數(shù)據(jù)采集及預處理基礎(chǔ)與應(yīng)用 本書特色
1.本書是《大數(shù)據(jù)》編委會針對校企合作的精心力作。
2.本書凝結(jié)了曙光瑞翼多年的教學經(jīng)驗,能夠滿足校企融合教學的需求。
3.本書旨在介紹大數(shù)據(jù)預處理技術(shù)的基礎(chǔ)知識,為即將學習大數(shù)據(jù)技術(shù)的讀者奠定基礎(chǔ)。
4.本書采用任務(wù)驅(qū)動的編寫方式,讀者可以直接進行實驗效果體驗,并進行自由調(diào)整。
5.本書采用大量的實踐案例,結(jié)合行業(yè)典型應(yīng)用,編寫行業(yè)實踐。
6.本書提供豐富的教學資源,包括電子課件、實驗設(shè)計等。
數(shù)據(jù)采集及預處理基礎(chǔ)與應(yīng)用 內(nèi)容簡介
本書主要介紹如何利用Kettle和Python這兩個具有代表性的工具進行數(shù)據(jù)預處理的相關(guān)技術(shù)與方法,括數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換等。全書有9章,內(nèi)容涉及數(shù)據(jù)采集、環(huán)境署、Kettle安裝及應(yīng)用、pandas應(yīng)用,以及數(shù)據(jù)可視化的基礎(chǔ)內(nèi)容。本書采用任務(wù)式編寫形式,將大數(shù)據(jù)預處理技術(shù)的理論和實現(xiàn)分解到一個個任務(wù)中,融入到一個個典型案例中,讓讀者在完成各任務(wù)的同時掌握和理解相關(guān)內(nèi)容。 本書既有技術(shù)的深度,也有行業(yè)應(yīng)用的廣度,適合作為高等院校計算機、數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)等相關(guān)業(yè)課程的教材,也適合作為數(shù)據(jù)處理行業(yè)從業(yè)人員的參考用書。
數(shù)據(jù)采集及預處理基礎(chǔ)與應(yīng)用 目錄
第 1章 Scrapy電影數(shù)據(jù)采集 1
任務(wù)1.1 數(shù)據(jù)采集 1
1.1.1 數(shù)據(jù)采集概述 1
1.1.2 數(shù)據(jù)采集方法 1
1.1.3 數(shù)據(jù)采集應(yīng)用 3
任務(wù)1.2 網(wǎng)絡(luò)爬蟲 4
1.2.1 網(wǎng)絡(luò)爬蟲概述 4
1.2.2 常用網(wǎng)絡(luò)爬蟲方法 4
1.2.3 常用網(wǎng)絡(luò)爬蟲工具 5
任務(wù)1.3 網(wǎng)絡(luò)爬蟲實戰(zhàn) 6
1.3.1 獲取網(wǎng)頁 7
1.3.2 解析網(wǎng)頁 9
1.3.3 應(yīng)對反爬機制 11
本章題 12
第 2章 數(shù)據(jù)預處理環(huán)境安裝 13
任務(wù)2.1 數(shù)據(jù)預處理出現(xiàn)的背景及其目的 13
2.1.1 數(shù)據(jù)預處理出現(xiàn)的背景 13
2.1.2 數(shù)據(jù)預處理的目的 14
任務(wù)2.2 數(shù)據(jù)預處理的流程 15
2.2.1 數(shù)據(jù)清洗 15
2.2.2 數(shù)據(jù)集成 17
2.2.3 數(shù)據(jù)歸約 18
2.2.4 數(shù)據(jù)變換與數(shù)據(jù)離散化 23
2.3.5 數(shù)據(jù)預處理的注意事項 26
任務(wù)2.3 數(shù)據(jù)預處理的工具 26
2.3.1 Python預處理環(huán)境安裝 27
2.3.2 Kettle的下載安裝與Spoon的啟動 30
本章題 34
第3章 Kettle的初步使用 35
任務(wù)3.1 Kettle的點 36
任務(wù)3.2 Kettle的使用 36
3.2.1 轉(zhuǎn)換的基本概念 36
3.2.2 第 一個轉(zhuǎn)換案例 39
本章題 53
第4章 基于Kettle的客戶信息數(shù)據(jù)預處理 54
任務(wù)4.1 客戶信息數(shù)據(jù)抽取 54
4.1.1 從文本文件讀入性別參照數(shù)據(jù) 54
4.1.2 從Excel文件讀入客戶信息數(shù)據(jù) 56
4.1.3 從MySQL數(shù)據(jù)庫讀取城市區(qū)號參照數(shù)據(jù) 60
任務(wù)4.2 客戶信息數(shù)據(jù)清洗 65
4.2.1 數(shù)據(jù)排序 65
4.2.2 去除重復數(shù)據(jù) 66
4.2.3 處理缺失值 73
4.2.4 字段清洗 75
4.2.5 字符串清洗 78
4.2.6 處理異常數(shù)據(jù) 82
任務(wù)4.3 將客戶信息數(shù)據(jù)加載MySQL數(shù)據(jù)庫 88
本章題 91
第5章 基于pandas的學生信息預處理 92
任務(wù)5.1 pandas詳解 92
5.1.1 pandas的數(shù)據(jù)結(jié)構(gòu)及基本功能 92
5.1.2 數(shù)據(jù)加載與存儲 130
任務(wù)5.2 學生信息預處理 141
5.2.1 數(shù)據(jù)讀取及查看 141
5.2.2 索引對象 144
5.2.3 數(shù)據(jù)排序 145
本章題 148
第6章 使用Python對運動員信息進行預處理 149
任務(wù)6.1 數(shù)據(jù)清洗 149
6.1.1 處理缺失數(shù)據(jù) 149
6.1.2 字符串 作 156
6.1.3 中國籃球運動員的基本信息清洗 163
任務(wù)6.2 數(shù)據(jù)集成 168
6.2.1 數(shù)據(jù)合并的常用方法 168
6.2.2 中國籃球運動員的基本信息合并 182
任務(wù)6.3 數(shù)據(jù)規(guī)約 183
6.3.1 數(shù)據(jù)規(guī)約方法 183
6.3.2 中國籃球運動員的基本信息規(guī)約 184
任務(wù)6.4 數(shù)據(jù)變換 185
6.4.1 數(shù)據(jù)變換常用方法 185
6.4.2 中國籃球運動員的基本信息數(shù)據(jù)變換 203
本章題 206
第7章 使用Python對電影人氣進行預測(構(gòu)建征工程) 207
任務(wù)7.1 征工程簡介 207
7.1.1 征工程的重要性 207
7.1.2 征工程是什么 208
7.1.3 征工程的評估 208
任務(wù)7.2 電影人氣預測 210
7.2.1 scikit-learn簡介 210
7.2.2 征變換 211
7.2.3 征選擇 222
7.2.4 電影人氣預測征工程 237
本章題 255
第8章 基于Python的銷售數(shù)據(jù)倉庫應(yīng)用案例 256
任務(wù)8.1 數(shù)據(jù)倉庫簡介 256
8.1.1 數(shù)據(jù)倉庫出現(xiàn)的背景及其點 256
8.1.2 數(shù)據(jù)倉庫的功能 257
8.1.3 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別 258
任務(wù)8.2 數(shù)據(jù)倉庫模型 259
8.2.1 事實表和維度表 259
8.2.2 數(shù)據(jù)模型的分類 260
8.2.3 建模段劃分 260
8.2.4 常用建模方法 261
8.2.5 星形模型和雪花模型 262
任務(wù)8.3 數(shù)據(jù)倉庫案例 264
8.3.1 案例目的 264
8.3.2 案例背景 265
8.3.3 案例原理 265
8.3.4 案例環(huán)境 265
8.3.5 案例步驟 265
8.3.6 案例總結(jié) 273
本章題 273
第9章 Python數(shù)據(jù)分析師崗位分析 274
任務(wù)9.1 了解項目背景與目標 274
任務(wù)9.2 讀取與清洗數(shù)據(jù)分析師崗位數(shù)據(jù) 275
9.2.1 分析目標與思路 275
9.2.2 數(shù)據(jù)收集 276
9.2.3 數(shù)據(jù)預處理 278
任務(wù)9.3 數(shù)據(jù)分析與可視化 281
9.3.1 數(shù)據(jù)分析師崗位的需求趨勢 281
9.3.2 數(shù)據(jù)分析師崗位的熱門城市Top10 283
9.3.3 不同城市數(shù)據(jù)分析師崗位的薪資水平 284
9.3.4 數(shù)據(jù)分析師崗位的學歷要求 286
任務(wù)9.4 總結(jié) 287
本章題 287
展開全部
數(shù)據(jù)采集及預處理基礎(chǔ)與應(yīng)用 作者簡介
許桂秋,主要研究方向大數(shù)據(jù)和人工智能,已出版《大數(shù)據(jù)導論》《Python編程基礎(chǔ)與應(yīng)用》《NoSQL數(shù)據(jù)庫原理與應(yīng)用》《數(shù)據(jù)挖掘與機器學習》等圖書。