-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據爬取、清洗與可視化教程 版權信息
- ISBN:9787121407529
- 條形碼:9787121407529 ; 978-7-121-40752-9
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
大數據爬取、清洗與可視化教程 本書特色
本書重點介紹大數據爬取、清洗與可視化的具體實施方案,程序設計采用Python 3.x,提供電子課件、程序源代碼、習題解答。
大數據爬取、清洗與可視化教程 內容簡介
本書通過實踐操作介紹大數據爬取、清洗與可視化的具體實施方案,共10章,包括大數據爬取、清洗與可視化概述,爬蟲概述,Requests庫,BeautifulSoup爬蟲,自動化測試工具Selenium,中型爬蟲框架Scrapy,數據存儲,數據清洗,Matplotlib可視化,Pyecharts可視化。書中的案例均經過實踐驗證,可以幫助讀者深入理解數據信息在大數據行業中的重要應用。為方便復習和自學,各章均配備豐富的習題。本書可作為高等院校大數據相關專業的教材,也可作為有關專業技術人員的培訓教材,同時可作為大數據分析愛好者及從事網絡數據安全管理工作人員的參考書。
大數據爬取、清洗與可視化教程 目錄
第1章 大數據爬取、清洗與可視化概述 1
1.1 爬蟲概述 1
1.1.1 爬蟲簡介 1
1.1.2 常見爬蟲分類和工具 2
1.2 數據清洗概述 2
1.2.1 數據清洗簡介 2
1.2.2 常見數據清洗工具 3
1.3 可視化技術概述 3
1.3.1 數據可視化概述 3
1.3.2 常見可視化工具 5
1.4 相關網絡技術簡介 5
1.4.1 HTTP 5
1.4.2 HTML 7
1.4.3 XML 10
1.4.4 JSON 13
1.4.5 JavaScript 14
1.4.6 正則表達式 17
1.5 Python開發環境配置 21
1.5.1 在Windows中安裝Python 22
1.5.2 在Linux中安裝Python 24
1.5.3 Python集成開發環境 26
1.5.4 Python第三方庫管理 33
本章小結 35
習題 35
第2章 爬蟲概述 36
2.1 爬蟲基礎概述 36
2.1.1 爬蟲概念 36
2.1.2 爬蟲基本原理 37
2.2 爬蟲規范 39
2.2.1 爬蟲尺寸 39
2.2.2 Robots協議 39
2.3 爬蟲通用結構 43
2.3.1 爬蟲通用結構簡介 43
2.3.2 爬蟲基本工作流程 43
2.3.3 異常處理機制 44
2.4 爬蟲技術 46
2.4.1 urllib 3庫 46
2.4.2 網頁內容查看 51
2.4.3 XPath 56
本章小結 60
習題 60
第3章 Requests庫 62
3.1 Requests庫簡介與安裝 62
3.1.1 Requests庫簡介 62
3.1.2 Requests庫安裝 62
3.2 Requests庫基本使用 63
3.2.1 Requests庫的主要方法 63
3.2.2 發送基本請求 66
3.2.3 響應內容 66
3.2.4 訪問異常處理方案 67
3.3 Requests庫高級用法 69
3.3.1 定制請求頭部 69
3.3.2 設置超時 70
3.3.3 傳遞參數 70
3.3.4 解析JSON 72
3.4 代理設置 72
3.5 模擬登錄 73
3.5.1 保持登錄機制 73
3.5.2 使用Cookies登錄網站 74
3.5.3 登錄流程分析 77
3.5.4 Requests會話對象 78
3.5.5 登錄網站實例 80
3.6 資源下載 80
3.7 Requests庫應用實例 82
3.7.1 具體功能分析 82
3.7.2 具體代碼實現 85
本章小結 86
習題 87
第4章 BeautifulSoup爬蟲 88
4.1 BeautifulSoup簡介與安裝 88
4.1.1 BeautifulSoup簡介 88
4.1.2 BeautifulSoup4安裝方法 88
4.1.3 BeautifulSoup解析器 90
4.1.4 BeautifulSoup初探 92
4.2 BeautifulSoup對象類型 93
4.2.1 Tag 93
4.2.2 NavigableString 95
4.2.3 BeautifulSoup 96
4.2.4 Comment 96
4.3 BeautifulSoup的遍歷與搜索 97
4.3.1 遍歷文檔樹 97
4.3.2 搜索文檔樹 105
4.4 BeautifulSoup應用實例 110
4.4.1 基于BeautifulSoup的獨立數據爬取 110
4.4.2 融合正則表達式的數據爬取 112
本章小結 114
習題 115
第5章 自動化測試工具Selenium 116
5.1 Selenium簡介與安裝 116
5.1.1 Selenium簡介 116
5.1.2 Selenium安裝 116
5.2 Selenium基本用法 120
5.2.1 聲明瀏覽器對象 120
5.2.2 訪問頁面 120
5.3 元素 121
5.3.1 定位元素 121
5.3.2 交互操作元素 126
5.3.3 動作鏈 127
5.3.4 獲取元素屬性 128
5.4 Selenium高級操作 129
5.4.1 執行JavaScript 129
5.4.2 前進、后退和刷新操作 130
5.4.3 等待操作 130
5.4.4 處理Cookies 132
5.4.5 處理異常 133
5.5 Selenium實例 134
5.5.1 具體功能分析 134
5.5.2 具體代碼實現 135
本章小結 136
習題 137
第6章 中型爬蟲框架Scrapy 138
6.1 Scrapy框架簡介與安裝 138
6.1.1 Scrapy運行機制 138
6.1.2 Scrapy框架簡介 139
6.1.3 Scrapy安裝 140
6.2 Scrapy命令行工具 141
6.2.1 全局命令 142
6.2.2 Project-only命令 144
6.3 選擇器 146
6.3.1 選擇器簡介 147
6.3.2 選擇器基礎 147
6.3.3 結合正則表達式 151
6.3.4 嵌套選擇器 152
6.4 Scrapy項目開發 152
6.4.1 新建項目 153
6.4.2 定義Items 153
6.4.3 制作爬蟲 154
6.4.4 爬取數據 156
6.4.5 使用Items 160
6.5 Item Pipeline 161
6.5.1 Item Pipeline簡介 161
6.5.2 Item Pipeline應用 162
6.6 中間件 164
6.6.1 下載器中間件 164
6.6.2 爬蟲中間件 168
6.7 Scrapy實例 171
6.7.1 具體功能分析 171
6.7.2 具體代碼實現 172
本章小結 174
習題 174
第7章 數據存儲 176
7.1 數據存儲簡介 176
7.1.1 現代數據存儲的挑戰 176
7.1.2 常用工具 177
7.2 文本文件存儲 179
7.2.1 文本數據的讀寫 179
7.2.2 CSV數據的讀寫 182
7.2.3 Excel數據的讀寫 187
7.2.4 JSON對象的讀寫 193
7.3 MongoDB數據庫 197
7.3.1 MongoDB簡介 197
7.3.2 MongoDB安裝 198
7.3.3 MongoDB數據庫操作 202
7.4 數據存儲實例 207
7.4.1 具體功能分析 207
7.4.2 具體代碼實現 208
本章小結 210
習題 210
第8章 數據清洗 212
8.1 數據清洗概述 212
8.1.1 數據清洗原理 212
8.1.2 主要數據類型 212
8.1.3 常用工具 213
8.2 數據清洗方法 215
8.2.1 重復數據處理 215
8.2.2 缺失數據處理 218
8.2.3 異常數據處理 224
8.2.4 格式內容清洗 226
8.2.5 邏輯錯誤清洗 227
8.3 數據規整 228
8.3.1 字段拆分 228
8.3.2 數據分組 229
8.3.3 數據聚合 232
8.3.4 數據分割 236
8.3.5 數據合并 238
8.4 數據清洗實例 244
8.4.1 具體功能分析 244
8.4.2 具體代碼實現 245
本章小結 247
習題 247
第9章 Matplotlib可視化 249
9.1 Matplotlib簡介與安裝 249
9.1.1 Matplotlib簡介 249
9.1.2 Matplotlib安裝 250
9.2 基礎語法和常用設置 251
9.2.1 繪圖流程 251
9.2.2 布局設置 252
9.2.3 畫布創建 255
9.2.4 參數設置 256
9.3 基礎圖形繪制 258
9.3.1 折線圖 258
9.3.2 直方圖 259
9.3.3 餅狀圖 260
9.3.4 箱形圖 262
9.3.5 散點圖 264
9.3.6 三維圖 266
本章小結 269
習題 270
第10章 Pyecharts可視化 271
10.1 Pyecharts簡介與安裝 271
10.1.1 Pyecharts簡介 271
10.1.2 Pyecharts安裝 272
10.2 公共屬性設置 272
10.2.1 全局配置項 272
10.2.2 系列配置項 275
10.3 二維圖形繪制 276
10.3.1 柱狀圖 276
10.3.2 折線圖 281
10.3.3 面積圖 284
10.3.4 漣漪散點圖 285
10.3.5 餅狀圖 286
10.3.6 漏斗圖 290
10.4 三維圖形繪制 292
10.4.1 三維柱狀圖 292
10.4.2 三維散點圖 294
10.4.3 三維地圖 296
10.5 Pyecharts實例 296
10.5.1 具體功能分析 296
10.5.2 具體代碼實現 297
本章小結 298
習題 299
參考文獻 300
大數據爬取、清洗與可視化教程 作者簡介
賈寧,大連東軟信息學院副教授,多年來一直從事大數據技術及應用、人工智能、深度學習/云計算等方面的科研和教學工作。
- >
二體千字文
- >
羅庸西南聯大授課錄
- >
推拿
- >
上帝之肋:男人的真實旅程
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
煙與鏡
- >
回憶愛瑪儂
- >
我與地壇