包郵 Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn)
-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 版權(quán)信息
- ISBN:9787121333590
- 條形碼:9787121333590 ; 978-7-121-33359-0
- 裝幀:一般輕型紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 本書特色
本書是一本通過實戰(zhàn)教初學(xué)者學(xué)習(xí)采集數(shù)據(jù)、清洗和組織數(shù)據(jù)進行分析及可視化的 Python 讀物。書中案例均經(jīng)過實戰(zhàn)檢驗,筆者在實踐過程中深感采集數(shù)據(jù)、清洗和組織數(shù)據(jù)的重要性,作為一名數(shù)據(jù)行業(yè)的“碼農(nóng)”,數(shù)據(jù)就是沃土,沒有數(shù)據(jù),我們將無田可耕。
本書共分 11 章, 6 個核心主題:其一是 Python 基礎(chǔ)入門,包括環(huán)境配置、基本操作、數(shù)據(jù)類型、語句和函數(shù);其二是 Python 爬蟲的構(gòu)建,包括網(wǎng)頁結(jié)構(gòu)解析、爬蟲流程設(shè)計、代碼優(yōu)化、效率優(yōu)化、容錯處理、 反防爬蟲、 表單交互和模擬頁面點擊;
其三是 Python 數(shù)據(jù)庫應(yīng)用, 包括 MongoDB、 MySQL 在 Python中的連接與應(yīng)用;其四是數(shù)據(jù)清洗和組織,包括 NumPy 數(shù)組知識、 pandas 數(shù)據(jù)的讀寫、分組變形、缺失值異常值處理、時序數(shù)據(jù)處理和正則表達式的使用;其五是綜合應(yīng)用案例,幫助讀者貫穿爬蟲、數(shù)據(jù)清洗與組織的過程;*后是數(shù)據(jù)可視化,包括 Matplotlib 和 Pyecharts 兩個庫的使用,涉及餅圖、柱形圖、線圖、詞云圖、地圖等圖形,幫助讀者進入可視化的殿堂。
本書以實戰(zhàn)為主,適合
Python 初學(xué)者及高等院校的相關(guān)專業(yè)學(xué)生,也適合 Python 培訓(xùn)機構(gòu)作為實驗教材使用。
Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 內(nèi)容簡介
本書內(nèi)容來自筆者在浙江某高校授課內(nèi)容, 主要介紹運用Python工具獲取電商平臺的頁面數(shù)據(jù), 并對數(shù)據(jù)做清洗和存儲。本書簡化了Python基礎(chǔ)部分, 保證有足夠的篇幅來介紹爬蟲和數(shù)據(jù)清洗的內(nèi)容, 對于Python基礎(chǔ), 建議新手可以選購對應(yīng)的基礎(chǔ)書籍配合本書一起學(xué)習(xí)。
Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 目錄
1.1 安裝 Python 環(huán)境 /1
1.1.1 Python 3.6.2 安裝與配置 /1
1.1.2 使用 IDE 工具——PyCharm /4
1.1.3 使用 IDE 工具——Anaconda / 4
1.2 Python 操作入門/6
1.2.1 編寫**個 Python 代碼/6
1.2.2 Python 基本操作/9
1.2.3 變量/10
1.3 Python 數(shù)據(jù)類型/10
1.3.1 數(shù)字/10
1.3.2 字符串/11
1.3.3 列表/13
1.3.4 元組/14
1.3.5 集合/15
1.3.6 字典/15
1.4 Python 語句與函數(shù)/16
1.4.1 條件語句/16
1.4.2 循環(huán)語句/16
1.4.3 函數(shù)/17
第 2 章 寫一個簡單的爬蟲/18
2.1 關(guān)于爬蟲的合法性/18
2.2 了解網(wǎng)頁/20
2.2.1 認識網(wǎng)頁結(jié)構(gòu)/ 21
2.2.2 寫一個簡單的 HTML/21
2.3 使用 requests 庫請求網(wǎng)站/23 2.3.1 安裝 requests 庫/23
2.3.2 爬蟲的基本原理/25
2.3.3 使用 GET 方式抓取數(shù)據(jù)/26
2.3.4 使用 POST 方式抓取數(shù)據(jù)/27
2.4 使用 Beautiful Soup 解析網(wǎng)頁/30
2.5 清洗和組織數(shù)據(jù)/34
2.6 爬蟲攻防戰(zhàn)/35
第 3 章 用 API 爬取天氣預(yù)報數(shù)據(jù)/38
3.1 注冊免費 API 和閱讀技術(shù)文檔/38
3.2 獲取 API 數(shù)據(jù)/40
3.3 存儲數(shù)據(jù)到 MongoDB /45
3.3.1 下載并安裝 MongoDB/ 45
3.3.2 在 PyCharm 中安裝 Mongo Plugin/ 46
3.3.3 將數(shù)據(jù)存入 MongoDB/49
3.4 MongoDB 數(shù)據(jù)庫查詢/52
第 4 章 大型爬蟲案例:抓取某電商網(wǎng)站的商品數(shù)據(jù)/55
4.1 觀察頁面特征和解析數(shù)據(jù)/55
4.2 工作流程分析/64
4.3 構(gòu)建類目樹/65
4.4 獲取產(chǎn)品列表/ 68
4.5 代碼優(yōu)化/70
4.6 爬蟲效率優(yōu)化/74
4.7 容錯處理/77
第 5 章 Scrapy 爬蟲/78
5.1 Scrapy 簡介/78
5.2 Scrapy 安裝/79
5.3 案例:用 Scrapy 抓取股票行情/ 80
第 6 章 Selenium 爬蟲/88
6.1 Selenium 簡介/88
6.2 案例:用 Selenium 抓取電商網(wǎng)站數(shù)據(jù)/90 第 7 章 數(shù)據(jù)庫連接和查詢/100
7.1 使用 PyMySQL/100
7.1.1 連接數(shù)據(jù)庫/100
7.1.2 案例:某電商網(wǎng)站女裝行業(yè) TOP100 銷量數(shù)據(jù)/102
7.2 使用 SQLAlchemy/104
7.2.1 SQLAlchemy 基本介紹/104
7.2.2 SQLAlchemy 基本語法/105
7.3 MongoDB/107
7.3.1 MongoDB 基本語法/107
7.3.2 案例:在某電商網(wǎng)站搜索“連衣裙”的商品數(shù)據(jù)/107
第 8 章 NumPy/109
8.1 NumPy 簡介/109
8.2 一維數(shù)組/110
8.2.1 數(shù)組與列表的異同/110
8.2.2 數(shù)組的創(chuàng)建/111
8.3 多維數(shù)組/111
8.3.1 多維數(shù)組的高效性能/112
8.3.2 多維數(shù)組的索引與切片/113
8.3.3 多維數(shù)組的屬性/113
8.4 數(shù)組的運算/115
第 9 章 pandas 數(shù)據(jù)清洗/117
9.1 數(shù)據(jù)讀寫、選擇、整理和描述/117
9.1.1 從 CSV 中讀取數(shù)據(jù)/119
9.1.2 向 CSV 寫入數(shù)據(jù)/120
9.1.3 數(shù)據(jù)選擇/120
9.1.4 數(shù)據(jù)整理/122
9.1.5 數(shù)據(jù)描述/123
9.2 數(shù)據(jù)分組、分割、合并和變形/124
9.2.1 數(shù)據(jù)分組/124
9.2.2 數(shù)據(jù)分割/127
9.2.3 數(shù)據(jù)合并/128
9.2.4 數(shù)據(jù)變形/134
9.2.5 案例:旅游數(shù)據(jù)的分析與變形/136 9.3 缺失值、異常值和重復(fù)值處理/140
9.3.1 缺失值處理/140
9.3.2 檢測和過濾異常值/144
9.3.3 移除重復(fù)數(shù)據(jù)/147
9.3.4 案例:旅游數(shù)據(jù)的值檢查與處理/149
9.4 時序數(shù)據(jù)處理/152
9.4.1 日期/時間數(shù)據(jù)轉(zhuǎn)換/152
9.4.2 時序數(shù)據(jù)基礎(chǔ)操作/153
9.4.3 案例:天氣數(shù)據(jù)分析與處理/155
9.5 數(shù)據(jù)類型轉(zhuǎn)換/158
9.6 正則表達式/ 160
9.6.1 元字符與限定符/161
9.6.2 案例:用正則表達式提取網(wǎng)頁文本信息/162
第 10 章 綜合應(yīng)用實例/164
10.1 按性價比給用戶推薦旅游產(chǎn)品/164
10.1.1 數(shù)據(jù)采集/165
10.1.2 數(shù)據(jù)清洗、建模/169
10.2 通過熱力圖分析為用戶提供出行建議/172
10.2.1 某旅游網(wǎng)站熱門景點爬蟲代碼(qunaer_sights.py)/175
10.2.2 提取 CSV 文件中經(jīng)緯度和銷量信息/178
10.2.3 創(chuàng)建景點門票銷量熱力地圖 HTML 文件/179
第 11 章 數(shù)據(jù)可視化/182
11.1 matplotlib/183
11.1.1 畫出各省份平均價格、各省份平均成交量柱狀圖/183
11.1.2 畫出各省份平均成交量折線圖、柱狀圖、箱形圖和餅圖/184
11.1.3 畫出價格與成交量的散點圖/185
11.2 pyecharts/186
11.2.1 Echarts 簡介/186
11.2.2 pyecharts 簡介/187
11.2.3 初識 pyecharts,玫瑰相送/187
11.2.4 pyecharts 基本語法/188
11.2.5 基于商業(yè)分析的 pyecharts 圖表繪制/190
11.2.6 使用 pyecharts 繪制其他圖表/199
11.2.7 pyecharts 和 Jupyter/203
Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 相關(guān)資料
這本書教大家如何利用Python撰寫爬蟲程序,清洗和組織數(shù)據(jù),解析網(wǎng)頁的內(nèi)容,并將數(shù)據(jù)儲存于數(shù)據(jù)庫中。巨細無遺,幫助大家節(jié)省時間,是值得一讀的好書! 國立臺灣大學(xué)資訊工程博士,銘傳大學(xué)資訊工程學(xué)系教授 李御璽 (Yue-Shi Lee) 零一兄的這本Python爬蟲技術(shù)是一個完整大數(shù)據(jù)應(yīng)用框架:從數(shù)據(jù)收集、分析到數(shù)據(jù)可視化、數(shù)據(jù)建模。各章節(jié)以實際案例為出發(fā)點,對大數(shù)據(jù)分析、爬蟲技術(shù)應(yīng)用感興趣的小伙伴們來說,這本書值得購買。 愛數(shù)據(jù)學(xué)院創(chuàng)始人 數(shù)據(jù)海洋 互聯(lián)網(wǎng)時代,信息大爆炸,爬蟲技術(shù)被廣泛地用于原始數(shù)據(jù)的積累。零一以自己的親身實踐,用Python 3實現(xiàn)了抓取、存儲、清洗和可視化的數(shù)據(jù)處理操入門。作。本書語言簡潔、知識點全面、圖文并茂,讓爬蟲技術(shù)變得簡單易學(xué),非常適合新手。 《R的極客理想》系列圖書作者 張丹
Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 作者簡介
零一
原名陳海城,
零一數(shù)據(jù)學(xué)院創(chuàng)始人,
電商數(shù)據(jù)專家,數(shù)據(jù)分析師,開發(fā)工程師。
從事培訓(xùn)教育、數(shù)據(jù)分析和人工智能行業(yè)。
黃園園,具有十年軟件開發(fā)經(jīng)驗,全棧工程師,六西格瑪黑帶,精通Python和機器學(xué)習(xí)算法,具有豐富的分布式爬蟲開發(fā)經(jīng)驗;曾在蘇州三星電子電腦(SESC)、新加坡電信(NCS)、希捷科技(Seagate Technology)等世界知名企業(yè)研發(fā)部工作,參與過花旗銀行在線支付系統(tǒng)、銀行賬單自動化審核系統(tǒng)等大型軟件開發(fā),曾任杭州沐垚科技CTO。
零一
原名陳海城,
零一數(shù)據(jù)學(xué)院創(chuàng)始人,
電商數(shù)據(jù)專家,數(shù)據(jù)分析師,開發(fā)工程師。
從事培訓(xùn)教育、數(shù)據(jù)分析和人工智能行業(yè)。
黃園園,具有十年軟件開發(fā)經(jīng)驗,全棧工程師,六西格瑪黑帶,精通Python和機器學(xué)習(xí)算法,具有豐富的分布式爬蟲開發(fā)經(jīng)驗;曾在蘇州三星電子電腦(SESC)、新加坡電信(NCS)、希捷科技(Seagate Technology)等世界知名企業(yè)研發(fā)部工作,參與過花旗銀行在線支付系統(tǒng)、銀行賬單自動化審核系統(tǒng)等大型軟件開發(fā),曾任杭州沐垚科技CTO。
韓要賓,杭州沐垚科技有限公司 COO,CDA數(shù)據(jù)分析研究院資深講師;5年電商從業(yè)經(jīng)驗,4年數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗;專注于數(shù)據(jù)分析與挖掘、機器學(xué)習(xí)、深度學(xué)習(xí),服務(wù)客戶包括蘇寧易購、迪卡儂、百草味、浙江師范大學(xué)等。
- >
回憶愛瑪儂
- >
名家?guī)阕x魯迅:故事新編
- >
煙與鏡
- >
伯納黛特,你要去哪(2021新版)
- >
推拿
- >
經(jīng)典常談
- >
唐代進士錄
- >
月亮虎