中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊
> >>
Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn)

包郵 Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn)

出版社:電子工業(yè)出版社出版時間:2018-03-01
開本: 24cm 頁數(shù): 204頁
讀者評分:5分1條評論
中 圖 價:¥30.4(6.2折) 定價  ¥49.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 版權(quán)信息

Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 本書特色

本書是一本通過實戰(zhàn)教初學(xué)者學(xué)習(xí)采集數(shù)據(jù)、清洗和組織數(shù)據(jù)進行分析及可視化的 Python 讀物。書中案例均經(jīng)過實戰(zhàn)檢驗,筆者在實踐過程中深感采集數(shù)據(jù)、清洗和組織數(shù)據(jù)的重要性,作為一名數(shù)據(jù)行業(yè)的“碼農(nóng)”,數(shù)據(jù)就是沃土,沒有數(shù)據(jù),我們將無田可耕。
本書共分 11 章, 6 個核心主題:其一是 Python 基礎(chǔ)入門,包括環(huán)境配置、基本操作、數(shù)據(jù)類型、語句和函數(shù);其二是 Python 爬蟲的構(gòu)建,包括網(wǎng)頁結(jié)構(gòu)解析、爬蟲流程設(shè)計、代碼優(yōu)化、效率優(yōu)化、容錯處理、 反防爬蟲、 表單交互和模擬頁面點擊; 其三是 Python 數(shù)據(jù)庫應(yīng)用, 包括 MongoDB、 MySQL 在 Python中的連接與應(yīng)用;其四是數(shù)據(jù)清洗和組織,包括 NumPy 數(shù)組知識、 pandas 數(shù)據(jù)的讀寫、分組變形、缺失值異常值處理、時序數(shù)據(jù)處理和正則表達式的使用;其五是綜合應(yīng)用案例,幫助讀者貫穿爬蟲、數(shù)據(jù)清洗與組織的過程;*后是數(shù)據(jù)可視化,包括 Matplotlib 和 Pyecharts 兩個庫的使用,涉及餅圖、柱形圖、線圖、詞云圖、地圖等圖形,幫助讀者進入可視化的殿堂。
本書以實戰(zhàn)為主,適合 Python 初學(xué)者及高等院校的相關(guān)專業(yè)學(xué)生,也適合 Python 培訓(xùn)機構(gòu)作為實驗教材使用。

Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 內(nèi)容簡介

本書內(nèi)容來自筆者在浙江某高校授課內(nèi)容, 主要介紹運用Python工具獲取電商平臺的頁面數(shù)據(jù), 并對數(shù)據(jù)做清洗和存儲。本書簡化了Python基礎(chǔ)部分, 保證有足夠的篇幅來介紹爬蟲和數(shù)據(jù)清洗的內(nèi)容, 對于Python基礎(chǔ), 建議新手可以選購對應(yīng)的基礎(chǔ)書籍配合本書一起學(xué)習(xí)。

Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 目錄

第 1 章 Python 基礎(chǔ) /1
1.1 安裝 Python 環(huán)境 /1
1.1.1 Python 3.6.2 安裝與配置 /1
1.1.2 使用 IDE 工具——PyCharm /4
1.1.3 使用 IDE 工具——Anaconda / 4
1.2 Python 操作入門/6
1.2.1 編寫**個 Python 代碼/6
1.2.2 Python 基本操作/9
1.2.3 變量/10
1.3 Python 數(shù)據(jù)類型/10
1.3.1 數(shù)字/10
1.3.2 字符串/11
1.3.3 列表/13
1.3.4 元組/14
1.3.5 集合/15
1.3.6 字典/15
1.4 Python 語句與函數(shù)/16
1.4.1 條件語句/16
1.4.2 循環(huán)語句/16
1.4.3 函數(shù)/17
第 2 章 寫一個簡單的爬蟲/18
2.1 關(guān)于爬蟲的合法性/18
2.2 了解網(wǎng)頁/20
2.2.1 認識網(wǎng)頁結(jié)構(gòu)/ 21
2.2.2 寫一個簡單的 HTML/21
2.3 使用 requests 庫請求網(wǎng)站/23 2.3.1 安裝 requests 庫/23
2.3.2 爬蟲的基本原理/25
2.3.3 使用 GET 方式抓取數(shù)據(jù)/26
2.3.4 使用 POST 方式抓取數(shù)據(jù)/27
2.4 使用 Beautiful Soup 解析網(wǎng)頁/30
2.5 清洗和組織數(shù)據(jù)/34
2.6 爬蟲攻防戰(zhàn)/35

第 3 章 用 API 爬取天氣預(yù)報數(shù)據(jù)/38
3.1 注冊免費 API 和閱讀技術(shù)文檔/38
3.2 獲取 API 數(shù)據(jù)/40
3.3 存儲數(shù)據(jù)到 MongoDB /45
3.3.1 下載并安裝 MongoDB/ 45
3.3.2 在 PyCharm 中安裝 Mongo Plugin/ 46
3.3.3 將數(shù)據(jù)存入 MongoDB/49
3.4 MongoDB 數(shù)據(jù)庫查詢/52

第 4 章 大型爬蟲案例:抓取某電商網(wǎng)站的商品數(shù)據(jù)/55
4.1 觀察頁面特征和解析數(shù)據(jù)/55
4.2 工作流程分析/64
4.3 構(gòu)建類目樹/65
4.4 獲取產(chǎn)品列表/ 68
4.5 代碼優(yōu)化/70
4.6 爬蟲效率優(yōu)化/74
4.7 容錯處理/77

第 5 章 Scrapy 爬蟲/78
5.1 Scrapy 簡介/78
5.2 Scrapy 安裝/79
5.3 案例:用 Scrapy 抓取股票行情/ 80

第 6 章 Selenium 爬蟲/88
6.1 Selenium 簡介/88
6.2 案例:用 Selenium 抓取電商網(wǎng)站數(shù)據(jù)/90 第 7 章 數(shù)據(jù)庫連接和查詢/100
7.1 使用 PyMySQL/100
7.1.1 連接數(shù)據(jù)庫/100
7.1.2 案例:某電商網(wǎng)站女裝行業(yè) TOP100 銷量數(shù)據(jù)/102
7.2 使用 SQLAlchemy/104
7.2.1 SQLAlchemy 基本介紹/104
7.2.2 SQLAlchemy 基本語法/105
7.3 MongoDB/107
7.3.1 MongoDB 基本語法/107
7.3.2 案例:在某電商網(wǎng)站搜索“連衣裙”的商品數(shù)據(jù)/107

第 8 章 NumPy/109
8.1 NumPy 簡介/109
8.2 一維數(shù)組/110
8.2.1 數(shù)組與列表的異同/110
8.2.2 數(shù)組的創(chuàng)建/111
8.3 多維數(shù)組/111
8.3.1 多維數(shù)組的高效性能/112
8.3.2 多維數(shù)組的索引與切片/113
8.3.3 多維數(shù)組的屬性/113
8.4 數(shù)組的運算/115

第 9 章 pandas 數(shù)據(jù)清洗/117
9.1 數(shù)據(jù)讀寫、選擇、整理和描述/117
9.1.1 從 CSV 中讀取數(shù)據(jù)/119
9.1.2 向 CSV 寫入數(shù)據(jù)/120
9.1.3 數(shù)據(jù)選擇/120
9.1.4 數(shù)據(jù)整理/122
9.1.5 數(shù)據(jù)描述/123
9.2 數(shù)據(jù)分組、分割、合并和變形/124
9.2.1 數(shù)據(jù)分組/124
9.2.2 數(shù)據(jù)分割/127
9.2.3 數(shù)據(jù)合并/128
9.2.4 數(shù)據(jù)變形/134
9.2.5 案例:旅游數(shù)據(jù)的分析與變形/136 9.3 缺失值、異常值和重復(fù)值處理/140
9.3.1 缺失值處理/140
9.3.2 檢測和過濾異常值/144
9.3.3 移除重復(fù)數(shù)據(jù)/147
9.3.4 案例:旅游數(shù)據(jù)的值檢查與處理/149
9.4 時序數(shù)據(jù)處理/152
9.4.1 日期/時間數(shù)據(jù)轉(zhuǎn)換/152
9.4.2 時序數(shù)據(jù)基礎(chǔ)操作/153
9.4.3 案例:天氣數(shù)據(jù)分析與處理/155
9.5 數(shù)據(jù)類型轉(zhuǎn)換/158
9.6 正則表達式/ 160
9.6.1 元字符與限定符/161
9.6.2 案例:用正則表達式提取網(wǎng)頁文本信息/162

第 10 章 綜合應(yīng)用實例/164
10.1 按性價比給用戶推薦旅游產(chǎn)品/164
10.1.1 數(shù)據(jù)采集/165
10.1.2 數(shù)據(jù)清洗、建模/169
10.2 通過熱力圖分析為用戶提供出行建議/172
10.2.1 某旅游網(wǎng)站熱門景點爬蟲代碼(qunaer_sights.py)/175
10.2.2 提取 CSV 文件中經(jīng)緯度和銷量信息/178
10.2.3 創(chuàng)建景點門票銷量熱力地圖 HTML 文件/179

第 11 章 數(shù)據(jù)可視化/182
11.1 matplotlib/183
11.1.1 畫出各省份平均價格、各省份平均成交量柱狀圖/183
11.1.2 畫出各省份平均成交量折線圖、柱狀圖、箱形圖和餅圖/184
11.1.3 畫出價格與成交量的散點圖/185
11.2 pyecharts/186
11.2.1 Echarts 簡介/186
11.2.2 pyecharts 簡介/187
11.2.3 初識 pyecharts,玫瑰相送/187
11.2.4 pyecharts 基本語法/188
11.2.5 基于商業(yè)分析的 pyecharts 圖表繪制/190
11.2.6 使用 pyecharts 繪制其他圖表/199
11.2.7 pyecharts 和 Jupyter/203
展開全部

Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 相關(guān)資料

這本書教大家如何利用Python撰寫爬蟲程序,清洗和組織數(shù)據(jù),解析網(wǎng)頁的內(nèi)容,并將數(shù)據(jù)儲存于數(shù)據(jù)庫中。巨細無遺,幫助大家節(jié)省時間,是值得一讀的好書! 國立臺灣大學(xué)資訊工程博士,銘傳大學(xué)資訊工程學(xué)系教授 李御璽 (Yue-Shi Lee) 零一兄的這本Python爬蟲技術(shù)是一個完整大數(shù)據(jù)應(yīng)用框架:從數(shù)據(jù)收集、分析到數(shù)據(jù)可視化、數(shù)據(jù)建模。各章節(jié)以實際案例為出發(fā)點,對大數(shù)據(jù)分析、爬蟲技術(shù)應(yīng)用感興趣的小伙伴們來說,這本書值得購買。 愛數(shù)據(jù)學(xué)院創(chuàng)始人 數(shù)據(jù)海洋 互聯(lián)網(wǎng)時代,信息大爆炸,爬蟲技術(shù)被廣泛地用于原始數(shù)據(jù)的積累。零一以自己的親身實踐,用Python 3實現(xiàn)了抓取、存儲、清洗和可視化的數(shù)據(jù)處理操入門。作。本書語言簡潔、知識點全面、圖文并茂,讓爬蟲技術(shù)變得簡單易學(xué),非常適合新手。 《R的極客理想》系列圖書作者 張丹

Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn) 作者簡介

零一
原名陳海城,
零一數(shù)據(jù)學(xué)院創(chuàng)始人,
電商數(shù)據(jù)專家,數(shù)據(jù)分析師,開發(fā)工程師。
從事培訓(xùn)教育、數(shù)據(jù)分析和人工智能行業(yè)。

黃園園,具有十年軟件開發(fā)經(jīng)驗,全棧工程師,六西格瑪黑帶,精通Python和機器學(xué)習(xí)算法,具有豐富的分布式爬蟲開發(fā)經(jīng)驗;曾在蘇州三星電子電腦(SESC)、新加坡電信(NCS)、希捷科技(Seagate Technology)等世界知名企業(yè)研發(fā)部工作,參與過花旗銀行在線支付系統(tǒng)、銀行賬單自動化審核系統(tǒng)等大型軟件開發(fā),曾任杭州沐垚科技CTO。
零一 原名陳海城, 零一數(shù)據(jù)學(xué)院創(chuàng)始人, 電商數(shù)據(jù)專家,數(shù)據(jù)分析師,開發(fā)工程師。 從事培訓(xùn)教育、數(shù)據(jù)分析和人工智能行業(yè)。 黃園園,具有十年軟件開發(fā)經(jīng)驗,全棧工程師,六西格瑪黑帶,精通Python和機器學(xué)習(xí)算法,具有豐富的分布式爬蟲開發(fā)經(jīng)驗;曾在蘇州三星電子電腦(SESC)、新加坡電信(NCS)、希捷科技(Seagate Technology)等世界知名企業(yè)研發(fā)部工作,參與過花旗銀行在線支付系統(tǒng)、銀行賬單自動化審核系統(tǒng)等大型軟件開發(fā),曾任杭州沐垚科技CTO。 韓要賓,杭州沐垚科技有限公司 COO,CDA數(shù)據(jù)分析研究院資深講師;5年電商從業(yè)經(jīng)驗,4年數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗;專注于數(shù)據(jù)分析與挖掘、機器學(xué)習(xí)、深度學(xué)習(xí),服務(wù)客戶包括蘇寧易購、迪卡儂、百草味、浙江師范大學(xué)等。

商品評論(1條)
書友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 汕头市盛大文化传播有限公司,www.11400.cc | 智能家居全屋智能系统多少钱一套-小米全套价格、装修方案 | 欧洲MV日韩MV国产_人妻无码一区二区三区免费_少妇被 到高潮喷出白浆av_精品少妇自慰到喷水AV网站 | 废水处理-废气处理-工业废水处理-工业废气处理工程-深圳丰绿环保废气处理公司 | 不锈钢/气体/液体玻璃转子流量计(防腐,选型,规格)-常州天晟热工仪表有限公司【官网】 | 河南生物显微镜,全自动冰冻切片机-河南荣程联合科技有限公司 | 小型气象站_便携式自动气象站_校园气象站-竞道气象设备网 | 杭州可当科技有限公司—流量卡_随身WiFi_AI摄像头一站式解决方案 | Magnescale探规,Magnescale磁栅尺,Magnescale传感器,Magnescale测厚仪,Mitutoyo光栅尺,笔式位移传感器-苏州连达精密量仪有限公司 | 大通天成企业资质代办_承装修试电力设施许可证_增值电信业务经营许可证_无人机运营合格证_广播电视节目制作许可证 | 纸张环压仪-纸张平滑度仪-杭州纸邦自动化技术有限公司 | 散热器厂家_暖气片_米德尔顿散热器| 气动隔膜泵-电动隔膜泵-循环热水泵-液下排污/螺杆/管道/化工泵「厂家」浙江绿邦 | 金库门,金库房,金库门厂家,金库门价格-河北特旺柜业有限公司 | SRRC认证_电磁兼容_EMC测试整改_FCC认证_SDOC认证-深圳市环测威检测技术有限公司 | 重庆轻质隔墙板-重庆安吉升科技有限公司 | 航拍_专业的无人机航拍摄影门户社区网站_航拍网 | 污水处理设备维修_污水处理工程改造_机械格栅_过滤设备_气浮设备_刮吸泥机_污泥浓缩罐_污水处理设备_污水处理工程-北京龙泉新禹科技有限公司 | CXB船用变压器-JCZ系列制动器-HH101船用铜质开关-上海永上船舶电器厂 | LED太阳能中国结|发光红灯笼|灯杆造型灯|节日灯|太阳能灯笼|LED路灯杆装饰造型灯-北京中海轩光电 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 分子精馏/精馏设备生产厂家-分子蒸馏工艺实验-新诺舜尧(天津)化工设备有限公司 | 石英陶瓷,石英坩埚,二氧化硅陶瓷-淄博百特高新材料有限公司 | 上海风淋室_上海风淋室厂家_上海风淋室价格_上海伯淋 | 骨密度仪-骨密度测定仪-超声骨密度仪-骨龄测定仪-天津开发区圣鸿医疗器械有限公司 | 光纤测温-荧光光纤测温系统-福州华光天锐光电科技有限公司 | 菏泽商标注册_菏泽版权登记_商标申请代理_菏泽商标注册去哪里 | 深圳办公室装修-写字楼装修设计-深圳标榜装饰公司 | 生物除臭剂-除味剂-植物-污水除臭剂厂家-携葵环保有限公司 | 流量检测仪-气密性检测装置-密封性试验仪-东莞市奥图自动化科技有限公司 | 健康管理师报考条件,考试时间,报名入口—首页 | 今日娱乐圈——影视剧集_八卦娱乐_明星八卦_最新娱乐八卦新闻 | 宝宝药浴-产后药浴-药浴加盟-艾裕-专注母婴调养泡浴 | 赛默飞Thermo veritiproPCR仪|ProFlex3 x 32PCR系统|Countess3细胞计数仪|371|3111二氧化碳培养箱|Mirco17R|Mirco21R离心机|仟诺生物 | PTFE接头|聚四氟乙烯螺丝|阀门|薄膜|消解罐|聚四氟乙烯球-嘉兴市方圆氟塑制品有限公司 | 创绿家招商加盟网-除甲醛加盟-甲醛治理加盟-室内除甲醛加盟-创绿家招商官网 | 健康管理师报名入口,2025年健康管理师考试时间信息网-网站首页 塑料造粒机「厂家直销」-莱州鑫瑞迪机械有限公司 | 中国玩具展_玩具展|幼教用品展|幼教展|幼教装备展 | 烟雾净化器-滤筒除尘器-防爆除尘器-除尘器厂家-东莞执信环保科技有限公司 | 碳钢法兰厂家,非标法兰,定制异型,法兰生产厂家-河北九瑞管道 | 橡胶粉碎机_橡胶磨粉机_轮胎粉碎机_轮胎磨粉机-河南鼎聚重工机械制造有限公司 |