中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >
零基礎(chǔ)學(xué)Python爬蟲從入門到精通

包郵 零基礎(chǔ)學(xué)Python爬蟲從入門到精通

出版社:機(jī)械工業(yè)出版社出版時(shí)間:2021-06-01
開本: 16開 頁數(shù): 344
中 圖 價(jià):¥69.3(7.0折) 定價(jià)  ¥99.0 登錄后可看到會(huì)員價(jià)
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

零基礎(chǔ)學(xué)Python爬蟲從入門到精通 版權(quán)信息

零基礎(chǔ)學(xué)Python爬蟲從入門到精通 本書特色

本書講解了Python 爬蟲的基礎(chǔ)知識(shí)和**技能,幫助零基礎(chǔ)的讀者快速入門并熟練使用爬蟲。本書囊括了媒體熱點(diǎn)采集、金融數(shù)據(jù)爬取、網(wǎng)絡(luò)文件下載、電商數(shù)據(jù)研究等四大類42個(gè)爬蟲實(shí)戰(zhàn)案例,共計(jì)3000余行代碼,涉及17個(gè)網(wǎng)站的數(shù)據(jù)與文件獲取,詳解了Requests 庫、Selenium 庫、正則表達(dá)式、BeautifulSoup 庫、多線程多進(jìn)程爬蟲、IP 反爬機(jī)制應(yīng)對(duì)等知識(shí)。

零基礎(chǔ)學(xué)Python爬蟲從入門到精通 內(nèi)容簡介

在大數(shù)據(jù)時(shí)代的今天,無論是產(chǎn)品開始還是精準(zhǔn)化營銷越來越離不開大數(shù)據(jù)的支持,如何從浩瀚的網(wǎng)絡(luò)中獲取自己想要的大數(shù)據(jù)?這就需要網(wǎng)絡(luò)爬蟲,而是世界上80%的爬蟲都是基于Python開發(fā)出來的,所以python爬蟲技術(shù)是大數(shù)據(jù)挖掘、分析與可視化的基礎(chǔ)。本書面向零基礎(chǔ)讀者,從如何合法使用爬蟲和Python編輯環(huán)境的安裝開始到不同類型爬蟲程序的開發(fā)都進(jìn)行了詳盡的講解,從Python基礎(chǔ)語法到Requests庫、正則表達(dá)式、Scrapy框架、Beautiful Soup一個(gè)都不少。同時(shí)在相關(guān)地方也講解了部分?jǐn)?shù)據(jù)挖掘和數(shù)據(jù)分析的基礎(chǔ)內(nèi)容。

零基礎(chǔ)學(xué)Python爬蟲從入門到精通 目錄

第1章 Python基礎(chǔ)

1.1 Python快速上手

1.1.1 安裝Python

1.1.2 編寫**個(gè)Python程序

1.1.3 PyCharm的安裝與使用

1.1.4 Jupyter Notebook的使用

1.2 Python語法基礎(chǔ)知識(shí)

1.2.1 變量、行、縮進(jìn)與注釋

1.2.2 數(shù)據(jù)類型:數(shù)字與字符串

1.2.3 數(shù)據(jù)類型:列表與字典、元組與集合

1.2.4 運(yùn)算符

1.3 Python語句

1.3.1 if條件語句

1.3.2 for循環(huán)語句

1.3.3 while循環(huán)語句

1.3.4 try/except異常處理語句

1.4 函數(shù)與庫

1.4.1 函數(shù)的定義與調(diào)用

1.4.2 函數(shù)的返回值與變量的作用域

1.4.3 常用內(nèi)置函數(shù)介紹

1.4.4 庫的導(dǎo)入與安裝

★ 課后習(xí)題

第2章 爬蟲**步:獲取網(wǎng)頁源代碼

2.1 爬蟲核心庫1:Requests庫

2.1.1 如何查看網(wǎng)頁源代碼

2.1.2 用Requests庫獲取網(wǎng)頁源代碼:百度新聞

2.1.3 Requests庫的“軟肋”

2.2 爬蟲核心庫2:Selenium庫

2.2.1 模擬瀏覽器及Selenium庫的安裝

2.2.2 用Selenium庫獲取網(wǎng)頁源代碼:新浪財(cái)經(jīng)股票信息

2.3 網(wǎng)頁結(jié)構(gòu)分析

2.3.1 網(wǎng)頁結(jié)構(gòu)基礎(chǔ)

2.3.2 網(wǎng)頁結(jié)構(gòu)進(jìn)階

★ 課后習(xí)題

第3章 爬蟲第二步:數(shù)據(jù)解析與提取

3.1 用正則表達(dá)式解析和提取數(shù)據(jù)

3.1.1 正則表達(dá)式基礎(chǔ)1:findall()函數(shù)

3.1.2 正則表達(dá)式基礎(chǔ)2:非貪婪匹配之“(.*?)”

3.1.3 正則表達(dá)式基礎(chǔ)3:非貪婪匹配之“.*?”

3.1.4 正則表達(dá)式基礎(chǔ)4:自動(dòng)考慮換行的修飾符re.S

3.1.5 正則表達(dá)式基礎(chǔ)5:知識(shí)點(diǎn)補(bǔ)充

3.1.6 案例實(shí)戰(zhàn):提取百度新聞的標(biāo)題、網(wǎng)址、日期和來源

3.2 用BeautifulSoup庫解析和提取數(shù)據(jù)

3.2.1 解析特定標(biāo)簽的網(wǎng)頁元素

3.2.2 解析特定屬性的網(wǎng)頁元素

3.2.3 提取標(biāo)簽中的網(wǎng)址

3.2.4 案例實(shí)戰(zhàn):新浪新聞標(biāo)題和網(wǎng)址爬取

3.3 百度新聞爬取進(jìn)階探索

3.3.1 批量爬取多家公司的新聞

3.3.2 將爬取結(jié)果保存為文本文件

3.3.3 異常處理及24小時(shí)不間斷爬取

3.3.4 批量爬取多頁內(nèi)容

3.4 證券日?qǐng)?bào)網(wǎng)爬取實(shí)戰(zhàn)

3.4.1 用正則表達(dá)式爬取

3.4.2 用BeautifulSoup庫爬取

3.5 中證網(wǎng)爬取實(shí)戰(zhàn)

3.6 新浪微博爬取實(shí)戰(zhàn)

3.7 上海證券交易所上市公司PDF文件下載

3.7.1 用Requests庫下載文件的基本方法

3.7.2 初步嘗試下載上海證券交易所上市公司PDF文件

3.8 豆瓣電影Top 250排行榜海報(bào)圖片下載

3.8.1 爬取單頁

3.8.2 爬取多頁

★ 課后習(xí)題

第4章 爬蟲神器Selenium庫深度講解

4.1 Selenium庫進(jìn)階知識(shí)

4.2 新浪財(cái)經(jīng)股票行情數(shù)據(jù)爬取

4.2.1 用Selenium庫爬取股票行情數(shù)據(jù)

4.2.2 用新浪財(cái)經(jīng)API爬取股票行情數(shù)據(jù)

4.3 東方財(cái)富網(wǎng)數(shù)據(jù)爬取

4.3.1 上市公司股吧帖子爬取

4.3.2 上市公司新聞爬取

4.3.3 上市公司研報(bào)PDF文件下載

4.4 上海證券交易所問詢函信息爬取及PDF文件下載

4.4.1 批量下載單個(gè)頁面上的PDF文件

4.4.2 批量下載多個(gè)頁面上的PDF文件

4.4.3 匯總問詢函信息并導(dǎo)出為Excel工作簿

4.5 銀行間拆借利率爬取

4.6 雪球股票評(píng)論信息爬取

4.7 京東商品評(píng)價(jià)信息爬取

4.7.1 用Selenium庫爬取

4.7.2 用Requests庫爬取

4.8 淘寶天貓商品銷量數(shù)據(jù)爬取

4.9 Selenium庫趣味案例:網(wǎng)頁自動(dòng)投票

★ 課后習(xí)題

第5章 數(shù)據(jù)處理與可視化

5.1 數(shù)據(jù)清洗與優(yōu)化技巧

5.1.1 常用的數(shù)據(jù)清洗手段及日期格式的統(tǒng)一

5.1.2 文本內(nèi)容過濾—剔除噪聲數(shù)據(jù)

5.1.3 數(shù)據(jù)亂碼問題處理

5.1.4 數(shù)據(jù)爬后處理之輿情評(píng)分

5.2 數(shù)據(jù)可視化分析—詞云圖繪制

5.2.1 用jieba庫實(shí)現(xiàn)中文分詞

5.2.2 用wordcloud庫繪制詞云圖

5.2.3 案例實(shí)戰(zhàn):新浪微博詞云圖繪制

★ 課后習(xí)題

第6章 數(shù)據(jù)結(jié)構(gòu)化與數(shù)據(jù)存儲(chǔ)

6.1 數(shù)據(jù)結(jié)構(gòu)化神器—pandas庫

6.1.1 用read_html()函數(shù)快速爬取網(wǎng)頁表格數(shù)據(jù)

6.1.2 pandas庫在爬蟲領(lǐng)域的核心代碼知識(shí)

6.2 新浪財(cái)經(jīng)—資產(chǎn)負(fù)債表獲取

6.3 百度新聞—文本數(shù)據(jù)結(jié)構(gòu)化

6.3.1 將單家公司的新聞導(dǎo)出為Excel工作簿

6.3.2 將多家公司的新聞導(dǎo)出為Excel工作簿

6.4 百度愛企查—股權(quán)穿透研究

6.4.1 單層股權(quán)結(jié)構(gòu)爬取

6.4.2 多層股權(quán)結(jié)構(gòu)爬取

6.5 天天基金網(wǎng)—股票型基金信息爬取

6.5.1 爬取基金信息表格

6.5.2 爬取基金的詳情頁面網(wǎng)址

6.6 集思錄—可轉(zhuǎn)債信息爬取

6.7 東方財(cái)富網(wǎng)—券商研報(bào)信息爬取

6.7.1 爬取券商研報(bào)信息表格

6.7.2 爬取研報(bào)的詳情頁面網(wǎng)址

6.8 數(shù)據(jù)存儲(chǔ)—MySQL快速入門

6.8.1 MySQL的安裝

6.8.2 MySQL的基本操作

6.9 用Python操控?cái)?shù)據(jù)庫

6.9.1 用PyMySQL庫操控?cái)?shù)據(jù)庫

6.9.2 案例實(shí)戰(zhàn):百度新聞數(shù)據(jù)爬取與存儲(chǔ)

6.9.3 用pandas庫操控?cái)?shù)據(jù)庫

★ 課后習(xí)題

第7章 Python多線程和多進(jìn)程爬蟲

7.1 理解線程與進(jìn)程

7.1.1 計(jì)算機(jī)硬件結(jié)構(gòu)基礎(chǔ)知識(shí)

7.1.2 線程與進(jìn)程

7.1.3 單線程、多線程與多進(jìn)程

7.1.4 爬蟲任務(wù)中的多線程與多進(jìn)程

7.2 Python多線程爬蟲編程實(shí)戰(zhàn)

7.2.1 Python多線程編程基礎(chǔ)知識(shí)

7.2.2 Python多線程編程進(jìn)階知識(shí)

7.2.3 案例實(shí)戰(zhàn):多線程爬取百度新聞

7.3 Python多進(jìn)程爬蟲編程實(shí)戰(zhàn)

7.3.1 Python多進(jìn)程編程基礎(chǔ)知識(shí)

7.3.2 Python多進(jìn)程編程進(jìn)階知識(shí)

7.3.3 案例實(shí)戰(zhàn):多進(jìn)程爬取百度新聞

★ 課后習(xí)題

第8章 IP代理使用技巧與實(shí)戰(zhàn)

8.1 結(jié)合Requests庫使用IP代理

8.1.1 IP代理基礎(chǔ)知識(shí)

8.1.2 IP代理的使用

8.2 IP代理實(shí)戰(zhàn)1:用Requests庫爬取公眾號(hào)文章

8.2.1 直接用Requests庫爬取

8.2.2 添加IP代理進(jìn)行爬取

8.2.3 添加智能IP切換系統(tǒng)

8.3 結(jié)合Selenium庫使用IP代理

8.4 IP代理實(shí)戰(zhàn)2:用Selenium庫爬取公眾號(hào)文章

8.4.1 直接用Selenium庫爬取

8.4.2 添加IP代理進(jìn)行爬取

8.4.3 添加智能IP切換系統(tǒng)

★ 課后習(xí)題

后記


展開全部

零基礎(chǔ)學(xué)Python爬蟲從入門到精通 作者簡介

王宇韜 華能貴誠信托金融科技實(shí)驗(yàn)室發(fā)起人,賓夕法尼亞大學(xué)碩士,上海交通大學(xué)學(xué)士,曾在劍橋大學(xué)交流學(xué)習(xí),兩年內(nèi)通過CFA 3 級(jí)、FRM 2 級(jí)、AQF。在華能貴誠信托自主研發(fā)了輿情監(jiān)控系統(tǒng)、資金雷達(dá)、流程自動(dòng)化AI 系統(tǒng)、機(jī)器視頻面試系統(tǒng)等;專注于科技在金融領(lǐng)域的應(yīng)用,編著有《Python 金融大數(shù)據(jù)挖掘與分析全流程詳解》和《Python 大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)商業(yè)案例實(shí)戰(zhàn)》。 吳子湛 畢業(yè)于合肥工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,就職于南京市秦淮區(qū)大數(shù)據(jù)中心;擁有多年IT 研發(fā)經(jīng)驗(yàn),擅長大數(shù)據(jù)分析與挖掘。

商品評(píng)論(0條)
暫無評(píng)論……
書友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 深圳宣传片制作_产品视频制作_深圳3D动画制作公司_深圳短视频拍摄-深圳市西典映画传媒有限公司 | 北京公积金代办/租房发票/租房备案-北京金鼎源公积金提取服务中心 | 巩义市科瑞仪器有限公司| 水厂污泥地磅|污泥处理地磅厂家|地磅无人值守称重系统升级改造|地磅自动称重系统维修-河南成辉电子科技有限公司 | 全国冰箱|空调|洗衣机|热水器|燃气灶维修服务平台-百修家电 | 定量包装机,颗粒定量包装机,粉剂定量包装机,背封颗粒包装机,定量灌装机-上海铸衡电子科技有限公司 | ?水马注水围挡_塑料注水围挡_防撞桶-常州瑞轩水马注水围挡有限公司 | 一路商机网-品牌招商加盟优选平台-加盟店排行榜平台 | 中视电广_短视频拍摄_短视频推广_短视频代运营_宣传片拍摄_影视广告制作_中视电广 | 混合气体腐蚀试验箱_盐雾/硫化氢/气体腐蚀试验箱厂家-北京中科博达 | 行业分析:提及郑州火车站附近真有 特殊按摩 ?2025实地踩坑指南 新手如何避坑不踩雷 | 专业的新乡振动筛厂家-振动筛品质保障-环保振动筛价格—新乡市德科筛分机械有限公司 | 上海璟文空运首页_一级航空货运代理公司_机场快递当日达 | 电动百叶窗,开窗器,电动遮阳百叶,电动开窗机生产厂家-徐州鑫友工控科技发展有限公司 | 有福网(yofus.com)洗照片冲印,毕业聚会纪念册相册制作个性DIY平台 | 真空粉体取样阀,电动楔式闸阀,电动针型阀-耐苛尔(上海)自动化仪表有限公司 | 大通天成企业资质代办_承装修试电力设施许可证_增值电信业务经营许可证_无人机运营合格证_广播电视节目制作许可证 | 广域铭岛Geega(际嘉)工业互联网平台-以数字科技引领行业跃迁 | 南昌旅行社_南昌国际旅行社_南昌国旅在线 | 对夹式止回阀_对夹式蝶形止回阀_对夹式软密封止回阀_超薄型止回阀_不锈钢底阀-温州上炬阀门科技有限公司 | 跨境物流_美国卡派_中大件运输_尾程派送_海外仓一件代发 - 广州环至美供应链平台 | 无菌水质袋-NASCO食品无菌袋-Whirl-Pak无菌采样袋-深圳市慧普德贸易有限公司 | 活性氧化铝球|氧化铝干燥剂|分子筛干燥剂|氢氧化铝粉-淄博同心材料有限公司 | 深圳公司注册-工商注册公司-千百顺代理记账公司 | 涂层测厚仪_光泽度仪_uv能量计_紫外辐照计_太阳膜测试仪_透光率仪-林上科技 | AGV无人叉车_激光叉车AGV_仓储AGV小车_AGV无人搬运车-南昌IKV机器人有限公司[官网] | 中药超微粉碎机(中药细胞级微粉碎)-百科 | TwistDx恒温扩增-RAA等温-Jackson抗体-默瑞(上海)生物科技有限公司 | 水冷散热器_水冷电子散热器_大功率散热器_水冷板散热器厂家-河源市恒光辉散热器有限公司 | 济南铝方通-济南铝方通价格-济南方通厂家-山东鲁方通建材有限公司 | hc22_hc22价格_hc22哈氏合金—东锜特殊钢 | 棕刚玉_白刚玉_铝酸钙-锐石新材料| 二次元影像仪|二次元测量仪|拉力机|全自动影像测量仪厂家_苏州牧象仪器 | 泰兴市热钻机械有限公司-热熔钻孔机-数控热熔钻-热熔钻孔攻牙一体机 | 鹤壁创新仪器公司-全自动量热仪,定硫仪,煤炭测硫仪,灰熔点测定仪,快速自动测氢仪,工业分析仪,煤质化验仪器 | Magnescale探规,Magnescale磁栅尺,Magnescale传感器,Magnescale测厚仪,Mitutoyo光栅尺,笔式位移传感器-苏州连达精密量仪有限公司 | 木材烘干机,木炭烘干机,纸管/佛香烘干设备-河南蓝天机械制造有限公司 | 煤矿支护网片_矿用勾花菱形网_缝管式_管缝式锚杆-邯郸市永年区志涛工矿配件有限公司 | 对夹式止回阀_对夹式蝶形止回阀_对夹式软密封止回阀_超薄型止回阀_不锈钢底阀-温州上炬阀门科技有限公司 | 德州网站开发定制-小程序开发制作-APP软件开发-「两山开发」 | 超声波焊接机_超音波熔接机_超声波塑焊机十大品牌_塑料超声波焊接设备厂家 |