中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
零基礎學Python爬蟲從入門到精通

包郵 零基礎學Python爬蟲從入門到精通

出版社:機械工業出版社出版時間:2021-06-01
開本: 16開 頁數: 344
中 圖 價:¥69.3(7.0折) 定價  ¥99.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

零基礎學Python爬蟲從入門到精通 版權信息

  • ISBN:9787111683681
  • 條形碼:9787111683681 ; 978-7-111-68368-1
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

零基礎學Python爬蟲從入門到精通 本書特色

本書講解了Python 爬蟲的基礎知識和**技能,幫助零基礎的讀者快速入門并熟練使用爬蟲。本書囊括了媒體熱點采集、金融數據爬取、網絡文件下載、電商數據研究等四大類42個爬蟲實戰案例,共計3000余行代碼,涉及17個網站的數據與文件獲取,詳解了Requests 庫、Selenium 庫、正則表達式、BeautifulSoup 庫、多線程多進程爬蟲、IP 反爬機制應對等知識。

零基礎學Python爬蟲從入門到精通 內容簡介

在大數據時代的今天,無論是產品開始還是精準化營銷越來越離不開大數據的支持,如何從浩瀚的網絡中獲取自己想要的大數據?這就需要網絡爬蟲,而是世界上80%的爬蟲都是基于Python開發出來的,所以python爬蟲技術是大數據挖掘、分析與可視化的基礎。本書面向零基礎讀者,從如何合法使用爬蟲和Python編輯環境的安裝開始到不同類型爬蟲程序的開發都進行了詳盡的講解,從Python基礎語法到Requests庫、正則表達式、Scrapy框架、Beautiful Soup一個都不少。同時在相關地方也講解了部分數據挖掘和數據分析的基礎內容。

零基礎學Python爬蟲從入門到精通 目錄

第1章 Python基礎

1.1 Python快速上手

1.1.1 安裝Python

1.1.2 編寫**個Python程序

1.1.3 PyCharm的安裝與使用

1.1.4 Jupyter Notebook的使用

1.2 Python語法基礎知識

1.2.1 變量、行、縮進與注釋

1.2.2 數據類型:數字與字符串

1.2.3 數據類型:列表與字典、元組與集合

1.2.4 運算符

1.3 Python語句

1.3.1 if條件語句

1.3.2 for循環語句

1.3.3 while循環語句

1.3.4 try/except異常處理語句

1.4 函數與庫

1.4.1 函數的定義與調用

1.4.2 函數的返回值與變量的作用域

1.4.3 常用內置函數介紹

1.4.4 庫的導入與安裝

★ 課后習題

第2章 爬蟲**步:獲取網頁源代碼

2.1 爬蟲核心庫1:Requests庫

2.1.1 如何查看網頁源代碼

2.1.2 用Requests庫獲取網頁源代碼:百度新聞

2.1.3 Requests庫的“軟肋”

2.2 爬蟲核心庫2:Selenium庫

2.2.1 模擬瀏覽器及Selenium庫的安裝

2.2.2 用Selenium庫獲取網頁源代碼:新浪財經股票信息

2.3 網頁結構分析

2.3.1 網頁結構基礎

2.3.2 網頁結構進階

★ 課后習題

第3章 爬蟲第二步:數據解析與提取

3.1 用正則表達式解析和提取數據

3.1.1 正則表達式基礎1:findall()函數

3.1.2 正則表達式基礎2:非貪婪匹配之“(.*?)”

3.1.3 正則表達式基礎3:非貪婪匹配之“.*?”

3.1.4 正則表達式基礎4:自動考慮換行的修飾符re.S

3.1.5 正則表達式基礎5:知識點補充

3.1.6 案例實戰:提取百度新聞的標題、網址、日期和來源

3.2 用BeautifulSoup庫解析和提取數據

3.2.1 解析特定標簽的網頁元素

3.2.2 解析特定屬性的網頁元素

3.2.3 提取標簽中的網址

3.2.4 案例實戰:新浪新聞標題和網址爬取

3.3 百度新聞爬取進階探索

3.3.1 批量爬取多家公司的新聞

3.3.2 將爬取結果保存為文本文件

3.3.3 異常處理及24小時不間斷爬取

3.3.4 批量爬取多頁內容

3.4 證券日報網爬取實戰

3.4.1 用正則表達式爬取

3.4.2 用BeautifulSoup庫爬取

3.5 中證網爬取實戰

3.6 新浪微博爬取實戰

3.7 上海證券交易所上市公司PDF文件下載

3.7.1 用Requests庫下載文件的基本方法

3.7.2 初步嘗試下載上海證券交易所上市公司PDF文件

3.8 豆瓣電影Top 250排行榜海報圖片下載

3.8.1 爬取單頁

3.8.2 爬取多頁

★ 課后習題

第4章 爬蟲神器Selenium庫深度講解

4.1 Selenium庫進階知識

4.2 新浪財經股票行情數據爬取

4.2.1 用Selenium庫爬取股票行情數據

4.2.2 用新浪財經API爬取股票行情數據

4.3 東方財富網數據爬取

4.3.1 上市公司股吧帖子爬取

4.3.2 上市公司新聞爬取

4.3.3 上市公司研報PDF文件下載

4.4 上海證券交易所問詢函信息爬取及PDF文件下載

4.4.1 批量下載單個頁面上的PDF文件

4.4.2 批量下載多個頁面上的PDF文件

4.4.3 匯總問詢函信息并導出為Excel工作簿

4.5 銀行間拆借利率爬取

4.6 雪球股票評論信息爬取

4.7 京東商品評價信息爬取

4.7.1 用Selenium庫爬取

4.7.2 用Requests庫爬取

4.8 淘寶天貓商品銷量數據爬取

4.9 Selenium庫趣味案例:網頁自動投票

★ 課后習題

第5章 數據處理與可視化

5.1 數據清洗與優化技巧

5.1.1 常用的數據清洗手段及日期格式的統一

5.1.2 文本內容過濾—剔除噪聲數據

5.1.3 數據亂碼問題處理

5.1.4 數據爬后處理之輿情評分

5.2 數據可視化分析—詞云圖繪制

5.2.1 用jieba庫實現中文分詞

5.2.2 用wordcloud庫繪制詞云圖

5.2.3 案例實戰:新浪微博詞云圖繪制

★ 課后習題

第6章 數據結構化與數據存儲

6.1 數據結構化神器—pandas庫

6.1.1 用read_html()函數快速爬取網頁表格數據

6.1.2 pandas庫在爬蟲領域的核心代碼知識

6.2 新浪財經—資產負債表獲取

6.3 百度新聞—文本數據結構化

6.3.1 將單家公司的新聞導出為Excel工作簿

6.3.2 將多家公司的新聞導出為Excel工作簿

6.4 百度愛企查—股權穿透研究

6.4.1 單層股權結構爬取

6.4.2 多層股權結構爬取

6.5 天天基金網—股票型基金信息爬取

6.5.1 爬取基金信息表格

6.5.2 爬取基金的詳情頁面網址

6.6 集思錄—可轉債信息爬取

6.7 東方財富網—券商研報信息爬取

6.7.1 爬取券商研報信息表格

6.7.2 爬取研報的詳情頁面網址

6.8 數據存儲—MySQL快速入門

6.8.1 MySQL的安裝

6.8.2 MySQL的基本操作

6.9 用Python操控數據庫

6.9.1 用PyMySQL庫操控數據庫

6.9.2 案例實戰:百度新聞數據爬取與存儲

6.9.3 用pandas庫操控數據庫

★ 課后習題

第7章 Python多線程和多進程爬蟲

7.1 理解線程與進程

7.1.1 計算機硬件結構基礎知識

7.1.2 線程與進程

7.1.3 單線程、多線程與多進程

7.1.4 爬蟲任務中的多線程與多進程

7.2 Python多線程爬蟲編程實戰

7.2.1 Python多線程編程基礎知識

7.2.2 Python多線程編程進階知識

7.2.3 案例實戰:多線程爬取百度新聞

7.3 Python多進程爬蟲編程實戰

7.3.1 Python多進程編程基礎知識

7.3.2 Python多進程編程進階知識

7.3.3 案例實戰:多進程爬取百度新聞

★ 課后習題

第8章 IP代理使用技巧與實戰

8.1 結合Requests庫使用IP代理

8.1.1 IP代理基礎知識

8.1.2 IP代理的使用

8.2 IP代理實戰1:用Requests庫爬取公眾號文章

8.2.1 直接用Requests庫爬取

8.2.2 添加IP代理進行爬取

8.2.3 添加智能IP切換系統

8.3 結合Selenium庫使用IP代理

8.4 IP代理實戰2:用Selenium庫爬取公眾號文章

8.4.1 直接用Selenium庫爬取

8.4.2 添加IP代理進行爬取

8.4.3 添加智能IP切換系統

★ 課后習題

后記


展開全部

零基礎學Python爬蟲從入門到精通 作者簡介

王宇韜 華能貴誠信托金融科技實驗室發起人,賓夕法尼亞大學碩士,上海交通大學學士,曾在劍橋大學交流學習,兩年內通過CFA 3 級、FRM 2 級、AQF。在華能貴誠信托自主研發了輿情監控系統、資金雷達、流程自動化AI 系統、機器視頻面試系統等;專注于科技在金融領域的應用,編著有《Python 金融大數據挖掘與分析全流程詳解》和《Python 大數據分析與機器學習商業案例實戰》。 吳子湛 畢業于合肥工業大學計算機學院,就職于南京市秦淮區大數據中心;擁有多年IT 研發經驗,擅長大數據分析與挖掘。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 不锈钢列管式冷凝器,换热器厂家-无锡飞尔诺环境工程有限公司 | 全自动定氮仪-半自动凯氏定氮仪厂家-祎鸿仪器 | 浙江华锤电器有限公司_地磅称重设备_防作弊地磅_浙江地磅售后维修_无人值守扫码过磅系统_浙江源头地磅厂家_浙江工厂直营地磅 | 重庆波纹管|重庆钢带管|重庆塑钢管|重庆联进管道有限公司 | 焊接减速机箱体,减速机箱体加工-淄博博山泽坤机械厂 | 顶呱呱交易平台-行业领先的公司资产交易服务平台 | 工业冷却塔维修厂家_方形不锈钢工业凉水塔维修改造方案-广东康明节能空调有限公司 | 仓储笼_仓储货架_南京货架_仓储货架厂家_南京货架价格低-南京一品仓储设备制造公司 | 破碎机锤头_合金耐磨锤头_郑州宇耐机械工程技术有限公司 | 直线模组_滚珠丝杆滑台_模组滑台厂家_万里疆科技 | ASA膜,ASA共挤料,篷布色母料-青岛未来化学有限公司 | 旋振筛|圆形摇摆筛|直线振动筛|滚筒筛|压榨机|河南天众机械设备有限公司 | 中医治疗皮肤病_潍坊银康医院「山东」重症皮肤病救治平台 | 碳化硅,氮化硅,冰晶石,绢云母,氟化铝,白刚玉,棕刚玉,石墨,铝粉,铁粉,金属硅粉,金属铝粉,氧化铝粉,硅微粉,蓝晶石,红柱石,莫来石,粉煤灰,三聚磷酸钠,六偏磷酸钠,硫酸镁-皓泉新材料 | 【官网】博莱特空压机,永磁变频空压机,螺杆空压机-欧能优 | 石家庄小程序开发_小程序开发公司_APP开发_网站制作-石家庄乘航网络科技有限公司 | 3d可视化建模_三维展示_产品3d互动数字营销_三维动画制作_3D虚拟商城 【商迪3D】三维展示服务商 广东健伦体育发展有限公司-体育工程配套及销售运动器材的体育用品服务商 | BOE画框屏-触摸一体机-触控查询一体机-触摸屏一体机价格-厂家直销-触发电子 | 翰墨AI智能写作助手官网_人工智能问答在线AI写作免费一键生成 | 语料库-提供经典范文,文案句子,常用文书,您的写作得力助手 | 手机存放柜,超市储物柜,电子储物柜,自动寄存柜,行李寄存柜,自动存包柜,条码存包柜-上海天琪实业有限公司 | 直流电能表-充电桩电能表-导轨式电能表-智能电能表-浙江科为电气有限公司 | 合肥钣金加工-安徽激光切割加工-机箱机柜加工厂家-合肥通快 | 六维力传感器_三维力传感器_二维力传感器-南京神源生智能科技有限公司 | 户外-组合-幼儿园-不锈钢-儿童-滑滑梯-床-玩具-淘气堡-厂家-价格 | 厂厂乐-汇聚海量采购信息的B2B微营销平台-厂厂乐官网 | 不锈钢/气体/液体玻璃转子流量计(防腐,选型,规格)-常州天晟热工仪表有限公司【官网】 | 武汉天安盾电子设备有限公司 - 安盾安检,武汉安检门,武汉安检机,武汉金属探测器,武汉测温安检门,武汉X光行李安检机,武汉防爆罐,武汉车底安全检查,武汉液体探测仪,武汉安检防爆设备 | 压砖机_电动螺旋压力机_粉末成型压力机_郑州华隆机械tel_0371-60121717 | 北京京云律师事务所| 电动高尔夫球车|电动观光车|电动巡逻车|电动越野车厂家-绿友机械集团股份有限公司 | 泥浆在线密度计厂家-防爆数字压力表-膜盒-远传压力表厂家-江苏大亚自控设备有限公司 | 高清视频编码器,4K音视频编解码器,直播编码器,流媒体服务器,深圳海威视讯技术有限公司 | LZ-373测厚仪-华瑞VOC气体检测仪-个人有毒气体检测仪-厂家-深圳市深博瑞仪器仪表有限公司 | 精密钢管,冷拔精密无缝钢管,精密钢管厂,精密钢管制造厂家,精密钢管生产厂家,山东精密钢管厂家 | 工业插头-工业插头插座【厂家】-温州罗曼电气 | 噪声治理公司-噪音治理专业隔音降噪公司 | 膏剂灌装旋盖机-眼药水灌装生产线-西林瓶粉剂分装机-南通博琅机械科技 | 高精度电阻回路测试仪-回路直流电阻测试仪-武汉特高压电力科技有限公司 | 杭州翻译公司_驾照翻译_专业人工翻译-杭州以琳翻译有限公司官网 组织研磨机-高通量组织研磨仪-实验室多样品组织研磨机-东方天净 | 电气控制系统集成商-PLC控制柜变频控制柜-非标自动化定制-电气控制柜成套-NIDEC CT变频器-威肯自动化控制 |