包郵 用PYTHON寫網(wǎng)絡(luò)爬蟲(第2版)
-
>
全國計(jì)算機(jī)等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用
-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
用PYTHON寫網(wǎng)絡(luò)爬蟲(第2版) 版權(quán)信息
- ISBN:9787115479679
- 條形碼:9787115479679 ; 978-7-115-47967-9
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
用PYTHON寫網(wǎng)絡(luò)爬蟲(第2版) 本書特色
《用Python寫網(wǎng)絡(luò)爬蟲(第 2版》講解了如何使用Python來編寫網(wǎng)絡(luò)爬蟲程序,內(nèi)容包括網(wǎng)絡(luò)爬蟲簡介,從頁面中抓取數(shù)據(jù)的3種方法,提取緩存中的數(shù)據(jù),使用多個(gè)線程和進(jìn)程進(jìn)行并發(fā)抓取,抓取動(dòng)態(tài)頁面中的內(nèi)容,與表單進(jìn)行交互,處理頁面中的驗(yàn)證碼問題,以及使用Scarpy和Portia進(jìn)行數(shù)據(jù)抓取,并在*后介紹了使用本書講解的數(shù)據(jù)抓取技術(shù)對幾個(gè)真實(shí)的網(wǎng)站進(jìn)行抓取的實(shí)例,旨在幫助讀者活學(xué)活用書中介紹的技術(shù)。 《用Python寫網(wǎng)絡(luò)爬蟲(第 2版》適合有一定Python編程經(jīng)驗(yàn)而且對爬蟲技術(shù)感興趣的讀者閱讀。
用PYTHON寫網(wǎng)絡(luò)爬蟲(第2版) 內(nèi)容簡介
《用Python寫網(wǎng)絡(luò)爬蟲(第 2版》講解了如何使用Python來編寫網(wǎng)絡(luò)爬蟲程序,內(nèi)容包括網(wǎng)絡(luò)爬蟲簡介,從頁面中抓取數(shù)據(jù)的3種方法,提取緩存中的數(shù)據(jù),使用多個(gè)線程和進(jìn)程進(jìn)行并發(fā)抓取,抓取動(dòng)態(tài)頁面中的內(nèi)容,與表單進(jìn)行交互,處理頁面中的驗(yàn)證碼問題,以及使用Scarpy和Portia進(jìn)行數(shù)據(jù)抓取,并在很后介紹了使用本書講解的數(shù)據(jù)抓取技術(shù)對幾個(gè)真實(shí)的網(wǎng)站進(jìn)行抓取的實(shí)例,旨在幫助讀者活學(xué)活用書中介紹的技術(shù)。《用Python寫網(wǎng)絡(luò)爬蟲(第 2版》適合有一定Python編程經(jīng)驗(yàn)而且對爬蟲技術(shù)感興趣的讀者閱讀。
用PYTHON寫網(wǎng)絡(luò)爬蟲(第2版) 目錄
1.1 網(wǎng)絡(luò)爬蟲何時(shí)有用 1
1.2 網(wǎng)絡(luò)爬蟲是否合法 2
1.3 Python 3 3
1.4 背景調(diào)研 4
1.4.1 檢查robots.txt 4
1.4.2 檢查網(wǎng)站地圖 5
1.4.3 估算網(wǎng)站大小 6
1.4.4 識別網(wǎng)站所用技術(shù) 7
1.4.5 尋找網(wǎng)站所有者 9
1.5 編寫第 一個(gè)網(wǎng)絡(luò)爬蟲 11
1.5.1 抓取與爬取的對比 11
1.5.2 下載網(wǎng)頁 12
1.5.3 網(wǎng)站地圖爬蟲 15
1.5.4 ID遍歷爬蟲 17
1.5.5 鏈接爬蟲 19
1.5.6 使用requests庫 28
1.6 本章小結(jié) 30
第 2章 數(shù)據(jù)抓取 31
2.1 分析網(wǎng)頁 32
2.2 3種網(wǎng)頁抓取方法 34
2.2.1 正則表達(dá)式 35
2.2.2 Beautiful Soup 37
2.2.3 Lxml 39
2.3 CSS選擇器和瀏覽器控制臺 41
2.4 XPath選擇器 43
2.5 LXML和家族樹 46
2.6 性能對比 47
2.7 抓取結(jié)果 49
2.7.1 抓取總結(jié) 50
2.7.2 為鏈接爬蟲添加抓取回調(diào) 51
2.8 本章小結(jié) 55
第3章 下載緩存 56
3.1 何時(shí)使用緩存 57
3.2 為鏈接爬蟲添加緩存支持 57
3.3 磁盤緩存 60
3.3.1 實(shí)現(xiàn)磁盤緩存 62
3.3.2 緩存測試 64
3.3.3 節(jié)省磁盤空間 65
3.3.4 清理過期數(shù)據(jù) 66
3.3.5 磁盤緩存缺點(diǎn) 68
3.4 鍵值對存儲(chǔ)緩存 69
3.4.1 鍵值對存儲(chǔ)是什么 69
3.4.2 安裝Redis 70
3.4.3 Redis概述 71
3.4.4 Redis緩存實(shí)現(xiàn) 72
3.4.5 壓縮 74
3.4.6 測試緩存 75
3.4.7 探索requests-cache 76
3.5 本章小結(jié) 78
第4章 并發(fā)下載 79
4.1 100萬個(gè)網(wǎng)頁 79
4.2 串行爬蟲 82
4.3 多線程爬蟲 83
4.4 線程和進(jìn)程如何工作 83
4.4.1 實(shí)現(xiàn)多線程爬蟲 84
4.4.2 多進(jìn)程爬蟲 87
4.5 性能 91
4.6 本章小結(jié) 94
第5章 動(dòng)態(tài)內(nèi)容 95
5.1 動(dòng)態(tài)網(wǎng)頁示例 95
5.2 對動(dòng)態(tài)網(wǎng)頁進(jìn)行逆向工程 98
5.3 渲染動(dòng)態(tài)網(wǎng)頁 104
5.3.1 PyQt還是PySide 105
5.3.2 執(zhí)行JavaScript 106
5.3.3 使用WebKit與網(wǎng)站交互 108
5.4 渲染類 111
5.5 本章小結(jié) 117
第6章 表單交互 119
6.1 登錄表單 120
6.2 支持內(nèi)容更新的登錄腳本擴(kuò)展 128
6.3 使用Selenium實(shí)現(xiàn)自動(dòng)化表單處理 132
6.4 本章小結(jié) 135
第7章 驗(yàn)證碼處理 136
7.1 注冊賬號 137
7.2 光學(xué)字符識別 140
7.3 處理復(fù)雜驗(yàn)證碼 144
7.4 使用驗(yàn)證碼處理服務(wù) 144
7.4.1 9kw入門 145
7.4.2 報(bào)告錯(cuò)誤 150
7.4.3 與注冊功能集成 151
7.5 驗(yàn)證碼與機(jī)器學(xué)習(xí) 153
7.6 本章小結(jié) 153
第8章 Scrapy 154
8.1 安裝Scrapy 154
8.2 啟動(dòng)項(xiàng)目 155
8.2.1 定義模型 156
8.2.2 創(chuàng)建爬蟲 157
8.3 不同的爬蟲類型 162
8.4 使用shell命令抓取 163
8.4.1 檢查結(jié)果 165
8.4.2 中斷與恢復(fù)爬蟲 167
8.5 使用Portia編寫可視化爬蟲 170
8.5.1 安裝 170
8.5.2 標(biāo)注 172
8.5.3 運(yùn)行爬蟲 176
8.5.4 檢查結(jié)果 176
8.6 使用Scrapely實(shí)現(xiàn)自動(dòng)化抓取 177
8.7 本章小結(jié) 178
第9章 綜合應(yīng)用 179
9.1 Google搜索引擎 179
9.2 Facebook 184
9.2.1 網(wǎng)站 184
9.2.2 Facebook API 186
9.3 Gap 188
9.4 寶馬 192
9.5 本章小結(jié) 196
用PYTHON寫網(wǎng)絡(luò)爬蟲(第2版) 作者簡介
Katharine Jarmul是德國柏林的一位數(shù)據(jù)科學(xué)家和Python支持者。她經(jīng)營了一家數(shù)據(jù)科學(xué)咨詢公司——Kjamistan,為不同規(guī)模的企業(yè)提供諸如數(shù)據(jù)抽取、采集以及建模的服務(wù)。她從2008年開始使用Python進(jìn)行編程,從2010年開始使用Python抓取網(wǎng)站,并且在使用網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的不同規(guī)模的初創(chuàng)企業(yè)中工作過。讀者可以通過Twitter(@kjam)關(guān)注她的想法以及動(dòng)態(tài)。 Richard Lawson來自澳大利亞,畢業(yè)于墨爾本大學(xué)計(jì)算機(jī)科學(xué)專業(yè)。畢業(yè)后,他創(chuàng)辦了一家專注于網(wǎng)絡(luò)爬蟲的公司,為超過50個(gè)國家的業(yè)務(wù)提供遠(yuǎn)程工作。他精通世界語,可以使用漢語和韓語對話,并且積極投身于開源軟件事業(yè)。他目前正在牛津大學(xué)攻讀研究生學(xué)位,并利用業(yè)余時(shí)間研發(fā)自主無人機(jī)。 譯者介紹 李斌,畢業(yè)于北京科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),獲得碩士學(xué)位。曾任職于阿里巴巴,當(dāng)前供職于凡普金科,負(fù)責(zé)應(yīng)用安全工作。熱愛Python編程和Web安全,希望以更加智能和自動(dòng)化的方式提升網(wǎng)絡(luò)安全。博客地址為pythoner.com。
- >
李白與唐代文化
- >
巴金-再思錄
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
月亮與六便士
- >
詩經(jīng)-先民的歌唱
- >
姑媽的寶刀
- >
自卑與超越
- >
人文閱讀與收藏·良友文學(xué)叢書:一天的工作