中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >>
解析Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、Scrapy框架、分布式爬蟲

包郵 解析Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、Scrapy框架、分布式爬蟲

出版社:中國(guó)鐵道出版社出版時(shí)間:2018-08-01
開本: 26cm 頁數(shù): 263頁
本類榜單:教材銷量榜
中 圖 價(jià):¥23.4(4.5折) 定價(jià)  ¥52.0 登錄后可看到會(huì)員價(jià)
加入購物車 收藏
開年大促, 全場(chǎng)包郵
?新疆、西藏除外
溫馨提示:5折以下圖書主要為出版社尾貨,大部分為全新(有塑封/無塑封),個(gè)別圖書品相8-9成新、切口
有劃線標(biāo)記、光盤等附件不全詳細(xì)品相說明>>
本類五星書更多>

解析Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、Scrapy框架、分布式爬蟲 版權(quán)信息

解析Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、Scrapy框架、分布式爬蟲 本書特色

網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動(dòng)請(qǐng)求萬維網(wǎng)網(wǎng)站并提取網(wǎng)絡(luò)數(shù)據(jù)的程序或腳本,它可以代替人力進(jìn)行信息采集,能夠自動(dòng)采集并高效地利用互聯(lián)網(wǎng)中的數(shù)據(jù),在市場(chǎng)的應(yīng)用需求中占據(jù)著重要的位置。 本書以Windows為主要平臺(tái),系統(tǒng)全面地講解了Python網(wǎng)絡(luò)爬蟲的相關(guān)知識(shí)。主要內(nèi)容包括:初識(shí)爬蟲、爬蟲的實(shí)現(xiàn)原理和技術(shù)、網(wǎng)頁請(qǐng)求原理、爬取網(wǎng)頁數(shù)據(jù)、數(shù)據(jù)解析、并發(fā)下載、圖像識(shí)別與文字處理、存儲(chǔ)爬蟲數(shù)據(jù)、初識(shí)爬蟲框架Scrapy、Scrapy終端與核心組件、自動(dòng)爬取網(wǎng)頁的爬蟲 CrawSpider、Scrapy-Redis分布式爬蟲。 本書適合作為高等院校計(jì)算機(jī)相關(guān)專業(yè)程序設(shè)計(jì)課程教材,也可作為Python網(wǎng)絡(luò)爬蟲的培訓(xùn)教材,以及廣大編程開發(fā)者的爬蟲入門級(jí)教材。

解析Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、Scrapy框架、分布式爬蟲 內(nèi)容簡(jiǎn)介

本書以Windows為平臺(tái), 系統(tǒng)全面地講解了Python網(wǎng)絡(luò)爬蟲的相關(guān)知識(shí)。其中, 第1章主要是帶領(lǐng)讀者認(rèn)識(shí)網(wǎng)絡(luò)爬蟲 ; 第2章講解爬蟲的實(shí)現(xiàn)原理和技術(shù) ; 第3章主要介紹網(wǎng)頁請(qǐng)求的原理 ; 第4-5章講解抓取和解析網(wǎng)頁數(shù)據(jù)的相關(guān)技術(shù) ; 第6章講解并發(fā)下載的相關(guān)知識(shí) ; 第7章講解抓取動(dòng)態(tài)網(wǎng)頁 ; 第8章講解圖像識(shí)別與文字處理 ; 第9章講解存儲(chǔ)爬蟲數(shù)據(jù) ; 第10-12章側(cè)重講解Scrapy框架的基礎(chǔ)知識(shí)和基本使用 ; 第13章拓展介紹分布式爬蟲的基礎(chǔ)知識(shí)和基本使用。

解析Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、Scrapy框架、分布式爬蟲 目錄

第1章 初識(shí)爬蟲 1 1.1 爬蟲產(chǎn)生背景 1 1.2 爬蟲的概念 2 1.3 爬蟲的用途 2 1.4 爬蟲的分類 3 1.4.1 通用爬蟲和聚焦爬蟲 3 1.4.2 累積式爬蟲和增量式爬蟲 4 1.4.3 表層爬蟲和深層爬蟲 4 小結(jié)5 習(xí)題5 第2章 爬蟲的實(shí)現(xiàn)原理和技術(shù) 6 2.1 爬蟲實(shí)現(xiàn)原理 6 2.1.1 通用爬蟲工作原理 6 2.1.2 聚焦爬蟲工作原理 8 2.2 爬蟲爬取網(wǎng)頁的詳細(xì)流程 9 2.3 通用爬蟲中網(wǎng)頁的分類 10 2.4 通用爬蟲相關(guān)網(wǎng)站文件 10 2.4.1 robots.txt文件 11 2.4.2 Sitemap.xml文件 12 2.5 防爬蟲應(yīng)對(duì)策略 12 2.6 選擇Python做爬蟲的原因 14 2.7 案例——使用八爪魚工具爬取 **個(gè)網(wǎng)頁 14 小結(jié)21 習(xí)題21 第3章 網(wǎng)頁請(qǐng)求原理 23 3.1 瀏覽網(wǎng)頁過程 23 3.1.1 統(tǒng)一資源定位符 24 3.1.2 計(jì)算機(jī)域名系統(tǒng) 25 3.2 HTTP網(wǎng)絡(luò)請(qǐng)求原理 25 3.2.1 分析瀏覽器顯示完整網(wǎng)頁 的過程 26 3.2.2 客戶端HTTP請(qǐng)求格式 26 3.2.3 服務(wù)端HTTP響應(yīng)格式 30 3.3 HTTP抓包工具Fiddler 32 3.3.1 Fiddler工作原理 32 3.3.2 Fiddler下載安裝 32 3.3.3 Fiddler界面詳解 33 3.3.4 Fiddler爬取HTTPS設(shè)置 35 3.3.5 使用Fiddler捕獲Chrome 的會(huì)話 37 小結(jié)40 習(xí)題40 第4章 爬取網(wǎng)頁數(shù)據(jù) 42 4.1 urllib庫概述 42 4.2 快速使用urllib爬取網(wǎng)頁 43 4.2.1 快速爬取一個(gè)網(wǎng)頁 43 4.2.2 分析urlopen()方法 44 4.2.3 使用HTTPResponse對(duì)象 45 4.2.4 構(gòu)造Request對(duì)象 46 4.3 使用urllib實(shí)現(xiàn)數(shù)據(jù)傳輸 47 4.3.1 URL編碼轉(zhuǎn)換 47 4.3.2 處理GET請(qǐng)求 48 4.3.3 處理POST請(qǐng)求 49 4.4 添加特定Headers——請(qǐng)求偽裝 51 4.5 代理服務(wù)器 52 4.5.1 簡(jiǎn)單的自定義opener 52 4.5.2 設(shè)置代理服務(wù)器 53 4.6 超時(shí)設(shè)置 54 4.7 常見的網(wǎng)絡(luò)異常 55 4.7.1 URLError異常和捕獲 55 4.7.2 HttpError異常和捕獲 55 4.8 更人性化的requests庫 56 4.8.1 requests庫概述 56 4.8.2 requests庫初體驗(yàn) 56 4.8.3 發(fā)送請(qǐng)求 58 4.8.4 返回響應(yīng) 58 4.9 案例——使用urllib庫爬取百度 貼吧 59 小結(jié)61 習(xí)題61 第5章 數(shù)據(jù)解析 63 5.1 網(wǎng)頁數(shù)據(jù)和結(jié)構(gòu) 63 5.1.1 網(wǎng)頁數(shù)據(jù)格式 63 5.1.2 網(wǎng)頁結(jié)構(gòu) 64 5.2 數(shù)據(jù)解析技術(shù) 64 5.3 正則表達(dá)式 65 5.4 XPath與lxml解析庫 66 5.4.1 XPath概述 66 5.4.2 XPath語法 67 5.4.3 XPath開發(fā)工具 70 5.4.4 lxml庫概述 72 5.4.5 lxml庫的基本使用 75 5.5 Beautiful Soup 77 5.5.1 Beautiful Soup概述 77 5.5.2 構(gòu)建BeautifulSoup對(duì)象 78 5.5.3 通過操作方法進(jìn)行解讀 搜索 80 5.5.4 通過CSS選擇器進(jìn)行搜索 83 5.6 JSONPath與json模塊 85 5.6.1 JSON概述 85 5.6.2 JSON與XML比較 86 5.6.3 json模塊介紹 87 5.6.4 json模塊基本應(yīng)用 88 5.6.5 JSONPath簡(jiǎn)介 90 5.6.6 JSONPath語法對(duì)比 90 5.6.7 案例——獲取拉勾網(wǎng)城市 列表 92 5.7 案例——解析騰訊社會(huì)招聘網(wǎng)站 的職位信息 94 5.7.1 明確爬蟲爬取目標(biāo) 95 5.7.2 分析要解析的數(shù)據(jù) 95 5.7.3 使用urllib庫爬取社招網(wǎng) 數(shù)據(jù) 96 5.7.4 使用正則、lxml、bs4解析 職位數(shù)據(jù) 98 5.7.5 將數(shù)據(jù)保存到文件中 103 小結(jié)104 習(xí)題104 第6章 并發(fā)下載 106 6.1 多線程爬蟲流程分析 106 6.2 使用queue模塊實(shí)現(xiàn)多線程 爬蟲 107 6.2.1 queue(隊(duì)列)模塊簡(jiǎn)介 107 6.2.2 Queue類概述 109 6.3 協(xié)程實(shí)現(xiàn)并發(fā)爬取 110 6.3.1 協(xié)程爬蟲的流程分析 111 6.3.2 第三方庫gevent 111 6.4 案例——三種技術(shù)采集和解析 數(shù)據(jù)對(duì)比 112 6.4.1 單線程實(shí)現(xiàn) 112 6.4.2 多線程實(shí)現(xiàn) 114 6.4.3 協(xié)程實(shí)現(xiàn) 119 6.4.4 性能分析 122 小結(jié)123 習(xí)題123 第7章 爬取動(dòng)態(tài)內(nèi)容 124 7.1 動(dòng)態(tài)網(wǎng)頁介紹 124 7.2 selenium和PhantomJS概述 125 7.3 selenium和PhantomJS安裝 配置 126 7.4 selenium和PhantomJS的基本 應(yīng)用 128 7.4.1 入門操作 128 7.4.2 定位UI元素 133 7.4.3 鼠標(biāo)動(dòng)作鏈 135 7.4.4 填充表單 136 7.4.5 彈窗處理 137 7.4.6 頁面切換 138 7.4.7 頁面前進(jìn)和后退 138 7.4.8 獲取頁面Cookies 138 7.4.9 頁面等待 138 7.5 案例——模擬豆瓣網(wǎng)站登錄 140 小結(jié)142 習(xí)題142 第8章 圖像識(shí)別與文字處理 145 8.1 OCR技術(shù)概述 145 8.2 Tesseract引擎的下載和安裝 147 8.3 pytesseract和PIL庫概述 148 8.3.1 pytesseract庫概述 149 8.3.2 PIL庫概述 149 8.4 處理規(guī)范格式的文字 150 8.4.1 讀取圖像中格式規(guī)范的 文字 151 8.4.2 對(duì)圖片進(jìn)行閾值過濾和 降噪處理 151 8.4.3 識(shí)別圖像的中文字符 153 8.5 處理驗(yàn)證碼 154 8.5.1 驗(yàn)證碼分類 154 8.5.2 簡(jiǎn)單識(shí)別圖形驗(yàn)證碼 155 8.6 案例——識(shí)別圖形驗(yàn)證碼 156 小結(jié)157 習(xí)題157 第9章 存儲(chǔ)爬蟲數(shù)據(jù) 159 9.1 數(shù)據(jù)存儲(chǔ)概述 159 9.2 MongoDB數(shù)據(jù)庫概述 160 9.2.1 MongoDB的概念 160 9.2.2 Windows平臺(tái)安裝MongoDB數(shù)據(jù)庫 160 9.2.3 比較MongoDB和MySQL的術(shù)語 163 9.3 使用PyMongo庫存儲(chǔ)到 數(shù)據(jù)庫 165 9.3.1 PyMongo的概念 165 9.3.2 PyMongo的基本操作 165 9.4 案例——存儲(chǔ)網(wǎng)站的電影信息 169 9.4.1 分析待爬取的網(wǎng)頁 169 9.4.2 通過urllib爬取全部頁面 169 9.4.3 通過bs4選取數(shù)據(jù) 171 9.4.4 通過MongoDB存儲(chǔ) 電影信息 172 小結(jié)173 習(xí)題173 第10章 初識(shí)爬蟲框架Scrapy 175 10.1 常見爬蟲框架介紹 175 10.2 Scrapy框架的架構(gòu) 179 10.3 Scrapy框架的運(yùn)作流程 180 10.4 安裝Scrapy框架 181 10.4.1 Windows 7系統(tǒng)下的 安裝 181 10.4.2 Linux(Ubuntu)系統(tǒng)下的 安裝 184 10.4.3 Mac OS系統(tǒng)下的安裝 185 10.5 Scrapy框架的基本操作 186 10.5.1 新建一個(gè)Scrapy項(xiàng)目 186 10.5.2 明確爬取目標(biāo) 187 10.5.3 制作Spiders爬取網(wǎng)頁 188 10.5.4 永久性存儲(chǔ)數(shù)據(jù) 193 10.5.5 Scrapy常用命令 193 小結(jié)194 習(xí)題194 第11章 Scrapy終端與核心組件 196 11.1 Scrapy shell——測(cè)試XPath 表達(dá)式 196 11.1.1 啟用Scrapy shell 196 11.1.2 使用Scrapy shell 197 11.1.3 Scrapy shell使用示例 198 11.2 Spiders——爬取和提取結(jié)構(gòu)化 數(shù)據(jù) 200 11.3 Item Pipeline——后期處理 數(shù)據(jù) 201 11.3.1 自定義Item Pipeline 201 11.3.2 完善之前的案例—— item寫入JSON文件 202 11.4 Downloader Middlewares—— 防止反爬蟲 203 11.5 Settings——定制Scrapy 組件 206 11.6 案例——斗魚App爬蟲 208 11.6.1 使用Fiddler爬取手機(jī) App的數(shù)據(jù) 208 11.6.2 分析JSON文件的內(nèi)容 210 11.6.3 使用Scrapy爬取數(shù)據(jù) 211 小結(jié)214 習(xí)題214 第12章 自動(dòng)爬取網(wǎng)頁的爬蟲CrawlSpider 216 12.1 初識(shí)爬蟲類CrawlSpider 216 12.2 CrawlSpider類的工作原理 219 12.3 通過Rule類決定爬取規(guī)則 221 12.4 通過LinkExtractor類提取 鏈接 222 12.5 案例——使用CrawlSpider爬取 騰訊社會(huì)招聘網(wǎng)站 223 小結(jié)228 習(xí)題228 第13章 Scrapy-Redis分布式 爬蟲 230 13.1 Scrapy-Redis概述 230 13.2 Scrapy-Redis的完整架構(gòu) 231 13.3 Scrapy-Redis的運(yùn)作流程 231 13.4 Scrapy-Redis的主要組件 232 13.5 搭建Scrapy-Redis開發(fā)環(huán)境 233 13.5.1 安裝Scrapy-Redis 233 13.5.2 安裝和啟動(dòng)Redis 數(shù)據(jù)庫 234 13.5.3 修改配置文件 redis.conf 239 13.6 分布式的部署 242 13.6.1 分布式策略 242 13.6.2 測(cè)試Slave端遠(yuǎn)程連接 Master端 243 13.7 Scrapy-Redis的基本使用 245 13.7.1 創(chuàng)建Scrapy項(xiàng)目 245 13.7.2 明確爬取目標(biāo) 246 13.7.3 制作Spider爬取網(wǎng)頁 247 13.7.4 執(zhí)行分布式爬蟲 249 13.7.5 使用多個(gè)管道存儲(chǔ) 250 13.7.6 處理Redis數(shù)據(jù)庫中的 數(shù)據(jù) 252 13.8 案
展開全部

解析Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、Scrapy框架、分布式爬蟲 作者簡(jiǎn)介

黑馬程序員:江蘇傳智播客教育科技股份有限公司(簡(jiǎn)稱傳智播客)是一家專門致力于高素質(zhì)軟件開發(fā)人才培養(yǎng)的高科技公司。傳智播客致力于為企業(yè)優(yōu)選一流的人才的培訓(xùn)理念,經(jīng)過多年的教學(xué)探索及戰(zhàn)略布局,已向著綜合型職業(yè)教育集團(tuán)發(fā)展。目前,傳智播客旗下已涵蓋傳智播客IT教育培訓(xùn)、黑馬程序員訓(xùn)練營(yíng)及博學(xué)谷三大子品牌。“黑馬程序員”是傳智播客旗下高端IT教育品牌。

商品評(píng)論(0條)
暫無評(píng)論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 手表腕表维修保养鉴定售后服务中心网点 - 名表维修保养 | 恒温水槽与水浴锅-上海熙浩实业有限公司 | TPM咨询,精益生产管理,5S,6S现场管理培训_华谋咨询公司 | 【灵硕展览集团】展台展会设计_展览会展台搭建_展览展示设计一站式服务公司 | 标准光源箱|对色灯箱|色差仪|光泽度仪|涂层测厚仪_HRC大品牌生产厂家 | 山东成考网-山东成人高考网 | 橡胶电子拉力机-塑料-微电脑电子拉力试验机厂家-江苏天源 | 板式换热器_板式换热器价格_管式换热器厂家-青岛康景辉 | 保定市泰宏机械制造厂-河北铸件厂-铸造厂-铸件加工-河北大件加工 | 锌合金压铸-铝合金压铸厂-压铸模具-冷挤压-誉格精密压铸 | 开平机_纵剪机厂家_开平机生产厂家|诚信互赢-泰安瑞烨精工机械制造有限公司 | 生物颗粒燃烧机-生物质燃烧机-热风炉-生物颗粒蒸汽发生器-丽水市久凯能源设备有限公司 | 99文库_实习生实用的范文资料文库站| 企业彩铃制作_移动、联通、电信集团彩铃上传开通_彩铃定制_商务彩铃管理平台-集团彩铃网 | 郑州宣传片拍摄-TVC广告片拍摄-微电影短视频制作-河南优柿文化传媒有限公司 | 电动高压冲洗车_价格-江苏速利达机车有限公司 | 全自动包衣机-无菌分装隔离器-浙江迦南科技股份有限公司 | 济南冷库安装-山东冷库设计|建造|冷库维修-山东齐雪制冷设备有限公司 | 乐泰胶水_loctite_乐泰胶_汉高乐泰授权(中国)总代理-鑫华良供应链 | 合肥办公室装修 - 合肥工装公司 - 天思装饰 | 欧版反击式破碎机-欧版反击破-矿山石料破碎生产线-青州奥凯诺机械 | 首页-恒温恒湿试验箱_恒温恒湿箱_高低温试验箱_高低温交变湿热试验箱_苏州正合 | 山东成考网-山东成人高考网 | 烟台螺纹,烟台H型钢,烟台钢材,烟台角钢-烟台市正丰金属材料有限公司 | 警方提醒:赣州约炮论坛真的安全吗?2025年新手必看的网络交友防坑指南 | 杭州画室_十大画室_白墙画室_杭州美术培训_国美附中培训_附中考前培训_升学率高的画室_美术中考集训美术高考集训基地 | 杭州画室_十大画室_白墙画室_杭州美术培训_国美附中培训_附中考前培训_升学率高的画室_美术中考集训美术高考集训基地 | 卷筒电缆-拖链电缆-特种柔性扁平电缆定制厂家「上海缆胜」 | 冷却塔风机厂家_静音冷却塔风机_冷却塔电机维修更换维修-广东特菱节能空调设备有限公司 | 气动隔膜阀_气动隔膜阀厂家_卫生级隔膜阀价格_浙江浙控阀门有限公司 | 超细粉碎机|超微气流磨|气流分级机|粉体改性设备|超微粉碎设备-山东埃尔派粉碎机厂家 | 全自动不干胶贴标机_套标机-上海今昂贴标机生产厂家 | 湖南教师资格网-湖南教师资格证考试网| 卫浴散热器,卫浴暖气片,卫生间背篓暖气片,华圣格浴室暖气片 | 雨燕360体育免费直播_雨燕360免费NBA直播_NBA篮球高清直播无插件-雨燕360体育直播 | SMN-1/SMN-A ABB抽屉开关柜触头夹紧力检测仪-SMN-B/SMN-C-上海徐吉 | Eiafans.com_环评爱好者 环评网|环评论坛|环评报告公示网|竣工环保验收公示网|环保验收报告公示网|环保自主验收公示|环评公示网|环保公示网|注册环评工程师|环境影响评价|环评师|规划环评|环评报告|环评考试网|环评论坛 - Powered by Discuz! | 安平县鑫川金属丝网制品有限公司,防风抑尘网,单峰防风抑尘,不锈钢防风抑尘网,铝板防风抑尘网,镀铝锌防风抑尘网 | 铝合金风口-玻璃钢轴流风机-玻璃钢屋顶风机-德州东润空调设备有限公司 | 棕刚玉-白刚玉厂家价格_巩义市东翔净水材料厂 | 搅拌磨|搅拌球磨机|循环磨|循环球磨机-无锡市少宏粉体科技有限公司 |