數據采集技術 版權信息
- ISBN:9787302600589
- 條形碼:9787302600589 ; 978-7-302-60058-9
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數據采集技術 本書特色
本書可作為應用型本科高校的“數據科學與大數據技術”“大數據技術與應用”專業的教學用書,提供教學課件PPT、教學大綱、源代碼、習題參考答案等配套資源。
數據采集技術 內容簡介
本書介紹基于Python語言的網絡數據采集技術的相關知識,并為采集網絡中的各種數據類型提供全面指導。第1章重點介紹Scrapy框架及配置方法;第2~6章重點介紹網絡數據采集的基本原理,包括如何利用Python從網絡服務器請求信息,如何對服務器的響應進行基本處理,以及如何通過自動化的手段與網站進行交互;第7、8章介紹登錄表單與驗證碼的數據采集和自動化處理,以及并行多線程網絡數據的采集方法。本書還提供了多個實驗,以幫助讀者鞏固所學內容。
本書適合作為普通高等院校計算機程序設計、大數據課程的教材,也可作為從事Web數據采集的軟件開發人員和研究人員的參考書。
數據采集技術 目錄
第1章 緒論
1.1 數據采集概述
1.1.1 什么是數據采集
1.1.2 數據采集的典型應用場景
1.1.3 數據采集技術框架
1.1.4 數據采集面臨的挑戰
1.2 網絡爬蟲概述
1.2.1 什么是網絡爬蟲
1.2.2 網絡爬蟲的應用
1.2.3 網絡爬蟲的結構
1.2.4 網絡爬蟲的組成
1.2.5 網絡爬蟲的類型
1.2.6 實現網絡爬蟲的技術
1.3 Scrapy爬蟲
1.3.1 Scrapy框架
1.3.2 Scrapy的常用組件
1.3.3 Scrapy工作流
1.3.4 其他Python框架
1.3.5 Scrapy的安裝與配置
1.3.6 Windows 7下的安裝配置
1.3.7 Linux(Cent OS)下的安裝配置
本章小結
習題
第2章 采集網頁數據
2.1 采集網頁分析
2.1.1 HTTP概述
2.1.2 HTTP消息
2.2 用Python實現HTTP請求
2.2.1 urllib3/urllib的實現
2.2.2 httplib/urllib的實現
2.2.3 第三方庫Requests方式
2.3 靜態網頁采集
2.3.1 尋找數據特征
2.3.2 獲取響應內容
2.3.3 定制Requests
2.3.4 代碼解析
2.4 動態網頁采集
2.4.1 找到JavaScript請求的數據接口
2.4.2 請求和解析數據接口數據
2.5 實驗1:HTML網頁采集
2.5.1 新建項目
2.5.2 編寫代碼
2.5.3 運行程序
本章小結
習題
第3章 解析采集到的網頁
3.1 使用正則表達式解析
3.1.1 基本語法與使用
3.1.2 Python與正則表達式
3.2 使用Beautiful Soup解析
3.2.1 Python網頁解析器
3.2.2 Beautiful Soup第三方庫
3.3 使用lxml解析
3.3.1 安裝lxml
3.3.2 XPath語言
3.3.3 使用lxml
3.4 解析方法的優缺點對比
3.5 實驗2:使用正則表達式解析采集的網頁
3.5.1 目標網站分析
3.5.2 編寫代碼
3.5.3 運行結果
3.6 實驗3:使用Beautiful Soup解析采集的網頁
3.6.1 目標網站分析
3.6.2 編寫代碼
3.6.3 運行結果
本章小結
習題
第4章 存儲采集到的數據
4.1 HTML正文抽取
4.1.1 存儲為JSON格式
4.1.2 存儲為CSV格式
4.2 MySQL數據庫
4.2.1 安裝MySQL
4.2.2 與Python整合
4.2.3 在網絡數據采集中使用MySQL
4.3 更適合網絡數據采集的MongoDB
4.3.1 安裝MongoDB
4.3.2 MongoDB基礎
4.3.3 Python操作MongoDB
4.4 實驗4:使用MongoDB存儲網絡采集的數據
4.4.1 網站分析
4.4.2 獲取首頁數據
4.4.3 解析數據
4.4.4 存儲到MongoDB
4.5 實驗5:采集數據并存儲到MySQL
4.5.1 準備工作
4.5.2 編寫代碼
4.5.3 運行結果
本章小結
習題
第5章 基礎網絡數據采集
5.1 基礎網絡數據采集的架構及運行流程
5.2 URL管理器
5.2.1 URL管理器的主要功能
5.2.2 URL管理器的實現方式
5.3 HTML下載器
5.3.1 下載方法
5.3.2 注意事項
5.4 HTML解析器
5.5 數據存儲器
5.6 數據調度器
5.7 實驗6:Scrapy基礎網絡數據采集
5.7.1 創建采集模塊
5.7.2 啟動程序
5.7.3 控制運行狀態
本章小結
習題
第6章 分布式網絡數據采集
6.1 分布式運行結構
6.1.1 分布式網絡數據采集分析
6.1.2 簡單分布式架構
6.1.3 工作機制
6.2 控制節點
6.2.1 URL管理器
6.2.2 數據存儲器
6.2.3 控制調度器
6.3 采集節點
6.3.1 HTML下載器
6.3.2 HTML解析器
6.3.3 網絡數據采集調度器
6.4 反爬技術
6.4.1 反爬問題
6.4.2 反爬機制
6.4.3 瀏覽器偽裝技術
6.5 實驗7:Scrapy分布式網絡數據采集
6.5.1 創建起點數據采集項目
6.5.2 定義Item
6.5.3 編寫網絡數據采集模塊
6.5.4 Pipeline
6.5.5 應對反爬機制
6.5.6 去重優化
本章小結
習題
第7章 登錄表單與驗證碼的數據采集
7.1 網頁登錄表單
7.1.1 登錄表單處理
7.1.2 加密數據分析
7.1.3 Cookie的使用
7.2 驗證碼的處理
7.2.1 什么是驗證碼
7.2.2 人工處理驗證碼
7.2.3 OCR處理驗證碼
7.3 實驗8:Scrapy模擬采集豆瓣網數據
7.3.1 分析豆瓣登錄
7.3.2 編寫代碼
7.3.3 實驗調試與運行
7.3.4 問題處理
本章小結
習題
第8章 并行多線程網絡數據采集
8.1 多線程網絡數據采集
8.1.1 1000個網站網頁
8.1.2 串行采集
8.1.3 多線程網絡數據采集的工作原理
8.2 多進程網絡數據采集
8.2.1 線程和進程如何工作
8.2.2 實現多進程采集
8.3 實驗9:Scrapy天氣數據采集
8.3.1 創建項目
8.3.2 定義Item
8.3.3 編寫采集天氣數據的
展開全部
數據采集技術 作者簡介
廖大強,男,碩士,高級實驗師,廣東南華工商職業學院,云計算技術與應用專業帶頭人。一直從事信息技術類專業課教學,講授課程包括計算機網絡、信息安全等