-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
網絡數據采集技術:JAVA網絡爬蟲實戰 版權信息
- ISBN:9787121376078
- 條形碼:9787121376078 ; 978-7-121-37607-8
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
網絡數據采集技術:JAVA網絡爬蟲實戰 本書特色
本書以Java為開發語言,系統地介紹了網絡爬蟲的理論知識和基礎工具,包括網絡爬蟲涉及的Java基礎知識、HTTP協議基礎與網絡抓包、網頁內容獲取、網頁內容解析和網絡爬蟲數據存儲等。本書選取典型網站,采用案例講解的方式介紹網絡爬蟲中涉及的問題,以增強讀者的動手實踐能力。同時,本書還介紹了3種Java網絡爬蟲開源框架,即Crawler4j、WebCollector和WebMagic。本書適用于Java網絡爬蟲開發的初學者和進階者;也可作為網絡爬蟲課程教學的參考書,供高等院校文本挖掘、自然語言處理、大數據商務分析等相關學科的大學生和研究生參考使用;也可供企業網絡爬蟲開發人員參考使用。
網絡數據采集技術:JAVA網絡爬蟲實戰 內容簡介
本書以Java為開發語言,系統地介紹了網絡爬蟲的理論知識和基礎工具,包括網絡爬蟲涉及的Java基礎知識、HTTP協議基礎與網絡抓包、網頁內容獲取、網頁內容解析和網絡爬蟲數據存儲等。本書選取典型網站,采用案例講解的方式介紹網絡爬蟲中涉及的問題,以增強讀者的動手實踐能力。同時,本書還介紹了3種Java網絡爬蟲開源框架,即Crawler4j、WebCollector和WebMagic。本書適用于Java網絡爬蟲開發的初學者和進階者;也可作為網絡爬蟲課程教學的參考書,供高等院校文本挖掘、自然語言處理、大數據商務分析等相關學科的大學生和研究生參考使用;也可供企業網絡爬蟲開發人員參考使用。
網絡數據采集技術:JAVA網絡爬蟲實戰 目錄
第1 章 網絡爬蟲概述與原理 ............................................................................ 1
1.1 網絡爬蟲簡介 ............................................................................................. 1
1.2 網絡爬蟲分類 ............................................................................................. 2
1.3 網絡爬蟲流程 ............................................................................................. 4
1.4 網絡爬蟲的采集策略 ................................................................................. 5
1.5 學習網絡爬蟲的建議 ................................................................................. 5
1.6 本章小結 ..................................................................................................... 6
第2 章 網絡爬蟲涉及的Java 基礎知識 ........................................................... 7
2.1 開發環境的搭建 ......................................................................................... 7
2.1.1 JDK 的安裝及環境變量配置 .......................................................... 7
2.1.2 Eclipse 的下載 .................................................................................. 9
2.2 基本數據類型 ........................................................................................... 10
2.3 數組 ........................................................................................................... 11
2.4 條件判斷與循環 ....................................................................................... 12
2.5 集合 ........................................................................................................... 15
2.5.1 List 和Set 集合 .............................................................................. 15
2.5.2 Map 集合 ........................................................................................ 16
2.5.3 Queue 集合 ..................................................................................... 17
2.6 對象與類 ................................................................................................... 19
2.7 String 類 ..................................................................................................... 21
2.8 日期和時間處理 ....................................................................................... 23
2.9 正則表達式 ............................................................................................... 26
2.10 Maven 工程的創建 ................................................................................. 29
2.11 log4j 的使用 ............................................................................................ 33
2.12 本章小結 ................................................................................................. 40
第3 章 HTTP 協議基礎與網絡抓包 ............................................................... 41
3.1 HTTP 協議簡介 ........................................................................................ 41
3.2 URL ........................................................................................................... 42
3.3 報文 ........................................................................................................... 44
3.4 HTTP 請求方法 ........................................................................................ 46
3.5 HTTP 狀態碼 ............................................................................................ 46
3.5.1 狀態碼2XX .................................................................................... 47
3.5.2 狀態碼3XX .................................................................................... 47
3.5.3 狀態碼4XX .................................................................................... 48
3.5.4 狀態碼5XX .................................................................................... 48
3.6 HTTP 信息頭 ............................................................................................ 48
3.6.1 通用頭 ............................................................................................ 49
3.6.2 請求頭 ............................................................................................ 52
3.6.3 響應頭 ............................................................................................ 55
3.6.4 實體頭 ............................................................................................ 56
3.7 HTTP 響應正文 ........................................................................................ 57
3.7.1 HTML ............................................................................................. 58
3.7.2 XML ............................................................................................... 60
3.7.3 JSON ............................................................................................... 61
3.8 網絡抓包 ................................................................................................... 64
3.8.1 簡介 ................................................................................................ 64
3.8.2 使用情境 ........................................................................................ 65
3.8.3 瀏覽器實現網絡抓包 ..................................................................... 65
3.8.4 其他網絡抓包工具推薦 ................................................................. 70
3.9 本章小結 ................................................................................................... 70
第4 章 網頁內容獲取 .................................................................................... 71
4.1 Jsoup 的使用 ............................................................................................. 71
4.1.1 jar 包的下載 ................................................................................... 71
4.1.2 請求URL ....................................................................................... 72
4.1.3 設置頭信息 .................................................................................... 75
4.1.4 提交請求參數 ................................................................................ 78
4.1.5 超時設置 ........................................................................................ 80
4.1.6 代理服務器的使用 ......................................................................... 81
4.1.7 響應轉輸出流(圖片、PDF 等的下載)..................................... 83
4.1.8 HTTPS 請求認證 ........................................................................... 85
4.1.9 大文件內容獲取問題 ..................................................................... 89
4.2 HttpClient 的使用 ...................................................................................... 91
4.2.1 jar 包的下載 ................................................................................... 91
4.2.2 請求URL ....................................................................................... 92
4.2.3 EntityUtils 類 .................................................................................. 97
4.2.4 設置頭信息 .................................................................................... 98
4.2.5 POST 提交表單 ............................................................................ 100
4.2.6 超時設置 ...................................................................................... 103
4.2.7 代理服務器的使用 ....................................................................... 105
4.2.8 文件下載 ...................................................................................... 106
4.2.9 HTTPS 請求認證 ......................................................................... 108
4.2.10 請求重試 .................................................
網絡數據采集技術:JAVA網絡爬蟲實戰 作者簡介
錢洋合肥工業大學管理科學與工程系博士、CSDN博客專家。曾作為技術人員參與多個橫向、縱向學術課題,負責數據采集系統的設計與開發工作。曾在CSDN上撰寫多篇關于數據采集、自然語言處理、編程語言等領域的原創博客。姜元春合肥工業大學教授、博士生導師。長期從事電子商務、商務智能、數據采集與挖掘等方面的理論研究與教學工作。先后主持過國家自然科學基金優秀青年科學基金項目、國家自然科學基金重大研究計劃培育項目、國家自然科學基金青年科學基金項目、教育部人文社科青年基金項目、阿里巴巴青年學者支持計劃、CCF-騰訊犀牛鳥基金項目等課題的研究工作。
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
史學評論
- >
月亮與六便士
- >
小考拉的故事-套裝共3冊
- >
二體千字文
- >
上帝之肋:男人的真實旅程
- >
羅庸西南聯大授課錄
- >
龍榆生:詞曲概論/大家小書