中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
網絡數據采集技術:JAVA網絡爬蟲實戰

包郵 網絡數據采集技術:JAVA網絡爬蟲實戰

作者:錢洋
出版社:電子工業出版社出版時間:2019-11-01
開本: 其他 頁數: 380
中 圖 價:¥44.4(5.6折) 定價  ¥79.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

網絡數據采集技術:JAVA網絡爬蟲實戰 版權信息

網絡數據采集技術:JAVA網絡爬蟲實戰 本書特色

本書以Java為開發語言,系統地介紹了網絡爬蟲的理論知識和基礎工具,包括網絡爬蟲涉及的Java基礎知識、HTTP協議基礎與網絡抓包、網頁內容獲取、網頁內容解析和網絡爬蟲數據存儲等。本書選取典型網站,采用案例講解的方式介紹網絡爬蟲中涉及的問題,以增強讀者的動手實踐能力。同時,本書還介紹了3種Java網絡爬蟲開源框架,即Crawler4j、WebCollector和WebMagic。本書適用于Java網絡爬蟲開發的初學者和進階者;也可作為網絡爬蟲課程教學的參考書,供高等院校文本挖掘、自然語言處理、大數據商務分析等相關學科的大學生和研究生參考使用;也可供企業網絡爬蟲開發人員參考使用。

網絡數據采集技術:JAVA網絡爬蟲實戰 內容簡介

本書以Java為開發語言,系統地介紹了網絡爬蟲的理論知識和基礎工具,包括網絡爬蟲涉及的Java基礎知識、HTTP協議基礎與網絡抓包、網頁內容獲取、網頁內容解析和網絡爬蟲數據存儲等。本書選取典型網站,采用案例講解的方式介紹網絡爬蟲中涉及的問題,以增強讀者的動手實踐能力。同時,本書還介紹了3種Java網絡爬蟲開源框架,即Crawler4j、WebCollector和WebMagic。本書適用于Java網絡爬蟲開發的初學者和進階者;也可作為網絡爬蟲課程教學的參考書,供高等院校文本挖掘、自然語言處理、大數據商務分析等相關學科的大學生和研究生參考使用;也可供企業網絡爬蟲開發人員參考使用。

網絡數據采集技術:JAVA網絡爬蟲實戰 目錄

目錄
第1 章 網絡爬蟲概述與原理 ............................................................................ 1
1.1 網絡爬蟲簡介 ............................................................................................. 1
1.2 網絡爬蟲分類 ............................................................................................. 2
1.3 網絡爬蟲流程 ............................................................................................. 4
1.4 網絡爬蟲的采集策略 ................................................................................. 5
1.5 學習網絡爬蟲的建議 ................................................................................. 5
1.6 本章小結 ..................................................................................................... 6
第2 章 網絡爬蟲涉及的Java 基礎知識 ........................................................... 7
2.1 開發環境的搭建 ......................................................................................... 7
2.1.1 JDK 的安裝及環境變量配置 .......................................................... 7
2.1.2 Eclipse 的下載 .................................................................................. 9
2.2 基本數據類型 ........................................................................................... 10
2.3 數組 ........................................................................................................... 11
2.4 條件判斷與循環 ....................................................................................... 12
2.5 集合 ........................................................................................................... 15
2.5.1 List 和Set 集合 .............................................................................. 15
2.5.2 Map 集合 ........................................................................................ 16
2.5.3 Queue 集合 ..................................................................................... 17
2.6 對象與類 ................................................................................................... 19
2.7 String 類 ..................................................................................................... 21
2.8 日期和時間處理 ....................................................................................... 23
2.9 正則表達式 ............................................................................................... 26
2.10 Maven 工程的創建 ................................................................................. 29
2.11 log4j 的使用 ............................................................................................ 33
2.12 本章小結 ................................................................................................. 40
第3 章 HTTP 協議基礎與網絡抓包 ............................................................... 41
3.1 HTTP 協議簡介 ........................................................................................ 41
3.2 URL ........................................................................................................... 42
3.3 報文 ........................................................................................................... 44
3.4 HTTP 請求方法 ........................................................................................ 46
3.5 HTTP 狀態碼 ............................................................................................ 46
3.5.1 狀態碼2XX .................................................................................... 47
3.5.2 狀態碼3XX .................................................................................... 47
3.5.3 狀態碼4XX .................................................................................... 48
3.5.4 狀態碼5XX .................................................................................... 48
3.6 HTTP 信息頭 ............................................................................................ 48
3.6.1 通用頭 ............................................................................................ 49
3.6.2 請求頭 ............................................................................................ 52
3.6.3 響應頭 ............................................................................................ 55
3.6.4 實體頭 ............................................................................................ 56
3.7 HTTP 響應正文 ........................................................................................ 57
3.7.1 HTML ............................................................................................. 58
3.7.2 XML ............................................................................................... 60
3.7.3 JSON ............................................................................................... 61
3.8 網絡抓包 ................................................................................................... 64
3.8.1 簡介 ................................................................................................ 64
3.8.2 使用情境 ........................................................................................ 65
3.8.3 瀏覽器實現網絡抓包 ..................................................................... 65
3.8.4 其他網絡抓包工具推薦 ................................................................. 70
3.9 本章小結 ................................................................................................... 70
第4 章 網頁內容獲取 .................................................................................... 71
4.1 Jsoup 的使用 ............................................................................................. 71
4.1.1 jar 包的下載 ................................................................................... 71
4.1.2 請求URL ....................................................................................... 72
4.1.3 設置頭信息 .................................................................................... 75
4.1.4 提交請求參數 ................................................................................ 78
4.1.5 超時設置 ........................................................................................ 80
4.1.6 代理服務器的使用 ......................................................................... 81
4.1.7 響應轉輸出流(圖片、PDF 等的下載)..................................... 83
4.1.8 HTTPS 請求認證 ........................................................................... 85
4.1.9 大文件內容獲取問題 ..................................................................... 89
4.2 HttpClient 的使用 ...................................................................................... 91
4.2.1 jar 包的下載 ................................................................................... 91
4.2.2 請求URL ....................................................................................... 92
4.2.3 EntityUtils 類 .................................................................................. 97
4.2.4 設置頭信息 .................................................................................... 98
4.2.5 POST 提交表單 ............................................................................ 100
4.2.6 超時設置 ...................................................................................... 103
4.2.7 代理服務器的使用 ....................................................................... 105
4.2.8 文件下載 ...................................................................................... 106
4.2.9 HTTPS 請求認證 ......................................................................... 108
4.2.10 請求重試 .................................................
展開全部

網絡數據采集技術:JAVA網絡爬蟲實戰 作者簡介

錢洋合肥工業大學管理科學與工程系博士、CSDN博客專家。曾作為技術人員參與多個橫向、縱向學術課題,負責數據采集系統的設計與開發工作。曾在CSDN上撰寫多篇關于數據采集、自然語言處理、編程語言等領域的原創博客。姜元春合肥工業大學教授、博士生導師。長期從事電子商務、商務智能、數據采集與挖掘等方面的理論研究與教學工作。先后主持過國家自然科學基金優秀青年科學基金項目、國家自然科學基金重大研究計劃培育項目、國家自然科學基金青年科學基金項目、教育部人文社科青年基金項目、阿里巴巴青年學者支持計劃、CCF-騰訊犀牛鳥基金項目等課題的研究工作。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 耐酸泵,耐腐蚀真空泵,耐酸真空泵-淄博华舜耐腐蚀真空泵有限公司 精密模具-双色注塑模具加工-深圳铭洋宇通 | 橡胶电子拉力机-塑料-微电脑电子拉力试验机厂家-江苏天源 | 釜溪印象网络 - Powered by Discuz!| 风化石头制砂机_方解石制砂机_瓷砖石子制砂机_华盛铭厂家 | 单机除尘器 骨架-脉冲除尘器设备生产厂家-润天环保设备 | 辐射色度计-字符亮度测试-反射式膜厚仪-苏州瑞格谱光电科技有限公司 | 爆破器材运输车|烟花爆竹运输车|1-9类危险品厢式运输车|湖北江南专用特种汽车有限公司 | 企典软件一站式企业管理平台,可私有、本地化部署!在线CRM客户关系管理系统|移动办公OA管理系统|HR人事管理系统|人力 | 上海乾拓贸易有限公司-日本SMC电磁阀_德国FESTO电磁阀_德国FESTO气缸 | 茅茅虫AI论文写作助手-免费AIGC论文查重_写毕业论文降重 | 领先的大模型技术与应用公司-中关村科金 | 山楂片_雪花_迷你山楂片_山楂条饼厂家-青州市丰源食品厂 | 斗式提升机_链式斗提机_带式斗提机厂家无锡市鸿诚输送机械有限公司 | 旋转/数显粘度计-运动粘度测定仪-上海平轩科学仪器 | 全温度恒温培养摇床-大容量-立式-远红外二氧化碳培养箱|南荣百科 | 滚塑PE壳体-PE塑料浮球-警示PE浮筒-宁波君益塑业有限公司 | 冷水机,风冷冷水机,水冷冷水机,螺杆冷水机专业制造商-上海祝松机械有限公司 | 工业PH计|工业ph酸度计|在线PH计价格-合肥卓尔仪器仪表有限公司 济南画室培训-美术高考培训-山东艺霖艺术培训画室 | 菏泽商标注册_菏泽版权登记_商标申请代理_菏泽商标注册去哪里 | 钢衬玻璃厂家,钢衬玻璃管道 -山东东兴扬防腐设备有限公司 | 变色龙PPT-国内原创PPT模板交易平台 - PPT贰零 - 西安聚讯网络科技有限公司 | 钢结构-钢结构厂房-钢结构工程[江苏海逵钢构厂] | 光谱仪_积分球_分布光度计_灯具检测生产厂家_杭州松朗光电【官网】 | 钢格板|镀锌钢格板|热镀锌钢格板|格栅板|钢格板|钢格栅板|热浸锌钢格板|平台钢格板|镀锌钢格栅板|热镀锌钢格栅板|平台钢格栅板|不锈钢钢格栅板 - 专业钢格板厂家 | 镀锌钢格栅_热镀锌格栅板_钢格栅板_热镀锌钢格板-安平县昊泽丝网制品有限公司 | 庭院灯_太阳能景观灯_草坪灯厂家_仿古壁灯-重庆恒投科技 | 硅胶管挤出机厂家_硅胶挤出机生产线_硅胶条挤出机_臣泽智能装备 贵州科比特-防雷公司厂家提供贵州防雷工程,防雷检测,防雷接地,防雷设备价格,防雷产品报价服务-贵州防雷检测公司 | 上海logo设计| 房间温控器|LonWorks|海思 | 破碎机_上海破碎机_破碎机设备_破碎机厂家-上海山卓重工机械有限公司 | 施工电梯_齿条货梯_烟囱电梯_物料提升机-河南大诚机械制造有限公司 | 煤棒机_增碳剂颗粒机_活性炭颗粒机_木炭粉成型机-巩义市老城振华机械厂 | 橡胶接头|可曲挠橡胶接头|橡胶软接头安装使用教程-上海松夏官方网站 | HDPE土工膜,复合土工膜,防渗膜价格,土工膜厂家-山东新路通工程材料有限公司 | 对夹式止回阀_对夹式蝶形止回阀_对夹式软密封止回阀_超薄型止回阀_不锈钢底阀-温州上炬阀门科技有限公司 | 散热器-电子散热器-型材散热器-电源散热片-镇江新区宏图电子散热片厂家 | 武汉天安盾电子设备有限公司 - 安盾安检,武汉安检门,武汉安检机,武汉金属探测器,武汉测温安检门,武汉X光行李安检机,武汉防爆罐,武汉车底安全检查,武汉液体探测仪,武汉安检防爆设备 | 机床导轨_导轨板_滚轮导轨-上海旻佑精密机械有限公司 | 船用烟火信号弹-CCS防汛救生圈-船用救生抛绳器(海威救生设备) | 昆明网络公司|云南网络公司|昆明网站建设公司|昆明网页设计|云南网站制作|新媒体运营公司|APP开发|小程序研发|尽在昆明奥远科技有限公司 | 自动部分收集器,进口无油隔膜真空泵,SPME固相微萃取头-上海楚定分析仪器有限公司 |