中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
網絡爬蟲全解析技術.原理與實踐

包郵 網絡爬蟲全解析技術.原理與實踐

作者:羅剛
出版社:電子工業出版社出版時間:2017-03-01
開本: 32開 頁數: 429頁
中 圖 價:¥39.7(5.0折) 定價  ¥79.0 登錄后可看到會員價
暫時缺貨 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>
買過本商品的人還買了

網絡爬蟲全解析技術.原理與實踐 版權信息

網絡爬蟲全解析技術.原理與實踐 本書特色

本書介紹了如何開發網絡爬蟲。內容主要包括開發網絡爬蟲所需要的Java語法基礎和網絡爬蟲的工作原理,如何使用開源組件HttpClient和爬蟲框架Crawler4j抓取網頁信息,以及針對抓取到的文本進行有效信息的提取。為了擴展抓取能力,本書介紹了實現分布式網絡爬蟲的關鍵技術。另外,本書介紹了從圖像和語音等多媒體格式文件中提取文本信息,以及如何使用大數據技術存儲抓取到的信息。*后,以實戰為例,介紹了如何抓取微信和微博,以及在電商、醫藥、金融等領域的案例應用。其中,電商領域的應用介紹了使用網絡爬蟲抓取商品信息入庫到網上商店的數據庫表。醫藥領域的案例介紹了抓取PubMed醫藥論文庫。金融領域的案例介紹了抓取股票信息,以及從年報PDF文檔中提取表格等。本書適用于對開發信息采集軟件感興趣的自學者。也可以供有Java或程序設計基礎的開發人員參考。

網絡爬蟲全解析技術.原理與實踐 內容簡介

相比用Python寫網絡爬蟲,Java更有后發優勢
運行在服務器端的網絡爬蟲,更應該用Java開發
本書結合作者多年網絡爬蟲開發經驗
全面系統講解了網絡爬蟲相關技術并以Java實現
通俗易懂、代碼清晰、案例豐富實用
一本書全面掌握網絡爬蟲開發

網絡爬蟲全解析技術.原理與實踐 目錄

第1章 技術基礎 1
1.1 **個程序 1
1.2 準備開發環境 2
1.2.1 JDK 2
1.2.2 Eclipse 3
1.3 類和對象 4
1.4 常量 5
1.5 命名規范 6
1.6 基本語法 6
1.7 條件判斷 7
1.8 循環 8
1.9 數組 9
1.10 位運算 11
1.11 枚舉類型 13
1.12 比較器 14
1.13 方法 14
1.14 集合類 15
1.14.1 動態數組 15
1.14.2 散列表 15
1.15 文件 19
1.15.1 文本文件 19
1.15.2 二進制文件 23
1.16 多線程 27
1.16.1 基本的多線程 28
1.16.2 線程池 30
1.17 折半查找 31
1.18 處理圖片 34
1.19 本章小結 35
第2章 網絡爬蟲入門 36
2.1 獲取信息 36
2.1.1 提取鏈接 37
2.1.2 采集新聞 37
2.2 各種網絡爬蟲 38
2.2.1 信息采集器 40
2.2.2 廣度優先遍歷 41
2.2.3 分布式爬蟲 42
2.3 爬蟲相關協議 43
2.3.1 網站地圖 44
2.3.2 Robots協議 45
2.4 爬蟲架構 48
2.4.1 基本架構 48
2.4.2 分布式爬蟲架構 51
2.4.3 垂直爬蟲架構 54
2.5 自己寫網絡爬蟲 55
2.6 URL地址查新 57
2.6.1 嵌入式數據庫 58
2.6.2 布隆過濾器 60
2.6.3 實現布隆過濾器 61
2.7 部署爬蟲 63
2.7.1 部署到Windows 64
2.7.2 部署到Linux 64
2.8 本章小結 65
第3章 定向采集 69
3.1 下載網頁的基本方法 69
3.1.1 網卡 70
3.1.2 下載網頁 70
3.2 HTTP基礎 75
3.2.1 協議 75
3.2.2 URI 77
3.2.3 DNS 84
3.3 使用HttpClient下載網頁 84
3.3.1 HttpCore 94
3.3.2 狀態碼 98
3.3.3 創建 99
3.3.4 模擬瀏覽器 99
3.3.5 重試 100
3.3.6 抓取壓縮的網頁 102
3.3.7 HttpContext 104
3.3.8 下載中文網站 105
3.3.9 抓取需要登錄的網頁 106
3.3.10 代理 111
3.3.11 DNS緩存 112
3.3.12 并行下載 113
3.4 下載網絡資源 115
3.4.1 重定向 115
3.4.2 解決套接字連接限制 118
3.4.3 下載圖片 119
3.4.4 抓取視頻 122
3.4.5 抓取FTP 122
3.4.6 網頁更新 122
3.4.7 抓取限制應對方法 126
3.4.8 URL地址提取 131
3.4.9 解析URL地址 134
3.4.10 歸一化 135
3.4.11 增量采集 135
3.4.12 iframe 136
3.4.13 抓取JavaScript動態頁面 137
3.4.14 抓取即時信息 141
3.4.15 抓取暗網 141
3.5 PhantomJS 144
3.6 Selenium 145
3.7 信息過濾 146
3.7.1 匹配算法 147
3.7.2 分布式過濾 153
3.8 采集新聞 153
3.8.1 網頁過濾器 154
3.8.2 列表頁 159
3.8.3 用機器學習的方法抓取新聞 160
3.8.4 自動查找目錄頁 161
3.8.5 詳細頁 162
3.8.6 增量采集 164
3.8.7 處理圖片 164
3.9 遍歷信息 164
3.10 并行抓取 165
3.10.1 多線程爬蟲 165
3.10.2 垂直搜索的多線程爬蟲 168
3.10.3 異步IO 172
3.11 分布式爬蟲 176
3.11.1 JGroups 176
3.11.2 監控 179
3.12 增量抓取 180
3.13 管理界面 180
3.14 本章小結 181
第4章 數據存儲 182
4.1 存儲提取內容 182
4.1.1 SQLite 183
4.1.2 Access數據庫 185
4.1.3 MySQL 186
4.1.4 寫入維基 187
4.2 HBase 187
4.3 Web圖 189
4.4 本章小結 193
第5章 信息提取 194
5.1 從文本提取信息 194
5.2 從HTML文件中提取文本 195
5.2.1 字符集編碼 195
5.2.2 識別網頁的編碼 198
5.2.3 網頁編碼轉換為字符串編碼 201
5.2.4 使用正則表達式提取數據 202
5.2.5 結構化信息提取 206
5.2.6 表格 209
5.2.7 網頁的DOM結構 210
5.2.8 使用Jsoup提取信息 211
5.2.9 使用XPath提取信息 217
5.2.10 HTMLUnit提取數據 219
5.2.11 網頁結構相似度計算 220
5.2.12 提取標題 222
5.2.13 提取日期 224
5.2.14 提取模板 225
5.2.15 提取RDF信息 227
5.2.16 網頁解析器原理 227
5.3 RSS 229
5.3.1 Jsoup解析RSS 230
5.3.2 ROME 231
5.3.3 抓取流程 231
5.4 網頁去噪 233
5.4.1 NekoHTML 234
5.4.2 Jsoup 238
5.4.3 提取正文 240
5.5 從非HTML文件中提取文本 241
5.5.1 PDF文件 242
5.5.2 Word文件 245
5.5.3 Rtf文件 247
5.5.4 Excel文件 253
5.5.5 PowerPoint文件 254
5.6 提取標題 254
5.6.1 提取標題的一般方法 255
5.6.2 從PDF文件中提取標題 259
5.6.3 從Word文件中提取標題 261
5.6.4 從Rtf文件中提取標題 261
5.6.5 從Excel文件中提取標題 267
5.6.6 從PowerPoint文件中提取標題 270
5.7 圖像的OCR識別 270
5.7.1 讀入圖像 271
5.7.2 準備訓練集 272
5.7.3 圖像二值化 274
5.7.4 切分圖像 279
5.7.5 SVM分類 283
5.7.6 識別漢字 287
5.7.7 訓練OCR 289
5.7.8 檢測行 290
5.7.9 識別驗證碼 291
5.7.10 JavaOCR 292
5.8 提取地域信息 292
5.8.1 IP地址 293
5.8.2 手機 315
5.9 提取新聞 316
5.10 流媒體內容提取 317
5.10.1 音頻流內容提取 317
5.10.2 視頻流內容提取 321
5.11 內容糾錯 322
5.11.1 模糊匹配問題 325
5.11.2 英文拼寫檢查 331
5.11.3 中文拼寫檢查 333
5.12 術語 336
5.13 本章小結 336
第6章 Crawler4j 338
6.1 使用Crawler4j 338
6.1.1 大眾點評 339
6.1.2 日志 342
6.2 crawler4j原理 342
6.2.1 代碼分析 343
6.2.2 使用Berkeley DB 344
6.2.3 縮短URL地址 347
6.2.4 網頁編碼 349
6.2.5 并發 349
6.3 本章小結 352
第7章 網頁排重 353
7.1 語義指紋 354
7.2 SimHash 357
7.3 分布式文檔排重 367
7.4 本章小結 369
第8章 網頁分類 370
8.1 關鍵詞加權法 371
8.2 機器學習的分類方法 378
8.2.1 特征提取 380
8.2.2 樸素貝葉斯 384
8.2.3 支持向量機 393
8.2.4 多級分類 401
8.2.5 網頁分類 403
8.3 本章小結 403
第9章 案例分析 404
9.1 金融爬蟲 404
9.1.1 中國能源政策數據 404
9.1.2 世界原油現貨交易和期貨交易數據 405
9.1.3 股票數據 405
9.1.4 從PDF文件中提取表格 408
9.2 商品搜索 408
9.2.1 遍歷商品 410
9.2.2 使用HttpClient 415
9.2.3 提取價格 416
9.2.4 水印 419
9.2.5 數據導入ECShop 420
9.2.6 采集淘寶 423
9.3 自動化行業采集 424
9.4 社會化信息采集 424
9.5 微博爬蟲 424
9.6 微信爬蟲 426
9.7 海關數據 426
9.8 醫藥數據 427
9.9 本章小結 429
后記 430
展開全部

網絡爬蟲全解析技術.原理與實踐 作者簡介

羅剛,獵兔搜索創始人,帶領獵兔搜索技術開發團隊先后開發出獵兔中文分詞系統、獵兔信息提取系統、獵兔智能垂直搜索系統以及網絡信息監測系統等,實現互聯網信息的采集、過濾、搜索和實時監測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》,獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 涿州网站建设_网站设计_网站制作_做网站_固安良言多米网络公司 | 木材烘干机,木炭烘干机,纸管/佛香烘干设备-河南蓝天机械制造有限公司 | 衬塑管道_衬四氟管道厂家-淄博恒固化工设备有限公司 | 欧景装饰设计工程有限公司-无锡欧景装饰官网 | 合肥通道闸-安徽车牌识别-人脸识别系统厂家-安徽熵控智能技术有限公司 | 模温机-油温机-电加热导热油炉-工业冷水机「欧诺智能」 | 非标压力容器_碳钢储罐_不锈钢_搪玻璃反应釜厂家-山东首丰智能环保装备有限公司 | 铝镁锰板厂家_进口钛锌板_铝镁锰波浪板_铝镁锰墙面板_铝镁锰屋面-杭州军晟金属建筑材料 | 华夏医界网_民营医疗产业信息平台_民营医院营销管理培训 | 定做大型恒温循环水浴槽-工业用不锈钢恒温水箱-大容量低温恒温水槽-常州精达仪器 | 合肥防火门窗/隔断_合肥防火卷帘门厂家_安徽耐火窗_良万消防设备有限公司 | 选宝石船-陆地水上开采「精选」色选机械设备-青州冠诚重工机械有限公司 | ph计,实验室ph计,台式ph计,实验室酸度计,台式酸度计 | 厂房出租_厂房出售_产业园区招商_工业地产 - 中工招商网 | 标准光源箱|对色灯箱|色差仪|光泽度仪|涂层测厚仪_HRC大品牌生产厂家 | 耙式干燥机_真空耙式干燥机厂家-无锡鹏茂化工装备有限公司 | 特种电缆厂家-硅橡胶耐高温电缆-耐低温补偿导线-安徽万邦特种电缆有限公司 | 郑州爱婴幼师学校_专业幼师培训_托育师培训_幼儿教育培训学校 | 雾度仪_雾度计_透光率雾度仪价格-三恩时(3nh)光电雾度仪厂家 | 气力输送_输送机械_自动化配料系统_负压吸送_制造主力军江苏高达智能装备有限公司! | 超声波清洗机-超声波清洗设备定制生产厂家 - 深圳市冠博科技实业有限公司 | 磁力反应釜,高压釜,实验室反应釜,高温高压反应釜-威海自控反应釜有限公司 | 留学生辅导网-在线课程论文辅导-留学生挂科申诉机构 | 仪器仪表网 - 永久免费的b2b电子商务平台| 代办建筑资质升级-建筑资质延期就找上海国信启航 | 高扬程排污泵_隔膜泵_磁力泵_节能自吸离心水泵厂家-【上海博洋】 | 喷砂机厂家_自动喷砂机生产_新瑞自动化喷砂除锈设备 | 东莞画册设计_logo/vi设计_品牌包装设计 - 华略品牌设计公司 | KBX-220倾斜开关|KBW-220P/L跑偏开关|拉绳开关|DHJY-I隔爆打滑开关|溜槽堵塞开关|欠速开关|声光报警器-山东卓信有限公司 | 工程管道/塑料管材/pvc排水管/ppr给水管/pe双壁波纹管等品牌管材批发厂家-河南洁尔康建材 | DNA亲子鉴定_DNA基因检测中心官方预约平台-严选好基因网 | 钢制拖链生产厂家-全封闭钢制拖链-能源钢铝拖链-工程塑料拖链-河北汉洋机械制造有限公司 | 云南成考网_云南成人高考报名网| 欧美日韩国产一区二区三区不_久久久久国产精品无码不卡_亚洲欧洲美洲无码精品AV_精品一区美女视频_日韩黄色性爱一级视频_日本五十路人妻斩_国产99视频免费精品是看4_亚洲中文字幕无码一二三四区_国产小萍萍挤奶喷奶水_亚洲另类精品无码在线一区 | 科箭WMS仓库管理软件-TMS物流管理系统-科箭SaaS云服务 | 旋振筛|圆形摇摆筛|直线振动筛|滚筒筛|压榨机|河南天众机械设备有限公司 | 广州番禺搬家公司_天河黄埔搬家公司_企业工厂搬迁_日式搬家_广州搬家公司_厚道搬迁搬家公司 | CNC机加工-数控加工-精密零件加工-ISO认证厂家-鑫创盟 | 挤塑板-XPS挤塑板-挤塑板设备厂家[襄阳欧格] | 湖南自考_湖南自学考试网 | 振动传感器,检波器-威海广达勘探仪器有限公司 |