中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
自己動手寫網絡爬蟲-(修訂版)

包郵 自己動手寫網絡爬蟲-(修訂版)

作者:羅剛羅剛
出版社:清華大學出版社出版時間:2016-09-01
開本: 32開 頁數: 352
中 圖 價:¥32.8(6.7折) 定價  ¥49.0 登錄后可看到會員價
暫時缺貨 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>
買過本商品的人還買了

自己動手寫網絡爬蟲-(修訂版) 版權信息

自己動手寫網絡爬蟲-(修訂版) 本書特色

本書介紹了網絡爬蟲開發中的關鍵問題與java實現。主要包括從互聯網獲取信息與提取信息和對web信息挖掘等內容。本書在介紹基本原理的同時注重輔以具體代碼實現來幫助讀者加深理解,書中部分代碼甚至可以直接使用。 本書適用于有java程序設計基礎的開發人員。同時也可以作為計算機相關專業本科生或研究生的參考教程。

自己動手寫網絡爬蟲-(修訂版) 內容簡介

大多數網絡爬蟲的開發原理與技巧在專業的公司內部都秘而不宣,至今仍然缺少理論與實踐相結合的專門介紹網絡爬蟲的書籍。本書嘗試理論與實踐相結合,深入透徹地講解網絡爬蟲的原理并且輔以相關代碼作為參考。  

自己動手寫網絡爬蟲-(修訂版) 目錄

第1篇  自己動手抓取數據 第1章  全面剖析網絡爬蟲 3 1.1  抓取網頁 4 1.1.1  深入理解url 4 1.1.2  通過指定的url抓取 網頁內容 6 1.1.3  java網頁抓取示例 8 1.1.4  處理http狀態碼 10 1.2  寬度優先爬蟲和帶偏好的爬蟲 12 1.2.1  圖的寬度優先遍歷 12 1.2.2  寬度優先遍歷互聯網 13 1.2.3  java寬度優先爬蟲示例 15 1.2.4  帶偏好的爬蟲 22 1.2.5  java帶偏好的爬蟲示例 23 1.3  設計爬蟲隊列 24 1.3.1  爬蟲隊列 24 1.3.2  使用berkeley db構建爬蟲 隊列 29 1.3.3  使用berkeley db 構建爬蟲 隊列示例 30 1.3.4  使用布隆過濾器構建 visited表 36 1.3.5  詳解heritrix爬蟲隊列 39 1.4  設計爬蟲架構 46 1.4.1  爬蟲架構 46 1.4.2  設計并行爬蟲架構 47 1.4.3  詳解heritrix爬蟲架構 52 1.5  使用多線程技術提升爬蟲性能 55 1.5.1  詳解java多線程 55 1.5.2  爬蟲中的多線程 59 1.5.3  一個簡單的多線程爬蟲實現 60 1.5.4  詳解heritrix多線程結構 61 本章小結 64 第2章  分布式爬蟲 69 2.1  設計分布式爬蟲 70 2.1.1  分布式與云計算 70 2.1.2  分布式與云計算技術在 爬蟲中的應用--淺析 google的云計算架構 72 2.2  分布式存儲 72 2.2.1  從ralation_db到key/value 存儲 72 2.2.2  consistent hash算法 74 2.2.3  consistent hash代碼實現 79 2.3  google的成功之道--gfs 80 2.3.1  gfs詳解 80 2.3.2  開源gfs--hdfs 84 2.4  google網頁存儲秘訣--bigtable 88 2.4.1  詳解bigtable 88 2.4.2  開源bigtable-hbase 93 2.5  google的成功之道-- mapreduce算法 98 2.5.1  詳解mapreduce算法 100 2.5.2  mapreduce容錯處理 101 2.5.3  mapreduce實現架構 102 2.5.4  hadoop中的mapreduce 簡介 104 2.5.5  wordcount例子的實現 105 2.6  nutch中的分布式 109 2.6.1  nutch爬蟲詳解 109 2.6.2  nutch中的分布式 116 本章小結 118 第3章  爬蟲的"方方面面" 121 3.1  爬蟲中的"黑洞" 122 3.2  主題爬蟲和限定爬蟲 122 3.2.1  理解主題爬蟲 122 3.2.2  java主題爬蟲 128 3.2.3  理解限定爬蟲 130 3.2.4  java限定爬蟲示例 136 3.3  有"道德"的爬蟲 152 本章小結 156 第2篇  自己動手抽取web內容 第4章  "處理"html頁面 159 4.1  征服正則表達式 160 4.1.1  學習正則表達式 160 4.1.2  java正則表達式 163 4.2  抽取html正文 169 4.2.1  了解jsoup 169 4.2.2  使用正則表達式抽取示例 173 4.3  抽取正文 177 4.4  從javascript中抽取信息 193 4.4.1  javascript抽取方法 193 4.4.2  javascript抽取示例 195 本章小結 197 第5章  非html正文抽取 199 5.1  抽取pdf文件 200 5.1.1  學習pdfbox 200 5.1.2  使用pdfbox抽取示例 204 5.1.3  提取pdf文件標題 205 5.1.4  處理pdf格式的公文 206 5.2  抽取office文檔 211 5.2.1  學習poi 211 5.2.2  使用poi抽取word示例 211 5.2.3  使用poi抽取ppt 示例 213 5.2.4  使用poi抽取excel示例 214 5.3  抽取rtf 217 5.3.1  開源rtf文件解析器 217 5.3.2  實現一個rtf文件解析器 217 5.3.3  解析rtf示例 222 本章小結 227 第6章  多媒體抽取 229 6.1  視頻抽取 230 6.1.1  抽取視頻關鍵幀 230 6.1.2  java視頻處理框架 231 6.1.3  java視頻抽取示例 235 6.2  音頻抽取 247 6.2.1  抽取音頻 248 6.2.2  java音頻抽取技術 252 本章小結 254 第7章  去掉網頁中的"噪聲" 255 7.1  "噪聲"對網頁的影響 256 7.2  利用"統計學"消除"噪聲" 257 7.2.1  網站風格樹 260 7.2.2 "統計學去噪"的 java實現 268 7.3  利用"視覺"消除"噪聲" 272 7.3.1  "視覺"與"噪聲" 272 7.3.2  "視覺去噪"的java實現 273 本章小結 277 第3篇  自己動手挖掘web數據 第8章  分析web圖 281 8.1  存儲web"圖" 282 8.2  利用web"圖"分析鏈接 291 8.3  google的秘密--pagerank 291 8.3.1  深入理解pagerank算法 291 8.3.2  pagerank算法的java實現 295 8.3.3  應用pagerank進行鏈接 分析 298 8.4  pagerank 的兄弟hits 299 8.4.1  深入理解hits算法 299 8.4.2  hits算法的java實現 300 8.4.3  應用hits進行鏈接分析 311 8.5  pagerank與hits比較 312 本章小結 313 第9章  去掉"重復"的文檔 315 9.1  何為"重復"的文檔 316 9.2  利用"語義指紋"排重 316 9.2.1  理解"語義指紋" 318 9.2.2  "語義指紋"排重的 java實現 319 9.3  simhash排重 319 9.3.1  理解simhash 320 9.3.2  simhash排重的java實現 321 9.4  分布式文檔排重 328 本章小結 329 第10章  分類與聚類的應用 331 10.1  網頁分類 332 10.1.1  收集語料庫 332 10.1.2  選取網頁的"特征" 333 10.1.3  使用支持向量機進行 網頁分類 336 10.1.4  利用url地址進行 網頁分類 338 10.1.5  使用adaboost進行 網頁分類 338 10.2  網頁聚類 341 10.2.1  深入理解dbscan算法 341 10.2.2  使用dbscan算法聚類  實例 342 本章小結 344
展開全部

自己動手寫網絡爬蟲-(修訂版) 作者簡介

羅剛,計算機軟件碩士,畢業于吉林工業大學。2005年創立北京盈智星科技發展有限公司,2008年聯合創立上海數聚軟件公司。獵兔搜索創始人,當前獵兔搜索在北京、上海以及石家莊均設有研發部。他帶領獵兔搜索技術開發團隊先后開發出獵兔中文分詞系統、獵兔文本挖掘系統,智能垂直搜索系統以及網絡信息監測系統等,實現互聯網信息的采集、過濾、搜索和實時監測,其開發的搜索軟件日用戶訪問量萬次以上。

商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 牛奶检测仪-乳成分分析仪-北京海谊 | 磁力链接搜索神器_BT磁力狗_CILIMAO磁力猫_高效磁力搜索引擎2024 | 澳威全屋定制官网|极简衣柜十大品牌|衣柜加盟代理|全屋定制招商 百度爱采购运营研究社社群-店铺托管-爱采购代运营-良言多米网络公司 | 航空障碍灯_高中低光强航空障碍灯_民航许可认证航空警示灯厂家-东莞市天翔航天科技有限公司 | 冲锋衣滑雪服厂家-冲锋衣定制工厂-滑雪服加工厂-广东睿牛户外(S-GERT) | 识禅_对禅的了解,从这里开始| 双菱电缆-广州电缆厂_广州电缆厂有限公司 | 进口试验机价格-进口生物材料试验机-西安卡夫曼测控技术有限公司 | 高速混合机_锂电混合机_VC高效混合机-无锡鑫海干燥粉体设备有限公司 | 机房监控|动环监控|动力环境监控系统方案产品定制厂家 - 迈世OMARA | 网带通过式抛丸机,,网带式打砂机,吊钩式,抛丸机,中山抛丸机生产厂家,江门抛丸机,佛山吊钩式,东莞抛丸机,中山市泰达自动化设备有限公司 | 留学生辅导网-在线课程论文辅导-留学生挂科申诉机构 | 吹田功率计-长创耐压测试仪-深圳市新朗普电子科技有限公司 | 德国EA可编程直流电源_电子负载,中国台湾固纬直流电源_交流电源-苏州展文电子科技有限公司 | 胜为光纤光缆_光纤跳线_单模尾纤_光纤收发器_ODF光纤配线架厂家直销_北京睿创胜为科技有限公司 - 北京睿创胜为科技有限公司 | 振动时效_振动时效仪_超声波冲击设备-济南驰奥机电设备有限公司 北京宣传片拍摄_产品宣传片拍摄_宣传片制作公司-现像传媒 | 空压机商城|空气压缩机|空压机配件-压缩机网旗下商城 | 翅片管散热器价格_钢制暖气片报价_钢制板式散热器厂家「河北冀春暖气片有限公司」 | 冰晶石|碱性嫩黄闪蒸干燥机-有机垃圾烘干设备-草酸钙盘式干燥机-常州市宝康干燥 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | Trimos测长机_测高仪_TESA_mahr,WYLER水平仪,PWB对刀仪-德瑞华测量技术(苏州)有限公司 | 清水混凝土修复_混凝土色差修复剂_混凝土色差调整剂_清水混凝土色差修复_河南天工 | 青岛代理记账_青岛李沧代理记账公司_青岛崂山代理记账一个月多少钱_青岛德辉财税事务所官网 | 加热制冷恒温循环器-加热制冷循环油浴-杭州庚雨仪器有限公司 | 示波器高压差分探头-国产电流探头厂家-南京桑润斯电子科技有限公司 | 小威小说网 - 新小威小说网 - 小威小说网小说搜索引擎 | 酒精检测棒,数显温湿度计,酒安酒精测试仪,酒精检测仪,呼气式酒精检测仪-郑州欧诺仪器有限公司 | 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机,东莞喷码机 UV喷码机,日期喷码机,鸡蛋喷码机,管芯喷码机,管内壁喷码机,喷码机厂家 | 上海新光明泵业制造有限公司-电动隔膜泵,气动隔膜泵,卧式|立式离心泵厂家 | 办公室装修_上海办公室设计装修_时尚办公新主张-后街印象 | 高效复合碳源-多核碳源生产厂家-污水处理反硝化菌种一长隆科技库巴鲁 | 微信聊天记录恢复_手机短信删除怎么恢复_通讯录恢复软件下载-快易数据恢复 | 沈阳建筑设计公司_加固改造设计_厂房设计_设计资质加盟【金辉设计】 | 沧州友城管业有限公司-内外涂塑钢管-大口径螺旋钢管-涂塑螺旋管-保温钢管生产厂家 | 无锡网站建设-做网站-建网站-网页设计制作-阿凡达建站公司 | DWS物流设备_扫码称重量方一体机_快递包裹分拣机_广东高臻智能装备有限公司 | Eiafans.com_环评爱好者 环评网|环评论坛|环评报告公示网|竣工环保验收公示网|环保验收报告公示网|环保自主验收公示|环评公示网|环保公示网|注册环评工程师|环境影响评价|环评师|规划环评|环评报告|环评考试网|环评论坛 - Powered by Discuz! | 美名宝起名网-在线宝宝、公司、起名平台| 阴离子_阳离子聚丙烯酰胺厂家_聚合氯化铝价格_水处理絮凝剂_巩义市江源净水材料有限公司 | 真空干燥烘箱_鼓风干燥箱 _高低温恒温恒湿试验箱_光照二氧化碳恒温培养箱-上海航佩仪器 | 切铝机-数控切割机-型材切割机-铝型材切割机-【昆山邓氏精密机械有限公司】 |