自己動手寫網絡爬蟲-(修訂版) 版權信息
- ISBN:9787302442646
- 條形碼:9787302442646 ; 978-7-302-44264-6
- 裝幀:暫無
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
自己動手寫網絡爬蟲-(修訂版) 本書特色
本書介紹了網絡爬蟲開發中的關鍵問題與java實現。主要包括從互聯網獲取信息與提取信息和對web信息挖掘等內容。本書在介紹基本原理的同時注重輔以具體代碼實現來幫助讀者加深理解,書中部分代碼甚至可以直接使用。
本書適用于有java程序設計基礎的開發人員。同時也可以作為計算機相關專業本科生或研究生的參考教程。
自己動手寫網絡爬蟲-(修訂版) 內容簡介
大多數網絡爬蟲的開發原理與技巧在專業的公司內部都秘而不宣,至今仍然缺少理論與實踐相結合的專門介紹網絡爬蟲的書籍。本書嘗試理論與實踐相結合,深入透徹地講解網絡爬蟲的原理并且輔以相關代碼作為參考。
自己動手寫網絡爬蟲-(修訂版) 目錄
第1篇 自己動手抓取數據 第1章 全面剖析網絡爬蟲 3 1.1 抓取網頁 4 1.1.1 深入理解url 4 1.1.2 通過指定的url抓取 網頁內容 6 1.1.3 java網頁抓取示例 8 1.1.4 處理http狀態碼 10 1.2 寬度優先爬蟲和帶偏好的爬蟲 12 1.2.1 圖的寬度優先遍歷 12 1.2.2 寬度優先遍歷互聯網 13 1.2.3 java寬度優先爬蟲示例 15 1.2.4 帶偏好的爬蟲 22 1.2.5 java帶偏好的爬蟲示例 23 1.3 設計爬蟲隊列 24 1.3.1 爬蟲隊列 24 1.3.2 使用berkeley db構建爬蟲 隊列 29 1.3.3 使用berkeley db 構建爬蟲 隊列示例 30 1.3.4 使用布隆過濾器構建 visited表 36 1.3.5 詳解heritrix爬蟲隊列 39 1.4 設計爬蟲架構 46 1.4.1 爬蟲架構 46 1.4.2 設計并行爬蟲架構 47 1.4.3 詳解heritrix爬蟲架構 52 1.5 使用多線程技術提升爬蟲性能 55 1.5.1 詳解java多線程 55 1.5.2 爬蟲中的多線程 59 1.5.3 一個簡單的多線程爬蟲實現 60 1.5.4 詳解heritrix多線程結構 61 本章小結 64 第2章 分布式爬蟲 69 2.1 設計分布式爬蟲 70 2.1.1 分布式與云計算 70 2.1.2 分布式與云計算技術在 爬蟲中的應用--淺析 google的云計算架構 72 2.2 分布式存儲 72 2.2.1 從ralation_db到key/value 存儲 72 2.2.2 consistent hash算法 74 2.2.3 consistent hash代碼實現 79 2.3 google的成功之道--gfs 80 2.3.1 gfs詳解 80 2.3.2 開源gfs--hdfs 84 2.4 google網頁存儲秘訣--bigtable 88 2.4.1 詳解bigtable 88 2.4.2 開源bigtable-hbase 93 2.5 google的成功之道-- mapreduce算法 98 2.5.1 詳解mapreduce算法 100 2.5.2 mapreduce容錯處理 101 2.5.3 mapreduce實現架構 102 2.5.4 hadoop中的mapreduce 簡介 104 2.5.5 wordcount例子的實現 105 2.6 nutch中的分布式 109 2.6.1 nutch爬蟲詳解 109 2.6.2 nutch中的分布式 116 本章小結 118 第3章 爬蟲的"方方面面" 121 3.1 爬蟲中的"黑洞" 122 3.2 主題爬蟲和限定爬蟲 122 3.2.1 理解主題爬蟲 122 3.2.2 java主題爬蟲 128 3.2.3 理解限定爬蟲 130 3.2.4 java限定爬蟲示例 136 3.3 有"道德"的爬蟲 152 本章小結 156 第2篇 自己動手抽取web內容 第4章 "處理"html頁面 159 4.1 征服正則表達式 160 4.1.1 學習正則表達式 160 4.1.2 java正則表達式 163 4.2 抽取html正文 169 4.2.1 了解jsoup 169 4.2.2 使用正則表達式抽取示例 173 4.3 抽取正文 177 4.4 從javascript中抽取信息 193 4.4.1 javascript抽取方法 193 4.4.2 javascript抽取示例 195 本章小結 197 第5章 非html正文抽取 199 5.1 抽取pdf文件 200 5.1.1 學習pdfbox 200 5.1.2 使用pdfbox抽取示例 204 5.1.3 提取pdf文件標題 205 5.1.4 處理pdf格式的公文 206 5.2 抽取office文檔 211 5.2.1 學習poi 211 5.2.2 使用poi抽取word示例 211 5.2.3 使用poi抽取ppt 示例 213 5.2.4 使用poi抽取excel示例 214 5.3 抽取rtf 217 5.3.1 開源rtf文件解析器 217 5.3.2 實現一個rtf文件解析器 217 5.3.3 解析rtf示例 222 本章小結 227 第6章 多媒體抽取 229 6.1 視頻抽取 230 6.1.1 抽取視頻關鍵幀 230 6.1.2 java視頻處理框架 231 6.1.3 java視頻抽取示例 235 6.2 音頻抽取 247 6.2.1 抽取音頻 248 6.2.2 java音頻抽取技術 252 本章小結 254 第7章 去掉網頁中的"噪聲" 255 7.1 "噪聲"對網頁的影響 256 7.2 利用"統計學"消除"噪聲" 257 7.2.1 網站風格樹 260 7.2.2 "統計學去噪"的 java實現 268 7.3 利用"視覺"消除"噪聲" 272 7.3.1 "視覺"與"噪聲" 272 7.3.2 "視覺去噪"的java實現 273 本章小結 277 第3篇 自己動手挖掘web數據 第8章 分析web圖 281 8.1 存儲web"圖" 282 8.2 利用web"圖"分析鏈接 291 8.3 google的秘密--pagerank 291 8.3.1 深入理解pagerank算法 291 8.3.2 pagerank算法的java實現 295 8.3.3 應用pagerank進行鏈接 分析 298 8.4 pagerank 的兄弟hits 299 8.4.1 深入理解hits算法 299 8.4.2 hits算法的java實現 300 8.4.3 應用hits進行鏈接分析 311 8.5 pagerank與hits比較 312 本章小結 313 第9章 去掉"重復"的文檔 315 9.1 何為"重復"的文檔 316 9.2 利用"語義指紋"排重 316 9.2.1 理解"語義指紋" 318 9.2.2 "語義指紋"排重的 java實現 319 9.3 simhash排重 319 9.3.1 理解simhash 320 9.3.2 simhash排重的java實現 321 9.4 分布式文檔排重 328 本章小結 329 第10章 分類與聚類的應用 331 10.1 網頁分類 332 10.1.1 收集語料庫 332 10.1.2 選取網頁的"特征" 333 10.1.3 使用支持向量機進行 網頁分類 336 10.1.4 利用url地址進行 網頁分類 338 10.1.5 使用adaboost進行 網頁分類 338 10.2 網頁聚類 341 10.2.1 深入理解dbscan算法 341 10.2.2 使用dbscan算法聚類 實例 342 本章小結 344
展開全部
自己動手寫網絡爬蟲-(修訂版) 作者簡介
羅剛,計算機軟件碩士,畢業于吉林工業大學。2005年創立北京盈智星科技發展有限公司,2008年聯合創立上海數聚軟件公司。獵兔搜索創始人,當前獵兔搜索在北京、上海以及石家莊均設有研發部。他帶領獵兔搜索技術開發團隊先后開發出獵兔中文分詞系統、獵兔文本挖掘系統,智能垂直搜索系統以及網絡信息監測系統等,實現互聯網信息的采集、過濾、搜索和實時監測,其開發的搜索軟件日用戶訪問量萬次以上。