中圖網

>

計算機理論

搜索引擎技術與發展

包郵搜索引擎技術與發展

作者：羅剛

出版社：電子工業出版社出版時間：2020-10-01

開本：其他頁數： 268

本類榜單：計算機/網絡銷量榜

中圖價:¥34.8(5.0折) 定價 ~~¥69.0~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥34.8 加入購物車

版權信息
本書特色
內容簡介
目錄
作者簡介

搜索引擎技術與發展版權信息

ISBN：9787121398032
條形碼：9787121398032 ; 978-7-121-39803-2
裝幀：一般膠版紙
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
計算機理論

搜索引擎技術與發展本書特色

本書主要介紹如何使用Java語言開發搜索引擎，包括搜索引擎技術入門，使用Java開發網絡爬蟲，實現從文檔中提取索引內容，中文分詞的原理與實現，在Linux服務器端開發Solr應用，Spring Boot微服務框架實現的后端，以及React框架實現的前端等內容。從工程項目實踐結合當前理論的角度討論中文分詞和自然語言處理相關技術，介紹主流的Java搜索技術解決方案發展歷程

搜索引擎技術與發展內容簡介

本書主要介紹如何使用Java語言開發搜索引擎，包括搜索引擎技術入門，使用Java開發網絡爬蟲，實現從文檔中提取索引內容，中文分詞的原理與實現，在Linux服務器端開發Solr應用，Spring Boot微服務框架實現的后端，以及React框架實現的前端等內容。章主要介紹各種類型的搜索引擎和開發搜索引擎可以借助的軟件工具；第2章主要介紹網絡爬蟲開發和數據存儲；第3章主要介紹從HTML文件中提取文本，以及從PDF、Word等非HTML文件中提取文本；第4章主要介紹Lucene中的中文分析器的原理與實現；第5章主要介紹Solr索引庫的創建與維護，以及Solr的查詢解析器；第6章主要介紹Web方式搜索結果界面的實現；第7章主要介紹如何使用SolrCloud實現分布式搜索。

搜索引擎技術與發展目錄

第1章遍歷搜索引擎技術 1
1．1 快速上手搜索引擎 1
1．1．1 準備工作環境 1
1．1．2 生成索引 3
1．1．3 關鍵詞查詢 8
1．1．4 實現搜索界面 10
1．2 搜索語法 22
1．3 你也可以做搜索引擎 24
1．4 搜索引擎的基本技術 25
1．4．1 網絡爬蟲 25
1．4．2 全文索引結構 26
1．4．3 Solr全文檢索引擎 27
1．4．4 Nutch網絡搜索軟件 27
1．4．5 用戶界面 28
1．5 商業搜索引擎技術概述 29
1．5．1 通用搜索 30
1．5．2 垂直搜索 30
1．5．3 站內搜索 31
1．6 本章小結 32
第2章獲得海量數據 34
2．1 自己的網絡爬蟲 34
2．1．1 使用URL訪問網絡資源 34
2．1．2 重試 37
2．1．3 網絡爬蟲的遍歷與實現 44
2．1．4 多線程爬蟲 48
2．1．5 Log4j2日志 49
2．1．6 存儲URL地址 51
2．1．7 定向采集 57
2．1．8 暗網抓取 58
2．1．9 Selenium抓取動態頁面 59
2．1．10 圖片抓取 61
2．2 數據存儲 62
2．2．1 寫入文件 63
2．2．2 Jdbi寫入數據庫 63
2．3 本地部署 66
2．4 本章小結 66
第3章提取文檔中的文本內容 68
3．1 從HTML文件中提取文本 68
3．1．1 使用HTMLParser實現定向抓取 71
3．1．2 結構化信息提取 80
3．1．3 網頁的DOM結構 83
3．1．4 網頁去噪 85
3．1．5 正文提取 87
3．2 從非HTML文件中提取文本 92
3．2．1 PDF文件 95
3．2．2 Word文件 96
3．2．3 Rtf文件 98
3．2．4 Excel文件 98
3．2．5 PowerPoint文件 99
3．2．6 從圖片中提取文本 100
3．3 流媒體內容提取 101
3．3．1 音頻流內容提取 101
3．3．2 視頻流內容提取 102
3．4 本章小結 103
第4章中文分詞 104
4．1 Lucene中的中文分詞 104
4．2 中文分詞的原理 105
4．3 查找詞典算法 106
4．4 句子切分 112
4．5 有限狀態機識別未登錄串 113
4．6 *大概率分詞方法 117
4．7 N元分詞方法 125
4．7．1 二元詞典 125
4．7．2 二元分詞 135
4．7．3 開發中文分析器 139
4．8 新詞發現 150
4．9 命名實體識別 152
4．9．1 人名識別 152
4．9．2 組織機構名稱識別 160
4．9．3 化學物質識別 161
4．10 詞性標注 162
4．11 平滑算法 173
4．12 地名切分 176
4．13 本章小結 182
第5章 Solr服務器端開發 183
5．1 在Linux操作系統中安裝Solr 183
5．2 創建和維護索引庫 186
5．3 索引本地硬盤上的文件 191
5．4 使用Bean索引文檔 192
5．5 更新索引庫中的索引文檔 194
5．6 刪除數據 195
5．7 檢測索引 195
5．8 查詢解析器 196
5．9 本章小結 196
第6章用戶界面的設計與實現 197
6．1 Solr搜索接口（search代碼） 197
6．2 搜索頁面設計 198
6．2．1 用于顯示搜索結果的模板 200
6．2．2 搜索結果分頁 202
6．2．3 測試搜索結果頁 215
6．2．4 界面國際化 216
6．2．5 用于Solr的Spring Data 219
6．2．6 Spring-HATEOAS實現REST架構 221
6．3 實現搜索接口 224
6．3．1 基本查詢 224
6．3．2 布爾搜索 226
6．3．3 指定范圍搜索 226
6．3．4 搜索結果排序 227
6．4 實現聚合 228
6．5 實現相似文檔搜索 234
6．6 實現自動完成 235
6．6．1 總體結構 236
6．6．2 服務器端處理 236
6．6．3 自動完成客戶端 238
6．7 搜索日志 244
6．8 React框架 247
6．9 本章小結 251
第7章 Solr分布式搜索 252
7．1 使用Solr實現分布式搜索 252
7．1．1 使用SolrCloud 252
7．1．2 分片 254
7．1．3 管理集群 254
7．1．4 SolrCloud工作原理 255
7．1．5 ZooKeeper分布式協調器 256
7．2 Jenkins持續集成 258
7．3 本章小結 259
參考文獻 260

展開全部

搜索引擎技術與發展作者簡介

獵兔搜索技術創始人曾經擔任國防大學科研處技術顧問工信部輿情開發顧問東南大學社會導師首都師范大學金融課程講師北京石油化工學院社會導師北大光華管理學院技術顧問藍汛公司搜索集群技術咨詢顧問新東方創新研究院研究員

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
回憶愛瑪儂
回憶愛瑪儂
[日]梶尾真治著，王瑋譯
¥24.0~~¥32.8~~
>
小考拉的故事-套裝共3冊
小考拉的故事-套裝共3冊
[澳] 多蘿西·沃爾著，崔育平譯
¥36.7~~¥68.0~~
>
龍榆生：詞曲概論/大家小書
龍榆生：詞曲概論/大家小書
龍榆生
¥8.7~~¥24.0~~
>
名家帶你讀魯迅:故事新編
名家帶你讀魯迅:故事新編
魯迅著，陳漱渝主編
¥13.0~~¥26.0~~
>
上帝之肋:男人的真實旅程
上帝之肋:男人的真實旅程
[美] 羅伯特·布萊著，田國力/盧文戈譯
¥20.2~~¥35.0~~
>
中國歷史的瞬間
中國歷史的瞬間
李永熾
¥16.7~~¥38.0~~
>
詩經-先民的歌唱
詩經-先民的歌唱
裴溥言
¥14.5~~¥39.8~~
>
伊索寓言-世界文學名著典藏-全譯本
伊索寓言-世界文學名著典藏-全譯本
[古希臘] 伊索著，陳韻如譯
¥6.7~~¥19.0~~

本類暢銷

大模型應用開發極簡入門基于GPT-4和ChatGPT

(比)奧利維耶·卡埃朗,(法)瑪麗-艾麗

¥41.9~~¥59.8~~
人工智能現代方法第4版(全2冊)

(美)斯圖爾特·羅素,(美)彼得·諾維格

¥120.8~~¥198~~
計算機視覺:算法與應用

RichardSzeliski、艾海舟

¥95.9~~¥139~~
必然(修訂版)

KevinKelly（凱文·凱利）

¥53.5~~¥89~~
GPT時代人類再騰飛

(美)里德·霍夫曼,美國GPT-4

¥54.9~~¥89.9~~
生成式人工智能(AIGC)應用

張亭婷,湯景,陶蕊編

¥64.9~~¥90~~

中图网(原中国图书网)：网上书店，尾货特色书店，30万种特价书低至2折！

包郵搜索引擎技術與發展

搜索引擎技術與發展版權信息

搜索引擎技術與發展本書特色

搜索引擎技術與發展內容簡介

搜索引擎技術與發展目錄

搜索引擎技術與發展作者簡介

回憶愛瑪儂

小考拉的故事-套裝共3冊

龍榆生：詞曲概論/大家小書

名家帶你讀魯迅:故事新編

上帝之肋:男人的真實旅程

中國歷史的瞬間

詩經-先民的歌唱

伊索寓言-世界文學名著典藏-全譯本

大模型應用開發極簡入門基于GPT-4和ChatGPT

人工智能現代方法第4版(全2冊)

計算機視覺:算法與應用

必然(修訂版)

GPT時代人類再騰飛

生成式人工智能(AIGC)應用

人間草木

連科六短篇-短篇經典文庫

邊城-插圖本

朱仙鎮年畫:七日談

時間停止的那一天

百年夢憶:梁實秋人生自述

包郵 搜索引擎技術與發展

搜索引擎技術與發展 版權信息

搜索引擎技術與發展 本書特色

搜索引擎技術與發展 內容簡介

搜索引擎技術與發展 目錄

搜索引擎技術與發展 作者簡介

包郵搜索引擎技術與發展

搜索引擎技術與發展版權信息

搜索引擎技術與發展本書特色

搜索引擎技術與發展內容簡介

搜索引擎技術與發展目錄

搜索引擎技術與發展作者簡介