中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
解密搜索引擎技術實戰-Lucene & Java精華版-第3版-(含DVD光盤1張)

包郵 解密搜索引擎技術實戰-Lucene & Java精華版-第3版-(含DVD光盤1張)

出版社:電子工業出版社出版時間:2016-04-01
開本: 16開 頁數: 501
中 圖 價:¥39.7(5.0折) 定價  ¥79.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

解密搜索引擎技術實戰-Lucene & Java精華版-第3版-(含DVD光盤1張) 版權信息

解密搜索引擎技術實戰-Lucene & Java精華版-第3版-(含DVD光盤1張) 本書特色

本書是獵兔搜索開發團隊的軟件研發和教學實踐的經驗匯總。本書總結搜索引擎相關理論與實際解決方案,并給出了java實現,其中利用了流行的開源項目lucene和solr,而且還包括原創的實現。本書主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關案例分析。 爬蟲部分介紹了網頁遍歷方法和如何實現增量抓取,并介紹了從網頁等各種格式的文檔中提取主要內容的方法。 自然語言處理部分從統計機器學習的原理出發,包括了中文分詞與詞性標注的理論與實現及在搜索引擎中的應用等細節,同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹,并總結了實現方法。 在全文檢索部分,結合lucene介紹了搜索引擎的原理與進展。用簡單的例子介紹了lucene的*新應用方法,包括完整的搜索實現過程:從完成索引到搜索用戶界面的實現。 此外還進一步介紹了實現準實時搜索的方法,展示了solr的用法以及實現分布式搜索服務集群的方法。*后介紹了在地理信息系統領域和戶外活動搜索領域的應用。

解密搜索引擎技術實戰-Lucene & Java精華版-第3版-(含DVD光盤1張) 內容簡介

1、《解密搜索引擎技術實戰:lucene & java精華版(第3版)》是暢銷書的升級版,從實用的角度出發,全面介紹了搜索引擎相關技術。 2、作者羅剛對搜索引擎技術非常熟悉,本書是其軟件研發和教學實踐的經驗匯總。 3、《解密搜索引擎技術實戰:lucene & java精華版(第3版)》非常適合想全面了解搜索引擎技術及實現方法的讀者閱讀,亦可作為相關專業學生的參考用書。 

解密搜索引擎技術實戰-Lucene & Java精華版-第3版-(含DVD光盤1張) 目錄

?第1章  搜索引擎總體結構 11.1  搜索引擎基本模塊 11.2  開發環境 21.3  搜索引擎工作原理 31.3.1  網絡爬蟲 41.3.2  全文索引結構與lucene實現 41.3.3  搜索用戶界面 71.3.4  計算框架 81.3.5  文本挖掘 91.4  本章小結 9第2章  網絡爬蟲的原理與應用 112.1  爬蟲的基本原理 112.2  爬蟲架構 142.2.1  基本架構 142.2.2  分布式爬蟲架構 162.2.3  垂直爬蟲架構 172.3  抓取網頁 182.3.1  下載網頁的基本方法 192.3.2  網頁更新 232.3.3  抓取限制應對方法 252.3.4  url地址提取 282.3.5  抓取javascript動態頁面 282.3.6  抓取即時信息 312.3.7  抓取暗網 322.3.8  信息過濾 332.3.9  *好優先遍歷 392.4  存儲url地址 402.4.1  berkeleydb 402.4.2  布隆過濾器 422.5  并行抓取 452.5.1  多線程爬蟲 462.5.2  垂直搜索的多線程爬蟲 482.5.3  異步i/o 492.6  rss抓取 532.7  抓取ftp 552.8  下載圖片 552.9  圖像的ocr識別 562.9.1  圖像二值化 572.9.2  切分圖像 602.9.3  svm分類 632.10  web結構挖掘 672.10.1  存儲web圖 672.10.2  pagerank算法 712.10.3  hits算法 772.10.4  主題相關的pagerank 812.11  部署爬蟲 832.12  本章小結 83第3章  索引內容提取 863.1  從html文件中提取文本 863.1.1  識別網頁的編碼 863.1.2  網頁編碼轉換為字符串編碼 893.1.3  使用正則表達式提取數據 893.1.4  結構化信息提取 913.1.5  網頁的dom結構 943.1.6  使用nekohtml提取信息 953.1.7  使用jsoup提取信息 1013.1.8  網頁去噪 1053.1.9  網頁結構相似度計算 1103.1.10  提取標題 1123.1.11  提取日期 1133.2  從非html文件中提取文本 1133.2.1  提取標題的一般方法 1143.2.2  pdf文件 1183.2.3  word文件 1223.2.4  rtf文件 1233.2.5  excel文件 1343.2.6  powerpoint文件 1373.3  流媒體內容提取 1373.3.1  音頻流內容提取 1383.3.2  視頻流內容提取 1403.4  存儲提取內容 1423.5  本章小結 143第4章  中文分詞的原理與實現 1444.1  lucene中的中文分詞 1454.1.1  lucene切分原理 1454.1.2  lucene中的analyzer 1464.1.3  自己寫analyzer 1484.1.4  lietu中文分詞 1504.2  查找詞典算法 1514.2.1  標準trie樹 1514.2.2  三叉trie樹 1544.3  中文分詞的原理 1594.4  中文分詞流程與結構 1624.5  形成切分詞圖 1644.6  概率語言模型的分詞方法 1694.7  n元分詞方法 1734.8  新詞發現 1784.9  未登錄詞識別 1794.10  詞性標注 1804.10.1  隱馬爾可夫模型 1834.10.2  基于轉換的錯誤學習方法 1914.11  平滑算法 1934.12  本章小結 198第5章  讓搜索引擎理解自然語言 1995.1  停用詞表 2005.2  句法分析樹 2015.3  相似度計算 2055.4  文檔排重 2095.4.1  語義指紋 2105.4.2  simhash 2135.4.3  分布式文檔排重 2235.5  中文關鍵詞提取 2235.5.1  關鍵詞提取的基本方法 2235.5.2  hits算法應用于關鍵詞提取 2265.5.3  從網頁中提取關鍵詞 2285.6  相關搜索詞 2285.6.1  挖掘相關搜索詞 2295.6.2  使用多線程計算相關搜索詞 2315.7  信息提取 2325.8  拼寫檢查與建議 2375.8.1  模糊匹配問題 2405.8.2  英文拼寫檢查 2425.8.3  中文拼寫檢查 2445.9  自動摘要 2475.9.1  自動摘要技術 2475.9.2  自動摘要的設計 2475.9.3  lucene中的動態摘要 2545.10  文本分類 2575.10.1  特征提取 2595.10.2  中心向量法 2625.10.3  樸素貝葉斯 2655.10.4  支持向量機 2725.10.5  規則方法 2795.10.6  網頁分類 2825.11  拼音轉換 2835.12  概念搜索 2845.13  多語言搜索 2925.14  跨語言搜索 2935.15  情感識別 2955.15.1  確定詞語的褒貶傾向 2985.15.2  實現情感識別 3005.16  本章小結 301第6章  lucene原理與應用 3036.1  lucene深入介紹 3046.1.1  常用查詢對象 3046.1.2  查詢語法與解析 3046.1.3  查詢原理 3086.1.4  分析文本 3096.1.5  使用filter篩選搜索結果 3166.1.6  遍歷索引庫 3176.1.7  索引數值列 3186.2  lucene中的壓縮算法 3226.2.1  變長壓縮 3226.2.2  pfordelta 3246.2.3  前綴壓縮 3266.2.4  差分編碼 3286.3  創建和維護索引庫 3306.3.1  創建索引庫 3306.3.2  向索引庫中添加索引文檔 3316.3.3  刪除索引庫中的索引文檔 3346.3.4  更新索引庫中的索引文檔 3346.3.5  索引的合并 3356.3.6  索引文件格式 3356.4  查找索引庫 3386.4.1  查詢過程 3386.4.2  常用查詢 3426.4.3  基本詞查詢 3436.4.4  模糊匹配 3436.4.5  布爾查詢 3456.4.6  短語查詢 3476.4.7  跨度查詢 3496.4.8  fieldscorequery 3536.5  讀寫并發控制 3566.6  檢索模型 3566.6.1  向量空間模型 3576.6.2  bm25概率模型 3616.6.3  統計語言模型 3676.7  本章小結 369第7章  搜索引擎用戶界面 3707.1  實現lucene搜索 3707.2  實現搜索接口 3727.2.1  編碼識別 3727.2.2  布爾搜索 3757.2.3  指定范圍搜索 3757.2.4  搜索結果排序 3767.2.5  搜索頁面的索引緩存與更新 3777.3  歷史搜索詞記錄 3807.4  實現關鍵詞高亮顯示 3817.5  實現分類統計視圖 3837.6  實現ajax搜索聯想詞 3887.6.1  估計查詢詞的文檔頻率 3887.6.2  搜索聯想詞總體結構 3897.6.3  服務器端處理 3897.6.4  瀏覽器端處理 3907.6.5  服務器端改進 3957.6.6  拼音提示 3987.6.7  部署總結 3997.7  集成其他功能 3997.7.1  拼寫檢查 3997.7.2  分類統計 4007.7.3  相關搜索 4027.7.4  再次查找 4057.7.5  搜索日志 4057.8  搜索日志分析 4077.8.1  日志信息過濾 4077.8.2  信息統計 4097.8.3  挖掘日志信息 4117.9  本章小結 412第8章  使用solr實現企業搜索 4138.1  solr簡介 4138.2  solr基本用法 4148.2.1  solr服務器端的配置與中文支持 4158.2.2  把數據放進solr 4218.2.3  刪除數據 4238.2.4  solr客戶端與搜索界面 4248.2.5  spring實現的搜索界面 4258.2.6  solr索引庫的查找 4368.2.7  索引分發 4408.2.8  solr搜索優化 4428.3  solr擴展與定制 4458.3.1  solr中字詞混合索引 4458.3.2  相關檢索 4478.3.3  搜索結果去重 4498.3.4  定制輸入輸出 4538.3.5  分布式搜索 4578.3.6  solrj查詢分析器 4588.3.7  擴展solrj 4668.3.8  擴展solr 4678.3.9  查詢web圖 4718.4  本章小結 473第9章  地理信息系統案例分析 4749.1  新聞提取 4749.2  poi信息提取 4799.2.1  提取主體 4849.2.2  提取地區 4859.2.3  指代消解 4879.3  機器翻譯 4899.3.1  詞對齊 4909.3.2  翻譯公司名 4919.3.3  調整語序 4939.4  本章小結 494第10章  戶外活動搜索案例分析 49510.1  爬蟲 49510.2  信息提取 49710.3  活動分類 50110.4  搜索 50110.5  本章小結 502參考資料 503
展開全部

解密搜索引擎技術實戰-Lucene & Java精華版-第3版-(含DVD光盤1張) 作者簡介

羅剛,獵兔搜索創始人,帶領獵兔搜索技術開發團隊先后開發出獵兔中文分詞系統、獵兔信息提取系統、獵兔智能垂直搜索系統以及網絡信息監測系統等,實現互聯網信息的采集、過濾、搜索和實時監測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》,獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 清洁设备_洗地机/扫地机厂家_全自动洗地机_橙犀清洁设备官网 | 南京精锋制刀有限公司-纵剪机刀片_滚剪机刀片_合金刀片厂家 | 硅胶管挤出机厂家_硅胶挤出机生产线_硅胶条挤出机_臣泽智能装备 贵州科比特-防雷公司厂家提供贵州防雷工程,防雷检测,防雷接地,防雷设备价格,防雷产品报价服务-贵州防雷检测公司 | 桁架机器人_桁架机械手_上下料机械手_数控车床机械手-苏州清智科技装备制造有限公司 | 耐高温硅酸铝板-硅酸铝棉保温施工|亿欧建设工程 | 横河变送器-横河压力变送器-EJA变送器-EJA压力变送器-「泉蕴仪表」 | 全屋整木定制-橱柜,家具定制-四川峨眉山龙马木业有限公司 | 禹城彩钢厂_钢结构板房_彩钢复合板-禹城泰瑞彩钢复合板加工厂 | 气体热式流量计-定量控制流量计(空气流量计厂家)-湖北南控仪表科技有限公司 | 电镀标牌_电铸标牌_金属标贴_不锈钢标牌厂家_深圳市宝利丰精密科技有限公司 | 碳化硅,氮化硅,冰晶石,绢云母,氟化铝,白刚玉,棕刚玉,石墨,铝粉,铁粉,金属硅粉,金属铝粉,氧化铝粉,硅微粉,蓝晶石,红柱石,莫来石,粉煤灰,三聚磷酸钠,六偏磷酸钠,硫酸镁-皓泉新材料 | 定制异形重型钢格栅板/钢格板_定做踏步板/排水沟盖板_钢格栅板批发厂家-河北圣墨金属制品有限公司 | 作文导航网_作文之家_满分作文_优秀作文_作文大全_作文素材_最新作文分享发布平台 | 气动绞车,山东气动绞车,气动绞车厂家-烟台博海石油机械有限公司 气动隔膜泵厂家-温州永嘉定远泵阀有限公司 | HDPE土工膜,复合土工膜,防渗膜价格,土工膜厂家-山东新路通工程材料有限公司 | 通辽信息港 - 免费发布房产、招聘、求职、二手、商铺等信息 www.tlxxg.net | 瑞典Blueair空气净化器租赁服务中心-专注新装修办公室除醛去异味服务! | (中山|佛山|江门)环氧地坪漆,停车场地板漆,车库地板漆,聚氨酯地板漆-中山永旺地坪漆厂家 | 北京网站建设公司_北京网站制作公司_北京网站设计公司-北京爱品特网站建站公司 | 缓蚀除垢剂_循环水阻垢剂_反渗透锅炉阻垢剂_有机硫化物-郑州威大水处理材料有限公司 | 考试试题_试卷及答案_诗词单词成语 - 优易学 | 鲁尔圆锥接头多功能测试仪-留置针测试仪-上海威夏环保科技有限公司 | 蜂蜜瓶-玻璃瓶-玻璃瓶厂-玻璃瓶生产厂家-徐州贵邦玻璃制品有限公司 | 闭端端子|弹簧螺式接线头|防水接线头|插线式接线头|端子台|电源线扣+护线套|印刷电路板型端子台|金笔电子代理商-上海拓胜电气有限公司 | 二手Sciex液质联用仪-岛津气质联用仪-二手安捷伦气质联用仪-上海隐智科学仪器有限公司 | 【MBA备考网】-2024年工商管理硕士MBA院校/报考条件/培训/考试科目/提前面试/考试/学费-MBA备考网 | 合肥地磅_合肥数控切割机_安徽地磅厂家_合肥世佳电工设备有限公司 | 注塑机-压铸机-塑料注塑机-卧式注塑机-高速注塑机-单缸注塑机厂家-广东联升精密智能装备科技有限公司 | 全国冰箱|空调|洗衣机|热水器|燃气灶维修服务平台-百修家电 | 科普仪器菏泽市教育教学仪器总厂| 上海公众号开发-公众号代运营公司-做公众号的公司企业服务商-咏熠软件 | 无线遥控更衣吊篮_IC卡更衣吊篮_电动更衣吊篮配件_煤矿更衣吊篮-力得电子 | 二维运动混料机,加热型混料机,干粉混料机-南京腾阳干燥设备厂 | 布袋除尘器-单机除尘器-脉冲除尘器-泊头市兴天环保设备有限公司 布袋除尘器|除尘器设备|除尘布袋|除尘设备_诺和环保设备 | 玻璃钢型材-玻璃钢风管-玻璃钢管道,生产厂家-[江苏欧升玻璃钢制造有限公司] | 户外环保不锈钢垃圾桶_标识标牌制作_园林公园椅厂家_花箱定制-北京汇众环艺 | 电竞学校_电子竞技培训学校学院-梦竞未来电竞学校官网 | 船老大板材_浙江船老大全屋定制_船老大官网 | 威海防火彩钢板,威海岩棉复合板,威海彩钢瓦-文登区九龙岩棉复合板厂 | 全钢实验台,实验室工作台厂家-无锡市辰之航装饰材料有限公司 | 体视显微镜_荧光生物显微镜_显微镜报价-微仪光电生命科学显微镜有限公司 |