自然語言處理原理與技術實現 版權信息
- ISBN:9787121286209
- 條形碼:9787121286209 ; 978-7-121-28620-9
- 裝幀:暫無
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
自然語言處理原理與技術實現 本書特色
本書詳細介紹自然語言處理各主要領域的原理以java 實現,包括中文分詞、詞性標注、依存句法分析等。其中詳細介紹了中文分詞和詞性標注的過程及相關算法,如隱馬爾可夫模型等。在自然語言處理的應用領域主要介紹了信息抽取、自動文摘、文本分類等領域的基本理論和實現過程,此外還有問答系統、語音識別等目前應用非常廣泛的領域。在問答系統的介紹中,本書特地介紹了聊天機器人的實現過程,從句子理解、句法分析、同義詞提取等方面揭示聊天機器人的實現原理。
自然語言處理原理與技術實現 內容簡介
1、原理講解通俗易懂2、java實現精彩詳實3、應用案例真實有用
海報:
自然語言處理原理與技術實現 目錄
第1章 應用自然語言處理技術 11.1 付出與回報 21.1.1 如何開始 21.1.2 招聘人員 21.1.3 學習 31.2 開發環境 31.3 技術基礎 41.3.1 java 41.3.2 規則方法 51.3.3 統計方法 51.3.4 計算框架 51.3.5 文本挖掘 71.3.6 語義庫 71.4 本章小結 91.5 專業術語 9第2章 中文分詞原理與實現 112.1 接口 122.1.1 切分方案 132.1.2 詞特征 132.2 查找詞典算法 132.2.1 標準trie樹 142.2.2 三叉trie樹 182.2.3 詞典格式 262.3 *長匹配中文分詞 272.3.1 正向*大長度匹配法 282.3.2 逆向*大長度匹配法 332.3.3 處理未登錄串 392.3.4 開發分詞 432.4 概率語言模型的分詞方法 452.4.1 一元模型 472.4.2 整合基于規則的方法 542.4.3 表示切分詞圖 552.4.4 形成切分詞圖 622.4.5 數據基礎 642.4.6 改進一元模型 752.4.7 二元詞典 792.4.8 完全二叉樹組 852.4.9 三元詞典 892.4.10 n元模型 902.4.11 n元分詞 912.4.12 生成語言模型 992.4.13 評估語言模型 1002.4.14 概率分詞的流程與結構 1012.4.15 可變長n元分詞 1022.4.16 條件隨機場 1032.5 新詞發現 1032.5.1 成詞規則 1092.6 詞性標注 1092.6.1 數據基礎 1142.6.2 隱馬爾可夫模型 1152.6.3 存儲數據 1242.6.4 統計數據 1312.6.5 整合切分與詞性標注 1332.6.6 大詞表 1382.6.7 詞性序列 1382.6.8 基于轉換的錯誤學習方法 1382.6.9 條件隨機場 1412.7 詞類模型 1422.8 未登錄詞識別 1442.8.1 未登錄人名 1442.8.2 提取候選人名 1452.8.3 *長人名切分 1532.8.4 一元概率人名切分 1532.8.5 二元概率人名切分 1562.8.6 未登錄地名 1592.8.7 未登錄企業名 1602.9 平滑算法 1602.10 機器學習的方法 1642.10.1 *大熵 1652.10.2 條件隨機場 1702.11 有限狀態機 1712.12 地名切分 1782.12.1 識別未登錄地名 1792.12.2 整體流程 1852.13 企業名切分 1872.13.1 識別未登錄詞 1882.13.2 整體流程 1902.14 結果評測 1902.15 本章小結 1912.16 專業術語 193第3章 英文分析 1943.1 分詞 1943.1.1 句子切分 1943.1.2 識別未登錄串 1973.1.3 切分邊界 1983.2 詞性標注 1993.3 重點詞匯 2023.4 句子時態 2033.5 本章小結 204第4章 依存文法分析 2054.1 句法分析樹 2054.2 依存文法 2114.2.1 中文依存文法 2114.2.2 英文依存文法 2204.2.3 生成依存樹 2324.2.4 遍歷 2354.2.5 機器學習的方法 2374.3 小結 2374.4 專業術語 238第5章 文檔排重 2395.1 相似度計算 2395.1.1 夾角余弦 2395.1.2 *長公共子串 2425.1.3 同義詞替換 2465.1.4 地名相似度 2485.1.5 企業名相似度 2515.2 文檔排重 2515.2.1 關鍵詞排重 2515.2.2 simhash 2545.2.3 分布式文檔排重 2685.2.4 使用文本排重 2695.3 在搜索引擎中使用文本排重 2695.4 本章小結 2705.5 專業術語 270第6章 信息提取 2716.1 指代消解 2716.2 中文關鍵詞提取 2736.2.1 關鍵詞提取的基本方法 2736.2.2 hits算法應用于關鍵詞提取 2756.2.3 從網頁中提取關鍵詞 2776.3 信息提取 2786.3.1 提取聯系方式 2806.3.2 從互聯網提取信息 2816.3.3 提取地名 2826.4 拼寫糾錯 2836.4.1 模糊匹配問題 2856.4.2 正確詞表 2966.4.3 英文拼寫檢查 2986.4.4 中文拼寫檢查 3006.5 輸入提示 3026.6 本章小結 3036.7 專業術語 303第7章 自動摘要 3047.1 自動摘要技術 3057.1.1 英文文本摘要 3077.1.2 中文文本摘要 3097.1.3 基于篇章結構的自動摘要 3147.1.4 句子壓縮 3147.2 指代消解 3147.3 lucene中的動態摘要 3147.4 本章小結 3177.5 專業術語 318第8章 文本分類 3198.1 地名分類 3218.2 錯誤類型分類 3218.3 特征提取 3228.4 關鍵詞加權法 3268.5 樸素貝葉斯 3308.6 貝葉斯文本分類 3368.7 支持向量機 3368.7.1 多級分類 3458.7.2 規則方法 3478.7.3 網頁分類 3508.8 *大熵 3518.9 信息審查 3528.10 文本聚類 3538.10.1 k均值聚類方法 3538.10.2 k均值實現 3558.10.3 深入理解dbscan算法 3598.10.4 使用dbscan算法聚類實例 3618.11 本章小結 3638.12 專業術語 363第9章 文本傾向性分析 3649.1 確定詞語的褒貶傾向 3679.2 實現情感識別 3689.3 本章小結 3729.4 專業術語 373第10章 問答系統 37410.1 問答系統的結構 37510.1.1 提取問答對 37610.1.2 等價問題 37610.2 問句分析 37710.2.1 問題類型 37710.2.2 句型 38110.2.3 業務類型 38110.2.4 依存樹 38110.2.5 指代消解 38310.2.6 二元關系 38310.2.7 邏輯表示 38610.2.8 問句模板 38610.2.9 結構化問句模板 38910.2.10 檢索方式 39010.2.11 問題重寫 39510.2.12 提取事實 39510.2.13 驗證答案 39810.2.14 無答案的處理 39810.3 知識庫 39810.4 聊天機器人 39910.4.1 交互式問答 40110.4.2 垂直領域問答系統 40210.4.3 語料庫 40510.4.4 客戶端 40510.5 自然語言生成 40510.6 依存句法 40610.7 提取同義詞 41010.7.1 流程 41010.8 本章小結 41110.9 術語表 412第11章 語音識別 41311.1 總體結構 41411.1.1 識別中文 41611.1.2 自動問答 41711.2 語音庫 41811.3 語音合成 41911.3.1 歸一化 42011.4 語音 42011.4.1 標注 42411.4.2 相似度 42411.5 sphinx 42411.5.1 中文訓練集 42611.6 julius 42911.7 本章小結 42911.8 術語表 429參考資源 430后記 431
展開全部
自然語言處理原理與技術實現 作者簡介
羅剛,獵兔搜索創始人,帶領獵兔搜索技術開發團隊先后開發出獵兔中文分詞系統、獵兔信息提取系統、獵兔智能垂直搜索系統以及網絡信息監測系統等,實現互聯網信息的采集、過濾、搜索和實時監測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》,獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。張子憲,聊城大學教師、中國礦業大學(北京)博士生,研究方向:自動句法分析、機器翻譯。