-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
自然語言處理:基于機器學習視角 版權信息
- ISBN:9787111742234
- 條形碼:9787111742234 ; 978-7-111-74223-4
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
自然語言處理:基于機器學習視角 本書特色
深入淺出,基于機器學習視角系統性梳理自然語言處理知識體系。學以致用,對理論方法的講解搭配數學推理、教學視頻,手把手教你輕松掌握自然語言處理核心技術。
自然語言處理:基于機器學習視角 內容簡介
本書從機器學習的角度系統地討論自然語言處理,提供了對NLP解決方案更深入的數學理解。學生可以利用這些知識來解決NLP任務,并建立更好的NLP模型。
自然語言處理:基于機器學習視角 目錄
中文版序
譯者序
前言
符號表
**部分 基礎知識
第1章 緒論 2
1.1 自然語言處理的概念 2
1.2 自然語言處理任務 3
1.2.1 基礎任務 4
1.2.2 信息抽取任務 12
1.2.3 應用 16
1.2.4 小結 18
1.3 機器學習視角下的自然語言
處理任務 18
總結 19
注釋 19
習題 19
參考文獻 21
第2章 相對頻率 35
2.1 概率建模 35
2.1.1 *大似然估計 35
2.1.2 詞概率建模 36
2.1.3 模型與概率分布 37
2.2 n元語言模型 41
2.2.1 一元語言模型 41
2.2.2 二元語言模型 43
2.2.3 三元及高階語言模型 46
2.2.4 生成式模型 48
2.3 樸素貝葉斯文本分類器 49
2.3.1 樸素貝葉斯文本分類 50
2.3.2 文本分類器的評估 52
2.3.3 邊緣概率的計算 53
2.3.4 特征 53
總結 54
注釋 54
習題 54
參考文獻 56
第3章 特征向量 57
3.1 文本在向量空間中的表示 57
3.1.1 聚類 59
3.1.2 k均值聚類 61
3.1.3 分類 62
3.1.4 支持向量機 63
3.1.5 感知機 65
3.2 多分類 66
3.2.1 定義基于輸出的特征 67
3.2.2 多分類支持向量機 68
3.2.3 多分類感知機 69
3.3 線性判別式模型 70
3.3.1 判別式模型及其特征 70
3.3.2 線性模型的點積形式 72
3.4 向量空間與模型訓練 72
3.4.1 可分性與泛化性 72
3.4.2 處理非線性可分數據 73
總結 74
注釋 74
習題 74
參考文獻 76
第4章 判別式線性分類器 78
4.1 對數線性模型 78
4.1.1 二分類對數線性模型的訓練 79
4.1.2 多分類對數線性模型的訓練 83
4.1.3 利用對數線性模型進行分類 85
4.2 基于隨機梯度下降法訓練支持向量機 85
4.2.1 二分類支持向量機的訓練 86
4.2.2 多分類支持向量機的訓練 87
4.2.3 感知機訓練的目標函數 88
4.3 廣義線性模型 88
4.3.1 統一在線訓練 89
4.3.2 損失函數 89
4.3.3 正則化 92
4.4 模型融合 92
4.4.1 模型性能比較 92
4.4.2 模型集成 93
4.4.3 半監督學習 95
總結 96
注釋 96
習題 97
參考文獻 99
第5章 信息論觀點 101
5.1 *大熵原理 101
5.1.1 樸素*大熵模型 103
5.1.2 條件熵 104
5.1.3 *大熵模型與訓練數據 105
5.2 KL散度與交叉熵 108
5.2.1 交叉熵和*大似然估計 109
5.2.2 模型困惑度 110
5.3 互信息 111
5.3.1 點互信息 112
5.3.2 基于點互信息的文本挖掘 113
5.3.3 基于點互信息的特征選取 115
5.3.4 詞的點互信息與向量表示 115
總結 117
注釋 117
習題 117
參考文獻 120
第6章 隱變量 121
6.1 期望*大算法 121
6.1.1 k均值算法 123
6.1.2 期望*大算法介紹 125
6.2 基于期望*大算法的隱變量模型 127
6.2.1 無監督樸素貝葉斯模型 127
6.2.2 IBM模型1 130
6.2.3 概率潛在語義分析 136
6.2.4 生成模型的相對優勢 138
6.3 期望*大算法的理論基礎 138
6.3.1 期望*大與KL散度 139
6.3.2 基于數值優化的期
望*大算法推導 140
總結 141
注釋 142
習題 142
參考文獻 144
第二部分 結構研究
第7章 生成式序列標注任務 146
7.1 序列標注 146
7.2 隱馬爾可夫模型 147
7.2.1 隱馬爾可夫模型的訓練 149
7.2.2 解碼 149
7.3 計算邊緣概率 153
7.3.1 前向算法 154
7.3.2 后向算法 154
7.3.3 前向-后向算法 156
7.3.4 二階隱馬爾可夫模型的前向-后向算法 156
7.4 基于期望*大算法的無監督隱馬爾可夫模型訓練 158
總結 164
注釋 164
習題 165
參考文獻 166
第8章 判別式序列標注任務 168
8.1 局部訓練的判別式序列標注模型 168
8.2 標注偏置問題 171
8.3 條件隨機場 172
8.3.1 全局特征向量 173
8.3.2 解碼 174
8.3.3 邊緣概率計算 175
8.3.4 訓練 178
8.4 結構化感知機 181
8.5 結構化支持向量機 184
總結 186
注釋 186
習題 186
參考文獻 188
第9章 序列分割 189
9.1 基于序列標注的序列分割任務 189
9.1.1 面向分詞的序列標注特征 190
9.1.2 面向句法組塊分析的序列標注特征 192
9.1.3 面向命名實體識別的序列標注特征 192
9.1.4 序列分割輸出的評價方式 193
9.2 面向序列分割的判別式模型 193
9.2.1 分詞中的詞級別特征 194
9.2.2 基于動態規劃的精確搜索解碼 195
9.2.3 半馬爾可夫條件隨機場 197
9.2.4 *大間隔模型 202
9.3 結構化感知機與柱搜索 203
9.3.1 放寬特征局部約束 204
9.3.2 柱搜索解碼 205
總結 207
注釋 207
習題 207
參考文獻 208
第10章 樹結構預測 210
10.1 生成式成分句法分析 210
10.1.1 概率上下文無關文法 212
10.1.2 CKY解碼 213
10.1.3 成分句法解析器的性能評估 215
10.1.4 邊緣概率的計算 215
10.2 成分句法分析的特征 218
10.2.1 詞匯化概率上下文無關文法 218
10.2.2 判別式成分句法分析模型 221
10.2.3 面向成分句法分析的對數線性模型 222
10.
自然語言處理:基于機器學習視角 作者簡介
張 岳
西湖大學教授。主要研究領域為自然語言處理、文本挖掘及相關的機器學習方法。研究成果包括機器學習引導搜索的結構預測算法、多任務聯合模型、文本表示和圖神經網絡、自然語言處理中的常識、邏輯推理以及泛化問題,因果機制引導的自然語言處理等。擔任國內外頂級會議CCL 2020、EMNLP 2022程序委員會共同主席。擔任Transactions for ACL期刊執行編輯,以及四個Transaction期刊副主編。獲多個國際會議最佳論文獎。
滕志揚
張 岳
西湖大學教授。主要研究領域為自然語言處理、文本挖掘及相關的機器學習方法。研究成果包括機器學習引導搜索的結構預測算法、多任務聯合模型、文本表示和圖神經網絡、自然語言處理中的常識、邏輯推理以及泛化問題,因果機制引導的自然語言處理等。擔任國內外頂級會議CCL 2020、EMNLP 2022程序委員會共同主席。擔任Transactions for ACL期刊執行編輯,以及四個Transaction期刊副主編。獲多個國際會議最佳論文獎。
滕志揚
2011年本科畢業于東北大學,2014年碩士畢業于中國科學院大學,2018年博士畢業于新加坡科技與設計大學(SUTD),專業方向是自然語言處理和機器學習。他于2018-2022年在西湖大學擔任助理研究員。2022-2023年,在新加坡南洋理工大學計算機科學與工程學院的S-lab高級智能實驗室曾先后擔任研究員和研究型助理教授。在自然語言處理領域的國際和國內頂級會議及期刊上共發表論文30多篇,并在2014年的CCL/NABD會議上獲得最佳論文獎。此外,還曾在EMNLP 2021、AACL-IJCNLP 2022 和 EMNLP 2022擔任領域主席。
- >
上帝之肋:男人的真實旅程
- >
煙與鏡
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
朝聞道
- >
莉莉和章魚
- >
我與地壇
- >
【精裝繪本】畫給孩子的中國神話