中圖網(wǎng)小程序
一鍵登錄
更方便
本類五星書更多>
-
>
妙相梵容
-
>
基立爾蒙文:蒙文
-
>
我的石頭記
-
>
心靈元氣社
-
>
女性生存戰(zhàn)爭
-
>
縣中的孩子 中國縣域教育生態(tài)
-
>
(精)人類的明天(八品)
大數(shù)據(jù)叢書文本挖掘 版權(quán)信息
- ISBN:9787111570509
- 條形碼:9787111570509 ; 978-7-111-57050-9
- 裝幀:簡裝本
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
大數(shù)據(jù)叢書文本挖掘 內(nèi)容簡介
本書呈現(xiàn)了文本挖掘領(lǐng)域優(yōu)選的算法,同時從學(xué)術(shù)界和產(chǎn)業(yè)界的角度介紹了文本挖掘。本書涉及的業(yè)界學(xué)者跨越多個國家,來自多個機構(gòu): 大學(xué)、企業(yè)和政府實驗室。本書介紹了文本挖掘在多個領(lǐng)域中的自動文本分析和挖掘計算模型,這些領(lǐng)域包括: 機器學(xué)習(xí)、知識發(fā)現(xiàn)、自然語言處理和信息檢索等。本書適合作為人工智能、機器學(xué)習(xí)和自然語言處理等領(lǐng)域相關(guān)人員的教科書和參考書。同時,也適合研究人員和從業(yè)人員閱讀。
大數(shù)據(jù)叢書文本挖掘 目錄
譯者序
原書序
1 章 獨立文檔的關(guān)鍵詞的自動提取 1
1. 1 簡介 1
1. 1. 1 關(guān)鍵詞提取方法 1
1. 2 快速自動關(guān)鍵詞提取 3
1. 2. 1 候選關(guān)鍵詞 3
1. 2. 2 關(guān)鍵詞得分 4
1. 2. 3 鄰接關(guān)鍵詞 5
1. 2. 4 提取關(guān)鍵詞 5
1. 3 基準評估 6
1. 3. 1 準確率和召回率評估 6
1. 3. 2 效率評估 7
1. 4 停用詞列表生成 9
1. 5 新聞消息的評估 12
1. 5. 1 MPQA 語料庫 12
1. 5. 2 從新聞消息中提取關(guān)鍵詞 12
1. 6 總結(jié) 15
參考文獻 16
2 章 利用數(shù)學(xué)方法進行多語言文檔聚類 17
2. 1 簡介 17
2. 2 背景 17
2. 3 實驗設(shè)置 18
2. 4 多語言LSA 20
2. 5 Tucker1 方法 21
2. 6 PARAFAC2 方法 23
2. 7 詞對齊的LSA 24
2. 8 潛在形態(tài)語義分析(LMSA) 26
2. 9 詞對齊的LMSA 27
2. 10 對技術(shù)和結(jié)果的討論 27
參考文獻 29
3 章 使用機器學(xué)習(xí)算法對基于內(nèi)容的垃圾郵件進行分類 31
3. 1 簡介 31
3. 2 機器學(xué)習(xí)算法 32
3. 2. 1 樸素貝葉斯 33
3. 2. 2 LogitBoost 33
3. 2. 3 支持向量機 34
3. 2. 4 增廣的潛在語義索引空間 35
3. 2. 5 徑向基函數(shù)網(wǎng)絡(luò) 36
3. 3 數(shù)據(jù)預(yù)處理 37
3. 3. 1 特征選擇 37
3. 3. 2 信息表示 39
3. 4 郵件分類的評估 39
3. 5 實驗 40
3. 5. 1 使用PU1 的實驗 40
3. 5. 2 使用ZH1 的實驗 42
3. 6 分類器特點 43
3. 7 結(jié)束語 45
參考文獻 45
4 章 利用非負矩陣分解研究郵件分類問題 47
4. 1 簡介 47
4. 1. 1 相關(guān)工作 48
4. 1. 2 概要 49
4. 2 研究背景 49
4. 2. 1 非負矩陣分解 49
4. 2. 2 計算NMF 的算法 50
4. 2. 3 數(shù)據(jù)集 52
4. 2. 4 解釋 52
4. 3 基于特征排序的NMF 初始化 54
4. 3. 1 特征子集選擇 54
4. 3. 2 FS 初始化 55
4. 4 基于NMF 的分類方法 57
4. 4. 1 使用基礎(chǔ)特征分類 58
4. 4. 2 基于NMF 的一般化LSI 59
4. 5 結(jié)束語 65
參考文獻 66
5 章 使用k ̄均值算法進行約束聚類 68
5. 1 簡介 68
5. 2 表示法和古典k ̄均值算法 69
5. 3 具有布萊格曼散度的k ̄均值約束聚類算法 70
5. 3. 1 具有“不能鏈接” 約束關(guān)系的二次k ̄均值聚類 70
5. 3. 2 “必須鏈接” 約束關(guān)系的移除 73
5. 3. 3 使用布萊格曼散度進行聚類 75
5. 4 smoka 類型約束聚類 77
5. 5 球形k ̄均值約束聚類 79
5. 5. 1 僅有“不能鏈接” 約束關(guān)系的球形k ̄均值聚類算法 80
5. 5. 2 具有“不能鏈接” 和“必須鏈接” 約束關(guān)系的球形k ̄均值聚類 82
5. 6 數(shù)值實驗 83
5. 6. 1 二次k ̄均值聚類 84
5. 6. 2 球形k ̄均值聚類 85
5. 7 總結(jié) 85
參考文獻 86
6 章 文本可視化技術(shù)的研究 88
6. 1 文本分析的可視化 88
6. 2 標簽云圖 89
6. 3 著作權(quán)及其變更的追蹤 90
6. 4 數(shù)據(jù)探索和novel 模式的探索 91
6. 5 情緒追蹤 92
6. 6 可視化分析和FutureLens 94
6. 7 場景發(fā)現(xiàn) 94
6. 7. 1 場景 94
6. 7. 2 評估策略 95
6. 8 早期版本 95
6. 9 FutureLens 的特征 96
6. 10 場景發(fā)現(xiàn)舉例: 生態(tài)恐怖主義 97
6. 11 場景發(fā)現(xiàn)舉例: 毒品走私 101
6. 12 未來的工作 103
參考文獻 104
7 章 新穎性挖掘的自適應(yīng)閾值設(shè)置 106
7. 1 簡介 106
7. 2 新穎性挖掘中的自適應(yīng)閾值設(shè)置 107
7. 2. 1 背景 107
7. 2. 2 動機 108
7. 2. 3 基于高斯分布的自適應(yīng)閾值設(shè)置 108
7. 2. 4 實現(xiàn)過程中的問題 112
7. 3 實驗研究 113
7. 3. 1 數(shù)據(jù)集 113
7. 3. 2 加工實例 113
7. 3. 3 實驗及結(jié)果 116
7. 4 總結(jié) 120
參考文獻 121
8 章 文本挖掘與網(wǎng)絡(luò)犯罪 122
8. 1 簡介 122
8. 2 網(wǎng)絡(luò)欺凌和網(wǎng)絡(luò)捕食研究的現(xiàn)狀 123
8. 2. 1 獲取即時通信和在線聊天 124
8. 2. 2 當(dāng)前用于分析的收集 124
8. 2. 3 對即時通信和在線聊天的分析 125
8. 2. 4 網(wǎng)絡(luò)捕食檢測 125
8. 2. 5 網(wǎng)絡(luò)欺凌檢測 129
8. 2. 6 法律問題 130
8. 3 監(jiān)控聊天的商業(yè)軟件 131
8. 4 結(jié)論與未來的方向 132
參考文獻 133
9 章 文本流中的事件和發(fā)展趨勢 136
9. 1 引言 136
9. 2 文本流 138
9. 3 特征提取和數(shù)據(jù)還原 138
9. 4 事件監(jiān)測 139
9. 5 趨勢檢測 142
9. 6 事件和趨勢描述 143
9. 7 相關(guān)討論 147
9. 8 總結(jié) 147
參考文獻 148
10 章 在LDA 主題模型中嵌入語義 150
10. 1 簡介 150
10. 2 背景 150
10. 2. 1 向量空間模型 151
10. 2. 2 潛在語義分析 151
10. 2. 3 概率潛在語義分析 151
10. 3 潛在狄利克雷分配 152
10. 3. 1 圖模型和生成過程 153
10. 3. 2 后驗推斷 153
10. 3. 3 在線潛在狄利克雷分配(OLDA) 154
10. 3. 4 算例分析 156
10. 4 在維基百科中嵌入外部語義 158
10. 4. 1 相關(guān)維基百科文章 158
10. 4. 2 維基百科影響的主題模型 158
10. 5 數(shù)據(jù)驅(qū)動語義的嵌入 159
10. 5. 1 數(shù)據(jù)驅(qū)動語義嵌入的生成過程 159
10. 5. 2 嵌入數(shù)據(jù)驅(qū)動語義的OLDA 算法 160
10. 5. 3 實驗設(shè)計 161
10. 5. 4 實驗結(jié)果 163
10. 6 相關(guān)工作 166
10. 7 結(jié)論與未來工作 166
參考文獻 166
原書序
1 章 獨立文檔的關(guān)鍵詞的自動提取 1
1. 1 簡介 1
1. 1. 1 關(guān)鍵詞提取方法 1
1. 2 快速自動關(guān)鍵詞提取 3
1. 2. 1 候選關(guān)鍵詞 3
1. 2. 2 關(guān)鍵詞得分 4
1. 2. 3 鄰接關(guān)鍵詞 5
1. 2. 4 提取關(guān)鍵詞 5
1. 3 基準評估 6
1. 3. 1 準確率和召回率評估 6
1. 3. 2 效率評估 7
1. 4 停用詞列表生成 9
1. 5 新聞消息的評估 12
1. 5. 1 MPQA 語料庫 12
1. 5. 2 從新聞消息中提取關(guān)鍵詞 12
1. 6 總結(jié) 15
參考文獻 16
2 章 利用數(shù)學(xué)方法進行多語言文檔聚類 17
2. 1 簡介 17
2. 2 背景 17
2. 3 實驗設(shè)置 18
2. 4 多語言LSA 20
2. 5 Tucker1 方法 21
2. 6 PARAFAC2 方法 23
2. 7 詞對齊的LSA 24
2. 8 潛在形態(tài)語義分析(LMSA) 26
2. 9 詞對齊的LMSA 27
2. 10 對技術(shù)和結(jié)果的討論 27
參考文獻 29
3 章 使用機器學(xué)習(xí)算法對基于內(nèi)容的垃圾郵件進行分類 31
3. 1 簡介 31
3. 2 機器學(xué)習(xí)算法 32
3. 2. 1 樸素貝葉斯 33
3. 2. 2 LogitBoost 33
3. 2. 3 支持向量機 34
3. 2. 4 增廣的潛在語義索引空間 35
3. 2. 5 徑向基函數(shù)網(wǎng)絡(luò) 36
3. 3 數(shù)據(jù)預(yù)處理 37
3. 3. 1 特征選擇 37
3. 3. 2 信息表示 39
3. 4 郵件分類的評估 39
3. 5 實驗 40
3. 5. 1 使用PU1 的實驗 40
3. 5. 2 使用ZH1 的實驗 42
3. 6 分類器特點 43
3. 7 結(jié)束語 45
參考文獻 45
4 章 利用非負矩陣分解研究郵件分類問題 47
4. 1 簡介 47
4. 1. 1 相關(guān)工作 48
4. 1. 2 概要 49
4. 2 研究背景 49
4. 2. 1 非負矩陣分解 49
4. 2. 2 計算NMF 的算法 50
4. 2. 3 數(shù)據(jù)集 52
4. 2. 4 解釋 52
4. 3 基于特征排序的NMF 初始化 54
4. 3. 1 特征子集選擇 54
4. 3. 2 FS 初始化 55
4. 4 基于NMF 的分類方法 57
4. 4. 1 使用基礎(chǔ)特征分類 58
4. 4. 2 基于NMF 的一般化LSI 59
4. 5 結(jié)束語 65
參考文獻 66
5 章 使用k ̄均值算法進行約束聚類 68
5. 1 簡介 68
5. 2 表示法和古典k ̄均值算法 69
5. 3 具有布萊格曼散度的k ̄均值約束聚類算法 70
5. 3. 1 具有“不能鏈接” 約束關(guān)系的二次k ̄均值聚類 70
5. 3. 2 “必須鏈接” 約束關(guān)系的移除 73
5. 3. 3 使用布萊格曼散度進行聚類 75
5. 4 smoka 類型約束聚類 77
5. 5 球形k ̄均值約束聚類 79
5. 5. 1 僅有“不能鏈接” 約束關(guān)系的球形k ̄均值聚類算法 80
5. 5. 2 具有“不能鏈接” 和“必須鏈接” 約束關(guān)系的球形k ̄均值聚類 82
5. 6 數(shù)值實驗 83
5. 6. 1 二次k ̄均值聚類 84
5. 6. 2 球形k ̄均值聚類 85
5. 7 總結(jié) 85
參考文獻 86
6 章 文本可視化技術(shù)的研究 88
6. 1 文本分析的可視化 88
6. 2 標簽云圖 89
6. 3 著作權(quán)及其變更的追蹤 90
6. 4 數(shù)據(jù)探索和novel 模式的探索 91
6. 5 情緒追蹤 92
6. 6 可視化分析和FutureLens 94
6. 7 場景發(fā)現(xiàn) 94
6. 7. 1 場景 94
6. 7. 2 評估策略 95
6. 8 早期版本 95
6. 9 FutureLens 的特征 96
6. 10 場景發(fā)現(xiàn)舉例: 生態(tài)恐怖主義 97
6. 11 場景發(fā)現(xiàn)舉例: 毒品走私 101
6. 12 未來的工作 103
參考文獻 104
7 章 新穎性挖掘的自適應(yīng)閾值設(shè)置 106
7. 1 簡介 106
7. 2 新穎性挖掘中的自適應(yīng)閾值設(shè)置 107
7. 2. 1 背景 107
7. 2. 2 動機 108
7. 2. 3 基于高斯分布的自適應(yīng)閾值設(shè)置 108
7. 2. 4 實現(xiàn)過程中的問題 112
7. 3 實驗研究 113
7. 3. 1 數(shù)據(jù)集 113
7. 3. 2 加工實例 113
7. 3. 3 實驗及結(jié)果 116
7. 4 總結(jié) 120
參考文獻 121
8 章 文本挖掘與網(wǎng)絡(luò)犯罪 122
8. 1 簡介 122
8. 2 網(wǎng)絡(luò)欺凌和網(wǎng)絡(luò)捕食研究的現(xiàn)狀 123
8. 2. 1 獲取即時通信和在線聊天 124
8. 2. 2 當(dāng)前用于分析的收集 124
8. 2. 3 對即時通信和在線聊天的分析 125
8. 2. 4 網(wǎng)絡(luò)捕食檢測 125
8. 2. 5 網(wǎng)絡(luò)欺凌檢測 129
8. 2. 6 法律問題 130
8. 3 監(jiān)控聊天的商業(yè)軟件 131
8. 4 結(jié)論與未來的方向 132
參考文獻 133
9 章 文本流中的事件和發(fā)展趨勢 136
9. 1 引言 136
9. 2 文本流 138
9. 3 特征提取和數(shù)據(jù)還原 138
9. 4 事件監(jiān)測 139
9. 5 趨勢檢測 142
9. 6 事件和趨勢描述 143
9. 7 相關(guān)討論 147
9. 8 總結(jié) 147
參考文獻 148
10 章 在LDA 主題模型中嵌入語義 150
10. 1 簡介 150
10. 2 背景 150
10. 2. 1 向量空間模型 151
10. 2. 2 潛在語義分析 151
10. 2. 3 概率潛在語義分析 151
10. 3 潛在狄利克雷分配 152
10. 3. 1 圖模型和生成過程 153
10. 3. 2 后驗推斷 153
10. 3. 3 在線潛在狄利克雷分配(OLDA) 154
10. 3. 4 算例分析 156
10. 4 在維基百科中嵌入外部語義 158
10. 4. 1 相關(guān)維基百科文章 158
10. 4. 2 維基百科影響的主題模型 158
10. 5 數(shù)據(jù)驅(qū)動語義的嵌入 159
10. 5. 1 數(shù)據(jù)驅(qū)動語義嵌入的生成過程 159
10. 5. 2 嵌入數(shù)據(jù)驅(qū)動語義的OLDA 算法 160
10. 5. 3 實驗設(shè)計 161
10. 5. 4 實驗結(jié)果 163
10. 6 相關(guān)工作 166
10. 7 結(jié)論與未來工作 166
參考文獻 166
展開全部
書友推薦
- >
自卑與超越
- >
唐代進士錄
- >
羅曼·羅蘭讀書隨筆-精裝
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
李白與唐代文化
- >
我與地壇
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學(xué)概述
- >
煙與鏡
本類暢銷