-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
文本數據挖掘(第2版) 版權信息
- ISBN:9787302612957
- 條形碼:9787302612957 ; 978-7-302-61295-7
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
文本數據挖掘(第2版) 本書特色
《文本數據挖掘(第2版)》通過實例說明實現相關任務的理論方法和技術思路,而不過多地涉及實現細節,盡量使讀者能夠在充分理解基本原理的基礎上掌握應用系統的實現方法。
文本數據挖掘(第2版) 內容簡介
文本數據挖掘是通過機器學習、自然語言處理和推理等相關技術或方法,理解、分析和挖掘文本的內 容,從而完成信息抽取、關系發現、熱點預測、文本分類和自動摘要等具體任務的信息處理技術。《文本數據挖掘(第2版)》主 要介紹與文本數據挖掘有關的基本概念、理論模型和實現算法,包括數據預處理、文本表示、文本分類、文本聚類、主題模型、情感分析與觀點挖掘、話題檢測與跟蹤、信息抽取以及文本自動摘要等,*后通過 具體實例展示相關技術在實際應用中的使用方法!段谋緮祿诰颍ǖ2版)》書可作為高等院校計算機、自動化、網絡安全、大數據分析等專業,以及利用到文本信息處理的交 叉學科(如金融財經、社會人文、生物醫藥等)的高年級本科生或研究生從事相關研究的入門參考書,也可供相關技術研發人員閱讀和參考。
文本數據挖掘(第2版) 目錄
第 1章緒論 1
1.1基本概念 1
1.2文本挖掘任務 2
1.3文本挖掘面臨的困難 5
1.4方法概述與本書的內容組織 8
1.5進一步閱讀 10
習題 11
第 2章數據預處理和標注 12
2.1概述 12
2.2數據獲取 12
2.3數據預處理 16
2.4數據標注 18
2.5基本工具 20
2.5.1漢語自動分詞與詞性標注 20
2.5.2句法分析 22
2.5.3 n元語法模型 23
2.6進一步閱讀 24
習題 24
第 3章文本表示 25
3.1概述 25
3.2向量空間模型 25
3.2.1向量空間模型的基本概念 25
3.2.2特征項的構造與權重 26
3.2.3文本長度規范化 27
3.2.4特征工程 28
3.2.5其他文本表示方法 30
3.3詞的分布式表示 31
文本數據挖掘 (第 2版)
3.3.1神經網絡語言模型 32
3.3.2 C&W模型 36
3.3.3 CBOW與 Skip-gram模型 38
3.3.4噪聲對比估計與負采樣 39
3.3.5字詞混合的分布式表示方法 41
3.4短語的分布式表示 43
3.4.1基于詞袋的分布式表示 43
3.4.2基于自動編碼器的分布式表示 43
3.5句子的分布式表示 46
3.5.1通用的句子表示 46
3.5.2任務相關的句子表示 49
3.6文檔的分布式表示 52
3.6.1通用的文檔分布式表示 53
3.6.2任務相關的文檔分布式表示 55
3.7進一步閱讀 56
習題 57
第 4章預訓練語言模型 58
4.1概述 58
4.2 ELMo:源自語言模型的語境化分布式向量表示 58
4.2.1基于雙向 LSTM的語言模型 59
4.2.2適應下游任務的語境化 ELMo詞向量 60
4.3 GPT:生成式預訓練模型 61
4.3.1 Transformer .62
4.3.2 GPT預訓練 63
4.3.3 GPT微調 64
4.4 BERT:雙向 Transformer編碼表示 65
4.4.1 BERT預訓練 66
4.4.2 BERT微調 68
4.4.3 XLNet:廣義自回歸預訓練模型 68
4.4.4 UniLM 71
4.5進一步閱讀 72
習題 72
第 5章文本分類 74
5.1概述 74
5.2傳統文本表示 75
目錄 XI
5.3特征選擇 76
5.3.1互信息法 76
5.3.2信息增益法 . 79
5.3.3卡方統計量法 80
5.3.4其他方法 81
5.4傳統分類算法 82
5.4.1樸素貝葉斯模型 82
5.4.2 logistic回歸、 softmax回歸與*大熵模型 84
5.4.3支持向量機 . 86
5.4.4集成學習 88
5.5深度神經網絡方法 89
5.5.1基于前饋神經網絡的文本分類方法 89
5.5.2基于卷積神經網絡的文本分類方法 89
5.5.3基于循環神經網絡的文本分類方法 91
5.6文本分類性能評估 94
5.7進一步閱讀 97
習題 97
第 6章文本聚類 99
6.1概述 99
6.2文本相似性度量 99
6.2.1樣本間的相似性 100
6.2.2簇間的相似性 102
6.2.3樣本與簇之間的相似性 103
6.3文本聚類算法 103
6.3.1 K-均值聚類 103
6.3.2單遍聚類 107
6.3.3層次聚類 108
6.3.4密度聚類 111
6.4性能評估 113
6.4.1外部標準 113
6.4.2內部標準 115
6.5進一步閱讀 115
習題 116
第 7章主題模型 117
7.1概述 117
文本數據挖掘 (第 2版)
7.2潛在語義分析 118
7.2.1詞項-文檔矩陣的奇異值分解 118
7.2.2詞項和文檔的概念表示及相似度計算 121
7.3概率潛在語義分析 123
7.3.1模型假設 123
7.3.2參數學習 124
7.4潛在狄利克雷分布 125
7.4.1模型假設 125
7.4.2詞項和主題序列的聯合概率 127
7.4.3模型推斷 129
7.4.4新文檔的推斷 131
7.4.5 PLSA與 LDA的聯系與區別 132
7.5進一步閱讀 132
習題 133
第 8章情感分析與觀點挖掘 135
8.1概述 135
8.2情感分析任務類型 136
8.2.1按目標形式劃分 136
8.2.2按分析粒度劃分 137
8.3文檔或句子級情感分析方法 139
8.3.1基于規則的無監督情感分類 140
8.3.2基于傳統機器學習的監督情感分類 141
8.3.3深度神經網絡方法 144
8.4詞語級情感分析與情感詞典構建 146
8.4.1基于語義知識庫的方法 147
8.4.2基于語料庫的方法 147
8.4.3情感詞典性能評估 149
8.5屬性級情感分析 150
8.5.1屬性抽取 150
8.5.2屬性情感分類 153
8.5.3主題與情感的生成式建模 157
8.6情感分析中的特殊問題 159
8.6.1情感極性轉移問題 159
8.6.2領域適應問題 160
8.7文本情緒分析 163
8.7.1心理學情緒理論 163
目錄 XIII
8.7.2文本情緒識別 163
8.7.3情緒原因挖掘 165
8.8進一步閱讀 167
習題 168
第 9章話題檢測與跟蹤 . 170
9.1概述 170
9.2術語與任務 172
9.2.1術語 172
9.2.2任務 173
9.3報道或話題的表示與相似性計算 175
9.4話題檢測 177
9.4.1話題在線檢測 177
9.4.2話題回溯檢測 179
9.5話題跟蹤 179
9.6評估方法 181
9.7社交媒體話題檢測與跟蹤 182
9.7.1社交媒體話題檢測 182
9.7.2社交媒體話題跟蹤 184
9.8突發話題檢測 184
9.8.1突發狀態識別 185
9.8.2以文檔為中心的方法 187
9.8.3以特征為中心的方法 188
9.9進一步閱讀 190
習題 190
文本數據挖掘(第2版) 作者簡介
宗成慶,中國科學院自動化所研究員、博士生導師,中國科學院大學崗位教授,ACL/CAAI/CCF Fellow,主要從事自然語言處理、機器翻譯和語言認知計算等研究,主持國家項目10余項,發表論文200余篇,出版《統計自然語言處理》、《文本數據挖掘》和Text Data Mining三部專著及兩部譯著。擔任國際計算語言學委員會(ICCL)委員,中國中文信息學會副理事長,曾任亞洲自然語言處理學會(AFNLP)主席,國際一流學術會議ACL’2015和COLING’2020程序委員會主席、ACL’2021大會主席。榮獲國家科技進步獎二等獎和多個省部級及國家一級學會的科技獎勵,獲得北京市優秀教師、中科院優秀導師和國科大李佩教學名師等若干榮譽。享受國務院特殊津貼。張家俊,中國科學院自動化研究所研究員、中國科學院大學崗位教授、博士生導師,主要研究方向為機器翻譯和自然語言處理,獲得國家優秀青年科學基金資助,入選中國科協首屆青年人才托舉工程、中國科學院青年創新促進會優秀會員和北京智源青年科學家。發表CCF-A/B類論文80余篇,出版學術專著2部,譯著1部。獲得中國中文信息學會錢偉長中文信息處理科學技術獎一等獎、青年創新獎一等獎和2020年北京市科學技術獎一等獎等。擔任中國中文信息學會青年工作委員會主任和機器翻譯專委會副主任。擔任ACL/EMNLP/COLING的(資深)領域主席和《自動化學報》等期刊的編委。夏睿,南京理工大學計算機學院教授、博士生導師,研究領域為人工智能、自然語言處理、文本數據挖掘,在國內外重要期刊和會議發表論文60余篇,出版學術專著2部,主持國家和省部級項目近10項,獲得國際計算語言學會年會ACL2019杰出論文獎、中國中文信息學會青年創新獎一等獎等榮譽,獲得江蘇省杰出青年基金資助。
- >
莉莉和章魚
- >
經典常談
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
中國歷史的瞬間
- >
名家帶你讀魯迅:朝花夕拾
- >
羅曼·羅蘭讀書隨筆-精裝
- >
上帝之肋:男人的真實旅程
- >
龍榆生:詞曲概論/大家小書