計算機(jī)科學(xué)叢書數(shù)據(jù)挖掘?qū)д?原書第2版) 版權(quán)信息
- ISBN:9787111631620
- 條形碼:9787111631620 ; 978-7-111-63162-0
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
計算機(jī)科學(xué)叢書數(shù)據(jù)挖掘?qū)д?原書第2版) 本書特色
本書所涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測建模、關(guān)聯(lián)分析、聚類分析、異常檢測和避免錯誤發(fā)現(xiàn)。通過介紹每個主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實際問題所需的必要背景。
計算機(jī)科學(xué)叢書數(shù)據(jù)挖掘?qū)д?原書第2版) 內(nèi)容簡介
本書所涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測建模、關(guān)聯(lián)分析、聚類分析、異常檢測和避免錯誤發(fā)現(xiàn)。通過介紹每個主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實際問題所需的必要背景。
計算機(jī)科學(xué)叢書數(shù)據(jù)挖掘?qū)д?原書第2版) 目錄
出版者的話
譯者序
前言
第1章 緒論1
1.1 什么是數(shù)據(jù)挖掘2
1.2 數(shù)據(jù)挖掘要解決的問題3
1.3 數(shù)據(jù)挖掘的起源4
1.4 數(shù)據(jù)挖掘任務(wù)5
1.5 本書組織結(jié)構(gòu)7
文獻(xiàn)注釋8
參考文獻(xiàn)10
習(xí)題12
第2章 數(shù)據(jù)14
2.1 數(shù)據(jù)類型15
2.1.1 屬性與度量16
2.1.2 數(shù)據(jù)集的類型19
2.2 數(shù)據(jù)質(zhì)量24
2.2.1 測量和數(shù)據(jù)收集問題24
2.2.2 關(guān)于應(yīng)用的問題27
2.3 數(shù)據(jù)預(yù)處理28
2.3.1 聚集28
2.3.2 抽樣30
2.3.3 維歸約31
2.3.4 特征子集選擇32
2.3.5 特征創(chuàng)建34
2.3.6 離散化和二元化35
2.3.7 變量變換38
2.4 相似性和相異性的度量40
2.4.1 基礎(chǔ)40
2.4.2 簡單屬性之間的相似度和相異度41
2.4.3 數(shù)據(jù)對象之間的相異度42
2.4.4 數(shù)據(jù)對象之間的相似度44
2.4.5 鄰近度度量的例子44
2.4.6 互信息50
* 2.4.7 核函數(shù)51
* 2.4.8 Bregman散度53
2.4.9 鄰近度計算問題54
2.4.10 選擇正確的鄰近度度量56
文獻(xiàn)注釋56
參考文獻(xiàn)58
習(xí)題60
第3章 分類:基本概念和技術(shù)65
3.1 基本概念65
3.2 一般的分類框架67
3.3 決策樹分類器69
3.3.1 構(gòu)建決策樹的基本算法70
3.3.2 表示屬性測試條件的方法71
3.3.3 選擇屬性測試條件的方法73
3.3.4 決策樹歸納算法79
3.3.5 示例:Web機(jī)器人檢測79
3.3.6 決策樹分類器的特征81
3.4 模型的過擬合85
3.5 模型選擇90
3.5.1 驗證集應(yīng)用90
3.5.2 模型復(fù)雜度合并91
3.5.3 統(tǒng)計范圍估計93
3.5.4 決策樹的模型選擇94
3.6 模型評估95
3.6.1 保持方法95
3.6.2 交叉驗證96
3.7 超參數(shù)的使用97
3.7.1 超參數(shù)選擇98
3.7.2 嵌套交叉驗證98
3.8 模型選擇和評估中的陷阱99
3.8.1 訓(xùn)練集和測試集之間的重疊99
3.8.2 使用驗證錯誤率作為泛化錯誤率100
* 3.9 模型比較100
3.9.1 估計準(zhǔn)確率的置信區(qū)間100
3.9.2 比較兩個模型的性能101
文獻(xiàn)注釋102
參考文獻(xiàn)105
習(xí)題108
第4章 分類:其他技術(shù)114
4.1 分類器的種類114
4.2 基于規(guī)則的分類器115
4.2.1 基于規(guī)則的分類器原理116
4.2.2 規(guī)則集的屬性116
4.2.3 規(guī)則提取的直接方法117
4.2.4 規(guī)則提取的間接方法120
4.2.5 基于規(guī)則的分類器的特點121
4.3 *近鄰分類器122
4.3.1 算法123
4.3.2 *近鄰分類器的特點124
4.4 樸素貝葉斯分類器124
4.4.1 概率論基礎(chǔ)125
4.4.2 樸素貝葉斯假設(shè)127
4.5 貝葉斯網(wǎng)絡(luò)132
4.5.1 圖表示132
4.5.2 推理與學(xué)習(xí)135
4.5.3 貝葉斯網(wǎng)絡(luò)的特點139
4.6 logistic回歸140
4.6.1 logistic回歸用作廣義線性模型141
4.6.2 學(xué)習(xí)模型參數(shù)141
4.6.3 logistic回歸模型的特點142
4.7 人工神經(jīng)網(wǎng)絡(luò)143
4.7.1 感知機(jī)144
4.7.2 多層神經(jīng)網(wǎng)絡(luò)146
4.7.3 人工神經(jīng)網(wǎng)絡(luò)的特點150
4.8 深度學(xué)習(xí)151
4.8.1 使用協(xié)同損失函數(shù)151
4.8.2 使用響應(yīng)激活函數(shù)153
4.8.3 正則化154
4.8.4 模型參數(shù)的初始化155
4.8.5 深度學(xué)習(xí)的特點157
4.9 支持向量機(jī)158
4.9.1 分離超平面的邊緣158
4.9.2 線性SVM159
4.9.3 軟邊緣SVM162
4.9.4 非線性SVM165
4.9.5 SVM的特點167
4.10 組合方法168
4.10.1 組合方法的基本原理168
4.10.2 構(gòu)建組合分類器的方法169
4.10.3 偏置方差分解170
4.10.4 裝袋171
4.10.5 提升173
4.10.6 隨機(jī)森林176
4.10.7 組合方法的實驗比較177
4.11 類不平衡問題178
4.11.1 類不平衡的分類器構(gòu)建179
4.11.2 帶類不平衡的性能評估180
4.11.3 尋找*優(yōu)的評分閾值183
4.11.4 綜合評估性能183
4.12 多類問題188
文獻(xiàn)注釋189
參考文獻(xiàn)193
習(xí)題198
第5章 關(guān)聯(lián)分析:基本概念和算法205
5.1 預(yù)備知識205
5.2 頻繁項集的產(chǎn)生207
5.2.1 先驗原理209
5.2.2 Apriori算法的頻繁項集產(chǎn)生210
5.2.3 候選項集的產(chǎn)生與剪枝212
5.2.4 支持度計數(shù)215
5.2.5 計算復(fù)雜度217
5.3 規(guī)則的產(chǎn)生219
5.3.1 基于置信度的剪枝219
5.3.2 Apriori算法中規(guī)則的產(chǎn)生219
5.3.3 示例:美國國會投票記錄221
5.4 頻繁項集的緊湊表示221
5.4.1 極大頻繁項集221
5.4.2 閉項集223
* 5.5 其他產(chǎn)生頻繁項集的方法225
* 5.6 FP增長算法228
5.6.1 FP樹表示法228
5.6.2 FP增長算法的頻繁項集產(chǎn)生229
5.7 關(guān)聯(lián)模式的評估231
5.7.1 興趣度的客觀度量232
5.7.2 多個二元變量的度量239
5.7.3 辛普森悖論240
5.8 傾斜支持度分布的影響241
文獻(xiàn)注釋244
參考文獻(xiàn)248
習(xí)題256
第6章 關(guān)聯(lián)分析:高級概念263
6.1 處理
譯者序
前言
第1章 緒論1
1.1 什么是數(shù)據(jù)挖掘2
1.2 數(shù)據(jù)挖掘要解決的問題3
1.3 數(shù)據(jù)挖掘的起源4
1.4 數(shù)據(jù)挖掘任務(wù)5
1.5 本書組織結(jié)構(gòu)7
文獻(xiàn)注釋8
參考文獻(xiàn)10
習(xí)題12
第2章 數(shù)據(jù)14
2.1 數(shù)據(jù)類型15
2.1.1 屬性與度量16
2.1.2 數(shù)據(jù)集的類型19
2.2 數(shù)據(jù)質(zhì)量24
2.2.1 測量和數(shù)據(jù)收集問題24
2.2.2 關(guān)于應(yīng)用的問題27
2.3 數(shù)據(jù)預(yù)處理28
2.3.1 聚集28
2.3.2 抽樣30
2.3.3 維歸約31
2.3.4 特征子集選擇32
2.3.5 特征創(chuàng)建34
2.3.6 離散化和二元化35
2.3.7 變量變換38
2.4 相似性和相異性的度量40
2.4.1 基礎(chǔ)40
2.4.2 簡單屬性之間的相似度和相異度41
2.4.3 數(shù)據(jù)對象之間的相異度42
2.4.4 數(shù)據(jù)對象之間的相似度44
2.4.5 鄰近度度量的例子44
2.4.6 互信息50
* 2.4.7 核函數(shù)51
* 2.4.8 Bregman散度53
2.4.9 鄰近度計算問題54
2.4.10 選擇正確的鄰近度度量56
文獻(xiàn)注釋56
參考文獻(xiàn)58
習(xí)題60
第3章 分類:基本概念和技術(shù)65
3.1 基本概念65
3.2 一般的分類框架67
3.3 決策樹分類器69
3.3.1 構(gòu)建決策樹的基本算法70
3.3.2 表示屬性測試條件的方法71
3.3.3 選擇屬性測試條件的方法73
3.3.4 決策樹歸納算法79
3.3.5 示例:Web機(jī)器人檢測79
3.3.6 決策樹分類器的特征81
3.4 模型的過擬合85
3.5 模型選擇90
3.5.1 驗證集應(yīng)用90
3.5.2 模型復(fù)雜度合并91
3.5.3 統(tǒng)計范圍估計93
3.5.4 決策樹的模型選擇94
3.6 模型評估95
3.6.1 保持方法95
3.6.2 交叉驗證96
3.7 超參數(shù)的使用97
3.7.1 超參數(shù)選擇98
3.7.2 嵌套交叉驗證98
3.8 模型選擇和評估中的陷阱99
3.8.1 訓(xùn)練集和測試集之間的重疊99
3.8.2 使用驗證錯誤率作為泛化錯誤率100
* 3.9 模型比較100
3.9.1 估計準(zhǔn)確率的置信區(qū)間100
3.9.2 比較兩個模型的性能101
文獻(xiàn)注釋102
參考文獻(xiàn)105
習(xí)題108
第4章 分類:其他技術(shù)114
4.1 分類器的種類114
4.2 基于規(guī)則的分類器115
4.2.1 基于規(guī)則的分類器原理116
4.2.2 規(guī)則集的屬性116
4.2.3 規(guī)則提取的直接方法117
4.2.4 規(guī)則提取的間接方法120
4.2.5 基于規(guī)則的分類器的特點121
4.3 *近鄰分類器122
4.3.1 算法123
4.3.2 *近鄰分類器的特點124
4.4 樸素貝葉斯分類器124
4.4.1 概率論基礎(chǔ)125
4.4.2 樸素貝葉斯假設(shè)127
4.5 貝葉斯網(wǎng)絡(luò)132
4.5.1 圖表示132
4.5.2 推理與學(xué)習(xí)135
4.5.3 貝葉斯網(wǎng)絡(luò)的特點139
4.6 logistic回歸140
4.6.1 logistic回歸用作廣義線性模型141
4.6.2 學(xué)習(xí)模型參數(shù)141
4.6.3 logistic回歸模型的特點142
4.7 人工神經(jīng)網(wǎng)絡(luò)143
4.7.1 感知機(jī)144
4.7.2 多層神經(jīng)網(wǎng)絡(luò)146
4.7.3 人工神經(jīng)網(wǎng)絡(luò)的特點150
4.8 深度學(xué)習(xí)151
4.8.1 使用協(xié)同損失函數(shù)151
4.8.2 使用響應(yīng)激活函數(shù)153
4.8.3 正則化154
4.8.4 模型參數(shù)的初始化155
4.8.5 深度學(xué)習(xí)的特點157
4.9 支持向量機(jī)158
4.9.1 分離超平面的邊緣158
4.9.2 線性SVM159
4.9.3 軟邊緣SVM162
4.9.4 非線性SVM165
4.9.5 SVM的特點167
4.10 組合方法168
4.10.1 組合方法的基本原理168
4.10.2 構(gòu)建組合分類器的方法169
4.10.3 偏置方差分解170
4.10.4 裝袋171
4.10.5 提升173
4.10.6 隨機(jī)森林176
4.10.7 組合方法的實驗比較177
4.11 類不平衡問題178
4.11.1 類不平衡的分類器構(gòu)建179
4.11.2 帶類不平衡的性能評估180
4.11.3 尋找*優(yōu)的評分閾值183
4.11.4 綜合評估性能183
4.12 多類問題188
文獻(xiàn)注釋189
參考文獻(xiàn)193
習(xí)題198
第5章 關(guān)聯(lián)分析:基本概念和算法205
5.1 預(yù)備知識205
5.2 頻繁項集的產(chǎn)生207
5.2.1 先驗原理209
5.2.2 Apriori算法的頻繁項集產(chǎn)生210
5.2.3 候選項集的產(chǎn)生與剪枝212
5.2.4 支持度計數(shù)215
5.2.5 計算復(fù)雜度217
5.3 規(guī)則的產(chǎn)生219
5.3.1 基于置信度的剪枝219
5.3.2 Apriori算法中規(guī)則的產(chǎn)生219
5.3.3 示例:美國國會投票記錄221
5.4 頻繁項集的緊湊表示221
5.4.1 極大頻繁項集221
5.4.2 閉項集223
* 5.5 其他產(chǎn)生頻繁項集的方法225
* 5.6 FP增長算法228
5.6.1 FP樹表示法228
5.6.2 FP增長算法的頻繁項集產(chǎn)生229
5.7 關(guān)聯(lián)模式的評估231
5.7.1 興趣度的客觀度量232
5.7.2 多個二元變量的度量239
5.7.3 辛普森悖論240
5.8 傾斜支持度分布的影響241
文獻(xiàn)注釋244
參考文獻(xiàn)248
習(xí)題256
第6章 關(guān)聯(lián)分析:高級概念263
6.1 處理
展開全部
計算機(jī)科學(xué)叢書數(shù)據(jù)挖掘?qū)д?原書第2版) 作者簡介
陳封能(Pang-Ning Tan) ,密歇根州立大學(xué)計算機(jī)科學(xué)與工程系教授,主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)空間安全、網(wǎng)絡(luò)分析等。
書友推薦
- >
二體千字文
- >
莉莉和章魚
- >
伯納黛特,你要去哪(2021新版)
- >
中國歷史的瞬間
- >
巴金-再思錄
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學(xué)概述
- >
推拿
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
本類暢銷