包郵 經(jīng)典原版書(shū)庫(kù)數(shù)據(jù)挖掘?qū)д?英文版.原書(shū)第2版)/[美]陳封能
-
>
闖進(jìn)數(shù)學(xué)世界――探秘歷史名題
-
>
中醫(yī)基礎(chǔ)理論
-
>
當(dāng)代中國(guó)政府與政治(新編21世紀(jì)公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國(guó)特色社會(huì)主義理論體系概論(2021年版)
-
>
中醫(yī)內(nèi)科學(xué)·全國(guó)中醫(yī)藥行業(yè)高等教育“十四五”規(guī)劃教材
經(jīng)典原版書(shū)庫(kù)數(shù)據(jù)挖掘?qū)д?英文版.原書(shū)第2版)/[美]陳封能 版權(quán)信息
- ISBN:9787111637882
- 條形碼:9787111637882 ; 978-7-111-63788-2
- 裝幀:平裝-膠訂
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類:>>
經(jīng)典原版書(shū)庫(kù)數(shù)據(jù)挖掘?qū)д?英文版.原書(shū)第2版)/[美]陳封能 本書(shū)特色
本書(shū)從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。為了更好地理解數(shù)據(jù)挖掘技術(shù)如何用于各種類型的數(shù)據(jù),研究這些原理與技術(shù)是至關(guān)重要的。
本書(shū)所涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測(cè)建模、關(guān)聯(lián)分析、聚類分析、異常檢測(cè)和避免錯(cuò)誤發(fā)現(xiàn)。通過(guò)介紹每個(gè)主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實(shí)際問(wèn)題所需的必要背景以及使用方法。
經(jīng)典原版書(shū)庫(kù)數(shù)據(jù)挖掘?qū)д?英文版.原書(shū)第2版)/[美]陳封能 內(nèi)容簡(jiǎn)介
本書(shū)從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。為了更好地理解數(shù)據(jù)挖掘技術(shù)如何用于各種類型的數(shù)據(jù),研究這些原理與技術(shù)是至關(guān)重要的。 本書(shū)所涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測(cè)建模、關(guān)聯(lián)分析、聚類分析、異常檢測(cè)和避免錯(cuò)誤發(fā)現(xiàn)。通過(guò)介紹每個(gè)主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實(shí)際問(wèn)題所需的必要背景以及使用方法。
經(jīng)典原版書(shū)庫(kù)數(shù)據(jù)挖掘?qū)д?英文版.原書(shū)第2版)/[美]陳封能 目錄
1.1 什么是數(shù)據(jù)挖掘 4
1.2 數(shù)據(jù)挖掘要解決的問(wèn)題 5
1.3 數(shù)據(jù)挖掘的起源 7
1.4 數(shù)據(jù)挖掘任務(wù) 9
1.5 本書(shū)組織結(jié)構(gòu) 13
1.6 文獻(xiàn)注釋 15
1.7 習(xí)題 21
第2章 數(shù)據(jù) 23
2.1 數(shù)據(jù)類型 26
2.1.1 屬性與度量 27
2.1.2 數(shù)據(jù)集的類型 34
2.2 數(shù)據(jù)質(zhì)量 42
2.2.1 測(cè)量和數(shù)據(jù)收集問(wèn)題 42
2.2.2 關(guān)于應(yīng)用的問(wèn)題 49
2.3 數(shù)據(jù)預(yù)處理 50
2.3.1 聚集 51
2.3.2 抽樣 52
2.3.3 維歸約 56
2.3.4 特征子集選擇 58
2.3.5 特征創(chuàng)建 61
2.3.6 離散化和二元化 63
2.3.7 變量變換 69
2.4 相似性和相異性的度量 71
2.4.1 基礎(chǔ) 72
2.4.2 簡(jiǎn)單屬性之間的相似度和相異度 74
2.4.3 數(shù)據(jù)對(duì)象之間的相異度 76
2.4.4 數(shù)據(jù)對(duì)象之間的相似度 78
2.4.5 鄰近度度量的例子 79
2.4.6 互信息 88
* 2.4.7 核函數(shù) 90
* 2.4.8 Bregman散度 94
2.4.9 鄰近度計(jì)算問(wèn)題 96
2.4.10 選擇正確的鄰近度度量 98
2.5 文獻(xiàn)注釋 100
2.6 習(xí)題 105
第3章 分類:基本概念和技術(shù) 113
3.1 基本概念 114
3.2 一般的分類框架 117
3.3 決策樹(shù)分類器 119
3.3.1 構(gòu)建決策樹(shù)的基本算法 121
3.3.2 表示屬性測(cè)試條件的方法 124
3.3.3 選擇屬性測(cè)試條件的方法 127
3.3.4 決策樹(shù)歸納算法 136
3.3.5 示例:Web機(jī)器人檢測(cè) 138
3.3.6 決策樹(shù)分類器的特征 140
3.4 模型的過(guò)擬 147
3.5 模型選擇 156
3.5.1 驗(yàn)證集應(yīng)用 156
3.5.2 模型復(fù)雜度合并 157
3.5.3 統(tǒng)計(jì)范圍估計(jì) 162
3.5.4 決策樹(shù)的模型選擇 162
3.6 模型評(píng)估 164
3.6.1 保持方法 165
3.6.2 交叉驗(yàn)證 165
3.7 超參數(shù)的使用 168
3.7.1 超參數(shù)選擇 168
3.7.2 嵌套交叉驗(yàn)證 170
3.8 模型選擇和評(píng)估中的陷阱 172
3.8.1 訓(xùn)練集和測(cè)試集之間的重疊 172
3.8.2 使用驗(yàn)證錯(cuò)誤率作為泛化錯(cuò)誤率
*3.9 模型比較 173
3.9.1 估計(jì)準(zhǔn)確率的置信區(qū)間 174
3.9.2 比較兩個(gè)模型的性能 175
3.10 文獻(xiàn)注釋 176
3.11 習(xí)題 185
第4章 分類:其他技術(shù) 193
4.1 分類器的種類 193
4.2 基于規(guī)則的分類器 195
4.2.1 基于規(guī)則的分類器原理 197
4.2.2 規(guī)則集的屬性 198
4.2.3 規(guī)則提取的直接方法 199
4.2.4 規(guī)則提取的間接方法 204
4.2.5 基于規(guī)則的分類器的特點(diǎn) 206
4.3 *近鄰分類器 208
4.3.1 算法 209
4.3.2 *近鄰分類器的特點(diǎn) 210
4.4 樸素貝葉斯分類器 212
4.4.1 概率論基礎(chǔ) 213
4.4.2 樸素貝葉斯假設(shè) 218
4.5 貝葉斯網(wǎng)絡(luò) 227
4.5.1 圖表示 227
4.5.2 推理與學(xué)習(xí) 233
4.5.3 貝葉斯網(wǎng)絡(luò)的特點(diǎn) 242
4.6 logistic回歸 243
4.6.1 logistic回歸用作廣義線性模型 244
4.6.2 學(xué)習(xí)模型參數(shù) 245
4.6.3 logistic回歸模型的特點(diǎn) 248
4.7 人工神經(jīng)網(wǎng)絡(luò) 249
4.7.1 感知機(jī) 250
4.7.2 多層神經(jīng)網(wǎng)絡(luò) 254
4.7.3 人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 261
4.8 深度學(xué)習(xí) 262
4.8.1 使用協(xié)同損失函數(shù) 263
4.8.2 使用響應(yīng)激活函數(shù) 266
4.8.3 正則化 268
4.8.4 模型參數(shù)的初始化 271
4.8.5 深度學(xué)習(xí)的特點(diǎn) 275
4.9 支持向量機(jī) 276
4.9.1 分離超平面的邊緣 276
4.9.2 線性SVM 278
4.9.3 軟邊緣SVM 284
4.9.4 非線性SVM 290
4.9.5 SVM的特點(diǎn) 294
4.10 組合方法 296
4.10.1 組合方法的基本原理 297
4.10.2 構(gòu)建組合分類器的方法 297
4.10.3 偏置–方差分解 300
4.10.4 裝袋 302
4.10.5 提升 305
4.10.6 隨機(jī)森林 310
4.10.7 組合方法的實(shí)驗(yàn)比較 312
4.11 類不平衡問(wèn)題 313
4.11.1 類不平衡的分類器構(gòu)建 314
4.11.2 帶類不平衡的性能評(píng)估 318
4.11.3 尋找*優(yōu)的評(píng)分閾值 322
4.11.4 綜合評(píng)估性能 323
4.12 多類問(wèn)題 330
4.13 文獻(xiàn)注釋 333
4.14 習(xí)題 345
第5章 關(guān)聯(lián)分析:基本概念和算法 357
5.1 預(yù)備知識(shí) 358
5.2 頻繁項(xiàng)集的產(chǎn)生 362
5.2.1 先驗(yàn)原理 363
5.2.2 Apriori算法的頻繁項(xiàng)集產(chǎn)生 364
5.2.3 候選項(xiàng)集的產(chǎn)生與剪枝 368
5.2.4 支持度計(jì)數(shù) 373
5.2.5 計(jì)算復(fù)雜度 377
5.3 規(guī)則的產(chǎn)生 380
5.3.1 基于置信度的剪枝 380
5.3.2 Apriori算法中規(guī)則的產(chǎn)生 381
5.3.3 示例:美國(guó)國(guó)會(huì)投票記錄 382
5.4 頻繁項(xiàng)集的緊湊表示 384
5.4.1 極大頻繁項(xiàng)集 384
5.4.2 閉項(xiàng)集 386
*5.5 其他產(chǎn)生頻繁項(xiàng)集的方法 389
*5.6 FP增長(zhǎng)算法 393
5.6.1 FP樹(shù)表示法 394
5.6.2 FP增長(zhǎng)算法的頻繁項(xiàng)集產(chǎn)生 397
5.7 關(guān)聯(lián)模式的評(píng)估 401
5.7.1 興趣度的客觀度量 402
5.7.2 多個(gè)二元變量的度量 414
5.7.3 辛普森悖論 416
5.8 傾斜支持度分布的影響 418
5.9 文獻(xiàn)注釋 424
5.10 習(xí)題 438
第6章 關(guān)聯(lián)分析:高級(jí)概念 451
6.1 處理分類屬性 451
6.2 處理連續(xù)屬性 454
6.2.1 基于離散化的方法 454
6.2.2 基于統(tǒng)計(jì)學(xué)的方法 458
6.2.3 非離散化方法 460
6.3 處理概念分層 462
6.4 序列模式 464
6.4.1 預(yù)備知識(shí) 465
6.4.2 序列模式發(fā)現(xiàn) 468
* 6.4.3 時(shí)限約束 473
* 6.4.4 可選計(jì)數(shù)方案 477
6.5 子圖模式 479
6.5.1 預(yù)備知識(shí) 480
6.5.2 頻繁子圖挖掘 483
6.5.3 候選生成 487
6.5.4 候選剪枝 493
6.5.5 支持度計(jì)數(shù) 493
*6.6 非頻繁模式 493
6.6.1 負(fù)模式 494
6.6.2 負(fù)相關(guān)模式 495
6.6.3 非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較 496
6.6.4 挖掘有趣的非頻繁模式的技術(shù) 498
6.6.5 基于挖掘負(fù)模式的技術(shù) 499
6.6.6 基于支持度期望的技術(shù) 501
6.7 文獻(xiàn)注釋 505
6.8 習(xí)題 510
第7章 聚類分析:基本概念和算法 525
7.1 概述 528
7.1.1 什么是聚類分析 528
7.1.2 聚類的不同類型 529
7.1.3 簇的不同類型 531
7.2 K均值 534
7.2.1 K均值算法 535
7.2.2 K均值:附加的問(wèn)題 544
7.2.3 二分K均值 547
7.2.4 K均值和不同的簇類型 548
7.2.5 優(yōu)點(diǎn)與缺點(diǎn) 549
7.2.6 K均值作為優(yōu)化問(wèn)題 549
7.3 凝聚層次聚類 554
7.3.1 基本凝聚層次聚類算法 555
7.3.2 特殊技術(shù) 557
7.3.3 簇鄰近度的Lance-Williams公式 562
7.3.4 層次聚類的主要問(wèn)題 563
7.3.5 離群點(diǎn) 564
7.3.6 優(yōu)點(diǎn)與缺點(diǎn) 565
7.4 DBSCAN 565
7.4.1 傳統(tǒng)的密度:基于中心的方法 565
7.4.2 DBSCAN算法 567
7.4.3 優(yōu)點(diǎn)與缺點(diǎn) 569
7.5 簇評(píng)估 571
7.5.1 概述 571
7.5.2 無(wú)監(jiān)督簇評(píng)估:使用凝聚度和分離度 574
7.5.3 無(wú)監(jiān)督簇評(píng)估:使用鄰近度矩陣 582
7.5.4 層次聚類的無(wú)監(jiān)督評(píng)估 585
7.5.5 確定正確的簇個(gè)數(shù) 587
7.5.6 聚類趨勢(shì) 588
7.5.7 簇有效性的監(jiān)督度量 589
7.5.8 評(píng)估簇有效性度量的顯著性 594
7.5.9 簇有效性度量的選擇 596
7.6 文獻(xiàn)注釋 597
7.7 習(xí)題 603
第8章 聚類分析:其他問(wèn)題與算法 613
8.1 數(shù)據(jù)、簇和聚類算法的特性 614
8.1.1 示例:比較K均值和DBSCAN 614
8.1.2 數(shù)據(jù)特性 615
8.1.3 簇特性 617
8.1.4 聚類算法的一般特性 619
8.2 基于原型的聚類 621
8.2.1 模糊聚類 621
8.2.2 使用混合模型的聚類 627
8.2.3 自組織映射 637
8.3 基于密度的聚類 644
8.3.1 基于網(wǎng)格的聚類 644
8.3.2 子空間聚類 648
8.3.3 DENCLUE:基于密度聚類的一種基于核的方案 652
8.4 基于圖的聚類 656
8.4.1 稀疏化 657
8.4.2 *小生成樹(shù)聚類 658
8.4.3 OPOSSUM:使用METIS的稀疏相似度*優(yōu)劃分 659
8.4.4 Chameleon:使用動(dòng)態(tài)建模的層次聚類 660
8.4.5 譜聚類 666
8.4.6 共享*近鄰相似度 673
8.4.7 Jarvis-Patrick聚類算法 676
8.4.8 SNN密度 678
8.4.9 基于SNN密度的聚類 679
8.5 可伸縮的聚類算法 681
8.5.1 可伸縮:一般問(wèn)題和方法 681
8.5.2 BIRCH 684
8.5.3 CURE 686
8.6 使用哪種聚類算法 690
8.7 文獻(xiàn)注釋 693
8.8 習(xí)題 699
第9章 異常檢測(cè) 703
9.1 異常檢測(cè)問(wèn)題的特性 705
9.1.1 異常的定義 705
9.1.2 數(shù)據(jù)的性質(zhì) 706
9.1.3 如何使用異常檢測(cè) 707
9.2 異常檢測(cè)方法的特性 708
9.3 統(tǒng)計(jì)方法 710
9.3.1 使用參數(shù)模型 710
9.3.2 使用非參數(shù)模型 714
9.3.3 對(duì)正常類和異常類建模 715
9.3.4 評(píng)估統(tǒng)計(jì)意義 717
9.3.5 優(yōu)點(diǎn)與缺點(diǎn) 718
9.4 基于鄰近度的方法 719
9.4.1 基于距離的異常分?jǐn)?shù) 719
9.4.2 基于密度的異常分?jǐn)?shù) 720
9.4.3 基于相對(duì)密度的異常分?jǐn)?shù) 722
9.4.4 優(yōu)點(diǎn)與缺點(diǎn) 723
9.5 基于聚類的方法 724
9.5.1 發(fā)現(xiàn)異常簇 724
9.5.2 發(fā)現(xiàn)異常實(shí)例 725
9.5.3 優(yōu)點(diǎn)與缺點(diǎn) 728
9.6 基于重構(gòu)的方法 728
9.7 單類分類 732
9.7.1 核函數(shù)的使用 733
9.7.2 原點(diǎn)技巧 734
9.7.3 優(yōu)點(diǎn)與缺點(diǎn) 738
9.8 信息論方法 738
9.9 異常檢測(cè)評(píng)估 740
9.10 文獻(xiàn)注釋 742
9.11 習(xí)題 749
第10章 避免錯(cuò)誤發(fā)現(xiàn) 755
10.1 預(yù)備知識(shí):統(tǒng)計(jì)檢驗(yàn) 756
10.1.1 顯著性檢驗(yàn) 756
10.1.2 假設(shè)檢驗(yàn) 761
10.1.3 多重假設(shè)檢驗(yàn) 767
10.1.4 統(tǒng)計(jì)檢驗(yàn)中的陷阱 776
10.2 對(duì)零分布和替代分布建模 778
10.2.1 生成合成數(shù)據(jù)集 781
10.2.2 隨機(jī)化類標(biāo) 782
10.2.3 實(shí)例重采樣 782
10.2.4 對(duì)檢驗(yàn)統(tǒng)計(jì)量的分布建模 783
10.3 分類問(wèn)題的統(tǒng)計(jì)檢驗(yàn) 783
10.3.1 評(píng)估分類性能 783
10.3.2 以多重假設(shè)檢 驗(yàn)處理二分類問(wèn)題 785
10.3.3 模型選擇中的多重假設(shè)檢驗(yàn) 786
10.4 關(guān)聯(lián)分析的統(tǒng)計(jì)檢驗(yàn) 787
10.4.1 使用統(tǒng)計(jì)模型 788
10.4.2 使用隨機(jī)化方法 794
10.5 聚類分析的統(tǒng)計(jì)檢驗(yàn) 795
10.5.1 為內(nèi)部指標(biāo)生成零分布 796
10.5.2 為外部指標(biāo)生成零分布 798
10.5.3 富集 798
10.6 異常檢測(cè)的統(tǒng)計(jì)檢驗(yàn) 800
10.7 文獻(xiàn)注釋 803
10.8 習(xí)題 808
Contents
1 Introduction 1
1.1 What Is Data Mining? 4
1.2 Motivating Challenges 5
1.3 The Origins of Data Mining 7
1.4 Data Mining Tasks 9
1.5 Scope and Organization of the Book 13
1.6 Bibliographic Notes 15
1.7 Exercises 21
2 Data 23
2.1 Types of Data 26
2.1.1 Attributes and Measurement 27
2.1.2 Types of Data Sets 34
2.2 Data Quality 42
2.2.1 Measurement and Data Collection Issues 42
2.2.2 Issues Related to Applications 49
2.3 Data Preprocessing 50
2.3.1 Aggregation 51
2.3.2 Sampling 52
2.3.3 Dimensionality Reduction 56
經(jīng)典原版書(shū)庫(kù)數(shù)據(jù)挖掘?qū)д?英文版.原書(shū)第2版)/[美]陳封能 作者簡(jiǎn)介
陳封能(Pang-Ning Tan) 密歇根州立大學(xué)計(jì)算機(jī)科學(xué)與工程系教授,主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)系統(tǒng)、網(wǎng)絡(luò)空間安全、網(wǎng)絡(luò)分析等。
- >
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(shū)(紅燭學(xué)術(shù)叢書(shū))
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
莉莉和章魚(yú)
- >
人文閱讀與收藏·良友文學(xué)叢書(shū):一天的工作
- >
龍榆生:詞曲概論/大家小書(shū)
- >
推拿
- >
唐代進(jìn)士錄
- >
山海經(jīng)