-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
數據挖掘算法與應用(Python實現)(高等學校計算機專業規劃教材) 版權信息
- ISBN:9787302563778
- 條形碼:9787302563778 ; 978-7-302-56377-8
- 裝幀:70g膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數據挖掘算法與應用(Python實現)(高等學校計算機專業規劃教材) 本書特色
本書是作者近幾年面向本科生和研究生開設的“數據挖掘及應用”的教學實踐與積累,介紹數據挖掘的經典算法、典型應用,以及Python數據分析、挖掘實現和6個經典應用案例。
數據挖掘算法與應用(Python實現)(高等學校計算機專業規劃教材) 內容簡介
本教材以數據挖掘的經典算法為主線,基礎部分講清楚數據挖掘的過程和經典算法:數據探索、數據預處理、分類與回歸、聚類分析、關聯規則挖掘、偏差檢測等。同時增加實現應用部分,在應用實現部分,以Python作為描述語言,以解決某個應用的挖掘目標為前提,介紹案例背景,闡述分析方法與過程,完成模型構建,給出算法的具體實現,通過此項目的方法提升學生的算法理解和應用能力,適應當今大數據時代對于高級工程師的數據分析能力。
數據挖掘算法與應用(Python實現)(高等學校計算機專業規劃教材) 目錄
第1章數據挖掘導論/1
1.1為什么進行數據挖掘2
1.1.1數據挖掘起源2
1.1.2數據挖掘是數據處理的高級階段3
1.2什么是數據挖掘4
1.2.1廣義技術角度的定義4
1.2.2狹義技術角度的定義5
1.2.3商業角度的定義6
1.2.4數據挖掘與機器學習6
1.3挖掘什么類型的數據7
1.3.1數據庫數據7
1.3.2數據倉庫數據8
1.3.3事務數據9
1.3.4其他類型的數據9
1.4能挖掘到什么知識10
1.4.1廣義知識11
1.4.2關聯知識12
1.4.3聚類知識13
1.4.4分類知識13
1.4.5預測型知識14
1.4.6偏差型知識14
1.4.7有價值的知識15
1.5數據挖掘方法15
1.5.1統計學16
1.5.2機器學習16
1.5.3數據庫系統和數據倉庫18
1.5.4智能優化19
1.6數據挖掘過程20
1.6.1Fayyad數據挖掘模型20
1.6.2CRISPDM模型211.6.3CRISPDM案例25
1.6.4數據挖掘過程的工作量26
1.6.5數據挖掘需要的人員26
1.7數據挖掘應用27
1.7.1數據挖掘在市場營銷中的應用27
1.7.2數據挖掘在電信行業的應用28
1.7.3數據挖掘在銀行業的應用29
1.7.4數據挖掘在社交網絡分析中的應用29
1.7.5數據挖掘在軟件工程中的應用30
1.8數據挖掘中的隱私權保護33
1.8.1侵犯隱私權的表現34
1.8.2保護隱私權的對策35
1.9數據挖掘課程學習方法和資源36
1.9.1數據挖掘課程學習方法36
1.9.2開源數據挖掘工具37
1.9.3經典測試數據集39
1.9.4著名國際會議和期刊40
1.10思考與練習41
數據挖掘算法與應用(Python實現)目錄第2章數據探索與預處理/43
2.1數據屬性類型44
2.2數據的統計描述45
2.2.1中心趨勢度量: 均值、中位數和眾數45
2.2.2度量數據散布47
2.3統計描述圖形49
2.4數據相似性度量53
2.4.1數據矩陣與相異性矩陣53
2.4.2標稱屬性的相異性度量54
2.4.3二元屬性的相異性度量54
2.4.4數值屬性的相異性56
2.4.5序數屬性的鄰近性度量58
2.5數據清洗59
2.5.1缺失值處理59
2.5.2噪聲數據處理62
2.5.3異常值處理67
2.6數據集成68
2.6.1實體識別問題68
2.6.2冗余和相關分析69
2.6.3數據值沖突的檢測與處理71
2.7數據變換72
2.7.1數據變換策略概述72
2.7.2數據規范化72
2.7.3數據離散化和概念分層74
2.8數據歸約78
2.8.1數值歸約78
2.8.2屬性歸約81
2.9對數據預處理的點85
2.10思考與練習86
第3章關聯規則挖掘/87
3.1基本概念87
3.2Apriori算法89
3.2.1Apriori算法詳解90
3.2.2Apriori算法的例子95
3.2.3Apriori算法總結98
3.3FPGrowth算法98
3.3.1FPGrowth算法詳解99
3.3.2FPGrowth算法的例子108
3.4關聯規則評價109
3.5思考與練習112
第4章聚類分析/114
4.1聚類分析簡介114
4.2基于劃分的方法115
4.2.1kmeans算法115
4.2.2kmedoids算法118
4.3基于層次的方法120
4.3.1AGNES算法121
4.3.2DIANA算法122
4.3.3BIRCH算法124
4.4基于密度的方法129
4.5基于概率的聚類133
4.6聚類圖數據138
4.6.1聚類圖數據度量138
4.6.2復雜網絡140
4.7聚類評估143
4.7.1估計聚類趨勢144
4.7.2確定簇數145
4.7.3測定聚類質量145
4.8思考與練習152
第5章分類/154
5.1基本概念154
5.1.1什么是分類154
5.1.2分類的過程155
5.1.3分類器常見構造方法157
5.2KNN分類157
5.3貝葉斯分類160
5.3.1貝葉斯定理160
5.3.2樸素貝葉斯分類算法161
5.4決策樹分類164
5.4.1相關定義165
5.4.2CART算法原理166
5.4.3CART算法實例167
5.4.4CART算法的優缺點169
5.4.5ID3算法原理169
5.4.6ID3算法實例170
5.4.7ID3算法的優缺點175
5.4.8C4.5算法原理176
5.4.9C4.5算法實例176
5.4.10C4.5算法的優缺點184
5.4.113種算法的比較185
5.5分類算法評價185
5.5.1常用術語185
5.5.2評價指標186
5.5.3分類器性能的表示189
5.5.4分類器性能的評估方法192
5.6思考與練習193
第6章高級分類算法/195
6.1組合分類算法195
6.1.1算法起源195
6.1.2AdaBoost算法基本原理196
6.1.3分類器創建197
6.1.4算法實例199
6.1.5AdaBoost算法的優缺點206
6.2粒子群分類算法206
6.2.1粒子群優化算法簡介207
6.2.2基本粒子群優化算法207
6.2.3粒子群優化算法的特點209
6.2.4基于粒子群優化算法的分類器構造210
6.3支持向量機分類算法214
6.3.1支持向量機的基本概念214
6.3.2感知機模型215
6.3.3硬間隔支持向量機215
6.3.4軟間隔支持向量機219
6.3.5非線性支持向量機221
6.3.6支持向量機算法實例222
6.3.7支持向量機算法的優缺點224
6.4BP神經網絡分類算法224
6.4.1算法起源224
6.4.2BP神經網絡的理論基礎225
6.4.3BP神經網絡基本原理229
6.4.4BP神經網絡的學習機制230
6.4.5BP算法步驟233
6.4.6BP算法實例233
6.4.7BP算法的優缺點235
6.5思考與練習235
第7章Python數據分析/237
7.1搭建Python開發平臺237
7.2Python數據分析庫238
7.2.1NumPy238
7.2.2Pandas246
7.2.3SciPy251
7.2.4ScikitLearn252
7.3Python數據可視化254
7.3.1Matplotlib254
7.3.2Seaborn261
7.3.3Bokeh265
7.4思考與練習267
第8章Python數據挖掘/269
8.1數據探索269
8.2數據預處理270
8.2.1數據清洗271
8.2.2數據集成275
8.2.3數據歸約277
8.2.4數據變換278
8.3聚類分析算法280
8.3.1kmeans算法280
8.3.2DBSCAN算法285
8.4關聯規則算法288
8.4.1Apriori算法288
8.4.2FP樹算法293
8.5分類算法298
8.5.1ID3算法299
8.5.2C4.5算法305
8.5.3KNN算法311
8.6思考與練習317
第9章泰坦尼克號乘客生存率預測/318
9.1背景與挖掘目標318
9.2算法介紹318
9.2.1線性回歸算法318
9.2.2邏輯回歸算法320
9.2.3隨機森林算法322
9.3分析方法與過程326
9.3.1數據抽取326
9.3.2數據探索與分析327
9.3.3數據預處理330
9.3.4模型構建333
9.3.5模型檢驗335
9.4思考與練習336
第10章基于關聯規則的電影推薦/338
10.1選擇數據源338
10.2數據探索340
10.2.1異常值分析340
10.2.2周期性分析341
10.2.3統計量分析342
10.3數據預處理344
10.3.1數據加載344
10.3.2缺失值處理344
10.3.3異常值處理345
10.4數據挖掘算法實現346
10.5算法評估346
10.6主要代碼348
10.6.1頻繁項集生成代碼348
10.6.2關聯規則生成代碼350
10.6.3電影推薦代碼351
10.7思考與練習351
第11章航空公司客戶價值分析/353
11.1背景與挖掘目標353
11.2分析方法與過程353
11.2.1數據抽取355
11.2.2數據探索356
11.2.3數據預處理357
11.2.4模型構建359
11.2.5模型檢驗360
11.3思考與練習361
第12章基于協同過濾的音樂推薦/363
12.1推薦系統和協同過濾算法363
12.1.1推薦系統發展概況363
12.1.2基于用戶的協同過濾算法365
12.1.3基于項目的協同過濾算法368
12.1.4兩種算法的比較369
12.1.5協同過濾算法和基于內容的過濾算法比較370
12.1.6推薦系統的評價370
12.2音樂推薦371
12.2.1數據獲取371
12.2.2數據預處理372
12.2.3數據分析及算法設計372
12.2.4結果輸出和模型評價375
12.3思考與練習377
第13章基于支持向量機的手寫數字識別/378
13.1背景與支持向量機的概念378
13.1.1*優超平面378
13.1.2軟間隔378
13.1.3線性不可分問題379
13.1.4支持向量機類型379
13.1.5支持向量機舉例379
13.1.6支持向量機的應用381
13.2分析方法與過程382
13.2.1數據集介紹382
13.2.2數據集讀取383
13.2.3數據集可視化383
13.3模型構建384
13.4模型檢驗386
13.5思考與練習387
第14章基于神經網絡的代碼壞味檢測/388
14.1神經網絡388
14.2代碼壞味檢測389
14.2.1代碼壞味簡介389
14.2.2代碼壞味研究現狀391
14.2.3代碼壞味公開數據集392
14.3基于神經網絡算法的代碼壞味檢測392
14.3.1準備數據392
14.3.2構建神經網絡393
14.3.3訓練模型395
14.3.4生成預測結果398
14.4思考與練習399
參考文獻/400
數據挖掘算法與應用(Python實現)(高等學校計算機專業規劃教材) 作者簡介
孫家澤,男,博士,副教授,計算機軟件方向碩士研究生導師。1980年7月出生,漢族。2006年至今,西安郵電大學計算機學院任教,2017-2018美國西密歇根大學訪問學者,主講數據挖掘,數據庫技術,高級語言程序設計等課程,近5年先后主持多項軟件工程和數據分析類的項目,獲省市科技進步獎6次,授權國家發明專利2項,正在公開實審發明專利6項,軟件著作權5項,學術專著2部,參編教材2部,發表論文30多篇,多篇被SCI/EI檢索。主要從事數據挖掘、軟件測試和群體智能算法等方面研究。
- >
山海經
- >
月亮與六便士
- >
月亮虎
- >
苦雨齋序跋文-周作人自編集
- >
中國歷史的瞬間
- >
朝聞道
- >
莉莉和章魚
- >
我從未如此眷戀人間