包郵數據挖掘算法實踐與案例詳解

作者：丁兆云沈大勇徐偉周鋆著

出版社：機械工業出版社出版時間：2025-01-01

開本： 16開 頁數： 176

本類榜單：計算機/網絡銷量榜

中圖價:¥41.7(7.1折) 定價 ~~¥59.0~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥41.7 加入購物車

版權信息
本書特色
內容簡介
前言
目錄
作者簡介

數據挖掘算法實踐與案例詳解版權信息

ISBN：9787111760696
條形碼：9787111760696 ; 978-7-111-76069-6
裝幀：平裝-膠訂
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
數據庫
>
數據倉庫與數據挖掘

數據挖掘算法實踐與案例詳解本書特色

隨著大數據和人工智能技術的發展，各行各業積累的數據越來越豐富，如何從這些數據中挖掘出有價值的信息，助力科學、合理的決策變得日益重要。數據挖掘技術可以從大量異構、隨機數據中提取有用的信息和知識，已經廣泛應用于工作和生活的各個領域。本書基于作者長期從事數據挖掘科研、工程和教學工作的經驗編寫而成，通過案例牽引，幫助讀者掌握常用的數據挖掘算法、模型和技術，并解決常見的數據挖掘實際問題。本書特點：以實踐為目標，系統介紹數據挖掘的流程，并給出代碼實現。內容涵蓋數據清洗、數據轉換、數據降維、回歸分析、聚類、神經網絡分類等常用的數據挖掘技術和方法，使讀者能夠利用Python編程來解決基本的數據挖掘問題。本書提供了豐富的案例，規模由小到大，幫助讀者循序漸進地掌握各類數據挖掘模型和算法。掌握這些案例后，讀者可以舉一反三，進一步解決更復雜、更大規模的問題。作者在中國大學MOOC上開設了“數據挖掘”MOOC課程（https://www.icourse163.org/course/NUDT-1461782176），并在頭歌平臺上開設了“數據挖掘”實驗課程（https://www.educoder.net/paths/4153），讀者可通過在線視頻課程的學習、作業訓練與編程實踐加深對數據挖掘知識點的理解，提高運用能力。

數據挖掘算法實踐與案例詳解內容簡介

數據挖掘算法為大數據與人工智能的核心，掌握數據挖掘各算法的編程實現，有助于提升大數據的實踐運用能力。本書詳細闡述了數據挖掘常用算法與編程實現，同時，本書以多個經典的數據挖掘賽題為案例，詳細論述了數據預處理、特征選擇、可視化、算法選擇等全流程數據挖掘過程的編程實現，有助于提升讀者面對實際數據問題時靈活運用各類算法能力。

數據挖掘算法實踐與案例詳解數據挖掘算法實踐與案例詳解前言

前　　言
隨著大數據、人工智能技術的快速發展，各行各業積累的數據越來越豐富，數據挖掘的需求越來越大。本書針對實際數據及數據挖掘任務需求，提供數據預處理、特征選擇、數據可視化、算法運用等方面的數據挖掘模型的原理與實現代碼，為運用數據挖掘提供可參考的
方法。
筆者近年來一直從事數據挖掘方向的研究和數據挖掘課程的教學，長期指導學生參加數模競賽、天池大數據競賽、DataCastle大數據競賽、Kaggle競賽等高水平數據挖掘競賽，并取得了優異成績。同時，積極探索以數據挖掘技術為主線構建課堂教學與實踐教學相融合的課程體系，總結了一套數據挖掘實踐案例及參考代碼，適合用于理工科相關專業的本科生與研究生的數據挖掘實驗課程，也可供相關領域的科研與工程技術人員實踐參考。
本書的組織結構如下：前　　言 隨著大數據、人工智能技術的快速發展，各行各業積累的數據越來越豐富，數據挖掘的需求越來越大。本書針對實際數據及數據挖掘任務需求，提供數據預處理、特征選擇、數據可視化、算法運用等方面的數據挖掘模型的原理與實現代碼，為運用數據挖掘提供可參考的 方法。 筆者近年來一直從事數據挖掘方向的研究和數據挖掘課程的教學，長期指導學生參加數模競賽、天池大數據競賽、DataCastle大數據競賽、Kaggle競賽等高水平數據挖掘競賽，并取得了優異成績。同時，積極探索以數據挖掘技術為主線構建課堂教學與實踐教學相融合的課程體系，總結了一套數據挖掘實踐案例及參考代碼，適合用于理工科相關專業的本科生與研究生的數據挖掘實驗課程，也可供相關領域的科研與工程技術人員實踐參考。 本書的組織結構如下： 第1章首先簡述了數據挖掘的定義和分類，隨后闡述了數據挖掘實踐過程中的Python安裝及環境配置方法并簡單介紹了與本書中數據挖掘實踐任務相關的數據集，讓讀者掌握如何安裝實驗環境，了解數據挖掘中的常用數據集。 第2章以貝葉斯分類為案例，闡述了分類的概念和實踐全流程，包括數據集的劃分、模型的運用和模型的評價，讓讀者能夠針對具體數據，運用分類算法來完成數據分類過程。 第3章闡述了特征選擇的實踐方法，讓讀者掌握通過直方圖與柱狀圖方法來完成數據的特征選擇。 第4章闡述了數據清洗的實踐方法，讓讀者掌握缺失值填充的方法，知道如何通過正態分布與箱線圖方法發現數據離群點。*后，以“測測你的一見鐘情指數”作為實踐案例，詳細闡述了數據清洗的實踐過程。 第5章闡述了數據轉換的實踐方法，讓讀者掌握通過二進制編碼方法將離散型數據數值化的方法，并掌握*小–*大規范化和z分數規范化、小數定標規范化的方法。 第6章闡述了數據降維的實踐方法，讓讀者掌握通過散點圖方法來分析數據相關性的技巧，并能夠靈活運用主成分分析法。 第7章闡述了不平衡數據分類的實踐方法，讓讀者掌握上采樣與下采樣的實際運用，通過“員工離職問題”實踐案例，詳細介紹了不平衡數據分類的實踐過程。 第8章闡述了回歸分析的實踐方法，讓讀者掌握多元線性回歸預測的實際運用，通過“PM2.5空氣質量預測”實踐案例，詳細介紹了回歸預測的實踐過程。 第9章闡述了常見聚類算法的實際應用，使讀者能夠靈活應用k均值法、層次聚類法、密度聚類法。通過鳶尾花數據實踐案例，詳細介紹了密度聚類的實踐過程。 第10章闡述了Apriori算法的實踐方法，讓讀者掌握該算法的實現過程。通過“棒球運動產品推薦”實踐案例，詳細介紹了該算法的實踐過程。 第11章闡述了KNN分類的實踐方法，通過“鳶尾花分類”“相似電影推薦”兩個實踐案例，詳細介紹了該算法的實踐過程。 第12章闡述了支持向量機分類的實踐方法，通過“鳶尾花數據分類”“新聞文本數據分類”兩個實踐案例，詳細介紹了該算法的實踐過程。 第13章闡述了神經網絡分類的實踐方法，通過“新聞文本分類”實踐案例，詳細介紹了該算法的實踐過程。 第14章闡述了常見的集成學習算法的實踐，讓讀者掌握Bagging、隨機森林、Adaboost、GBDT、XGBoost的實際應用。通過“房價預測”“點擊欺騙預測”實踐案例，詳細介紹了集成算法的實踐過程。 第15章給出了各算法的綜合運用案例，主要包括員工離職預測、二手車交易價格預測、信息抽取、學術網絡節點分類四個綜合案例。 本書在總結數據挖掘實踐的基礎上，在中國大學MOOC上開設了“數據挖掘”MOOC課程（https://www.icourse163.org/course/NUDT-1461782176），并在頭歌平臺上開設了“數據挖掘”實驗課程（https://www.educoder.net/paths/4153），讀者可通過在線視頻課程的學習、作業訓練與編程實踐加深對數據挖掘知識點的理解，提高運用能力。 數據挖掘是一個快速發展的領域，加之本書編寫時間短，作者水平有限，書中難免有疏漏之處，請各位讀者、同行不吝指正。

顯示全部信息

數據挖掘算法實踐與案例詳解目錄

目　　錄
前言
第1章　緒論　　1
1.1　數據挖掘技術的由來　　1
1.2　數據挖掘的分類　　2
1.2.1　關聯規則挖掘　　2
1.2.2　監督式機器學習　　3
1.2.3　非監督式機器學習　　4
1.3　Python的安裝步驟　　5
1.3.1　Python環境的配置　　5
1.3.2　PyCharm的安裝　　7
1.4　常見的數據集　　10
1.4.1　鳶尾花數據集　　10
1.4.2　員工離職預測數據集　　11
1.4.3　泰坦尼克號災難預測數據集　　12
1.4.4　PM2.5空氣質量預測數據集　　13
1.5　本章小結　　13
第2章　分類　　14
2.1　分類的概念　　14
2.2　分類中的訓練集與測試集　　14
2.3　分類的過程及驗證方法　　15
2.3.1　準確率　　15
2.3.2　k折交叉驗證　　16
2.4　貝葉斯分類的編程實踐　　17
2.4.1　鳶尾花數據集的貝葉斯分類　　17
2.4.2　基于貝葉斯分類的員工離職
預測　　17
2.5　本章小結　　19
第3章　數據的特征選擇　　20
3.1　直方圖　　20
3.1.1　直方圖可視化　　20
3.1.2　直方圖特征選擇　　23
3.2　直方圖與柱狀圖的差異　　24
3.3　特征選擇實踐　　26
3.4　本章小結　　29
第4章　數據預處理之數據清洗　　30
4.1　案例概述　　30
4.2　缺失值處理　　31
4.2.1　缺失值處理概述　　31
4.2.2　缺失值處理實例　　32
4.3　噪聲數據處理　　32
4.3.1　正態分布噪聲數據檢測　　32
4.3.2　用箱線圖檢測噪聲數據　　34
4.4　數據預處理案例實踐　　35
4.4.1　問題　　35
4.4.2　解決方法　　35
4.4.3　實踐結論　　37
4.5　本章小結　　38
第5章　數據預處理之轉換　　39
5.1　數據的數值化處理　　39
5.1.1　順序編碼　　39
5.1.2　二進制編碼　　40
5.2　數據規范化　　42
5.2.1　*小–*大規范化　　42
5.2.2　z分數規范化　　43
5.2.3　小數定標規范化　　43
5.3　本章小結　　43
第6章　數據預處理之數據降維　　44
6.1　散點圖可視化分析　　44
6.2　主成分分析　　46
6.3　本章小結　　49
第7章　不平衡數據分類　　50
7.1　不平衡數據分類問題的特征　　50
7.1.1　數據稀缺問題　　50
7.1.2　噪聲問題　　51
7.1.3　決策面偏移問題　　51
7.1.4　評價標準問題　　51
7.2　重采樣方法　　51
7.2.1　上采樣　　52
7.2.2　對上采樣方法的改進　　53
7.2.3　下采樣　　58
7.2.4　對下采樣方法的改進　　60
7.2.5　不平衡問題的其他處理方式　　65
7.3　不平衡數據分類實踐　　65
7.4　本章小結　　66
第8章　回歸分析　　67
8.1　線性回歸　　67
8.1.1　一元線性回歸　　67
8.1.2　多元線性回歸　　69
8.2　回歸分析檢測　　71
8.2.1　正態分布可能性檢測　　71
8.2.2　線性分布可能性檢測　　72
8.2.3　log轉換后的分布　　73
8.3　回歸預測案例實踐　　74
8.3.1　案例背景　　74
8.3.2　代碼實現　　74
8.4　本章小結　　82
第9章　聚類分析　　83
9.1　k均值聚類　　83
9.1.1　算法的步驟　　83
9.1.2　代碼實現　　83
9.2　層次聚類　　84
9.2.1　算法的步驟　　84
9.2.2　代碼實現　　85
9.3　密度聚類　　85
9.3.1　算法的步驟　　85
9.3.2　代碼實現　　86
9.4　本章小結　　88
第10章　關聯分析　　90
10.1　Apriori算法　　90
10.2　關聯分析案例實踐　　92
10.2.1　案例背景　　92
10.2.2　案例的數據集　　93
10.2.3　代碼實現　　93
10.2.4　運行結果　　93
10.3　提升Apriori算法性能的方法　　95
10.4　本章小結　　95
第11章　KNN分類　　96
11.1　KNN算法的步驟　　96
11.2　KNeighborsClassifier函數　　97
11.3　KNN的代碼實現　　98
11.4　結果分析　　98
11.5　KNN案例實踐　　99
11.5.1　案例分析　　99
11.5.2　案例實現　　100
11.5.3　運行結果　　103
11.6　本章小結　　104
第12章　支持向量機　　105
12.1　支持向量機的可視化分析　　105
12.2　SVM的代碼實現　　108
12.2.1　鳶尾花數據分類　　108
12.2.2　新聞文本數據分類　　110
12.3　本章小結　　111
第13章　神經網絡分類　　112
13.1　多層人工神經網絡　　112
13.2　多層人工神經網絡的代碼實現　　113
13.3　神經網絡分類案例實踐　　114
13.3.1　案例背景　　114
13.3.2　數據說明　　114
13.3.3　代碼實現　　115
13.4　本章小結　　120
第14章　集成學習　　121
14.1　Bagging方法　　121
14.2　隨機森林　　123

展開全部