第1篇基礎篇
第1章數據挖掘概述
1.1什么是數據挖掘
1.1.1數據、信息、知識和智慧
1.1.2數據挖掘的定義
1.1.3數據挖掘的功能
1.1.4數據挖掘的發展簡史
1.2數據挖掘的基本步驟及方法
1.2.1數據挖掘的基本步驟
1.2.2數據挖掘的任務
1.2.3數據挖掘的分析方法
1.3數據挖掘與統計學的關系
1.3.1數據挖掘與統計學的聯系
1.3.2數據挖掘與統計學的區別
1.4數據挖掘與機器學的關系
1.4.1數據挖掘與機器學的聯系
1.4.2數據挖掘與機器學的區別
1.5數據挖掘的十大算法
1.6數據挖掘的典型應用
題1
第2章Python數據分析基礎
2.1Python程序概述
2.1.1基礎數據類型
2.1.2變量和賦值
2.1.3作符和表達式
2.1.4字符串
2.1.5流程控制
2.1.6用戶函數
2.1.7lambda函數
2.2Python常用的內置數據結構
2.2.1列表
2.2.2元組
2.2.3字典
2.2.4集合
2.3正則表達式
2.3.1概述
2.3.2常用方法
2.3.3提取網頁中的信息
2.4文件的作
2.4.1文件的打開與關閉
2.4.2文件的讀/寫作
2.4.3文件的其他作
題2
第3章Python數據挖掘中的常用模塊
3.1NumPy模塊
3.1.1NumPy數據類型
3.1.2NumPy基本運算
3.1.3生成隨機數的常用函數
3.1.4對象轉換
3.1.5數組元素和切片
3.2Pandas模塊
3.2.1Pandas中的數據結構
3.2.2DataFrame的基本屬性
3.2.3DataFrame的常用方法
3.2.4DataFrame的數據查詢與編輯
3.2.5Pandas數據的四則運算
3.2.6函數變換
3.2.7排序
3.2.8匯總與統計
3.2.9數據的分組與統計
3.2.10Pandas數據的讀取與存儲
3.3Matplotlib圖表繪制基礎
3.3.1Matplotlib簡介
3.3.2Matplotlib繪圖基礎
3.3.3使用Matplotlib簡單繪圖
3.3.4文本注解
3.4Scikitlearn
3.4.1Scikitlearn的主要功能
3.4.2Scikitlearn自帶的小規模數據集
3.4.3使用Scikitlearn生成數據集
3.5股票數據的簡單分析
3.5.1抓取股票數據
3.5.2股票數據的各指標折線圖
3.5.3各股票的5分鐘漲幅柱狀圖
3.5.4股票各指標之間的關系對比
題3
第2篇數據預處理篇
第4章數據的描述與可視化
4.1概述
4.1.1數據的描述
4.1.2數據的可視化
4.2數據對象與屬性類型
4.2.1數據對象
4.2.2屬性與屬性類型
4.3數據的基本統計描述
4.3.1中心趨勢的度量
4.3.2數據散布的度量
4.4數據對象的相似性度量
4.4.1數據矩陣與相似矩陣
4.4.2標稱屬性的相異性
4.4.3二元屬性的相異性
4.4.4數值屬性的相似性度量
4.4.5序數屬性的相似性度量
4.4.6混合類型屬性的相似性
4.4.7余弦相似性
4.5幾種數據可視化技術
4.5.1基于像素的可視化技術
4.5.2幾何投影技術
4.5.3基于圖符的可視化技術
4.5.4層次可視化技術
4.5.5高維數據的可視化
4.5.6文本詞云圖
題4
第5章數據采集和預處理
5.1概述
5.1.1數據采集概述
5.1.2數據采集的方法
5.1.3數據預處理概述
5.2數據清洗
5.2.1缺失值清洗
5.2.2異常值清洗
5.2.3格式內容清洗
5.2.4邏輯錯誤清洗
5.2.5非需求數據清洗
5.2.6關聯性驗證
5.3數據集成
5.3.1數據集成過程中的關鍵問題
5.3.2Python數據集成
5.4數據標準化
5.4.1zscore方法
5.4.2差標準化方法
5.4.3大對值標準化方法
5.5數據歸約
5.5.1維歸約
5.5.2數量歸約
5.5.3數據壓縮
5.6數據變換與數據離散化
5.6.1數據變換
5.6.2數據離散化
題5
第3篇數據挖掘算法描述和應用篇
第6章分類模型
6.1概述
6.1.1基本概念
6.1.2訓練集和測試集
6.1.3分類的一般流程
6.2KNN分類模型
6.2.1KNN算法概述
6.2.2KNN算法描述
6.2.3使用Python實現KNN分類算法
6.2.4K值的確定
6.3Rocchio分類模型
6.3.1Rocchio算法概述
6.3.2Rocchio算法的原理及分類器的構建
6.3.3使用Python實現Rocchio文本分類
6.4決策樹分類模型
6.4.1決策樹分類概述
6.4.2決策樹的生成原理
6.4.3ID3/ID4.5/CART算法
6.4.4決策樹的應用
6.5貝葉斯分類模型
6.5.1貝葉斯分類概述
6.5.2樸素貝葉斯分類器
6.5.3樸素貝葉斯模型的缺點
6.5.4樸素貝葉斯模型的Python實現
6.6支持向量機
6.6.1SVM的基本原理
6.6.2SVM分類的基本方法
6.6.3使用Python實現SVM分類的案例
6.7分類模型的評估與選擇
6.7.1分類模型的性能評估
6.7.2分類模型的選擇方法
題6
第7章聚類分析
7.1概述
7.1.1聚類分析的概念
7.1.2聚類分析的征
7.1.3聚類分析的基本步驟
7.2基于劃分的聚類方法
7.2.1kmeans聚類方法
7.2.2kmedoids聚類方法
7.2.3kmeans與kmedoids的區別
7.3基于層次的聚類方法
7.3.1簇間距離度量方法
7.3.2基于層次的聚類算法
7.3.3基于層次聚類算法的Python實現
7.4基于密度的聚類方法
7.4.1與密度聚類相關的概念
7.4.2DBSCAN算法
7.4.3OPTICS算法
7.4.4DENCLUE算法
7.5基于網格的聚類方法
7.5.1基于網格的聚類概述
7.5.2CLIQUE算法
7.5.3STING算法
7.5.4基于網格聚類算法的Python實現
7.6基于模型的聚類方法
7.6.1基于模型的聚類概述
7.6.2EM算法
7.6.3COBWEB算法
7.6.4用EM算法求解高斯混合模型
7.7聚類評估
7.7.1估計聚類趨勢
7.7.2確定簇數
7.7.3測定聚類質量
題7
第8章關聯規則分析
8.1概述
8.1.1關聯規則概述
8.1.2關聯規則的分類
8.2關聯規則的相關概念
8.2.1基本概念
8.2.2支持度、置信度和提升度
8.2.3頻繁項集
8.3Apriori算法
8.3.1Apriori算法的思想
8.3.2Apriori算法的描述
8.3.3Apriori算法的Python實現
8.4FPGrowth算法
8.4.1FPGrowth算法采用的策略
8.4.2構建FPTree
8.4.3從FPTree中挖掘頻繁模式
8.4.4FPGrowth算法的Python實現
8.5Eclat算法
8.5.1Eclat算法概述
8.5.2Eclat算法的Python實現
8.6關聯規則的典型應用場景
題8
第9章預測模型
9.1預測模型概述
9.1.1預測方法的分類
9.1.2預測分析的一般步驟
9.2回歸分析預測模型
9.2.1一元線性回歸預測模型
9.2.2多元線性回歸預測模型
9.2.3非線性回歸預測模型
9.2.4邏輯回歸模型
9.2.5多項式回歸模型
9.3趨勢外推法預測模型
9.3.1趨勢外推法概述
9.3.2常用的趨勢外推法預測模型
9.3.3趨勢外推法的Python實現
9.4時間序列預測法模型
9.4.1時間序列預測法概述
9.4.2常用的時間序列預測法模型
題9
第4篇后續學引導篇
第10章深度學簡介
10.1深度學概述
10.1.1人工智能、機器學和深度學的關系
10.1.2深度學的發展歷程
10.2感知機
10.2.1感知機的起源
10.2.2感知機的局限性
10.3前饋經網絡
10.3.1經元
10.3.2前饋經網絡概述
10.3.3訓練與預測
10.4反向傳播算法
10.4.1反向傳播學算法
10.4.2反向傳播學的Python實現
10.5卷積經網絡
10.5.1卷積經網絡概述
10.5.2卷積經網絡的整體結構
10.6循環經網絡
10.6.1循環經網絡概述
10.6.2循環經網絡的設計模式
10.6.3循環經網絡的運算
10.6.4循環經網絡的Python實現
10.7生成對抗網絡
10.7.1生成對抗網絡概述
10.7.2生成對抗網絡算法
題10
參考文獻