-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
PYTHON數據分析、挖掘與可視化從入門到精通 版權信息
- ISBN:9787301347690
- 條形碼:9787301347690 ; 978-7-301-34769-0
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
PYTHON數據分析、挖掘與可視化從入門到精通 本書特色
(1)理論講解與實踐結合。每個理論都有對應的實踐代碼講解,讀者參考源代碼,完成實例,就可以看到實驗效果。
(2)知識教學與課后練習。大部分章節末尾都配備思考與練習題,旨在幫助讀者鞏固所學知識,并達到學以致用的目的。
(3)綜合實戰,學以致用。通過*后兩章完整案例的學習,可以幫助讀者針對特定場景快速設計數據分析與挖掘的方案。
(4)配套資源,輕松學會。贈送書中同步實例的相關源代碼文件 重點知識的教學視頻 制作精美的PPT課件。
PYTHON數據分析、挖掘與可視化從入門到精通 內容簡介
筆者根據自己多年的數據分析與挖掘經驗,從零基礎讀者的角度,詳盡地介紹了Python數據分析與挖掘的基礎知識及大量的實戰案例。 全書分為4篇,第1篇是基礎入門篇,主要介紹數據分析與挖掘的基本概念及Python語言的數據分析基礎;第2篇是數據分析篇,主要介紹常用的數據分析方法;第3篇是數據挖掘篇,主要介紹常用的數據挖掘方法;第4篇是實戰應用篇,介紹兩個完整的數據分析與挖掘案例,讓讀者了解如何系統地應用前面學到的各種方法解決實際問題。對于書中的大部分章節,筆者還結合實際工作及面試經驗,精心配備了大量高質量的練習題,供讀者邊學邊練,以便更好地掌握本書內容。 本書配備所有案例的源碼,適合有一定數學基礎的讀者使用,但不要求讀者具備編程基礎,適合剛入行的數據分析人員或從事與數據相關工作、對數據感興趣的人員,也適合從事其他崗位但想掌握一定的數據分析能力的職場人員,還可以作為大中專院校相關專業的教學參考用書。
PYTHON數據分析、挖掘與可視化從入門到精通 目錄
第1章 從零開始:初識數據分析與挖掘
1.1 什么是數據分析 3
1.1.1 與數據相關的概念 3
1.1.2 什么是大數據 3
1.1.3 數據分析工具 4
1.1.4 數據分析技術的發展 7
1.2 什么是數據挖掘 8
1.2.1 數據挖掘相關概念 8
1.2.2 數據挖掘起源 9
1.2.3 數據挖掘要解決的問題 10
1.2.4 數據挖掘任務 10
1.3 數據分析與挖掘的應用領域 11
1.4 用Python進行數據分析與挖掘 12
1.4.1 Python語言概述 12
1.4.2 Python的優點 13
1.4.3 認識Python常用庫 14
1.5 本章小結 15
1.6 思考與練習 15
第2章 Python數據分析基礎
2.1 搭建Python開發環境 17
2.1.1 安裝Python 17
2.1.2 安裝PyCharm 18
2.1.3 安裝Anaconda 19
2.1.4 安裝與使用Jupyter 20
2.2 Python基礎 21
2.2.1 Python基礎語法 21
2.2.2 Python基本數據類型 24
2.2.3 Python控制流與文件操作 31
2.2.4 Python函數與模塊 39
2.2.5 Python面向對象程序設計 44
2.3 本章小結 52
2.4 思考與練習 52
第3章 Python數據分析相關庫應用
3.1 NumPy 54
3.1.1 初識NumPy 54
3.1.2 創建數組 54
3.1.3 數組的基本操作 58
3.1.4 NumPy矩陣的基本操作 63
3.2 SciPy 66
3.2.1 初識SciPy 66
3.2.2 統計子模塊scipy.stats 66
3.2.3 優化子模塊scipy.optimize 68
3.2.4 插值子模塊scipy.interpolate 69
3.3 Pandas 70
3.3.1 初識Pandas 70
3.3.2 Pandas的數據結構 70
3.3.3 Pandas對象的基本操作 73
3.3.4 基本統計分析 80
3.4 Scikit-learn 82
3.4.1 初識Scikit-learn 82
3.4.2 線性回歸模型 83
3.4.3 支持向量機 85
3.4.4 聚類 87
3.5 其他常用模塊 89
3.6 本章小結 90
3.7 思考與練習 91
第2篇 數據分析篇
第4章 數據的預處理
4.1 數據獲取 94
4.1.1 爬蟲概述 94
4.1.2 爬蟲常用庫和框架 95
4.1.3 數據獲取實踐 100
4.2 文件與數據存儲 104
4.2.1 概述 104
4.2.2 CSV文件 105
4.2.3 JSON文件 107
4.2.4 XLSL文件 108
4.2.5 SQL數據庫文件 110
4.3 數據清洗 111
4.3.1 編碼 112
4.3.2 缺失值的檢測與處理 113
4.3.3 去除異常值 116
4.3.4 去除重復值和冗余信息 118
4.4 本章小結 120
4.5 思考與練習 120
第5章 數據的分析方法
5.1 分布分析 123
5.1.1 分布分析的概念 123
5.1.2 分布分析的實現 123
5.2 對比分析 128
5.2.1 對比分析的概念 128
5.2.2 對比分析的比較標準 129
5.2.3 對比分析的實現 131
5.3 統計量分析 133
5.3.1 統計量分析的概念 133
5.3.2 統計量分析的實現 133
5.4 相關性分析 137
5.4.1 相關性分析的概念 137
5.4.2 相關性分析的作用 138
5.4.3 相關性分析的實現 138
5.5 帕累托分析 141
5.5.1 帕累托分析的概念 141
5.5.2 帕累托分析的實現 142
5.6 正態分布分析 143
5.6.1 正態分布分析的概念 144
5.6.2 正態分布分析的實現 144
5.7 本章小結 150
5.8 思考與練習 150
第6章 數據可視化工具的應用
6.1 數據可視化工具——Matplotlib 153
6.1.1 安裝Matplotlib模塊 153
6.1.2 繪制基礎圖形 154
6.1.3 圖形的設置 163
6.1.4 繪制多個子圖 168
6.2 數據可視化工具——Seaborn 169
6.2.1 Seaborn庫簡介 170
6.2.2 Seaborn常用統計圖 170
6.3 本章小結 173
6.4 思考與練習 173
第3篇 數據挖掘篇
第7章 數據挖掘之線性回歸
7.1 線性回歸概述 177
7.2 一元線性回歸 177
7.2.1 一元線性回歸原理分析 178
7.2.2 一元線性回歸代碼實現 178
7.2.3 線性回歸方法總結 183
7.3 多元線性回歸 183
7.3.1 多元線性回歸原理分析 183
7.3.2 多元線性回歸代碼實現 184
7.4 線性回歸模型的評估與檢驗 187
7.4.1 擬合優度檢驗(R2評估) 187
7.4.2 顯著性檢驗(F檢驗) 188
7.4.3 回歸參數顯著性檢驗(T檢驗) 194
7.5 本章小結 196
7.6 思考與練習 196
第8章 數據挖掘之分類模型
8.1 邏輯回歸模型 199
8.1.1 邏輯回歸模型的原理 199
8.1.2 分類模型評估 200
8.1.3 邏輯回歸模型實現二分類 206
8.2 決策樹和隨機森林算法 210
8.2.1 決策樹的工作原理 210
8.2.2 特征選擇 211
8.2.3 決策樹的生成 213
8.2.4 決策樹的剪枝 217
8.2.5 隨機森林算法 223
8.3 KNN算法 225
8.3.1 KNN算法的思想 225
8.3.2 相似性的度量方法 225
8.3.3 KNN算法的性能 226
8.3.4 KNN算法的實現 227
8.4 本章小結 230
8.5 思考與練習 231
第9章 數據挖掘之關聯分析
9.1 關聯分析概述 235
9.1.1 關聯分析的基本概念 235
9.1.2 常見的關聯分析算法 236
9.2 Apriori關聯分析算法 237
9.2.1 Apriori算法原理 237
9.2.2 Apriori算法挖掘頻繁項集 238
9.2.3 從頻繁項集中挖掘關聯規則 238
9.2.4 基于Python實現Apriori算法 239
9.2.5 Apriori算法總結 243
9.3 FP-growth關聯分析算法 244
9.3.1 構建FP樹 244
9.3.2 從一棵FP樹中挖掘頻繁項集 246
9.3.3 FP-growth算法實例 248
9.3.4 FP-growth算法總結 252
9.4 本章小結 253
9.5 思考與練習 253
第10章 數據挖掘之聚類分析
10.1 聚類分析概述 255
10.1.1 聚類分析的概念 255
10.1.2 聚類分析的方法 255
10.1.3 聚類結果性能評估指標 256
10.2 質心聚類——K-Means算法 257
10.2.1 K-Means算法的原理 257
10.2.2 Python實現K-Means算法 260
10.3 密度聚類——DBSCAN算法 263
10.3.1 DBSCAN算法的原理 263
10.3.2 Python實現DBSCAN算法 265
10.4 層次聚類——AGNES算法 267
10.4.1 AGNES算法的原理 268
10.4.2 Python實現AGNES算法 268
10.5 本章小結 270
10.6 思考與練習 270
第4篇 實戰應用篇
第11章 實戰案例:房價評估數據分析與挖掘
11.1 加載數據集 274
11.2 數據分析 274
11.3 數據可視化 275
11.4 數據預處理 277
11.5 拆分數據集 279
11.6 建立線性回歸模型 282
11.7 建立決策樹模型 291
11.8 對比分析構建的線性回歸和決策樹模型 294
11.9 本章小結 296
第12章 實戰案例:電信客戶流失數據分析與挖掘
12.1 案例背景 298
12.2 加載數據 298
12.3 數據準備 300
12.4 數據清洗 301
12.4.1 缺失值處理 301
12.4.2 重復值處理 301
12.4.3 數值類型轉換 301
12.5 數據處理 304
12.6 數據可視化 305
12.7 特征工程 313
12.8 數據建模 318
12.9 訓練模型 318
12.10 模型的評估 319
12.11 本章小結 320
PYTHON數據分析、挖掘與可視化從入門到精通 作者簡介
熊熙
----------------------------
熊熙,博士,成都信息工程大學網絡空間安全學院副教授,碩士研究生導師,成都電子行業新經濟產業專家,CCF會員,CCF計算機應用專委會執行委員。曾在大唐移動通信設備有限公司擔任高級軟件工程師,研究方向包括數據挖掘與分析、自然語言處理與知識圖譜、信息抽取與推薦算法、工業互聯網等。主持和主研guojia級和省部級以上項目8項。
張雪蓮
----------------------------
張雪蓮,碩士,四川大學錦江學院講師,大學計算機基礎教研室主任助理,CCF會員。多年來一直從事軟件工程相關課程的教學工作,具有豐富的實踐教學經驗。
- >
我與地壇
- >
伯納黛特,你要去哪(2021新版)
- >
伊索寓言-世界文學名著典藏-全譯本
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
莉莉和章魚
- >
羅曼·羅蘭讀書隨筆-精裝
- >
月亮與六便士
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)