分析篇-Python網絡數據爬取及分析從入門到精通 版權信息
- ISBN:9787512427136
- 條形碼:9787512427136 ; 978-7-5124-2713-6
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
分析篇-Python網絡數據爬取及分析從入門到精通 本書特色
本書采用通俗易懂的語言、豐富多彩的實例,詳細介紹了使用Python語言進行網絡數據分析的知識,主要內容包括Python數據分析常用庫、可視化分析、回歸分析、聚類分析、分類分析、關聯規則挖掘分析、數據預處理及文本聚類、詞云熱點與主題分布分析、復雜網絡與基于數據庫技術的分析等。
書中所有知識點都結合了具體的實例進行介紹,涉及的實例都給出了詳細分析流程,程序代碼都給出了具體的注釋,采用圖文結合的形式講解,讓讀者能更加輕松地領會Python網絡數據分析的精髓,快速提高自己的開發能力。
本書既可作為Python開發入門者的自學用書,也可作為高等院校數據分析、數據挖掘、機器學習、大數據等相關專業的教學參考書或實驗指導書,還可供Python數據分析人員查閱、參考。
分析篇-Python網絡數據爬取及分析從入門到精通 內容簡介
這是一套以實例為主、使用Python語言講解網絡數據爬蟲及分析的實戰指南。本套書通俗易懂,涵蓋了Python基礎知識、數據爬取、數據分析、數據預處理、數據可視化、數據存儲、算法評估等多方面知識,每一部分知識都從安裝過程、導入擴展包到算法原理、基礎語法,再結合實例進行詳細講解。
本套書包括兩本:《Python網絡數據爬取及分析從入門到精通(爬取篇)》和《Python網絡數據爬取及分析從入門到精通(分析篇)》。
看完此書,真正讓你做到從入門到精通。
分析篇-Python網絡數據爬取及分析從入門到精通 目錄
第1章 網絡數據分析概述 1
1.1 數據分析 1
1.2 相關技術 3
1.3 Anaconda開發環境 5
1.4 常用數據集 9
1.4.1 Sklearn數據集 9
1.4.2 UCI數據集 10
1.4.3 自定義爬蟲數據集 11
1.4.4 其他數據集 12
1.5 本章小結 13
參考文獻
14
第2章 Python數據分析常用庫
15
2.1 常用庫 15
2.2 NumPy 17
2.2.1 Array用法 17
2.2.2 二維數組操作 19
2.3 Pandas 21
2.3.1 讀/寫文件
22
2.3.2 Series
24
2.3.3 DataFrame 26
2.4 Matplotlib 26
2.4.1 基礎用法 27
2.4.2 繪圖簡單示例 28
2.5 Sklearn 31
2.6 本章小結 32
參考文獻
32
第3章 Python可視化分析
33
3.1 Matplotlib可視化分析 33
3.1.1 繪制曲線圖 33
3.1.2 繪制散點圖 37
3.1.3 繪制柱狀圖 40
3.1.4 繪制餅狀圖 42
3.1.5 繪制3D圖形
43
3.2 Pandas讀取文件可視化分析 45
3.2.1 繪制折線對比圖 45
3.2.2 繪制柱狀圖和直方圖 48
3.2.3 繪制箱圖 51
3.3 ECharts可視化技術初識 53
3.4 本章小結 57
參考文獻
57
第4章 Python回歸分析
58
4.1 回 歸 58
4.1.1 什么是回歸 58
4.1.2 線性回歸 59
4.2 線性回歸分析 60
4.2.1 LinearRegression 61
4.2.2 線性回歸預測糖尿病 63
4.3 多項式回歸分析 68
4.3.1 基礎概念 68
4.3.2 PolynomialFeatures 69
4.3.3 多項式回歸預測成本和利潤 70
4.4 邏輯回歸分析 73
4.4.1 LogisticRegression 75
4.4.2 鳶尾花數據集回歸分析實例 75
4.5 本章小結 83
參考文獻
83
第5章 Python聚類分析
85
5.1 聚 類 85
5.1.1 算法模型 85
5.1.2 常見聚類算法 86
5.1.3 性能評估 88
5.2 K-Means 90
5.2.1 算法描述 90
5.2.2 用K-Means分析籃球數據
96
5.2.3 K-Means聚類優化 99
5.2.4 設置類簇中心 103
5.3 BIRCH 105
5.3.1 算法描述 105
5.3.2 用BIRCH 分析氧化物數據
106
5.4 降維處理 110
5.4.1 PCA降維 111
5.4.2 Sklearn PCA降維 111
5.4.3 PCA降維實例 113
5.5 本章小結 117
參考文獻 118
第6章 Python分類分析
119
6.1 分 類 119
6.1.1 分類模型 119
6.1.2 常見分類算法 120
6.1.3 回歸、聚類和分類的區別 122
6.1.4 性能評估 123
6.2 決策樹 123
6.2.1 算法實例描述 123
6.2.2 DTC算法 125
6.2.3 用決策樹分析鳶尾花 126
6.2.4 數據集劃分及分類評估 128
6.2.5 區域劃分對比 132
6.3 KNN分類算法 136
6.3.1 算法實例描述 136
6.3.2 KNeighborsClassifier 138
6.3.3 用KNN分類算法分析紅酒類型
139
6.4 SVM 分類算法 147
6.4.1 SVM 分類算法的基礎知識 147
6.4.2 用SVM 分類算法分析紅酒數據
148
6.4.3 用優化SVM 分類算法分析紅酒數據集
151
6.5 本章小結 154
參考文獻 154
第7章 Python關聯規則挖掘分析
156
7.1 基本概念 156
7.1.1 關聯規則 156
7.1.2 置信度與支持度 157
7.1.3 頻繁項集 158
7.2 Apriori算法 159
7.3 Apriori算法的實現 163
7.4 本章小結 167
參考文獻 167
第8章 Python數據預處理及文本聚類
168
8.1 數據預處理概述 168
8.2 中文分詞 170
8.2.1 中文分詞技術 170
8.2.2 Jieba中文分詞工具 171
8.3 數據清洗 175
8.3.1 概 述 175
8.3.2 中文語料清洗 176
8.4 特征提取及向量空間模型 179
8.4.1 特征規約 179
8.4.2 向量空間模型 181
8.4.3 余弦相似度計算 182
8.5 權重計算 184
8.5.1 常用權重計算方法 184
8.5.2 TF-IDF 185
8.5.3 用Sklearn計算TF-IDF 186
8.6 文本聚類 188
8.7 本章小結 192
參考文獻 192
第9章 Python詞云熱點與主題分布分析
193
9.1 詞 云 193
9.2 WordCloud的安裝及基本用法 194
9.2.1 WordCloud的安裝 194
9.2.2 WordCloud的基本用法 195
9.3 LDA 203
9.3.1 LDA的安裝過程 203
9.3.2 LDA的基本用法及實例 204
9.4 本章小結 214
參考文獻 214
第10章 復雜網絡與基于數據庫技術的分析 215
10.1 復雜網絡 215
10.1.1 復雜網絡和知識圖譜 215
10.1.2 NetworkX 217
10.1.3 用復雜網絡分析學生關系網 219
10.2 基于數據庫技術的數據分析 224
10.2.1 數據準備 224
10.2.2 基于數據庫技術的可視化分析 225
10.2.3 基于數據庫技術的可視化對比 232
10.3 基于數據庫技術的博客行為分析 234
10.3.1 冪率分布 234
10.3.2 用冪率分布分析博客數據集 235
10.4 本章小結 245
參考文獻 245
本套后記 246
致
謝 248
展開全部
分析篇-Python網絡數據爬取及分析從入門到精通 作者簡介
楊秀璋,畢業于北京理工大學軟件學院,長期從事Web數據挖掘、Python數據分析、網絡數據爬取工作及研究。他現任教于貴州財經大學信息學院,主講“數據挖掘與分析”“大數據技術及應用”課程,并從事大數據分析、數據挖掘、知識圖譜等領域的項目研究與開發;有多年的Python編程、數據分析及知識圖譜研究經驗,實戰經驗較為豐富。
此外,他還積極分享編程知識和開源代碼編寫經驗,先后在CSDN、博客園、阿里云棲社區撰寫博客,僅在CSDN就分享了300多篇原創文章,開設了11個專欄,累計閱讀量超過250萬人次。