中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
大數據分析處理(慕課版)

包郵 大數據分析處理(慕課版)

出版社:人民郵電出版社出版時間:2024-02-01
開本: 16開 頁數: 274
本類榜單:教材銷量榜
中 圖 價:¥48.9(7.0折) 定價  ¥69.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

大數據分析處理(慕課版) 版權信息

大數據分析處理(慕課版) 本書特色

1.信息類名校常州信息職業技術學院團隊打造

2.崗課賽證,融入“1 X”證書職業技能等級標準

3.單元任務式寫法,符合職教認知規律

4.教材編寫融入思政元素

5.校企“雙元”合作開發新形態教材

大數據分析處理(慕課版) 內容簡介

本書采用理論知識與任務案例相結合的形式,以PyCharm為主要開發工具,系統地闡述了大數據分析處理工作流程中的重要步驟,介紹了大數據分析過程中常用的幾種第三方庫。本書共13個單元,第1單元介紹了大數據分析處理的概念;第2、3單元介紹了大數據分析中科學計算與統計分析的相關知識;第4-7單元介紹了使用Pandas實現數據預處理的方法;第8單元介紹了使用Scikit-learn實現簡單的機器學習的方法;第9單元介紹了使用Matplotlib、Seaborn繪制圖表的方法;第10-13單元分別介紹了4個大數據分析處理的綜合案例。單元1-9中,每個單元都包含了相關知識部分和任務實現部分,任務實現部分一般包含多個任務的具體實現過程,每個任務后面都有課堂實踐,通過完成實踐操作,讀者可以進一步鞏固所學知識。 本書既可作為高等院校大數據技術專業的教材,也可作為大數據愛好者的自學書籍。

大數據分析處理(慕課版) 目錄

目錄

單元1 大數據分析概述 1

 學習目標 1

 相關知識 1

1. 大數據分析的概念 1

2. 大數據分析的產生與發展過程 2

3. 大數據分析的應用場景 3

4. 大數據分析流程 4

5. 傳統的分析統計工具 9

6. 大數據處理編程語言 9

7. 大數據分析實用工具 10

 任務實現 11

任務1.1根據業務需求選擇合適的大數據分析技術 11

1.1.1 業務需求分析 11

1.1.2 選擇大數據分析技術 12

任務1.2 使用 pip和Pycharm完成 Python包的管理 13

1.2.1 了解Python常用庫 13

1.2.2 使用pip命令安裝、卸載Python包 14

1.2.3 使用Pycharm平臺安裝、卸載Python包 16

 思政園地 19

 單元小結 20

 課后習題 20



單元2 NumPy科學計算基礎 22

 學習目標 22

 相關知識 22

1.NumPy與ndarray對象 22

2.創建ndarray數組的函數 23

3.ndarray對象的數據類型 23

4.數組的矢量化運算 24

5.廣播機制 25

6.數組與標量的運算 26

7.NumPy通用函數 26

8.NumPy的統計與排序方法 27

9.NumPy的numpy.linalg模塊 29

 任務實現 29

任務2.1 保存考試成績—創建一個數組 29

2.1.1 使用函數創建數組 29

2.1.2 掌握隨機數模塊的使用 32

任務2.2 查看考試成績數據類型—查看數組的數據類型 35

2.2.1 查看數據類型 35

2.2.2 實現數據類型轉換 36

任務2.3 對兩門課成績進行相加—實現數組運算 37

2.3.1 實現矢量化運算 37

2.3.2 實現數組廣播 38

2.3.3 實現數組與標量間的運算 39

任務2.4 對考試成績進行計算—使用NumPy通用函數實現數組計算 39

2.4.1 一元通用函數的使用 40

2.4.2 二元通用函數的使用 40

任務2.5對考試成績進行統計排序—利用NumPy數組進行數據處理 42

2.5.1 變換數組的形態 42

2.5.2 實現數組統計 44

2.5.3 實現數組排序 47

任務2.6 對多門課成績進行計算—使用NumPy的線性代數模塊處理矩陣 49

2.6.1 計算對角線元素和 49

2.6.2 實現矩陣乘法 49

 思政園地 50

 單元小結 51

 課后習題 51

單元3 Pandas統計分析基礎 53

 學習目標 53

 相關知識 53

1. Pandas與Pandas的數據類型 53

2.創建Series和DataFrame的函數 55

3.索引與切片 56

4.排序算法與實現排序的方法 56

5.統計學與實現統計的方法 56

 任務實現 57

任務3.1 用不同方式創建系列——創建Series 57

3.1.1 創建一個空的Series 57

3.1.2 使用ndarray對象創建一個Series 58

3.1.3 使用字典創建一個Series 58

3.1.4 使用標量創建一個Series 59

任務3.2 用不同方式創建數據幀——創建DataFrame 59

3.2.1 使用字典創建數據幀 59

3.2.2 使用csv文件創建DataFrame 62

3.2.3 在DataFrame中插入列和行 63

任務3.3 訪問和提取隨機數據——使用DataFrame進行索引與切片 65

3.3.1 使用索引訪問數據 65

3.3.2 使用切片提取部分數據 66

任務3.4 對學生數據進行排序—實現數據排序 67

3.4.1 使用sort、sort_index、sort_values實現數據排序 67

3.4.2 控制排序順序 69

3.4.3 設置排序算法 71

任務3.5 進行隨機數據統計—實現數據統計 72

3.5.1 使用Pandas的統計方法進行統計 72

3.5.2 使用describe方法描述數據 76

 思政園地 77

 單元小結 77

 課后習題 78



目錄

單元4 數據加載與存儲 80

 學習目標 80

 相關知識 80

1. 常用的數據文件類型 80

2.文本文件讀取和寫入 81

3.Excel文件讀取和寫入 83

4. 數據庫文件讀取和寫入 85

 任務實現 88

任務4.1 讀取并存儲城市經緯度數據-txt文件讀寫 88

4.1.1 讀取txt文件中數據 89

4.1.2 將數據寫入txt文件 91

任務4.2 讀取并存儲招聘數據-csv文件的讀寫 92

4.2.1 讀取csv文件數據 93

4.2.2 將數據寫入csv文件 94

任務4.3 讀取并存儲用戶數據-Excel文件的讀寫 96

4.3.1 讀取Excel文件工作表數據 96

4.3.2 將數據寫入Excel文件的工作表中 96

任務4.4 讀取商品類別數據并存儲賬戶數據-MySQL數據庫讀寫 96

4.4.1 連接MySQL數據庫 96

4.4.2 從MySQL數據庫讀取數據 96

4.4.3 存儲數據到MySQL數據庫 96

 思政園地 96

 單元小結 96

 課后習題 96



目錄

單元5 數據質量與數據清洗 110

 學習目標 110

 相關知識 110

1.企業數據管理現狀 110

2.數據標準 111

3.數據質量的定義 111

4.常用的數據質量檢測手段 113

5.數據質量管理的必要性 113

6. 缺失值 114

7. 重復值 115

8. 異常值 117

 任務實現 120

任務5.1 醫藥銷售數據遺漏檢查-缺失值處理 120

5.1.1 發現缺失值 121

5.1.2 處理缺失值 123

任務5.2 醫藥銷售數據去重校驗-重復值處理 125

5.2.1 重復值判斷和查看 125

5.2.2 處理記錄重復值 126

5.2.3 處理特征重復值 127

任務5.3 醫藥銷售數據異常值排除-異常值處理 130

5.3.1 異常值識別 131

5.3.2 異常值處理 132

 思政園地 133

 單元小結 133

 課后習題 134



單元6 數據合并與轉換 136

 學習目標 136

 相關知識 136

1.concat()函數 136

2.append()方法 138

3.merge()函數 138

4.join()方法 141

5.combine_first()方法 142

6.map()方法 143

7.cut()函數 143

8.qcut()函數 144

 任務實現 145

任務6.1 堆疊學生信息和考試成績數據—實現數據堆疊 145

6.1.1 實現數據橫向堆疊 145

6.1.2 實現數據縱向堆疊 146

任務6.2 連接學生信息和考試成績數據—實現數據連接 148

6.2.1 使用merge()函數實現數據連接 148

6.2.2 使用join()方法實現數據連接 150

6.2.3 使用combine_first()方法重疊合并數據 151

任務6.3 對學生考試成績進行等級轉換—實現數據映射轉換 152

6.3.1 使用自定義函數映射轉換數據 152

6.3.2 使用字典映射轉換數據 153

6.3.3 使用lambda表達式映射轉換數據 154

任務6.4 對學生考試成績進行離散化—實現數據離散化 155

6.4.1 實現數據等寬離散化 155

6.4.2 實現數據等頻離散化 156

 思政園地 157

 單元小結 157

 課后習題 158



單元7 數據分組與聚合 160

 學習目標 160

 相關知識 160

1.數據分組的概念 160

2.GroupBy機制 161

3.數據分組的原則和依據 161

4.數據分組的方法與體系 162

5.數據聚合的概念 163

6. agg和aggregate函數 163

7. apply函數 163

8. transform函數 163

 任務實現 164

任務7.1 簡單數據表處理-數據分組 164

7.1.1 數據分組方法 164

7.1.2 實現Pandas 數據分組 166

任務7.2 人員得分表處理-數據聚合 172

7.2.1 實現agg聚合 172

7.2.2 實現apply聚合 175

7.2.3 實現transform聚合 179

 思政園地 181

 單元小結 182

 課后習題 182

單元8 Scikit-learn機器學習 184

 學習目標 184

 相關知識 184

1.機器學習的概念 184

2.機器學習的基本術語 185

3.機器學習的分類與應用 185

4.假設空間 185

5.歸納偏好 186

6.Sklearn 187

7.劃分數據集函數 188

8.preprocessing模塊 189

9.標準化和歸一化 190

10.降維 190

11.線性回歸 191

12.邏輯回歸 192

13.K-means算法 194

14.樸素貝葉斯 195

15.支持向量機算法 198

 任務實現 201

任務8.1 使用sklearn處理iris數據集—使用sklearn處理數據 201

8.1.1 導入數據集 201

8.1.2 劃分訓練集和測試集 202

任務8.2 boston數據集預處理和降維—數據集預處理 202

8.2.1 實現數據標準化 202

8.2.2 實現數據歸一化 202

8.2.3 實現PCA降維 202

任務8.3 構建并評價boston回歸模型—回歸模型分析與預測 202

8.3.1 實現線性回歸 202

8.3.2 實現支持向量機算法 202

任務8.4 構建并評價iris分類模型—分類模型分析與預測 202

8.4.1 實現邏輯回歸分類 202

8.4.2 實現樸素貝葉斯算法 202

任務8.5 構建并評價iris聚類模型—聚類模型分析與評價 202

8.5.1 實現K-means算法 202

8.5.2 評價K-means算法 202

 思政園地 202

 單元小結 202

 課后習題 202

單元9 使用統計圖表展示數據 225

 學習目標 225

 相關知識 225

1. 數據可視化的概念 225

2. 數據可視化設計過程 226

3. 基本圖表類型及使用場景 227

4. pyplot基礎語法 229

5. rc參數 230

6. 繪制線圖的函數plot 231

7. 繪制柱狀圖的函數bar 232

8. 繪制直方圖的函數hist 232

9. 繪制餅圖的函數pie 233

10. 繪制散點圖的函數scatter 233

11. 子圖的概念 234

12. Seaborn 235

 任務實現 236

任務9.1 使用線圖展示水果銷量變化曲線—掌握matplotlib基礎語法 236

9.1.1 掌握pyplot基礎語法 236

9.1.2 設置pyplot的動態rc參數 237

任務9.2 使用常用圖表展示多個品牌汽車銷售額—繪制常見圖表 239

9.2.1 繪制線圖 239

9.2.2 繪制柱狀圖 241

9.2.3 繪制直方圖 243

9.2.4 繪制餅圖 244

9.2.5 繪制散點圖 246

任務9.3 使用子圖展示就業率數據—創建子圖 248

9.3.1數據分析與子圖設計 249

9.3.2 實現子圖的創建 250

任務9.4 使用Seaborn展示汽車數據的分布與相關性—使用Seaborn繪制圖表 252

9.4.1 使用Seaborn繪制直方圖 252

9.4.2 使用Seaborn繪制熱力圖 253

 思政園地 255

 單元小結 256

 課后習題 256

單元10 某地區電力公司用戶付費行為預測 258

任務10.1 案例背景概述 258

10.1.1項目目標 258

10.1.2相關背景業務知識 258

10.1.3數據采集和理解 258

任務10.2 電力數據預處理 259

10.2.1按賬戶和日期排序 260

10.2.2統計每個賬戶每個月各種賬戶活動發生的數量 261

10.2.3計算當月月底的賬戶余額 262

10.2.4計算當月月底賬戶余額,按下月10日前計算的賬戶余額 263

10.2.5計算每個賬戶每個月的用電量和繳費量 264

10.2.6合并整理為新的用戶繳費明細和用電量明細表 265

10.2.7數據中空值的處理 265

任務10.3 模型建立與評估 265

10.3.1數據特征的轉換 265

10.3.2邏輯回歸模型建立與評估 265

10.3.3支持向量機模型建立與評估 265

單元11 《你好,舊時光》文本挖掘分析 275

任務11.1 案例背景概述 275

11.1.1項目目標 275

11.1.2相關背景知識 275

11.1.3實驗準備 276

任務11.2 文本數據準備與處理 277

11.2.1讀入數據與基本處理 277

11.2.2創建停用詞 277

11.2.3找出章節的頭部索引和尾部索引 277

11.2.4 繪制章節段數與字數折線圖 278

任務11.3 文本分詞與詞云繪制 278

11.3.1全文分詞 278

11.3.2統計詞頻與長度 279

11.3.3繪制高頻詞圖 279

11.3.4詞云繪制 280

任務11.4 關系網絡探索 280

11.4.1 計算段落權重 280

11.4.2 繪制人物關系圖 282

任務11.5 聚類分析 283

11.5.1計算tf-idf得到詞向量矩陣 283

11.5.2獲得所有特征項 284

11.5.3 k均值聚類 284

11.5.4 聚類結果可視化 285

11.5.5 層次聚類 285

單元12 基于大數據可視化的城市通勤特征分析研究 287

任務12.1 案例背景概述 287

12.1.1項目目標 287

12.1.2相關背景知識 287

任務12.2 原始數據預處理 287

12.2.1數據的載入 288

12.2.2站點信息處理 289

12.2.3地鐵刷卡記錄處理 290

12.2.4 合并通勤記錄 291

12.2.5 虛擬換乘站點數據合并 292

任務12.3 詞云圖的繪制 295

12.3.1載入數據 295

12.3.2 設置文字云圖各項參數 296

12.3.3 繪制詞云圖 296

任務12.4 繪制起終點分布連線圖 296

12.4.1 載入數據 296

12.4.2 統計頻數并篩選 296

12.4.3 完成繪圖 296

任務12.5 繪制早高峰地鐵刷卡進出站分布圖 296

12.5.1載入數據 296

12.5.2統計出入站的頻次 296

12.5.3設置圖形選項參數并畫圖 296

任務12.6職住地識別與城市規劃對比分析 296

12.6.1載入數據 296

12.6.2統計居住地和工作地的出入站頻次 296

12.6.3進行區域中心分析 296

任務13.1 案例背景概述 312

13.1.1項目目標 312

13.1.2相關背景知識 312

任務13.2 網絡數據爬取 312

13.2.1查看要爬取的網頁結構 312

13.2.2提取此網頁中的新聞標題 313

任務13.3 中文文本處理 314

13.3.1中文分詞 315

13.3.2將分詞后得到的詞組轉換為向量 316

任務13.4 機器學習做情感分析 318

13.4.1 樣本拆分 318

13.4.2 模型訓練與評價 318

任務13.5 作詞云圖 321

13.5.1載入數據 321

13.5.2分詞 321

13.5.3繪制詞云圖 322





展開全部

大數據分析處理(慕課版) 作者簡介

永洪 常州信息職業技術學院大數據技術專業負責人,具有豐富大數據技術專業相關教學和科研工作經驗,為國家級教學團隊成員、國家級職業教育教師教學創新團隊成員、江蘇省高校“青藍工程”優秀青年骨干教師、江蘇省優秀畢業設計團隊指導老師;參與國家精品資源共享課、國家在線開放課、軟件技術專業國家教學資源庫、省在線開放課程等建設;獲江蘇省教學成果一等獎一項、二等獎一項。主要講授大數據分析處理、數據庫管理與應用、C#應用開發、UML建模與設計模式、Web前端開發等課程;參與編寫國家規劃教材《軟件開發與項目管理》、《信息技術基礎》,主編高職高專規劃教材《XML案例教材》,主編常州信息職業技術學院精品教材《.NET Web應用開發》。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 中视电广_短视频拍摄_短视频推广_短视频代运营_宣传片拍摄_影视广告制作_中视电广 | 工业风机_环保空调_冷风机_工厂车间厂房通风降温设备旺成服务平台 | 龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司_龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司 | 温州中研白癜风专科_温州治疗白癜风_温州治疗白癜风医院哪家好_温州哪里治疗白癜风 | 缠绕机|缠绕膜包装机|缠绕包装机-上海晏陵智能设备有限公司 | 河南mpp电力管_mpp电力管生产厂家_mpp电力电缆保护管价格 - 河南晨翀实业 | 杭州顺源过滤机械有限公司官网-压滤机_板框压滤机_厢式隔膜压滤机厂家 | 防堵吹扫装置-防堵风压测量装置-电动操作显示器-兴洲仪器 | 安徽净化板_合肥岩棉板厂家_玻镁板厂家_安徽科艺美洁净科技有限公司 | Akribis直线电机_直线模组_力矩电机_直线电机平台|雅科贝思Akribis-杭州摩森机电科技有限公司 | 东亚液氮罐-液氮生物容器-乐山市东亚机电工贸有限公司 | 120kv/2mA直流高压发生器-60kv/2mA-30kva/50kv工频耐压试验装置-旭明电工 | 蓝米云-专注于高性价比香港/美国VPS云服务器及海外公益型免费虚拟主机 | 天津试验仪器-电液伺服万能材料试验机,恒温恒湿标准养护箱,水泥恒应力压力试验机-天津鑫高伟业科技有限公司 | 示波器高压差分探头-国产电流探头厂家-南京桑润斯电子科技有限公司 | 代理记账_公司起名核名_公司注册_工商注册-睿婕实业有限公司 | 分轨 | 上传文件,即刻分离人声和伴奏| 四川职高信息网-初高中、大专、职业技术学校招生信息网 | 德国UST优斯特氢气检漏仪-德国舒赐乙烷检测仪-北京泽钏 | China plate rolling machine manufacturer,cone rolling machine-Saint Fighter | 南京技嘉环保科技有限公司-杀菌除臭剂|污水|垃圾|厕所|橡胶厂|化工厂|铸造厂除臭剂 | 玉米深加工设备|玉米加工机械|玉米加工设备|玉米深加工机械-河南成立粮油机械有限公司 | 软瓷_柔性面砖_软瓷砖_柔性石材_MCM软瓷厂家_湖北博悦佳软瓷 | 泰来华顿液氮罐,美国MVE液氮罐,自增压液氮罐,定制液氮生物容器,进口杜瓦瓶-上海京灿精密机械有限公司 | 智能电表|预付费ic卡水电表|nb智能无线远传载波电表-福建百悦信息科技有限公司 | 江苏密集柜_电动_手动_移动_盛隆柜业江苏档案密集柜厂家 | 论文查重_免费论文查重_知网学术不端论文查重检测系统入口_论文查重软件 | 新能源汽车教学设备厂家报价[汽车教学设备运营18年]-恒信教具 | 临朐空调移机_空调维修「空调回收」临朐二手空调 | 广东健伦体育发展有限公司-体育工程配套及销售运动器材的体育用品服务商 | 桥架-槽式电缆桥架-镀锌桥架-托盘式桥架 - 上海亮族电缆桥架制造有限公司 | 一级建造师培训_一建培训机构_中建云筑建造师培训网校 | 涿州网站建设_网站设计_网站制作_做网站_固安良言多米网络公司 | BHK汞灯-百科|上海熙浩实业有限公司| 「银杏树」银杏树行情价格_银杏树种植_山东程锦园林 | 水厂自动化|污水处理中控系统|水利信息化|智慧水务|智慧农业-山东德艾自动化科技有限公司 | 潜水搅拌机-双曲面搅拌机-潜水推进器|奥伯尔环保 | 东莞市踏板石餐饮管理有限公司_正宗桂林米粉_正宗桂林米粉加盟_桂林米粉加盟费-东莞市棒子桂林米粉 | 西门子伺服控制器维修-伺服驱动放大器-828D数控机床维修-上海涌迪 | 热闷罐-高温罐-钢渣热闷罐-山东鑫泰鑫智能热闷罐厂家 | 手持气象站_便携式气象站_农业气象站_负氧离子监测站-山东万象环境 |