-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
數據科學概論――從概念到應用 版權信息
- ISBN:9787121441332
- 條形碼:9787121441332 ; 978-7-121-44133-2
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數據科學概論――從概念到應用 本書特色
(1)對知識進行清晰講解。 數據科學知識體系宏大、內容繁多,具有很強的多學科交叉特征,因此作為入門教材及讀物,本書在保證體系架構相對完整的前提下,力求對相關知識內容進行合理的取舍,并根據知識脈絡進行編排。對于涉及的知識點,本書力爭在講明基本概念與基本原理的同時指出來龍去脈,說明對數據科學的作用,以及在數據應用中的使用方法,等等,且配以充實的案例和示例,避免羅列空洞的概念和堆砌枯燥的理論。同時對于文字論述,本書力求準確嚴謹、通俗自然。 (2)對操作進行有效實現。 數據科學是一門實操性很強的科學,不能只重視數據科學的思想性和理論性,忽視數據科學的方法性和實踐性。學習者只有邊學邊做才能對知識點有更加深刻的認知,并在課后練習和工作實踐中舉一反三,不斷提高。作者根據市場調研和教學反饋等信息,將Python計算機語言、SQL數據查詢語言和Tableau可視化工具作為目前數據科學常用的基本軟件,并將網絡爬蟲、數據管理Navicat和大數據平臺databricks等作為典型工具,本書用專門章節對其進行介紹,可使學習者快速把握這些技術工具的全貌與精髓,從而盡可能地將數據科學的理論方法應用到實踐中。 (3)登錄華信教育資源網(www.hxedu.com.cn)可下載本書涉及的案例與示例的全部代碼和數據集,以及各章PPT和教學大綱等資料。
數據科學概論――從概念到應用 內容簡介
本書引導讀者從數據科學基本概念出發,全面了解數據科學相關知識,掌握數據科學中數據處理的流程和方法。本書在理論上突出可讀性和完整性,力求兼具一定的廣度和深度;在實踐上強調對常用技術工具的操作性,力求體現數據科學應用的多樣性和代表性。全書共12章,可分為三大部分:第1、2章是數據科學概述部分;第3~6章是數據科學理論基礎和重點工具部分;第7~12章是數據科學全流程的技術與方法部分(包括數據采集、數據存儲與管理、數據可視化、數據分析、數據安全與倫理,以及數據科學的應用與案例)。登錄華信教育資源網(www.hxedu.com.cn)可下載本書涉及的案例與示例的全部代碼和數據集,以及各章PPT和教學大綱等資料。本書可作為高等院校數據科學相關專業的教學用書,也可作為數據科學相關研究從業人員的參考用書。
數據科學概論――從概念到應用 目錄
第1章 數據與信息概述 1
1.1 數據的概念、特征和作用 1
1.1.1 數據的概念 1
1.1.2 數據的特征 2
1.1.3 數據的作用 3
1.2 數據的尺度與類型 3
1.2.1 定性數據和定量數據 4
1.2.2 離散數據和連續數據 5
1.2.3 結構化數據和非結構化數據 5
1.3 數據的表格化 8
1.3.1 個體數據的表格化 8
1.3.2 批量匯總數據的表格化 9
1.3.3 統計指標 11
1.4 數據的數字化 12
1.4.1 二進制與數字化 12
1.4.2 文本的數字化 13
1.4.3 數字的數字化 15
1.4.4 多媒體的數字化 17
1.4.5 數字化轉型與數字化經濟 18
1.5 信息與信息熵 19
1.5.1 信息熵:不確定性的度量 19
1.5.2 信息增益:不確定性減少的度量 20
第2章 數據科學概述 22
2.1 數據科學的科學觀 22
2.1.1 從科學高度看數據科學 22
2.1.2 通過案例初識數據科學 23
2.2 數據科學概念 25
2.2.1 數據科學產生的重大技術背景 25
2.2.2 數據科學產生的典型應用背景 25
2.2.3 數據科學的定義 27
2.3 歷史觀察:探討數據科學的發展歷程 27
2.3.1 古代:從結繩記事到阿拉伯數字 27
2.3.2 古典:政治算術和國勢學 29
2.3.3 近代:隨機現象、概率論與數理統計 29
2.3.4 現代:抽樣與推斷統計 31
2.3.5 計算機時代:技術革命帶來的繁榮 32
2.3.6 大數據時代:奠定數據科學基礎 33
2.4 數據世界:探討數據科學的對象 37
2.4.1 數據世界和數據科學 37
2.4.2 數據世界和數字孿生 38
2.5 DIKW模型:探討數據科學中的若干基本概念 39
2.5.1 DIKW模型 39
2.5.2 從DIKW模型看數據科學 41
2.6 維恩圖:探討數據科學的學科交叉性 42
2.6.1 文獻中的數據科學維恩圖 42
2.6.2 數據科學學科交叉性的總結 43
2.7 從數據到模型:探討數據科學的一般方法 45
2.7.1 反問題的方法 45
2.7.2 數據驅動的方法 46
2.7.3 模型化的方法 47
2.8 數據處理流程:探討數據科學方法論 53
2.8.1 傳統理念下的數據處理方法論 53
2.8.2 計算機時代的數據處理方法論 54
2.8.3 大數據時代的數據處理方法論 56
2.9 三維視角:總覽數據科學 58
2.9.1 從三維視角看數據科學 58
2.9.2 理論方法維度 58
2.9.3 處理流程維度 60
2.9.4 應用領域維度 60
第3章 數據科學中的計算機基礎 61
3.1 計算機系統概述 61
3.1.1 計算機的發展 62
3.1.2 計算機的種類 62
3.2 計算機硬件 63
3.2.1 計算機硬件的組成 63
3.2.2 計算機硬件的工作原理 64
3.3 計算機軟件 65
3.3.1 操作系統 65
3.3.2 計算機語言 66
3.3.3 應用軟件 68
3.4 計算機網絡 68
3.4.1 局域網、廣域網和因特網 69
3.4.2 計算機網絡的通信協議 71
3.5 計算機應用的技術模式 72
3.5.1 主機/終端模式 72
3.5.2 客戶機/服務器模式 73
3.5.3 瀏覽器/服務器模式 74
3.5.4 云計算模式 75
3.5.5 對等模式 78
3.6 計算機應用 79
3.6.1 科學計算 79
3.6.2 數據處理與大數據 80
3.6.3 人工智能 81
3.6.4 過程控制 85
第4章 數據科學中的數學與統計學基礎 86
4.1 微積分與數據科學應用 87
4.1.1 微積分的產生背景 87
4.1.2 微積分的基本思想方法 88
4.1.3 梯度下降法及數據科學應用示例 90
4.2 線性代數與數據科學應用 93
4.2.1 向量與向量空間及應用示例 93
4.2.2 矩陣與線性變換及應用示例 95
4.2.3 特征值與奇異值及數據科學應用示例 99
4.3 統計學與數據科學應用 103
4.3.1 描述統計要點 104
4.3.2 概率與概率分布要點 107
4.3.3 推斷統計和多元統計分析要點 108
4.3.4 貝葉斯思維在數據科學中的應用 109
4.4 集合論與數據科學的應用 113
4.4.1 集合論與羅素悖論 113
4.4.2 粗糙集與數據科學應用示例 115
4.5 圖論與數據科學的應用 120
4.5.1 歐拉和哥尼斯堡七橋問題 120
4.5.2 圖論的發展沿革 121
4.5.3 圖論與數據科學應用示例 122
第5章 數據科學中的SQL基礎 125
5.1 SQL概述 125
5.1.1 SQL的優點 125
5.1.2 MySQL和SQL入門 127
5.2 SQL的數據定義和應用 130
5.2.1 SQL數據定義語句 131
5.2.2 SQL數據定義應用 133
5.3 SQL的數據操縱和應用 137
5.3.1 SQL數據操縱語句 137
5.3.2 SQL數據操縱應用 137
5.4 SQL的數據查詢 139
5.4.1 SELECT語句的簡單應用 139
5.4.2 SELECT語句的進階應用 145
5.4.3 SELECT語句的其他應用 150
5.5 MySQL的系統管理 151
5.5.1 MySQL的用戶管理 151
5.5.2 MySQL的權限管理 152
5.5.3 MySQL的事務管理 153
5.5.4 MySQL的文件存儲和日志管理 155
5.5.5 MySQL的客戶端數據庫管理工具Navicat 158
第6章 數據科學中的Python基礎 160
6.1 Python概述 160
6.1.1 Python的特點 160
6.1.2 Python的安裝和啟動 161
6.1.3 **個Python程序與幫助 162
6.2 Python基礎 164
6.2.1 Python的基本數據類型和組織 164
6.2.2 Python的程序結構和流程控制 169
6.2.3 異常處理結構 173
6.3 Python語言進階 176
6.3.1 面向對象程序設計 176
6.3.2 模塊與包 177
6.3.3 Python綜合:chaos混沌態 178
6.4 NumPy入門 181
6.4.1 NumPy數組的創建 182
6.4.2 NumPy數組的訪問 185
6.4.3 NumPy數組的計算 186
6.5 Pandas入門 190
6.5.1 Pandas的數據組織 191
6.5.2 Pandas的數據加工處理 194
6.6 Matplotlib入門 196
6.6.1 Matplotlib的基本繪圖 196
6.6.2 Matplotlib的參數配置 198
6.6.3 Matplotlib的子圖設置 200
6.6.4 Matplotlib的常見統計圖 201
6.7 Python綜合應用示例:對空氣質量監測數據的分析 206
6.7.1 空氣質量數據的預處理 207
6.7.2 空氣質量數據的基本分析 209
6.7.3 空氣質量數據的可視化 212
第7章 數據采集 217
7.1 傳統數據采集方式和技術 218
7.1.1 普查和統計報表制度 218
7.1.2 抽樣調查和問卷調查 220
7.1.3 觀察法和實驗法 221
7.1.4 傳統數據采集技術 224
7.2 互聯網數據采集 226
7.2.1 互聯網數據采集概述 227
7.2.2 網站運營數據庫和數據分析及采集 227
7.2.3 網頁埋點和數據采集 229
7.2.4 開放數據庫和數據采集 231
7.2.5 搜索引擎和數據采集 233
7.2.6 網頁爬蟲和數據采集 236
7.3 物聯網數據采集 240
7.3.1 物聯網數據采集概述 240
7.3.2 傳感器和數據采集 241
7.3.3 衛星通信和數據采集 242
7.3.4 射頻識別技術、條形碼和數據采集 244
7.4 數據采集與人工智能 245
7.4.1 數據標注與數據采集 246
7.4.2 文本數據采集和挖掘 248
7.4.3 圖像數據采集和識別 249
第8章 數據存儲與管理 251
8.1 數據文件和數據庫系統 251
8.1.1 數據文件 251
8.1.2 數據庫系統的概念 254
8.1.3 關系型數據庫系統和聯機事務處理 255
8.1.4 數據庫索引技術 257
8.2 數據倉庫系統 260
8.2.1 數據倉庫的概念 260
8.2.2 數據倉庫系統的基本結構 261
8.2.3 聯機分析處理 264
8.2.4 知識發現與商業智能 266
8.3 數據庫系統的技術發展 268
8.3.1 并行數據庫技術 269
8.3.2 分布式數據庫技術 271
8.3.3 NoSQL數據庫系統和NewSQL數據庫系統 272
8.4 Hadoop大數據系統 275
8.4.1 什么是Hadoop 275
8.4.2 HDFS 276
8.4.3 MapReduce計算框架 279
8.4.4 Hadoop大數據生態系統 280
8.5 Spark大數據系統 286
8.5.1 什么是Spark 287
8.5.2 Spark大數據生態系統 288
8.5.3 Spark大數據平臺databricks應用 290
8.6 Flink大數據系統 294
8.6.1 流數據 294
8.6.2 Flink大數據生態系統 297
8.7 數據湖系統 300
8.7.1 什么是數據湖系統 300
8.7.2 數據湖系統的基本功能 301
8.7.3 典型的數據湖系統 302
第9章 數據可視化 305
9.1 數據可視化概述 305
9.1.1 數據可視化起源和發展 305
9.1.2 數據可視化元素 307
9.1.3 數據可視化步驟和原則 308
9.2 數據可視化一般方法 309
9.2.1 電子地圖及地圖圖表 309
9.2.2 高維數據的可視化展現 312
9.3 數據可視化實現和Tableau應用 315
9.3.1 數據可視化實現方式 316
9.3.2 Tableau及其應用 317
9.4 數據可視化的新發展 325
9.4.1 計算機圖形學 326
9.4.2 虛擬現實及相關技術 327
9.4.3 增強現實技術 329
第10章 數據分析 332
10.1 數據分析方法、目標及軟件工具 332
10.1.1 數據分析方法 332
10.1.2 數據分析目標 337
10.1.3 數據分析軟件工具:sklearn簡介 338
10.2 數據預處理 340
10.2.1 數據標準化處理 340
10.2.2 缺失值處理 342
10.2.3 特征選擇與特征提取 344
10.3 經典聚類算法 347
10.3.1 聚類分析概述 347
10.3.2 層次聚類 349
10.3.3 K-均值聚類 351
10.3.4 DBSCAN聚類 353
10.3.5 聚類分析應用實例 355
10.4 數據預測:經典統計方法 360
10.4.1 數據預測中的一般問題 360
10.4.2 一般線性回歸分析 362
10.4.3 二項邏輯回歸分析 365
10.4.4 數據預測應用實例 367
10.5 數據預測:經典機器學習方法 370
10.5.1 K-近鄰分析 370
10.5.2 決策樹算法 373
10.5.3 支持向量機 377
10.5.4 分類算法的對比 379
第11章 數據安全與倫理 384
11.1 數據安全概述 384
11.1.1 什么是數據安全 384
11.1.2 數據安全的分類 385
11.2 數據安全體系 388
11.2.1 數據安全管理系統 388
11.2.2 數據安全法律法規系統 389
11.2.3 數據安全技術系統 391
11.3 傳統數據安全技術 393
11.3.1 數據加密 393
11.3.2 數據脫敏 394
11.4 大數據時代的數據安全技術 396
11.4.1 區塊鏈 396
11.4.2 聯邦學習 398
11.5 數據倫理和算法倫理 402
11.5.1 數據倫理與案例 403
11.5.2 算法倫理與案例 405
第12章 數據科學的應用與案例 408
12.1 數據科學的商業應用:RFM分析與客戶終身價值 408
12.1.1 客戶購買行為的RFM分析 408
12.1.2 客戶終身價值 409
12.1.3 客戶終身價值的計算和應用案例 411
12.1.4 應用啟示:理解業務才能做好分析 415
12.2 數據科學的海關應用:抽樣方案升級 416
12.2.1 海關稽查案例 417
12.2.2 海關稽查抽樣的數據模擬 418
12.2.3 應用啟示:數據治理體系 424
12.3 數據科學的企業應用:數字化轉型 426
12.3.1 數字化轉型概述 426
12.3.2 數字化轉型案例 427
12.3.3 應用啟示:數字化轉型的評估模型 430
附錄A MySQL函數列表 432
數據科學概論――從概念到應用 作者簡介
薛薇,工學碩士,經濟學博士,中國人民大學應用統計學科研究中心研究員,中國人民大學統計學院副教授。主要研究領域:機器學習和文本挖掘、復雜網絡建模等。關注統計和數據挖掘算法及軟件應用。涉足企業客戶終身價值測算,基于文本挖掘的熱點事件主題提取和分類,金融、貿易等復雜網絡動態建模等方面。主要代表性教材:《SPSS統計分析方法及應用》《R語言數據挖掘方法及應用》《R語言:大數據分析中的統計方法及應用》《SPSS Modeler數據挖掘方法及應用》《數據科學概論――從概念到應用》等。
- >
上帝之肋:男人的真實旅程
- >
二體千字文
- >
羅曼·羅蘭讀書隨筆-精裝
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
推拿
- >
伯納黛特,你要去哪(2021新版)
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)