-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
R語言(第2版大數據應用人才培養系列教材) 版權信息
- ISBN:9787302610229
- 條形碼:9787302610229 ; 978-7-302-61022-9
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
R語言(第2版大數據應用人才培養系列教材) 本書特色
本書深入淺出地介紹了 R 語言在大數據分析應用中的相關知識,全書分為緒論(第1 章)、基礎篇、應用篇和進階篇;A篇(第2~10 章)學習如何用R 語言完成數據處理,包括數據準備、數據探索、數據變換、數據可視化和數據建模等;應用篇(第11、12 章)學習如何用R 語言完成實際的數據分析報告撰寫,包括背景與目標、指標設計、描述性分析、模型分析和結論與建議;進階篇(第13、14 章)學習如何使用R 語言提高大數據處理性能,包括RHadoop、SparkR。 本書特點如下。 (1)知識學習的重點是模型的運用,而不是模型的原理。 (2)注重數據變成價值。 (3)關注大數據分析。 (4)向讀者提供了書中所用的配套代碼、數據及PPT,讀者可通過上機實驗,快速掌握書中所介紹的R 語言的使用方法。 第2 版對第1 版的內容和結構都做了較大的調整。 (1)去掉了數據分析師素養等宏觀內容,而更加注重實操和解決實際問題。 (2)全書的實驗數據以Titanic 項目為切入點,貫穿數據處理的全過程。從實際項目出發講解相關知識點,因此增強了業務場景的體驗。 (3)去掉了大數據處理的章節,因為大數據處理的方法、思維和小數據沒有本質區別,只是平臺不同。 (4)增加了字符串處理、特征工程、數據建模、模型評估方面的內容。 (5)增加了大量的學習資料:PPT、習題、代碼、數據集、擴展閱讀、微課視頻等。 (6)增加了近幾年R 語言的*新成果:pacman、caret、tidyverse、mlr 等。
R語言(第2版大數據應用人才培養系列教材) 內容簡介
本書通過Titanic數據分析案例,深入淺出地介紹了R語言在大數據分析應用中的相關知識,包括:數據準備、數據清洗、數據探索、數據變換、特征工程、數據建模、模型評估、模型部署等。全書共13章,第1~3章介紹R語言的開發環境和基本語法;第4~8章按數據分析生命周期討論R語言的實現;第9章高級編程相對獨立,主要解決復雜問題可能用到的程序結構;第10、11章與機器學習有關,內容偏難,但通過Rattle包回避了算法底層技術的難點;第12、13章通過兩個實際項目,讓讀者體驗數據處理的全過程以及業務對分析的重要性。本書力求以簡潔、精練、理論與實踐相結合的方式,讓讀者快速掌握R語言。 本書既可作為數據分析相關課程的教材,也可作為數據分析愛好者的參考資料。
R語言(第2版大數據應用人才培養系列教材) 目錄
第1 章 緒論
1.1 R 語言概述 1
1.1.1 R 語言現狀 1
1.1.2 R 語言主要優勢 2
1.1.3 學R 語言的理由 3
1.2 新手上路 4
1.3 R 語言開發環境部署 5
1.3.1 安裝R 5
1.3.2 安裝RStudio 6
1.4 獲取幫助 8
1.5 工作空間 8
1.6 腳本 9
1.7 R 包 9
習題 10
第2 章 基本語法
2.1 變量 11
2.1.1 變量及其作用 11
2.1.2 變量命名 12
2.1.3 變量賦值 12
2.1.4 變量值輸出 12
2.2 常量 13
2.2.1 邏輯常量 13
2.2.2 符號常量 13
2.2.3 標量 13
2.3 向量 15
2.3.1 向量產生 15
2.3.2 向量引用 16
2.3.3 向量化運算 16
XII R 語言(第2 版)
2.3.4 向量排序 17
2.4 運算符 18
2.4.1 算術運算符 18
2.4.2 關系運算符 18
2.4.3 邏輯運算符 19
2.4.4 其他運算符 20
2.5 命令 20
2.6 重要內置函數 21
習題 23
第3 章 數據類型
3.1 基本數據類型 27
3.2 結構數據類型 28
3.2.1 矩陣 28
3.2.2 數組 30
3.2.3 數據框 32
3.2.4 因子 33
3.2.5 列表 34
3.3 字符串操作 35
3.3.1 分割 35
3.3.2 拼接 35
3.3.3 正則表達式 36
3.3.4 替換 39
3.3.5 提取 42
3.3.6 測定字符串長度 42
3.3.7 匹配 43
3.4 數據類型判斷和轉換 43
3.5 日期和時間數據操作 44
3.5.1 日期數據基本操作 44
3.5.2 時間數據基本操作 45
習題 45
第4 章 數據導入導出
4.1 數據導入 49
4.1.1 鍵盤輸入數據 49
目 錄 XIII
4.1.2 導入文本文件 50
4.1.3 導入csv 文件 51
4.1.4 導入Excel 文件 51
4.1.5 導入數據庫文件 51
4.2 數據導出 52
4.2.1 導出文本文件 52
4.2.2 保存圖片 53
習題 53
第5 章 數據可視化
5.1 一圖勝千言 55
5.2 低水平繪圖命令 56
5.2.1 點圖 56
5.2.2 線圖 58
5.2.3 面圖 60
5.3 高水平繪圖命令 63
5.3.1 認識ggplot2 63
5.3.2 幾何對象 63
5.3.3 映射 64
5.3.4 統計對象 66
5.3.5 標度 67
5.3.6 分面 68
5.3.7 其他修飾 69
5.4 交互式繪圖命令 72
5.4.1 rCharts 包 72
5.4.2 plotly 包 74
5.4.3 Shiny 76
5.5 數據可視化圖形選擇建議 83
習題 84
第6 章 數據清洗
6.1 缺失值分析 87
6.1.1 缺失值檢測 87
6.1.2 缺失數據處理 88
6.2 異常值分析 89
XIV R 語言(第2 版)
6.2.1 箱線圖檢測離群點 89
6.2.2 點圖檢測離群點 90
6.3 數據去重 91
6.4 規范化 92
6.4.1 數據的中心化 92
6.4.2 數據標準化 92
6.5 格式轉換 93
習題 95
第7 章 數據探索
7.1 單一變量分析 97
7.1.1 定量變量 97
7.1.2 定性變量 99
7.2 雙變量分析 100
7.2.1 一個定性變量和一個定量變量 100
7.2.2 兩個定性變量 100
7.2.3 兩個定量變量 101
7.3 多變量分析 102
7.3.1 集中趨勢度量 102
7.3.2 離中趨勢度量 103
7.4 相關分析 104
7.4 1 相關系數 104
7.4.2 直接繪制點圖 105
7.4.3 繪制點圖矩陣 106
習題 106
第8 章 數據變換
8.1 數據集劃分與選擇 109
8.1.1 數據集劃分 109
8.1.2 數據集選擇 110
8.2 特征工程 110
8.2.1 特征工程概述 110
8.2.2 特征構建 111
8.2.3 特征選擇 112
8.2.4 特征抽取 115
8.2.5 自動化特征工程 117
8.3 數據整合 118
8.3.1 通過向量化重構數據 119
8.3.2 為數據添加新變量 119
8.3.3 變形與融合 120
8.3.4 列聯表 123
8.3.5 分組匯總 123
8.3.6 連接表 125
習題 127
第9 章 高級編程
9.1 條件表達式 131
9.2 選擇結構 132
9.3 循環結構 135
9.4 用戶自定義函數 138
習題 139
第10 章 數據建模
10.1 Rattle 包 141
10.2 變量的類別 143
10.3 聚類分析 145
10.3.1 背景 145
10.3.2 K-means 聚類 146
10.3.3 層次聚類 148
10.4 關聯規則挖掘 150
10.4.1 背景 150
10.4.2 基本術語 151
10.4.3 關聯規則的分類 152
10.4.4 Apriori 算法 153
10.4.5 實驗指導 154
10.5 傳統決策樹模型 156
10.5.1 背景 156
10.5.2 ID3 算法 157
10.5.3 C4.5 算法 158
10.5.4 實驗指導 159
XVI R 語言(第2 版)
10.6 隨機森林決策樹模型 161
10.6.1 背景 161
10.6.2 隨機森林算法 161
10.6.3 實驗指導 163
10.7 自適應選擇決策樹模型 166
10.7.1 背景 166
10.7.2 Boosting 算法 166
10.7.3 adaboost 算法 167
10.7.4 實驗指導 167
10.8 SVM 171
10.8.1 背景 171
10.8.2 SVM 算法 171
10.8.3 實驗指導 173
10.9 線性回歸模型 174
10.9.1 背景 174
10.9.2 一元線性回歸方法 174
10.9.3 實驗指導 176
10.10 神經網絡模型 177
10.10.1 背景 177
10.10.2 人工神經網絡模型 178
10.10.3 實驗指導 179
習題 181
第11 章 模型評估
11.1 Rattle 模型評估選項卡 185
11.2 混淆矩陣 186
11.2.1 二分類混淆矩陣 186
11.2.2 模型評價指標 187
11.2.3 多分類混淆矩陣 188
11.3 風險圖 188
11.3.1 風險圖的作用 188
11.3.2 實驗指導 188
11.4 ROC 曲線 190
11.4.1 ROC 曲線概述 190
11.4.2 ROC 曲線的作用 190
11.4.3 實驗指導 190
11.5 交叉驗證 192
習題 193
第12 章 影響大學平均錄取分數線因素分析
12.1 背景與目標 195
12.2 數據說明 195
12.3 描述性分析 196
12.4 數據建模 199
12.5 總結 201
第13 章 收視率分析
13.1 背景介紹 202
13.2 數據說明 202
13.3 描述性分析 203
13.4 數據建模 209
13.5 總結 212
參考文獻
附錄A
附錄B
R語言(第2版大數據應用人才培養系列教材) 作者簡介
劉鵬,清華大學博士畢業,現任南京云創大數據科技股份有限公司總經理,兼任中國大數據應用聯盟人工智能專家委員會主任、中國信息協會教育分會人工智能專家委員會主任、全國普通高校畢業生就業創業指導委員會委員、第45屆世界技能大賽中國區云計算選拔賽裁判長/專家指導組組長、2019年全國大學生數據建模比賽命題人、工信部云計算研究中心專家。 程顯毅,工學博士,南通大學教授。硅湖職業技術學院特聘教授。江蘇省人工智能學會監事會監事,江蘇省微電腦學會人工智能專委會副主任委員。長期從事人工智能、自然語言理解領域的教學研究工作。主持國家自然科學基金項目2項。發表論文100多篇、出版教材6部、專著5部。
- >
有舍有得是人生
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
經典常談
- >
伊索寓言-世界文學名著典藏-全譯本
- >
名家帶你讀魯迅:朝花夕拾
- >
推拿
- >
詩經-先民的歌唱
- >
小考拉的故事-套裝共3冊