-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材R語言/劉鵬 版權(quán)信息
- ISBN:9787302494324
- 條形碼:9787302494324 ; 978-7-302-49432-4
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材R語言/劉鵬 本書特色
該書深入淺出地介紹 R 語言在大數(shù)據(jù)分析應(yīng)用中的相關(guān)知識及編程。 基礎(chǔ)篇:討論數(shù)據(jù)處理的R環(huán)境,包括R數(shù)據(jù)結(jié)構(gòu)(數(shù)據(jù)框、列表等)、數(shù)據(jù)導(dǎo)入/導(dǎo)出、數(shù)據(jù)清洗(處理數(shù)據(jù)的缺失值、不一致、異常值)、數(shù)據(jù)變換(匯總、集成、透視表、規(guī)約等)、可視化、高級語言編程、數(shù)據(jù)分析常用建模方法和原理,涵蓋了目前數(shù)據(jù)挖掘的主要算法,包括分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、智能推薦和時序模式,利用可視化數(shù)據(jù)挖掘包Rattle進行試驗指導(dǎo)。 應(yīng)用篇:討論2個經(jīng)典的數(shù)據(jù)分析報告案例,通過案例分析使讀者能夠把學(xué)到的R基礎(chǔ)知識應(yīng)用到解決實際問題中,把數(shù)據(jù)變成價值。 進階篇:解決R語言在處理大數(shù)據(jù)時性能低下的問題,討論了兩個R包:RHadoop、SparkR。 本書注重實踐;注重數(shù)據(jù)變成價值;注重大數(shù)據(jù)的分析。 本書分為基礎(chǔ)篇、應(yīng)用篇和進階篇。注重實踐;注重數(shù)據(jù)變成價值;注重大數(shù)據(jù)的分析。
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材R語言/劉鵬 內(nèi)容簡介
近年來,R語言可謂是數(shù)據(jù)分析的熱門語言,相關(guān)的資料五花八門,讓讀者難以抉擇。本書力求用簡潔、精練,以理論與實踐相結(jié)合的方式讓大家快速掌握R語言。 全書共14章,章為緒論,從數(shù)學(xué)、統(tǒng)計學(xué)和邏輯學(xué)3個方面探討了樹立正確數(shù)據(jù)思維的一些原則;其余各章分為基礎(chǔ)篇(第2~10章)、應(yīng)用篇(1、12章)和進階篇(3、14章)。基礎(chǔ)篇按照數(shù)據(jù)分析過程,主要討論了R的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)導(dǎo)入/導(dǎo)出、數(shù)據(jù)清洗、數(shù)據(jù)變換、可視化、不錯語言編程和常用建模方法。應(yīng)用篇通過對2個經(jīng)典案例的分析,使讀者能夠把學(xué)到的R基礎(chǔ)知識應(yīng)用到解決實際問題,把數(shù)據(jù)變成價值。進階篇解決如何用R處理大數(shù)據(jù)的一些技術(shù)。 本書可用作培養(yǎng)應(yīng)用型人才的課程教材,也可作為數(shù)據(jù)分析愛好者的參考資料。
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材R語言/劉鵬 目錄
1.1 為什么學(xué)習(xí)R語言 1
1.1.1 R是什么 1
1.1.2 R語言主要優(yōu)勢 2
1.2 正確的數(shù)據(jù)思維觀 4
1.2.1 數(shù)學(xué)思維 5
1.2.2 統(tǒng)計思維 5
1.2.3 邏輯思維 10
習(xí)題 12
基礎(chǔ)篇
第2章 R語言入門
2.1 新手上路 17
2.1.1 兩個例子 17
2.1.2 R是什么 19
2.2 R語言開發(fā)環(huán)境部署 19
2.2.1 安裝R 19
2.2.2 安裝RStudio 20
2.3 獲取幫助 22
2.3.1 文檔和搜索 22
2.3.2 演示 22
2.3.3 幫助函數(shù) 23
2.4 工作空間 23
2.5 腳本 24
2.6 R包 25
習(xí)題 25
第3章 數(shù)據(jù)類型
3.1 變量與常量 27
3.1.1 變量 27
3.1.2 常量 28
3.2 結(jié)構(gòu)類型 28
3.2.1 向量 29
3.2.2 矩陣 31
3.2.3 數(shù)組 33
3.2.4 數(shù)據(jù)框 35
3.2.5 因子 36
3.2.6 列表 37
3.3 字符串操作 38
3.3.1 基本操作 38
3.3.2 字符串處理stringr包 39
3.4 用于數(shù)據(jù)處理和轉(zhuǎn)換的常用函數(shù) 40
習(xí)題 41
第4章 數(shù)據(jù)準備
4.1 數(shù)據(jù)導(dǎo)入 43
4.1.1 鍵盤輸入數(shù)據(jù) 44
4.1.2 導(dǎo)入文本文件 45
4.1.3 導(dǎo)入Excel數(shù)據(jù) 46
4.1.4 導(dǎo)入數(shù)據(jù)庫文件 47
4.2 數(shù)據(jù)導(dǎo)出 48
4.2.1 導(dǎo)出文本文件 48
4.2.2 保存圖片 49
習(xí)題 49
第5章 數(shù)據(jù)可視化
5.1 低水平繪圖命令 51
5.1.1 點 51
5.1.2 線 54
5.1.3 面 56
5.2 高水平繪圖命令 59
5.2.1 認識ggplot2 59
5.2.2 幾何對象 59
5.2.3 映射 60
5.2.4 統(tǒng)計對象 62
5.2.5 標度 63
5.2.6 分面 65
5.2.7 其他修飾 67
5.3 交互式繪圖命令 69
5.3.1 rCharts包 69
5.3.2 plotly包 70
5.3.3 shiny 72
習(xí)題 80
第6章 數(shù)據(jù)探索
6.1 缺失值分析 82
6.1.1 與缺失值相關(guān)的幾個概念 82
6.1.2 缺失值檢測 83
6.2 異常值分析 84
6.2.1 箱線圖檢驗離群點 85
6.2.2 散點圖檢測離群點 86
6.2.3 LOF方法檢測異常值 87
6.2.4 聚類方法檢測異常值 87
6.3 不一致值分析 88
6.4 數(shù)據(jù)的統(tǒng)計特征分析 88
6.4.1 分布分析 88
6.4.2 對比分析 90
6.4.3 統(tǒng)計量分析 91
6.4.4 周期性分析 93
6.4.5 相關(guān)性分析 94
習(xí)題 97
第7章 數(shù)據(jù)變換
7.1 數(shù)據(jù)清洗 100
7.1.1 缺失數(shù)據(jù)處理 100
7.1.2 數(shù)據(jù)去重 101
7.1.3 規(guī)范化 102
7.2 數(shù)據(jù)選擇 103
7.2.1 刪除有75%以上相同數(shù)值的自變量 103
7.2.2 刪除高相關(guān)性的自變量 104
7.2.3 重要變量的選擇 105
7.2.4 數(shù)據(jù)集選擇 106
7.2.5 主成分分析 106
7.2.6 因子分析 108
7.3 數(shù)據(jù)集成 109
7.3.1 通過向量化重構(gòu)數(shù)據(jù) 109
7.3.2 為數(shù)據(jù)添加新變量 110
7.3.3 數(shù)據(jù)透視表 112
7.3.4 頻度 117
7.3.5 數(shù)據(jù)整合 118
7.3.6 分組匯總 121
習(xí)題 124
第8章 高級編程
8.1 控制結(jié)構(gòu) 126
8.1.1 選擇結(jié)構(gòu)程序設(shè)計 126
8.1.2 循環(huán)結(jié)構(gòu)程序設(shè)計 127
8.2 用戶自定義函數(shù) 128
習(xí)題 129
第9章 數(shù)據(jù)建模
9.1 Rattle包 132
9.2 聚類模型 139
9.2.1 背景 139
9.2.2 K-Means聚類 139
9.2.3 Ewkm聚類 142
9.2.4 層次聚類(Hierachical) 144
9.2.5 雙向聚類(BiCluster) 146
9.3 關(guān)聯(lián)分析模型 147
9.3.1 背景 147
9.3.2 基本術(shù)語 148
9.3.3 關(guān)聯(lián)規(guī)則的分類 149
9.3.4 Apriori算法 150
9.3.5 實驗指導(dǎo) 151
9.4 傳統(tǒng)決策樹模型 153
9.4.1 背景 153
9.4.2 ID3算法 155
9.4.3 C4.5算法 156
9.4.4 實驗指導(dǎo) 156
9.5 隨機森林決策樹模型 159
9.5.1 背景 159
9.5.2 隨機森林算法 159
9.5.3 實驗指導(dǎo) 161
9.6 自適應(yīng)選擇決策樹模型 164
9.6.1 背景 164
9.6.2 Boosting算法 164
9.6.3 adaboost算法 165
9.6.4 實驗指導(dǎo) 165
9.7 SVM 169
9.7.1 背景 169
9.7.2 SVM算法 169
9.7.3 實驗指導(dǎo) 172
9.8 線性回歸模型 173
9.8.1 背景 173
9.8.2 一元線性回歸方法 173
9.8.3 實驗指導(dǎo) 175
9.9 神經(jīng)網(wǎng)絡(luò)模型 175
9.9.1 背景 175
9.9.2 人工神經(jīng)網(wǎng)絡(luò)模型 176
9.9.3 實驗指導(dǎo) 179
習(xí)題 181
第10章 模型評估
10.1 數(shù)據(jù)集 185
10.2 混淆矩陣 186
10.2.1 二分類混淆矩陣 186
10.2.2 模型評價指標 187
10.2.3 多分類混淆矩陣 188
10.3 風(fēng)險圖 188
10.3.1 風(fēng)險圖的作用 188
10.3.2 實驗指導(dǎo) 189
10.4 ROC曲線 191
10.4.1 什么是ROC曲線 191
10.4.2 ROC曲線作用 191
10.4.3 實驗指導(dǎo) 191
習(xí)題 193
應(yīng)用篇
第11章 影響大學(xué)平均錄取分數(shù)線因素分析
11.1 背景與目標 197
11.2 數(shù)據(jù)說明 197
11.3 描述性分析 200
11.4 總結(jié)與建議 203
第12章 收視率分析
12.1 背景介紹 204
12.2 數(shù)據(jù)說明 204
12.3 描述性分析 205
12.4 總結(jié)與建議 211
進階篇
第13章 RHadoop
13.1 認識RHadoop 215
13.1.1 為什么要讓Hadoop結(jié)合R語言 215
13.1.2 Mahout與R在做數(shù)據(jù)挖掘的區(qū)別 216
13.2 RHadoop安裝 216
13.2.1 依賴包安裝 216
13.2.2 RHadoop的特點 219
13.3 綜合練習(xí) 220
習(xí)題 225
第14章 SparkR
14.1 認識SparkR 228
14.1.1 安裝SparkR 228
14.1.2 在R或Rstudio中調(diào)用SparkR 228
14.2 SparkDataFrame 229
14.3 SparkR支持的機器學(xué)習(xí)算法 230
14.4 綜合練習(xí) 230
14.4.1 加載數(shù)據(jù) 230
14.4.2 SparkDataFrame基本操作 231
14.4.3 從Spark上運行SQL查詢 233
14.4.4 SparkR操作hdfs上的文件 233
14.4.5 通過SparkR操作spark-sql以hive的表為對象 234
習(xí)題 234
參考文獻
附錄 大數(shù)據(jù)和人工智能實驗環(huán)境
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材R語言/劉鵬 作者簡介
李法平- 副教授/系統(tǒng)分析師,碩士,重慶電子工程職業(yè)學(xué)院軟件學(xué)院移動應(yīng)用開發(fā)教研室主任,主要從事高職軟件類專業(yè)教學(xué)研究、教育信息化系統(tǒng)和企業(yè)信息化系統(tǒng)等應(yīng)用技術(shù)研究。
- >
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(紅燭學(xué)術(shù)叢書)
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
月亮虎
- >
伯納黛特,你要去哪(2021新版)
- >
煙與鏡
- >
名家?guī)阕x魯迅:故事新編
- >
山海經(jīng)