-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
實用機器學習 版權信息
- ISBN:9787115446466
- 條形碼:9787115446466 ; 978-7-115-44646-6
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
實用機器學習 本書特色
大數據時代為機器學習的應用提供了廣闊的空間,各行各業涉及數據分析的工作都需要使用機器學習算法。本書圍繞實際數據分析的流程展開,著重介紹數據探索、數據預處理和常用的機器學習算法模型。本書從解決實際問題的角度出發,介紹回歸算法、分類算法、推薦算法、排序算法和集成學習算法。在介紹每種機器學習算法模型時,書中不但闡述基本原理,而且討論模型的評價與選擇。為方便讀者學習各種算法,本書介紹了R語言中相應的軟件包并給出了示例程序。本書的一大特色就是貼近工程實踐。首先,本書僅側重介紹當前工業界常用的機器學習算法,而不追求知識內容的覆蓋面;其次,本書在介紹每類機器學習算法時,力求通俗易懂地闡述算法思想,而不追求理論的深度,讓讀者借助代碼獲得直觀的體驗。
實用機器學習 內容簡介
●作者在學術界和工業界工作多年,書中介紹的都是非常實用的算法。 ●本書涵蓋實際中常用的各種算法,包括回歸、分類、推薦系統、排序等,能夠引導讀者從原始數據出發到形成zui終的解決方案。 ●通過R語言來引導讀者使用算法,使讀者能夠簡單上手,得到算法的第1手使用經驗。機器學習是一個熱門而又高深的話題。多年來,符號學習、統計學習、深度學習等一系列高高在上的名詞使得大眾對機器學習敬而遠之,大數據時代,機器學習的廣泛成功應用再次引爆了大眾對機器學習的關注。機器學習能夠解決什么樣的問題?如何使用機器學習解決實際問題?應該怎樣選擇算法?本書從實踐出發回答這些問題。書中首先通過實際應用場景引出機器學習中的幾類典型問題,然后著重介紹解決各類問題的實用算法,并利用R語言和相關的軟件包來引導讀者實際使用這些算法。 ●不懂機器學習?沒有關系。本書不僅介紹了機器學習的基本概念和算法原理,還提供了完整的程序代碼,助讀者輕松上手、快速入門。 ●數學基礎不夠?沒有關系。本書一方面突出了對概念和原理的理解,盡可能淡化了對數學背景的要求;另一方面也介紹了需要具備的數學知識,便于讀者查閱。 ●不會使用R語言?沒有關系。本書介紹了R語言的基本知識及常用R軟件包,兩位作者更是親手繪制了全書90%以上的插圖,手把手教讀者用R語言分析數據和展現結果。掌握本書介紹的算法和對應的R軟件包后,讀者可以順利地針對新問題、新數據選擇和使用機器學習算法,在實踐中獲得更大收獲。
實用機器學習 目錄
1.1 什么是機器學習 1
1.2 機器學習算法的分類 2
1.3 實際應用 3
1.3.1 病人住院時間預測 3
1.3.2 信用分數估計 4
1.3.3 Netflix上的影片推薦 4
1.3.4 酒店推薦 5
1.3.5 討論 6
1.4 本書概述 7
1.4.1 本書結構 9
1.4.2 閱讀材料及其他資源 10
第2章 R語言 12
2.1 R的簡單介紹 12
2.2 R的初步體驗 13
2.3 基本語法 14
2.3.1 語句 14
2.3.2 函數 17
2.4 常用數據結構 19
2.4.1 向量 19
2.4.2 因子 23
2.4.3 矩陣 24
2.4.4 數據框 26
2.4.5 列表 29
2.4.6 下標系統 33
2.5 公式對象和apply函數 34
2.6 R軟件包 36
2.6.1 軟件包的安裝 37
2.6.2 軟件包的使用 38
2.6.3 軟件包的開發 38
2.7 網絡資源 38
第3章 數學基礎 39
3.1 概率 39
3.1.1 基本概念 39
3.1.2 基本公式 40
3.1.3 常用分布 42
3.1.4 隨機向量及其分布 43
3.1.5 隨機變量的數字特征 46
3.1.6 隨機向量的數字特征 48
3.2 統計 49
3.2.1 常用數據特征 49
3.2.2 參數估計 52
3.3 矩陣 54
3.3.1 基本概念 54
3.3.2 基本運算 56
3.3.3 特征值與特征向量 57
3.3.4 矩陣分解 60
3.3.5 主成分分析 62
3.3.6 R中矩陣的計算 68
第4章 數據探索和預處理 74
4.1 數據類型 74
4.2 數據探索 75
4.2.1 常用統計量 76
4.2.2 使用R實際探索數據 76
4.3 數據預處理 82
4.3.1 缺失值的處理 82
4.3.2 數據的標準化 83
4.3.3 刪除已有變量 85
4.3.4 數據的變換 86
4.3.5 構建新的變量:啞變量 86
4.3.6 離群數據的處理 88
4.4 數據可視化 89
4.4.1 直方圖 89
4.4.2 柱狀圖 92
4.4.3 莖葉圖 95
4.4.4 箱線圖 96
4.4.5 散點圖 100
第5章 回歸分析 104
5.1 回歸分析的基本思想 104
5.2 線性回歸和*小二乘法 105
5.2.1 *小二乘法的幾何解釋 106
5.2.2 線性回歸和極大似然估計 107
5.3 嶺回歸和Lasso 108
5.3.1 嶺回歸 108
5.3.2 Lasso與稀疏解 110
5.3.3 Elastic Net 114
5.4 回歸算法的評價和選取 114
5.4.1 均方差和均方根誤差 114
5.4.2 可決系數 114
5.4.3 偏差-方差權衡 115
5.5 案例分析 118
5.5.1 數據導入和探索 118
5.5.2 數據預處理 120
5.5.3 將數據集分成訓練集和測試集 121
5.5.4 建立一個簡單的線性回歸模型 121
5.5.5 建立嶺回歸和Lasso模型 122
5.5.6 選取合適的模型 124
5.5.7 構造新的變量 126
5.6 小結 126
第6章 分類算法 127
6.1 分類的基本思想 127
6.2 決策樹 130
6.2.1 基本原理 130
6.2.2 決策樹學習 131
6.2.3 過擬合和剪枝 138
6.2.4 實際使用 139
6.2.5 討論 148
6.3 邏輯回歸 148
6.3.1 sigmoid函數的性質 148
6.3.2 通過極大似然估計來估計參數 149
6.3.3 牛頓法 151
6.3.4 正則化項的引入 153
6.3.5 實際使用 154
6.4 支持向量機 161
6.4.1 基本思想:*大化分類間隔 161
6.4.2 *大分類間隔的數學表示 163
6.4.3 如何處理線性不可分的數據 164
6.4.4 Hinge損失函數 166
6.4.5 對偶問題 168
6.4.6 非線性支持向量機和核技巧 170
6.4.7 實際使用 173
6.5 損失函數和不同的分類算法 175
6.5.1 損失函數 175
6.5.2 正則化項 178
6.6 交叉檢驗和caret包 180
6.6.1 模型選擇和交叉檢驗 180
6.6.2 在R中實現交叉檢驗以及caret包 182
6.7 分類算法的評價和比較 192
6.7.1 準確率 193
6.7.2 混淆矩陣 193
6.7.3 精確率、召回率和F1度量 195
6.7.4 ROC曲線和AUC 196
6.7.5 R中評價標準的計算 199
6.8 不平衡分類問題 201
6.8.1 使用不同的算法評價標準 201
6.8.2 樣本權值 201
6.8.3 取樣方法 202
6.8.4 代價敏感學習 203
第7章 推薦算法 205
7.1 推薦系統基礎 205
7.1.1 常用符號 208
7.1.2 推薦算法的評價標準 209
7.2 基于內容的推薦算法 210
7.3 基于矩陣分解的算法 211
7.3.1 無矩陣分解的基準方法 211
7.3.2 基于奇異值分解的推薦算法 212
7.3.3 基于SVD推薦算法的變體 216
7.4 基于鄰域的推薦算法 222
7.4.1 基于用戶的鄰域推薦算法 223
7.4.2 基于商品的鄰域推薦算法 225
7.4.3 混合算法 226
7.4.4 相似度的計算 227
7.5 R中recommenderlab的實際 使用 232
7.6 推薦算法的評價和選取 250
第8章 排序學習 253
8.1 排序學習簡介 253
8.1.1 解決排序問題的基本思路 254
8.1.2 構造特征 255
8.1.3 獲取相關度分數 256
8.1.4 數學符號 257
8.2 排序算法的評價 257
8.2.1 MAP 258
8.2.2 DCG 260
8.2.3 NDCG 261
8.2.4 討論 261
8.3 逐點方法 262
8.3.1 基于SVM的逐點排序方法 263
8.3.2 逐點方法討論 264
8.4 逐對方法 265
8.4.1 Ranking SVM算法 265
8.4.2 IR-SVM算法 266
8.4.3 RankNet算法 267
8.4.4 LambdaRank算法 271
8.4.5 LambdaMART算法 273
8.5 逐列方法 279
8.5.1 SVMmap算法 279
8.5.2 討論 283
第9章 集成學習 284
9.1 集成學習簡介 284
9.2 bagging簡介 285
9.3 隨機森林 289
9.3.1 訓練隨機森林的基本流程 289
9.3.2 利用隨機森林估計變量的 重要性 290
9.3.3 隨機森林的實際使用 291
9.4 boosting簡介 300
9.4.1 boosting和指數損失函數 301
9.4.2 AdaBoost算法 302
9.4.3 AdaBoost的實際使用 306
9.4.4 討論 311
9.5 提升決策樹和梯度提升算法 311
9.5.1 提升決策樹和梯度提升算法的基本原理 311
9.5.2 如何避免過擬合 315
9.5.3 gbm包的實際使用 318
9.5.4 討論 327
9.6 學習器的聚合及stacking 328
9.6.1 簡單平均 328
9.6.2 加權平均 329
9.6.3 stacking的基本思想及應用 329
9.7 小結 331
參考文獻 332
索引 334
實用機器學習 作者簡介
孫亮,*數據科學與技術研究院高級專家。曾任微軟Azure機器學習(Azure Machine Learning)部門高級數據科學家,先后畢業于南京大學計算機系(1999-2003)、中國科學院軟件研究所(2003-2006)、美國亞利桑那州立大學計算機系(2006-2011),研究興趣包括機器學習、數據挖掘及其實際應用等。近年來參加了KDD Cup、Heritage HealthPrize等多項數據挖掘競賽并多次取得優異成績。在IEEE T-PAMI、NIPS、ICML、SIGKDD等機器學習領域的知名國際期刊和國際會議上發表論文近20篇,著有機器學習英文專著1部。黃倩,河海大學副研究員,先后畢業于南京大學計算機系(1999-2003)、中國科學院計算技術研究所(2003-2010),研究興趣包括多媒體大數據處理、機器學習、云計算等。參加過多個973、863、國家自然科學基金項目的研究,參與過AVS、H.265 HEVC等國內外視頻壓縮標準的制訂,F主持包括國家自然科學基金在內的多個國家、省市級項目,并獲南京市江寧區首批高層次創業人才“創聚工程”項目資助。在相關領域的知名國際期刊和國際會議上發表論文逾20篇,出版譯著4本,參編專著1部。
- >
月亮虎
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
山海經
- >
唐代進士錄
- >
史學評論
- >
有舍有得是人生
- >
莉莉和章魚