-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
統計機器學習及Python實現 版權信息
- ISBN:9787030724380
- 條形碼:9787030724380 ; 978-7-03-072438-0
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
統計機器學習及Python實現 內容簡介
本書主要介紹統計機器學習領域常用的基礎模型、算法和代碼實現。包括統計機器學習、Python語言基礎,常用的線性回歸、貝葉斯分類器、邏輯回歸、VM、核方法、集成學習,以及深度學習中的多層感知器、卷積神經網絡、循環神經網絡、變分自編碼器、對抗生成網絡和強化學習等模型與優化方法,使用Scikit-Learn、TensorFlow和PyTorch定制模型與訓練等。 本書面向的主要讀者是統計學、機器學習和人工智能等領域的高年級本科生和研究生,以及其他各領域有數據驅動任務的學生和從業人員。
統計機器學習及Python實現 目錄
前言
第1章 引言 1
1.1 問題驅動 1
1.2 統計機器學習的基本任務 2
1.3 統計機器學習的總體目標和樣本策略 3
1.3.1 監督學習 4
1.3.2 無監督學習 8
1.3.3 基于樣本的統計機器學習方法 9
1.4 Anaconda、TensorFlow 2.0和PyTorch的安裝 10
1.4.1 Anaconda的安裝 10
1.4.2 TensorFlow 2.0的安裝 11
1.4.3 PyTorch的安裝 11
第2章 線性回歸 13
2.1 一般線性回歸模型 13
2.1.1 基本框架 13
2.1.2 梯度下降法 14
2.1.3 性能度量 15
2.2 多項式回歸 15
2.3 線性回歸的正則化方法 18
2.3.1 線性嶺回歸 19
2.3.2 LASSO回歸 21
2.4 線性回歸Python實現 24
第3章 線性分類器 37
3.1 概率生成模型 37
3.2 二分類概率生成模型 38
3.3 邏輯回歸 39
3.4 Softmax回歸 40
3.5 邏輯回歸的限制 41
3.6 分類任務的Python實現 43
第4章 支持向量機 48
4.1 線性SVM分類器 48
4.2 線性支持向量回歸 51
4.3 SVM的Python實現 52
4.3.1 軟間隔分類 52
4.3.2 非線性SVM分類 55
4.3.3 支持向量回歸的實現 58
第5章 核方法 61
5.1 特征映射 61
5.2 核函數 63
5.3 核方法的數學基礎 64
5.3.1 希爾伯特空間 65
5.3.2 Riesz表示定理 67
5.3.3 再生核希爾伯特空間 67
5.4 核技巧 70
5.5 核方法的Python實現 73
5.5.1 基于核方法的嶺回歸和支持向量回歸 73
5.5.2 基于核方法的支持向量分類 76
第6章 集成學習 78
6.1 決策樹 78
6.1.1 決策樹的基本概念 78
6.1.2 決策樹的訓練 80
6.2 學習器集成 81
6.3 Bagging和隨機森林 81
6.3.1 Bagging 81
6.3.2 隨機森林 83
6.4 Boosting 83
6.4.1 AdaBoost基本算法 84
6.4.2 AdaBoost算法的解釋 87
6.4.3 多分類AdaBoost 91
6.4.4 Boosting的一般梯度下降算法 96
6.5 集成學習的Python實現 98
6.5.1 決策樹的Python實現 98
6.5.2 Bagging的Python實現 100
6.5.3 隨機森林的Python實現 101
6.5.4 Boosting的Python實現 102
第7章 深度學習的基礎 104
7.1 前饋神經網絡 104
7.1.1 感知器模型 104
7.1.2 多層感知器及其變體 107
7.1.3 BP算法 110
7.1.4 回歸和分類任務中的MLP 114
7.2 利用Keras和TensorFlow實施MLP 115
7.2.1 使用Sequential API建立分類器 116
7.2.2 使用Functional API構建復雜模型 123
7.2.3 使用Subclassing API構建動態模型 123
7.2.4 保存和恢復模型 124
第8章 卷積神經網絡 126
8.1 簡介 126
8.2 CNN的網絡架構 126
第9章 循環神經網絡 132
9.1 框架 132
9.2 循環層 132
9.3 長短期記憶網絡 136
9.4 基于RNN的時間序列預測 139
第10章 無監督學習 148
10.1 無監督學習的主要任務 148
10.2 自編碼器 149
10.2.1 棧式自編碼器 150
10.2.2 變分自編碼器 152
10.3 GAN 163
10.3.1 經典GAN的基本思想 164
10.3.2 經典GAN的推廣 168
10.3.3 WGAN 170
10.3.4 條件GAN 175
10.4 無監督學習的Python實現 181
10.4.1 PyTorch實戰基礎 181
10.4.2 圖像分類的PyTorch實現 191
10.4.3 VAE的PyTorch實現 196
10.4.4 GAN的PyTorch實現 201
第11章 深度強化學習 205
11.1 深度強化學習的主要任務 205
11.2 強化學習的基本概念 205
11.2.1 強化學習的基本模型 206
11.2.2 價值函數 207
11.3 基于策略梯度的深度強化學習 207
11.4 基于值函數的深度強化學習 213
11.4.1 值函數的估計方法 213
11.4.2 Q-Learning 214
11.5 Actor-Critic方法 216
11.5.1 A2C和A3C方法 216
11.5.2 路徑導數策略梯度方法 218
11.6 強化學習的PyTorch實現 220
11.6.1 導入必需的包 220
11.6.2 回放內存設置 222
11.6.3 獲取狀態輸入 224
11.6.4 訓練 230
參考文獻 235
統計機器學習及Python實現 節選
第1章 引言 統計機器學習無論在格物致知的自然科學,還是在經世致用的社會科學,抑或是在風頭正勁的信息科學中,都扮演著至關重要的角色.例如,統計學習方法在預測基因組學中的應用,根據公司的績效和經濟運行數據預測其股票價格;深度學習方法對圖像處理、語音識別和自然語言處理等人工智能領域的重要進展起到關鍵作用. 1.1 問題驅動 統計學是一個方法論學科,其扎根于現實中的各類問題,機器學習更是如此.針對問題,從統計學的角度來考慮機器學習常稱作統計機器學習或統計學習.下面三個例子分別對應于統計機器學習常見的回歸、分類和生成任務. (1)從一個人血液的紅外吸收光譜,估計(或者說預測)糖尿病患者血液中葡萄糖的含量. (2)從數字圖像中識別手寫郵政編碼中的數字. (3)從海量的圖像、文字和聲音,來分別生成類似風格的圖像、文字和聲音等. 統計機器學習能為統計學領域、機器學習、大數據和人工智能以及其他諸多交叉學科問題的處理提供有效工具.數據驅動成為當今一大趨勢.每天,我們會面對不同群體(總體)的各種觀測數據.假設有來自某個總體的 m 個樣本(又稱實例),第 i 個樣本上有各種指標的觀測值,這里常指代 n 維的特征或稱作輸入變量X的第 i 次觀測,是對應的標簽或稱作輸出變量Y的第 i 次觀測,寫成數據矩陣為 (1.1.1) 其中的單向箭頭反映了預測變量和響應變量的某種自然對應關系.在監督學習任務中,正是利用數據中的這種對應信息,學習輸入變量X對輸出變量Y的預測函數 f(X),用于預測未觀測的輸出變量或解釋輸入和輸出變量之間的關系.若觀測數據中不含有標簽Y的觀測值,則涉及常見的無監督學習任務,其同樣需要根據數據學習一個預測函數 f(x),來描述特征變量X的某種分布規律.例如,學習特征變量X的密度函數 f(x).有了密度函數,我們可以用它做進一步的統計推斷,或者用來生成與觀測數據有近似分布的樣本,如某種風格的圖像生成. 1.2 統計機器學習的基本任務 根據上一節,若用一句話來近似描述何謂機器學習,可以概括為“統計機器學習”近似地是在執行“尋找一個函數. f”的任務. 完成該任務有以下主要的三步: **步,定義模型.用統計的語言,模型就是一個函數的集合滿足某些性質 g .本步是為了解決從哪里尋找我們想要的那個函數. 第二步,構造損失函數.損失函數能提供一個準則,度量模型中的每個函數預測的精確性,為挑選出*優的函數確定依據. 第三步,建立優化算法.根據平均損失(或稱作“風險”)*小的準則,給出尋找*優預測函數的算法,如常見的梯度下降算法. 例1.2.1 設觀測值為來自服從二元正態總體的樣本,這里分別表示二維正態總體分布的均值向量和協方差矩陣的取值. 根據對散點圖1.1的觀察,可以引導我們進行統計機器學習的三個步驟. 圖1.1 二維正態散點圖 **步,根據散點圖看出(X, Y)取值有較明顯的線性關系趨勢,考慮定義所謂的簡單線性模型為. 第二步,在線性回歸問題中,常選擇的損失函數之一為平方損失,在第 i 個樣本上預測的平方損失形式為 (1.2.1) 而在所有 m 個樣本上的總的損失(也稱作殘差平方和),記為 (1.2.2) 給定觀測值的函數. 第三步,通過優化算法(如能求出顯式解的“正規方程法”或者大規模數據時的“梯度下降法”),求出使得損失 L(w0,w1)達到*小值的,尋找到簡單線性回歸模型的預測函數,完成我們的基本任務. 注 1.2.1該簡單線性回歸模型(函數集 F)中,不同的系數向量確定了不同的函數.由此對應關系,可把該函數集中的每一個“函數”元素和二維歐氏空間 R2中的一個向量元素建立一個一一映射.即簡單線性模型 F 本質上是一個二維的參數空間,自由變動的參數為.另外,每個具體的向量(w0,w1)T 自身又表示一個具體的函數 w,其定義域為含有兩個點的集合 f0,1g,值域是 R.例如,若,則表示函數 w 將0對應到0,1對應到1;而若,則表示的函數γ是將0對應到1,1對應到0,即 w 和γ表示兩個不同的函數.所有這些函數值列成的二維向量構成一個二維歐氏空間 R2.因此,對于簡單線性回歸任務,尋找一個線性預測函數,等價于尋找一個二維向量,而其又等價于尋找一個定義在上的函數.這個角度有利于我們考慮更復雜的統計機器學習模型和算法. 注1.2.2 以上三步彼此相互緊密相關,每一步的實施是一個由具體問題而定、動態選擇的過程.下一節分別從總體和樣本的角度更進一步描述機器學習過程. 1.3 統計機器學習的總體目標和樣本策略 實際中,我們是通過隨機樣本研究機器學習,因此我們的主要目標是推斷產生隨機樣本的總體分布,其是未知的.本節先從總體的角度明確統計機器學習的目標,然后考慮從樣本著手實現逼近目標的主要策略. 1.3.1 監督學習 1.回歸問題 設 表示一個隨機的輸入向量,表示一維的隨機輸出變量,(X,Y)的聯合分布(此處不妨設為密度)為 g(x, y).監督學習的基本任務之一是,根據(X,Y)的聯合分布 g(x, y),尋找一個預測函數 f(X),由X的值來預測Y.一個*常用和方便計算的損失函數是二次損失.在二次損失下,我們得到一個挑選*好預測函數 f 的準則,稱為二次風險函數(risk function)或者二次期望損失(expected loss) (1.3.1) 這里表示Y關于X的條件密度.根據上面的計算,*小化 L(f)的解為,即Y關于X的條件期望函數,也稱作均值回歸函數. 以上均值回歸函數的推導有一定的技巧性,若借助變分法則可以從*優化中常見的梯度等于0的求極值方法導出,這會幫助我們更好理解并記住這一重要回歸函數形式的由來.以下,略微偏離主題,介紹變分法的少許知識及其在統計機器學習中的應用. 變分法是17世紀末發展起來的一門數學分支,20世紀中葉發展起來的有限元法,其數學基礎就是變分法.如今,變分法已成為大學生、研究生、工程技術人員和各領域科學專家的**數學基礎.為介紹變分法,首先看一個和機器學習有關的概率問題. 例1.3.1 設連續型隨機變量X p(x),取值于區間[a, b],其相對熵為,問取什么樣的密度函數 p(x),能使上面的相對熵達到*大. 記函數集為區間[a, b]上的概率分布密度函數g.上述問題,可以轉化成如下的優化問題: 上述形式和常見的優化問題有些不同,通常的優化問題是在歐氏空間的某個子集中尋找一個*優解向量,而這里需要在函數空間的某個子集中尋找一個*優的函數.但變分法可以看成通常*優化的拓展,由類似的極值一階條件,得到的歐拉方程一般為一個偏微分方程,其解正是一個函數.變分法簡單地概括為求泛函的極值問題.統計機器學習三個步驟中的第二步中構造的平均損失函數(風險函數),更確切地應稱作泛函,其定義域是**步給出的模型(函數集),值域為非負實數集合;第三步的優化則是求解該泛函的極值過程.下面的引理是給出微分方程(也可稱作正規方程)的基礎. 引理1.3.1 (變分法基本引理)設函數 f(x)在區間[a, b]上連續,任意函數η(x)在區間[a, b]上具有 n 階連續導數,且對于某個非負整數滿足條件,如果積分對滿足上述條件的任意函數η(x)總成立,則在區間[a, b]上必有. 引理1.3.1的證明參見文獻(老大中,2004).注意到引理中的 n 取得越大,對η(x)的光滑性要求越高,滿足條件的η(x)一般更少,相應的積分方程對應條件是在減弱的.另外,上述引理中的 a, b 分別取,引理中的條件做適當的調整,引理的結論仍然成立. 以下,我們結合變分法基本原理,來推導一個基礎優化問題的解. 考慮如下形式的一個基礎優化問題: (1.3.2) 這里 L 是變量 f 的泛函,為簡單起見,X假設是一維變量,函數 G 稱為泛函的核. 如果. f 是待求*優解,則任一函數 f 可以表達為,其中η(x)滿足η(a)=η(b)=0,這可以看成初始邊界條件,其在*速降線等經典問題中有實際意義.η(x)在優化中可以看成向量、控制擾動的方向;.是一個實數,控制擾動的大小.假設 f(x)可導,其導函數表示為,因此,優化問題(1.3.2)等價于 (1.3.3) 顯然,上式中的目標函數依賴于.但是,若是*優解,則對任意給定的都是的*小值點,即對任意的.假設積分和求導運算可以交換次序,上式變為. 此時,結合基本引理,可以導出下面的結論. 定理1.3.1 使*簡泛函 (1.3.4)
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
中國歷史的瞬間
- >
隨園食單
- >
有舍有得是人生
- >
自卑與超越
- >
月亮虎
- >
小考拉的故事-套裝共3冊