包郵 深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí)
-
>
全國計(jì)算機(jī)等級(jí)考試最新真考題庫模擬考場(chǎng)及詳解·二級(jí)MSOffice高級(jí)應(yīng)用
-
>
決戰(zhàn)行測(cè)5000題(言語理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 版權(quán)信息
- ISBN:9787115649171
- 條形碼:9787115649171 ; 978-7-115-64917-1
- 裝幀:平裝-膠訂
- 冊(cè)數(shù):暫無
- 重量:暫無
- 所屬分類:>
深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 本書特色
沿襲“魚書”系列風(fēng)格,提供實(shí)際代碼,邊實(shí)踐邊學(xué)習(xí),無須依賴外部庫,從零開始實(shí)現(xiàn)支撐強(qiáng)化學(xué)習(xí)的基礎(chǔ)技術(shù)。
本書有什么特點(diǎn)?
●把握潮流中的變與不變
在快速發(fā)展變化的深度學(xué)習(xí)領(lǐng)域,有變化的事物,有不變的事物。有些事物會(huì)隨潮流而消逝,有些則會(huì)被傳承下去。本書從馬爾可夫決策過程、貝爾曼方程、蒙特卡洛方法、時(shí)間差分法等強(qiáng)化學(xué)習(xí)基礎(chǔ)方法,自然而然地過渡到神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí),從前沿視角為讀者遴選出*值得關(guān)注的強(qiáng)化學(xué)習(xí)理論和方法。
●內(nèi)容豐富,講解簡(jiǎn)明易懂
沿襲“魚書”系列風(fēng)格,提供實(shí)際代碼,邊實(shí)踐邊學(xué)習(xí),無須依賴外部庫,從零開始實(shí)現(xiàn)支撐強(qiáng)化學(xué)習(xí)的基礎(chǔ)技術(shù)。
本書有什么特點(diǎn)?
●把握潮流中的變與不變
在快速發(fā)展變化的深度學(xué)習(xí)領(lǐng)域,有變化的事物,有不變的事物。有些事物會(huì)隨潮流而消逝,有些則會(huì)被傳承下去。本書從馬爾可夫決策過程、貝爾曼方程、蒙特卡洛方法、時(shí)間差分法等強(qiáng)化學(xué)習(xí)基礎(chǔ)方法,自然而然地過渡到神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí),從前沿視角為讀者遴選出*值得關(guān)注的強(qiáng)化學(xué)習(xí)理論和方法。
●內(nèi)容豐富,講解簡(jiǎn)明易懂
作為超高人氣“魚書”系列第四部作品,本書延續(xù)了這一系列的寫作和講解風(fēng)格,搭配豐富的圖、表、代碼示例,加上輕松、簡(jiǎn)明的講解,能夠讓人非常信服地理解強(qiáng)化學(xué)習(xí)中各種方法之間的關(guān)系,于不知不覺中登堂入室。
●原理與實(shí)踐并重
本書旨在確保讀者能夠牢固掌握強(qiáng)化學(xué)習(xí)的獨(dú)特理論,奉行“只有做出來才能真正理解”的理念,將這一主題的每個(gè)構(gòu)成要素都從“理論”和“實(shí)踐”兩個(gè)方面進(jìn)行詳盡解釋,并鼓勵(lì)讀者動(dòng)手嘗試。與僅通過數(shù)學(xué)公式解釋理論的圖書不同,讀者將通過實(shí)際運(yùn)行本書代碼獲得許多令人驚嘆的領(lǐng)悟。
深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 內(nèi)容簡(jiǎn)介
本書前半部分介紹強(qiáng)化學(xué)習(xí)的重要思想和基礎(chǔ)知識(shí),后半部分介紹如何將深度學(xué)習(xí)應(yīng)用于強(qiáng)化學(xué)習(xí),遴選講解了深度強(qiáng)化學(xué)習(xí)的*新技術(shù)。全書從*適合入門的多臂老虎機(jī)問題切入,依次介紹了定義一般強(qiáng)化學(xué)習(xí)問題的馬爾可夫決策過程、用于尋找*佳答案的貝爾曼方程,以及解決貝爾曼方程的動(dòng)態(tài)規(guī)劃法、蒙特卡洛方法和TD方法。隨后,神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí)、DQN、策略梯度法等幾章則分別討論了深度學(xué)習(xí)在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用。本書延續(xù)"魚書"系列的風(fēng)格,搭配豐富的圖、表、代碼示例,加上輕松、簡(jiǎn)明的講解,讓人循序漸進(jìn)地理解強(qiáng)化學(xué)習(xí)中各種方法之間的關(guān)系,于不知不覺中登堂入室。本書既適合深度學(xué)習(xí)的初學(xué)者,也適合對(duì)人工智能感興趣的教師、學(xué)生和相關(guān)從業(yè)者學(xué)習(xí)參考。
深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 目錄
第 1章 老虎機(jī)問題 1
1.1 機(jī)器學(xué)習(xí)的分類與強(qiáng)化學(xué)習(xí) 1
1.1.1 監(jiān)督學(xué)習(xí) 2
1.1.2 無監(jiān)督學(xué)習(xí) 2
1.1.3 強(qiáng)化學(xué)習(xí) 3
1.2 老虎機(jī)問題 5
1.2.1 什么是老虎機(jī)問題 5
1.2.2 什么是好的老虎機(jī) 7
1.2.3 使用數(shù)學(xué)式表示 8
1.3 老虎機(jī)算法 9
1.3.1 價(jià)值的估計(jì)方法 10
1.3.2 求平均值的實(shí)現(xiàn) 12
1.3.3 玩家的策略 15
1.4 老虎機(jī)算法的實(shí)現(xiàn) 17
1.4.1 老虎機(jī)的實(shí)現(xiàn) 17
1.4.2 智能代理的實(shí)現(xiàn) 19
1.4.3 嘗試運(yùn)行 20
1.4.4 算法平均的特性 23
1.5 非穩(wěn)態(tài)問題 28
1.5.1 解決非穩(wěn)態(tài)問題前的準(zhǔn)備工作 29
1.5.2 解決非穩(wěn)態(tài)問題 32
1.6 小結(jié) 34
第 2章 馬爾可夫決策過程 36
2.1 什么是MDP 37
2.1.1 MDP的具體例子 37
2.1.2 智能代理與環(huán)境的互動(dòng) 39
2.2 環(huán)境和智能代理的數(shù)學(xué)表示 40
2.2.1 狀態(tài)遷移 40
2.2.2 獎(jiǎng)勵(lì)函數(shù) 42
2.2.3 智能代理的策略 43
2.3 MDP的目標(biāo) 45
2.3.1 回合制任務(wù)和連續(xù)性任務(wù) 45
2.3.2 收益 46
2.3.3 狀態(tài)價(jià)值函數(shù) 47
2.3.4 *優(yōu)策略和*優(yōu)價(jià)值函數(shù) 48
2.4 MDP的例子 50
2.4.1 回溯線形圖 51
2.4.2 找出*優(yōu)策略 52
2.5 小結(jié) 54
第3章 貝爾曼方程 56
3.1 貝爾曼方程的推導(dǎo) 57
3.1.1 概率和期望值(推導(dǎo)貝爾曼方程的準(zhǔn)備)57
3.1.2 貝爾曼方程的推導(dǎo) 60
3.2 貝爾曼方程的例子 64
3.2.1 有兩個(gè)方格的網(wǎng)格世界 64
3.2.2 貝爾曼方程的意義 68
3.3 行動(dòng)價(jià)值函數(shù)與貝爾曼方程 68
3.3.1 行動(dòng)價(jià)值函數(shù) 69
3.3.2 使用行動(dòng)價(jià)值函數(shù)的貝爾曼方程 70
3.4 貝爾曼*優(yōu)方程 71
3.4.1 狀態(tài)價(jià)值函數(shù)的貝爾曼*優(yōu)方程 71
3.4.2 Q函數(shù)的貝爾曼*優(yōu)方程 73
3.5 貝爾曼*優(yōu)方程的示例 74
3.5.1 應(yīng)用貝爾曼*優(yōu)方程 74
3.5.2 得到*優(yōu)策略 76
3.6 小結(jié) 78
第4章 動(dòng)態(tài)規(guī)劃法 79
4.1 動(dòng)態(tài)規(guī)劃法和策略評(píng)估 80
4.1.1 動(dòng)態(tài)規(guī)劃法簡(jiǎn)介 80
4.1.2 嘗試迭代策略評(píng)估 81
4.1.3 迭代策略評(píng)估的其他實(shí)現(xiàn)方式 86
4.2 解決更大的問題 87
4.2.1 GridWorld類的實(shí)現(xiàn) 88
4.2.2 defaultdict的用法 94
4.2.3 迭代策略評(píng)估的實(shí)現(xiàn) 95
4.3 策略迭代法 99
4.3.1 策略的改進(jìn) 99
4.3.2 重復(fù)評(píng)估和改進(jìn) 101
4.4 實(shí)施策略迭代法 102
4.4.1 改進(jìn)策略 103
4.4.2 重復(fù)評(píng)估和改進(jìn) 105
4.5 價(jià)值迭代法 107
4.5.1 價(jià)值迭代法的推導(dǎo) 109
4.5.2 價(jià)值迭代法的實(shí)現(xiàn) 113
4.6 小結(jié) 116
第5章 蒙特卡洛方法 117
5.1 蒙特卡洛方法的基礎(chǔ)知識(shí) 117
5.1.1 骰子的點(diǎn)數(shù)和 118
5.1.2 分布模型和樣本模型 119
5.1.3 蒙特卡洛方法的實(shí)現(xiàn) 121
5.2 使用蒙特卡洛方法評(píng)估策略 123
5.2.1 使用蒙特卡洛方法計(jì)算價(jià)值函數(shù) 124
5.2.2 求所有狀態(tài)的價(jià)值函數(shù) 126
5.2.3 蒙特卡洛方法的高效實(shí)現(xiàn) 129
5.3 蒙特卡洛方法的實(shí)現(xiàn) 130
5.3.1 step方法 130
5.3.2 智能代理類的實(shí)現(xiàn) 132
5.3.3 運(yùn)行蒙特卡洛方法 134
5.4 使用蒙特卡洛方法的策略控制 136
5.4.1 評(píng)估和改進(jìn) 136
5.4.2 使用蒙特卡洛方法實(shí)現(xiàn)策略控制 137
5.4.3 ε-greedy算法(第 1個(gè)修改) 139
5.4.4 修改為固定值α的方式(第 2個(gè)修改) 141
5.4.5 [ 修改版] 使用蒙特卡洛方法實(shí)現(xiàn)策略迭代法 142
5.5 異策略型和重要性采樣 145
5.5.1 同策略型和異策略型 145
5.5.2 重要性采樣 146
5.5.3 如何減小方差 150
5.6 小結(jié) 152
第6章 TD方法 153
6.1 使用TD方法評(píng)估策略 153
6.1.1 TD方法的推導(dǎo) 154
6.1.2 MC方法和TD方法的比較 157
6.1.3 TD方法的實(shí)現(xiàn) 158
6.2 SARSA 161
6.2.1 同策略型的SARSA 161
6.2.2 SARSA的實(shí)現(xiàn) 162
6.3 異策略型的SARSA 165
6.3.1 異策略型和重要性采樣 166
6.3.2 異策略型的SARSA的實(shí)現(xiàn) 167
6.4 Q學(xué)習(xí) 169
6.4.1 貝爾曼方程與SARSA 170
6.4.2 貝爾曼*優(yōu)方程與Q學(xué)習(xí) 171
6.4.3 Q學(xué)習(xí)的實(shí)現(xiàn) 173
6.5 分布模型與樣本模型 175
6.5.1 分布模型與樣本模型 175
6.5.2 樣本模型版的Q學(xué)習(xí) 176
6.6 小結(jié) 179
第7章 神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí) 181
7.1 DeZero簡(jiǎn)介 182
7.1.1 使用DeZero 183
7.1.2 多維數(shù)組(張量)和函數(shù) 184
7.1.3 *優(yōu)化 186
7.2 線性回歸 189
7.2.1 玩具數(shù)據(jù)集 189
7.2.2 線性回歸的理論知識(shí) 190
7.2.3 線性回歸的實(shí)現(xiàn) 191
7.3 神經(jīng)網(wǎng)絡(luò) 195
7.3.1 非線性數(shù)據(jù)集 195
7.3.2 線性變換和激活函數(shù) 196
7.3.3 神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn) 197
7.3.4 層與模型 199
7.3.5 優(yōu)化器(*優(yōu)化方法)202
7.4 Q學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò) 204
7.4.1 神經(jīng)網(wǎng)絡(luò)的預(yù)處理 204
7.4.2 表示Q函數(shù)的神經(jīng)網(wǎng)絡(luò) 205
7.4.3 神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí) 208
7.5 小結(jié) 212
第8章 DQN 213
8.1 OpenAI Gym 213
8.1.1 OpenAI Gym的基礎(chǔ)知識(shí) 214
8.1.2 隨機(jī)智能代理 216
8.2 DQN的核心技術(shù) 218
8.2.1 經(jīng)驗(yàn)回放 218
8.2.2 經(jīng)驗(yàn)回放的實(shí)現(xiàn) 220
8.2.3 目標(biāo)網(wǎng)絡(luò) 223
8.2.4 目標(biāo)網(wǎng)絡(luò)的實(shí)現(xiàn) 224
8.2.5 運(yùn)行DQN 227
8.3 DQN與Atari 230
8.3.1 Atari的游戲環(huán)境 231
8.3.2 預(yù)處理 232
8.3.3 CNN 232
8.3.4 其他技巧 233
8.4 DQN的擴(kuò)展 234
8.4.1 Double DQN 234
8.4.2 優(yōu)先級(jí)經(jīng)驗(yàn)回放 235
8.4.3 Dueling DQN 236
8.5 小結(jié) 238
第9章 策略梯度法 239
9.1 *簡(jiǎn)單的策略梯度法 239
9.1.1 策略梯度法的推導(dǎo) 240
9.1.2 策略梯度法的算法 241
9.1.3 策略梯度法的實(shí)現(xiàn) 243
9.2 REINFORCE 248
9.2.1 REINFORCE算法 249
9.2.2 REINFORCE的實(shí)現(xiàn) 250
9.3 基線 251
9.3.1 基線的思路 251
9.3.2 帶基線的策略梯度法 253
9.4 Actor-Critic 254
9.4.1 Actor-Critic的推導(dǎo) 255
9.4.2 Actor-Critic的實(shí)現(xiàn) 257
9.5 基于策略的方法的優(yōu)點(diǎn) 260
9.6 小結(jié) 262
第 10章 進(jìn)一步學(xué)習(xí) 263
10.1 深度強(qiáng)化學(xué)習(xí)算法的分類 263
10.2 策略梯度法的改進(jìn)算法 265
10.2.1 A3C和A2C 265
10.2.2 DDPG 268
10.2.3 TRPO和PPO 271
10.3 DQN的改進(jìn)算法 272
10.3.1 分類DQN 272
10.3.2 Noisy Network 274
10.3.3 Rainbow 274
10.3.4 在Rainbow以后提出的改進(jìn)算法 275
10.4 案例研究 276
10.4.1 棋盤游戲 277
10.4.2 機(jī)器人控制 279
10.4.3 NAS 280
10.4.4 其他案例 282
10.5 深度強(qiáng)化學(xué)習(xí)的挑戰(zhàn)和可能性 283
10.5.1 應(yīng)用于實(shí)際系統(tǒng) 283
10.5.2 將問題表示為MDP形式時(shí)的建議 286
10.5.3 通用人工智能系統(tǒng) 288
10.6 小結(jié) 288
附錄A 異策略型的蒙特卡洛方法 291
附錄B n-step TD方法 298
附錄C Double DQN的理解 300
附錄D 策略梯度法的證明 304
后記 308
參考文獻(xiàn) 310
深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 作者簡(jiǎn)介
齋藤康毅,1984年出生于日本長崎縣,東京工業(yè)大學(xué)畢業(yè),并完成東京大學(xué)研究生院課程。目前在某企業(yè)從事人工智能相關(guān)的研究和開發(fā)工作。著有“魚書”系列《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》《深度學(xué)習(xí)進(jìn)階:自然語言處理》《深度學(xué)習(xí)入門2:自制框架》,同時(shí)也是Python in Practice、The Elements of Computing Systems、Building MachineLearning Systems with Python的日文版譯者。 【譯者介紹】 鄭明智,智慧醫(yī)療工程師。主要研究方向?yàn)獒t(yī)療與前沿ICT技術(shù)的結(jié)合及其應(yīng)用。譯有《深度學(xué)習(xí)基礎(chǔ)與實(shí)踐》《詳解深度學(xué)習(xí)》《白話機(jī)器學(xué)習(xí)的數(shù)學(xué)》等書。
- >
中國歷史的瞬間
- >
上帝之肋:男人的真實(shí)旅程
- >
【精裝繪本】畫給孩子的中國神話
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
朝聞道
- >
山海經(jīng)
- >
龍榆生:詞曲概論/大家小書
- >
自卑與超越