中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >
深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí)

包郵 深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí)

出版社:人民郵電出版社出版時(shí)間:2024-08-01
開本: 32開 頁數(shù): 332
中 圖 價(jià):¥76.9(7.0折) 定價(jià)  ¥109.8 登錄后可看到會(huì)員價(jià)
加入購物車 收藏
開年大促, 全場(chǎng)包郵
?新疆、西藏除外
本類五星書更多>

深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 版權(quán)信息

深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 本書特色

沿襲“魚書”系列風(fēng)格,提供實(shí)際代碼,邊實(shí)踐邊學(xué)習(xí),無須依賴外部庫,從零開始實(shí)現(xiàn)支撐強(qiáng)化學(xué)習(xí)的基礎(chǔ)技術(shù)。



本書有什么特點(diǎn)?



●把握潮流中的變與不變



在快速發(fā)展變化的深度學(xué)習(xí)領(lǐng)域,有變化的事物,有不變的事物。有些事物會(huì)隨潮流而消逝,有些則會(huì)被傳承下去。本書從馬爾可夫決策過程、貝爾曼方程、蒙特卡洛方法、時(shí)間差分法等強(qiáng)化學(xué)習(xí)基礎(chǔ)方法,自然而然地過渡到神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí),從前沿視角為讀者遴選出*值得關(guān)注的強(qiáng)化學(xué)習(xí)理論和方法。



●內(nèi)容豐富,講解簡(jiǎn)明易懂
沿襲“魚書”系列風(fēng)格,提供實(shí)際代碼,邊實(shí)踐邊學(xué)習(xí),無須依賴外部庫,從零開始實(shí)現(xiàn)支撐強(qiáng)化學(xué)習(xí)的基礎(chǔ)技術(shù)。



本書有什么特點(diǎn)?



●把握潮流中的變與不變



在快速發(fā)展變化的深度學(xué)習(xí)領(lǐng)域,有變化的事物,有不變的事物。有些事物會(huì)隨潮流而消逝,有些則會(huì)被傳承下去。本書從馬爾可夫決策過程、貝爾曼方程、蒙特卡洛方法、時(shí)間差分法等強(qiáng)化學(xué)習(xí)基礎(chǔ)方法,自然而然地過渡到神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí),從前沿視角為讀者遴選出*值得關(guān)注的強(qiáng)化學(xué)習(xí)理論和方法。



●內(nèi)容豐富,講解簡(jiǎn)明易懂



作為超高人氣“魚書”系列第四部作品,本書延續(xù)了這一系列的寫作和講解風(fēng)格,搭配豐富的圖、表、代碼示例,加上輕松、簡(jiǎn)明的講解,能夠讓人非常信服地理解強(qiáng)化學(xué)習(xí)中各種方法之間的關(guān)系,于不知不覺中登堂入室。



●原理與實(shí)踐并重



本書旨在確保讀者能夠牢固掌握強(qiáng)化學(xué)習(xí)的獨(dú)特理論,奉行“只有做出來才能真正理解”的理念,將這一主題的每個(gè)構(gòu)成要素都從“理論”和“實(shí)踐”兩個(gè)方面進(jìn)行詳盡解釋,并鼓勵(lì)讀者動(dòng)手嘗試。與僅通過數(shù)學(xué)公式解釋理論的圖書不同,讀者將通過實(shí)際運(yùn)行本書代碼獲得許多令人驚嘆的領(lǐng)悟。

深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 內(nèi)容簡(jiǎn)介

本書前半部分介紹強(qiáng)化學(xué)習(xí)的重要思想和基礎(chǔ)知識(shí),后半部分介紹如何將深度學(xué)習(xí)應(yīng)用于強(qiáng)化學(xué)習(xí),遴選講解了深度強(qiáng)化學(xué)習(xí)的*新技術(shù)。全書從*適合入門的多臂老虎機(jī)問題切入,依次介紹了定義一般強(qiáng)化學(xué)習(xí)問題的馬爾可夫決策過程、用于尋找*佳答案的貝爾曼方程,以及解決貝爾曼方程的動(dòng)態(tài)規(guī)劃法、蒙特卡洛方法和TD方法。隨后,神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí)、DQN、策略梯度法等幾章則分別討論了深度學(xué)習(xí)在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用。本書延續(xù)"魚書"系列的風(fēng)格,搭配豐富的圖、表、代碼示例,加上輕松、簡(jiǎn)明的講解,讓人循序漸進(jìn)地理解強(qiáng)化學(xué)習(xí)中各種方法之間的關(guān)系,于不知不覺中登堂入室。本書既適合深度學(xué)習(xí)的初學(xué)者,也適合對(duì)人工智能感興趣的教師、學(xué)生和相關(guān)從業(yè)者學(xué)習(xí)參考。

深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 目錄

前言

第 1章 老虎機(jī)問題 1

1.1 機(jī)器學(xué)習(xí)的分類與強(qiáng)化學(xué)習(xí) 1

1.1.1 監(jiān)督學(xué)習(xí) 2

1.1.2 無監(jiān)督學(xué)習(xí) 2

1.1.3 強(qiáng)化學(xué)習(xí) 3

1.2 老虎機(jī)問題 5

1.2.1 什么是老虎機(jī)問題 5

1.2.2 什么是好的老虎機(jī) 7

1.2.3 使用數(shù)學(xué)式表示 8

1.3 老虎機(jī)算法 9

1.3.1 價(jià)值的估計(jì)方法 10

1.3.2 求平均值的實(shí)現(xiàn) 12

1.3.3 玩家的策略 15

1.4 老虎機(jī)算法的實(shí)現(xiàn) 17

1.4.1 老虎機(jī)的實(shí)現(xiàn) 17

1.4.2 智能代理的實(shí)現(xiàn) 19

1.4.3 嘗試運(yùn)行 20

1.4.4 算法平均的特性 23

1.5 非穩(wěn)態(tài)問題 28

1.5.1 解決非穩(wěn)態(tài)問題前的準(zhǔn)備工作 29

1.5.2 解決非穩(wěn)態(tài)問題 32

1.6 小結(jié) 34

第 2章 馬爾可夫決策過程 36

2.1 什么是MDP 37

2.1.1 MDP的具體例子 37

2.1.2 智能代理與環(huán)境的互動(dòng) 39

2.2 環(huán)境和智能代理的數(shù)學(xué)表示 40

2.2.1 狀態(tài)遷移 40

2.2.2 獎(jiǎng)勵(lì)函數(shù) 42

2.2.3 智能代理的策略 43

2.3 MDP的目標(biāo) 45

2.3.1 回合制任務(wù)和連續(xù)性任務(wù) 45

2.3.2 收益 46

2.3.3 狀態(tài)價(jià)值函數(shù) 47

2.3.4 *優(yōu)策略和*優(yōu)價(jià)值函數(shù) 48

2.4 MDP的例子 50

2.4.1 回溯線形圖 51

2.4.2 找出*優(yōu)策略 52

2.5 小結(jié) 54

第3章 貝爾曼方程 56

3.1 貝爾曼方程的推導(dǎo) 57

3.1.1 概率和期望值(推導(dǎo)貝爾曼方程的準(zhǔn)備)57

3.1.2 貝爾曼方程的推導(dǎo) 60

3.2 貝爾曼方程的例子 64

3.2.1 有兩個(gè)方格的網(wǎng)格世界 64

3.2.2 貝爾曼方程的意義 68

3.3 行動(dòng)價(jià)值函數(shù)與貝爾曼方程 68

3.3.1 行動(dòng)價(jià)值函數(shù) 69

3.3.2 使用行動(dòng)價(jià)值函數(shù)的貝爾曼方程 70

3.4 貝爾曼*優(yōu)方程 71

3.4.1 狀態(tài)價(jià)值函數(shù)的貝爾曼*優(yōu)方程 71

3.4.2 Q函數(shù)的貝爾曼*優(yōu)方程 73

3.5 貝爾曼*優(yōu)方程的示例 74

3.5.1 應(yīng)用貝爾曼*優(yōu)方程 74

3.5.2 得到*優(yōu)策略 76

3.6 小結(jié) 78

第4章 動(dòng)態(tài)規(guī)劃法 79

4.1 動(dòng)態(tài)規(guī)劃法和策略評(píng)估 80

4.1.1 動(dòng)態(tài)規(guī)劃法簡(jiǎn)介 80

4.1.2 嘗試迭代策略評(píng)估 81

4.1.3 迭代策略評(píng)估的其他實(shí)現(xiàn)方式 86

4.2 解決更大的問題 87

4.2.1 GridWorld類的實(shí)現(xiàn) 88

4.2.2 defaultdict的用法 94

4.2.3 迭代策略評(píng)估的實(shí)現(xiàn) 95

4.3 策略迭代法 99

4.3.1 策略的改進(jìn) 99

4.3.2 重復(fù)評(píng)估和改進(jìn) 101

4.4 實(shí)施策略迭代法 102

4.4.1 改進(jìn)策略 103

4.4.2 重復(fù)評(píng)估和改進(jìn) 105

4.5 價(jià)值迭代法 107

4.5.1 價(jià)值迭代法的推導(dǎo) 109

4.5.2 價(jià)值迭代法的實(shí)現(xiàn) 113

4.6 小結(jié) 116

第5章 蒙特卡洛方法 117

5.1 蒙特卡洛方法的基礎(chǔ)知識(shí) 117

5.1.1 骰子的點(diǎn)數(shù)和 118

5.1.2 分布模型和樣本模型 119

5.1.3 蒙特卡洛方法的實(shí)現(xiàn) 121

5.2 使用蒙特卡洛方法評(píng)估策略 123

5.2.1 使用蒙特卡洛方法計(jì)算價(jià)值函數(shù) 124

5.2.2 求所有狀態(tài)的價(jià)值函數(shù) 126

5.2.3 蒙特卡洛方法的高效實(shí)現(xiàn) 129

5.3 蒙特卡洛方法的實(shí)現(xiàn) 130

5.3.1 step方法 130

5.3.2 智能代理類的實(shí)現(xiàn) 132

5.3.3 運(yùn)行蒙特卡洛方法 134

5.4 使用蒙特卡洛方法的策略控制 136

5.4.1 評(píng)估和改進(jìn) 136

5.4.2 使用蒙特卡洛方法實(shí)現(xiàn)策略控制 137

5.4.3 ε-greedy算法(第 1個(gè)修改) 139

5.4.4 修改為固定值α的方式(第 2個(gè)修改) 141

5.4.5 [ 修改版] 使用蒙特卡洛方法實(shí)現(xiàn)策略迭代法 142

5.5 異策略型和重要性采樣 145

5.5.1 同策略型和異策略型 145

5.5.2 重要性采樣 146

5.5.3 如何減小方差 150

5.6 小結(jié) 152

第6章 TD方法 153

6.1 使用TD方法評(píng)估策略 153

6.1.1 TD方法的推導(dǎo) 154

6.1.2 MC方法和TD方法的比較 157

6.1.3 TD方法的實(shí)現(xiàn) 158

6.2 SARSA 161

6.2.1 同策略型的SARSA 161

6.2.2 SARSA的實(shí)現(xiàn) 162

6.3 異策略型的SARSA 165

6.3.1 異策略型和重要性采樣 166

6.3.2 異策略型的SARSA的實(shí)現(xiàn) 167

6.4 Q學(xué)習(xí) 169

6.4.1 貝爾曼方程與SARSA 170

6.4.2 貝爾曼*優(yōu)方程與Q學(xué)習(xí) 171

6.4.3 Q學(xué)習(xí)的實(shí)現(xiàn) 173

6.5 分布模型與樣本模型 175

6.5.1 分布模型與樣本模型 175

6.5.2 樣本模型版的Q學(xué)習(xí) 176

6.6 小結(jié) 179

第7章 神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí) 181

7.1 DeZero簡(jiǎn)介 182

7.1.1 使用DeZero 183

7.1.2 多維數(shù)組(張量)和函數(shù) 184

7.1.3 *優(yōu)化 186

7.2 線性回歸 189

7.2.1 玩具數(shù)據(jù)集 189

7.2.2 線性回歸的理論知識(shí) 190

7.2.3 線性回歸的實(shí)現(xiàn) 191

7.3 神經(jīng)網(wǎng)絡(luò) 195

7.3.1 非線性數(shù)據(jù)集 195

7.3.2 線性變換和激活函數(shù) 196

7.3.3 神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn) 197

7.3.4 層與模型 199

7.3.5 優(yōu)化器(*優(yōu)化方法)202

7.4 Q學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò) 204

7.4.1 神經(jīng)網(wǎng)絡(luò)的預(yù)處理 204

7.4.2 表示Q函數(shù)的神經(jīng)網(wǎng)絡(luò) 205

7.4.3 神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí) 208

7.5 小結(jié) 212

第8章 DQN 213

8.1 OpenAI Gym 213

8.1.1 OpenAI Gym的基礎(chǔ)知識(shí) 214

8.1.2 隨機(jī)智能代理 216

8.2 DQN的核心技術(shù) 218

8.2.1 經(jīng)驗(yàn)回放 218

8.2.2 經(jīng)驗(yàn)回放的實(shí)現(xiàn) 220

8.2.3 目標(biāo)網(wǎng)絡(luò) 223

8.2.4 目標(biāo)網(wǎng)絡(luò)的實(shí)現(xiàn) 224

8.2.5 運(yùn)行DQN 227

8.3 DQN與Atari 230

8.3.1 Atari的游戲環(huán)境 231

8.3.2 預(yù)處理 232

8.3.3 CNN 232

8.3.4 其他技巧 233

8.4 DQN的擴(kuò)展 234

8.4.1 Double DQN 234

8.4.2 優(yōu)先級(jí)經(jīng)驗(yàn)回放 235

8.4.3 Dueling DQN 236

8.5 小結(jié) 238

第9章 策略梯度法 239

9.1 *簡(jiǎn)單的策略梯度法 239

9.1.1 策略梯度法的推導(dǎo) 240

9.1.2 策略梯度法的算法 241

9.1.3 策略梯度法的實(shí)現(xiàn) 243

9.2 REINFORCE 248

9.2.1 REINFORCE算法 249

9.2.2 REINFORCE的實(shí)現(xiàn) 250

9.3 基線 251

9.3.1 基線的思路 251

9.3.2 帶基線的策略梯度法 253

9.4 Actor-Critic 254

9.4.1 Actor-Critic的推導(dǎo) 255

9.4.2 Actor-Critic的實(shí)現(xiàn) 257

9.5 基于策略的方法的優(yōu)點(diǎn) 260

9.6 小結(jié) 262

第 10章 進(jìn)一步學(xué)習(xí) 263

10.1 深度強(qiáng)化學(xué)習(xí)算法的分類 263

10.2 策略梯度法的改進(jìn)算法 265

10.2.1 A3C和A2C 265

10.2.2 DDPG 268

10.2.3 TRPO和PPO 271

10.3 DQN的改進(jìn)算法 272

10.3.1 分類DQN 272

10.3.2 Noisy Network 274

10.3.3 Rainbow 274

10.3.4 在Rainbow以后提出的改進(jìn)算法 275

10.4 案例研究 276

10.4.1 棋盤游戲 277

10.4.2 機(jī)器人控制 279

10.4.3 NAS 280

10.4.4 其他案例 282

10.5 深度強(qiáng)化學(xué)習(xí)的挑戰(zhàn)和可能性 283

10.5.1 應(yīng)用于實(shí)際系統(tǒng) 283

10.5.2 將問題表示為MDP形式時(shí)的建議 286

10.5.3 通用人工智能系統(tǒng) 288

10.6 小結(jié) 288

附錄A 異策略型的蒙特卡洛方法 291

附錄B n-step TD方法 298

附錄C Double DQN的理解 300

附錄D 策略梯度法的證明 304

后記 308

參考文獻(xiàn) 310
展開全部

深度學(xué)習(xí)入門 4 強(qiáng)化學(xué)習(xí) 作者簡(jiǎn)介

齋藤康毅,1984年出生于日本長崎縣,東京工業(yè)大學(xué)畢業(yè),并完成東京大學(xué)研究生院課程。目前在某企業(yè)從事人工智能相關(guān)的研究和開發(fā)工作。著有“魚書”系列《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》《深度學(xué)習(xí)進(jìn)階:自然語言處理》《深度學(xué)習(xí)入門2:自制框架》,同時(shí)也是Python in Practice、The Elements of Computing Systems、Building MachineLearning Systems with Python的日文版譯者。 【譯者介紹】 鄭明智,智慧醫(yī)療工程師。主要研究方向?yàn)獒t(yī)療與前沿ICT技術(shù)的結(jié)合及其應(yīng)用。譯有《深度學(xué)習(xí)基礎(chǔ)與實(shí)踐》《詳解深度學(xué)習(xí)》《白話機(jī)器學(xué)習(xí)的數(shù)學(xué)》等書。

商品評(píng)論(0條)
暫無評(píng)論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 周易算网-八字测算网 - 周易算网-宝宝起名取名测名字周易八字测算网 | 二手回收公司_销毁处理公司_设备回收公司-找回收信息网 | 青岛空压机,青岛空压机维修/保养,青岛空压机销售/出租公司,青岛空压机厂家电话 | 冷凝水循环试验箱-冷凝水试验箱-可编程高低温试验箱厂家-上海巨为(www.juweigroup.com) | 电动百叶窗,开窗器,电动遮阳百叶,电动开窗机生产厂家-徐州鑫友工控科技发展有限公司 | 武汉高低温试验机-现货恒温恒湿试验箱-高低温湿热交变箱价格-湖北高天试验设备 | 泡沫消防车_水罐消防车_湖北江南专用特种汽车有限公司 | 耳模扫描仪-定制耳机设计软件-DLP打印机-asiga打印机-fitshape「飞特西普」 | 【直乐】河北石家庄脊柱侧弯医院_治疗椎间盘突出哪家医院好_骨科脊柱外科专业医院_治疗抽动症/关节病骨伤权威医院|排行-直乐矫形中医医院 | 施工电梯_齿条货梯_烟囱电梯_物料提升机-河南大诚机械制造有限公司 | 英超直播_英超免费在线高清直播_英超视频在线观看无插件-24直播网 | 电磁辐射仪-电磁辐射检测仪-pm2.5检测仪-多功能射线检测仪-上海何亦仪器仪表有限公司 | 包塑丝_高铁绑丝_地暖绑丝_涂塑丝_塑料皮铁丝_河北创筹金属丝网制品有限公司 | 美缝剂_美缝剂厂家_美缝剂加盟-地老板高端瓷砖美缝剂 | 不锈钢管件(不锈钢弯头,不锈钢三通,不锈钢大小头),不锈钢法兰「厂家」-浙江志通管阀 | 网络推广公司_网络营销方案策划_企业网络推广外包平台-上海澜推网络 | 密集架-密集柜厂家-智能档案密集架-自动选层柜订做-河北风顺金属制品有限公司 | 合肥活动房_安徽活动板房_集成打包箱房厂家-安徽玉强钢结构集成房屋有限公司 | 转子泵_凸轮泵_凸轮转子泵厂家-青岛罗德通用机械设备有限公司 | 德州网站制作 - 网站建设设计 - seo排名优化 -「两山建站」 | TMT观察网_独特视角观察TMT行业| LED太阳能中国结|发光红灯笼|灯杆造型灯|节日灯|太阳能灯笼|LED路灯杆装饰造型灯-北京中海轩光电 | 天然鹅卵石滤料厂家-锰砂滤料-石英砂滤料-巩义东枫净水 | 优秀的临床医学知识库,临床知识库,医疗知识库,满足电子病历四级要求,免费试用 | 卫生型双针压力表-高温防腐差压表-安徽康泰电气有限公司 | 微信聊天记录恢复_手机短信删除怎么恢复_通讯录恢复软件下载-快易数据恢复 | 深圳昂为官网-气体分析仪,沼气分析仪,动态配气仪,气体传感器厂家 | 打造全球沸石生态圈 - 国投盛世 锂电混合机-新能源混合机-正极材料混料机-高镍,三元材料混料机-负极,包覆混合机-贝尔专业混合混料搅拌机械系统设备厂家 | 铝箔袋,铝箔袋厂家,东莞铝箔袋,防静电铝箔袋,防静电屏蔽袋,防静电真空袋,真空袋-东莞铭晋让您的产品与众不同 | 视频直播 -摄影摄像-视频拍摄-直播分发 | 精密冲床,高速冲床等冲压设备生产商-常州晋志德压力机厂 | 全自动变压器变比组别测试仪-手持式直流电阻测试仪-上海来扬电气 | 济南电缆桥架|山东桥架-济南航丰实业有限公司 | 长沙印刷厂-包装印刷-画册印刷厂家-湖南省日大彩色印务有限公司 青州搬家公司电话_青州搬家公司哪家好「鸿喜」青州搬家 | 金属切削液-脱水防锈油-电火花机油-抗磨液压油-深圳市雨辰宏业科技发展有限公司 | hc22_hc22价格_hc22哈氏合金—东锜特殊钢 | 郑州巴特熔体泵有限公司专业的熔体泵,熔体齿轮泵与换网器生产厂家 | 软装设计-提供软装装饰和软装配饰及软装陈设的软装设计公司 | 电动葫芦-河北悍象起重机械有限公司 | 锂电池生产厂家-电动自行车航模无人机锂电池定制-世豹新能源 | 乐之康护 - 专业护工服务平台,提供医院陪护-居家照护-居家康复 |