中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
深入淺出強化學習:編程實戰

包郵 深入淺出強化學習:編程實戰

作者:郭憲
出版社:電子工業出版社出版時間:2020-03-01
開本: 24cm 頁數: 264頁
中 圖 價:¥51.7(5.8折) 定價  ¥89.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深入淺出強化學習:編程實戰 版權信息

  • ISBN:9787121367465
  • 條形碼:9787121367465 ; 978-7-121-36746-5
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>>

深入淺出強化學習:編程實戰 本書特色

《深入淺出強化學習:編程實戰》是《深入淺出強化學習:原理入門》的姐妹篇。 1 實戰性強:以編程實戰為主線,旨在幫助讀者通過實戰更清晰地理解算法并快速應用。 2 系統全面:在馬爾可夫理論框架下,介紹了*基本的算法,涵蓋了基于值函數的算法,直接策略搜索方法,基于模型的強化學習方法等。 3 前沿技術分析:剖析了AlphaZero強大技術背后的深度強化學習原理,并介紹了它在五子棋上的具體實現。 4 操作性強:讀者可根據書中的代碼直接上手,并通過修改程序中的超參數,親自體會算法原理。

深入淺出強化學習:編程實戰 內容簡介

本書分三大篇介紹了目前強化學習算法中*基本的算法。**篇為基于值函數的強化學習算法, 該篇介紹了基于兩種策略評估方法 (蒙特卡洛策略評估和時間差分策略評估) 的強化學習算法, 進而介紹了如何將函數逼近的方法引入到強化學習算法中。第二篇為直接策略搜索方法, 該篇介紹了*基本的策略梯度方法、基本的AC方法、PPO方法和DDPG算法。第三篇為基于模型的強化學習方法, 該篇介紹了基于mpc的方法, AlphaZero算法基本原理及在五子棋上的具體實現細節。

深入淺出強化學習:編程實戰 目錄

第0 篇 先導篇 ......... 1

1 一個極其簡單的強化學習實例 .................................. 2

1.1 多臂賭博機 ..................... 2

1.1.1 e - greedy策略 .... 3

1.1.2 玻爾茲曼策略 ...... 6

1.1.3 UCB 策略 ............. 7

1.2 多臂賭博機代碼實現 ..... 7

2 馬爾可夫決策過程 .............. 13

2.1 從多臂賭博機到馬爾可夫決策過程 ............... 13

2.2 馬爾可夫決策過程代碼實現 ........................... 23

第1 篇 基于值函數的方法 .......................... 31

3 基于動態規劃的方法 ........... 32

3.1 策略迭代與值迭代 ....... 32

3.1.1 策略迭代算法原理 ................................ 33

3.1.2 值迭代算法原理 35

3.2 策略迭代和值迭代的代碼實現 ....................... 36

3.2.1 鴛鴦環境的修改 36

3.2.2 策略迭代算法代碼實現 ........................ 37

3.2.3 值迭代算法代碼實現 ............................ 41

4 基于蒙特卡洛的方法 ........... 45

4.1 蒙特卡洛算法原理 ....... 46

4.2 蒙特卡洛算法的代碼實現 ............................... 49

4.2.1 環境類的修改和蒙特卡洛算法類的聲明 ................................ 49

4.2.2 探索初始化蒙特卡洛算法實現 ............ 52

4.2.3 同策略蒙特卡洛算法實現 .................... 56

5 基于時間差分的方法 ........... 62

5.1 從動態規劃到時間差分強化學習 ................... 62

5.2 時間差分算法代碼實現 ................................... 66

5.2.1 時間差分算法類的聲明 ........................ 66

5.2.2 SARSA 算法 ...... 67

5.2.3 Q-Learning 算法 70

6 基于函數逼近的方法 ........... 74

6.1 從表格型強化學習到線性函數逼近強化學習 74

6.1.1 表格特征表示 .... 74

6.1.2 固定稀疏表示 .... 75

6.1.3 參數的訓練 ........ 76

6.2 基于線性函數逼近的Q-Learning 算法實現 ... 76

6.3 非線性函數逼近DQN 算法代碼實現 ............. 85

第2 篇 直接策略搜索的方法 ...................... 95

7 策略梯度方法 ..................... 96

7.1 算法基本原理及代碼架構 ............................... 96

7.1.1 策略的表示問題 97

7.1.2 隨機策略梯度的推導 ............................ 98

7.1.3 折扣累積回報 .... 99

7.1.4 代碼架構 .......... 101

7.2 離散動作:CartPole 實例解析及編程實戰 ... 103

7.2.1 CartPole 簡介 ... 103

7.2.2 問題分析及MDP 模型 ....................... 104

7.2.3 采樣類的Python 源碼實現 ................. 105

7.2.4 策略網絡模型分析 .............................. 106

7.2.5 策略網絡類的Python 源碼實現 ......... 108

7.2.6 策略網絡的訓練與測試 ....................... 110

7.2.7 用策略梯度法求解Cartpole 的主函數 ................................... 112

7.2.8 CartPole 仿真環境開發 ........................ 113

7.3 連續動作Pendulum 實例解析及編程實戰 .... 117

7.3.1 Pendulum 簡介 .. 118

7.3.2 采樣類的Python 源代碼實現 .............. 118

7.3.3 策略網絡模型分析 .............................. 120

7.3.4 策略網絡類的Python 源碼實現 ......... 121

7.3.5 策略網絡的訓練與測試 ...................... 125

7.3.6 用策略梯度法求解Pendulum 的主函數 ................................ 126

7.3.7 Pendulum 仿真環境開發 ..................... 127

8 Actor-Critic 方法 ............... 131

8.1 Actor-Critic 原理及代碼架構 ......................... 131

8.1.1 Actor-Critic 基本原理 .......................... 131

8.1.2 Actor-Critic 算法架構 .......................... 133

8.2 TD-AC 算法 ................ 133

8.2.1 采樣類的Python 源碼 ......................... 134

8.2.2 策略網絡的Python 源碼 ..................... 135

8.2.3 策略訓練和測試 .................................. 138

8.2.4 主函數及訓練效果 .............................. 140

8.3 Minibatch-MC-AC 算法 ................................. 141

8.3.1 Minibatch-MC-AC 算法框架 .............. 141

8.3.2 采樣類的Python 源碼 ......................... 142

8.3.3 策略網絡的Python 源碼 ..................... 144

8.3.4 策略的訓練和測試 .............................. 147

8.3.5 主函數及訓練效果 .............................. 149

9 PPO 方法 ......................... 151

9.1 PPO 算法基本原理及代碼結構 ..................... 151

9.2 Python 源碼解析 ......... 154

9.2.1 采樣類 .............. 154

9.2.2 策略網絡 .......... 156

9.2.3 策略的訓練和測試 .............................. 159

9.2.4 主函數及訓練效果 .............................. 160

10 DDPG 方法 .................... 163

10.1 DDPG 基本原理 ....... 163

10.2 Python 源碼解析 ....... 167

10.2.1 經驗緩存器類 167

10.2.2 策略網絡類 .... 169

10.2.3 訓練和測試 .... 173

10.2.4 主函數及訓練效果 ............................ 175

第3 篇 基于模型的強化學習方法 ............. 177

11 基于模型預測控制的強化學習算法 ..................... 178

11.1 基于模型的強化學習算法的基本原理 ........ 178

11.1.1 神經網絡擬合動力學模型 ................ 179

11.1.2 模型預測控制 179

11.1.3 基于模型的強化學習算法偽代碼 .... 180

11.2 Python 源碼實現及解析 ............................... 181

11.2.1 數據收集類 .... 181

11.2.2 數據采樣類 .... 181

11.2.3 動力學網絡類 182

11.2.4 模型預測控制器類 ............................ 185

11.2.5 模型訓練和預測函數 ........................ 186

11.2.6 主函數 ............ 188

12 AlphaZero 原理淺析 ....... 190

12.1 從AlphaGo 到AlphaZero ............................ 191

12.2 蒙特卡洛樹搜索算法 ................................... 196

12.2.1 博弈樹和極小極大搜索 .................... 196

12.2.2 再論多臂老虎機問題 ........................ 198

12.2.3 UCT 算法 ....... 200

12.3 基于自我對弈的強化學習 ........................... 206

12.3.1 基于MCTS 的自我對弈 ................... 206

12.3.2 策略價值網絡的訓練 ........................ 210

13 AlphaZero 實戰:從零學下五子棋 ...................... 214

13.1 構建簡易的五子棋環境 ............................... 215

13.2 建立整體算法流程 ... 223

13.3 實現蒙特卡洛樹搜索 ................................... 229

13.4 實現策略價值網絡 ... 235

13.5 訓練實驗與效果評估 ................................... 240

附錄A PyTorch 入門 ........... 246

A.1 PyTorch 基礎知識 ...... 246

A.1.1 Tensor .............. 246

A.1.2 基礎操作 ......... 247

A.1.3 Tensor 和NumPy array 間的轉化 ...... 249

A.1.4 Autograd:自動梯度 .......................... 249

A.2 PyTorch 中的神經網絡 .................................. 250

A.2.1 如何定義神經網絡 ............................. 251

A.2.2 如何訓練神經網絡 ............................. 254

A.2.3 在CIFAR-10 數據集上進行訓練和測試 ............................... 256

A.2.4 模型的保存和加載 ............................. 259

參考文獻 ................................ 261

后記 ... 263



展開全部

深入淺出強化學習:編程實戰 作者簡介

郭憲,南開大學人工智能學院講師。2009年畢業于華中科技大學機械設計制造及自動化專業,同年保送到中國科學院沈陽自動化研究所進行碩博連讀,2016年1月獲得工學博士學位,并到南開大學從事博士后研究工作,2018年7月任教于南開大學至今。目前主要研究方向和興趣是仿生機器人智能運動控制、強化學習和機器人博弈。 宋俊瀟,香港科技大學博士,目前就職于啟元世界,擔任研究科學家,專注于決策智能相關算法的研究與開發。博士期間在國際知名期刊和會議發表論文9篇。2015年,獲得阿里巴巴天池大數據黃金聯賽個人年度第1名(參賽隊伍總計15154支)。曾就職于網易游戲,擔任資深數據挖掘研究員,負責個性化推薦算法及基于深度強化學習的游戲AI技術的探索研究,三次獲得公司層面的技術進步獎。 方勇純,南開大學人工智能學院院長、教授、博士生導師,國家杰出青年基金獲得者(2013年),教育部長江學者特聘教授(2017年)。1992~1994年在浙江大學混合班(尖子班)學習,獲混合班榮譽證書。1996年和1999年分獲浙江大學學士和碩士學位,2002年獲美國克萊姆森大學(Clemson University)電機工程博士學位。2002至2003年在康乃爾大學(Cornell University)從事博士后研究。2003年底至今,任教于南開大學。目前主要研究方向為機器人視覺控制、無人機、欠驅動吊車系統和微納米操作

商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机,东莞喷码机 UV喷码机,日期喷码机,鸡蛋喷码机,管芯喷码机,管内壁喷码机,喷码机厂家 | 空气能暖气片,暖气片厂家,山东暖气片,临沂暖气片-临沂永超暖通设备有限公司 | 重庆小面培训_重庆小面技术培训学习班哪家好【终身免费复学】 | 智能气瓶柜(大型气瓶储存柜)百科| 正压密封性测试仪-静态发色仪-导丝头柔软性测试仪-济南恒品机电技术有限公司 | 家庭教育吧-在线家庭教育平台,专注青少年家庭教育 | 广东恩亿梯电源有限公司【官网】_UPS不间断电源|EPS应急电源|模块化机房|电动汽车充电桩_UPS电源厂家(恩亿梯UPS电源,UPS不间断电源,不间断电源UPS) | 衬氟止回阀_衬氟闸阀_衬氟三通球阀_衬四氟阀门_衬氟阀门厂-浙江利尔多阀门有限公司 | 飞利浦LED体育场灯具-吸顶式油站灯-飞利浦LED罩棚灯-佛山嘉耀照明有限公司 | EPDM密封胶条-EPDM密封垫片-EPDM生产厂家 | 污水处理设备维修_污水处理工程改造_机械格栅_过滤设备_气浮设备_刮吸泥机_污泥浓缩罐_污水处理设备_污水处理工程-北京龙泉新禹科技有限公司 | 气动隔膜泵-电动隔膜泵-循环热水泵-液下排污/螺杆/管道/化工泵「厂家」浙江绿邦 | 不锈钢复合板|钛复合板|金属复合板|南钢集团安徽金元素复合材料有限公司-官网 | 济南网站建设|济南建网站|济南网站建设公司【济南腾飞网络】【荐】 | 北京网站建设首页,做网站选【优站网】,专注北京网站建设,北京网站推广,天津网站建设,天津网站推广,小程序,手机APP的开发。 | 镀锌钢格栅_热镀锌格栅板_钢格栅板_热镀锌钢格板-安平县昊泽丝网制品有限公司 | 玉米深加工设备|玉米加工机械|玉米加工设备|玉米深加工机械-河南成立粮油机械有限公司 | 广东高华家具-公寓床|学生宿舍双层铁床厂家【质保十年】 | 同步带轮_同步带_同步轮_iHF合发齿轮厂家-深圳市合发齿轮机械有限公司 | 拉力机-拉力试验机-万能试验机-电子拉力机-拉伸试验机-剥离强度试验机-苏州皖仪实验仪器有限公司 | 无锡网站建设-做网站-建网站-网页设计制作-阿凡达建站公司 | 考勤系统_考勤管理系统_网络考勤软件_政企|集团|工厂复杂考勤工时统计排班管理系统_天时考勤 | 并网柜,汇流箱,电控设备,中高低压开关柜,电气电力成套设备,PLC控制设备订制厂家,江苏昌伟业新能源科技有限公司 | 报警器_家用防盗报警器_烟雾报警器_燃气报警器_防盗报警系统厂家-深圳市刻锐智能科技有限公司 | 真空粉体取样阀,电动楔式闸阀,电动针型阀-耐苛尔(上海)自动化仪表有限公司 | 双段式高压鼓风机-雕刻机用真空泵-绍兴天晨机械有限公司 | 螺旋叶片_螺旋叶片成型机_绞龙叶片_莱州源泽机械制造有限公司 | 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 中国产业发展研究网 - 提供行业研究报告 可行性研究报告 投资咨询 市场调研服务 | 专注提供国外机电设备及配件-工业控制领域一站式服务商-深圳市华联欧国际贸易有限公司 | 浙江美尔凯特智能厨卫股份有限公司| 成都APP开发-成都App定制-成都app开发公司-【未来久】 | 天津暖气片厂家_钢制散热器_天津铜铝复合暖气片_维尼罗散热器 | 超声波流量计_流量标准装置生产厂家 _河南盛天精密测控 | 好物生环保网、环保论坛 - 环保人的学习交流平台 | 厦门网站建设_厦门网站设计_小程序开发_网站制作公司【麦格科技】 | 广西资质代办_建筑资质代办_南宁资质代办理_新办、增项、升级-正明集团 | 恒温恒湿试验箱厂家-高低温试验箱维修价格_东莞环仪仪器_东莞环仪仪器 | 考勤系统_人事考勤管理系统_本地部署BS考勤系统_考勤软件_天时考勤管理专家 | 警方提醒:赣州约炮论坛真的安全吗?2025年新手必看的网络交友防坑指南 | 振动筛-交叉筛-螺旋筛-滚轴筛-正弦筛-方形摇摆筛「新乡振动筛厂家」 |