中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
深入淺出強化學習:編程實戰

包郵 深入淺出強化學習:編程實戰

作者:郭憲
出版社:電子工業出版社出版時間:2020-03-01
開本: 24cm 頁數: 264頁
中 圖 價:¥51.7(5.8折) 定價  ¥89.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深入淺出強化學習:編程實戰 版權信息

  • ISBN:9787121367465
  • 條形碼:9787121367465 ; 978-7-121-36746-5
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>>

深入淺出強化學習:編程實戰 本書特色

《深入淺出強化學習:編程實戰》是《深入淺出強化學習:原理入門》的姐妹篇。 1 實戰性強:以編程實戰為主線,旨在幫助讀者通過實戰更清晰地理解算法并快速應用。 2 系統全面:在馬爾可夫理論框架下,介紹了*基本的算法,涵蓋了基于值函數的算法,直接策略搜索方法,基于模型的強化學習方法等。 3 前沿技術分析:剖析了AlphaZero強大技術背后的深度強化學習原理,并介紹了它在五子棋上的具體實現。 4 操作性強:讀者可根據書中的代碼直接上手,并通過修改程序中的超參數,親自體會算法原理。

深入淺出強化學習:編程實戰 內容簡介

本書分三大篇介紹了目前強化學習算法中*基本的算法。**篇為基于值函數的強化學習算法, 該篇介紹了基于兩種策略評估方法 (蒙特卡洛策略評估和時間差分策略評估) 的強化學習算法, 進而介紹了如何將函數逼近的方法引入到強化學習算法中。第二篇為直接策略搜索方法, 該篇介紹了*基本的策略梯度方法、基本的AC方法、PPO方法和DDPG算法。第三篇為基于模型的強化學習方法, 該篇介紹了基于mpc的方法, AlphaZero算法基本原理及在五子棋上的具體實現細節。

深入淺出強化學習:編程實戰 目錄

第0 篇 先導篇 ......... 1

1 一個極其簡單的強化學習實例 .................................. 2

1.1 多臂賭博機 ..................... 2

1.1.1 e - greedy策略 .... 3

1.1.2 玻爾茲曼策略 ...... 6

1.1.3 UCB 策略 ............. 7

1.2 多臂賭博機代碼實現 ..... 7

2 馬爾可夫決策過程 .............. 13

2.1 從多臂賭博機到馬爾可夫決策過程 ............... 13

2.2 馬爾可夫決策過程代碼實現 ........................... 23

第1 篇 基于值函數的方法 .......................... 31

3 基于動態規劃的方法 ........... 32

3.1 策略迭代與值迭代 ....... 32

3.1.1 策略迭代算法原理 ................................ 33

3.1.2 值迭代算法原理 35

3.2 策略迭代和值迭代的代碼實現 ....................... 36

3.2.1 鴛鴦環境的修改 36

3.2.2 策略迭代算法代碼實現 ........................ 37

3.2.3 值迭代算法代碼實現 ............................ 41

4 基于蒙特卡洛的方法 ........... 45

4.1 蒙特卡洛算法原理 ....... 46

4.2 蒙特卡洛算法的代碼實現 ............................... 49

4.2.1 環境類的修改和蒙特卡洛算法類的聲明 ................................ 49

4.2.2 探索初始化蒙特卡洛算法實現 ............ 52

4.2.3 同策略蒙特卡洛算法實現 .................... 56

5 基于時間差分的方法 ........... 62

5.1 從動態規劃到時間差分強化學習 ................... 62

5.2 時間差分算法代碼實現 ................................... 66

5.2.1 時間差分算法類的聲明 ........................ 66

5.2.2 SARSA 算法 ...... 67

5.2.3 Q-Learning 算法 70

6 基于函數逼近的方法 ........... 74

6.1 從表格型強化學習到線性函數逼近強化學習 74

6.1.1 表格特征表示 .... 74

6.1.2 固定稀疏表示 .... 75

6.1.3 參數的訓練 ........ 76

6.2 基于線性函數逼近的Q-Learning 算法實現 ... 76

6.3 非線性函數逼近DQN 算法代碼實現 ............. 85

第2 篇 直接策略搜索的方法 ...................... 95

7 策略梯度方法 ..................... 96

7.1 算法基本原理及代碼架構 ............................... 96

7.1.1 策略的表示問題 97

7.1.2 隨機策略梯度的推導 ............................ 98

7.1.3 折扣累積回報 .... 99

7.1.4 代碼架構 .......... 101

7.2 離散動作:CartPole 實例解析及編程實戰 ... 103

7.2.1 CartPole 簡介 ... 103

7.2.2 問題分析及MDP 模型 ....................... 104

7.2.3 采樣類的Python 源碼實現 ................. 105

7.2.4 策略網絡模型分析 .............................. 106

7.2.5 策略網絡類的Python 源碼實現 ......... 108

7.2.6 策略網絡的訓練與測試 ....................... 110

7.2.7 用策略梯度法求解Cartpole 的主函數 ................................... 112

7.2.8 CartPole 仿真環境開發 ........................ 113

7.3 連續動作Pendulum 實例解析及編程實戰 .... 117

7.3.1 Pendulum 簡介 .. 118

7.3.2 采樣類的Python 源代碼實現 .............. 118

7.3.3 策略網絡模型分析 .............................. 120

7.3.4 策略網絡類的Python 源碼實現 ......... 121

7.3.5 策略網絡的訓練與測試 ...................... 125

7.3.6 用策略梯度法求解Pendulum 的主函數 ................................ 126

7.3.7 Pendulum 仿真環境開發 ..................... 127

8 Actor-Critic 方法 ............... 131

8.1 Actor-Critic 原理及代碼架構 ......................... 131

8.1.1 Actor-Critic 基本原理 .......................... 131

8.1.2 Actor-Critic 算法架構 .......................... 133

8.2 TD-AC 算法 ................ 133

8.2.1 采樣類的Python 源碼 ......................... 134

8.2.2 策略網絡的Python 源碼 ..................... 135

8.2.3 策略訓練和測試 .................................. 138

8.2.4 主函數及訓練效果 .............................. 140

8.3 Minibatch-MC-AC 算法 ................................. 141

8.3.1 Minibatch-MC-AC 算法框架 .............. 141

8.3.2 采樣類的Python 源碼 ......................... 142

8.3.3 策略網絡的Python 源碼 ..................... 144

8.3.4 策略的訓練和測試 .............................. 147

8.3.5 主函數及訓練效果 .............................. 149

9 PPO 方法 ......................... 151

9.1 PPO 算法基本原理及代碼結構 ..................... 151

9.2 Python 源碼解析 ......... 154

9.2.1 采樣類 .............. 154

9.2.2 策略網絡 .......... 156

9.2.3 策略的訓練和測試 .............................. 159

9.2.4 主函數及訓練效果 .............................. 160

10 DDPG 方法 .................... 163

10.1 DDPG 基本原理 ....... 163

10.2 Python 源碼解析 ....... 167

10.2.1 經驗緩存器類 167

10.2.2 策略網絡類 .... 169

10.2.3 訓練和測試 .... 173

10.2.4 主函數及訓練效果 ............................ 175

第3 篇 基于模型的強化學習方法 ............. 177

11 基于模型預測控制的強化學習算法 ..................... 178

11.1 基于模型的強化學習算法的基本原理 ........ 178

11.1.1 神經網絡擬合動力學模型 ................ 179

11.1.2 模型預測控制 179

11.1.3 基于模型的強化學習算法偽代碼 .... 180

11.2 Python 源碼實現及解析 ............................... 181

11.2.1 數據收集類 .... 181

11.2.2 數據采樣類 .... 181

11.2.3 動力學網絡類 182

11.2.4 模型預測控制器類 ............................ 185

11.2.5 模型訓練和預測函數 ........................ 186

11.2.6 主函數 ............ 188

12 AlphaZero 原理淺析 ....... 190

12.1 從AlphaGo 到AlphaZero ............................ 191

12.2 蒙特卡洛樹搜索算法 ................................... 196

12.2.1 博弈樹和極小極大搜索 .................... 196

12.2.2 再論多臂老虎機問題 ........................ 198

12.2.3 UCT 算法 ....... 200

12.3 基于自我對弈的強化學習 ........................... 206

12.3.1 基于MCTS 的自我對弈 ................... 206

12.3.2 策略價值網絡的訓練 ........................ 210

13 AlphaZero 實戰:從零學下五子棋 ...................... 214

13.1 構建簡易的五子棋環境 ............................... 215

13.2 建立整體算法流程 ... 223

13.3 實現蒙特卡洛樹搜索 ................................... 229

13.4 實現策略價值網絡 ... 235

13.5 訓練實驗與效果評估 ................................... 240

附錄A PyTorch 入門 ........... 246

A.1 PyTorch 基礎知識 ...... 246

A.1.1 Tensor .............. 246

A.1.2 基礎操作 ......... 247

A.1.3 Tensor 和NumPy array 間的轉化 ...... 249

A.1.4 Autograd:自動梯度 .......................... 249

A.2 PyTorch 中的神經網絡 .................................. 250

A.2.1 如何定義神經網絡 ............................. 251

A.2.2 如何訓練神經網絡 ............................. 254

A.2.3 在CIFAR-10 數據集上進行訓練和測試 ............................... 256

A.2.4 模型的保存和加載 ............................. 259

參考文獻 ................................ 261

后記 ... 263



展開全部

深入淺出強化學習:編程實戰 作者簡介

郭憲,南開大學人工智能學院講師。2009年畢業于華中科技大學機械設計制造及自動化專業,同年保送到中國科學院沈陽自動化研究所進行碩博連讀,2016年1月獲得工學博士學位,并到南開大學從事博士后研究工作,2018年7月任教于南開大學至今。目前主要研究方向和興趣是仿生機器人智能運動控制、強化學習和機器人博弈。 宋俊瀟,香港科技大學博士,目前就職于啟元世界,擔任研究科學家,專注于決策智能相關算法的研究與開發。博士期間在國際知名期刊和會議發表論文9篇。2015年,獲得阿里巴巴天池大數據黃金聯賽個人年度第1名(參賽隊伍總計15154支)。曾就職于網易游戲,擔任資深數據挖掘研究員,負責個性化推薦算法及基于深度強化學習的游戲AI技術的探索研究,三次獲得公司層面的技術進步獎。 方勇純,南開大學人工智能學院院長、教授、博士生導師,國家杰出青年基金獲得者(2013年),教育部長江學者特聘教授(2017年)。1992~1994年在浙江大學混合班(尖子班)學習,獲混合班榮譽證書。1996年和1999年分獲浙江大學學士和碩士學位,2002年獲美國克萊姆森大學(Clemson University)電機工程博士學位。2002至2003年在康乃爾大學(Cornell University)從事博士后研究。2003年底至今,任教于南開大學。目前主要研究方向為機器人視覺控制、無人機、欠驅動吊車系統和微納米操作

商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 真空粉体取样阀,电动楔式闸阀,电动针型阀-耐苛尔(上海)自动化仪表有限公司 | 真空干燥烘箱_鼓风干燥箱 _高低温恒温恒湿试验箱_光照二氧化碳恒温培养箱-上海航佩仪器 | 政府回应:200块在义乌小巷能买到爱情吗?——揭秘打工族省钱约会的生存智慧 | 档案密集柜_手动密集柜_智能密集柜_内蒙古档案密集柜-盛隆柜业内蒙古密集柜直销中心 | 校园文化空间设计-数字化|中医文化空间设计-党建|法治廉政主题文化空间施工-山东锐尚文化传播公司 | 校园气象站_超声波气象站_农业气象站_雨量监测站_风途科技 | 广东高华家具-公寓床|学生宿舍双层铁床厂家【质保十年】 | 诚暄电子公司首页-线路板打样,pcb线路板打样加工制作厂家 | 临时厕所租赁_玻璃钢厕所租赁_蹲式|坐式厕所出租-北京慧海通 | 丝印油墨_水性油墨_环保油墨油漆厂家_37国际化工 | 广州迈驰新GMP兽药包装机首页_药品包装机_中药散剂包装机 | 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 科研ELISA试剂盒,酶联免疫检测试剂盒,昆虫_植物ELISA酶免试剂盒-上海仁捷生物科技有限公司 | 超声波分散机-均质机-萃取仪-超声波涂料分散设备-杭州精浩 | 微水泥_硅藻泥_艺术涂料_艺术漆_艺术漆加盟-青岛泥之韵环保壁材 武汉EPS线条_EPS装饰线条_EPS构件_湖北博欧EPS线条厂家 | 锤式粉碎机,医药粉碎机,锥式粉碎机-无锡市迪麦森机械制造有限公司 | 山东PE给水管厂家,山东双壁波纹管,山东钢带增强波纹管,山东PE穿线管,山东PE农田灌溉管,山东MPP电力保护套管-山东德诺塑业有限公司 | 厚壁钢管-厚壁无缝钢管-小口径厚壁钢管-大口径厚壁钢管 - 聊城宽达钢管有限公司 | 水压力传感器_数字压力传感器|佛山一众传感仪器有限公司|首页 | 齿轮减速机电机一体机_齿轮减速箱加电机一体化-德国BOSERL蜗轮蜗杆减速机电机生产厂家 | 天津力值检测-天津管道检测-天津天诚工程检测技术有限公司 | 多米诺-多米诺世界纪录团队-多米诺世界-多米诺团队培训-多米诺公关活动-多米诺创意广告-多米诺大型表演-多米诺专业赛事 | 中山市派格家具有限公司【官网】 | 深圳市源和塑胶电子有限公司-首页 | 动物麻醉机-数显脑立体定位仪-北京易则佳科技有限公司 | 塑料异型材_PVC异型材_封边条生产厂家_PC灯罩_防撞扶手_医院扶手价格_东莞市怡美塑胶制品有限公司 | 大_小鼠elisa试剂盒-植物_人Elisa试剂盒-PCR荧光定量试剂盒-上海一研生物科技有限公司 | 打包钢带,铁皮打包带,烤蓝打包带-高密市金和金属制品厂 | 长城人品牌官网| 制冷采购电子商务平台——制冷大市场| 转向助力泵/水泵/发电机皮带轮生产厂家-锦州华一精工有限公司 | 广州办公室设计,办公室装修,写字楼设计,办公室装修公司_德科 | 分子精馏/精馏设备生产厂家-分子蒸馏工艺实验-新诺舜尧(天津)化工设备有限公司 | 高低温老化试验机-步入式/低温恒温恒湿试验机-百科 | 沥青灌缝机_路面灌缝机_道路灌缝机_沥青灌缝机厂家_济宁萨奥机械有限公司 | 广州印刷厂_广州彩印厂-广州艺彩印务有限公司 | 透平油真空滤油机-变压器油板框滤油机-滤油车-华之源过滤设备 | 异噻唑啉酮-均三嗪-三丹油-1227-中北杀菌剂厂家 | 电动车头盔厂家_赠品头盔_安全帽批发_山东摩托车头盔—临沂承福头盔 | 建筑资质代办-建筑资质转让找上海国信启航 | X光检测仪_食品金属异物检测机_X射线检测设备_微现检测 |