中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
智能系統與技術叢書強化學習:原理與PYTHON實現

包郵 智能系統與技術叢書強化學習:原理與PYTHON實現

作者:肖智清著
出版社:機械工業出版社出版時間:2019-07-01
開本: 16開 頁數: 239
中 圖 價:¥62.4(7.0折) 定價  ¥89.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

智能系統與技術叢書強化學習:原理與PYTHON實現 版權信息

  • ISBN:9787111631774
  • 條形碼:9787111631774 ; 978-7-111-63177-4
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

智能系統與技術叢書強化學習:原理與PYTHON實現 本書特色

本書理論完備,涵蓋主流非深度強化學習算法和深度強化學習算法;實戰性強,基于Python、Gym、TensorFlow 2等構建,并有AlphaZero等綜合案例。全書共12章,主要內容如下。 第1章:介紹強化學習的基礎知識與強化學習環境庫Gym的使用,并給出完整的編程實例。 第2~9章:介紹強化學習的理論知識。以Markov決策過程為基礎模型,覆蓋了所有主流強化學習理論和算法,包括資格跡等經典算法和深度確定性梯度策略等深度強化學習算法。所有章節都提供了與算法配套的Python程序,使讀者完全掌握強化學習算法的原理與應用。 第10~12章:介紹了多個熱門綜合案例,包括電動游戲、棋盤游戲和自動駕駛。算法部分涵蓋了在《自然》《科學》等權威期刊上發表的多個深度強化學習明星算法,包括AlphaGo的*改進版AlphaZero。

智能系統與技術叢書強化學習:原理與PYTHON實現 內容簡介

全書分為三個部分。第壹部分了解強化學習應用,了解強化學習基本知識,搭建強化學習測試環境。該部分包括:強化學習的概況、強化學習簡單示例、強化學習算法的常見思想、強化學習的應用、強化學習測試環境的搭建。第二部分介紹強化學習理論與深度強化學習算法。強化學習理論部分:Markov決策過程的數學描述、Monte Carlo方法和時序差分方法的數學理論;深度強化學習算法部分:詳細剖析全部具有重要影響力的深度強化學習算法,結合TensorFlow實現源碼。第三部分介紹強化學習綜合應用案例。

智能系統與技術叢書強化學習:原理與PYTHON實現 目錄

前言
第1章 初識強化學習 1
1.1 強化學習及其關鍵元素 1
1.2 強化學習的應用 3
1.3 智能體/環境接口 4
1.4 強化學習的分類 6
1.4.1 按任務分類 6
1.4.2 按算法分類 7
1.5 如何學習強化學習 8
1.5.1 學習路線 9
1.5.2 學習資源 9
1.6 案例:基于Gym庫的智能體/環境交互 9
1.6.1 安裝Gym庫 10
1.6.2 使用Gym庫 10
1.6.3 小車上山 12
1.7 本章小結 14
第2章 Markov決策過程 16
2.1 Markov決策過程模型 16
2.1.1 離散時間Markov決策過程 16
2.1.2 環境與動力 18
2.1.3 智能體與策略 19
2.1.4 獎勵、回報與價值函數 19
2.2 Bellman期望方程 21
2.3 *優策略及其性質 25
2.3.1 *優策略與*優價值函數 25
2.3.2 Bellman*優方程 25
2.3.3 用Bellman*優方程求解*優策略 29
2.4 案例:懸崖尋路 31
2.4.1 實驗環境使用 31
2.4.2 求解Bellman期望方程 32
2.4.3 求解Bellman*優方程 33
2.5 本章小結 35
第3章 有模型數值迭代 37
3.1 度量空間與壓縮映射 37
3.1.1 度量空間及其完備性 37
3.1.2 壓縮映射與Bellman算子 38
3.1.3 Banach不動點定理 39
3.2 有模型策略迭代 40
3.2.1 策略評估 40
3.2.2 策略改進 42
3.2.3 策略迭代 44
3.3 有模型價值迭代 45
3.4 動態規劃 46
3.4.1 從動態規劃看迭代算法 46
3.4.2 異步動態規劃 47
3.5 案例:冰面滑行 47
3.5.1 實驗環境使用 48
3.5.2 有模型策略迭代求解 49
3.5.3 有模型價值迭代求解 51
3.6 本章小結 52
第4章 回合更新價值迭代 54
4.1 同策回合更新 54
4.1.1 同策回合更新策略評估 54
4.1.2 帶起始探索的同策回合更新 58
4.1.3 基于柔性策略的同策回合更新 60
4.2 異策回合更新 62
4.2.1 重要性采樣 62
4.2.2 異策回合更新策略評估 64
4.2.3 異策回合更新*優策略求解 65
4.3 案例:21點游戲 66
4.3.1 實驗環境使用 66
4.3.2 同策策略評估 67
4.3.3 同策*優策略求解 70
4.3.4 異策策略評估 72
4.3.5 異策*優策略求解 73
4.4 本章小結 74
第5章 時序差分價值迭代 76
5.1 同策時序差分更新 76
5.1.1 時序差分更新策略評估 78
5.1.2 SARSA算法 81
5.1.3 期望SARSA算法 83
5.2 異策時序差分更新 85
5.2.1 基于重要性采樣的異策算法 85
5.2.2 Q學習 86
5.2.3 雙重Q學習 87
5.3 資格跡 89
5.3.1 λ回報 89
5.3.2 TD(λ) 90
5.4 案例:出租車調度 92
5.4.1 實驗環境使用 93
5.4.2 同策時序差分學習調度 94
5.4.3 異策時序差分學習調度 97
5.4.4 資格跡學習調度 99
5.5 本章小結 100
第6章 函數近似方法 101
6.1 函數近似原理 101
6.1.1 隨機梯度下降 101
6.1.2 半梯度下降 103
6.1.3 帶資格跡的半梯度下降 105
6.2 線性近似 107
6.2.1 精確查找表與線性近似的關系 107
6.2.2 線性*小二乘策略評估 107
6.2.3 線性*小二乘*優策略求解 109
6.3 函數近似的收斂性 109
6.4 深度Q學習 110
6.4.1 經驗回放 111
6.4.2 帶目標網絡的深度Q學習 112
6.4.3 雙重深度Q網絡 114
6.4.4 對偶深度Q網絡 114
6.5 案例:小車上山 115
6.5.1 實驗環境使用 116
6.5.2 用線性近似求解*優策略 117
6.5.3 用深度Q學習求解*優策略 120
6.6 本章小結 123
第7章 回合更新策略梯度方法 125
7.1 策略梯度算法的原理 125
7.1.1 函數近似與動作偏好 125
7.1.2 策略梯度定理 126
7.2 同策回合更新策略梯度算法 128
7.2.1 簡單的策略梯度算法 128
7.2.2 帶基線的簡單策略梯度算法 129
7.3 異策回合更新策略梯度算法 131
7.4 策略梯度更新和極大似然估計的關系 132
7.5 案例:車桿平衡 132
7.5.1 同策策略梯度算法求解*優策略 133
7.5.2 異策策略梯度算法求解*優策略 135
7.6 本章小結 137
第8章 執行者/評論者方法 139
8.1 同策執行者/評論者算法 139
8.1.1 動作價值執行者/評論者算法 140
8.1.2 優勢執行者/評論者算法 141
8.1.3 帶資格跡的執行者/評論者算法 143
8.2 基于代理優勢的同策算法 143
8.2.1 代理優勢 144
8.2.2 鄰近策略優化 145
8.3 信任域算法 146
8.3.1 KL散度 146
8.3.2 信任域 147
8.3.3 自然策略梯度算法 148
8.3.4 信任域策略優化 151
8.3.5 Kronecker因子信任域執行者/評論者算法 152
8.4 重要性采樣異策執行者/評論者算法 153
8.4.1 基本的異策算法 154
8.4.2 帶經驗回放的異策算法 154
8.5 柔性執行者/評論者算法 157
8.5.1 熵 157
8.5.2 獎勵工程和帶熵的獎勵 158
8.5.3 柔性執行者/評論者的網絡設計 159
8.6 案例:雙節倒立擺 161
8.6.1 同策執行者/評論者算法求解*優策略 162
8.6.2 異策執行者/評論者算法求解*優策略 168
8.7 本章小結 170
第9章 連續動作空間的確定性策略 172
9.1 同策確定性算法 172
9.1.1 策略梯度定理的確定性版本 172
9.1.2 基本的同策確定性執行者/評論者算法 174
9.2 異策確定性算法 176
9.2.1 基本的異策確定性執行者/評論者算法 177
9.2.2 深度確定性策略梯度算法 177
9.2.3 雙重延遲深度確定性策略梯度算法 178
9.3 案例:倒立擺的控制 180
9.3.1 用深度確定性策略梯度算法求解 181
9.3.2 用雙重延遲深度確定性算法求解 184
9.4 本章小結 187
第10章 綜合案例:電動游戲 188
10.1 Atari游戲環境 188
10.1.1 Gym庫的完整安裝 188
10.1.2 游戲環境使用 190
10.2 基于深度Q學習的游戲AI 191
10.2.1 算法設計 192
10.2.2 智能體的實現 193
10.2.3 智能體的訓練和測試 197
10.3 本章小結 198
第11章 綜合案例:棋盤游戲 200
11.1 雙人確定性棋盤游戲 200
11.1.1 五子棋和井字棋 200
11.1.2 黑白棋 201
11.1.3 圍棋 202
11.2 AlphaZero算法 203
11.2.1 回合更新樹搜索 203
11.2.2 深度殘差網絡 206
11.2.3 自我對弈 208
11.2.4 算法流程 210
11.3 棋盤游戲環境boardgame2 210
11.3.1 為Gym庫擴展自定義環境 211
11.3.2 boardgame2設計 211
11.3.3 Gym環境接口的實現 214
11.3.4 樹搜索接口的實現 216
11.4 AlphaZero算法實現 218
11.4.1 智能體類的實現 218
11.4.2 自我對弈的實現 223
11.4.3 訓練智能體 224
11.5 本章小結 225
第12章 綜合案例:自動駕駛 226
12.1 AirSim開發環境使用 226
12.1.1 安裝和運行AirSim 226
12.1.2 用Python訪問AirSim 228
12.2 基于強化學習的自動駕駛 229
12.2.1 為自動駕駛設計強化學習環境 230
12.2.2 智能體設計和實現 235
12.2.3 智能體的訓練和測試 237
12.3 本章小結 239
展開全部

智能系統與技術叢書強化學習:原理與PYTHON實現 作者簡介

肖智清 強化學習一線研發人員,清華大學工學博士,現就職于全球知名投資銀行。擅長概率統計和機器學習,近5年發表SCI/EI論文十余篇,是多個國際性知名期刊和會議審稿人。在國內外多項程序設計和數據科學競賽上獲得冠軍。 ?

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 编织人生 - 权威手工编织网站,编织爱好者学习毛衣编织的门户网站,织毛衣就上编织人生网-编织人生 | 立式硫化罐-劳保用品硫化罐-厂家直销-山东鑫泰鑫硫化罐厂家 | 河南卓美创业科技有限公司-河南卓美防雷公司-防雷接地-防雷工程-重庆避雷针-避雷器-防雷检测-避雷带-避雷针-避雷塔、机房防雷、古建筑防雷等-山西防雷公司 | 短信通106短信接口验证码接口群发平台_国际短信接口验证码接口群发平台-速度网络有限公司 | 退火炉,燃气退火炉,燃气热处理炉生产厂家-丹阳市丰泰工业炉有限公司 | 砂尘试验箱_淋雨试验房_冰水冲击试验箱_IPX9K淋雨试验箱_广州岳信试验设备有限公司 | AR开发公司_AR增强现实_AR工业_AR巡检|上海集英科技 | 不锈钢复合板|钛复合板|金属复合板|南钢集团安徽金元素复合材料有限公司-官网 | 量子管通环-自清洗过滤器-全自动反冲洗过滤器-北京罗伦过滤技术集团有限公司 | 高效节能电机_伺服主轴电机_铜转子电机_交流感应伺服电机_图片_型号_江苏智马科技有限公司 | 灌装封尾机_胶水灌装机_软管灌装封尾机_无锡和博自动化机械制造有限公司 | 非甲烷总烃分析仪|环控百科 | 高速混合机_锂电混合机_VC高效混合机-无锡鑫海干燥粉体设备有限公司 | 日本SMC气缸接头-速度控制阀-日本三菱伺服电机-苏州禾力自动化科技有限公司 | 铣刨料沥青破碎机-沥青再生料设备-RAP热再生混合料破碎筛分设备 -江苏锡宝重工 | 武汉高低温试验箱_恒温恒湿试验箱厂家-武汉蓝锐环境科技有限公司 | 有机废气处理-rto焚烧炉-催化燃烧设备-VOC冷凝回收装置-三梯环境 | 济南画室培训-美术高考培训-山东艺霖艺术培训画室 | 沈阳网站建设_沈阳网站制作_沈阳网页设计-做网站就找示剑新零售 沈阳缠绕膜价格_沈阳拉伸膜厂家_沈阳缠绕膜厂家直销 | 德国EA可编程直流电源_电子负载,中国台湾固纬直流电源_交流电源-苏州展文电子科技有限公司 | SOUNDWELL 编码器|电位器|旋转编码器|可调电位器|编码开关厂家-广东升威电子制品有限公司 | 知企服务-企业综合服务(ZiKeys.com)-品优低价、种类齐全、过程管理透明、速度快捷高效、放心服务,知企专家! | 网络推广公司_网络营销方案策划_企业网络推广外包平台-上海澜推网络 | 硅胶制品-硅橡胶制品-东莞硅胶制品厂家-广东帝博科技有限公司 | 东莞螺丝|东莞螺丝厂|东莞不锈钢螺丝|东莞组合螺丝|东莞精密螺丝厂家-东莞利浩五金专业紧固件厂家 | 焊管生产线_焊管机组_轧辊模具_焊管设备_焊管设备厂家_石家庄翔昱机械 | 膜结构_ETFE膜结构_膜结构厂家_膜结构设计-深圳市烨兴智能空间技术有限公司 | 据信,上课带着跳 D 体验-别样的课堂刺激感受引发网友热议 | 杭州翻译公司_驾照翻译_专业人工翻译-杭州以琳翻译有限公司官网 组织研磨机-高通量组织研磨仪-实验室多样品组织研磨机-东方天净 | 标准光源箱|对色灯箱|色差仪|光泽度仪|涂层测厚仪_HRC大品牌生产厂家 | 东莞精密模具加工,精密连接器模具零件,自動機零件,冶工具加工-益久精密 | 包头市鑫枫装饰有限公司| 液氮罐(生物液氮罐)百科-无锡爱思科 | 岛津二手液相色谱仪,岛津10A液相,安捷伦二手液相,安捷伦1100液相-杭州森尼欧科学仪器有限公司 | 聚丙烯酰胺_阴离子_阳离子「用量少」巩义亿腾厂家直销,售后无忧 聚合甘油__盐城市飞龙油脂有限公司 | 东莞爱加真空科技有限公司-进口真空镀膜机|真空镀膜设备|Polycold维修厂家 | 代理记账_公司起名核名_公司注册_工商注册-睿婕实业有限公司 | 艺术涂料_进口艺术涂料_艺术涂料加盟_艺术涂料十大品牌 -英国蒙太奇艺术涂料 | 郑州巴特熔体泵有限公司专业的熔体泵,熔体齿轮泵与换网器生产厂家 | 陶氏道康宁消泡剂_瓦克消泡剂_蓝星_海明斯德谦_广百进口消泡剂 | 青岛美佳乐清洁工程有限公司|青岛油烟管道清洗|酒店|企事业单位|学校工厂厨房|青岛油烟管道清洗 插针变压器-家用电器变压器-工业空调变压器-CD型电抗器-余姚市中驰电器有限公司 |