中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
深度強化學習原理與實踐

包郵 深度強化學習原理與實踐

作者:陳仲銘
出版社:人民郵電出版社出版時間:2019-05-01
開本: 16開 頁數: 341
中 圖 價:¥68.3(6.9折) 定價  ¥99.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深度強化學習原理與實踐 版權信息

  • ISBN:9787115505323
  • 條形碼:9787115505323 ; 978-7-115-50532-3
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

深度強化學習原理與實踐 本書特色

本書構建了一個完整的深度強化學習理論和實踐體系:從馬爾可夫決策過程開始,根據價值函數、策略函數求解貝爾曼方程,到利用深度學習模擬價值網絡和策略網絡。書中詳細介紹了深度強化學習相關算法,如Rainbow、Ape-X算法等,并闡述了相關算法的具體實現方式和代表性應用(如AlphaGo)。此外,本書還深度剖析了強化學習各算法之間的聯系,有助于讀者舉一反三。 本書分為四篇:初探強化學習、求解強化學習、求解強化學習進階和深度強化學習。涉及基礎理論到深度強化學習算法框架的各方面內容,反映了深度強化學習領域過去的發展歷程和研究進展,有助于讀者發現該領域中新的研究問題和方向。

深度強化學習原理與實踐 內容簡介

1.中國科學院院士張景中,中國科學技術大學大數據學院常務副院長陳恩紅,OPPO研究院院長劉暢,傾情作序推薦! 2.內容系統詳實:本書構建了一個完整的強化學習知識體系,不僅涵蓋經典強化學習的內容,還包括深度強化學習的重要成果——DQN算法、A3C算法、Rainbow算法等。使讀者了解強化學習的發展歷史和重要成果,助力其在強化學習領域進行創新研究和應用實踐,進而找到更有價值的研究課題和應用方向。 3.兼顧理論與實踐:深入全面講解掌握深度強化學習的理論知識,并結合Python 3代碼案例,將算法快速落地,降低讀者的學習門檻和入門難度。 4.讀者受眾廣泛:在結構布局和邏輯梳理上,兼顧了學術界和工業界讀者的不同需求,既適用于技術工程師,也適用于研究人員和學生群體。 5.貼近技術前沿:詳細介紹近年來在強化學習領域的研究進展和成果,盡可能保證本書的時效性,對學術研究和實際工作都具有很高的參考和應用價值。 6.配套源碼資源:本書提供分章的配套源碼,讀者可到異步社區中下載并使用。

深度強化學習原理與實踐 目錄

第 一篇 初探強化學習



第 1章 強化學習緒論 3

1.1 初探強化學習 4

1.1.1 強化學習與機器學習 5

1.1.2 強化學習與監督學習的區別 6

1.1.3 歷史發展 8

1.2 基礎理論 10

1.2.1 組成元素 11

1.2.2 環境模型 12

1.2.3 探索與利用 12

1.2.4 預測與控制 13

1.2.5 強化學習的特點 14

1.3 應用案例 14

1.4 強化學習的思考 18

1.4.1 強化學習待解決問題 18

1.4.2 強化學習的突破點 23

1.5 小結 25

第 2章 數學基礎及環境 26

2.1 簡介 27

2.2 馬爾可夫決策過程 27

2.2.1 馬爾可夫性質 27

2.2.2 馬爾可夫決策過程 27

2.3 強化學習的數學基礎理論 29

2.3.1 策略 30

2.3.2 獎勵 30

2.3.3 價值函數 31

2.4 求解強化學習 31

2.4.1 貝爾曼方程 31

2.4.2 *優值函數 32

2.4.3 *優策略 32

2.4.4 求解*優策略 33

2.5 示例:HelloGrid迷宮環境 36

2.5.1 初識OpenAI Gym庫 37

2.5.2 建立HelloGrid環境 38

2.6 小結 43



第二篇 求解強化學習



第3章 動態規劃法 47

3.1 動態規劃 48

3.1.1 動態規劃概述 48

3.1.2 動態規劃與貝爾曼方程 48

3.2 策略評估 49

3.2.1 策略評估算法 49

3.2.2 策略評估算法實現 50

3.3 策略改進 54

3.4 策略迭代 56

3.4.1 策略迭代算法 57

3.4.2 策略迭代算法實現 58

3.5 值迭代 60

3.5.1 值迭代算法 61

3.5.2 值迭代算法實現 62

3.6 異步動態規劃 64

3.6.1 In-Place動態規劃 65

3.6.2 加權掃描動態規劃 65

3.6.3 實時動態規劃 66

3.7 討論 66

3.8 小結 67

第4章 蒙特卡洛法 68

4.1 認識蒙特卡洛法 69

4.1.1 經驗軌跡 69

4.1.2 蒙特卡洛法數學原理 74

4.1.3 蒙特卡洛法的特點 74

4.2 蒙特卡洛預測 74

4.2.1 蒙特卡洛預測算法 75

4.2.2 蒙特卡洛預測算法的實現 76

4.3 蒙特卡洛評估 80

4.4 蒙特卡洛控制 81

4.4.1 蒙特卡洛控制概述 82

4.4.2 起始點探索 84

4.4.3 非起始點探索 85

4.4.4 非固定策略 90

4.5 小結 96

第5章 時間差分法 98

5.1 時間差分概述 99

5.2 時間差分預測 99

5.2.1 時間差分預測原理 99

5.2.2 TD(λ)算法 101

5.2.3 時間差分預測特點 104

5.2.4 CartPole游戲 104

5.3 時間差分控制Sarsa算法 106

5.3.1 Sarsa算法原理 106

5.3.2 Sarsa算法實現 108

5.4 時間差分控制Q-learning算法 114

5.4.1 Q-learning算法原理 114

5.4.2 Q-learning算法實現 115

5.5 擴展時間差分控制法 121

5.5.1 期望Sarsa算法 121

5.5.2 Double Q-learning算法 121

5.6 比較強化學習求解法 123

5.7 小結 126



第三篇 求解強化學習進階



第6章 值函數近似法 129

6.1 大規模強化學習 130

6.2 值函數近似法概述 131

6.2.1 函數近似 131

6.2.2 值函數近似的概念 133

6.2.3 值函數近似的類型 133

6.2.4 值函數近似的求解思路 134

6.3 值函數近似法原理 135

6.3.1 梯度下降算法 135

6.3.2 梯度下降與值函數近似 137

6.3.3 線性值函數近似法 138

6.4 值函數近似預測法 139

6.4.1 蒙特卡洛值函數近似預測法 139

6.4.2 時間差分TD(0)值函數近似預測法 140

6.4.3 TD(λ)值函數近似預測法 141

6.5 值函數近似控制法 142

6.5.1 值函數近似控制原理 143

6.5.2 爬山車游戲 143

6.5.3 Q-learning值函數近似 145

6.6 小結 156

第7章 策略梯度法 157

7.1 認識策略梯度法 158

7.1.1 策略梯度概述 158

7.1.2 策略梯度法與值函數近似法的區別 159

7.1.3 策略梯度法的優缺點 160

7.2 策略目標函數 161

7.2.1 起始價值 162

7.2.2 平均價值 162

7.2.3 時間步平均獎勵 162

7.3 優化策略目標函數 163

7.3.1 策略梯度 163

7.3.2 評價函數 163

7.3.3 策略梯度定理 165

7.4 有限差分策略梯度法 165

7.5 蒙特卡洛策略梯度法 165

7.5.1 算法原理 166

7.5.2 算法實現 166

7.6 演員-評論家策略梯度法 177

7.6.1 算法原理 177

7.6.2 算法實現 179

7.7 小結 185

第8章 整合學習與規劃 187

8.1 基于模型的強化學習概述 188

8.1.1 基于模型的強化學習 188

8.1.2 基于模型的優點 188

8.1.3 基于模型的缺點 189

8.2 學習與規劃 189

8.2.1 學習過程 189

8.2.2 規劃過程 191

8.3 架構整合 192

8.3.1 Dyna算法 193

8.3.2 優先遍歷算法 194

8.3.3 期望更新和樣本更新 196

8.4 基于模擬的搜索 196

8.4.1 蒙特卡洛搜索 197

8.4.2 蒙特卡洛樹搜索 197

8.4.3 時間差分搜索 199

8.5 示例:國際象棋 199

8.5.1 國際象棋與強化學習 200

8.5.2 蒙特卡洛樹搜索示例 201

8.6 小結 203



第四篇 深度強化學習



第9章 深度強化學習 207

9.1 深度學習概述 208

9.1.1 深度表征 208

9.1.2 深度神經網絡 208

9.1.3 網絡可訓練 208

9.1.4 權值共享 210

9.2 深度神經網絡(DNN) 210

9.2.1 基本單元——神經元 210

9.2.2 線性模型與激活函數 211

9.2.3 多層神經網絡 212

9.2.4 訓練與預測 213

9.3 卷積神經網絡(CNN) 214

9.3.1 概述 214

9.3.2 卷積神經網絡的核心操作 215

9.3.3 卷積神經網絡的核心思想 218

9.4 循環神經網絡(RNN) 220

9.4.1 序列數據建模 220

9.4.2 循環神經網絡基本結構 221

9.4.3 循環神經網絡模型詳解 222

9.5 回顧強化學習 223

9.5.1 智能體和環境 224

9.5.2 基于價值的強化學習 225

9.5.3 基于策略的強化學習 225

9.5.4 基于模型的強化學習 225

9.6 深度強化學習 225

9.6.1 深度強化學習框架 226

9.6.2 深度強化學習應用 227

9.7 小結 230

第 10章 深度Q網絡 231

10.1 DQN概述 232

10.1.1 深度學習與強化學習的差異對比 232

10.1.2 DQN算法簡述 232

10.2 DQN算法核心思想 235

10.2.1 目標函數 235

10.2.2 目標網絡 236

10.2.3 經驗回放 236

10.3 DQN核心算法 237

10.3.1 DQN網絡模型 237

10.3.2 DQN算法流程 239

10.3.3 DQN算法實現 243

10.4 DQN擴展 256

10.4.1 Double DQN 257

10.4.2 Prioritized DQN 257

10.4.3 Dueling DQN 258

10.5 小結 259

第 11章 深度強化學習算法框架 260

11.1 DDPG算法 261

11.1.1 背景介紹 261

11.1.2 基本概念及算法原理 262

11.1.3 DDPG實現框架及流程 264

11.2 A3C算法 268

11.2.1 背景介紹 269

11.2.2 A3C算法原理 269

11.2.3 異步實現框架及流程 272

11.2.4 實驗效果 274

11.3 Rainbow算法 275

11.3.1 背景介紹 275

11.3.2 Rainbow算法流程 279

11.3.3 實驗效果 280

11.4 Ape-X 算法 280

11.4.1 背景介紹 281

11.4.2 Ape-X算法架構 281

11.4.3 Ape-X算法流程 282

11.4.4 實驗效果 284

11.5 小結 285

第 12章 從圍棋AlphaGo到AlphaGo Zero 287

12.1 人工智能與圍棋 288

12.1.1 強化學習與圍棋 288

12.1.2 AlphaGo進化階段 289

12.1.3 AlphaGo版本對比 290

12.2 AlphaGo算法詳解 292

12.2.1 策略網絡 293

12.2.2 價值網絡 295

12.2.3 蒙特卡洛樹搜索 296

12.2.4 實驗結果 298

12.3 AlphaGo Zero算法詳解 299

12.3.1 問題定義 299

12.3.2 聯合網絡 299

12.3.3 強化學習過程 300

12.3.4 蒙特卡洛樹搜索 301

12.3.5 實驗結果 303

12.4 思考 305

12.5 小結 305



附錄部分



附錄A 激活函數 309

附錄B 損失函數 314

附錄C 深度學習的超參數 319

附錄D 深度學習的技巧 322

附錄E 反向傳播算法 329

參考文獻 336



展開全部

深度強化學習原理與實踐 作者簡介

陳仲銘,西安電子科技大學碩士,OPPO研究院人工智能算法研究員。主要研究方向為強化學習與深度學習、數據挖掘、圖像算法及其應用。曾參與激光點云三維掃描、個性化推薦系統、多傳感器融合系統等大型項目,多次獲創新項目獎,并在國內外發表多篇相關論文。此外,作為技術顧問為多家科研機構和企業提供關于數學建模、深度學習等方面的咨詢和培訓。著有《深度學習原理與實踐》一書。 何明,重慶大學學士,中國科學技術大學博士,曾于美國北卡羅來納大學夏洛特分校訪問交流,目前為上海交通大學電子科學與技術方向博士后研究人員、OPPO研究院人工智能算法研究員。主要研究方向為深度強化學習、數據挖掘與知識發現、機器學習方法及其應用,側重于移動端用戶行為分析與建模。在TIP、TWEB、DASFAA、IEEE Access等國際學術會議和期刊共發表論文10余篇,曾獲數據挖掘領域國際會議KSEM2018論文獎。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 泰兴市热钻机械有限公司-热熔钻孔机-数控热熔钻-热熔钻孔攻牙一体机 | 整车VOC采样环境舱-甲醛VOC预处理舱-多舱法VOC检测环境仓-上海科绿特科技仪器有限公司 | 自动气象站_农业气象站_超声波气象站_防爆气象站-山东万象环境科技有限公司 | 圆形振动筛_圆筛_旋振筛_三次元振动筛-河南新乡德诚生产厂家 | 旋转/数显粘度计-运动粘度测定仪-上海平轩科学仪器 | 广东风淋室_广东风淋室厂家_广东风淋室价格_广州开源_传递窗_FFU-广州开源净化科技有限公司 | 蜗轮丝杆升降机-螺旋升降机-丝杠升降机厂家-润驰传动 | 河南中整光饰机械有限公司-抛光机,去毛刺抛光机,精密镜面抛光机,全自动抛光机械设备 | 盐水蒸发器,水洗盐设备,冷凝结晶切片机,转鼓切片机,絮凝剂加药系统-无锡瑞司恩机械有限公司 | 山东成考网-山东成人高考网| 电销卡_稳定企业大语音卡-归属地可选-世纪通信 | 广州番禺搬家公司_天河黄埔搬家公司_企业工厂搬迁_日式搬家_广州搬家公司_厚道搬迁搬家公司 | 杭州代理记账多少钱-注册公司代办-公司注销流程及费用-杭州福道财务管理咨询有限公司 | 金属管浮子流量计_金属转子流量计厂家-淮安润中仪表科技有限公司 | 磁力轮,磁力联轴器,磁齿轮,钕铁硼磁铁-北京磁运达厂家 | 水厂自动化|污水处理中控系统|水利信息化|智慧水务|智慧农业-山东德艾自动化科技有限公司 | 创绿家招商加盟网-除甲醛加盟-甲醛治理加盟-室内除甲醛加盟-创绿家招商官网 | 安全,主动,被动,柔性,山体滑坡,sns,钢丝绳,边坡,防护网,护栏网,围栏,栏杆,栅栏,厂家 - 护栏网防护网生产厂家 | 金联宇电缆|广东金联宇电缆厂家_广东金联宇电缆实业有限公司 | 二手Sciex液质联用仪-岛津气质联用仪-二手安捷伦气质联用仪-上海隐智科学仪器有限公司 | 防腐木批发价格_深圳_惠州_东莞防腐木厂家_森源(深圳)防腐木有限公司 | 浙江自考_浙江自学考试网 | 我爱古诗词_古诗词名句赏析学习平台 | 仓储货架_南京货架_钢制托盘_仓储笼_隔离网_环球零件盒_诺力液压车_货架-南京一品仓储设备制造公司 | 硫化罐_蒸汽硫化罐_大型硫化罐-山东鑫泰鑫智能装备有限公司 | 液氮罐_液氮容器_自增压液氮罐_杜瓦瓶_班德液氮罐厂家 | 利浦顿蒸汽发生器厂家-电蒸汽发生器/燃气蒸汽发生器_湖北利浦顿热能科技有限公司官网 | 沙盘模型公司_沙盘模型制作公司_建筑模型公司_工业机械模型制作厂家 | 合肥废气治理设备_安徽除尘设备_工业废气处理设备厂家-盈凯环保 合肥防火门窗/隔断_合肥防火卷帘门厂家_安徽耐火窗_良万消防设备有限公司 | 智慧养老_居家养老_社区养老_杰佳通| 粘度计,数显粘度计,指针旋转粘度计| 防堵吹扫装置-防堵风压测量装置-电动操作显示器-兴洲仪器 | 股指期货-期货开户-交易手续费佣金加1分-保证金低-期货公司排名靠前-万利信息开户 | 海外整合营销-独立站营销-社交媒体运营_广州甲壳虫跨境网络服务 焊管生产线_焊管机组_轧辊模具_焊管设备_焊管设备厂家_石家庄翔昱机械 | 预制舱-电力集装箱预制舱-模块化预制舱生产厂家-腾达电器设备 | 厌氧工作站-通用型厌氧工作站-上海胜秋科学仪器有限公司 | 宝鸡市人民医院 | 喷涂流水线,涂装流水线,喷漆流水线-山东天意设备科技有限公司 | 无线对讲-无线对讲系统解决方案-重庆畅博通信 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 气象监测系统_气象传感器_微型气象仪_气象环境监测仪-山东风途物联网 |