中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
深度強化學習圖解

包郵 深度強化學習圖解

作者:郭濤
出版社:清華大學出版社出版時間:2022-07-01
開本: 16開 頁數: 408
中 圖 價:¥101.5(7.3折) 定價  ¥139.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深度強化學習圖解 版權信息

  • ISBN:9787302605461
  • 條形碼:9787302605461 ; 978-7-302-60546-1
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

深度強化學習圖解 本書特色

深度強化學習(Deep Reinforcement Leaming,DRL) 是深度學習和強化學習的巧 妙結合,是一種新興的通用人工智能技術,是人工智能邁向智能決策的重要一步,是機器學習的熱點,潛力無限,典型的成功案例是DeepMind AlphaGo和OpenAI Five。深度強化學習可看作在深度學習非線性函數超強擬合能力下,構成的一種新增強算法。目前就深度強化學習而言,需要從三個方面進行積累:**,深度強化學習的理論基礎:第二,深度強化學習的仿真平臺:第三,產業落地的項目和產品。 從深度強化學習庫以及框架看,學術界PyTorch和工業界Tensor Flow深度學習框架都將前沿成果集成進來。目前已有一些經典的深度強化學習文獻和著作,但將深度強化學習理論、工具和實戰相結合的著作還是很少,本書的出版恰好填補了這方面的空白。 本書圖文并茂地對晦澀難懂的深度強化學習理論進行描述,并結合大量的案例 和應用程序,引導讀者邊思考邊實踐,從而逐步加深對深度強化學習的理解,并將這些新方法、新理論和新思想用于自己的研究。本書可作為從事智能機器人控制、計算機視覺、自然語言處理和自動駕駛系統/無人車等領域研究工作的工程師、計算機科學家和統計學家的參考書。

深度強化學習圖解 內容簡介

我們在與環境交互的過程中進行學習,經歷的獎勵或懲罰將指導我們未來的行為。深度強化學習將該過程引入人工智能領域,通過分析結果來尋找*有效的前進方式。DRL智能體可提升營銷效果、預測股票漲跌,甚至擊敗圍棋高手和國際象棋大師。 《深度強化學習圖解》呈現生動示例,指導你構建深度學習體系。Python代碼包含詳明、直觀的注釋,助你深刻理解DRL技術。你將學習算法的運行方式,并學會用評估性反饋來開發自己的DRL智能體。 本書主要內容包括: ●強化學習入門 ●行為與人類似的DRL智 能體 ●在復 雜情況下應用DRL

深度強化學習圖解 目錄

第1章 深度強化學習導論 1

1.1 深度強化學習概念 2

1.1.1 深度強化學習:人工智能的機器學習法 2

1.1.2 深度強化學習著重創建計算機程序 5

1.1.3 智能體解決智能問題 6

1.1.4 智能體通過試錯提高性能 8

1.1.5 智能體從慣序性反饋中學習 9

1.1.6 智能體從評估性反饋中學習 10

1.1.7 智能體從抽樣性反饋中學習 10

1.1.8 智能體使用強大的非線性函數逼近 11

1.2 深度強化學習的過去、現在與未來 12

1.2.1 人工智能和深度強化學習的發展簡史 12

1.2.2 人工智能的寒冬 13

1.2.3 人工智能現狀 13

1.2.4 深度強化學習進展 14

1.2.5 未來的機遇 17

1.3 深度強化學習的適用性 18

1.3.1 利弊分析 18

1.3.2 深度強化學習之利 19

1.3.3 深度強化學習之弊 20

1.4 設定明確的雙向預期 21

1.4.1 本書的預期 21

1.4.2 本書的*佳使用方式 22

1.4.3 深度強化學習的開發環境 23

1.5 小結 24

第2章 強化學習數學基礎 27

2.1 強化學習組成 28

2.1.1 問題、智能體和環境的示例 30

2.1.2 智能體:決策者 31

2.1.3 環境:其余一切 32

2.1.4 智能體與環境交互循環 37

2.2 MDP:環境的引擎 38

2.2.1 狀態:環境的特定配置 40

2.2.2 動作:影響環境的機制 43

2.2.3 轉換函數:智能體行為的后果 44

2.2.4 獎勵信號:胡蘿卜和棍棒 46

2.2.5 視界:時間改變*佳選擇 49

2.2.6 折扣:未來是不確定的,別太看重它 50

2.2.7 MDP擴展 51

2.2.8 總體回顧 53

2.3 小結 54

第3章 平衡短期目標與長期目標 57

3.1 決策智能體的目標 58

3.1.1 策略:各狀態動作指示 62

3.1.2 狀態.-.值函數:有何期望 63

3.1.3 動作-值函數:如果這樣做,有何期望 64

3.1.4 動作-優勢函數:如果這樣做,有何進步 65

3.1.5 *優性 66

3.2 規劃*優動作順序 67

3.2.1 策略評估:評級策略 67

3.2.2 策略改進:利用評級得以改善 73

3.2.3 策略迭代:完善改進后的行為 77

3.2.4 價值迭代:早期改進行為 81

3.3 小結 85

第4章 權衡信息收集和運用 87

4.1 解讀評估性反饋的挑戰 88

4.1.1 老虎機:單狀態決策問題 89

4.1.2 后悔值:探索的代價 90

4.1.3 解決MAB環境的方法 91

4.1.4 貪婪策略:總在利用 93

4.1.5 隨機策略:總在探索 95

4.1.6 ε.貪婪策略:通常貪婪,時而隨機 97

4.1.7 衰減.ε.貪婪策略:先*大化探索,后*大化利用 99

4.1.8 樂觀初始化策略:始于相信世界美好 101

4.2 策略型探索 105

4.2.1 柔性*大值策略:根據估計值按比隨機選擇動作 106

4.2.2 置信上界策略:現實樂觀,而非樂觀 108

4.2.3 湯普森抽樣策略:平衡回報與風險 110

4.3 小結 116

第5章 智能體行為評估 119

5.1 學習估計策略價值 120

5.1.1 首次訪問蒙特卡洛:每次迭代后,改善估計 123

5.1.2 蒙特卡洛每次訪問:處理狀態訪問的不同方法 125

5.1.3 時差學習:每步后改進估計 129

5.2 學習從多步進行估算 137

5.2.1 n.步TD學習:經過幾步后改進估計 138

5.2.2 前瞻TD(λ):改進對所有訪問狀態的估計 141

5.2.3 TD(λ):在每步之后改進對所有訪問狀態的估計 143

5.3 小結 151

第6章 智能體行為的優化 153

6.1 對智能體強化學習的解析 154

6.1.1 大多數智能體都要收集經驗樣本 156

6.1.2 大多數智能體都要評估 157

6.1.3 大多數智能體都要優化策略 159

6.1.4 廣義策略迭代 160

6.2 學習動作策略的優化 162

6.2.1 蒙特卡洛控制:在每一迭代后優化策略 163

6.2.2 SARSA:在每一步之后優化策略 169

6.3 從學習中分離動作 173

6.3.1 Q學習:學會*優動作,即使我們不選 173

6.3.2 雙Q學習:*大值估計值的*大估計值 177

6.4 小結 184

第7章 更有效、更高效地完成目標 187

7.1 學習使用魯棒性目標優化策略 188

7.1.1 SARSA(λ):基于多階段評估,在每一階段后優化策略 189

7.1.2 Watkin的Q(λ):再一次,從學習中分離行為 196

7.2 智能體的交互、學習、計劃 200

7.2.1 Dyna-Q:學習樣本模型 201

7.2.2 軌跡抽樣:為不久的將來做計劃 206

7.3 小結 219

第8章 基于價值的深度強化學習 221

8.1 深度強化學習智能體使用的反饋種類 222

8.1.1 深度強化學習智能體處理慣序性反饋 223

8.1.2 如果它不是慣序性反饋,那它是什么 224

8.1.3 深度強化學習智能體處理評估性反饋 225

8.1.4 如果它不是評估性反饋,那它是什么 226

8.1.5 深度強化學習智能體處理抽樣性反饋 226

8.1.6 如果它不是抽樣性反饋,那它是什么 227

8.2 強化學習中的逼近函數 228

8.2.1 強化學習問題能夠擁有高維狀態和動作空間 229

8.2.2 強化學習問題可以具有連續的狀態和動作空間 229

8.2.3 使用函數逼近有很多優點 231

8.3 NFQ:對基于價值的深入強化學習的**次嘗試 233

8.3.1 第1個決策點:選擇逼近一個值函數 234

8.3.2 第2個決策點:選擇神經網絡體系結構 235

8.3.4 第3個決策點:選擇要優化的內容 236

8.3.5 第4個決策點:為策略評估選擇目標 238

8.3.6 第5個決策點:選擇探索策略 241

8.3.7 第6個決策點:選擇損失函數 242

8.3.8 第7個決策點:選擇一種*優方法 243

8.3.9 可能出錯的事情 248

8.4 小結 250

第9章 更穩定的基于價值方法 253

9.1 DQN:使強化學習更像是監督學習 254

9.1.1 基于價值的深度強化學習的普遍問題 254

9.1.2 使用目標網絡 256

9.1.3 使用更大網絡 259

9.1.4 使用經驗回放 259

9.1.5 使用其他探索策略 263

9.2 雙重DQN:減少對動作-值函數的高估 269

9.2.1 高估問題 269

9.2.2 將動作選擇從動作評估剝離 270

9.2.3 一個解決方案 271

9.2.4 一個更實用的解決方案 272

9.2.5 一個更寬容的損失函數 275

9.2.6 仍可改進之處 280

9.3 小結 281

第10章 高效抽樣的基于價值學習方法 285

10.1 Dueling DDQN:具備強化學習意識的神經網絡架構 286

10.1.1 強化學習不屬于監督學習問題 286

10.1.2 基于價值的強化學習方法的微妙區別 287

10.1.3 利用優點的優勢 288

10.1.4 有意識強化學習框架 289

10.1.5 建立一個Dueling網絡架構 290

10.1.6 重構動作-值函數 291

10.1.7 連續更新目標網絡 293

10.1.8 Dueling網絡能為表格帶來什么 294

10.2 PER:優先有意義經驗的回放 297

10.2.1 更明智的回放經驗方法 297

10.2.2 如何較好地衡量“重要”經驗 298

10.2.3 利用TD 誤差做出貪婪優先級操作 299

10.2.4 隨機對優先的經驗進行抽樣 300

10.2.5 成比例的優先級 301

10.2.6 基于排名的優先級 302

10.2.7 優先偏倚 303

10.3 小結 309

第11章 策略梯度與actor-critic方法 313

11.1 REINFORCE算法:基于結果策略學習 314

11.1.1 策略梯度法簡介 314

11.1.2 策略梯度法之優勢 315

11.1.3 直接學習策略 319

11.1.4 減少策略梯度方差 320

11.2 VPG:學習值函數 322

11.2.1 進一步減少策略梯度方差 323

11.2.2 學習值函數 323

11.2.3 鼓勵探索 324

11.3 A3C:平行策略更新 328

11.3.1 使用actor工作器 328

11.3.2 使用n-step估計 331

11.3.3 無障礙模型更新 334

11.4 GAE: 穩健優勢估計 335

11.5 A2C: 同步策略更新 338

11.5.1 權重分擔模型 338

11.5.2 恢復策略更新秩序 340

11.6 小結 346

第12章 高級actor-critic方法 349

12.1 DDPG: 逼近確定性策略 351

12.1.1 DDPG使用DQN中的許多技巧 351

12.1.2 學習確定性策略 353

12.1.3 用確定性策略進行探索 356

12.2 TD3:*先進的DDPG改進 358

12.2.1 DDPG中的雙重學習 358

12.2.2 平滑策略更新目標 360

12.2.3 延遲更新 363

12.3 SAC: *大化預期收益和熵 365

12.3.1 在貝爾曼方程中添加熵 365

12.3.2 學習動作-值函數 366

12.3.3 學習策略 366

12.3.4 自動調整熵系數 367

12.4 PPO: 限制優化步驟 372

12.4.1 使用與A2C相同的actor-critic架構 372

12.4.2 分批處理經驗 373

12.4.3 剪裁策略更新 377

12.4.4 剪裁值函數更新 377

12.5 小結 382

第13章 邁向通用人工智能 385

13.1 已涵蓋的以及未特別提及的內容 386

13.1.1 馬爾可夫決策過程 387

13.1.2 規劃法 388

13.1.3 Bandit法 389

13.1.4 表格型強化學習 390

13.1.5 基于值函數的深度強化學習 391

13.1.6 基于策略的深度強化學習和actor-critic深度強化學習 392

13.1.7 高級actor-critic技術 392

13.1.8 基于模型的深度強化學習 393

13.1.9 無梯度優化方法 395

13.2 更多AGI高級概念 397

13.2.1 什么是AGI 397

13.2.2 高級探索策略 399

13.2.3 逆強化學習 399

13.2.4 遷移學習 400

13.2.5 多任務學習 401

13.2.6 課程學習 401

13.2.7 元學習 402

13.2.8 分層強化學習 402

13.2.9 多智能體強化學習 402

13.2.10 可解釋AI、安全、公平和道德標準 403

13.3 接下來是什么 404

13.3.1 如何用DRL解決特定問題 404

13.3.2 繼續前進 405

13.3.3 從現在開始,放下本書 406

13.4 小結 407


展開全部

深度強化學習圖解 作者簡介

 Miguel Morales在洛克希德·馬丁(Lockheed Martin)公司從事強化學習工作,在佐治亞理工學院擔任強化學習與決策課程的講師。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 应急灯_消防应急灯_应急照明灯_应急灯厂家-大成智慧官网 | 低温柔性试验仪-土工布淤堵-沥青车辙试验仪-莱博特(天津)试验机有限公司 | 湖南档案密集架,智能,物证,移动,价格-湖南档案密集架厂家 | 信阳网站建设专家-信阳时代网联-【信阳网站建设百度推广优质服务提供商】信阳网站建设|信阳网络公司|信阳网络营销推广 | 喷码机,激光喷码打码机,鸡蛋打码机,手持打码机,自动喷码机,一物一码防伪溯源-恒欣瑞达有限公司 | 上海冠顶工业设备有限公司-隧道炉,烘箱,UV固化机,涂装设备,高温炉,工业机器人生产厂家 | 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 折弯机-刨槽机-数控折弯机-数控刨槽机-数控折弯机厂家-深圳豐科机械有限公司 | 杭州代理记账多少钱-注册公司代办-公司注销流程及费用-杭州福道财务管理咨询有限公司 | 全自动翻转振荡器-浸出式水平振荡器厂家-土壤干燥箱价格-常州普天仪器 | 长沙印刷厂-包装印刷-画册印刷厂家-湖南省日大彩色印务有限公司 青州搬家公司电话_青州搬家公司哪家好「鸿喜」青州搬家 | 无锡市珂妮日用化妆品有限公司|珂妮日化官网|洗手液厂家 | 不干胶标签-不干胶贴纸-不干胶标签定制-不干胶标签印刷厂-弗雷曼纸业(苏州)有限公司 | 雨燕360体育免费直播_雨燕360免费NBA直播_NBA篮球高清直播无插件-雨燕360体育直播 | 活动策划,舞台搭建,活动策划公司-首选美湖上海活动策划公司 | 高温链条油|高温润滑脂|轴承润滑脂|机器人保养用油|干膜润滑剂-东莞卓越化学 | 电磁铁_小型推拉电磁铁_电磁阀厂家-深圳市宗泰电机有限公司 | 层流手术室净化装修-检验科ICU改造施工-华锐净化工程-特殊科室建设厂家 | 证券新闻,热播美式保罗1984第二部_腾讯1080p-仁爱影院 | 针焰试验仪,灼热丝试验仪,漏电起痕试验仪,水平垂直燃烧试验仪 - 苏州亚诺天下仪器有限公司 | 金库门,金库房,金库门厂家,金库门价格-河北特旺柜业有限公司 | 体坛网_体坛+_体坛周报新闻客户端 | 雷达液位计_超声波风速风向仪_雨量传感器_辐射传感器-山东风途物联网 | 胶原检测试剂盒,弹性蛋白检测试剂盒,类克ELISA试剂盒,阿达木单抗ELISA试剂盒-北京群晓科苑生物技术有限公司 | 纸塑分离机-纸塑分离清洗机设备-压力筛-碎浆机厂家金双联环保 | 北京发电车出租-发电机租赁公司-柴油发电机厂家 - 北京明旺盛安机电设备有限公司 | 视频直播 -摄影摄像-视频拍摄-直播分发 | 仿真茅草_人造茅草瓦价格_仿真茅草厂家_仿真茅草供应-深圳市科佰工贸有限公司 | 杭州代理记账多少钱-注册公司代办-公司注销流程及费用-杭州福道财务管理咨询有限公司 | 广州云仓代发-昊哥云仓专业电商仓储托管外包代发货服务 | 家德利门业,家居安全门,别墅大门 - 安徽家德利门业有限公司 | 三氯异氰尿酸-二氯-三氯-二氯异氰尿酸钠-优氯净-强氯精-消毒片-济南中北_优氯净厂家 | 河南道路标志牌_交通路标牌_交通标志牌厂家-郑州路畅交通 | 机械加工_绞车配件_立式离心机_减速机-洛阳三永机械厂 | 亿立分板机_曲线_锯片式_走刀_在线式全自动_铣刀_在线V槽分板机-杭州亿协智能装备有限公司 | Honsberg流量计-Greisinger真空表-气压计-上海欧臻机电设备有限公司 | 净化板-洁净板-净化板价格-净化板生产厂家-山东鸿星新材料科技股份有限公司 | 河南档案架,档案密集架,手动密集架,河南密集架批发/报价 | 铝合金线槽_铝型材加工_空调挡水板厂家-江阴炜福金属制品有限公司 | 冷凝水循环试验箱-冷凝水试验箱-可编程高低温试验箱厂家-上海巨为(www.juweigroup.com) | 蓝莓施肥机,智能施肥机,自动施肥机,水肥一体化项目,水肥一体机厂家,小型施肥机,圣大节水,滴灌施工方案,山东圣大节水科技有限公司官网17864474793 |