中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
強化學習:原理與Python實戰

包郵 強化學習:原理與Python實戰

作者:肖智清
出版社:機械工業出版社出版時間:2023-08-01
開本: 16開 頁數: 490
中 圖 價:¥90.3(7.0折) 定價  ¥129.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學習:原理與Python實戰 版權信息

  • ISBN:9787111728917
  • 條形碼:9787111728917 ; 978-7-111-72891-7
  • 裝幀:平裝-膠訂
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

強化學習:原理與Python實戰 本書特色

攜七大優勢,帶你一書學透強化學習,掌握ChatGPT背后的關鍵技術。
1)內容完備:完整地介紹了主流強化學習理論,全面覆蓋主流強化學習算法,包括了資格跡等經典算法和MuZero等深度強化學習算法,且給出主要定理的證明過程。讓你參透ChatGPT背后的關鍵技術。
2)表述一致:全書采用統一的數學符號,并兼容主流強化學習教程。
3)配套豐富:每章都配有知識點總結、代碼和習題。
4)環境全面:既有Gym的內置環境,也有在Gym基礎上進一步擴展的第三方環境,還帶領讀者一起實現了自定義的環境。
5)兼容廣泛:所有代碼均可在Windows、macOS、Linux上運行,提供安裝和配置方法。同時,為深度強化學習相關算法提供了TensorFlow和PyTorch的對照實現,學習方案任你選擇。
6)硬件要求低:所有代碼均可在沒有GPU的個人計算機上運行,也可以在線查閱運行結果。
7)版權輸出:本書內容受到國際知名出版社Springer和評審專家認可,英文版同步輸出,以饗讀者。

強化學習:原理與Python實戰 內容簡介

本書從原理和實戰兩個方面介紹了強化學習。原理方面,深入介紹了主流強化學習理論和算法,覆蓋資格跡等經典算法和MuZero等深度強化學習算法;實戰方面,每章都配套了編程案例,以方便讀者學習。 全書從邏輯上分為三部分。第1章:從零開始介紹強化學習的背景知識,介紹環境庫Gym的使用。 第2~15章:基于折扣獎勵離散時間Markov決策過程模型,介紹強化學習的主干理論和常見算法。采用數學語言推導強化學習的基礎理論,進而在理論的基礎上講解算法,并為算法提供配套代碼實現;A理論的講解突出主干部分,算法講解全面覆蓋主流的強化學習算法,包括經典的非深度強化學習算法和近年流行的強化學習算法。Python實現和算法講解一一對應,還給出了深度強化學習算法的TensorFlow和PyTorch對照實現。 第16章:介紹其他強化學習模型,包括平均獎勵模型、連續時間模型、非齊次模型、半Markov模型、部分可觀測模型等,以便更好了解強化學習研究的全貌。

強化學習:原理與Python實戰 目錄

目錄
數學符號表
前言
第1章初識強化學習111強化學習及其關鍵元素1
1.2強化學習的應用3
1.3智能體/環境接口4
1.4強化學習的分類6
1.4.1按任務分類6
1.4.2按算法分類8
1.5強化學習算法的性能指標9
1.6案例:基于Gym庫的智能體/環境接口10
1.6.1安裝Gym庫11
1.6.2使用Gym庫11
1.6.3小車上山13
1.7本章小結18
1.8練習與模擬面試19
第2章Markov決策過程2121Markov決策過程模型21
2.1.1離散時間Markov決策過程21
2.1.2環境與動力24
2.1.3策略26
2.1.4帶折扣的回報26
2.2價值27
2.2.1價值的定義28
2.2.2價值的性質28
2.2.3策略的偏序和改進34
2.3帶折扣的分布35
2.3.1帶折扣的分布的定義35
2.3.2帶折扣的分布的性質37
2.3.3帶折扣的分布和策略的等價性39
2.3.4帶折扣的分布下的期望40
2.4*優策略與*優價值41
2.4.1從*優策略到*優價值41
2.4.2*優策略的存在性42
2.4.3*優價值的性質與Bellman
*優方程43
2.4.4用線性規劃法求解*優價值48
2.4.5用*優價值求解*優策略51
2.5案例:懸崖尋路52
2.5.1使用環境52
2.5.2求解策略價值53
2.5.3求解*優價值54
2.5.4求解*優策略55
2.6本章小結55
2.7練習與模擬面試57
第3章有模型數值迭代5931Bellman算子及其性質59
3.2有模型策略迭代64
3.2.1策略評估65
3.2.2策略改進66
3.2.3策略迭代67
3.3價值迭代68
3.4自益與動態規劃69
3.5案例:冰面滑行70
3.5.1使用環境71
3.5.2有模型策略迭代求解73
3.5.3有模型價值迭代求解76
3.6本章小結76
3.7練習與模擬面試77
第4章回合更新價值迭代78
4.1同策回合更新79
4.1.1同策回合更新策略評估79
4.1.2帶起始探索的同策回合更新84
4.1.3基于柔性策略的同策回合更新86
4.2異策回合更新89
4.2.1重要性采樣89
4.2.2異策回合更新策略評估92
4.2.3異策回合更新*優策略求解93
4.3實驗:21點游戲94
4.3.1使用環境94
4.3.2同策策略評估96
4.3.3同策*優策略求解98
4.3.4異策策略評估101
4.3.5異策*優策略求解102
4.4本章小結103
4、5練習與模擬面試104
第5章時序差分價值迭代10651時序差分目標106
5.2同策時序差分更新109
5.2.1時序差分更新策略評估109
5.2.2SARSA算法113
5.2.3期望SARSA算法115
5.3異策時序差分更新117
5.3.1基于重要性采樣的異策算法117
5.3.2Q學習119
5.3.3雙重Q學習120
5.4資格跡121
5.4.1λ回報122
5.4.2TD(λ)算法123
5.5案例:的士調度125
5.5.1使用環境126
5.5.2同策時序差分學習127
5.5.3異策時序差分學習130
5.5.4資格跡學習132
56本章小結134
57練習與模擬面試135
第6章函數近似方法137
6.1函數近似原理138
6.2基于梯度的參數更新139
6.2.1隨機梯度下降139
6.2.2半梯度下降141
6.2.3帶資格跡的半梯度下降142
6.3函數近似的收斂性144
6.3.1收斂的條件144
6.3.2Baird反例145
6.4深度Q網絡147
6.4.1經驗回放148
6.4.2目標網絡151
6.4.3雙重深度Q網絡152
6.4.4決斗深度Q網絡153
6.5案例:小車上山154
6.5.1使用環境155
6.5.2用線性近似求解*優策略156
6.5.3用深度Q網絡求解*優策略161
6.6本章小結172
6.7練習與模擬面試172
第7章回合更新策略梯度方法17471策略梯度算法的原理174
7.1.1函數近似策略174
7.1.2策略梯度定理175
7.1.3策略梯度和極大似然估計的關系179
7.2同策回合更新策略梯度算法179
7.2.1簡單的策略梯度算法180
7.2.2帶基線的簡單策略梯度算法180
7.3異策回合更新策略梯度算法182
7.4案例:車桿平衡183
7.4.1用同策策略梯度算法求解*優策略184
7.4.2用異策策略梯度算法求解*優策略189
7.5本章小結195
7.6練習與模擬面試196
第8章執行者/評論者197
8.1執行者/評論者方法197
8.2同策執行者/評論者算法198
8.2.1動作價值執行者/評論者算法198
8.2.2優勢執行者/評論者算法199
8.2.3帶資格跡的執行者/評論者算法200
8.3基于代理優勢的同策算法201
8.3.1性能差別引理201
8.3.2代理優勢202
8.3.3鄰近策略優化203
8.4自然梯度和信賴域算法205
8.4.1KL散度與Fisher信息矩陣206
8.4.2代理優勢的信賴域208
8.4.3自然策略梯度算法209
8.4.4信賴域策略優化212
8.5重要性采樣異策執行者/評論者算法213
8.6案例:雙節倒立擺214
8.6.1用同策執行者/評論者算法求解*優策略216
8.6.2用基于代理優勢的同策算法求解*優策略226
8.6.3用自然策略梯度和信賴域算法求解*優策略230
8.6.4用重要性采樣異策執行者/評論者算法求解*優策略242
8.7本章小結246
8.8練習與模擬面試247
第9章連續動作空間的確定性策略248
9.1確定性策略梯度定理248
9.2同策確定性算法250
9.3異策確定性算法251
9.3.1基本的異策確定性執行者/評論者算法251
9.3.2深度確定性策略梯度算法253
9.3.3雙重延遲深度確定性策略梯度算法254
9.4探索過程255
9.5案例:倒立擺的控制256
9.5.1用深
展開全部

強化學習:原理與Python實戰 作者簡介

肖智清 強化學習一線研發人員,清華大學工學博士。在國內外出版多本人工智能專著,在知名期刊和會議上發表多篇第一作者論文。他是開源項目Gym的源碼貢獻者,并在國內外多項程序設計和數據科學競賽上獲得冠軍。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 电机铸铝配件_汽车压铸铝合金件_发动机压铸件_青岛颖圣赫机械有限公司 | 辐射仪|辐射检测仪|辐射巡测仪|个人剂量报警仪|表面污染检测仪|辐射报警仪|辐射防护网 | 热镀锌槽钢|角钢|工字钢|圆钢|H型钢|扁钢|花纹板-天津千百顺钢铁贸易有限公司 | LZ-373测厚仪-华瑞VOC气体检测仪-个人有毒气体检测仪-厂家-深圳市深博瑞仪器仪表有限公司 | 捆扎机_气动捆扎机_钢带捆扎机-沈阳海鹞气动钢带捆扎机公司 | 桁架机器人_桁架机械手_上下料机械手_数控车床机械手-苏州清智科技装备制造有限公司 | 精密钢管,冷拔精密无缝钢管,精密钢管厂,精密钢管制造厂家,精密钢管生产厂家,山东精密钢管厂家 | 洁净棚-洁净工作棚-无菌室-净化工程公司_北京卫护科技有限公司 | 金属回收_废铜废铁回收_边角料回收_废不锈钢回收_废旧电缆线回收-广东益夫金属回收公司 | 上海办公室装修,办公楼装修设计,办公空间设计,企业展厅设计_写艺装饰公司 | 西门子伺服控制器维修-伺服驱动放大器-828D数控机床维修-上海涌迪 | 东莞韩创-专业绝缘骨架|马达塑胶零件|塑胶电机配件|塑封电机骨架厂家 | 最新范文网_实用的精品范文美文网 | 私人别墅家庭影院系统_家庭影院音响_家庭影院装修设计公司-邦牛影音 | 太空舱_民宿太空舱厂家_移动房屋太空舱价格-豪品建筑 | 阴离子聚丙烯酰胺价格_PAM_高分子聚丙烯酰胺厂家-河南泰航净水材料有限公司 | 齿轮减速机_齿轮减速电机-VEMT蜗轮蜗杆减速机马达生产厂家瓦玛特传动瑞环机电 | 武汉刮刮奖_刮刮卡印刷厂_为企业提供门票印刷_武汉合格证印刷_现金劵代金券印刷制作 - 武汉泽雅印刷有限公司 | 【灵硕展览集团】展台展会设计_展览会展台搭建_展览展示设计一站式服务公司 | 石栏杆_青石栏杆_汉白玉栏杆_花岗岩栏杆 - 【石雕之乡】点石石雕石材厂 | 硫化罐-电加热蒸汽硫化罐生产厂家-山东鑫泰鑫智能装备有限公司 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 小型UV打印机-UV平板打印机-大型uv打印机-UV打印机源头厂家 |松普集团 | 熔体泵_熔体出料泵_高温熔体泵-郑州海科熔体泵有限公司 | 广州云仓代发-昊哥云仓专业电商仓储托管外包代发货服务 | 中控室大屏幕-上海亿基自动化控制系统工程有限公司 | 原子吸收设备-国产分光光度计-光谱分光光度计-上海光谱仪器有限公司 | 电销卡 防封电销卡 不封号电销卡 电话销售卡 白名单电销卡 电销系统 外呼系统 | SMC-SMC电磁阀-日本SMC气缸-SMC气动元件展示网 | 杭州实验室尾气处理_实验台_实验室家具_杭州秋叶实验设备有限公司 | 耐酸碱胶管_耐腐蚀软管总成_化学品输送软管_漯河利通液压科技耐油耐磨喷砂软管|耐腐蚀化学软管 | 新疆十佳旅行社_新疆旅游报价_新疆自驾跟团游-新疆中西部国际旅行社 | 手机游戏_热门软件app下载_好玩的安卓游戏下载基地-吾爱下载站 | 快速卷帘门_硬质快速卷帘门-西朗门业 | 锌合金压铸-铝合金压铸厂-压铸模具-冷挤压-誉格精密压铸 | 远程会诊系统-手术示教系统【林之硕】医院远程医疗平台 | 太阳能发电系统-太阳能逆变器,控制器-河北沐天太阳能科技首页 | 深圳离婚律师咨询「在线免费」华荣深圳婚姻律师事务所专办离婚纠纷案件 | 阜阳成人高考_阜阳成考报名时间_安徽省成人高考网 | 防水套管|柔性防水套管|伸缩器|伸缩接头|传力接头-河南伟创管道 防水套管_柔性防水套管_刚性防水套管-巩义市润达管道设备制造有限公司 | 二手色谱仪器,十万分之一分析天平,蒸发光检测器,电位滴定仪-湖北捷岛科学仪器有限公司 |