中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊

包郵 強化學(xué)習(xí)

作者:余欣航
出版社:電子工業(yè)出版社出版時間:2024-04-01
開本: 16開 頁數(shù): 280
中 圖 價:¥49.9(7.1折) 定價  ¥69.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學(xué)習(xí) 版權(quán)信息

強化學(xué)習(xí) 內(nèi)容簡介

本書詳細(xì)介紹了強化學(xué)習(xí)的理論推導(dǎo)、算法細(xì)節(jié)。全書共12章,包括強化學(xué)習(xí)概述、馬爾可夫決策過程、退化的強化學(xué)習(xí)問題、環(huán)境已知的強化學(xué)習(xí)問題、基于價值的強化學(xué)習(xí)算法、基于策略的強化學(xué)習(xí)算法、AC型算法、基于模型的強化學(xué)習(xí)算法等相關(guān)知識。本書系統(tǒng)性強、概念清晰,內(nèi)容簡明通俗。除了側(cè)重于理論推導(dǎo),本書還提供了許多便于讀者理解的例子,以及大量被實踐證明有效的算法技巧,旨在幫助讀者進一步了解強化學(xué)習(xí)領(lǐng)域的相關(guān)知識,提升其現(xiàn)實中的工程能力。本書可作為高等院校數(shù)學(xué)、計算機、人工智能等相關(guān)專業(yè)的強化學(xué)習(xí)教材,但需要有機器學(xué)習(xí)、深度學(xué)習(xí)等前置課程作為基礎(chǔ)。

強化學(xué)習(xí) 目錄

第1章 緒論 1 1.1 強化學(xué)習(xí)是什么 1 1.2 強化學(xué)習(xí)的基本思想 3 1.2.1 從環(huán)境中產(chǎn)生數(shù)據(jù) 3 1.2.2 求解*優(yōu)策略 5 1.3 強化學(xué)習(xí)為什么重要 6 1.4 本書內(nèi)容介紹 9 參考文獻 10 第2章 馬爾可夫決策過程 11 2.1 馬爾可夫過程 11 2.2 馬爾可夫決策過程的定義 12 2.3 馬爾可夫過程與馬爾可夫決策過程的對比 15 2.4 馬爾可夫決策過程的分類 15 2.4.1 馬爾可夫決策過程是否發(fā)生退化 16 2.4.2 環(huán)境是否已知 17 2.4.3 環(huán)境的確定性與隨機性 18 2.4.4 馬爾可夫決策過程的時齊性 20 2.4.5 狀態(tài)與動作的連續(xù)性 22 *2.4.6 時間的連續(xù)性 23 2.4.7 小結(jié) 24 2.5 馬爾可夫決策過程的獎勵函數(shù) 25 思考題 26 參考文獻 27 第3章 退化的強化學(xué)習(xí)問題 28 3.1 盲盒售貨機問題 28 3.2 探索-利用困境 31 3.3 各種不同的探索策略 33 3.3.1 -貪心策略 33 3.3.2 玻爾茲曼探索策略 35 3.3.3 上置信界策略 36 3.4 總結(jié) 36 思考題 37 參考文獻 37 第4章 *優(yōu)控制 38 4.1 基于價值的思想 38 4.1.1 三連棋游戲策略 38 4.1.2 價值的定義 42 4.1.3 基于價值和基于策略 45 4.1.4 小結(jié) 46 思考題 47 4.2 動態(tài)規(guī)劃 47 4.2.1 策略迭代法 47 4.2.2 雅可比迭代法 48 4.2.3 值迭代法 50 4.2.4 軟提升 51 4.2.5 小結(jié) 53 思考題 54 4.3 LQR控制 55 4.3.1 基本LQR控制問題 55 4.3.2 LQR控制器 56 *4.3.3 環(huán)境隨機的LQR控制問題 59 4.3.4 iLQR控制器 61 4.3.5 實時規(guī)劃 63 4.3.6 小結(jié) 64 思考題 65 4.4 總結(jié) 65 參考文獻 66 第5章 基于價值的強化學(xué)習(xí) 68 5.1 Q-Learning 68 5.1.1 Q表格 69 5.1.2 產(chǎn)生數(shù)據(jù)集的方式:探索與利用 69 5.1.3 探索策略 71 5.1.4 使用訓(xùn)練數(shù)據(jù)的方法:經(jīng)驗回放 73 思考題 74 5.2 Sarsa 74 5.2.1 基本Sarsa算法 74 5.2.2 同策略與異策略 76 5.2.3 n步Sarsa 77 5.2.4 -return算法 78 *5.2.5 n步Q-Learning 79 思考題 80 5.3 DQN及其變體 81 5.3.1 固定Q目標(biāo)結(jié)構(gòu) 81 5.3.2 雙重DQN 84 5.3.3 優(yōu)先回放機制 86 5.3.4 優(yōu)勢函數(shù) 88 5.3.5 Dueling DQN 90 *5.3.6 Rainbow 92 思考題 94 *5.4 NAF 94 *5.4.1 標(biāo)準(zhǔn)化優(yōu)勢函數(shù) 94 *5.4.2 NAF的訓(xùn)練 96 5.5 總結(jié):基于價值的強化學(xué)習(xí)算法 97 參考文獻 98 第6章 策略函數(shù)與策略梯度 100 6.1 策略函數(shù)與期望回報 100 6.2 無梯度方法 101 6.2.1 增強隨機搜索 102 6.2.2 交叉熵算法 104 6.2.3 進化算法 104 6.3 策略梯度 106 6.3.1 策略網(wǎng)絡(luò)的構(gòu)造 106 6.3.2 策略梯度的計算 108 6.3.3 基本策略梯度算法 111 *6.3.4 動作連續(xù)的策略梯度 113 6.4 策略梯度的訓(xùn)練技巧 114 6.4.1 基準(zhǔn)法 114 6.4.2 經(jīng)驗回放 116 6.4.3 探索策略 118 6.5 總結(jié) 119 思考題 120 參考文獻 121 第7章 AC算法 122 7.1 基本AC算法 122 7.1.1 AC算法的出發(fā)點 122 7.1.2 化簡策略梯度公式 123 7.1.3 AC算法的基本思想 126 7.1.4 單步更新與回合更新 128 思考題 129 7.2 AC算法的訓(xùn)練技巧 129 7.2.1 廣義優(yōu)勢函數(shù)估計 129 7.2.2 控制訓(xùn)練兩個網(wǎng)絡(luò)的步調(diào) 131 7.2.3 ACER 133 思考題 134 7.3 A3C與A2C 135 7.3.1 并行訓(xùn)練 135 7.3.2 A3C 137 7.3.3 A2C 140 思考題 141 參考文獻 141 第8章 AC型算法 143 8.1 自然梯度法 143 8.1.1 牛頓法 144 8.1.2 信賴域方法 146 8.1.3 近似點法 146 *8.1.4 自然策略梯度 147 8.2 TRPO與PPO算法 149 8.2.1 策略提升 149 8.2.2 TRPO算法 151 8.2.3 PPO算法 152 8.2.4 TRPO與PPO算法的訓(xùn)練技巧 155 8.2.5 小結(jié) 156 思考題 157 8.3 DDPG 157 8.3.1 動作連續(xù)問題的網(wǎng)絡(luò)結(jié)構(gòu) 158 8.3.2 從基于價值的角度理解DDPG算法 158 8.3.3 DDPG算法及訓(xùn)練技巧 159 8.3.4 確定策略下的策略梯度 162 8.3.5 從基于策略的角度理解DDPG算法 163 思考題 165 *8.4 Soft AC 165 8.5 總結(jié):基于策略的算法 168 8.5.1 基于價值和基于策略 169 8.5.2 偏差-方差取舍 170 8.5.3 策略的空間 172 8.5.4 訓(xùn)練數(shù)據(jù)的產(chǎn)生與使用 172 8.5.5 小結(jié) 173 參考文獻 174 第9章 基于模型的基本思想 175 9.1 MBRL概述 175 9.2 模型是什么 177 9.2.1 各種模型及其基本用法 178 9.2.2 更多的模型變體 179 9.2.3 模型的一些特點 180 *9.2.4 對模型的理解 185 思考題 188 9.3 如何使用黑盒模型 189 9.3.1 用黑盒模型增廣數(shù)據(jù) 189 9.3.2 權(quán)衡數(shù)據(jù)成本與準(zhǔn)確性 191 9.3.3 黑盒模型的其他用途 193 9.3.4 小結(jié) 194 思考題 194 9.4 如何使用白盒模型 195 9.4.1 用白盒模型輔助進行策略優(yōu)化 195 9.4.2 用白盒模型解*優(yōu)控制 197 9.4.3 小結(jié) 199 思考題 199 參考文獻 200 第10章 基于模型的強化學(xué)習(xí)進階 202 10.1 如何學(xué)習(xí)模型 202 10.1.1 讓學(xué)習(xí)更符合*終目標(biāo) 202 10.1.2 讓學(xué)習(xí)本身成為目標(biāo) 203 10.1.3 以學(xué)習(xí)作為唯一目標(biāo) 206 10.1.4 小結(jié) 209 思考題 209 10.2 世界模型 210 10.2.1 觀察 210 10.2.2 POMDP 212 10.2.3 為世界建模 214 10.2.4 Dreamer 218 思考題 220 10.3 實時規(guī)劃 221 10.3.1 實時規(guī)劃的基本思想 221 10.3.2 蒙特卡洛樹搜索 224 10.3.3 模型預(yù)測控制 230 思考題 233 10.4 MBRL算法思想總結(jié) 233 參考文獻 235 *第11章 連續(xù)時間的*優(yōu)控制 238 11.1 時間連續(xù)的*優(yōu)控制問題 238 11.2 H-J-B方程 239 11.2.1 連續(xù)時間的貝爾曼方程 239 *11.2.2 用H-J-B方程求解LQR控制問題 242 11.2.3 總結(jié):關(guān)于價值的方程 245 思考題 247 *11.3 變分原理 247 11.3.1 從有窮維空間到無窮維空間 247 11.3.2 變分問題 250 *11.3.3 歐拉-拉格朗日方程 252 *11.3.4 用變分法求解*優(yōu)控制問題 255 11.3.5 總結(jié):策略的*優(yōu)化 257 思考題 258 參考文獻 258 *第12章 其他強化學(xué)習(xí)相關(guān)內(nèi)容 259 12.1 獎勵函數(shù)的改造與混合 259 12.2 逆向強化學(xué)習(xí) 261 12.3 層次強化學(xué)習(xí) 262 12.4 離線強化學(xué)習(xí) 264 參考文獻 266
展開全部

強化學(xué)習(xí) 作者簡介

余欣航,本科畢業(yè)于北京大學(xué)數(shù)學(xué)科學(xué)院,廣東交通數(shù)據(jù)中心算法主要負(fù)責(zé)人,using.ai早期合伙人,廣東聯(lián)合電子資深工程師,主要研究方向為機器學(xué)習(xí)、強化學(xué)習(xí)以及其在智能制造、智慧交通等領(lǐng)域的應(yīng)用。科幻作家,代表作為《情詩戀曲》、《疑云龍影》、《一中攻防戰(zhàn)》等

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 范秘书_懂你的范文小秘书 | 新疆乌鲁木齐网站建设-乌鲁木齐网站制作设计-新疆远璨网络 | 彼得逊采泥器-定深式采泥器-电动土壤采样器-土壤样品风干机-常州索奥仪器制造有限公司 | 蜘蛛车-登高车-高空作业平台-高空作业车-曲臂剪叉式升降机租赁-重庆海克斯公司 | 高压无油空压机_无油水润滑空压机_水润滑无油螺杆空压机_无油空压机厂家-科普柯超滤(广东)节能科技有限公司 | 四川实木门_成都实木门 - 蓬溪聚成门业有限公司 | 「安徽双凯」自动售货机-无人售货机-成人用品-自动饮料食品零食售货机 | 整合营销推广|营销网络推广公司|石家庄网站优化推广公司|智营销 好物生环保网、环保论坛 - 环保人的学习交流平台 | 小程序开发公司-小程序制作-微信小程序开发-小程序定制-咏熠软件 | 希望影视-高清影视vip热播电影电视剧免费在线抢先看 | 东莞螺丝|东莞螺丝厂|东莞不锈钢螺丝|东莞组合螺丝|东莞精密螺丝厂家-东莞利浩五金专业紧固件厂家 | 涡轮流量计_LWGY智能气体液体电池供电计量表-金湖凯铭仪表有限公司 | ★济南领跃标识制作公司★济南标识制作,标牌制作,山东标识制作,济南标牌厂 | 中央空调温控器_风机盘管温控器_智能_液晶_三速开关面板-中央空调温控器厂家 | 无锡网站建设_小程序制作_网站设计公司_无锡网络公司_网站制作 | 合肥废气治理设备_安徽除尘设备_工业废气处理设备厂家-盈凯环保 合肥防火门窗/隔断_合肥防火卷帘门厂家_安徽耐火窗_良万消防设备有限公司 | 猪I型/II型胶原-五克隆合剂-细胞冻存培养基-北京博蕾德科技发展有限公司 | 济南品牌包装设计公司_济南VI标志设计公司_山东锐尚文化传播 | 微型气象仪_气象传感器_防爆气象传感器-天合传感器大全 | 全自动不干胶贴标机_套标机-上海今昂贴标机生产厂家 | 喷播机厂家_二手喷播机租赁_水泥浆洒布机-河南青山绿水机电设备有限公司 | 阜阳在线-阜阳综合门户 | 空调风机,低噪声离心式通风机,不锈钢防爆风机,前倾皮带传动风机,后倾空调风机-山东捷风风机有限公司 | Pos机办理_个人商户免费POS机申请-拉卡拉办理网 | 聚氨酯催化剂K15,延迟催化剂SA-1,叔胺延迟催化剂,DBU,二甲基哌嗪,催化剂TMR-2,-聚氨酯催化剂生产厂家 | 超声波破碎仪-均质乳化机(供应杭州,上海,北京,广州,深圳,成都等地)-上海沪析实业有限公司 | 送料机_高速冲床送料机_NC伺服滚轮送料机厂家-东莞市久谐自动化设备有限公司 | 安徽净化板_合肥岩棉板厂家_玻镁板厂家_安徽科艺美洁净科技有限公司 | 进口试验机价格-进口生物材料试验机-西安卡夫曼测控技术有限公司 | 交联度测试仪-湿漏电流测试仪-双85恒温恒湿试验箱-常州市科迈实验仪器有限公司 | 深圳市宏康仪器科技有限公司-模拟高空低压试验箱-高温防爆试验箱-温控短路试验箱【官网】 | 医学动画公司-制作3d医学动画视频-医疗医学演示动画制作-医学三维动画制作公司 | 爱德华真空泵油/罗茨泵维修,爱发科-比其尔产品供应东莞/杭州/上海等全国各地 | 自动螺旋上料机厂家价格-斗式提升机定制-螺杆绞龙输送机-杰凯上料机 | 长沙广告公司_制作,长沙喷绘_发光字_招牌制作_长沙泓润广告官网 长城人品牌官网 | 尼龙PA610树脂,尼龙PA612树脂,尼龙PA1010树脂,透明尼龙-谷骐科技【官网】 | 光栅尺厂家_数显表维修-苏州泽升精密机械 | 美侍宠物-专注宠物狗及宠物猫训练|喂养|医疗|繁育|品种|价格 | 防腐储罐_塑料储罐_PE储罐厂家_淄博富邦滚塑防腐设备科技有限公司 | DDoS安全防护官网-领先的DDoS安全防护服务商 | 金环宇|金环宇电线|金环宇电缆|金环宇电线电缆|深圳市金环宇电线电缆有限公司|金环宇电缆集团 |