中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)

包郵 強(qiáng)化學(xué)習(xí)與最優(yōu)控制

出版社:清華大學(xué)出版社出版時(shí)間:2024-04-01
開(kāi)本: 其他 頁(yè)數(shù): 284
中 圖 價(jià):¥97.3(7.0折) 定價(jià)  ¥139.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車 收藏
開(kāi)年大促, 全場(chǎng)包郵
?新疆、西藏除外
本類五星書更多>

強(qiáng)化學(xué)習(xí)與最優(yōu)控制 版權(quán)信息

強(qiáng)化學(xué)習(xí)與最優(yōu)控制 本書特色

本書通過(guò)*優(yōu)控制與動(dòng)態(tài)規(guī)劃的視角介紹和解讀強(qiáng)化學(xué)習(xí),對(duì)不同領(lǐng)域中給出的類似的重要概念加以梳理澄清,并將許多行之有效的方法置于統(tǒng)一的理論框架中。這有助于讀者宏觀、全面地理解該學(xué)科的經(jīng)典理論與前沿研究,進(jìn)而激發(fā)相關(guān)的研究興趣。

強(qiáng)化學(xué)習(xí)與最優(yōu)控制 內(nèi)容簡(jiǎn)介

本書的目的是考慮大型且具有挑戰(zhàn)性的多階段決策問(wèn)題,這些問(wèn)題原則上可以通過(guò)動(dòng)態(tài)規(guī)劃和**控制來(lái)解決,但它們的準(zhǔn)確解決方案在計(jì)算上是難以處理的。本書討論依賴于近似的解決方法,以產(chǎn)生具有足夠性能的次優(yōu)策略。這些方法統(tǒng)稱為增強(qiáng)學(xué)習(xí),也可以叫做近似動(dòng)態(tài)規(guī)劃和神經(jīng)動(dòng)態(tài)規(guī)劃等。 本書的主題產(chǎn)生于**控制和人工智能思想的相互作用。本書的目的之一是探索這兩個(gè)領(lǐng)域之間的共同邊界,并架設(shè)一座具有任一領(lǐng)域背景的專業(yè)人士都可以訪問(wèn)的橋梁。

強(qiáng)化學(xué)習(xí)與最優(yōu)控制 目錄

第 1 章 精確動(dòng)態(tài)規(guī)劃 1
1.1 確定性動(dòng)態(tài)規(guī)劃 1
1.1.1 確定性問(wèn)題. 1
1.1.2 動(dòng)態(tài)規(guī)劃算法 5
1.1.3 值空間的近似 9
1.2 隨機(jī)動(dòng)態(tài)規(guī)劃 10
1.3 例子、變形和簡(jiǎn)化. 13
1.3.1 確定性*短路徑問(wèn)題 14
1.3.2 確定性離散優(yōu)化問(wèn)題 15
1.3.3 含終止?fàn)顟B(tài)的問(wèn)題 18
1.3.4 預(yù)報(bào) 20
1.3.5 含不可控狀態(tài)組分的問(wèn)題 21
1.3.6 不完整的狀態(tài)信息和置信狀態(tài) 25
1.3.7 線性二次型*優(yōu)控制 28
1.3.8 含未知參數(shù)的系統(tǒng)——自適應(yīng)控制 30
1.4 強(qiáng)化學(xué)習(xí)與*優(yōu)控制——一些術(shù)語(yǔ) 32
1.5 注釋和資源 34
第 2 章 值空間的近似 36
2.1 強(qiáng)化學(xué)習(xí)中的近似方法. 36
2.1.1 值空間近似的一般問(wèn)題 39
2.1.2 離線與在線方法 40
2.1.3 針對(duì)前瞻*小化的基于模型的簡(jiǎn)化 40
2.1.4 無(wú)模型的離線 Q 因子近似 41
2.1.5 基于值空間近似的策略空間近似 43
2.1.6 值空間的近似何時(shí)有效 44
2.2 多步前瞻. 45
2.2.1 多步前瞻與滾動(dòng)時(shí)域 46
2.2.2 多步前瞻與確定性問(wèn)題 47
2.3 問(wèn)題近似. 48
2.3.1 強(qiáng)制解耦 49
2.3.2 隨機(jī)問(wèn)題中的近似——確定性等價(jià)控制 . 54
2.4 策略前展與策略改進(jìn)原則. 58
2.4.1 針對(duì)確定性離散優(yōu)化問(wèn)題的在線策略前展 59
2.4.2 隨機(jī)策略前展與蒙特卡洛樹(shù)搜索 68
2.4.3 基于專家的策略前展 75
2.5 針對(duì)確定性無(wú)窮空間問(wèn)題的在線策略前展——優(yōu)化類啟發(fā)式方法 76
2.5.1 模型預(yù)測(cè)控制 77
2.5.2 目標(biāo)管道與約束可控性條件 82
2.5.3 模型預(yù)測(cè)控制的變形 85
2.6 注釋與資源 86
第 3 章 參數(shù)化近似 90
3.1 近似架構(gòu). 90
3.1.1 基于特征的線性與非線性參數(shù)架構(gòu) 90
3.1.2 訓(xùn)練線性與非線性架構(gòu) 95
3.1.3 增量梯度與牛頓法 96
3.2 神經(jīng)網(wǎng)絡(luò). 107
3.2.1 訓(xùn)練神經(jīng)網(wǎng)絡(luò). 109
3.2.2 多層與深度神經(jīng)網(wǎng)絡(luò) 112
3.3 連續(xù)動(dòng)態(tài)規(guī)劃近似 115
3.4 Q 因子參數(shù)化近似 116
3.5 基于分類的策略空間參數(shù)化近似 119
3.6 注釋與資源 122
第 4 章 無(wú)窮階段動(dòng)態(tài)規(guī)劃 124
4.1 無(wú)窮階段問(wèn)題概論 124
4.2 隨機(jī)*短路徑問(wèn)題 126
4.3 折扣問(wèn)題. 133
4.4 半馬爾可夫折扣問(wèn)題 137
4.5 異步分布式值迭代 141
4.6 策略迭代. 144
4.6.1 精確策略迭代. 144
4.6.2 樂(lè)觀與多步前瞻策略迭代 148
4.6.3 針對(duì) Q 因子的策略迭代 149
4.7 注釋和資源 151
4.8 附錄:數(shù)學(xué)分析. 152
4.8.1 隨機(jī)*短路徑問(wèn)題的相關(guān)證明 152
4.8.2 折扣問(wèn)題的相關(guān)證明 157
4.8.3 精確與樂(lè)觀策略迭代的收斂性 157
第 5 章 無(wú)窮階段強(qiáng)化學(xué)習(xí) 160
5.1 值空間近似——性能界 160
5.1.1 有限前瞻. 162
5.1.2 策略前展. 164
5.1.3 近似策略迭代. 167
5.2 擬合值迭代 169
5.3 采用參數(shù)化近似的基于仿真的策略迭代 173
5.3.1 自主學(xué)習(xí)與執(zhí)行–批評(píng)方法 173
5.3.2 一種基于模型的變體 174
5.3.3 一種無(wú)模型的變體. 176
5.3.4 實(shí)施參數(shù)化策略迭代的挑戰(zhàn). 177
5.3.5 近似策略迭代的收斂問(wèn)題——振蕩 180
5.4 Q 學(xué)習(xí) 183
5.5 附加方法——時(shí)序差分 185
5.6 精確與近似線性規(guī)劃 194
5.7 策略空間近似. 196
5.7.1 通過(guò)費(fèi)用優(yōu)化執(zhí)行訓(xùn)練——策略梯度、交叉熵以及隨機(jī)搜索方法 199
5.7.2 基于專家的監(jiān)督學(xué)習(xí) 207
5.7.3 近似策略迭代、策略前展與策略空間近似. 208
5.8 注釋和資源 212
5.9 附錄:數(shù)學(xué)分析. 216
5.9.1 多步前瞻的性能界. 216
5.9.2 策略前展的性能界. 218
5.9.3 近似策略迭代的性能界. 220
第 6 章 聚集 223
6.1 包含代表狀態(tài)的聚集 223
6.1.1 連續(xù)控制空間離散化 227
6.1.2 連續(xù)狀態(tài)空間——部分可觀察馬爾可夫決策問(wèn)題的離散化 228
6.2 包含代表特征的聚集 230
6.2.1 硬聚集與誤差界 232
6.2.2 采用特征的聚集 234
6.3 求解聚集問(wèn)題的方法 237
6.3.1 基于仿真的策略迭代 238
6.3.2 基于仿真的值迭代. 240
6.4 包含神經(jīng)網(wǎng)絡(luò)的基于特征的聚集 241
6.5 偏心聚集. 242
6.6 注釋和資源 244
6.7 附錄:數(shù)學(xué)分析. 247
參考文獻(xiàn) 250
展開(kāi)全部

強(qiáng)化學(xué)習(xí)與最優(yōu)控制 作者簡(jiǎn)介

李宇超,瑞典皇家理工學(xué)院決策與控制專業(yè)博士在讀。博士期間研究課題為強(qiáng)化學(xué)習(xí),最優(yōu)控制,以及相關(guān)理論在智能交通領(lǐng)域的應(yīng)用。他于2015年在哈爾濱工業(yè)大學(xué)機(jī)械制造及其自動(dòng)化專業(yè)獲得本科學(xué)位,并在1年后從現(xiàn)就讀學(xué)院的機(jī)電一體化專業(yè)獲得碩士學(xué)位。

商品評(píng)論(0條)
暫無(wú)評(píng)論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 宁夏活性炭_防护活性炭_催化剂载体炭-宁夏恒辉活性炭有限公司 | 心肺复苏模拟人|医学模型|急救护理模型|医学教学模型上海康人医学仪器设备有限公司 | NM-02立式吸污机_ZHCS-02软轴刷_二合一吸刷软轴刷-厦门地坤科技有限公司 | 胀套-锁紧盘-风电锁紧盘-蛇形联轴器「厂家」-瑞安市宝德隆机械配件有限公司 | 半容积式换热器_北京浮动盘管换热器厂家|北京亿丰上达 | 搪玻璃冷凝器_厂家-越宏化工设备 | 高铝轻质保温砖_刚玉莫来石砖厂家_轻质耐火砖价格 | 无线遥控更衣吊篮_IC卡更衣吊篮_电动更衣吊篮配件_煤矿更衣吊篮-力得电子 | 铝机箱_铝外壳加工_铝外壳厂家_CNC散热器加工-惠州市铂源五金制品有限公司 | H型钢切割机,相贯线切割机,数控钻床,数控平面钻,钢结构设备,槽钢切割机,角钢切割机,翻转机,拼焊矫一体机 | 仿清水混凝土_清水混凝土装修_施工_修饰_保护剂_修补_清水混凝土修复-德州忠岭建筑装饰工程 | 上海公众号开发-公众号代运营公司-做公众号的公司企业服务商-咏熠软件 | 电动葫芦|防爆钢丝绳电动葫芦|手拉葫芦-保定大力起重葫芦有限公司 | 哈希余氯测定仪,分光光度计,ph在线监测仪,浊度测定仪,试剂-上海京灿精密机械有限公司 | 防火阀、排烟防火阀、电动防火阀产品生产销售商-德州凯亿空调设备有限公司 | 防火卷帘门价格-聊城一维工贸特级防火卷帘门厂家▲ | 超声骨密度仪-动脉硬化检测仪器-人体成分分析仪厂家/品牌/价格_南京科力悦 | 桥架-槽式电缆桥架-镀锌桥架-托盘式桥架 - 上海亮族电缆桥架制造有限公司 | 特种阀门-调节阀门-高温熔盐阀-镍合金截止阀-钛阀门-高温阀门-高性能蝶阀-蒙乃尔合金阀门-福建捷斯特阀门制造有限公司 | 编织人生 - 权威手工编织网站,编织爱好者学习毛衣编织的门户网站,织毛衣就上编织人生网-编织人生 | 12cr1mov无缝钢管切割-15crmog无缝钢管切割-40cr无缝钢管切割-42crmo无缝钢管切割-Q345B无缝钢管切割-45#无缝钢管切割 - 聊城宽达钢管有限公司 | 液氨泵,液化气泵-淄博「亚泰」燃气设备制造有限公司 | 深圳市东信高科自动化设备有限公司 | 机构创新组合设计实验台_液压实验台_气动实训台-戴育教仪厂 | 包装机传感器-搅拌站传感器-山东称重传感器厂家-济南泰钦电气 | 万博士范文网-您身边的范文参考网站Vanbs.com | 船用泵,船用离心泵,船用喷射泵,泰州隆华船舶设备有限公司 | 锌合金压铸-铝合金压铸厂-压铸模具-冷挤压-誉格精密压铸 | 集装箱标准养护室-集装箱移动式养护室-广州璟业试验仪器有限公司 | 成都网站建设制作_高端网站设计公司「做网站送优化推广」 | 威客电竞(vk·game)·电子竞技赛事官网 | 富森高压水枪-柴油驱动-养殖场高压清洗机-山东龙腾环保科技有限公司 | 洛阳装修公司-洛阳整装一站式品牌-福尚云宅装饰 | LINK FASHION 童装·青少年装展 河南卓美创业科技有限公司-河南卓美防雷公司-防雷接地-防雷工程-重庆避雷针-避雷器-防雷检测-避雷带-避雷针-避雷塔、机房防雷、古建筑防雷等-山西防雷公司 | 深圳工程师职称评定条件及流程_深圳职称评审_职称评审-职称网 | 电池高低温试验箱-气态冲击箱-双层电池防爆箱|简户百科 | 玉米深加工机械,玉米加工设备,玉米加工机械等玉米深加工设备制造商-河南成立粮油机械有限公司 | 智慧钢琴-电钢琴-便携钢琴-数码钢琴-深圳市特伦斯乐器有限公司 | 蓝莓施肥机,智能施肥机,自动施肥机,水肥一体化项目,水肥一体机厂家,小型施肥机,圣大节水,滴灌施工方案,山东圣大节水科技有限公司官网17864474793 | 科研ELISA试剂盒,酶联免疫检测试剂盒,昆虫_植物ELISA酶免试剂盒-上海仁捷生物科技有限公司 | 酒糟烘干机-豆渣烘干机-薯渣烘干机-糟渣烘干设备厂家-焦作市真节能环保设备科技有限公司 |