包郵 強(qiáng)化學(xué)習(xí)與最優(yōu)控制
-
>
全國(guó)計(jì)算機(jī)等級(jí)考試最新真考題庫(kù)模擬考場(chǎng)及詳解·二級(jí)MSOffice高級(jí)應(yīng)用
-
>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
強(qiáng)化學(xué)習(xí)與最優(yōu)控制 版權(quán)信息
- ISBN:9787302656449
- 條形碼:9787302656449 ; 978-7-302-65644-9
- 裝幀:平裝-膠訂
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類:>
強(qiáng)化學(xué)習(xí)與最優(yōu)控制 本書特色
本書通過(guò)*優(yōu)控制與動(dòng)態(tài)規(guī)劃的視角介紹和解讀強(qiáng)化學(xué)習(xí),對(duì)不同領(lǐng)域中給出的類似的重要概念加以梳理澄清,并將許多行之有效的方法置于統(tǒng)一的理論框架中。這有助于讀者宏觀、全面地理解該學(xué)科的經(jīng)典理論與前沿研究,進(jìn)而激發(fā)相關(guān)的研究興趣。
強(qiáng)化學(xué)習(xí)與最優(yōu)控制 內(nèi)容簡(jiǎn)介
本書的目的是考慮大型且具有挑戰(zhàn)性的多階段決策問(wèn)題,這些問(wèn)題原則上可以通過(guò)動(dòng)態(tài)規(guī)劃和**控制來(lái)解決,但它們的準(zhǔn)確解決方案在計(jì)算上是難以處理的。本書討論依賴于近似的解決方法,以產(chǎn)生具有足夠性能的次優(yōu)策略。這些方法統(tǒng)稱為增強(qiáng)學(xué)習(xí),也可以叫做近似動(dòng)態(tài)規(guī)劃和神經(jīng)動(dòng)態(tài)規(guī)劃等。 本書的主題產(chǎn)生于**控制和人工智能思想的相互作用。本書的目的之一是探索這兩個(gè)領(lǐng)域之間的共同邊界,并架設(shè)一座具有任一領(lǐng)域背景的專業(yè)人士都可以訪問(wèn)的橋梁。
強(qiáng)化學(xué)習(xí)與最優(yōu)控制 目錄
1.1 確定性動(dòng)態(tài)規(guī)劃 1
1.1.1 確定性問(wèn)題. 1
1.1.2 動(dòng)態(tài)規(guī)劃算法 5
1.1.3 值空間的近似 9
1.2 隨機(jī)動(dòng)態(tài)規(guī)劃 10
1.3 例子、變形和簡(jiǎn)化. 13
1.3.1 確定性*短路徑問(wèn)題 14
1.3.2 確定性離散優(yōu)化問(wèn)題 15
1.3.3 含終止?fàn)顟B(tài)的問(wèn)題 18
1.3.4 預(yù)報(bào) 20
1.3.5 含不可控狀態(tài)組分的問(wèn)題 21
1.3.6 不完整的狀態(tài)信息和置信狀態(tài) 25
1.3.7 線性二次型*優(yōu)控制 28
1.3.8 含未知參數(shù)的系統(tǒng)——自適應(yīng)控制 30
1.4 強(qiáng)化學(xué)習(xí)與*優(yōu)控制——一些術(shù)語(yǔ) 32
1.5 注釋和資源 34
第 2 章 值空間的近似 36
2.1 強(qiáng)化學(xué)習(xí)中的近似方法. 36
2.1.1 值空間近似的一般問(wèn)題 39
2.1.2 離線與在線方法 40
2.1.3 針對(duì)前瞻*小化的基于模型的簡(jiǎn)化 40
2.1.4 無(wú)模型的離線 Q 因子近似 41
2.1.5 基于值空間近似的策略空間近似 43
2.1.6 值空間的近似何時(shí)有效 44
2.2 多步前瞻. 45
2.2.1 多步前瞻與滾動(dòng)時(shí)域 46
2.2.2 多步前瞻與確定性問(wèn)題 47
2.3 問(wèn)題近似. 48
2.3.1 強(qiáng)制解耦 49
2.3.2 隨機(jī)問(wèn)題中的近似——確定性等價(jià)控制 . 54
2.4 策略前展與策略改進(jìn)原則. 58
2.4.1 針對(duì)確定性離散優(yōu)化問(wèn)題的在線策略前展 59
2.4.2 隨機(jī)策略前展與蒙特卡洛樹(shù)搜索 68
2.4.3 基于專家的策略前展 75
2.5 針對(duì)確定性無(wú)窮空間問(wèn)題的在線策略前展——優(yōu)化類啟發(fā)式方法 76
2.5.1 模型預(yù)測(cè)控制 77
2.5.2 目標(biāo)管道與約束可控性條件 82
2.5.3 模型預(yù)測(cè)控制的變形 85
2.6 注釋與資源 86
第 3 章 參數(shù)化近似 90
3.1 近似架構(gòu). 90
3.1.1 基于特征的線性與非線性參數(shù)架構(gòu) 90
3.1.2 訓(xùn)練線性與非線性架構(gòu) 95
3.1.3 增量梯度與牛頓法 96
3.2 神經(jīng)網(wǎng)絡(luò). 107
3.2.1 訓(xùn)練神經(jīng)網(wǎng)絡(luò). 109
3.2.2 多層與深度神經(jīng)網(wǎng)絡(luò) 112
3.3 連續(xù)動(dòng)態(tài)規(guī)劃近似 115
3.4 Q 因子參數(shù)化近似 116
3.5 基于分類的策略空間參數(shù)化近似 119
3.6 注釋與資源 122
第 4 章 無(wú)窮階段動(dòng)態(tài)規(guī)劃 124
4.1 無(wú)窮階段問(wèn)題概論 124
4.2 隨機(jī)*短路徑問(wèn)題 126
4.3 折扣問(wèn)題. 133
4.4 半馬爾可夫折扣問(wèn)題 137
4.5 異步分布式值迭代 141
4.6 策略迭代. 144
4.6.1 精確策略迭代. 144
4.6.2 樂(lè)觀與多步前瞻策略迭代 148
4.6.3 針對(duì) Q 因子的策略迭代 149
4.7 注釋和資源 151
4.8 附錄:數(shù)學(xué)分析. 152
4.8.1 隨機(jī)*短路徑問(wèn)題的相關(guān)證明 152
4.8.2 折扣問(wèn)題的相關(guān)證明 157
4.8.3 精確與樂(lè)觀策略迭代的收斂性 157
第 5 章 無(wú)窮階段強(qiáng)化學(xué)習(xí) 160
5.1 值空間近似——性能界 160
5.1.1 有限前瞻. 162
5.1.2 策略前展. 164
5.1.3 近似策略迭代. 167
5.2 擬合值迭代 169
5.3 采用參數(shù)化近似的基于仿真的策略迭代 173
5.3.1 自主學(xué)習(xí)與執(zhí)行–批評(píng)方法 173
5.3.2 一種基于模型的變體 174
5.3.3 一種無(wú)模型的變體. 176
5.3.4 實(shí)施參數(shù)化策略迭代的挑戰(zhàn). 177
5.3.5 近似策略迭代的收斂問(wèn)題——振蕩 180
5.4 Q 學(xué)習(xí) 183
5.5 附加方法——時(shí)序差分 185
5.6 精確與近似線性規(guī)劃 194
5.7 策略空間近似. 196
5.7.1 通過(guò)費(fèi)用優(yōu)化執(zhí)行訓(xùn)練——策略梯度、交叉熵以及隨機(jī)搜索方法 199
5.7.2 基于專家的監(jiān)督學(xué)習(xí) 207
5.7.3 近似策略迭代、策略前展與策略空間近似. 208
5.8 注釋和資源 212
5.9 附錄:數(shù)學(xué)分析. 216
5.9.1 多步前瞻的性能界. 216
5.9.2 策略前展的性能界. 218
5.9.3 近似策略迭代的性能界. 220
第 6 章 聚集 223
6.1 包含代表狀態(tài)的聚集 223
6.1.1 連續(xù)控制空間離散化 227
6.1.2 連續(xù)狀態(tài)空間——部分可觀察馬爾可夫決策問(wèn)題的離散化 228
6.2 包含代表特征的聚集 230
6.2.1 硬聚集與誤差界 232
6.2.2 采用特征的聚集 234
6.3 求解聚集問(wèn)題的方法 237
6.3.1 基于仿真的策略迭代 238
6.3.2 基于仿真的值迭代. 240
6.4 包含神經(jīng)網(wǎng)絡(luò)的基于特征的聚集 241
6.5 偏心聚集. 242
6.6 注釋和資源 244
6.7 附錄:數(shù)學(xué)分析. 247
參考文獻(xiàn) 250
強(qiáng)化學(xué)習(xí)與最優(yōu)控制 作者簡(jiǎn)介
李宇超,瑞典皇家理工學(xué)院決策與控制專業(yè)博士在讀。博士期間研究課題為強(qiáng)化學(xué)習(xí),最優(yōu)控制,以及相關(guān)理論在智能交通領(lǐng)域的應(yīng)用。他于2015年在哈爾濱工業(yè)大學(xué)機(jī)械制造及其自動(dòng)化專業(yè)獲得本科學(xué)位,并在1年后從現(xiàn)就讀學(xué)院的機(jī)電一體化專業(yè)獲得碩士學(xué)位。
- >
我從未如此眷戀人間
- >
月亮與六便士
- >
二體千字文
- >
巴金-再思錄
- >
山海經(jīng)
- >
李白與唐代文化
- >
我與地壇
- >
月亮虎