-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
動態規劃與最優控制--近似動態規劃(第Ⅱ卷)/信息技術和電氣工程學科國際知名教材中譯本系列 版權信息
- ISBN:9787302561460
- 條形碼:9787302561460 ; 978-7-302-56146-0
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
動態規劃與最優控制--近似動態規劃(第Ⅱ卷)/信息技術和電氣工程學科國際知名教材中譯本系列 本書特色
本書系統性介紹動態規劃,特別是近似動態規劃,包括折扣問題的理論與計算方法、隨機*短路問題、無折扣問題、平均費用問題、折扣與無折扣問題的近似動態規劃等。
動態規劃與最優控制--近似動態規劃(第Ⅱ卷)/信息技術和電氣工程學科國際知名教材中譯本系列 內容簡介
本書系統性介紹動態規劃,特別是近似動態規劃,包括折扣問題的理論與計算方法、隨機很短路問題、無折扣問題、平均費用問題、折扣與無折扣問題的近似動態規劃等。
動態規劃與最優控制--近似動態規劃(第Ⅱ卷)/信息技術和電氣工程學科國際知名教材中譯本系列 目錄
第1章 折扣問題——理論
1.1 總費用*小化——介紹
1.1.1 有限階段動態規劃算法
1.1.2 符號簡寫與單調性
1.1.3 無窮階段結果的預覽
1.1.4 隨機的和依賴歷史的策略
1.2 折扣問題——各階段費用有界
1.3 調度與多柄老虎機問題
1.3.1 項目的指標
1.3.2 項目逐個退出策略
1.4 折扣連續時間問題
1.5 壓縮映射的作用
1.5.1 極大模壓縮
1.5.2 折扣問題——單階段費用無界
1.6 折扣動態規劃的一般形式
1.6.1 壓縮與單調性的基本結論
1.6.2 折扣動態博弈
1.7 注釋、參考文獻及習題
習題
第2章 折扣問題——計算方法
2.1 馬爾可夫決策問題
2.2 值迭代
2.2.1 值迭代的單調誤差界
2.2.2 值迭代的變形
2.2.3 Q-學習
2.3 策略迭代
2.3.1 針對費用的策略迭代
2.3.2 Q-因子的策略迭代
2.3.3 樂觀策略迭代
2.3.4 有限前瞻策略和滾動
2.4 線性規劃方法
2.5 一般折扣問題的方法
2.5.1 采用近似的有限前瞻策略
2.5.2 推廣的值迭代
2.5.3 近似值迭代
2.5.4 推廣的策略迭代
2.5.5 推廣的樂觀策略迭代
2.5.6 近似策略迭代
2.5.7 數學規劃
2.6 異步方法
2.6.1 異步值迭代
2.6.2 異步策略迭代
2.6.3 具有均一不動點的策略迭代
2.7 注釋、資源和習題
習題
第3章 隨機*短路問題
3.1 問題建模
3.2 主要結論
3.3 基本壓縮性質
3.4 值迭代
3.4.1 有限步終止的條件
3.4.2 異步值迭代
3.5 策略迭代
3.5.1 樂觀策略迭代
3.5.2 近似策略迭代
3.5.3 具有不合適策略的策略迭代
3.5.4 具有均一不動點的異步策略迭代
3.6 可數狀態問題
3.7 注釋、資源和習題
習題
第4章 無折扣問題
4.1 每階段的費用無界
4.1.1 主要結論
4.1.2 值迭代
4.1.3 其他計算方法
4.2 線性系統和二次費用
4.3 庫存控制
4.4 *優停止
4.5 *優博弈策略
4.6 連續時間問題——排隊的控制
4.7 非平穩和周期性問題
4.8 注釋、資源和習題
習題
第5章 每階段平均費用問題
5.1 有限空間平均費用模型
5.1.1 與折扣費用問題的關系
5.1.2 Blackwell *優策略
5.1.3 *優性條件
5.2 所有初始狀態的平均費用相等的條件
5.3 值迭代
5.3.1 單鏈值迭代
5.3.2 多鏈值迭代
5.4 策略迭代
5.4.1 單鏈策略迭代
5.4.2 多鏈策略迭代
5.5 線性規劃
5.6 無窮空間平均費用模型
5.6.1 *優性的充分條件
5.6.2 有限狀態空間和無限控制空間
5.6.3 可數狀態——消失的折扣方法
5.6.4 可數狀態——壓縮方法
5.6.5 具有二次費用的線性系統
5.7 注釋、資源和習題
習題
第6章 近似動態規劃:折扣模型
6.1 基于仿真的費用近似的一般性問題
6.1.1 近似結構
6.1.2 基于仿真的近似策略迭代
6.1.3 直接和間接近似
6.1.4 蒙特卡羅仿真
6.1.5 簡化
6.2 直接策略評價——梯度法
6.3 策略評價的投影方程方法
6.3.1 投影貝爾曼方程
6.3.2 投影方程的矩陣形式
6.3.3 基于仿真的估計方法
6.3.4 LSTD、LSPE 和TD(0) 方法
6.3.5 樂觀版本
6.3.6 多步基于仿真的方法
6.3.7 提要
6.4 策略迭代問題
6.4.1 基于幾何采樣的搜索增強
6.4.2 基于離線策略方法的搜索增強
6.4.3 策略振蕩——震顫
6.5 聚集方法
6.5.1 基于聚集問題的費用近似
6.5.2 通過增廣問題的費用近似
6.5.3 多步聚集
6.5.4 異步分布聚集
6.6 Q-學習
6.6.1 Q-學習:隨機值迭代算法
6.6.2 Q-學習和策略迭代
6.6.3 Q-因子近似和投影方程
6.6.4 *優停止問題的Q-學習
6.6.5 Q-學習和聚集
6.6.6 有限階段Q-學習
6.7 注釋、資源和習題
習題
第7章 近似動態規劃:無折扣模型及推廣
7.1 隨機*短路問題
7.2 平均費用問題
7.2.1 近似策略評價
7.2.2 近似策略迭代
7.2.3 平均費用問題的Q-學習
7.3 一般問題和蒙特卡羅線性代數
7.3.1 投影方程
7.3.2 矩陣逆合迭代方法
7.3.3 多步方法
7.3.4 *優停止的Q-學習的推廣
7.3.5 方程誤差方法
7.3.6 傾斜投影
7.3.7 推廣聚集
7.3.8 奇異線性系統的確定性方法
7.3.9 奇異線性系統的隨機方法
7.4 在策略空間的近似
7.4.1 梯度公式
7.4.2 通過仿真計算梯度
7.4.3 梯度評價的關鍵特征
7.4.4 策略和值空間的近似
7.5 注釋、資源和習題
習題
附錄A 動態規劃中的測度論問題
A.1 兩階段例子
A.2 可測問題
動態規劃與最優控制--近似動態規劃(第Ⅱ卷)/信息技術和電氣工程學科國際知名教材中譯本系列 作者簡介
德梅萃·P.博塞克斯 Dimitri Bertsekas曾在希臘國立雅典技術大學學習機械與電機工程,之后從麻省理工學院獲得系統科學博士學位。曾先后在斯坦福大學工程與經濟系統系和伊利諾伊大學香檳分校的電機工程系任教。1979年以來,他一直在麻省理工學院電機工程與計算機科學系任教,現任麥卡菲工程教授。其研究涉及多個領域,包括優化、控制、大規模計算和數據通信網絡,并與其教學和著書工作聯系緊密。他已撰寫14本著作以及眾多論文,其中數本著作在麻省理工學院被用作教材。他與動態規劃之緣始于博士論文的研究,并通過學術論文、多本教材和學術專著一直延續至今。 Bertsekas 教授因其著作《神經元動態規劃》(與John Tsitsiklis合著)榮獲1997年INFORMS 授予的運籌學與計算機科學交叉領域的杰出研究成果獎、2000年希臘運籌學國家獎、2001年美國控制會議John R.Ragazzini獎以及2009年INFORMS Expository寫作獎。2001年,他因為“基礎性研究、實踐并教育優化/控制理論,特別是在數據通信網絡中的應用”當選美國工程院院士。 Bertsekas博士近些年出版的書包括《概率導論》第二版(2008年與John Tsitsiklis合著)和《凸優化理論》(2009),均由雅典娜科學出版社出版。
- >
中國歷史的瞬間
- >
巴金-再思錄
- >
我從未如此眷戀人間
- >
經典常談
- >
煙與鏡
- >
推拿
- >
苦雨齋序跋文-周作人自編集
- >
姑媽的寶刀