中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
靠前知名大學原版教材——信息技術學科與電氣工程學科系列強化學習與最優控制

包郵 靠前知名大學原版教材——信息技術學科與電氣工程學科系列強化學習與最優控制

出版社:清華大學出版社出版時間:2020-06-01
開本: 其他 頁數: 392
中 圖 價:¥92.4(6.2折) 定價  ¥149.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

靠前知名大學原版教材——信息技術學科與電氣工程學科系列強化學習與最優控制 版權信息

  • ISBN:9787302540328
  • 條形碼:9787302540328 ; 978-7-302-54032-8
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

靠前知名大學原版教材——信息技術學科與電氣工程學科系列強化學習與最優控制 本書特色

Dimitri P. Bertseka,美國MIT終身教授,美國國家工程院院士,清華大學復雜與網絡化系統研究中心客座教授,電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《凸優化》等十幾本暢銷教材和專著。本書的目的是考慮大型且具有挑戰性的多階段決策問題,這些問題原則上可以通過動態規劃和*優控制來解決,但它們的精確解決方案在計算上是難以處理的。本書討論依賴于近似的解決方法,以產生具有足夠性能的次優策略。這些方法統稱為增強學習,也可以叫做近似動態規劃和神經動態規劃等。 本書的主題產生于*優控制和人工智能思想的相互作用。本書的目的之一是探索這兩個領域之間的共同邊界,并架設一座具有任一領域背景的專業人士都可以訪問的橋梁。

靠前知名大學原版教材——信息技術學科與電氣工程學科系列強化學習與最優控制 內容簡介

本書的目的是考慮大型且具有挑戰性的多階段決策問題,這些問題原則上可以通過動態規劃和很優控制來解決,但它們的準確解決方案在計算上是難以處理的。本書討論依賴于近似的解決方法,以產生具有足夠性能的次優策略。這些方法統稱為增強學習,也可以叫做近似動態規劃和神經動態規劃等。 本書的主題產生于很優控制和人工智能思想的相互作用。本書的目的之一是探索這兩個領域之間的共同邊界,并架設一座具有任一領域背景的專業人士都可以訪問的橋梁。

靠前知名大學原版教材——信息技術學科與電氣工程學科系列強化學習與最優控制 目錄

Contents

1. Exact Dynamic Programming

1.1. DeterministicDynamicProgramming . . . . . . . . . . . p. 2

1.1.1. DeterministicProblems . . . . . . . . . . . . . . p. 2

1.1.2. TheDynamicProgrammingAlgorithm . . . . . . . . p. 7

1.1.3. Approximation inValue Space . . . . . . . . . . . p. 12

1.2. StochasticDynamicProgramming . . . . . . . . . . . . . p. 14

1.3. Examples,Variations, and Simplifications . . . . . . . . . p. 18

1.3.1. Deterministic ShortestPathProblems . . . . . . . . p. 19

1.3.2. DiscreteDeterministicOptimization . . . . . . . . . p. 21

1.3.3. Problemswith aTermination State . . . . . . . . . p. 25

1.3.4. Forecasts . . . . . . . . . . . . . . . . . . . . . p. 26

1.3.5. Problems with Uncontrollable State Components . . . p. 29

1.3.6. PartialState Information andBelief States . . . . . . p. 34

1.3.7. LinearQuadraticOptimalControl . . . . . . . . . . p. 38

1.3.8. SystemswithUnknownParameters -Adaptive . . . . . .

Control . . . . . . . . . . . . . . . . . . . . . p. 40

1.4. ReinforcementLearning andOptimalControl - Some . . . . . .

Terminology . . . . . . . . . . . . . . . . . . . . . . p. 43

1.5. Notes and Sources . . . . . . . . . . . . . . . . . . . p. 45

2. Approximation in Value Space

2.1. ApproximationApproaches inReinforcementLearning . . . . p. 50

2.1.1. General Issues ofApproximation inValue Space . . . . p. 54

2.1.2. Off-Line andOn-LineMethods . . . . . . . . . . . p. 56

2.1.3. Model-Based Simplification of the Lookahead . . . . . .

Minimization . . . . . . . . . . . . . . . . . . . p. 57

2.1.4. Model-Free off-Line Q-Factor Approximation . . . . p. 58

2.1.5. Approximation inPolicy Space onTop of . . . . . . . .

ApproximationinValue Space . . . . . . . . . . . p. 61

2.1.6. When is Approximation in Value Space Effective? . . . p. 62

2.2. Multistep Lookahead . . . . . . . . . . . . . . . . . . p. 64

??ii

viii Contents

2.2.1. Multistep Lookahead and Rolling Horizon . . . . . . p. 65

2.2.2. Multistep Lookahead and Deterministic Problems . . . p. 67

2.3. Problem Approximation . . . . . . . . . . . . . . . . . p. 69

2.3.1. Enforced Decomposition . . . . . . . . . . . . . . p. 69

2.3.2. Probabilistic Approximation - Certainty Equivalent . . . .

Control . . . . . . . . . . . . . . . . . . . . . p. 76

2.4. Rollout and the Policy Improvement Principle . . . . . . . p. 83

2.4.1. On-Line Rollout for Deterministic Discrete . . . . . . . .

Optimization . . . . . . . . . . . . . . . . . . . p. 84

2.4.2. Stochastic Rollout and Monte Carlo Tree Search . . . p. 95

2.4.3. Rollout with an Expert . . . . . . . . . . . . . p. 104

2.5. On-Line Rollout for Deterministic Infinite-Spaces Problems - . . .

Optimization Heuristics . . . . . . . . . . . . . . . . p. 106

2.5.1. Model Predictive Control . . . . . . . . . . . . . p. 108

2.5.2. Target Tubes and the Constrained Controllability . . . . .

Condition . . . . . . . . . . . . . . . . . . . p. 115

2.5.3. Variants of Model Predictive Control . . . . . . . p. 118

2.6. Notes and Sources . . . . . . . . . . . . . . . . . . p. 120

3. Parametric Approximation

3.1. Approximation Architectures . . . . . . . . . . . . . . p. 126

3.1.1. Linear and Nonlinear Feature-Based Architectures . . p. 126

3.1.2. Training of Linear and Nonlinear Architectures . . . p. 134

3.1.3. Incremental Gradient and Newton Methods . . . . . p. 135

3.2. Neural Networks . . . . . . . . . . . . . . . . . . . p. 149

3.2.1. Training of Neural Networks . . . . . . . . . . . p. 153

3.2.2. Multilayer and Deep Neural Networks . . . . . . . p. 157

3.3. Sequential Dynamic Programming Approximation . . . . . p. 161

3.4. Q-Factor Parametric Approximation . . . . . . . . . . . p. 162

3.5. Parametric Approximation in Policy Space by . . . . . . . . .

Classification . . . . . . . . . . . . . . . . . . . . . p. 165

3.6. Notes and Sources . . . . . . . . . . . . . . . . . . p. 171

4. Infinite Horizon Dynamic Programming

4.1. An Overview of Infinite Horizon Problems . . . . . . . . p. 174

4.2. Stochastic Shortest Path Problems . . . . . . . . . . . p. 177

4.3. Discounted Problems . . . . . . . . . . . . . . . . . p. 187

4.4. Semi-Markov Discounted Problems . . . . . . . . . . . p. 192

4.5. Asynchronous Distributed Value Iteration . . . . . . . . p. 197

4.6. Policy Iteration . . . . . . . . . . . . . . . . . . . p. 200

4.6.1. Exact Policy Iteration . . . . . . . . . . . . . . p. 200

4.6.2. Optimistic and Multistep Lookahead Policy . . . . . . .

Iteration . . . . . . . . . . . . . . . . . . . . p. 205

4.6.3. Policy Iteration for Q-factors . . . . . . . . . . . p. 208

Contents i??

4.7. Notes and Sources . . . . . . . . . . . . . . . . . . p. 209

4.8. Appendix: MathematicalAnalysis . . . . . . . . . . . p. 211

4.8.1. Proofs for Stochastic ShortestPathProblems . . . . p. 212

4.8.2. Proofs forDiscountedProblems . . . . . . . . . . p. 217

4.8.3. ConvergenceofExact andOptimistic . . . . . . . . . .

Policy Iteration . . . . . . . . . . . . . . . . p. 218

5. Infinite Horizon Reinforcement Learning

5.1. Approximation in Value Space - Performance Bounds . . . p. 222

5.1.1. LimitedLookahead . . . . . . . . . . . . . . . p. 224

5.1.2. Rollout and Approximate Policy Improvement . . . p. 227

5.1.3. ApproximatePolicy Iteration . . . . . . . . . . . p. 232

5.2. FittedValue Iteration . . . . . . . . . . . . . . . . . p. 235

5.3. Simulation-BasedPolicy IterationwithParametric . . . . . . .

Approximation . . . . . . . . . . . . . . . . . . . . p. 239

5.3.1. Self-Learning andActor-CriticMethods . . . . . . p. 239

5.3.2. Model-Based Variant of a Critic-Only Method . . . p. 241

5.3.3. Model-FreeVariant of aCritic-OnlyMethod . . . . p. 243

5.3.4. Implementation Issues ofParametricPolicy . . . . . . .

Iteration . . . . . . . . . . . . . . . . . . . . p. 246

5.3.5. Convergence Issues ofParametricPolicy Iteration - . . . .

Oscillations . . . . . . . . . . . . . . . . . . . p. 249

5.4. Q-Learning . . . . . . . . . . . . . . . . . . . . . p. 253

5.4.1. Optimistic Policy Iteration with Parametric Q-Factor . . .

Approximation- SARSAandDQN . . . . . . . . p. 255

5.5. AdditionalMethods -TemporalDifferences . . . . . . . p. 256

5.6. Exact andApproximateLinearProgramming . . . . . . p. 267

5.7. Approximation inPolicy Space . . . . . . . . . . . . . p. 270

5.7.1. Training byCostOptimization -PolicyGradient, . . . . .

Cross-Entropy,andRandomSearchMethods . . . . p. 276

5.7.2. Expert-BasedSupervisedLearning . . . . . . . . p. 286

5.7.3. ApproximatePolicy Iteration,Rollout, and . . . . . . .

ApproximationinPolicySpace . . . . . . . . . . p. 288

5.8. Notes and Sources . . . . . . . . . . . . . . . . . . p. 293

5.9. Appendix: MathematicalAnalysis . . . . . . . . . . . p. 298

5.9.1. Performance Bounds for Multistep Lookahead . . . . p. 299

5.9.2. Performance Bounds for Rollout . . . . . . . . . . p. 301

5.9.3. Performance Bounds for Approximate Policy . . . . . . .

Iteration . . . . . . . . . . . . . . . . . . . . p. 304

6. Aggregation

6.1. AggregationwithRepresentativeStates . . . . . . . . . p. 308

6.1.1. Continuous State and Control Space Discretization . p. 314

6.1.2. Continuous State Space - POMDP Discretization . . p. 315

?? Contents

6.2. AggregationwithRepresentativeFeatures . . . . . . . . p. 317

6.2.1. Hard Aggregation and Error Bounds . . . . . . . . p. 320

6.2.2. AggregationUsingFeatures . . . . . . . . . . . . p. 322

6.3. Methods for Solving theAggregateProblem . . . . . . . p. 328

6.3.1. Simulation-BasedPolicy Iteration . . . . . . . . . p. 328

6.3.2. Simulation-Based Value Iteration . . . . . . . . . p. 331

6.4. Feature-BasedAggregationwith aNeuralNetwork . . . . p. 332

6.5. BiasedAggregation . . . . . . . . . . . . . . . . . . p. 334

6.6. Notes and Sources . . . . . . . . . . . . . . . . . . p. 337

6.7. Appendix: MathematicalAnalysis . . . . . . . . . . . p. 340

References . . . . . . . . . . . . . . . . . . . . . . . p. 345

Index . . . . . . . . . . . . . . . . . . . . . . . . . . p. 369


展開全部

靠前知名大學原版教材——信息技術學科與電氣工程學科系列強化學習與最優控制 作者簡介

Dimitri P. Bertseka,美國MIT終身教授,美國國家工程院院士,清華大學復雜與網絡化系統研究中心客座教授。電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《凸優化》等十幾本暢銷教材和專著。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 深圳展厅设计_企业展馆设计_展厅设计公司_数字展厅设计_深圳百艺堂 | YAGEO国巨电容|贴片电阻|电容价格|三星代理商-深圳市巨优电子有限公司 | 【直乐】河北石家庄脊柱侧弯医院_治疗椎间盘突出哪家医院好_骨科脊柱外科专业医院_治疗抽动症/关节病骨伤权威医院|排行-直乐矫形中医医院 | 旋振筛|圆形摇摆筛|直线振动筛|滚筒筛|压榨机|河南天众机械设备有限公司 | 艺术生文化课培训|艺术生文化课辅导冲刺-济南启迪学校 | 翅片管换热器「型号全」_厂家-淄博鑫科环保 | 工业胀紧套_万向节联轴器_链条-规格齐全-型号选购-非标订做-厂家批发价格-上海乙谛精密机械有限公司 | 黄石东方妇产医院_黄石妇科医院哪家好_黄石无痛人流医院 | 工业铝型材-铝合金电机壳-铝排-气动执行器-山东永恒能源集团有限公司 | DWS物流设备_扫码称重量方一体机_快递包裹分拣机_广东高臻智能装备有限公司 | 板材品牌-中国胶合板行业十大品牌-环保板材-上海声达板材 | 泰国试管婴儿_泰国第三代试管婴儿_泰国试管婴儿费用/多少钱_孕泰来 | 小型手持气象站-空气负氧离子监测站-多要素微气象传感器-山东天合环境科技有限公司 | 储能预警-储能消防系统-电池舱自动灭火装置-四川千页科技股份有限公司官网 | 酵素生产厂家_酵素OEM_酵素加盟_酵素ODM_酵素原料厂家_厦门益力康 | 永嘉县奥阳陶瓷阀门有限公司 | 玻璃钢型材-玻璃钢风管-玻璃钢管道,生产厂家-[江苏欧升玻璃钢制造有限公司] | 丹佛斯变频器-Danfoss战略代理经销商-上海津信变频器有限公司 | 武汉高低温试验箱_恒温恒湿试验箱厂家-武汉蓝锐环境科技有限公司 | 六维力传感器_三维力传感器_二维力传感器-南京神源生智能科技有限公司 | 余姚生活网_余姚论坛_余姚市综合门户网站 | 浙江工业冷却塔-菱电冷却塔厂家 - 浙江菱电冷却设备有限公司 | 培训一点通 - 合肥驾校 - 合肥新亚驾校 - 合肥八一驾校 | 智能化的检漏仪_气密性测试仪_流量测试仪_流阻阻力测试仪_呼吸管快速检漏仪_连接器防水测试仪_车载镜头测试仪_奥图自动化科技 | 一体化隔油提升设备-餐饮油水分离器-餐厨垃圾处理设备-隔油池-盐城金球环保产业发展有限公司 | 卡诺亚轻高定官网_卧室系统_整家定制_定制家居_高端定制_全屋定制加盟_定制家具加盟_定制衣柜加盟 | 欧美日韩国产一区二区三区不_久久久久国产精品无码不卡_亚洲欧洲美洲无码精品AV_精品一区美女视频_日韩黄色性爱一级视频_日本五十路人妻斩_国产99视频免费精品是看4_亚洲中文字幕无码一二三四区_国产小萍萍挤奶喷奶水_亚洲另类精品无码在线一区 | 产业规划_产业园区规划-产业投资选址及规划招商托管一体化服务商-中机院产业园区规划网 | 烟气换热器_GGH烟气换热器_空气预热器_高温气气换热器-青岛康景辉 | 澳威全屋定制官网|极简衣柜十大品牌|衣柜加盟代理|全屋定制招商 百度爱采购运营研究社社群-店铺托管-爱采购代运营-良言多米网络公司 | 玻璃钢型材_拉挤模具_玻璃钢拉挤设备——滑县康百思 | 大流量卧式砂磨机_强力分散机_双行星双动力混合机_同心双轴搅拌机-莱州市龙跃化工机械有限公司 | 中细软知识产权_专业知识产权解决方案提供商| 喷砂机厂家_自动喷砂机生产_新瑞自动化喷砂除锈设备 | 衬氟止回阀_衬氟闸阀_衬氟三通球阀_衬四氟阀门_衬氟阀门厂-浙江利尔多阀门有限公司 | 免费分销系统 — 分销商城系统_分销小程序开发 -【微商来】 | 博医通医疗器械互联网供应链服务平台_博医通 | 众品地板网-地板品牌招商_地板装修设计_地板门户的首选网络媒体。 | 英超直播_英超免费在线高清直播_英超视频在线观看无插件-24直播网 | PE一体化污水处理设备_地埋式生活污水净化槽定制厂家-岩康塑业 | 真空泵厂家_真空泵机组_水环泵_旋片泵_罗茨泵_耐腐蚀防爆_中德制泵 |