中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
策略前展、策略迭代與分布式強化學習

包郵 策略前展、策略迭代與分布式強化學習

出版社:清華大學出版社出版時間:2022-04-01
開本: 16開 頁數: 483
中 圖 價:¥80.6(5.8折) 定價  ¥139.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

策略前展、策略迭代與分布式強化學習 版權信息

  • ISBN:9787302599388
  • 條形碼:9787302599388 ; 978-7-302-59938-8
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

策略前展、策略迭代與分布式強化學習 本書特色

讀者通過本書可以了解強化學習中策略迭代,特別是Rollout方法在分布式和多智能體框架下的新進展和應用。本書可用作人工智能或系統與控制科學等相關專業的高年級本科生或研究生作為一個學期的課程教材。也適用于開展相關研究工作的專業技術人員作為參考書閱讀。

策略前展、策略迭代與分布式強化學習 內容簡介

本書主要內容:第1章為動態規劃原理;第2章為策略前展與策略改進;第3章為專用策略前展算法;第4章為值和策略的學習;第5章為無限時間分布式和多智能體算法。 橫空出世的圍棋軟件AlphaZero算法對本書有很大影響。本書內容同樣基于策略迭代、值網絡和策略網絡的神經網絡近似表示、并行與分布式計算和前瞻*小化約簡技術的核心框架構建,并對算法的適用范圍做了拓展。本書的特色在于給出了分布式計算和多智能體系統框架下的強化學習策略改進計算的效率提升技術,建立了一步策略改進策略前展方法同控制系統中廣泛使用的模型預測控制(MPC)設計方法之間的聯系,并描述了策略前展方法在復雜離散和組合優化問題方面的應用。 通過閱讀本書,讀者可以了解強化學習中的策略迭代,特別是策略前展方法在分布式和多智能體框架下的近期新進展和應用。本書可用作人工智能或系統與控制科學等相關專業的高年級本科生或研究生的教材,也適合開展相關研究工作的專業技術人員作為參考書。

策略前展、策略迭代與分布式強化學習 目錄

1 Exact and Approximate Dynamic Programming Principles
1.1 AlphaZero, Off-Line Training, and On-Line Play
1.2 Deterministic Dynamic Programming
1.2.1 Finite Horizon Problem Formulation
1.2.2 The Dynamic Programming Algorithm
1.2.3 Approximation in Value Space
1.3 Stochastic Dynamic Programming
1.3.1 Finite Horizon Problems
1.3.2 Approximation in Value Space for Stochastic DP
1.3.3 Infinite Horizon Problems-An Overview
1.3.4 Infinite Horizon-Approximation in Value Space
1.3.5 Infinite Horizon-Policy Iteration, Rollout, andNewton's Method
1.4 Examples, Variations, and Simplifications
1.4.1 A Few Words About Modeling
1.4.2 Problems with a Termination State
1.4.3 State Augmentation, Time Delays, Forecasts, and Uncontrollable State Components
1.4.4 Partial State Information and Belief States
1.4.5 Multiagent Problems and Multiagent Rollout
1.4.6 Problems with Unknown Parameters-AdaptiveControl
1.4.7 Adaptive Control by Rollout and On-LineReplanning
1.5 Reinforcement Learning and Optimal Control-SomeTerminology
1.6 Notes and Sources
2 General Principles of Approximation in Value Space
2.1 Approximation in Value and Policy Space
2.1.1 Approximation in Value Space-One-Step and Multistep Lookahead
2.1.2 Approximation in Policy Space
2.1.3 Combined Approximation in Value and Policy Space
2.2 Approaches for Value Space Approximation
2.2.1 Off-Line and On-Line Implementations
2.2.2 Model-Based and Model-Free Implementations
2.2.3 Methods for Cost-to-Go Approximation
2.2.4 Methods for Expediting the Lookahead Minimization
2.3 Deterministic Rollout and the Policy Improvement Principle
2.3.1 On-Line Rollout for Deterministic Discrete Optimization
2.3.2 Using Multiple Base Heuristics-Parallel Rollout
2.3.3 The Simplified Rollout Algorithm
2.3.4 The Fortified Rollout Algorithm
2.3.5 Rollout with Multistep Lookahead
2.3.6 Rollout with an Expert
2.3.7 Rollout with Small Stage Costs and Long Horizon-Continuous-Time Rollout
2.4 Stochastic Rollout and Monte Carlo Tree Search
2.4.1 Simulation-Based Implementation of the Rollout Algorithm
2.4.2 Monte Carlo Tree Search
2.4.3 Randomized Policy Improvement by Monte Carlo Tree Search
2.4.4 The Effect of Errors in Rollout-Variance Reduction
2.4.5 Rollout Parallelization
2.5 Rollout for Infinite-Spaces Problems-Optimization Heuristics
2.5.1 Rollout for Infinite-Spaces Deterministic Problems
2.5.2 Rollout Based on Stochastic Programming
2.6 Notes and Sources
3 Specialized Rollout Algorithms
3.1 Model Predictive Control
3.1.1 Target Tubes and Constrained Controllability
3.1.2 Model Predictive Control with Terminal Cost
3.1.3 Variants of Model Predictive Control
3.1.4 Target Tubes and State-Constrained Rollout
3.2 Multiagent Rollout
3.2.1 Asynchronous and Autonomous Multiagent Rollout
3.2.2 Multiagent Coupling Through Constraints
3.2.3 Multiagent Model Predictive Control
3.2.4 Separable and Multiarmed Bandit Problems
3.3 Constrained Rollout-Deterministic Optimal Control
3.3.1 Sequential Consistency, Sequential Improvement, and the Cost Improvement Property
3.3.2 The Fortified Rollout Algorithm and Other Variations
3.4 Constrained Rollout-Discrete Optimization
3.4.1 General Discrete Optimization Problems
3.4.2 Multidimensional Assignment
3.5 Rollout for Surrogate Dynamic Programming and Bayesian Optimization
3.6 Rollout for Minimax Control
3.7 Notes and Sources
4 Learning Values and Policies
4.1 Parametric Approximation Architectures
4.1.1 Cost Function Approximation
4.1.2 Feature-Based Architectures
4.1.3 Training of Linear and Nonlinear Architectures
4.2 Neural Networks
4.2.1 Training of Neural Networks
4.2

展開全部

策略前展、策略迭代與分布式強化學習 作者簡介

Dimitri P. Bertsekas,德梅萃 P.博塞克斯(Dimitri P. Bertseka),美國MIT終身教授,美國國家工程院院士,清華大學復雜與網絡化系統研究中心客座教授。電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《動態規劃》《凸優化》《強化學習與最優控制》等十幾本暢銷教材和專著。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 专业广州网站建设,微信小程序开发,一物一码和NFC应用开发、物联网、外贸商城、定制系统和APP开发【致茂网络】 | 上海办公室装修_上海店铺装修公司_厂房装潢设计_办公室装修 | bng防爆挠性连接管-定做金属防爆挠性管-依客思防爆科技 | 国际线缆连接网 - 连接器_线缆线束加工行业门户网站 | 健身器材-健身器材厂家专卖-上海七诚健身器材有限公司 | 冻干机(冷冻干燥机)_小型|实验型|食品真空冷冻干燥机-松源 | 溶氧传感器-pH传感器|哈美顿(hamilton) | 不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰]-不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰] | 100国际学校招生 - 专业国际学校择校升学规划 | hdpe土工膜-防渗膜-复合土工膜-长丝土工布价格-厂家直销「恒阳新材料」-山东恒阳新材料有限公司 ETFE膜结构_PTFE膜结构_空间钢结构_膜结构_张拉膜_浙江萬豪空间结构集团有限公司 | 天津云仓-天津仓储物流-天津云仓一件代发-顺东云仓 | 威客电竞(vk·game)·电子竞技赛事官网 | 杭州实验室尾气处理_实验台_实验室家具_杭州秋叶实验设备有限公司 | 河南中整光饰机械有限公司-抛光机,去毛刺抛光机,精密镜面抛光机,全自动抛光机械设备 | 招商帮-一站式网络营销服务|搜索营销推广|信息流推广|短视视频营销推广|互联网整合营销|网络推广代运营|招商帮企业招商好帮手 | 山西3A认证|太原AAA信用认证|投标AAA信用证书-山西AAA企业信用评级网 | 圆形振动筛_圆筛_旋振筛_三次元振动筛-河南新乡德诚生产厂家 | 船用烟火信号弹-CCS防汛救生圈-船用救生抛绳器(海威救生设备) | 3d打印服务,3d打印汽车,三维扫描,硅胶复模,手板,快速模具,深圳市精速三维打印科技有限公司 | 新疆乌鲁木齐网站建设-乌鲁木齐网站制作设计-新疆远璨网络 | 电子海图系统-电梯检验系统-智慧供热系统开发-商品房预售资金监管系统 | 广州活动策划公司-15+年专业大型公关活动策划执行管理经验-睿阳广告 | 直流电能表-充电桩电能表-导轨式电能表-智能电能表-浙江科为电气有限公司 | 合肥网络推广_合肥SEO网站优化-安徽沃龙First | 车牌识别道闸_停车场收费系统_人脸识别考勤机_速通门闸机_充电桩厂家_中全清茂官网 | 碳纤维布-植筋胶-灌缝胶-固特嘉加固材料公司 | 新车测评网_网罗汽车评测资讯_汽车评测门户报道 | 进口试验机价格-进口生物材料试验机-西安卡夫曼测控技术有限公司 | 合肥仿石砖_合肥pc砖厂家_合肥PC仿石砖_安徽旭坤建材有限公司 | 东莞办公家具厂家直销-美鑫【免费3D效果图】全国办公桌/会议桌定制 | 西门子气候补偿器,锅炉气候补偿器-陕西沃信机电工程有限公司 | 江苏大隆凯科技有限公司 | 步入式高低温测试箱|海向仪器| 重庆网站建设,重庆网站设计,重庆网站制作,重庆seo,重庆做网站,重庆seo,重庆公众号运营,重庆小程序开发 | 超声波_清洗机_超声波清洗机专业生产厂家-深圳市好顺超声设备有限公司 | 飞象网 - 通信人每天必上的网站 全球化工设备网—化工设备,化工机械,制药设备,环保设备的专业网络市场。 | 空压机网_《压缩机》杂志 | 广州迈驰新GMP兽药包装机首页_药品包装机_中药散剂包装机 | 工业rfid读写器_RFID工业读写器_工业rfid设备厂商-ANDEAWELL | 电动车头盔厂家_赠品头盔_安全帽批发_山东摩托车头盔—临沂承福头盔 | 六维力传感器_六分量力传感器_模腔压力传感器-南京数智微传感科技有限公司 |