中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
基于函數逼近的強化學習與動態規則

包郵 基于函數逼近的強化學習與動態規則

出版社:人民郵電出版社出版時間:2019-04-01
開本: 16開 頁數: 249
本類榜單:自然科學銷量榜
中 圖 價:¥92.9(7.2折) 定價  ¥129.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

基于函數逼近的強化學習與動態規則 版權信息

  • ISBN:9787115508300
  • 條形碼:9787115508300 ; 978-7-115-50830-0
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>>

基于函數逼近的強化學習與動態規則 本書特色

本書討論大規模連續空間的強化學習理論及方法,重點介紹使用函數逼近的強化學習和動態規劃方法。該研究已成為近年來計算機科學與技術領域中*活躍的研究分支之一。 全書共分6 章。第1 章為概述;第2 章為動態規劃與強化學習介紹;第3 章為大規模連續空間中的動態規劃與強化學習;第4 章為基于模糊表示的近似值迭代;第5 章為用于在線學習和連續動作控制的近似策略迭代;第6 章為基于交叉熵基函數優化的近似策略搜索。 本書可以作為理工科高等院校計算機專業和自動控制專業研究生的教材,也可以作為相關領域科技工作者和工程技術人員的參考書。

基于函數逼近的強化學習與動態規則 內容簡介

1.本書針對連續變化的控制問題,重點集中在近似動態規劃(DP)和強化學習(RL)方面。給出了DP和RL問題及其解的形式化描述,給出了帶函數逼近的DP和RL方法的一個擴展的解釋,對帶模糊逼近的值迭代算法進行了討論,專業性很強。 2.本書在國際同行中具有很高知名度,一度被很多國家作為研究生和工程師的技術教程,影響力很大。 3.強化學習成為了目前人工智能方向的研究熱點,尤其是將強化學習應用于實際項目中,成為通用人工智能(GAI)研究的主要思路。

基于函數逼近的強化學習與動態規則 目錄

目 錄

第 1章 概述 1
1.1 動態規劃與強化學習問題 2
1.2 動態規劃與強化學習中的逼近 5
1.3 關于本書 7

第 2章 動態規劃與強化學習介紹 9
2.1 引言 9
2.2 馬爾可夫決策過程 12
2.2.1 確定性情況 12
2.2.2 隨機性情況 16
2.3 值迭代 20
2.3.1 基于模型的值迭代 20
2.3.2 模型無關的值迭代與探索的必要性 25
2.4 策略迭代 27
2.4.1 基于模型的策略迭代 28
2.4.2 模型無關的策略迭代 33
2.5 策略搜索 35
2.6 總結與討論 38

第3章 大規模連續空間中的動態規劃與強化學習 40
3.1 介紹 40
3.2 大規模連續空間中近似的必要性 43
3.3 近似框架 45
3.3.1 帶參近似 45
3.3.2 無參近似 48
3.3.3 帶參與無參逼近器的比較 49
3.3.4 附注 50
3.4 近似值迭代 51
3.4.1 基于模型的帶參近似值迭代算法 51
3.4.2 模型無關的帶參近似值迭代算法 54
3.4.3 無參近似值迭代算法 58
3.4.4 非擴張近似的作用及收斂性 59
3.4.5 實例:用于直流電機的近似Q值迭代 62
3.5 近似策略迭代 67
3.5.1 用于近似策略評估的類值迭代算法 68
3.5.2 基于線性帶參近似的模型無關策略評估 70
3.5.3 基于無參近似的策略評估 80
3.5.4 帶回滾的基于模型的近似策略評估 80
3.5.5 策略改進與近似策略迭代 81
3.5.6 理論保障 84
3.5.7 實例:用于直流電機的*小二乘策略迭代 86
3.6 自動獲取值函數逼近器 90
3.6.1 基函數*優化方法 91
3.6.2 基函數構造 93
3.6.3 附注 95
3.7 近似策略搜索 95
3.7.1 策略梯度與行動者-評論家算法 96
3.7.2 梯度無關的策略搜索 101
3.7.3 實例:用于直流電機問題的梯度無關策略搜索 103
3.8 近似值迭代、近似策略迭代及近似策略搜索算法的比較 106
3.9 總結與討論 108

第4章 基于模糊表示的近似值迭代 110
4.1 引言 110
4.2 模糊Q值迭代 112
4.2.1 模糊Q值迭代的近似和投影映射 112
4.2.2 同步和異步模糊Q值迭代 116
4.3 模糊Q值迭代的分析 119
4.3.1 收斂性 119
4.3.2 一致性 126
4.3.3 計算復雜度 131
4.4 優化隸屬度函數 132
4.4.1 隸屬度函數優化的一般方法 132
4.4.2 交叉熵優化 133
4.4.3 基于交叉熵隸屬度函數優化的模糊Q值迭代 135
4.5 實驗研究 137
4.5.1 直流電機:收斂性和一致性研究 137
4.5.2 雙連桿機械臂:動作插值的效果以及與擬合Q值迭代的比較 142
4.5.3 倒立擺:實時控制 146
4.5.4 過山車:隸屬度函數優化的效果 149
4.6 總結與討論 152

第5章 用于在線學習和連續動作控制的近似策略迭代 154
5.1 引言 154
5.2 *小二乘策略迭代的概述 155
5.3 在線*小二乘策略迭代 157
5.4 使用先驗知識的在線LSPI 161
5.4.1 使用策略近似的在線LSPI 161
5.4.2 具有單調策略的在線LSPI 162
5.5 采用連續動作、多項式近似的LSPI 165
5.6 實驗研究 167
5.6.1 用于倒立擺的在線LSPI 167
5.6.2 用于雙連桿機械臂的在線LSPI 178
5.6.3 使用直流電機先驗知識的在線LSPI 181
5.6.4 在倒立擺中使用帶有連續動作逼近器的LSPI 183
5.7 總結與討論 187

第6章 基于交叉熵基函數優化的近似策略搜索 189
6.1 介紹 189
6.2 交叉熵優化方法 190
6.3 交叉熵策略搜索 192
6.3.1 一般方法 192
6.3.2 基于徑向基函數的交叉熵策略搜索 197
6.4 實驗研究 199
6.4.1 離散時間二重積分 199
6.4.2 自行車平衡 206
6.4.3 HIV傳染病控制的計劃性間斷治療 212
6.5 總結與討論 215

附錄A 極端隨機樹 217
附錄B 交叉熵方法 221
縮略語 227
參考文獻 232
展開全部

基于函數逼近的強化學習與動態規則 作者簡介

Lucian Bu?oniu:荷蘭代爾夫特理工大學代爾夫特系統與控制中心博士后研究員。2009 年獲得代爾夫特理工大學博士學位,2003 年獲得羅馬尼亞克盧日·納波卡科技大學碩士學位。他目前的主要研究方向包括強化學習與近似動態規劃、面向控制問題的智能與學習技術以及多Agent學習等。 Robert Babu?ka:荷蘭代爾夫特理工大學代爾夫特系統與控制中心教授。1997 年獲得代爾夫特理工大學控制專業博士學位,1990 年獲得布拉格捷克技術大學電機工程專業碩士學位。他目前的主要研究方向包括模糊系統建模與識別、神經模糊系統的數據驅動結構與自適應、基于模型的模糊控制和學習控制,并將這些技術應用于機器人、機電一體化和航空航天等領域。 Bart De Schutter:荷蘭代爾夫特理工大學代爾夫特系統與控制中心海洋與運輸技術系教授。1996 年獲得比利時魯汶大學應用科學博士學位。他目前的主要研究方向包括多Agent 系統、混雜系統控制、離散事件系統和智能交通系統控制等。 Damien Ernst:分別于1998 年和2003 年獲得比利時列日大學理學碩士及博士學位。他目前是比利時FRS-FNRS 的助理研究員,就職于列日大學的系統與建模研究院。Damien Ernst在2003—2006年間為FRS- FNRS 的博士后研究人員,并在此期間擔任劍橋管理機構、麻省理工學院和美國國立衛生研究院的訪問研究員,2006—2007學年在高等電力學院(法國)擔任教授。他目前的主要研究方向包括電力系統動力學、最優控制、強化學習和動態治療方案設計等。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 膜结构车棚|上海膜结构车棚|上海车棚厂家|上海膜结构公司 | 杭州翻译公司_驾照翻译_专业人工翻译-杭州以琳翻译有限公司官网 组织研磨机-高通量组织研磨仪-实验室多样品组织研磨机-东方天净 | 衬塑设备,衬四氟设备,衬氟设备-淄博鲲鹏防腐设备有限公司 | 承插管件_不锈钢承插管件_锻钢高压管件-温州科正阀门管件有限公司 | 闸阀_截止阀_止回阀「生产厂家」-上海卡比阀门有限公司 | 深圳标识制作公司-标识标牌厂家-深圳广告标识制作-玟璟广告-深圳市玟璟广告有限公司 | 厦门ISO认证|厦门ISO9001认证|厦门ISO14001认证|厦门ISO45001认证-艾索咨询专注ISO认证行业 | 四合院设计_四合院装修_四合院会所设计-四合院古建设计与建造中心1 | 耐高温硅酸铝板-硅酸铝棉保温施工|亿欧建设工程 | 长沙网站建设制作「网站优化推广」-网页设计公司-速马科技官网 | 石英陶瓷,石英坩埚,二氧化硅陶瓷-淄博百特高新材料有限公司 | 真空搅拌机-行星搅拌机-双行星动力混合机-广州市番禺区源创化工设备厂 | 空压机商城|空气压缩机|空压机配件-压缩机网旗下商城 | 老房子翻新装修,旧房墙面翻新,房屋防水补漏,厨房卫生间改造,室内装潢装修公司 - 一修房屋快修官网 | 面粉仓_储酒罐_不锈钢储酒罐厂家-泰安鑫佳机械制造有限公司 | pbt头梳丝_牙刷丝_尼龙毛刷丝_PP塑料纤维合成毛丝定制厂_广州明旺 | 电机铸铝配件_汽车压铸铝合金件_发动机压铸件_青岛颖圣赫机械有限公司 | 垃圾压缩设备_垃圾处理设备_智能移动式垃圾压缩设备--山东明莱环保设备有限公司 | 多物理场仿真软件_电磁仿真软件_EDA多物理场仿真软件 - 裕兴木兰 | 广东风淋室_广东风淋室厂家_广东风淋室价格_广州开源_传递窗_FFU-广州开源净化科技有限公司 | 有机废气处理-rto焚烧炉-催化燃烧设备-VOC冷凝回收装置-三梯环境 | 高低温试验房-深圳高低温湿热箱-小型高低温冲击试验箱-爱佩试验设备 | 固诺家居-全屋定制十大品牌_整体衣柜木门橱柜招商加盟 | 华禹护栏|锌钢护栏_阳台护栏_护栏厂家-华禹专注阳台护栏、楼梯栏杆、百叶窗、空调架、基坑护栏、道路护栏等锌钢护栏产品的生产销售。 | 威客电竞(vk·game)·电子竞技赛事官网 | 发光字|标识设计|标牌制作|精神堡垒 - 江苏苏通广告有限公司 | 数码听觉统合训练系统-儿童感觉-早期言语评估与训练系统-北京鑫泰盛世科技发展有限公司 | 蓝米云-专注于高性价比香港/美国VPS云服务器及海外公益型免费虚拟主机 | 博客-悦享汽车品质生活| 深圳装修_店面装修设计_餐厅设计_装修全包价格-尚泰装饰设计 | 混合生育酚_醋酸生育酚粉_琥珀酸生育酚-山东新元素生物科技 | 悬浮拼装地板_篮球场木地板翻新_运动木地板价格-上海越禾运动地板厂家 | 脱硝喷枪-氨水喷枪-尿素喷枪-河北思凯淋环保科技有限公司 | 工业雾炮机_超细雾炮_远程抑尘射雾器-世纪润德环保设备 | 体坛网_体坛+_体坛周报新闻客户端| 净化车间_洁净厂房_净化公司_净化厂房_无尘室工程_洁净工程装修|改造|施工-深圳净化公司 | 扬尘监测_扬尘监测系统_带证扬尘监测设备 - 郑州港迪科技有限公司 | 数显恒温培养摇床-卧式/台式恒温培养摇床|朗越仪器 | 分子精馏/精馏设备生产厂家-分子蒸馏工艺实验-新诺舜尧(天津)化工设备有限公司 | 硅胶制品-硅橡胶制品-东莞硅胶制品厂家-广东帝博科技有限公司 | 干粉砂浆设备_干混砂浆生产线_腻子粉加工设备_石膏抹灰砂浆生产成套设备厂家_干粉混合设备_砂子烘干机--郑州铭将机械设备有限公司 |