中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊
> >
統(tǒng)計(jì)策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用

包郵 統(tǒng)計(jì)策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用

作者:趙婷婷
出版社:電子工業(yè)出版社出版時(shí)間:2021-09-01
開本: 其他 頁數(shù): 180
中 圖 價(jià):¥56.3(7.1折) 定價(jià)  ¥79.0 登錄后可看到會員價(jià)
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

統(tǒng)計(jì)策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用 版權(quán)信息

統(tǒng)計(jì)策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用 本書特色

本書結(jié)合強(qiáng)化學(xué)習(xí)前沿技術(shù)將策略搜索算法應(yīng)用到機(jī)器人控制及數(shù)字藝術(shù)渲染領(lǐng)域,給人以耳目一新的感覺。*后根據(jù)作者長期研究經(jīng)驗(yàn),對強(qiáng)化學(xué)習(xí)的發(fā)展趨勢進(jìn)行了簡要介紹和總結(jié)。 本書取材經(jīng)典、全面,概念清楚,推導(dǎo)嚴(yán)密,以期形成一個(gè)集基礎(chǔ)理論、算法和應(yīng)用為一體的完備知識體系。

統(tǒng)計(jì)策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用 內(nèi)容簡介

智能體AlphaGo戰(zhàn)勝人類圍棋專家刷新了人類對人工智能的認(rèn)識,也使得其核心技術(shù)強(qiáng)化學(xué)習(xí)受到學(xué)術(shù)界的廣泛關(guān)注。本書正是在如此背景下,圍繞作者多年從事強(qiáng)化學(xué)習(xí)理論及應(yīng)用的研究內(nèi)容及國內(nèi)外關(guān)于強(qiáng)化學(xué)習(xí)的很近動(dòng)態(tài)等方面展開介紹,是為數(shù)不多的強(qiáng)化學(xué)習(xí)領(lǐng)域的專業(yè)著作。該著作側(cè)重于基于直接策略搜索的強(qiáng)化學(xué)習(xí)方法,結(jié)合了統(tǒng)計(jì)學(xué)習(xí)的諸多方法對相關(guān)技術(shù)及方法進(jìn)行分析、改進(jìn)及應(yīng)用。本書以一個(gè)全新的現(xiàn)代角度描述策略搜索強(qiáng)化學(xué)習(xí)算法。從不同的強(qiáng)化學(xué)習(xí)場景出發(fā),講述了強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中所面臨的諸多難題。針對不同場景,給定具體的策略搜索算法,分析算法中估計(jì)量和學(xué)習(xí)參數(shù)的統(tǒng)計(jì)特性,并對算法進(jìn)行應(yīng)用實(shí)例展示及定量比較。特別地,本書結(jié)合強(qiáng)化學(xué)習(xí)前沿技術(shù)將策略搜索算法應(yīng)用到機(jī)器人控制及數(shù)字藝術(shù)渲染領(lǐng)域,給人以耳目一新的感覺。很后根據(jù)作者長期研究經(jīng)驗(yàn),對強(qiáng)化學(xué)習(xí)的發(fā)展趨勢進(jìn)行了簡要介紹和總結(jié)。本書取材經(jīng)典、全面,概念清楚,推導(dǎo)嚴(yán)密,以期形成一個(gè)集基礎(chǔ)理論、算法和應(yīng)用為一體的完備知識體系。

統(tǒng)計(jì)策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用 目錄

第1章 強(qiáng)化學(xué)習(xí)概述??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????1
1.1 機(jī)器學(xué)習(xí)中的強(qiáng)化學(xué)習(xí)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????1
1.2 智能控制中的強(qiáng)化學(xué)習(xí)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????4
1.3 強(qiáng)化學(xué)習(xí)分支????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????8
1.4 本書貢獻(xiàn)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????11
1.5 本書結(jié)構(gòu)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????12
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????14
第2章 相關(guān)研究及背景知識??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????19
2.1 馬爾可夫決策過程????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????19
2.2 基于值函數(shù)的策略學(xué)習(xí)算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????21
2.2.1 值函數(shù)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????21
2.2.2 策略迭代和值迭代????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????23
2.2.3 Q-learning ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????25
2.2.4 基于*小二乘法的策略迭代算法??????????????????????????????????????????????????????????????????????????????????????????27
2.2.5 基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)方法??????????????????????????????????????????????????????????????????????????????????????????29
2.3 策略搜索算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????30
2.3.1 策略搜索算法建模????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????31
2.3.2 傳統(tǒng)策略梯度算法(REINFORCE算法)????????????????????????????????????????????????????????????32
2.3.3 自然策略梯度方法(Natural Policy Gradient)????????????????????????????????????????????????33
2.3.4 期望*大化的策略搜索方法??????????????????????????????????????????????????????????????????????????????????????????????????????????35
2.3.5 基于策略的深度強(qiáng)化學(xué)習(xí)方法??????????????????????????????????????????????????????????????????????????????????????????????????37
2.4 本章小結(jié)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????38
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????39
第3章 策略梯度估計(jì)的分析與改進(jìn)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????42
3.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????42
3.2 基于參數(shù)探索的策略梯度算法(PGPE算法)??????????????????????????????????????????????????????????????????????44
3.3 梯度估計(jì)方差分析????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????46
3.4 基于*優(yōu)基線的算法改進(jìn)及分析??????????????????????????????????????????????????????????????????????????????????????????????????????????????????48
3.4.1 *優(yōu)基線的基本思想????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????48
3.4.2 PGPE算法的*優(yōu)基線????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????49
3.5 實(shí)驗(yàn)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????51
3.5.1 示例??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????51
3.5.2 倒立擺平衡問題????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????57
3.6 總結(jié)與討論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????58
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????60
第4章 基于重要性采樣的參數(shù)探索策略梯度算法????????????????????????????????????????????????????????????????????????????????????63
4.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????63
4.2 異策略場景下的PGPE算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????64
4.2.1 重要性加權(quán)PGPE算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????65
4.2.2 IW-PGPE算法通過基線減法減少方差????????????????????????????????????????????????????????????????????????66
4.3 實(shí)驗(yàn)結(jié)果??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????68
4.3.1 示例??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????69
4.3.2 山地車任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????78
4.3.3 機(jī)器人仿真控制任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????81
4.4 總結(jié)和討論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????88
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????89
第5章 方差正則化策略梯度算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????91
5.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????91
5.2 正則化策略梯度算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????92
5.2.1 目標(biāo)函數(shù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????92
5.2.2 梯度計(jì)算方法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????94
5.3 實(shí)驗(yàn)結(jié)果??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????95
5.3.1 數(shù)值示例????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????95
5.3.2 山地車任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????101
5.4 總結(jié)和討論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????102
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????103
第6章 基于參數(shù)探索的策略梯度算法的采樣技術(shù)????????????????????????????????????????????????????????????????????????????????105
6.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????105
6.2 基于參數(shù)探索的策略梯度算法中的采樣技術(shù)????????????????????????????????????????????????????????????????????????107
6.2.1 基線采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????108
6.2.2 *優(yōu)基線采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????109
6.2.3 對稱采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????109
6.2.4 超對稱采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????111
6.2.5 多模態(tài)超對稱采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????116
6.2.6 SupSymPGPE 的獎(jiǎng)勵(lì)歸一化????????????????????????????????????????????????????????????????????????????????????????????????????117
6.3 數(shù)值示例實(shí)驗(yàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????119
6.3.1 平方函數(shù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????120
6.3.2 Rastrigin函數(shù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????120
6.4 本章總結(jié)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????124
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????125
第7章 基于樣本有效重用的人形機(jī)器人的運(yùn)動(dòng)技能學(xué)習(xí)??????????????????????????????????????????????????????????127
7.1 研究背景:真實(shí)環(huán)境下的運(yùn)動(dòng)技能學(xué)習(xí)??????????????????????????????????????????????????????????????????????????????????????127
7.2 運(yùn)動(dòng)技能學(xué)習(xí)框架????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????128
7.2.1 機(jī)器人的運(yùn)動(dòng)路徑和回報(bào)??????????????????????????????????????????????????????????????????????????????????????????????????????????????128
7.2.2 策略模型????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????129
7.2.3 基于PGPE算法的策略學(xué)習(xí)方法??????????????????????????????????????????????????????????????????????????????????????129
7.3 有效重用歷史經(jīng)驗(yàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????130
7.3.1 基于重要性加權(quán)的參數(shù)探索策略梯度算法
(IW-PGPE算法)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????130
7.3.2 基于IW-PGPE算法的運(yùn)動(dòng)技能學(xué)習(xí)過程??????????????????????????????????????????????????????????131
7.3.3 遞歸型IW-PGPE算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????132
7.4 虛擬環(huán)境中的車桿擺動(dòng)任務(wù)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????133
7.5 籃球射擊任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????137
7.6 討論與結(jié)論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????140
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????142
第8章 基于逆強(qiáng)化學(xué)習(xí)的藝術(shù)風(fēng)格學(xué)習(xí)及水墨畫渲染??????????????????????????????????????????????????????????????????145
8.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????145
8.1.1 計(jì)算機(jī)圖形學(xué)背景????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????146
8.1.2 人工智能背景????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????147
8.1.3 面向藝術(shù)風(fēng)格化的渲染系統(tǒng)??????????????????????????????????????????????????????????????????????????????????????????????????????148
8.2 基于強(qiáng)化學(xué)習(xí)的筆刷智能體建模??????????????????????????????????????????????????????????????????????????????????????????????????????????????148
8.2.1 動(dòng)作的設(shè)計(jì)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????149
8.2.2 狀態(tài)的設(shè)計(jì)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????150
8.3 離線藝術(shù)風(fēng)格學(xué)習(xí)階段????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????151
8.3.1 數(shù)據(jù)采集????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????152
8.3.2 基于逆強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)??????????????????????????????????????????????????????????????????????????????????????153
8.3.3 基于R-PGPE算法的渲染策略學(xué)習(xí)??????????????????????????????????????????????????????????????????????????????154
8.4 A4系統(tǒng)用戶界面????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????155
8.5 實(shí)驗(yàn)與結(jié)果????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????157
8.5.1 渲染策略學(xué)習(xí)結(jié)果????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????157
8.5.2 基于IRL進(jìn)行筆畫繪制的渲染結(jié)果??????????????????????????????????????????????????????????????????????????????160
8.6 本章小結(jié)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????162
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????163
展開全部

統(tǒng)計(jì)策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用 作者簡介

趙婷婷,天津科技大學(xué)人工智能學(xué)院副教授,主要研究方向?yàn)槿斯ぶ悄堋C(jī)器學(xué)習(xí)。中國計(jì)算機(jī)協(xié)會(CCF) 會員、YOCSEF 會員、中國人工智能學(xué)會會員、人工智能學(xué)會模式識別專委會委員,2017年獲得天津市"131”創(chuàng)新型人才培養(yǎng)工程第二層次人選稱號。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 智慧消防-消防物联网系统云平台 智能化的检漏仪_气密性测试仪_流量测试仪_流阻阻力测试仪_呼吸管快速检漏仪_连接器防水测试仪_车载镜头测试仪_奥图自动化科技 | 合肥制氮机_合肥空压机厂家_安徽真空泵-凯圣精机 | 沈阳庭院景观设计_私家花园_别墅庭院设计_阳台楼顶花园设计施工公司-【沈阳现代时园艺景观工程有限公司】 | PCB接线端子_栅板式端子_线路板连接器_端子排生产厂家-置恒电气 喷码机,激光喷码打码机,鸡蛋打码机,手持打码机,自动喷码机,一物一码防伪溯源-恒欣瑞达有限公司 假肢-假肢价格-假肢厂家-河南假肢-郑州市力康假肢矫形器有限公司 | 高低温万能试验机_拉力试验机_拉伸试验机-馥勒仪器科技(上海)有限公司 | 上海洗地机-洗地机厂家-全自动洗地机-手推式洗地机-上海滢皓洗地机 | 东莞螺杆空压机_永磁变频空压机_节能空压机_空压机工厂批发_深圳螺杆空压机_广州螺杆空压机_东莞空压机_空压机批发_东莞空压机工厂批发_东莞市文颖设备科技有限公司 | 德国UST优斯特氢气检漏仪-德国舒赐乙烷检测仪-北京泽钏 | 节流截止放空阀-不锈钢阀门-气动|电动截止阀-鸿华阀门有限公司 | 重庆波纹管|重庆钢带管|重庆塑钢管|重庆联进管道有限公司 | 高铝砖-高铝耐火球-高铝耐火砖生产厂家-价格【荣盛耐材】 | 工业冷却塔维修厂家_方形不锈钢工业凉水塔维修改造方案-广东康明节能空调有限公司 | 板材品牌-中国胶合板行业十大品牌-环保板材-上海声达板材 | 双菱电缆-广州电缆厂_广州电缆厂有限公司 | PE拉伸缠绕膜,拉伸缠绕膜厂家,纳米缠绕膜-山东凯祥包装 | 扒渣机厂家_扒渣机价格_矿用扒渣机_铣挖机_撬毛台车_襄阳永力通扒渣机公司 | 营养师网,营养师考试时间,报名入口—网站首页 | 垃圾压缩设备_垃圾处理设备_智能移动式垃圾压缩设备--山东明莱环保设备有限公司 | 压力控制器,差压控制器,温度控制器,防爆压力控制器,防爆温度控制器,防爆差压控制器-常州天利智能控制股份有限公司 | 高压无油空压机_无油水润滑空压机_水润滑无油螺杆空压机_无油空压机厂家-科普柯超滤(广东)节能科技有限公司 | 扬子叉车厂家_升降平台_电动搬运车|堆高车-扬子仓储叉车官网 | 空心明胶胶囊|植物胶囊|清真胶囊|浙江绿键胶囊有限公司欢迎您! | 陶氏道康宁消泡剂_瓦克消泡剂_蓝星_海明斯德谦_广百进口消泡剂 | 深圳诚暄fpc首页-柔性线路板,fpc柔性线路板打样生产厂家 | 无锡网站建设_企业网站定制-网站制作公司-阿凡达网络 | AR开发公司_AR增强现实_AR工业_AR巡检|上海集英科技 | 湖南印刷厂|长沙印刷公司|画册印刷|挂历印刷|台历印刷|杂志印刷-乐成印刷 | 超声骨密度仪-骨密度检测仪-经颅多普勒-tcd仪_南京科进实业有限公司 | 别墅图纸超市|别墅设计图纸|农村房屋设计图|农村自建房|别墅设计图纸及效果图大全 | 高精度-恒温冷水机-螺杆式冰水机-蒸发冷冷水机-北京蓝海神骏科技有限公司 | 奶茶加盟,奶茶加盟店连锁品牌-甜啦啦官网| 防腐储罐_塑料储罐_PE储罐厂家_淄博富邦滚塑防腐设备科技有限公司 | 低温柔性试验仪-土工布淤堵-沥青车辙试验仪-莱博特(天津)试验机有限公司 | 阴离子_阳离子聚丙烯酰胺厂家_聚合氯化铝价格_水处理絮凝剂_巩义市江源净水材料有限公司 | 复合土工膜厂家|hdpe防渗土工膜|复合防渗土工布|玻璃纤维|双向塑料土工格栅-安徽路建新材料有限公司 | 压砖机_电动螺旋压力机_粉末成型压力机_郑州华隆机械tel_0371-60121717 | 广州展台特装搭建商|特装展位设计搭建|展会特装搭建|特装展台制作设计|展览特装公司 | 喷砂机厂家_自动喷砂机生产_新瑞自动化喷砂除锈设备 | 科箭WMS仓库管理软件-TMS物流管理系统-科箭SaaS云服务 | 等离子表面处理机-等离子表面活化机-真空等离子清洗机-深圳市东信高科自动化设备有限公司 | 半自动预灌装机,卡式瓶灌装机,注射器灌装机,给药器灌装机,大输液灌装机,西林瓶灌装机-长沙一星制药机械有限公司 |