中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >
深度強(qiáng)化學(xué)習(xí)算法與實(shí)踐:基于PyTorch的實(shí)現(xiàn)

包郵 深度強(qiáng)化學(xué)習(xí)算法與實(shí)踐:基于PyTorch的實(shí)現(xiàn)

作者:張校捷
出版社:電子工業(yè)出版社出版時(shí)間:2022-02-01
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 256
中 圖 價(jià):¥77.8(7.2折) 定價(jià)  ¥108.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車 收藏
開(kāi)年大促, 全場(chǎng)包郵
?新疆、西藏除外
本類五星書(shū)更多>

深度強(qiáng)化學(xué)習(xí)算法與實(shí)踐:基于PyTorch的實(shí)現(xiàn) 版權(quán)信息

深度強(qiáng)化學(xué)習(xí)算法與實(shí)踐:基于PyTorch的實(shí)現(xiàn) 本書(shū)特色

1. 理論結(jié)合實(shí)踐,從*基礎(chǔ)的知識(shí)開(kāi)始,深入算法本質(zhì) 2. 介紹各種強(qiáng)化學(xué)習(xí)環(huán)境及其使用方法 3. 利用PyTorch動(dòng)態(tài)計(jì)算圖的特點(diǎn)構(gòu)造深度學(xué)習(xí)算法 4. 涵蓋各種強(qiáng)化學(xué)習(xí)算法,包括基于價(jià)值函數(shù)和基于策略的強(qiáng)化學(xué)習(xí)算法 5. 介紹強(qiáng)化學(xué)習(xí)在不同領(lǐng)域的應(yīng)用,如何根據(jù)具體情況選擇不同的強(qiáng)化學(xué)習(xí)算法

深度強(qiáng)化學(xué)習(xí)算法與實(shí)踐:基于PyTorch的實(shí)現(xiàn) 內(nèi)容簡(jiǎn)介

本書(shū)從強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)出發(fā),結(jié)合PyTorch深度學(xué)習(xí)框架,介紹深度強(qiáng)化學(xué)習(xí)算法各種模型的相關(guān)算法原理和基于PyTorch的代碼實(shí)現(xiàn)。作為一本介紹深度強(qiáng)化學(xué)習(xí)知識(shí)的相關(guān)圖書(shū),本書(shū)介紹了常用的強(qiáng)化學(xué)習(xí)環(huán)境,基于價(jià)值網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法和基于策略梯度的強(qiáng)化學(xué)習(xí)算法,以及一些常用的比較流行的深度強(qiáng)化學(xué)習(xí)算法(如蒙特卡洛樹(shù)搜索)等。另外,還介紹了深度強(qiáng)化學(xué)習(xí)算法在實(shí)際問(wèn)題中的一些應(yīng)用。

深度強(qiáng)化學(xué)習(xí)算法與實(shí)踐:基于PyTorch的實(shí)現(xiàn) 目錄

第1章 強(qiáng)化學(xué)習(xí)簡(jiǎn)介 1
1.1 強(qiáng)化學(xué)習(xí)的歷史 1
1.1.1 人工智能的歷史 1
1.1.2 強(qiáng)化學(xué)習(xí)和人工智能的關(guān)系 4
1.2 強(qiáng)化學(xué)習(xí)基本概念 8
1.2.1 智能體相關(guān)概念 8
1.2.2 馬爾可夫決策過(guò)程 9
1.2.3 動(dòng)作價(jià)值函數(shù)和狀態(tài)-動(dòng)作價(jià)值函數(shù) 11
1.3 強(qiáng)化學(xué)習(xí)算法的分類 12
1.3.1 基于模型的(Model-Based)和無(wú)模型的(Model-Free) 13
1.3.2 基于策略的(Policy-Based)和基于價(jià)值的(Value-Based) 13
1.3.3 在線(On-policy)算法和離線(Off-policy)算法 13
1.4 深度強(qiáng)化學(xué)習(xí)基本概念 14
1.5 強(qiáng)化學(xué)習(xí)的優(yōu)缺點(diǎn) 15
1.6 蒙特卡洛梯度估計(jì) 15
1.7 總結(jié) 19
第2章 深入了解強(qiáng)化學(xué)習(xí) 20
2.1 強(qiáng)化學(xué)習(xí)基本要素 20
2.1.1 馬爾可夫決策過(guò)程和回溯圖 20
2.1.2 貪心策略和*優(yōu)策略 22
2.1.3 *優(yōu)策略的迭代算法 24
2.2 強(qiáng)化學(xué)習(xí)的探索和利用 26
2.3 策略迭代和價(jià)值迭代 32
2.3.1 策略迭代 32
2.3.2 價(jià)值迭代 33
2.4 貝爾曼方程及其應(yīng)用 35
2.5 總結(jié) 37
第3章 強(qiáng)化學(xué)習(xí)環(huán)境 38
3.1 簡(jiǎn)單的強(qiáng)化學(xué)習(xí)環(huán)境 39
3.1.1 網(wǎng)格世界(Grid World) 39
3.1.2 多臂賭博機(jī)(Multi-armed Bandit) 40
3.1.3 井字棋(Tic-Tac-Toe) 40
3.2 OpenAI Gym環(huán)境 47
3.2.1 Gym環(huán)境的安裝和基本接口 47
3.2.2 Gym的經(jīng)典控制環(huán)境 50
3.2.3 Gym的Atari強(qiáng)化學(xué)習(xí)環(huán)境 53
3.2.4 Gym的MuJoCo環(huán)境 55
3.2.5 自定義Gym強(qiáng)化學(xué)習(xí)環(huán)境 57
3.3 DeepMind Lab強(qiáng)化學(xué)習(xí)環(huán)境 60
3.4 其他強(qiáng)化學(xué)習(xí)環(huán)境 63
3.4.1 PySC2 強(qiáng)化學(xué)習(xí)環(huán)境 63
3.4.2 OpenSpiel強(qiáng)化學(xué)習(xí)環(huán)境 66
3.5 深度強(qiáng)化學(xué)習(xí)框架簡(jiǎn)介 68
3.5.1 Dopamine框架 68
3.5.1 ReAgent框架 70
3.6 總結(jié) 71
第4章 深度Q函數(shù)強(qiáng)化學(xué)習(xí)算法 72
4.1 經(jīng)典深度Q網(wǎng)絡(luò)算法(DQN) 72
4.1.1 DQN算法理論背景 73
4.1.2 DQN模型結(jié)構(gòu) 75
4.1.3 DQN模型的輸入 78
4.1.4 DQN模型的訓(xùn)練 80
4.1.5 結(jié)合DQN算法的采樣和模型的訓(xùn)練 82
4.2 雙網(wǎng)絡(luò)Q學(xué)習(xí)算法(Double Q-Learning) 84
4.2.1 算法原理 84
4.2.2 算法實(shí)現(xiàn) 86
4.2.3 算法效果 88
4.3 優(yōu)先經(jīng)驗(yàn)回放(Prioritized Experience Replay) 89
4.3.1 算法原理 89
4.3.2 算法實(shí)現(xiàn) 92
4.3.3 算法效果 95
4.4 競(jìng)爭(zhēng)DQN算法(Duel DQN) 96
4.4.1 算法原理 98
4.4.2 算法實(shí)現(xiàn) 99
4.4.3 算法效果 102
4.5 分布形式的DQN算法(Distributional DQN) 103
4.5.1 分類DQN模型 103
4.5.2 分類DQN模型算法實(shí)現(xiàn) 106
4.5.3 分類DQN模型算法效果 110
4.5.4 分位數(shù)回歸DQN模型 111
4.5.5 分位數(shù)回歸DQN模型算法實(shí)現(xiàn) 112
4.5.6 分位數(shù)回歸DQN模型算法效果 115
4.5.7 分類DQN模型小結(jié) 116
4.6 彩虹算法(Rainbow) 117
4.6.1 彩虹算法對(duì)DQN的優(yōu)化 117
4.6.2 彩虹算法的部分實(shí)現(xiàn) 120
4.6.3 彩虹算法的模型效果 125
4.7 總結(jié) 128
第5章 策略梯度強(qiáng)化學(xué)習(xí)算法 129
5.1 經(jīng)典策略梯度算法(VPG) 130
5.1.1 算法原理 130
5.1.2 基于離散動(dòng)作空間算法的模型實(shí)現(xiàn) 132
5.1.3 基于離散動(dòng)作空間算法的運(yùn)行結(jié)果 137
5.1.4 基于連續(xù)動(dòng)作空間算法的實(shí)現(xiàn) 138
5.1.5 基于連續(xù)動(dòng)作空間算法的運(yùn)行結(jié)果 143
5.1.6 小結(jié) 144
5.2 優(yōu)勢(shì)演員-評(píng)論家算法(A2C和A3C) 145
5.2.1 算法原理 145
5.2.2 泛化優(yōu)勢(shì)估計(jì)(Generalized Advantage Estimation) 147
5.2.3 熵正則化方法 149
5.2.4 優(yōu)勢(shì)演員-評(píng)論家算法的實(shí)現(xiàn)(離散動(dòng)作空間) 149
5.2.5 優(yōu)勢(shì)演員-評(píng)論家算法運(yùn)行效果(離散動(dòng)作空間) 158
5.2.6 算法實(shí)現(xiàn)(連續(xù)動(dòng)作空間) 158
5.2.7 運(yùn)行效果(連續(xù)動(dòng)作空間) 160
5.2.8 異步優(yōu)勢(shì)演員-評(píng)論家算法的實(shí)現(xiàn) 160
5.2.9 異步優(yōu)勢(shì)演員-評(píng)論家算法的效果 164
5.3 置信區(qū)間策略優(yōu)化算法 165
5.3.1 算法原理 166
5.3.2 近端策略優(yōu)化算法的實(shí)現(xiàn) 172
5.3.3 近端策略優(yōu)化算法的效果(離散動(dòng)作空間) 174
5.4 克羅內(nèi)克分解近似置信區(qū)間算法(ACKTR) 175
5.4.1 算法原理 175
5.4.2 算法實(shí)現(xiàn) 179
5.4.3 算法效果 183
5.5 軟演員-評(píng)論家算法(SAC) 184
5.5.1 算法的基本原理 184
5.5.2 算法的實(shí)現(xiàn)(連續(xù)動(dòng)作空間) 186
5.5.3 算法的效果(連續(xù)動(dòng)作空間) 193
5.6 總結(jié) 194
第6章 其他強(qiáng)化學(xué)習(xí)算法 195
6.1 噪聲網(wǎng)絡(luò)(Noisy Networks) 195
6.1.1 噪聲網(wǎng)絡(luò)的原理 195
6.1.2 噪聲網(wǎng)絡(luò)的實(shí)現(xiàn) 197
6.1.3 噪聲網(wǎng)絡(luò)的效果 201
6.2 深度確定性策略梯度算法(DDPG) 203
6.2.1 算法原理 203
6.2.2 算法實(shí)現(xiàn) 205
6.2.3 算法效果 209
6.3 雙延遲深度確定性策略梯度算法(TD3) 210
6.3.1 算法原理 210
6.3.2 算法實(shí)現(xiàn) 211
6.3.3 算法效果 213
6.4 蒙特卡洛樹(shù)搜索(MCTS) 214
6.4.1 算法原理 214
6.4.2 算法的基本步驟 215
6.4.3 算法使用的模型 219
6.4.4 算法的博弈樹(shù)表示 221
6.4.5 算法的搜索執(zhí)行過(guò)程 222
6.5 總結(jié) 225
第7章 深度強(qiáng)化學(xué)習(xí)在實(shí)踐中的應(yīng)用 226
7.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(NAS) 226
7.1.1 算法原理 226
7.1.2 算法效果 229
7.1.3 總結(jié) 230
7.2 超分辨率模型 (SRGAN) 230
7.2.1 算法原理 231
7.2.2 總結(jié) 232
7.3 序列生成模型(SeqGAN) 233
7.3.1 算法原理 233
7.3.2 總結(jié) 235
7.4 基于深度強(qiáng)化學(xué)習(xí)的推薦系統(tǒng) 235
7.4.1 推薦系統(tǒng)的強(qiáng)化學(xué)習(xí)環(huán)境構(gòu)建 236
7.4.2 推薦系統(tǒng)的強(qiáng)化學(xué)習(xí)算法 237
7.4.3 總結(jié) 238
7.5 基于深度強(qiáng)化學(xué)習(xí)的交易系統(tǒng) 239
7.5.1 算法原理 239
7.5.2 總結(jié) 241
7.6 總結(jié) 241
附錄A 本書(shū)使用的數(shù)學(xué)符號(hào) 242
參考文獻(xiàn) 244

展開(kāi)全部

深度強(qiáng)化學(xué)習(xí)算法與實(shí)踐:基于PyTorch的實(shí)現(xiàn) 作者簡(jiǎn)介

張校捷,Shopee資深機(jī)器學(xué)習(xí)工程師,負(fù)責(zé)推薦系統(tǒng)的算法實(shí)現(xiàn)和優(yōu)化。目前主要使用的技術(shù)棧是深度學(xué)習(xí)框架后端的C/C++/CUDA,以及深度學(xué)習(xí)框架前端的Python。熟悉主流的深度學(xué)習(xí)框架,如PyTorch和TensorFlow,同時(shí)熟悉計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和推薦系統(tǒng)方面的深度學(xué)習(xí)算法。作者曾多次作為專題演講嘉賓,受邀參加Google、PyCon和CSDN主辦的技術(shù)大會(huì)。

商品評(píng)論(0條)
暫無(wú)評(píng)論……
書(shū)友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 黄石妇科医院_黄石东方女子医院_黄石东方妇产医院怎么样 | 高压无油空压机_无油水润滑空压机_水润滑无油螺杆空压机_无油空压机厂家-科普柯超滤(广东)节能科技有限公司 | 百度网站优化,关键词排名,SEO优化-搜索引擎营销推广 | 宿松新闻网 宿松网|宿松在线|宿松门户|安徽宿松(直管县)|宿松新闻综合网站|宿松官方新闻发布 | VI设计-LOGO设计公司-品牌设计公司-包装设计公司-导视设计-杭州易象设计 | 淘气堡_室内儿童乐园_户外无动力儿童游乐设备-高乐迪(北京) | 1000帧高速摄像机|工业高速相机厂家|科天健光电技术 | PSI渗透压仪,TPS酸度计,美国CHAI PCR仪,渗透压仪厂家_价格,微生物快速检测仪-华泰和合(北京)商贸有限公司 | 罐体电伴热工程-消防管道电伴热带厂家-山东沃安电气 | 山东PE给水管厂家,山东双壁波纹管,山东钢带增强波纹管,山东PE穿线管,山东PE农田灌溉管,山东MPP电力保护套管-山东德诺塑业有限公司 | 小型单室真空包装机,食品单室真空包装机-百科 | 锯边机,自动锯边机,双面涂胶机-建业顺达机械有限公司 | 培训一点通 - 合肥驾校 - 合肥新亚驾校 - 合肥八一驾校 | 南京办公用品网-办公文具用品批发-打印机耗材采购 | 大连海岛旅游网>>大连旅游,大连海岛游,旅游景点攻略,海岛旅游官网 | 120kv/2mA直流高压发生器-60kv/2mA-30kva/50kv工频耐压试验装置-旭明电工 | led全彩屏-室内|学校|展厅|p3|户外|会议室|圆柱|p2.5LED显示屏-LED显示屏价格-LED互动地砖屏_蕙宇屏科技 | 电采暖锅炉_超低温空气源热泵_空气源热水器-鑫鲁禹电锅炉空气能热泵厂家 | 青岛侦探_青岛侦探事务所_青岛劝退小三_青岛调查出轨取证公司_青岛婚外情取证-青岛探真调查事务所 | 掺铥光纤放大器-C/L波段光纤放大器-小信号光纤放大器-合肥脉锐光电技术有限公司 | 北京浩云律师事务所-企业法律顾问_破产清算等公司法律服务 | 合肥展厅设计-安徽展台设计-合肥展览公司-安徽奥美展览工程有限公司 | 密集架-密集柜厂家-智能档案密集架-自动选层柜订做-河北风顺金属制品有限公司 | 润东方环保空调,冷风机,厂房车间降温设备-20年深圳环保空调生产厂家 | 西安文都考研官网_西安考研辅导班_考研培训机构_西安在职考研培训 | 电缆接头_防水接头_电缆防水接头_防水电缆接头_上海闵彬 | 珠海白蚁防治_珠海灭鼠_珠海杀虫灭鼠_珠海灭蟑螂_珠海酒店消杀_珠海工厂杀虫灭鼠_立净虫控防治服务有限公司 | 澳洁干洗店加盟-洗衣店干洗连锁「澳洁干洗免费一对一贴心服务」 干洗加盟网-洗衣店品牌排行-干洗设备价格-干洗连锁加盟指南 | 烟气换热器_GGH烟气换热器_空气预热器_高温气气换热器-青岛康景辉 | 商用绞肉机-熟肉切片机-冻肉切丁机-猪肉开条机 - 广州市正盈机械设备有限公司 | 土壤养分检测仪|土壤水分|土壤紧实度测定仪|土壤墒情监测系统-土壤仪器网 | 开云(中国)Kaiyun·官方网站 - 登录入口 | 机构创新组合设计实验台_液压实验台_气动实训台-戴育教仪厂 | 热闷罐-高温罐-钢渣热闷罐-山东鑫泰鑫智能热闷罐厂家 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 手板_手板模型制作_cnc手板加工厂-东莞天泓 | 柴油机_柴油发电机_厂家_品牌-江苏卡得城仕发动机有限公司 | 磁力链接搜索神器_BT磁力狗_CILIMAO磁力猫_高效磁力搜索引擎2024 | 圆窗水平仪|伊莉莎冈特elesa+ganter| 氨水-液氨-工业氨水-氨水生产厂家-辽宁顺程化工 | 武汉印刷厂-不干胶标签印刷厂-武汉不干胶印刷-武汉标签印刷厂-武汉标签制作 - 善进特种标签印刷厂 |