中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
>
JOY RL 強化學習實踐教程

包郵 JOY RL 強化學習實踐教程

出版社:人民郵電出版社出版時間:2025-04-01
開本: 16開 頁數: 172
中 圖 價:¥58.5(7.3折) 定價  ¥79.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

JOY RL 強化學習實踐教程 版權信息

  • ISBN:9787115631541
  • 條形碼:9787115631541 ; 978-7-115-63154-1
  • 裝幀:平裝
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:

JOY RL 強化學習實踐教程 本書特色

【深度實踐教程】繼“蘑菇書”后全新打造,助讀者快速入門強化學習代碼實踐。
【豐富內容覆蓋】涵蓋馬爾可夫決策過程、動態規劃、多種算法等核心知識。
【實踐經驗支撐】大部分內容基于三位作者實踐經驗編寫。
【開源框架助力】提供“JoyRL”開源代碼框架,適應業界應用研究風格。
【針對性強】適合有編程基礎且想快速進入實踐應用階段的讀者。
【知識提煉串聯】提煉強化學習核心理論,串聯知識點。
【原創內容呈現】融入針對策略梯度算法的兩種不同推導版本等原創內容

JOY RL 強化學習實踐教程 內容簡介

本書是繼《Easy RL:強化學習教程》(俗稱“蘑菇書”)之后,為強化學習的讀者專門打造的一本深入實踐的全新教程。全書大部分內容基于3位作者的實踐經驗,涵蓋馬爾可夫決策過程、動態規劃、免模型預測、免模型控制、深度學習基礎、DQN算法、DQN算法進階、策略梯度、Actor-Critic算法、DDPG與TD3算法、PPO算法等內容,旨在幫助讀者快速入門強化學習的代碼實踐,并輔以一套開源代碼框架“JoyRL”,便于讀者適應業界應用研究風格的代碼。
與“蘑菇書”不同,本書對強化學習核心理論進行提煉,并串聯知識點,重視強化學習代碼實踐的指導而不是對理論的詳細講解。本書適合具有一定編程基礎且希望快速進入實踐應用階段的讀者閱讀。

JOY RL 強化學習實踐教程 目錄

第 1 章 緒論 1
1.1 為什么要學習強化學習? 2
1.2 強化學習的應用 3
1.3 強化學習方向概述 6
1.3.1 多智能體強化學習 6
1.3.2 模仿學習和逆強化學習 6
1.3.3 探索策略 7
1.3.4 實時環境 7
1.3.5 多任務強化學習 8
1.4 學習本書之前的一些準備 8

第 2 章 馬爾可夫決策過程 10
2.1 馬爾可夫決策過程 10
2.2 馬爾可夫性質 12
2.3 回報 12
2.4 狀態轉移矩陣 13
2.5 本章小結 16
2.6 練習題 16

第 3 章 動態規劃 17
3.1 動態規劃的編程思想 17
3.2 狀態價值函數和動作價值函數 20
3.3 貝爾曼方程 20
3.4 策略迭代算法 22
3.5 價值迭代算法 23
3.6 本章小結 25
3.7 練習題 25

第 4 章 免模型預測 26
4.1 有模型與免模型 26
4.2 預測與控制 27
4.3 蒙特卡羅方法 27
4.4 時序差分方法 30
4.5 時序差分方法和蒙特卡羅方法的差異 31
4.6 n 步時序差分方法 32
4.7 本章小結 33
4.8 練習題 34

第 5 章 免模型控制 35
5.1 Q-learning 算法 35
5.1.1 Q 表格 36
5.1.2 探索策略 38
5.2 Sarsa 算法 39
5.3 同策略算法與異策略算法 40
5.4 實戰:Q-learning 算法 .41
5.4.1 定義訓練 41
5.4.2 定義算法 42
5.4.3 定義環境 44
5.4.4 設置參數 46
5.4.5 開始訓練 46
5.4.6 結果分析 48
5.4.7 消融實驗 49
5.5 實戰:Sarsa 算法 .50
5.6 本章小結 51
5.7 練習題 51

第 6 章 深度學習基礎 52
6.1 強化學習與深度學習的關系 52
6.2 線性回歸模型 55
6.3 梯度下降 56
6.4 邏輯回歸模型 57
6.5 全連接網絡 59
6.6 高級的神經網絡模型 60
6.7 本章小結 62
6.8 練習題 62

第 7 章 DQN 算法 63
7.1 深度神經網絡 63
7.2 經驗回放 65
7.3 目標網絡 67
7.4 實戰:DQN 算法 68
7.4.1 偽代碼 68
7.4.2 定義模型 69
7.4.3 經驗回放 70
7.4.4 定義智能體 71
7.4.5 定義環境 74
7.4.6 設置參數 75
7.5 本章小結 77
7.6 練習題 77

第 8 章 DQN 算法進階 78
8.1 Double DQN 算法 78
8.2 Dueling DQN 算法 80
8.3 Noisy DQN 算法 81
8.4 PER DQN 算法 82
8.5 實戰:Double DQN 算法 86
8.6 實戰:Dueling DQN 算法 87
8.7 實戰:Noisy DQN 算法 89
8.8 實戰:PER DQN 算法 92
8.8.1 偽代碼 92
8.8.2 SumTree 結構 93
8.8.3 PER . 95
8.9 本章小結 98
8.10 練習題 98

第 9 章 策略梯度 99
9.1 基于價值的算法的缺點 99
9.2 策略梯度算法 100
9.3 REINFORCE 算法 104
9.4 策略梯度推導進階 105
9.4.1 平穩分布 106
9.4.2 基于平穩分布的策略梯度推導 110
9.5 策略函數的設計 111
9.5.1 離散動作空間的策略函數 111
9.5.2 連續動作空間的策略函數 112
9.6 本章小結 112
9.7 練習題 113

第 10 章 Actor-Critic 算法 114
10.1 策略梯度算法的優缺點 114
10.2 Q Actor-Critic 算法 115
10.3 A2C 與 A3C 算法 116
10.4 廣義優勢估計 118
10.5 實戰:A2C 算法 119
10.5.1 定義模型 119
10.5.2 采樣動作 120
10.5.3 策略更新 121
10.6 本章小結 123
10.7 練習題 123

第 11 章 DDPG 與 TD3 算法 124
11.1 DPG 算法 124
11.2 DDPG 算法 126
11.3 DDPG 算法的優缺點 128
11.4 TD3 算法 129
11.4.1 雙 Q 網絡 130
11.4.2 延遲更新 130
11.4.3 噪聲正則化 131
11.5 實戰:DDPG 算法 131
11.5.1 DDPG 偽代碼 131
11.5.2 定義模型 132
11.5.3 動作采樣 133
11.6 實戰:TD3 算法 136
11.7 本章小結 138
11.8 練習題 138

第 12 章 PPO 算法 139
12.1 重要性采樣 139
12.2 PPO 算法141
12.3 一個常見的誤區 142
12.4 實戰:PPO 算法.143
12.4.1 PPO 算法偽代碼 143
12.4.2 PPO 算法更新 144
12.5 本章小結 146
12.6 練習題 146

練習題答案 147

展開全部

JOY RL 強化學習實踐教程 作者簡介

江季,網易高級算法工程師,碩士畢業于北京大學。Datawhale成員,《Easy RL:強化學習教程》《深度學習詳解》作者。主要研究方向為強化學習、深度學習、大模型、機器人等。曾獲國家獎學金、上海市優秀畢業生等,取得強化學習與游戲AI等相關專利多項。

王琦,上海交通大學人工智能重點實驗室博士研究生,碩士畢業于中國科學院大學。Datawhale成員,《Easy RL:強化學習教程》《深度學習詳解》作者,AI TIME成員,Hugging Face社區志愿者。主要研究方向為視覺強化學習與世界模型。曾獲“中國光谷·華為杯”第十九屆中國研究生數學建模競賽二等獎、中國大學生計算機設計大賽二等獎、亞太地區大學生數學建模競賽(APMCM)二等獎等,發表NeurIPS、ICLR Oral論文多篇。

楊毅遠,牛津大學計算機系博士研究生,碩士畢業于清華大學。Datawhale成員,《Easy RL:強化學習教程》《深度學習詳解》作者。主要研究方向為時間序列、數據挖掘、智能傳感系統、深度學習。曾獲國家獎學金、北京市優秀畢業生、清華大學優秀碩士學位論文獎、全國大學生智能汽車競賽總冠軍等,發表SCI、EI論文多篇。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 定时排水阀/排气阀-仪表三通旋塞阀-直角式脉冲电磁阀-永嘉良科阀门有限公司 | 浴室柜-浴室镜厂家-YINAISI · 意大利设计师品牌 | 咿耐斯 |-浙江台州市丰源卫浴有限公司 | 超声骨密度仪-骨密度检测仪-经颅多普勒-tcd仪_南京科进实业有限公司 | 合同书格式和范文_合同书样本模板_电子版合同,找范文吧 | 河南中整光饰机械有限公司-抛光机,去毛刺抛光机,精密镜面抛光机,全自动抛光机械设备 | 危废处理系统,水泥厂DCS集散控制系统,石灰窑设备自动化控制系统-淄博正展工控设备 | 品牌策划-品牌设计-济南之式传媒广告有限公司官网-提供品牌整合丨影视创意丨公关活动丨数字营销丨自媒体运营丨数字营销 | 沈阳建筑设计公司_加固改造设计_厂房设计_设计资质加盟【金辉设计】 | 杭州营业执照代办-公司变更价格-许可证办理流程_杭州福道财务管理咨询有限公司 | 小区健身器材_户外健身器材_室外健身器材_公园健身路径-沧州浩然体育器材有限公司 | 机器视觉检测系统-视觉检测系统-机器视觉系统-ccd检测系统-视觉控制器-视控一体机 -海克易邦 | sfp光模块,高速万兆光模块工厂-性价比更高的光纤模块制造商-武汉恒泰通 | 冷轧机|两肋冷轧机|扁钢冷轧机|倒立式拉丝机|钢筋拔丝机|收线机-巩义市华瑞重工机械制造有限公司 | 深圳快餐店设计-餐饮设计公司-餐饮空间品牌全案设计-深圳市勤蜂装饰工程 | 【甲方装饰】合肥工装公司-合肥装修设计公司,专业从事安徽办公室、店面、售楼部、餐饮店、厂房装修设计服务 | 蔡司三坐标-影像测量机-3D扫描仪-蔡司显微镜-扫描电镜-工业CT-ZEISS授权代理商三本工业测量 | 压力控制器,差压控制器,温度控制器,防爆压力控制器,防爆温度控制器,防爆差压控制器-常州天利智能控制股份有限公司 | 彼得逊采泥器-定深式采泥器-电动土壤采样器-土壤样品风干机-常州索奥仪器制造有限公司 | 细砂提取机,隔膜板框泥浆污泥压滤机,螺旋洗砂机设备,轮式洗砂机械,机制砂,圆锥颚式反击式破碎机,振动筛,滚筒筛,喂料机- 上海重睿环保设备有限公司 | 胀套-锁紧盘-风电锁紧盘-蛇形联轴器「厂家」-瑞安市宝德隆机械配件有限公司 | 食药成分检测_调料配方还原_洗涤剂化学成分分析_饲料_百检信息科技有限公司 | 消泡剂_水处理消泡剂_切削液消泡剂_涂料消泡剂_有机硅消泡剂_广州中万新材料生产厂家 | 太阳能发电系统-太阳能逆变器,控制器-河北沐天太阳能科技首页 | 切铝机-数控切割机-型材切割机-铝型材切割机-【昆山邓氏精密机械有限公司】 | 高压贴片电容|贴片安规电容|三端滤波器|风华电容代理南京南山 | 100国际学校招生 - 专业国际学校择校升学规划 | 水厂自动化|污水处理中控系统|水利信息化|智慧水务|智慧农业-山东德艾自动化科技有限公司 | 糖衣机,除尘式糖衣机,全自动糖衣机,泰州市长江制药机械有限公司 体感VRAR全息沉浸式3D投影多媒体展厅展会游戏互动-万展互动 | 电伴热系统施工_仪表电伴热保温箱厂家_沃安电伴热管缆工业技术(济南)有限公司 | 考勤系统_考勤管理系统_网络考勤软件_政企|集团|工厂复杂考勤工时统计排班管理系统_天时考勤 | 单锥双螺旋混合机_双螺旋锥形混合机-无锡新洋设备科技有限公司 | 冷柜风机-冰柜电机-罩极电机-外转子风机-EC直流电机厂家-杭州金久电器有限公司 | 中矗模型-深圳中矗模型设计有限公司 | 合肥抖音SEO网站优化-网站建设-网络推广营销公司-百度爱采购-安徽企匠科技 | 智慧消防-消防物联网系统云平台| 房车价格_依维柯/大通/东风御风/福特全顺/江铃图片_云梯搬家车厂家-程力专用汽车股份有限公司 | 切铝机-数控切割机-型材切割机-铝型材切割机-【昆山邓氏精密机械有限公司】 | 房屋质量检测-厂房抗震鉴定-玻璃幕墙检测-房屋安全鉴定机构 | 电镀整流器_微弧氧化电源_高频电解电源_微弧氧化设备厂家_深圳开瑞节能 | 选矿设备,选矿生产线,选矿工艺,选矿技术-昆明昆重矿山机械 | 地埋式垃圾站厂家【佳星环保】小区压缩垃圾中转站转运站 |