中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊

包郵 深度強化學習

出版社:國防工業出版社出版時間:2024-06-01
開本: 16開 頁數: 176
中 圖 價:¥54.4(6.1折) 定價  ¥89.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深度強化學習 版權信息

  • ISBN:9787118131796
  • 條形碼:9787118131796 ; 978-7-118-13179-6
  • 裝幀:平裝-膠訂
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

深度強化學習 內容簡介

本書主要內容包括:介紹了強化學習的基本概念,如智能體、環境、狀態、獎勵、動作等;介紹了強化學習的數學和算法原理,如馬爾可夫決策過程和貝爾曼方程,并在此基礎上討論了動態規劃、值迭代和策略迭代方法;介紹了強化學習的估計與控制問題,并通過實例展示了Q學習的編程;深入探討了深度學習的概念、架構機制,通過介紹激活函數、損失函數、優化器、卷積層、池化層、全連接層等概念,為后續章節與強化學習算法相結合作鋪墊。

深度強化學習 目錄

第1章 強化學習簡介:AI智能體背后的智能
1.1 什么是人工智能,強化學習與它有什么關系
1.2 理解強化學習的基本設計
1.3 強化學習中的獎勵和確定一個合適的獎勵函數所涉及的問題
1.4 強化學習的狀態
1.5 強化學習中的智能體
1.6 小結
第2章 強化學習的數學和算法理解:馬爾可夫決策過程與解決方法
2.1 馬爾可夫決策過程
2.2 貝爾曼方程
2.3 動態規劃和貝爾曼方程
2.4 價值迭代和策略迭代方法
2.5 小結
第3章 編碼環境和馬爾可夫決策過程的求解:編碼環境、價值迭代和策略迭代算法
3.1 以網格世界問題為例
3.2 構建環境
3.3 平臺要求和代碼的工程架構
3.4 創建網格世界環境的代碼
3.5 基于價值迭代方法求解網格世界的代碼
3.6 基于策略迭代方法求解網格世界的代碼
3.7 小結
第4章 時序差分學習、SARSA和Q學習:幾種常用的基于值逼近的強化學習方法
4.1 經典DP的挑戰
4.2 基于模型和無模型的方法
4.3 時序差分(TD)學習
4.4 SARSA
4.5 Q學習
4.6 決定“探索”和“利用”之間概率的算法(賭博機算法)
4.7 小結
第5章 Q學習編程:Q學習智能體和行為策略編程
5.1 工程結構與依賴項
5.2 代碼
5.3 訓練統計圖
第6章 深度學習簡介
6.1 人工神經元——深度學習的基石
6.2 前饋深度神經網絡(DNN)
6.3 深度學習中的架構注意事項
6.4 卷積神經網絡——用于視覺深度學習
6.5 小結
第7章 可運用的資源:訓練環境和智能體實現庫
7.1 你并不孤單
7.2 標準化的訓練環境和平臺
7.3 Agent開發與實現庫
第8章 深度Q網絡、雙DQN和競爭DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”簡介
8.3 DQN算法
8.4 雙DQN算法
8.5 競爭DQN算法
8.6 小結
第9章 雙DQN的代碼:用£衰減行為策略編碼雙DQN
9.1 項目結構和依賴關系
9.2 雙DQN智能體的代碼(文件:DoubleDQN.py)
9.3 訓練統計圖
第10章 基于策略的強化學習方法:隨機策略梯度與REINFORCE算法
10.1 基于策略的方法和策略近似介紹
10.2 基于價值的方法和基于策略的方法的廣義區別
10.3 計算策略梯度的問題
10.4 REINFORCE算法
10.5 REINFORCE算法中減少方差的方法
10.6 為REINFORCE算法選擇基線
10.7 小結
第11章 演員-評論家模型和A3C:異步優勢演員-評論家模型
11.1 演員-評論家方法簡介
11.2 演員-評論家方法的概念設計
11.3 演員-評論家實現的架構
11.4 異步優勢行動者-評論家實現(A3C)
11.5 (同步)優勢演員-評論家實現(A2C)
11.6 小結
第12章 A3C的代碼:編寫異步優勢演員-評論家代碼
12.1 項目結構和依賴關系
12.2 代碼(A3C_Master—File:a3c_master.py)
12.3 訓練統計圖
第13章 確定性策略梯度和DDPG:基于確定性策略梯度的方法
13.1 確定性策略梯度(DPG)
13.2 深度確定性策略梯度(DDPG)
13.3 小結
第14章 DDPG的代碼:使用高級封裝的庫編寫DDPG的代碼
14.1 用于強化學習的高級封裝的庫
14.2 Mountain Car Continuous(Gym)環境
14.3 項目結構和依賴關系
14.4 代碼(文件:ddpg_continout_action.py)
14.5 智能體使用“MountainCarContinous-v0”環境
參考文獻
展開全部

深度強化學習 作者簡介

吳敏杰,博士,92728部隊助理研究員。2012年獲南京航空航天大學學士學位,2014年和2018年分別獲國防科技大學碩士、博士學位。以 作者通信作者共發表論文十余篇,其中SCI檢索4篇,EI檢索6篇。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 河南正规膏药生产厂家-膏药贴牌-膏药代加工-修康药业集团官网 | 膏方加工_丸剂贴牌_膏滋代加工_湖北康瑞生物科技有限公司 | 冷藏车-东风吸污车-纯电动环卫车-污水净化车-应急特勤保障车-程力专汽厂家-程力专用汽车股份有限公司销售二十一分公司 | 全自动定氮仪-半自动凯氏定氮仪厂家-祎鸿仪器 | 深圳善跑体育产业集团有限公司_塑胶跑道_人造草坪_运动木地板 | 菲希尔FISCHER测厚仪-铁素体检测仪-上海吉馨实业发展有限公司 | 真空粉体取样阀,电动楔式闸阀,电动针型阀-耐苛尔(上海)自动化仪表有限公司 | 新疆乌鲁木齐网站建设-乌鲁木齐网站制作设计-新疆远璨网络 | 谈股票-今日股票行情走势分析-牛股推荐排行榜 | 广州展览制作|展台制作工厂|展览设计制作|展览展示制作|搭建制作公司 | 三佳互联一站式网站建设服务|网站开发|网站设计|网站搭建服务商 赛默飞Thermo veritiproPCR仪|ProFlex3 x 32PCR系统|Countess3细胞计数仪|371|3111二氧化碳培养箱|Mirco17R|Mirco21R离心机|仟诺生物 | 苏州防水公司_厂房屋面外墙防水_地下室卫生间防水堵漏-苏州伊诺尔防水工程有限公司 | 纸布|钩编布|钩针布|纸草布-莱州佳源工艺纸布厂 | 北京翻译公司-专业合同翻译-医学标书翻译收费标准-慕迪灵 | 扒渣机厂家_扒渣机价格_矿用扒渣机_铣挖机_撬毛台车_襄阳永力通扒渣机公司 | PSI渗透压仪,TPS酸度计,美国CHAI PCR仪,渗透压仪厂家_价格,微生物快速检测仪-华泰和合(北京)商贸有限公司 | 工业雾炮机_超细雾炮_远程抑尘射雾器-世纪润德环保设备 | 全自动变压器变比组别测试仪-手持式直流电阻测试仪-上海来扬电气 | 新中天检测有限公司青岛分公司-山东|菏泽|济南|潍坊|泰安防雷检测验收 | 全自动定氮仪-半自动凯氏定氮仪厂家-祎鸿仪器 | Akribis直线电机_直线模组_力矩电机_直线电机平台|雅科贝思Akribis-杭州摩森机电科技有限公司 | ?水马注水围挡_塑料注水围挡_防撞桶-常州瑞轩水马注水围挡有限公司 | 铝板冲孔网,不锈钢冲孔网,圆孔冲孔网板,鳄鱼嘴-鱼眼防滑板,盾构走道板-江拓数控冲孔网厂-河北江拓丝网有限公司 | 土壤检测仪器_行星式球磨仪_土壤团粒分析仪厂家_山东莱恩德智能科技有限公司 | 泥沙分离_泥沙分离设备_泥砂分离机_洛阳隆中重工机械有限公司 | 金属清洗剂,防锈油,切削液,磨削液-青岛朗力防锈材料有限公司 | 烟台金蝶财务软件,烟台网站建设,烟台网络推广 | 深圳天际源广告-形象堆头,企业文化墙,喷绘,门头招牌设计制作专家 | 合景一建-无尘车间设计施工_食品医药洁净车间工程装修总承包公司 | 耐高温硅酸铝板-硅酸铝棉保温施工|亿欧建设工程 | 蓝莓施肥机,智能施肥机,自动施肥机,水肥一体化项目,水肥一体机厂家,小型施肥机,圣大节水,滴灌施工方案,山东圣大节水科技有限公司官网17864474793 | 深圳法律咨询【24小时在线】深圳律师咨询免费 | 塑料脸盆批发,塑料盆生产厂家,临沂塑料广告盆,临沂家用塑料盆-临沂市永顺塑业 | 标准件-非标紧固件-不锈钢螺栓-非标不锈钢螺丝-非标螺母厂家-三角牙锁紧自攻-南京宝宇标准件有限公司 | 立式_复合式_壁挂式智能化电伴热洗眼器-上海达傲洗眼器生产厂家 理化生实验室设备,吊装实验室设备,顶装实验室设备,实验室成套设备厂家,校园功能室设备,智慧书法教室方案 - 东莞市惠森教学设备有限公司 | 热缩管切管机-超声波切带机-织带切带机-无纺布切布机-深圳市宸兴业科技有限公司 | 上海平衡机-单面卧式动平衡机-万向节动平衡机-圈带动平衡机厂家-上海申岢动平衡机制造有限公司 | 磁力加热搅拌器-多工位|大功率|数显恒温磁力搅拌器-司乐仪器官网 | 江西自考网-江西自学考试网| 余姚生活网_余姚论坛_余姚市综合门户网站 | 桑茶-七彩贝壳桑叶茶 长寿茶 |