中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
深度強化學習

包郵 深度強化學習

出版社:清華大學出版社出版時間:2021-08-01
開本: 其他 頁數: 243
中 圖 價:¥47.6(8.0折) 定價  ¥59.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深度強化學習 版權信息

  • ISBN:9787302578208
  • 條形碼:9787302578208 ; 978-7-302-57820-8
  • 裝幀:70g膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

深度強化學習 本書特色

強化學習是目前機器學習領域*熱門的方向之一,本書經多年的實踐教學經驗的積累,形成了一套完整的教學體系。并結合流行的深度學習框架PyTorch,該書在理論和應用上都是較先進的。本書理論結合實踐,深入淺出地講解相關算法和實例。

深度強化學習 內容簡介

本書基于PyTorch框架,用通俗易懂的語言深入淺出地介紹了強化學習的基本原理,包括傳統的強化學習基本方法和目前流行的深度強化學習方法。在對強化學習任務建模的基礎上,首先介紹動態規劃法、蒙特卡洛法、時序差分法等表格式強化學習方法,然后介紹在PyTorch框架下,DQN、DDPG、A3C等基于深度神經網絡的大規模強化學習方法。全書以一個掃地機器人任務貫穿始終,并給出具有代表性的實例,增加對每個算法的理解。全書配有PPT和視頻講解,對相關算法和實例配有代碼程序。 全書共分三部分: 和第二部分(~8章)為表格式強化學習部分,著重介紹深度強化學習概述、環境的配置、數學建模、動態規劃法、蒙特卡洛法、時序差分法、n步時序差分法、規劃和蒙特卡洛樹搜索; 第三部分(第9~14章)為深度強化學習部分,著重介紹深度學習、PyTorch與神經網絡、深度Q網絡、策略梯度、基于確定性策略梯度的深度強化學習、AC框架的拓展。全書提供了大量的應用實例,每章章末均附有習題。 本書既適合作為高等院校計算機、軟件工程、電子工程等相關專業高年級本科生、研究生的教材,又可為人工智能、機器學習等領域從事項目開發、科學研究的人員提供參考。

深度強化學習 目錄

**部分: 預備知識及環境安裝

第1章深度強化學習概述


1.1引言


1.2深度學習


1.3強化學習


1.4深度強化學習


1.5小結


1.6習題


第2章環境的配置


2.1PyTorch簡介


2.2PyTorch和TensorFlow


2.3強化學習的開發環境


2.3.1Anaconda環境搭建


2.3.2Anaconda環境管理


2.3.3PyTorch的安裝


2.3.4Jupyter Notebook的安裝


2.3.5Jupyter Notebook的使用


2.3.6Gym的安裝


2.3.7Gym案例


2.4小結


2.5習題



第二部分: 表格式強化學習

第3章數學建模


3.1馬爾可夫決策過程


3.2基于模型與無模型


3.3求解強化學習任務


3.3.1策略


3.3.2獎賞與回報


3.3.3值函數與貝爾曼方程


3.3.4*優策略與*優值函數


3.4探索與利用


3.5小結


3.6習題


第4章動態規劃法


4.1策略迭代


4.1.1策略評估


4.1.2策略迭代


4.2值迭代


4.3廣義策略迭代


4.4小結


4.5習題


第5章蒙特卡洛法


5.1蒙特卡洛法的基本概念


5.1.1MC的核心要素


5.1.2MC的特點


5.2蒙特卡洛預測


5.3蒙特卡洛評估


5.4蒙特卡洛控制


5.4.1基于探索始點的蒙特卡洛控制


5.4.2同策略蒙特卡洛控制


5.4.3異策略與重要性采樣


5.4.4蒙特卡洛中的增量式計算


5.4.5異策略蒙特卡洛控制


5.5小結


5.6習題


第6章時序差分法


6.1時序差分預測


6.2時序差分控制


6.2.1Sarsa算法


6.2.2QLearning算法


6.2.3期望Sarsa算法


6.3*大化偏差與Double QLearning


6.3.1*大化偏差


6.3.2Double Learning


6.3.3Double QLearning


6.4DP、MC和TD算法的關系


6.4.1窮舉式遍歷與軌跡采樣


6.4.2期望更新與采樣更新


6.5小結


6.6習題


第7章n步時序差分法


7.1n步TD預測及資格跡


7.1.1n步TD預測


7.1.2前向TD(λ)算法


7.1.3后向TD(λ)算法


7.2n步TD控制及其資格跡實現


7.2.1同策略n步Sarsa算法


7.2.2Sarsa(λ)算法


7.2.3異策略n步Sarsa算法


7.2.4n步Tree Backup算法


7.3小結


7.4習題


第8章規劃和蒙特卡洛樹搜索


8.1模型、學習與規劃


8.1.1模型


8.1.2學習


8.1.3規劃


8.2DynaQ結構及其算法改進


8.2.1DynaQ架構


8.2.2優先遍歷


8.2.3模擬模型的錯誤性


8.3決策時間規劃


8.3.1啟發式搜索


8.3.2預演算法


8.3.3蒙特卡洛樹搜索


8.4小結


8.5習題



第三部分: 深度強化學習


第9章深度學習


9.1傳統神經網絡


9.1.1感知器神經元


9.1.2激活函數


9.2反向傳播算法


9.2.1前向傳播


9.2.2權重調整


9.2.3BP算法推導


9.3卷積神經網絡


9.3.1卷積神經網絡核心思想


9.3.2卷積神經網絡結構


9.4小結


9.5習題


第10章PyTorch與神經網絡


10.1PyTorch中的Tensor


10.1.1直接構造法


10.1.2間接轉換法


10.1.3Tensor的變換


10.2自動梯度計算


10.2.1標量對標量的自動梯度計算


10.2.2向量對向量的自動梯度計算


10.2.3標量對向量(或矩陣)的自動梯度計算


10.3神經網絡的模型搭建和參數優化


10.3.1模型的搭建


10.3.2激活函數


10.3.3常用的損失函數


10.3.4模型的保存和重載


10.4小結


10.5習題


第11章深度Q網絡


11.1DQN算法


11.1.1核心思想


11.1.2訓練算法


11.1.3實驗結果與分析


11.2Double DQN算法


11.2.1核心思想


11.2.2實驗結果與分析


11.3Prioritized DQN


11.3.1核心思想


11.3.2訓練算法


11.3.3實驗結果與分析


11.4Dueling DQN


11.4.1訓練算法


11.4.2實驗結果與分析


11.5小結


11.6習題


第12章策略梯度法


12.1隨機策略梯度法


12.1.1梯度上升算法


12.1.2策略梯度法與值函數逼近法的比較


12.2策略優化方法


12.2.1情節式策略目標函數


12.2.2連續式策略目標函數


12.2.3策略梯度定理


12.3策略表達形式


12.3.1離散動作空間策略參數化


12.3.2連續動作空間策略參數化


12.4蒙特卡洛策略梯度法


12.4.1REINFORCE


12.4.2REINFORCE算法的實驗結果與分析


12.4.3帶基線的REINFORCE


12.4.4帶基線的REINFORCE算法的實驗結果與分析


12.5行動者評論家


12.6確定性策略梯度定理


12.7小結


12.8習題


第13章基于確定性策略梯度的深度強化學習


13.1DDPG算法


13.1.1算法背景


13.1.2核心思想


13.1.3DDPG算法


13.2DDPG算法的實驗結果與分析


13.2.1DDPG算法網絡結構與超參數設置


13.2.2實驗環境


13.2.3實驗結果與分析


13.3雙延遲確定性策略梯度算法


13.3.1過高估計問題解決方案


13.3.2累計誤差問題解決方案


13.3.3TD3算法


13.3.4實驗結果與分析


13.4小結


13.5習題


第14章基于AC框架的深度強化學習


14.1行動者評論家框架


14.2A3C算法


14.2.1算法的核心思想


14.2.2異步1步Q學習算法


14.2.3A3C算法


14.2.4實驗結果與分析


14.3A2C算法


14.3.1A2C算法


14.3.2實驗結果與分析


14.4小結


14.5習題



參考文獻

展開全部

深度強化學習 作者簡介

劉全,蘇州大學教授,博士生導師。 吉林大學博士, 南京大學軟件新技術國家重點實驗室博士后。蘇州市人工智能學會常務理事、秘書長。2006年開始從事強化學習 領域的教學和科研工作。主講研究生、本科生《強化學習》及相關課程16次。主持“深度強化學習方法研究”、“部分感知強化學習理論及方法”、“基于tableau的邏輯強化學習研究”等國家、省部級項目10余項。目前主要研究方向為:深度強化學習。 2012年獲江蘇省教工委優秀共產黨員稱號。2011年、2012年入選江蘇省“六大人才”、江蘇省“333”人才培養計劃。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 北钻固控设备|石油钻采设备-石油固控设备厂家 | 农业四情_农业气象站_田间小型气象站_智慧农业气象站-山东风途物联网 | 月嫂_保姆_育婴_催乳_母婴护理_产后康复_养老护理-吉祥到家家政 硫酸亚铁-聚合硫酸铁-除氟除磷剂-复合碳源-污水处理药剂厂家—长隆科技 | 警用|治安|保安|不锈钢岗亭-售货亭价格-垃圾分类亭-移动厕所厂家-苏州灿宇建材 | 高中学习网-高考生信息学习必备平台 | 西门子伺服控制器维修-伺服驱动放大器-828D数控机床维修-上海涌迪 | 琉璃瓦-琉璃瓦厂家-安徽盛阳新型建材科技有限公司 | 铁素体测量仪/检测仪/铁素体含量测试仪-苏州圣光仪器有限公司 | 悬浮拼装地板_篮球场木地板翻新_运动木地板价格-上海越禾运动地板厂家 | 磷酸肌酸二钠盐,肌酐磷酰氯-沾化欣瑞康生物科技 | jrs高清nba(无插件)直播-jrs直播低调看直播-jrs直播nba-jrs直播 上海地磅秤|电子地上衡|防爆地磅_上海地磅秤厂家–越衡称重 | uv固化机-丝印uv机-工业烤箱-五金蚀刻机-分拣输送机 - 保定市丰辉机械设备制造有限公司 | 北京网站建设|北京网站开发|北京网站设计|高端做网站公司 | 400电话_400电话申请_888元包年_400电话办理服务中心_400VIP网 | 学叉车培训|叉车证报名|叉车查询|叉车证怎么考-工程机械培训网 | 便民信息网_家电维修,家电清洗,开锁换锁,本地家政公司 | 无味渗透剂,泡沫抑尘剂,烷基糖苷-威海威能化工有限公司 | 撕碎机,撕破机,双轴破碎机-大件垃圾破碎机厂家 | 深圳湾1号房价_深圳湾1号二手房源 | 工业机械三维动画制作 环保设备原理三维演示动画 自动化装配产线三维动画制作公司-南京燃动数字 聚合氯化铝_喷雾聚氯化铝_聚合氯化铝铁厂家_郑州亿升化工有限公司 | 浙江皓格药业有限公司| 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 拉力测试机|材料拉伸试验机|电子拉力机价格|万能试验机厂家|苏州皖仪实验仪器有限公司 | 小程序开发公司_APP开发多少钱_软件开发定制_微信小程序制作_客户销售管理软件-济南小溪畅流网络科技有限公司 | 水平垂直燃烧试验仪-灼热丝试验仪-漏电起痕试验仪-针焰试验仪-塑料材料燃烧检测设备-IP防水试验机 | 密封圈_泛塞封_格莱圈-[东莞市国昊密封圈科技有限公司]专注密封圈定制生产厂家 | 楼梯定制_楼梯设计施工厂家_楼梯扶手安装制作-北京凌步楼梯 | 深圳希玛林顺潮眼科医院(官网)│深圳眼科医院│医保定点│香港希玛林顺潮眼科中心连锁品牌 | PC构件-PC预制构件-构件设计-建筑预制构件-PC构件厂-锦萧新材料科技(浙江)股份有限公司 | 河南彩印编织袋,郑州饲料编织袋定制,肥料编织袋加工厂-盛军塑业 河南凯邦机械制造有限公司 | 卓能JOINTLEAN端子连接器厂家-专业提供PCB接线端子|轨道式端子|重载连接器|欧式连接器等电气连接产品和服务 | 广西绿桂涂料--承接隔热涂料、隔音涂料、真石漆、多彩仿石漆等涂料工程双包施工 | 耳模扫描仪-定制耳机设计软件-DLP打印机-asiga打印机-fitshape「飞特西普」 | 基业箱_环网柜_配电柜厂家_开关柜厂家_开关断路器-东莞基业电气设备有限公司 | 邢台人才网_邢台招聘网_邢台123招聘【智达人才网】 | DWS物流设备_扫码称重量方一体机_快递包裹分拣机_广东高臻智能装备有限公司 | Win10系统下载_32位/64位系统/专业版/纯净版下载 | 「钾冰晶石」氟铝酸钾_冰晶石_氟铝酸钠「价格用途」-亚铝氟化物厂家 | 超声波气象站_防爆气象站_空气质量监测站_负氧离子检测仪-风途物联网 | 阻燃剂-氢氧化镁-氢氧化铝-沥青阻燃剂-合肥皖燃新材料 | 反渗透水处理设备|工业零排放|水厂设备|软化水设备|海南净水设备--海南水处理设备厂家 |