中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

超值優惠券
¥50
滿100可用 有效期2天

全場圖書通用(淘書團除外)

不再提示
關閉
歡迎光臨中圖網 請 | 注冊
> >
深度強化學習:學術前沿與實戰應用

包郵 深度強化學習:學術前沿與實戰應用

出版社:機械工業出版社出版時間:2020-03-01
開本: 16開 頁數: 388
中 圖 價:¥55.4(5.6折) 定價  ¥99.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深度強化學習:學術前沿與實戰應用 版權信息

  • ISBN:9787111646648
  • 條形碼:9787111646648 ; 978-7-111-64664-8
  • 裝幀:平裝-膠訂
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

深度強化學習:學術前沿與實戰應用 本書特色

本書共分為四篇,即深度強化學習、多智能體深度強化學習、多任務深度強化學習和深度強化學習的應用。由淺入深、通俗易懂,涵蓋經典算法和近幾年的前沿技術進展。特別是書中詳細介紹了每一種代表性算法的代碼原型實現,旨在理論與實踐相結合,讓讀者學有所得、學有所用。
*篇(包含第1~3章)主要講解深度強化學習基礎,側重于單智能體強化學習算法,相對簡單,有助于初級讀者理解,同時涵蓋了近幾年的經典算法和一些前沿的研究成果。
第二篇(包含第4~5章)主要側重于對多智能體深度強化學習的講解,從多智能體強化學習基本概念到相關算法的講解和分析,以多個極具代表性的算法為例帶領讀者逐步學習多智能體訓練及控制的理論與方法。同時,還介紹了多智能體強化學習領域一些前沿學術成果。
第三篇(包含第6~7章)擴展到多任務場景,稱為多任務深度強化學習。首先介紹了多任務強化學習的基本概念和相關基礎知識,隨后講解了部分經典的多任務深度強化學習算法。
第四篇(包含第8~11章)主要講解深度強化學習的實際應用,涉及游戲、機器人控制、計算機視覺和自然語言處理四大領域。通過領域應用中思想和方法的講解,培養讀者跨領域解決實際問題的能力,以幫助讀者熟練掌握和使用深度強化學習這一強大的方法來解決和優化實際工程領域中的問題。

深度強化學習:學術前沿與實戰應用 內容簡介

讀者對象:1.從事AI理論研究的研究人員;2.高校智能方向的高年級本科生和研究生;3.工業界做AI應用的機器學習工程師、算法工程師等。 1.作者資深。本書由北京理工大學劉馳教授團隊撰寫; 2.直奔主題,理論結合實踐。詳解單智能體、多智能體深度強化學習和分布式、多任務深度強化學習相關算法,深入解讀每種算法的代碼原型實現; 3.領域應用分析:給出深度強化學習在游戲、機器人控制、計算機視覺和自然語言處理四大領域的實際應用,側重討論深度強化學習在不同領域應用的思想和方法; 4.前沿經典綜述:詳述近五年深度強化學習領域的重要進展,涵蓋新的算法理論、工程實現和領域應用,從基礎到算法,再到典型應用場景。

深度強化學習:學術前沿與實戰應用 目錄

前言
數學符號
**篇 深度強化學習
第1章 深度強化學習基礎 2
1.1 強化學習 2
1.1.1 強化學習的發展歷史 2
1.1.2 強化學習簡介 4
1.1.3 深度強化學習簡介 6
1.2 馬爾可夫屬性和決策過程 9
1.2.1 馬爾可夫屬性 9
1.2.2 馬爾可夫決策過程 11
1.3 強化學習核心概念 12
1.3.1 值函數 12
1.3.2 動態規劃 14
1.3.3 時間(序)差分 15
1.3.4 策略梯度 16
1.3.5 actor-critic方法 17
1.4 Q-learning 18
1.4.1 Q-learning簡介 18
1.4.2 算法 19
1.4.3 相關變量及影響 20
1.4.4 實現方法 21
第2章 深度強化學習算法 22
2.1 基于值的深度強化學習算法 22
2.1.1 深度Q網絡 22
2.1.2 深度雙Q網絡 27
2.1.3 競爭網絡架構 31
2.1.4 平均值DQN 33
2.1.5 多DQN變種結合體:Rainbow 37
2.1.6 基于動作排除的DQN 42
2.2 基于策略的深度強化學習算法 46
2.2.1 循環確定性策略梯度 46
2.2.2 深度確定性策略梯度 55
2.2.3 信賴域策略優化 62
2.2.4 近端策略優化 68
2.3 基于模型的深度強化學習算法 73
2.3.1 基于模型加速的連續深度Q-learning 73
2.3.2 范例模型探索 80
2.3.3 基于模型集成的信賴域策略優化 88
2.3.4 時間差分模型 95
2.4 基于分層的深度強化學習算法 102
2.4.1 分層深度強化學習 102
2.4.2 基于封建網絡的分層強化學習 109
2.4.3 基于隨機神經網絡的分層強化學習 116
第3章 分布式深度強化學習 123
3.1 分布式系統 123
3.1.1 分布式系統簡介 123
3.1.2 分布式系統的發展歷史 124
3.1.3 架構演進 125
3.1.4 主流分布式系統框架 128
3.2 分布式深度強化學習算法 129
3.2.1 分布式近端策略優化 129
3.2.2 分布式深度確定性策略梯度 138
3.3 分布式深度強化學習框架 145
3.3.1 重要性加權Actor-Learner架構 145
3.3.2 分布式優先經驗復用池 153
第二篇 多智能體深度強化學習
第4章 多智能體深度強化學習基礎 162
4.1 多智能體強化學習 162
4.1.1 多智能體強化學習發展歷史 162
4.1.2 多智能體強化學習簡介 164
4.1.3 優勢和挑戰 166
4.2 部分可見馬爾可夫決策過程 166
4.2.1 POMDP模型 166
4.2.2 POMDP相關研究 169
4.2.3 POMDP應用領域 170
第5章 多智能體深度強化學習算法 171
5.1 基于值函數的多智能體深度強化學習 171
5.1.1 基于DQN的多智能體網絡 171
5.1.2 增強智能體間學習 174
5.1.3 協同多智能體學習的價值分解網絡 178
5.1.4 多智能體深度強化學習的穩定經驗復用池 182
5.1.5 單調值函數分解 187
5.1.6 深度強化學習中的對立智能體建模 190
5.1.7 平均場多智能體強化學習 193
5.2 基于策略的多智能體深度強化學習 197
5.2.1 基于自身策略的其他智能體行為預測 197
5.2.2 雙重平均方案 201
5.2.3 多智能體深度強化學習的統一博弈論方法 208
5.3 基于AC框架的多智能體深度強化學習 212
5.3.1 多智能體深度確定性策略梯度 212
5.3.2 多智能體集中規劃的價值函數策略梯度 220
5.3.3 多智能體系統的策略表示學習 227
5.3.4 部分可觀察環境下的多智能體策略優化 231
5.3.5 基于聯網智能體的完全去中心化MARL 236
第三篇 多任務深度強化學習
第6章 多任務深度強化學習基礎 244
6.1 簡介 244
6.1.1 理論概述 244
6.1.2 面臨的挑戰 247
6.2 策略蒸餾法 248
第7章 多任務深度強化學習算法 253
7.1 無監督強化與輔助學習 253
7.1.1 算法介紹 253
7.1.2 算法分析 255
7.1.3 使用場景與優勢分析 261
7.2 使用漸進式神經網絡解決任務的復雜序列 262
7.2.1 算法介紹 262
7.2.2 算法分析 262
7.2.3 使用場景與優勢分析 266
7.3 基于單智能體的多任務共享模型 267
7.3.1 算法介紹 267
7.3.2 算法分析 268
7.3.3 使用場景與優勢分析 272
7.4 使用PopArt歸一化多任務更新幅度 273
7.4.1 算法介紹 273
7.4.2 算法分析 274
7.4.3 使用場景與優勢分析 276
第四篇 深度強化學習的應用
第8章 游戲 278
8.1 Gym Retro游戲平臺 278
8.1.1 平臺簡介 278
8.1.2 安裝Gym Retro平臺 281
8.1.3 安裝Retro UI 282
8.1.4 Gym Retro主要函數說明 283
8.2 相關應用 285
8.2.1 Pong游戲 285
8.2.2 CartPole 291
8.2.3 Flappy Bird 298
8.2.4 Gradius 302
第9章 機器人控制 312
9.1 機器人導航 312
9.1.1 無地圖導航 312
9.1.2 社會感知機器人導航 316
9.2 路徑規劃 321
9.3 機器人視覺 324
第10章 計算機視覺 327
10.1 圖像 327
10.1.1 圖像字幕 327
10.1.2 圖像恢復 332
10.2 視頻 337
10.2.1 視頻字幕 337
10.2.2 視頻快進 345
10.2.3 視覺跟蹤 348
第11章 自然語言處理 354
11.1 與知識庫交互的多輪對話智能體 354
11.1.1 概率KB查找 355
11.1.2 端到端KB-InfoBot 356
11.1.3 總結 359
11.2 魯棒遠程監督關系提取 359
11.2.1 問題表述 360
11.2.2 使用基于策略的智能體重新分配訓練數據集 363
11.2.3 總結 363
11.3 非成對情感–情感翻譯 363
11.3.1 問題表述 363
11.3.2 訓練算法 366
11.3.3 總結 367
縮寫參照表 368
常用詞中英文對照 371
參考文獻 374
展開全部

深度強化學習:學術前沿與實戰應用 作者簡介

劉馳劉馳 北京理工大學計算機學院副院長、教授、博士生導師,英國工程技術學會會士(IET Fellow),IEEE高級會員(IEEE Senior Member)。分別于清華大學和英國帝國理工學院獲得學士和博士學位,曾任美國IBM T.J. Watson研究中心和IBM中國研究院研究主管,并在德國電信研究總院(柏林)任博士后研究員。研究方向為大數據與物聯網技術。主持了國家自然科學基金、國家重點研發計劃課題、工信部、教育部、裝發預研等20余省部級研究項目。共發表SCI/EI論文百余篇,其中ESI高被引論文2篇、CCF-A類論文20余篇,授權國內外發明專利14項,編寫書籍9本,Google Scholar索引3500余次,H index為28。現任國家自然科學基金會評專家、科技部重點研發計劃會評專家、教育部科技獎評審專家、全國信標委技術委員會委員、中國電子學會理事、中國計算機學會青工委委員、中國計算機學會物聯網/大數據/普適計算專委會委員、中國電子學會物聯網專委會委員/副秘書長、中國自動化學會大數據專委會委員、中國通信學會物聯網專委會委員等;以及IEEE Transactions on Network Science and Engineering編委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入選了國家人社部“高層次留學人才回國資助計劃”、中國科協“青年人才托舉工程”、陜西省第八批“百人計劃(短期項目)”、中國產學研合作促進獎、中國電子學會科技工作者、國家“十二五”輕工業科技創新先進個人、2017年中國物聯網年度人物等。并獲得省部級一等獎1項、二等獎1項、三等獎1項。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 精密机械零件加工_CNC加工_精密加工_数控车床加工_精密机械加工_机械零部件加工厂 | 1000帧高速摄像机|工业高速相机厂家|科天健光电技术 | 重庆磨床过滤机,重庆纸带过滤机,机床伸缩钣金,重庆机床钣金护罩-重庆达鸿兴精密机械制造有限公司 | 锂电池生产厂家-电动自行车航模无人机锂电池定制-世豹新能源 | 单电机制砂机,BHS制砂机,制沙机设备,制砂机价格-正升制砂机厂家 单级/双级旋片式真空泵厂家,2xz旋片真空泵-浙江台州求精真空泵有限公司 | 办公室装修_上海办公室设计装修_时尚办公新主张-后街印象 | 扬子叉车厂家_升降平台_电动搬运车|堆高车-扬子仓储叉车官网 | 北京成考网-北京成人高考网| 餐饮加盟网_特色餐饮加盟店_餐饮连锁店加盟 | 净化车间_洁净厂房_净化公司_净化厂房_无尘室工程_洁净工程装修|改造|施工-深圳净化公司 | 湖州织里童装_女童男童中大童装_款式多尺码全_织里儿童网【官网】-嘉兴嘉乐网络科技有限公司 | 颚式破碎机,圆锥破碎机,制砂机-新乡市德诚机电制造有限公司 | 无锡网站建设-做网站-建网站-网页设计制作-阿凡达建站公司 | 河南彩印编织袋,郑州饲料编织袋定制,肥料编织袋加工厂-盛军塑业 河南凯邦机械制造有限公司 | 学校用栓剂模,玻璃瓶轧盖钳,小型安瓿熔封机,实验室安瓿熔封机-长沙中亚制药设备有限公司 | 承插管件_不锈钢承插管件_锻钢高压管件-温州科正阀门管件有限公司 | 山东led显示屏,山东led全彩显示屏,山东LED小间距屏,临沂全彩电子屏-山东亚泰视讯传媒有限公司 | 胶原检测试剂盒,弹性蛋白检测试剂盒,类克ELISA试剂盒,阿达木单抗ELISA试剂盒-北京群晓科苑生物技术有限公司 | 渗透仪-直剪仪-三轴仪|苏州昱创百科 | 撕碎机_轮胎破碎机_粉碎机_回收生产线厂家_东莞华达机械有限公司 | 喷码机,激光喷码打码机,鸡蛋打码机,手持打码机,自动喷码机,一物一码防伪溯源-恒欣瑞达有限公司 | 电销卡_北京电销卡_包月电话卡-豪付网络| 细石混凝土泵_厂家_价格-烟台九达机械有限公司 | 国际线缆连接网 - 连接器_线缆线束加工行业门户网站 | 仓储笼_仓储货架_南京货架_仓储货架厂家_南京货架价格低-南京一品仓储设备制造公司 | 钛板_钛管_钛棒_钛盘管-无锡市盛钛科技有限公司 | 科昊仪器超纯水机系统-可成气相液氮罐-美菱超低温冰箱-西安昊兴生物科技有限公司 | 经济师考试_2025中级经济师报名时间_报名入口_考试时间_华课网校经济师培训网站 | 外观设计_设备外观设计_外观设计公司_产品外观设计_机械设备外观设计_东莞工业设计公司-意品深蓝 | 辽宁资质代办_辽宁建筑资质办理_辽宁建筑资质延期升级_辽宁中杭资质代办 | 铸钢件厂家-铸钢齿轮-减速机厂家-淄博凯振机械有限公司 | 锡膏喷印机-全自动涂覆机厂家-全自动点胶机-视觉点胶机-深圳市博明智控科技有限公司 | 碳化硅,氮化硅,冰晶石,绢云母,氟化铝,白刚玉,棕刚玉,石墨,铝粉,铁粉,金属硅粉,金属铝粉,氧化铝粉,硅微粉,蓝晶石,红柱石,莫来石,粉煤灰,三聚磷酸钠,六偏磷酸钠,硫酸镁-皓泉新材料 | 色谱柱-淋洗液罐-巴罗克试剂槽-巴氏吸管-5ml样品瓶-SBS液氮冻存管-上海希言科学仪器有限公司 | 不锈钢钢格栅板_热浸锌钢格板_镀锌钢格栅板_钢格栅盖板-格美瑞 | MVR蒸发器厂家-多效蒸发器-工业废水蒸发器厂家-康景辉集团官网 | AR开发公司_AR增强现实_AR工业_AR巡检|上海集英科技 | 全自动贴标机-套标机-工业热风机-不干胶贴标机-上海厚冉机械 | 全自动端子机|刺破式端子压接机|全自动双头沾锡机|全自动插胶壳端子机-东莞市傅氏兄弟机械设备有限公司 | 盐水蒸发器,水洗盐设备,冷凝结晶切片机,转鼓切片机,絮凝剂加药系统-无锡瑞司恩机械有限公司 | ICP备案查询_APP备案查询_小程序备案查询 - 备案巴巴 |