中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
深度強化學習理論與實踐

包郵 深度強化學習理論與實踐

出版社:清華大學出版社出版時間:2023-03-01
開本: 其他 頁數: 368
中 圖 價:¥63.3(7.1折) 定價  ¥89.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深度強化學習理論與實踐 版權信息

  • ISBN:9787302625544
  • 條形碼:9787302625544 ; 978-7-302-62554-4
  • 裝幀:70g膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

深度強化學習理論與實踐 本書特色

本書系統介紹深度強化學習的理論和算法,并配有大量的案例。全書核心內容可以分為3部分,**部分為經典強化學習,主要內容有動態規劃法,蒙特卡洛法、時序差分法;第二部分為深度強化學習,主要內容有值函數近似法、策略梯度法、策略梯度法進階;第三部分重點介紹了深度強化學習的經典應用——AlphaGo系列算法。 ★ 大多數每個算法配有一個或多個測試案例,便于讀者理解理論和算法;★ 每個案例都配有編程實現的代碼,便于讀者理論聯系實際,并親自上手實踐;★ 為減輕讀者編寫代碼的難度,本書所有案例的代碼都是可以獨立運行的,并且盡量減少了對依賴包的使用。 全面介紹深度強化學習的理論與算法,并配有大量案例和編程實現!1553分鐘視頻講解,50個示例代碼★監督學習、非監督學習、強化學習是機器學習的三大板塊,其中強化學習是*接近人工智能的機器學習模式。近年來,隨著AlphaGo系列算法的橫空出世,結合深度學習和強化學習的深度強化學習被推到了人工智能的風口浪尖,受到了學界和工業界的廣泛關注。本書系統介紹了深度強化學習的理論和算法,并配有大量深度強化學習案例和編程實現,既可用作高年級本科生和研究生學習深度強化學習的入門書,也可用作工程技術人員應用深度強化學習解決實際問題的參考書。 ——吳至友 重慶師范大學數學科學學院院長、德國洪堡學者★作為第4次工業革命的核心技術,人工智能正在驅動各行各業的智能化升級,并將催生很多新的產業。深度強化學習作為人工智能的典型研究和應用方向之一,近年來取得了突飛猛進的發展,并已廣泛應用。《深度強化學習理論與實踐》一書不僅回顧了經典強化學習算法,還系統介紹了深度強化學習的理論、算法和典型框架。特別地,本書還專門開辟了一章詳細地介紹了近年來叱咤風云的AlphaGo系列算法。本書內容全面,既注重理論的系統性,又兼顧內容的實用性,對于科學研究人員和工程技術人員,均具有很高的參考價值。 ——汪軍 西悉尼大學助理教授,墨爾本大學榮譽研究員、博士生導師★人工智能的研究可以極大地解放生產力與發展生產力,帶來人類社會歷史性的變革。學習是智能的本質特征,強化學習是近年來得到極大關注并取得重要進展的人工智能技術,將強化學習與深度學習結合的深度強化學習技術研究是目前人工智能領域的前沿與熱點。《深度強化學習理論與實踐》系統介紹了深度強化學習的基本理論與重要算法實現,本書具備算法理論推導嚴密與算法設計實現詳細的特點,書中內容安排合理,難度循序漸進,適于深度強化學習領域的研究生或工程師作為閱讀材料和參考書籍。 ——劉昆 中山大學航空航天學院副院長、教授★自從2016年圍棋人工智能AlphaGo擊敗人類圍棋世界冠軍以來,深度強化學習的研究邁入了一個新的階段,在系統智能控制、多智能體決策等領域不斷取得令人矚目的成果,深度強化學習被認為是實現人工智能的關鍵技術,它對人類的發展與進步有著深遠的影響。《深度強化學習理論與實踐》比較全面、系統地介紹了深度強化學習的理論和算法,對該領域主要的理論、模型和算法進行了比較嚴謹與清晰地描述,特別是書中絕大多數算法給出了一個或多個程序案例,方便讀者理解相關理論和算法,可以為該領域學術研究人員和工程技術人員提供良好的參考。 ——何開鋒 軍事科學院首席專家、研究員★隨著近年來深度神經網絡研究的興起,深度強化學習作為一個新的重要學科分支吸引了越來越多的科研人員和產業人員的關注,它在系統控制與決策、對抗博弈等領域取得了令人矚目的成就。《深度強化學習理論與實踐》涵蓋了基本強化學習理論與技術、深度強化學習方法及AlphaGo圍棋人工智能的實現原理,可以給初學者提供全面且實用的深度強化學習知識,特別是書中包含了豐富的算法實現代碼,便于對該領域感興趣的讀者學習、理解及開展研究工作,快速掌握相關理論與實踐技術。 ——曾占魁 上海航天技術研究院科技四部副部長、研究員

深度強化學習理論與實踐 內容簡介

本書比較全面、系統地介紹了深度強化學習的理論和算法,并配有大量的案例和編程實現。全書核心內容可以分為3部分,**部分為經典強化學習,包括第2、3、4章,主要內容有動態規劃法,蒙特卡洛法、時序差分法;第二部分為深度強化學習,包括第6、7、8章,主要內容有值函數近似法、策略梯度法、策略梯度法進階;第三部分重點介紹了深度強化學習的經典應用——AlphaGo系列算法。另外,作為理論和算法的輔助,第1章介紹了強化學習的模型,第5章簡單介紹了深度學習和PyTorch編程框架。 本書可以作為理工科大學相關專業研究生的學位課教材,也可以作為人工智能、機器學習相關專業高年級本科生的選修課教材,還可以作為相關領域學術研究人員、教師和工程技術人員的參考資料。

深度強化學習理論與實踐 目錄


目錄

















本書源代碼





配套資源




第1章強化學習的模型(156min)


1.1強化學習簡介


1.1.1初識強化學習


1.1.2強化學習的歷史


1.1.3強化學習與機器學習的關系


1.2強化學習的模型


1.2.1強化學習基本模型和要素


1.2.2強化學習的執行過程


1.2.3強化學習的數學模型——馬爾可夫決策過程


1.2.4環境模型案例


1.3Gym介紹


1.3.1Gym簡介


1.3.2Gym安裝


1.3.3Gym的環境描述和案例


1.3.4在Gym中添加自編環境


1.3.5直接使用自編環境


第2章動態規劃法(231min)


2.1動態規劃法簡介


2.2值函數和貝爾曼方程


2.2.1累積折扣獎勵


2.2.2值函數


2.2.3貝爾曼方程


2.3策略評估


2.4策略改進


2.5*優值函數和*優策略


2.6策略迭代和值迭代


2.7動態規劃法求解強化學習案例


第3章蒙特卡羅法(211min)


3.1蒙特卡羅法簡介


3.2蒙特卡羅策略評估


3.2.1蒙特卡羅策略評估


3.2.2增量式蒙特卡羅策略評估


3.2.3蒙特卡羅策略評估案例


3.2.4蒙特卡羅和動態規劃策略評估的對比


3.3蒙特卡羅強化學習


3.3.1蒙特卡羅策略改進


3.3.2起始探索蒙特卡羅強化學習


3.3.3ε貪婪策略蒙特卡羅強化學習


3.3.4蒙特卡羅強化學習案例


3.4異策略蒙特卡羅強化學習


3.4.1重要性采樣


3.4.2異策略蒙特卡羅策略評估


3.4.3增量式異策略蒙特卡羅策略評估


3.4.4異策略蒙特卡羅強化學習


3.4.5異策略蒙特卡羅強化學習案例


3.5蒙特卡羅樹搜索


3.5.1MCTS的基本思想


3.5.2MCTS的算法流程


3.5.3基于MCTS的強化學習算法


3.5.4案例和代碼


第4章時序差分法(174min)


4.1時序差分策略評估


4.1.1時序差分策略評估原理


4.1.2時序差分策略評估算法


4.1.3時序差分策略評估案例


4.1.4時序差分策略評估的優勢


4.2同策略時序差分強化學習


4.2.1Sarsa算法


4.2.2Sarsa算法案例


4.3異策略時序差分強化學習


4.3.1Qlearning算法


4.3.2期望Sarsa算法


4.3.3Double Qlearning算法


4.3.4Qlearning算法案例


4.4n步時序差分強化學習


4.4.1n步時序差分策略評估


4.4.2nstep Sarsa算法


4.5TD(λ)算法


4.5.1前向TD(λ)算法


4.5.2后向TD(λ)算法


4.5.3Sarsa(λ)算法


第5章深度學習與PyTorch(275min)


5.1從感知機到神經網絡


5.1.1感知機模型


5.1.2感知機和布爾運算


5.2深度神經網絡


5.2.1網絡拓撲


5.2.2前向傳播


5.2.3訓練模型


5.2.4誤差反向傳播


5.3激活函數、損失函數和數據預處理


5.3.1激活函數


5.3.2損失函數


5.3.3數據預處理


5.4PyTorch深度學習軟件包


5.4.1數據類型及類型的轉換


5.4.2張量的維度和重組操作


5.4.3組裝神經網絡的模塊


5.4.4自動梯度計算


5.4.5訓練數據自由讀取


5.4.6模型的搭建、訓練和測試


5.4.7模型的保存和重載


5.5深度學習案例


5.5.1函數近似


5.5.2數字圖片識別


第6章值函數近似算法(195min)


6.1線性值函數近似算法


6.1.1線性值函數近似時序差分算法


6.1.2特征函數


6.1.3線性值函數近似算法案例


6.2神經網絡值函數近似法


6.2.1DQN算法原理


6.2.2DQN算法


6.2.3DQN算法案例


6.3Double DQN(DDQN)算法


6.4Prioritized Replay DQN算法


6.4.1樣本優先級


6.4.2隨機優先級采樣


6.4.3樣本重要性權重參數


6.4.4Prioritized Replay DQN算法流程


6.4.5Prioritized Replay DQN算法案例


6.5Dueling DQN算法


6.5.1Dueling DQN算法原理


6.5.2Dueling DQN算法案例


第7章策略梯度算法(176min)


7.1策略梯度算法的基本原理


7.1.1初識策略梯度算法


7.1.2策略函數


7.1.3策略目標函數


7.1.4策略梯度算法的框架


7.1.5策略梯度算法的評價


7.2策略梯度定理


7.2.1離散型策略梯度定理


7.2.2連續型策略梯度定理


7.2.3近似策略梯度和評價函數


7.3蒙特卡羅策略梯度算法(REINFORCE)


7.3.1REINFORCE的基本原理


7.3.2REINFORCE的算法流程


7.3.3REINFORCE隨機梯度的嚴格推導


7.3.4帶基線函數的REINFORCE


7.3.5REINFORCE實際案例及代碼實現


7.4演員評論家策略梯度算法


7.4.1算法原理


7.4.2算法流程


7.4.3算法代碼及案例


第8章策略梯度法進階(135min)


8.1異步優勢演員: 評論家算法


8.1.1異步強化學習


8.1.2A3C算法


8.1.3A2C算法


8.1.4案例和程序


8.2深度確定性策略梯度算法


8.2.1DDPG的基本思想


8.2.2DDPG的算法原理


8.2.3DDPG的算法結構和流程


8.2.4案例和程序


8.3近端策略優化算法


8.3.1PPO的算法原理


8.3.2PPO的算法結構和流程


8.3.3案例和程序


8.4柔性演員評論家算法


8.4.1*大熵原理


8.4.2柔性Q學習


8.4.3SAC算法原理


8.4.4SAC算法結構和流程


8.4.5案例和程序


第9章深度強化學習案例: AlphaGo系列算法


9.1AlphaGo算法介紹


9.1.1AlphaGo中的深度神經網絡


9.1.2AlphaGo中深度神經網絡的訓練


9.1.3AlphaGo的MCTS


9.1.4總結


9.2AlphaGo Zero算法介紹


9.2.1AlphaGo Zero的策略價值網絡


9.2.2AlphaGo Zero的MCTS


9.2.3AlphaGo Zero的算法流程


9.3AlphaZero算法介紹


9.3.1從圍棋到其他棋類需要解決的問題


9.3.2AlphaZero相對于AlphaGo Zero的改進與調整


9.3.3AlphaZero的算法流程


9.4MuZero算法介紹


9.4.1MuZero中的深度神經網絡


9.4.2MuZero中的MCTS


9.4.3MuZero的算法流程


9.5AlphaGo系列算法的應用與啟示


參考文獻


展開全部

深度強化學習理論與實踐 作者簡介

龍強,博士、副教授、碩士研究生導師;就職于西南科技大學數理學院數據科學系,中國運籌學會終生會員;主要從事最優化理論與算法、機器學習算法研究;在國際國內學術期刊上發表論文20余篇,獲批國家發明專利3項,主持和參與國家自然科學基金3項,參與國家社會科學基金1項;講授“深度強化學習”“深度學習與神經網絡”“算法設計與分析”“最優化理論與算法”“機器學習”等課程。 章勝,博士、副研究員、碩士研究生導師;就職于中國空氣動力研究與發展中心,中國空氣動力學學會會員;主要從事飛行器軌跡優化、非線性控制與智能控制研究。在國際及國內學術期刊上發表論文20篇,獲批國家發明專利5項,主持和參與國家自然科學基金、國家重點基礎研究發展計劃等項目15項。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 合肥网带炉_安徽箱式炉_钟罩炉-合肥品炙装备科技有限公司 | 国产液相色谱仪-超高效液相色谱仪厂家-上海伍丰科学仪器有限公司 | 贵州成人高考网_贵州成考网| 生态板-实木生态板-生态板厂家-源木原作生态板品牌-深圳市方舟木业有限公司 | 机制砂选粉机_砂石选粉机厂家-盐城市助成粉磨科技有限公司 | 5nd音乐网|最新流行歌曲|MP3歌曲免费下载|好听的歌|音乐下载 免费听mp3音乐 | 高压包-点火器-高压发生器-点火变压器-江苏天网 | 开锐教育-学历提升-职称评定-职业资格培训-积分入户 | 免费B2B信息推广发布平台 - 推发网 | 经济师考试_2025中级经济师报名时间_报名入口_考试时间_华课网校经济师培训网站 | 打造全球沸石生态圈 - 国投盛世 锂电混合机-新能源混合机-正极材料混料机-高镍,三元材料混料机-负极,包覆混合机-贝尔专业混合混料搅拌机械系统设备厂家 | 「银杏树」银杏树行情价格_银杏树种植_山东程锦园林 | 气动机械手-搬运机械手-气动助力机械手-山东精瑞自动化设备有限公司 | 凝胶成像系统(wb成像系统)百科-上海嘉鹏| 交联度测试仪-湿漏电流测试仪-双85恒温恒湿试验箱-常州市科迈实验仪器有限公司 | 电动打包机_气动打包机_钢带捆扎机_废纸打包机_手动捆扎机 | 交联度测试仪-湿漏电流测试仪-双85恒温恒湿试验箱-常州市科迈实验仪器有限公司 | 建筑资质代办-建筑企业资质代办机构-建筑资质代办公司 | 圣才学习网-考研考证学习平台,提供万种考研考证电子书、题库、视频课程等考试资料 | 2025世界机器人大会_IC China_半导体展_集成电路博览会_智能制造展览网 | 芝麻黑-芝麻黑石材厂家-永峰石业 | 水厂自动化-水厂控制系统-泵站自动化|控制系统-闸门自动化控制-济南华通中控科技有限公司 | 整合营销推广|营销网络推广公司|石家庄网站优化推广公司|智营销 好物生环保网、环保论坛 - 环保人的学习交流平台 | 【星耀裂变】_企微SCRM_任务宝_视频号分销裂变_企业微信裂变增长_私域流量_裂变营销 | 黄石妇科医院_黄石东方女子医院_黄石东方妇产医院怎么样 | 招商帮-一站式网络营销服务|搜索营销推广|信息流推广|短视视频营销推广|互联网整合营销|网络推广代运营|招商帮企业招商好帮手 | 硫酸亚铁-聚合硫酸铁-除氟除磷剂-复合碳源-污水处理药剂厂家—长隆科技 | 安德建奇火花机-阿奇夏米尔慢走丝|高维|发那科-北京杰森柏汇 | 铣刨料沥青破碎机-沥青再生料设备-RAP热再生混合料破碎筛分设备 -江苏锡宝重工 | 隆众资讯-首页_大宗商品资讯_价格走势_市场行情 | 车间除尘设备,VOCs废气处理,工业涂装流水线,伸缩式喷漆房,自动喷砂房,沸石转轮浓缩吸附,机器人喷粉线-山东创杰智慧 | CE认证_FCC认证_CCC认证_MFI认证_UN38.3认证-微测检测 CNAS实验室 | 直流电能表-充电桩电能表-导轨式电能表-智能电能表-浙江科为电气有限公司 | 吲哚菁绿衍生物-酶底物法大肠菌群检测试剂-北京和信同通科技发展有限公司 | 电镀整流器_微弧氧化电源_高频电解电源_微弧氧化设备厂家_深圳开瑞节能 | 散热器-电子散热器-型材散热器-电源散热片-镇江新区宏图电子散热片厂家 | 黄石东方妇产医院_黄石妇科医院哪家好_黄石无痛人流医院 | 深圳3D打印服务-3D打印加工-手板模型加工厂-悟空打印坊 | 许昌奥仕达自动化设备有限公司 | 测试治具|过炉治具|过锡炉治具|工装夹具|测试夹具|允睿自动化设备 | 合肥钣金加工-安徽激光切割加工-机箱机柜加工厂家-合肥通快 |