中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊
> >
強化學(xué)習(xí):前沿算法與應(yīng)用

包郵 強化學(xué)習(xí):前沿算法與應(yīng)用

出版社:機械工業(yè)出版社出版時間:2023-05-01
開本: 16開 頁數(shù): 304
中 圖 價:¥75.2(6.9折) 定價  ¥109.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學(xué)習(xí):前沿算法與應(yīng)用 版權(quán)信息

強化學(xué)習(xí):前沿算法與應(yīng)用 本書特色

適讀人群 :從事人工智能、機器學(xué)習(xí)、優(yōu)化控制、機器人、游戲開發(fā)等工作的專業(yè)技術(shù)人員浙江大學(xué)吳飛教授作序推薦,悉尼科技大學(xué)教授、澳大利亞人工智能理事會理事長張成奇,哈爾濱工業(yè)大學(xué)教授、國家級領(lǐng)軍人才劉挺,北京大學(xué)教授,ACM/IEEE Fellow鄧小鐵鼎力推薦;人工智能領(lǐng)域?qū)<野壮郊、趙英男、郝建業(yè)、劉鵬、王震傾力編寫,強化學(xué)習(xí)的創(chuàng)新力作。

強化學(xué)習(xí):前沿算法與應(yīng)用 內(nèi)容簡介

強化學(xué)習(xí)是機器學(xué)習(xí)的重要分支,是實現(xiàn)通用人工智能的重要途徑。本書介紹了強化學(xué)習(xí)在算法層面的快速發(fā)展,包括值函數(shù)、策略梯度、值分布建模等基礎(chǔ)算法,以及為了提升樣本效率產(chǎn)生的基于模型學(xué)習(xí)、探索與利用、多目標學(xué)習(xí)、層次化學(xué)習(xí)、技能學(xué)習(xí)等算法,以及一些新興領(lǐng)域,包括離線學(xué)習(xí)、表示學(xué)習(xí)、元學(xué)習(xí)等,旨在提升數(shù)據(jù)高效性和策略的泛化能力的算法,還介紹了應(yīng)用領(lǐng)域中強化學(xué)習(xí)在智能控制、機器視覺、語言處理、醫(yī)療、推薦、金融等方面的相關(guān)知識。 本書深入淺出、結(jié)構(gòu)清晰、重點突出,系統(tǒng)地闡述了強化學(xué)習(xí)的前沿算法和應(yīng)用,適合從事人工智能、機器學(xué)習(xí)、優(yōu)化控制、機器人、游戲開發(fā)等工作的專業(yè)技術(shù)人員閱讀,還可作為計算機、人工智能、智能科學(xué)相關(guān)專業(yè)的研究生和高年級本科生的教材。

強化學(xué)習(xí):前沿算法與應(yīng)用 目錄

序言
前言
第1章 強化學(xué)習(xí)簡介/
1.1從監(jiān)督學(xué)習(xí)到強化學(xué)習(xí)/
1.2強化學(xué)習(xí)的發(fā)展歷史/
1.3強化學(xué)習(xí)的研究范疇/
1.4強化學(xué)習(xí)的應(yīng)用領(lǐng)域/
第2章 強化學(xué)習(xí)基礎(chǔ)知識/
2.1強化學(xué)習(xí)的核心概念/
2.2馬爾可夫性和決策過程/
2.3值函數(shù)和策略學(xué)習(xí)/
第3章 基于值函數(shù)的強化學(xué)習(xí)算法/
3.1深度Q學(xué)習(xí)的基本理論/
3.1.1深度Q網(wǎng)絡(luò)/
3.1.2經(jīng)驗池/
3.1.3目標網(wǎng)絡(luò)/
3.2深度Q學(xué)習(xí)的過估計/
3.2.1過估計的產(chǎn)生原因/
3.2.2Double Q-學(xué)習(xí)/
3.3深度Q學(xué)習(xí)的網(wǎng)絡(luò)改進和高效采樣/
3.3.1Dueling網(wǎng)絡(luò)/
3.3.2高效采樣/
3.4周期后序迭代Q學(xué)習(xí)/
3.5Q學(xué)習(xí)用于連續(xù)動作空間/
3.5.1基于并行結(jié)構(gòu)的 Q學(xué)習(xí)/
3.5.2基于順序結(jié)構(gòu)的Q學(xué)習(xí)/
3.6實例:使用值函數(shù)學(xué)習(xí)的Atari游戲/
3.6.1環(huán)境預(yù)處理/
3.6.2Q網(wǎng)絡(luò)的實現(xiàn)/
3.6.3Q學(xué)習(xí)的核心步驟/
第4章 策略梯度迭代的強化學(xué)習(xí)算法/
4.1REINFORCE 策略梯度/
4.1.1策略梯度的基本形式/
4.1.2降低策略梯度的方差/
4.2異步策略梯度法/
4.2.1引入優(yōu)勢函數(shù)/
4.2.2異步策略梯度/
4.3近端策略優(yōu)化法/
4.3.1裁剪的優(yōu)化目標/
4.3.2自適應(yīng)的優(yōu)化目標/
4.4深度確定性策略梯度/
4.4.1critic學(xué)習(xí)/
4.4.2actor學(xué)習(xí)/
4.4.3拓展1:探索噪聲/
4.4.4拓展2:孿生DDPG/
4.5*大熵策略梯度/
4.5.1熵約束的基本原理/
4.5.2SAC算法/
4.6實例:使用策略梯度的Mujoco任務(wù)/
4.6.1actor-critic網(wǎng)絡(luò)實現(xiàn)/
4.6.2核心算法實現(xiàn)/
第5章 基于模型的強化學(xué)習(xí)方法/
5.1如何使用模型來進行強化學(xué)習(xí)/
5.2基于模型預(yù)測的規(guī)劃/
5.2.1隨機打靶法/
5.2.2集成概率軌跡采樣法/
5.2.3基于模型和無模型的混合算法/
5.2.4基于想象力的隱式規(guī)劃方法/
5.3黑盒模型的理論框架/
5.3.1隨機下界優(yōu)化算法/
5.3.2基于模型的策略優(yōu)化算法/
5.4白盒模型的使用/
5.4.1隨機值梯度算法/
5.4.2模型增強的actor-critic算法/
5.5實例:AlphaGo圍棋智能體/
5.5.1網(wǎng)絡(luò)結(jié)構(gòu)介紹/
5.5.2蒙特卡羅樹搜索/
5.5.3總體訓(xùn)練流程/
第6章 值分布式強化學(xué)習(xí)算法/
6.1離散分布投影的值分布式算法/
6.2分位數(shù)回歸的值分布式算法/
6.2.1分位數(shù)回歸/
6.2.2Wasserstein距離/
6.2.3QR-DQN算法/
6.2.4單調(diào)的分位數(shù)學(xué)習(xí)算法/
6.3隱式的值分布網(wǎng)絡(luò)/
6.4基于值分布的代價敏感學(xué)習(xí)/
6.4.1IQN中的代價敏感學(xué)習(xí)/
6.4.2基于IQN的actor-critic模型的代價敏感學(xué)習(xí)/
6.5實例:基于值分布的Q網(wǎng)絡(luò)實現(xiàn)/
6.5.1IQN模型構(gòu)建/
6.5.2IQN損失函數(shù)/
第7章 強化學(xué)習(xí)中的探索算法/
7.1探索算法的分類/
7.2基于不確定性估計的探索/
7.2.1參數(shù)化后驗的算法思路/
7.2.2重采樣DQN/
7.3進行虛擬計數(shù)的探索/
7.3.1基于圖像生成模型的虛擬計數(shù)/
7.3.2基于哈希的虛擬計數(shù)/
7.4根據(jù)環(huán)境模型的探索/
7.4.1特征表示的學(xué)習(xí)/
7.4.2隨機網(wǎng)絡(luò)蒸餾/
7.4.3Never-Give-Up算法/
7.5實例:蒙特祖瑪復(fù)仇任務(wù)的探索/
7.5.1RND網(wǎng)絡(luò)結(jié)構(gòu)/
7.5.2RND的訓(xùn)練/
7.5.3RND用于探索/
第8章 多目標強化學(xué)習(xí)算法/
8.1以目標為條件的價值函數(shù)/
8.1.1*大熵HER/
8.1.2動態(tài)目標HER/
8.2監(jiān)督式的多目標學(xué)習(xí)/
8.2.1Hindsight模仿學(xué)習(xí)/
8.2.2加權(quán)監(jiān)督式多目標學(xué)習(xí)/
8.3推廣的多目標學(xué)習(xí)/
8.4實例:仿真機械臂的多目標抓取/
8.4.1多目標實驗環(huán)境/
8.4.2HER的實現(xiàn)方法/
8.4.3MEP的算法實現(xiàn)/
第9章 層次化強化學(xué)習(xí)算法/
9.1層次化學(xué)習(xí)的重要性/
9.2基于子目標的層次化學(xué)習(xí)/
9.2.1封建網(wǎng)絡(luò)的層次化學(xué)習(xí)/
9.2.2離策略修正的層次化學(xué)習(xí)/
9.2.3虛擬子目標的強化學(xué)習(xí)方法/
9.3基于技能的層次化學(xué)習(xí)/
9.3.1使用隨機網(wǎng)絡(luò)的層次化學(xué)習(xí)/
9.3.2共享分層的元學(xué)習(xí)方法/
9.4基于選項的層次化學(xué)習(xí)/
9.4.1option與半馬爾可夫決策過程/
9.4.2option-critic結(jié)構(gòu)/
9.5實例:層次化學(xué)習(xí)螞蟻走迷宮任務(wù)/
第10章 基于技能的強化學(xué)習(xí)算法/
10.1技能學(xué)習(xí)的定義/
10.2互信息*大化的技能學(xué)習(xí)算法/
10.2.1多樣性*大化技能學(xué)習(xí)算法/
10.2.2其他基于互信息的技能學(xué)習(xí)方法/
10.3融合環(huán)境模型的技能學(xué)習(xí)算法/
10.4*大化狀態(tài)覆蓋的技能學(xué)習(xí)算法/
10.5實例:人形機器人的技能學(xué)習(xí)/
第11章 離線強化學(xué)習(xí)算法/
11.1離線強化學(xué)習(xí)中面臨的困難/
11.2策略約束的離線學(xué)習(xí)/
11.2.1BCQ算法/
11.2.2BRAC算法/
11.2.3TD3-BC算法/
11.3使用保守估計的離線學(xué)習(xí)/
11.4基于不確定性的離線學(xué)習(xí)/
11.4.1UWAC算法/
11.4.2MOPO算法/
11.4.3PBRL算法/
11.5監(jiān)督式的離線學(xué)習(xí)/
11.5.1DT算法/
11.5.2RVS算法/
11.6實例:使用離線學(xué)習(xí)的D4RL任務(wù)集/
11.6.1D4RL數(shù)據(jù)集的使用/
11.6.2CQL算法實現(xiàn)/
11.6.3TD3-BC算法實現(xiàn)/
第12章 元強化學(xué)習(xí)算法/
12.1元強化學(xué)習(xí)的定義/
12.2基于網(wǎng)絡(luò)模型的元強化學(xué)習(xí)方法/
12.2.1使用循環(huán)神經(jīng)網(wǎng)絡(luò)的元強化學(xué)習(xí)方法/
12.2.2基于時序卷積和軟注意力機制的方法/
12.3元梯度學(xué)習(xí)/
12.4元強化學(xué)習(xí)中的探索方法/
12.4.1結(jié)構(gòu)化噪聲探索方法/
12.4.2利用后驗采樣進行探索/
12.5實例:元學(xué)習(xí)訓(xùn)練多任務(wù)獵豹智能體/
第13章 高效的強化學(xué)習(xí)表示算法/
13.1為什么要進行表示學(xué)習(xí)/
13.2對比學(xué)習(xí)的特征表示/
13.2.1基本原理和SimCLR算法/
13.2.2MoCo 算法/
13.2.3基于對比學(xué)習(xí)的 CURL算法/
13.2.4基于對比學(xué)習(xí)的 ATC算法/
13.2.5基于對比學(xué)習(xí)的 DIM算法/
13.2.6對比學(xué)習(xí)和互信息理論/
13.2.7完全基于圖像增廣的方法/
13.3魯棒的特征表示學(xué)習(xí)/
13.3.1互模擬特征/
13.3.2信息瓶頸特征/
13.4使用模型預(yù)測的表示學(xué)習(xí)/
13.5實例:魯棒的仿真自動駕駛/
第14章 強化學(xué)習(xí)在智能控制中的應(yīng)用/
14.1機器人控制/
14.1.1機械臂操作任務(wù)的控制/
14.1.2足式機器人的運動控制/
14.1.3多任務(wù)機器人控制/
14.1.4面臨的挑戰(zhàn)/
14.2電力優(yōu)化控制/
14.2.1電力管理任務(wù)/
14.2.2需求響應(yīng)/
14.3交通指揮優(yōu)化控制/
14.3.1多信號燈合作控制/
14.3.2大規(guī)模信號燈控制方法/
14.3.3元強化學(xué)習(xí)信號燈控制/
第15章 強化學(xué)習(xí)在機器視覺中的應(yīng)用/
15.1神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索/
15.1.1利用強化學(xué)習(xí)解決NAS/
15.1.2其他前沿方法/
15.2目標檢測和跟蹤中的優(yōu)化/
15.2.1強化學(xué)習(xí)與目標檢測/
15.2.2強化學(xué)習(xí)與實時目標跟蹤/
15.3視頻分析/
第16章 強化學(xué)習(xí)在語言處理中的應(yīng)用/
16.1知識圖譜系統(tǒng)/
16.2智能問答系統(tǒng)/
16.2.1事后目標回放法/
16.2.2多任務(wù)對話系統(tǒng)/
16.3機器翻譯系統(tǒng)/
16.3.1NMT中獎勵的計算/
16.3.2策略梯度方差處理/
第17章 強化學(xué)習(xí)在其他領(lǐng)域中的應(yīng)用/
17.1醫(yī)療健康系統(tǒng)/
17.1.1動態(tài)治療方案/
17.1.2重癥監(jiān)護/
17.1.3自動醫(yī)療診斷/
17.2個性化推薦系統(tǒng)/
17.2.1策略優(yōu)化方法/
17.2.2基于圖的對話推薦/
17.3股票交易系統(tǒng)/
17.3.1FinRL強化學(xué)習(xí)框架/
17.3.2FinRL訓(xùn)練示例/
展開全部

強化學(xué)習(xí):前沿算法與應(yīng)用 作者簡介

白辰甲 上海人工智能實驗室青年研究員,博士畢業(yè)于哈爾濱工業(yè)大學(xué)計算學(xué)部,曾在加拿大多倫多大學(xué)聯(lián)合培養(yǎng),2022年獲哈工大優(yōu)秀博士論文獎。在高水平國際會議和期刊上發(fā)表論文20余篇,獲評機器學(xué)習(xí)頂會ICML 2021、ICLR 2022、NeurIPS 2022亮點論文。研究方向包括強化學(xué)習(xí)、博弈智能和具身智能。 趙英男 博士畢業(yè)于哈爾濱工業(yè)大學(xué)計算學(xué)部,曾在加拿大阿爾伯塔大學(xué)進行聯(lián)合培養(yǎng),主要研究方向為深度強化學(xué)習(xí)、表征學(xué)習(xí)等,在國際會議和期刊上發(fā)表多篇學(xué)術(shù)論文。 郝建業(yè) 天津大學(xué)智能與計算學(xué)部副教授,獲哈爾濱工業(yè)大學(xué)學(xué)士學(xué)位,香港中文大學(xué)博士學(xué)位,曾任MIT計算機科學(xué)與人工智能實驗室博士后研究員。研究方向為深度強化學(xué)習(xí)和多智能體系統(tǒng),近年在NeurIPS、ICML、ICLR、AAAI、IJCAI等人工智能領(lǐng)域知名會議和IEEE匯刊發(fā)表論文80余篇,出版專著2部。 劉鵬 哈爾濱工業(yè)大學(xué)教授,博士生導(dǎo)師,模式識別與智能系統(tǒng)研究中心主任。主要研究方向為圖像處理、模式識別、機器學(xué)習(xí)。發(fā)表學(xué)術(shù)論文50余篇,獲發(fā)明專利10余項,獲黑龍江省科技進步一等獎1項。 王震 西北工業(yè)大學(xué)教授,網(wǎng)絡(luò)空間安全學(xué)院黨委書記,國家保密學(xué)院常務(wù)副院長,Elected Member of Academia Europaea (EA), European Academy of Sciences and Arts (EASA),AAIA Fellow, 全球高被引科學(xué)家,國家杰青,國防創(chuàng)新團隊負責(zé)人。圍繞博弈智能,人工智能基礎(chǔ)理論,網(wǎng)絡(luò)空間智能對抗,在Nature Communications、PNAS、Science Advance、AAAI、NeurIPS、ICML、ICLR等發(fā)表系列成果,WoS引用2萬余次,編制完成行標5項。獲科學(xué)探索獎,中國青年五四獎?wù),教育部、陜西省、學(xué)會科學(xué)技術(shù)獎一等獎等多個獎項。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: atcc网站,sigma试剂价格,肿瘤细胞现货,人结肠癌细胞株购买-南京科佰生物 | 定硫仪,量热仪,工业分析仪,马弗炉,煤炭化验设备厂家,煤质化验仪器,焦炭化验设备鹤壁大德煤质工业分析仪,氟氯测定仪 | 深圳宣传片制作-企业宣传视频制作-产品视频拍摄-产品动画制作-短视频拍摄制作公司 | 分类168信息网 - 分类信息网 免费发布与查询 | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 | 「银杏树」银杏树行情价格_银杏树种植_山东程锦园林 | 天津货架厂_穿梭车货架_重型仓储货架_阁楼货架定制-天津钢力仓储货架生产厂家_天津钢力智能仓储装备 | ET3000双钳形接地电阻测试仪_ZSR10A直流_SXJS-IV智能_SX-9000全自动油介质损耗测试仪-上海康登 | 高楼航空障碍灯厂家哪家好_航空障碍灯厂家_广州北斗星障碍灯有限公司 | 提升海外网站流量,增加国外网站访客UV,定制海外IP-访客王 | 无菌水质袋-NASCO食品无菌袋-Whirl-Pak无菌采样袋-深圳市慧普德贸易有限公司 | 淄博不锈钢无缝管,淄博不锈钢管-鑫门物资有限公司 | 点焊机-缝焊机-闪光对焊机-电阻焊设备生产厂家-上海骏腾发智能设备有限公司 | 伟秀电气有限公司-10kv高低压开关柜-高低压配电柜-中置柜-充气柜-欧式箱变-高压真空断路器厂家 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | 自动化生产线-自动化装配线-直流电机自动化生产线-东莞市慧百自动化有限公司 | 威廉希尔WilliamHill·足球(中国)体育官方网站| 南京PVC快速门厂家南京快速卷帘门_南京pvc快速门_世界500强企业国内供应商_南京美高门业 | 京马网,京马建站,网站定制,营销型网站建设,东莞建站,东莞网站建设-首页-京马网 | 全自动变压器变比组别测试仪-手持式直流电阻测试仪-上海来扬电气 | 东莞市海宝机械有限公司-不锈钢分选机-硅胶橡胶-生活垃圾-涡电流-静电-金属-矿石分选机 | 特种阀门-调节阀门-高温熔盐阀-镍合金截止阀-钛阀门-高温阀门-高性能蝶阀-蒙乃尔合金阀门-福建捷斯特阀门制造有限公司 | 缠膜机|缠绕包装机|无纺布包装机-济南达伦特机械设备有限公司 | 东莞喷砂机-喷砂机-喷砂机配件-喷砂器材-喷砂加工-东莞市协帆喷砂机械设备有限公司 | 工业电炉,台车式电炉_厂家-淄博申华工业电炉有限公司 | 武汉画册印刷厂家-企业画册印刷-画册设计印刷制作-宣传画册印刷公司 - 武汉泽雅印刷厂 | 网优资讯-为循环资源、大宗商品、工业服务提供资讯与行情分析的数据服务平台 | T恤衫定做,企业文化衫制作订做,广告T恤POLO衫定制厂家[源头工厂]-【汉诚T恤定制网】 | 青州搬家公司电话_青州搬家公司哪家好「鸿喜」青州搬家 | 消泡剂_水处理消泡剂_切削液消泡剂_涂料消泡剂_有机硅消泡剂_广州中万新材料生产厂家 | 换链神器官网-友情链接交换、购买交易于一体的站长平台 | 油冷式_微型_TDY电动滚筒_外装_外置式电动滚筒厂家-淄博秉泓机械有限公司 | 洛阳防爆合格证办理-洛阳防爆认证机构-洛阳申请国家防爆合格证-洛阳本安防爆认证代办-洛阳沪南抚防爆电气技术服务有限公司 | 广州工业氧气-工业氩气-工业氮气-二氧化碳-广州市番禺区得力气体经营部 | 数码听觉统合训练系统-儿童感觉-早期言语评估与训练系统-北京鑫泰盛世科技发展有限公司 | 江西自考网-江西自学考试网 | 辽宁资质代办_辽宁建筑资质办理_辽宁建筑资质延期升级_辽宁中杭资质代办 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 新能源汽车教学设备厂家报价[汽车教学设备运营18年]-恒信教具 | 河南中整光饰机械有限公司-抛光机,去毛刺抛光机,精密镜面抛光机,全自动抛光机械设备 | 储能预警-储能消防系统-电池舱自动灭火装置-四川千页科技股份有限公司官网 |