中圖網

>

計算機理論

強化學習

包郵強化學習

作者：魏慶來王飛躍

出版社：清華大學出版社出版時間：2022-07-01

開本： 16開 頁數： 248

本類榜單：計算機/網絡銷量榜

中圖價:¥41.7(7.0折) 定價 ~~¥59.8~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥41.7 加入購物車

版權信息
本書特色
內容簡介
目錄

強化學習版權信息

ISBN：9787302589723
條形碼：9787302589723 ; 978-7-302-58972-3
裝幀：一般膠版紙
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
計算機理論

強化學習本書特色

本書針對的是人工智能、機器學習和自動控制中的前沿技術——強化學習，論述了強化學習的基本知識，還闡述了強化學習中的*新學習方法。并結合當下熱點—深度學習，對深度學習與強化學習結合的產物—深度強化學習，進行了介紹與展望。同時，本書每章節均配有示例與名人傳記，方便讀者掌握方法的具體發展過程。由淺及深，在強化學習基礎知識之上，講述了強化學習的*新學習法

強化學習內容簡介

強化學習是目前機器學習乃至人工智能領域發展*快的分支之一。強化學習的基本思想是通過與環境的交互、智能體或智能算法獲取相關智能，其具體過程就是根據環境反饋得到的獎勵不斷調整自身的策略進而獲得獎勵決策的學習歷程。本書主要講述了強化學習的基本原理和基本方法，基于強化學習的控制、決策和優化方法設計與理論分析，深度強化學習原理以及平行強化學習等未來強化學習的發展新方向，展示從先行后知到先知后行，再到知行合一的混合平行智能思路。本書可作為高等學校人工智能、機器學習、智能控制、智能決策、智慧管理、系統工程以及應用數學等專業的本科生或研究生教材，亦可供相關專業科研人員和工程技術人員參考。

強化學習目錄

第1章強化學習概論

1.1引言

1.2強化學習的發展歷程

1.3強化學習的研究現狀

1.4本書內容架構

參考文獻

第2章馬爾可夫決策過程

2.1馬爾可夫決策過程

2.2策略與代價函數

2.3*優策略與*優代價函數

參考文獻

第3章動態規劃

3.1動態規劃的興起

3.2動態規劃基本思想：多級決策過程

3.3*優性原理與遞推方程

3.4離散時間動態規劃

3.5連續時間動態規劃

3.6動態規劃的挑戰

參考文獻

第4章蒙特卡洛學習方法

4.1蒙特卡洛方法背景

4.1.1蒙特卡洛方法的由來

4.1.2基于模型的算法與無模型算法比較

4.1.3蒙特卡洛模擬的思路

4.2蒙特卡洛預測

4.2.1初次訪問蒙特卡洛預測

4.2.2歷次訪問蒙特卡洛預測

4.2.3增量計算技巧

4.3蒙特卡洛控制

4.3.1初始探索問題

4.3.2在策方法： ε貪心算法

4.3.3脫策算法：重要性采樣

4.4蒙特卡洛強化學習算法總結

參考文獻

第5章時序差分學習

5.1時序差分學習基本概念

5.2時序差分學習算法

5.3n步回報

5.4TD(λ)算法

參考文獻

第6章神經網絡

6.1神經網絡的發展歷史

6.2MP神經元模型

6.3前饋神經網絡

6.3.1感知機

6.3.2誤差反向傳播算法

6.3.3徑向基網絡

6.4其他常見的神經網絡

6.4.1ART網絡

6.4.2Hopfield網絡

6.4.3Boltzmann機

參考文獻

第7章自適應動態規劃

7.1問題描述

7.2自適應動態規劃的原理

7.3自適應動態規劃的分類

7.3.1啟發式動態規劃

7.3.2二次啟發式規劃

7.3.3執行依賴啟發式動態規劃

7.3.4執行依賴二次啟發式規劃

7.4基于執行依賴的自適應動態規劃方法

7.4.1問題描述

7.4.2基于執行依賴的自適應動態規劃方法

參考文獻

第8章策略迭代學習方法

8.1啟發式學習原理

8.2離散時間策略迭代自適應動態規劃

8.2.1策略迭代算法的推導

8.2.2策略迭代算法的性質

8.2.3初始容許控制律的獲得

8.2.4仿真實驗

8.3連續時間策略迭代自適應動態規劃

8.3.1連續時間策略迭代算法

8.3.2連續時間策略迭代自適應動態規劃的性能分析

參考文獻

第9章值迭代學習方法

9.1值迭代學習原理

9.2離散時間值迭代自適應動態規劃

9.2.1離散時間非線性系統的Bellman方程解

9.2.2廣義值迭代自適應動態規劃

9.3連續時間值迭代自適應動態規劃

9.3.1問題描述

9.3.2主要結果

參考文獻

第10章Q學習方法

10.1無模型強化學習

10.2Q學習原理

10.3離散時間確定性Q學習

10.3.1問題描述

10.3.2離散時間確定性Q學習算法的性質

10.3.3離散時間確定性Q學習算法的神經網絡實現

10.3.4仿真實驗

10.4Q學習進展

參考文獻

第11章脫策學習

11.1脫策學習的興盛

11.2脫策學習的基本思想

11.2.1問題描述

11.2.2相關研究工作

11.3脫策學習過程

11.3.1脫策強化學習

11.3.2基于神經網絡的實現

11.4脫策學習收斂性分析

11.5基于脫策強化學習的線性H∞控制

11.6仿真實驗

參考文獻

第12章深度強化學習

12.1深度學習基本概念

12.1.1深度學習的起源

12.1.2深度學習與傳統機器學習

12.1.3深度學習的運用環境

12.2深度神經網絡

12.2.1深度神經網絡溯源

12.2.2梯度下降法

12.2.3反向傳播

12.2.4動量模型

12.2.5學習律

12.3卷積神經網絡

12.3.1卷積神經網絡介紹

12.3.2卷積層

12.3.3采樣層

12.3.4分類層

12.3.5經典卷積神經網絡結構

12.4循環神經網絡

12.4.1循環神經網絡介紹

12.4.2長短期記憶模型

12.5生成對抗網絡

12.6深度強化學習基本理論

12.6.1Q函數

12.6.2策略

12.6.3效用值

12.6.4模型

12.6.5規劃

12.7深度強化學習實際應用

12.7.1游戲

12.7.2機器人與控制

12.7.3自然語言處理

12.7.4計算機視覺

12.8未來待解決的問題

12.8.1采樣效率低下

12.8.2難以尋找合適的效用函數

12.8.3局部*優陷阱

12.8.4過擬合問題

12.8.5復現難題

12.8.6適用場景與未來思考

參考文獻

第13章強化學習展望：平行強化學習

13.1自適應動態規劃與深度強化學習

13.2平行控制理論的基本思想

13.3平行動態規劃方法

參考文獻

展開全部

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
姑媽的寶刀
姑媽的寶刀
莫言
¥11.2~~¥30.0~~
>
莉莉和章魚
莉莉和章魚
[美]史蒂文·羅利著，祝文亭譯
¥15.3~~¥42.0~~
>
苦雨齋序跋文-周作人自編集
苦雨齋序跋文-周作人自編集
周作人著，止庵校訂
¥6.1~~¥16.0~~
>
我與地壇
我與地壇
史鐵生
¥16.4~~¥28.0~~
>
隨園食單
隨園食單
袁枚
¥18.2~~¥48.0~~
>
羅庸西南聯大授課錄
羅庸西南聯大授課錄
羅庸
¥14.1~~¥32.0~~
>
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
易竹賢
¥9.9~~¥23.0~~
>
山海經
山海經
林非
¥18.7~~¥68.0~~