中圖網

>

人工智能

深度強化學習

包郵深度強化學習

作者：劉全、黃志剛

出版社：清華大學出版社出版時間：2021-08-01

開本：其他頁數： 243

本類榜單：計算機/網絡銷量榜

中圖價:¥47.6(8.0折) 定價 ~~¥59.8~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥47.6 加入購物車

版權信息
本書特色
內容簡介
目錄
作者簡介

深度強化學習版權信息

ISBN：9787302578208
條形碼：9787302578208 ; 978-7-302-57820-8
裝幀：70g膠版紙
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
人工智能

深度強化學習本書特色

強化學習是目前機器學習領域*熱門的方向之一，本書經多年的實踐教學經驗的積累，形成了一套完整的教學體系。并結合流行的深度學習框架PyTorch，該書在理論和應用上都是較先進的。本書理論結合實踐，深入淺出地講解相關算法和實例。

深度強化學習內容簡介

本書基于PyTorch框架，用通俗易懂的語言深入淺出地介紹了強化學習的基本原理，包括傳統的強化學習基本方法和目前流行的深度強化學習方法。在對強化學習任務建模的基礎上，首先介紹動態規劃法、蒙特卡洛法、時序差分法等表格式強化學習方法，然后介紹在PyTorch框架下，DQN、DDPG、A3C等基于深度神經網絡的大規模強化學習方法。全書以一個掃地機器人任務貫穿始終，并給出具有代表性的實例，增加對每個算法的理解。全書配有PPT和視頻講解，對相關算法和實例配有代碼程序。全書共分三部分：和第二部分（～8章）為表格式強化學習部分，著重介紹深度強化學習概述、環境的配置、數學建模、動態規劃法、蒙特卡洛法、時序差分法、n步時序差分法、規劃和蒙特卡洛樹搜索；第三部分（第9～14章）為深度強化學習部分，著重介紹深度學習、PyTorch與神經網絡、深度Q網絡、策略梯度、基于確定性策略梯度的深度強化學習、AC框架的拓展。全書提供了大量的應用實例，每章章末均附有習題。本書既適合作為高等院校計算機、軟件工程、電子工程等相關專業高年級本科生、研究生的教材，又可為人工智能、機器學習等領域從事項目開發、科學研究的人員提供參考。

深度強化學習目錄

**部分：預備知識及環境安裝

第1章深度強化學習概述

1.1引言

1.2深度學習

1.3強化學習

1.4深度強化學習

1.5小結

1.6習題

第2章環境的配置

2.1PyTorch簡介

2.2PyTorch和TensorFlow

2.3強化學習的開發環境

2.3.1Anaconda環境搭建

2.3.2Anaconda環境管理

2.3.3PyTorch的安裝

2.3.4Jupyter Notebook的安裝

2.3.5Jupyter Notebook的使用

2.3.6Gym的安裝

2.3.7Gym案例

2.4小結

2.5習題

第二部分：表格式強化學習

第3章數學建模

3.1馬爾可夫決策過程

3.2基于模型與無模型

3.3求解強化學習任務

3.3.1策略

3.3.2獎賞與回報

3.3.3值函數與貝爾曼方程

3.3.4*優策略與*優值函數

3.4探索與利用

3.5小結

3.6習題

第4章動態規劃法

4.1策略迭代

4.1.1策略評估

4.1.2策略迭代

4.2值迭代

4.3廣義策略迭代

4.4小結

4.5習題

第5章蒙特卡洛法

5.1蒙特卡洛法的基本概念

5.1.1MC的核心要素

5.1.2MC的特點

5.2蒙特卡洛預測

5.3蒙特卡洛評估

5.4蒙特卡洛控制

5.4.1基于探索始點的蒙特卡洛控制

5.4.2同策略蒙特卡洛控制

5.4.3異策略與重要性采樣

5.4.4蒙特卡洛中的增量式計算

5.4.5異策略蒙特卡洛控制

5.5小結

5.6習題

第6章時序差分法

6.1時序差分預測

6.2時序差分控制

6.2.1Sarsa算法

6.2.2QLearning算法

6.2.3期望Sarsa算法

6.3*大化偏差與Double QLearning

6.3.1*大化偏差

6.3.2Double Learning

6.3.3Double QLearning

6.4DP、MC和TD算法的關系

6.4.1窮舉式遍歷與軌跡采樣

6.4.2期望更新與采樣更新

6.5小結

6.6習題

第7章n步時序差分法

7.1n步TD預測及資格跡

7.1.1n步TD預測

7.1.2前向TD(λ)算法

7.1.3后向TD(λ)算法

7.2n步TD控制及其資格跡實現

7.2.1同策略n步Sarsa算法

7.2.2Sarsa(λ)算法

7.2.3異策略n步Sarsa算法

7.2.4n步Tree Backup算法

7.3小結

7.4習題

第8章規劃和蒙特卡洛樹搜索

8.1模型、學習與規劃

8.1.1模型

8.1.2學習

8.1.3規劃

8.2DynaQ結構及其算法改進

8.2.1DynaQ架構

8.2.2優先遍歷

8.2.3模擬模型的錯誤性

8.3決策時間規劃

8.3.1啟發式搜索

8.3.2預演算法

8.3.3蒙特卡洛樹搜索

8.4小結

8.5習題

第三部分：深度強化學習

第9章深度學習

9.1傳統神經網絡

9.1.1感知器神經元

9.1.2激活函數

9.2反向傳播算法

9.2.1前向傳播

9.2.2權重調整

9.2.3BP算法推導

9.3卷積神經網絡

9.3.1卷積神經網絡核心思想

9.3.2卷積神經網絡結構

9.4小結

9.5習題

第10章PyTorch與神經網絡

10.1PyTorch中的Tensor

10.1.1直接構造法

10.1.2間接轉換法

10.1.3Tensor的變換

10.2自動梯度計算

10.2.1標量對標量的自動梯度計算

10.2.2向量對向量的自動梯度計算

10.2.3標量對向量（或矩陣）的自動梯度計算

10.3神經網絡的模型搭建和參數優化

10.3.1模型的搭建

10.3.2激活函數

10.3.3常用的損失函數

10.3.4模型的保存和重載

10.4小結

10.5習題

第11章深度Q網絡

11.1DQN算法

11.1.1核心思想

11.1.2訓練算法

11.1.3實驗結果與分析

11.2Double DQN算法

11.2.1核心思想

11.2.2實驗結果與分析

11.3Prioritized DQN

11.3.1核心思想

11.3.2訓練算法

11.3.3實驗結果與分析

11.4Dueling DQN

11.4.1訓練算法

11.4.2實驗結果與分析

11.5小結

11.6習題

第12章策略梯度法

12.1隨機策略梯度法

12.1.1梯度上升算法

12.1.2策略梯度法與值函數逼近法的比較

12.2策略優化方法

12.2.1情節式策略目標函數

12.2.2連續式策略目標函數

12.2.3策略梯度定理

12.3策略表達形式

12.3.1離散動作空間策略參數化

12.3.2連續動作空間策略參數化

12.4蒙特卡洛策略梯度法

12.4.1REINFORCE

12.4.2REINFORCE算法的實驗結果與分析

12.4.3帶基線的REINFORCE

12.4.4帶基線的REINFORCE算法的實驗結果與分析

12.5行動者評論家

12.6確定性策略梯度定理

12.7小結

12.8習題

第13章基于確定性策略梯度的深度強化學習

13.1DDPG算法

13.1.1算法背景

13.1.2核心思想

13.1.3DDPG算法

13.2DDPG算法的實驗結果與分析

13.2.1DDPG算法網絡結構與超參數設置

13.2.2實驗環境

13.2.3實驗結果與分析

13.3雙延遲確定性策略梯度算法

13.3.1過高估計問題解決方案

13.3.2累計誤差問題解決方案

13.3.3TD3算法

13.3.4實驗結果與分析

13.4小結

13.5習題

第14章基于AC框架的深度強化學習

14.1行動者評論家框架

14.2A3C算法

14.2.1算法的核心思想

14.2.2異步1步Q學習算法

14.2.3A3C算法

14.2.4實驗結果與分析

14.3A2C算法

14.3.1A2C算法

14.3.2實驗結果與分析

14.4小結

14.5習題

參考文獻

展開全部

深度強化學習作者簡介

劉全，蘇州大學教授，博士生導師。吉林大學博士, 南京大學軟件新技術國家重點實驗室博士后。蘇州市人工智能學會常務理事、秘書長。2006年開始從事強化學習領域的教學和科研工作。主講研究生、本科生《強化學習》及相關課程16次。主持“深度強化學習方法研究”、“部分感知強化學習理論及方法”、“基于tableau的邏輯強化學習研究”等國家、省部級項目10余項。目前主要研究方向為：深度強化學習。 2012年獲江蘇省教工委優秀共產黨員稱號。2011年、2012年入選江蘇省“六大人才”、江蘇省“333”人才培養計劃。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
莉莉和章魚
莉莉和章魚
[美]史蒂文·羅利著，祝文亭譯
¥15.3~~¥42.0~~
>
我從未如此眷戀人間
我從未如此眷戀人間
史鐵生/汪曾祺
¥20.5~~¥49.8~~
>
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
易竹賢
¥9.9~~¥23.0~~
>
我與地壇
我與地壇
史鐵生
¥16.4~~¥28.0~~
>
巴金－再思錄
巴金－再思錄
巴金
¥15.7~~¥46.0~~
>
伊索寓言-世界文學名著典藏-全譯本
伊索寓言-世界文學名著典藏-全譯本
[古希臘] 伊索著，陳韻如譯
¥6.7~~¥19.0~~
>
史學評論
史學評論
楊玉圣
¥18.9~~¥42.0~~
>
伯納黛特,你要去哪(2021新版)
伯納黛特,你要去哪(2021新版)
[美] 瑪利亞·森普爾著，何雨珈譯
¥16.9~~¥49.8~~

本類暢銷

這就是ChatGPT

(美)斯蒂芬·沃爾弗拉姆

¥41.9~~¥59.8~~
機器學習

周志華

¥47.4~~¥108~~
深度學習導論

(美)尤金·查爾尼克(Eugene Ch

¥24.5~~¥49~~
正版圖書攜程人工智能實踐

攜程技術團隊

¥51.1~~¥109~~
TensorFlow實戰

黃文堅

¥26.3~~¥79~~
做好課題申報:AI輔助申請書寫作

趙鑫宋義平郭澤德

¥48.9~~¥69.8~~

中图网(原中国图书网)：网上书店，尾货特色书店，30万种特价书低至2折！

包郵深度強化學習

深度強化學習版權信息

深度強化學習本書特色

深度強化學習內容簡介

深度強化學習目錄

深度強化學習作者簡介

莉莉和章魚

我從未如此眷戀人間

新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)

我與地壇

巴金－再思錄

伊索寓言-世界文學名著典藏-全譯本

史學評論

伯納黛特,你要去哪(2021新版)

這就是ChatGPT

機器學習

深度學習導論

正版圖書攜程人工智能實踐

TensorFlow實戰

做好課題申報:AI輔助申請書寫作

張學良人格圖譜

熊千佳昆蟲記

女孩們

百年夢憶:梁實秋人生自述

上海灘的賈斯汀·比伯

每日論語

包郵 深度強化學習

深度強化學習 版權信息

深度強化學習 本書特色

深度強化學習 內容簡介

深度強化學習 目錄

深度強化學習 作者簡介

包郵深度強化學習

深度強化學習版權信息

深度強化學習本書特色

深度強化學習內容簡介

深度強化學習目錄

深度強化學習作者簡介