中圖網(wǎng)

>

計算機(jī)理論

深度強(qiáng)化學(xué)習(xí)圖解

包郵深度強(qiáng)化學(xué)習(xí)圖解

作者：郭濤

出版社：清華大學(xué)出版社出版時間：2022-07-01

開本： 16開 頁數(shù)： 408

本類榜單：計算機(jī)/網(wǎng)絡(luò)銷量榜

中圖價:¥93.1(6.7折) 定價 ~~¥139.0~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機(jī)等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用

全國計算機(jī)等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用

¥14.4¥45
>
決戰(zhàn)行測5000題(言語理解與表達(dá))

決戰(zhàn)行測5000題(言語理解與表達(dá))

¥44.1¥88
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路

軟件性能測試.分析與調(diào)優(yōu)實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續(xù)交付

JAVA持續(xù)交付

¥58.1¥119
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)

EXCEL最強(qiáng)教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學(xué)習(xí)

深度學(xué)習(xí)

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥93.1 加入購物車

版權(quán)信息
本書特色
內(nèi)容簡介
目錄
作者簡介

深度強(qiáng)化學(xué)習(xí)圖解版權(quán)信息

ISBN：9787302605461
條形碼：9787302605461 ; 978-7-302-60546-1
裝幀：一般膠版紙
冊數(shù)：暫無
重量：暫無
所屬分類：
計算機(jī)/網(wǎng)絡(luò)
>
計算機(jī)理論

深度強(qiáng)化學(xué)習(xí)圖解本書特色

深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Leaming，DRL) 是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的巧妙結(jié)合，是一種新興的通用人工智能技術(shù)，是人工智能邁向智能決策的重要一步，是機(jī)器學(xué)習(xí)的熱點，潛力無限，典型的成功案例是DeepMind AlphaGo和OpenAI Five。深度強(qiáng)化學(xué)習(xí)可看作在深度學(xué)習(xí)非線性函數(shù)超強(qiáng)擬合能力下，構(gòu)成的一種新增強(qiáng)算法。目前就深度強(qiáng)化學(xué)習(xí)而言，需要從三個方面進(jìn)行積累:**，深度強(qiáng)化學(xué)習(xí)的理論基礎(chǔ):第二，深度強(qiáng)化學(xué)習(xí)的仿真平臺:第三，產(chǎn)業(yè)落地的項目和產(chǎn)品。從深度強(qiáng)化學(xué)習(xí)庫以及框架看，學(xué)術(shù)界PyTorch和工業(yè)界Tensor Flow深度學(xué)習(xí)框架都將前沿成果集成進(jìn)來。目前已有一些經(jīng)典的深度強(qiáng)化學(xué)習(xí)文獻(xiàn)和著作，但將深度強(qiáng)化學(xué)習(xí)理論、工具和實戰(zhàn)相結(jié)合的著作還是很少，本書的出版恰好填補(bǔ)了這方面的空白。本書圖文并茂地對晦澀難懂的深度強(qiáng)化學(xué)習(xí)理論進(jìn)行描述，并結(jié)合大量的案例和應(yīng)用程序，引導(dǎo)讀者邊思考邊實踐，從而逐步加深對深度強(qiáng)化學(xué)習(xí)的理解，并將這些新方法、新理論和新思想用于自己的研究。本書可作為從事智能機(jī)器人控制、計算機(jī)視覺、自然語言處理和自動駕駛系統(tǒng)/無人車等領(lǐng)域研究工作的工程師、計算機(jī)科學(xué)家和統(tǒng)計學(xué)家的參考書。

深度強(qiáng)化學(xué)習(xí)圖解內(nèi)容簡介

我們在與環(huán)境交互的過程中進(jìn)行學(xué)習(xí)，經(jīng)歷的獎勵或懲罰將指導(dǎo)我們未來的行為。深度強(qiáng)化學(xué)習(xí)將該過程引入人工智能領(lǐng)域，通過分析結(jié)果來尋找*有效的前進(jìn)方式。DRL智能體可提升營銷效果、預(yù)測股票漲跌，甚至擊敗圍棋高手和國際象棋大師。《深度強(qiáng)化學(xué)習(xí)圖解》呈現(xiàn)生動示例，指導(dǎo)你構(gòu)建深度學(xué)習(xí)體系。Python代碼包含詳明、直觀的注釋，助你深刻理解DRL技術(shù)。你將學(xué)習(xí)算法的運行方式，并學(xué)會用評估性反饋來開發(fā)自己的DRL智能體。本書主要內(nèi)容包括: ●強(qiáng)化學(xué)習(xí)入門 ●行為與人類似的DRL智能體 ●在復(fù) 雜情況下應(yīng)用DRL

深度強(qiáng)化學(xué)習(xí)圖解目錄

第1章　深度強(qiáng)化學(xué)習(xí)導(dǎo)論 1

1.1　深度強(qiáng)化學(xué)習(xí)概念 2

1.1.1　深度強(qiáng)化學(xué)習(xí)：人工智能的機(jī)器學(xué)習(xí)法 2

1.1.2　深度強(qiáng)化學(xué)習(xí)著重創(chuàng)建計算機(jī)程序 5

1.1.3　智能體解決智能問題 6

1.1.4　智能體通過試錯提高性能 8

1.1.5　智能體從慣序性反饋中學(xué)習(xí) 9

1.1.6　智能體從評估性反饋中學(xué)習(xí) 10

1.1.7　智能體從抽樣性反饋中學(xué)習(xí) 10

1.1.8　智能體使用強(qiáng)大的非線性函數(shù)逼近 11

1.2　深度強(qiáng)化學(xué)習(xí)的過去、現(xiàn)在與未來 12

1.2.1　人工智能和深度強(qiáng)化學(xué)習(xí)的發(fā)展簡史 12

1.2.2　人工智能的寒冬 13

1.2.3　人工智能現(xiàn)狀 13

1.2.4　深度強(qiáng)化學(xué)習(xí)進(jìn)展 14

1.2.5　未來的機(jī)遇 17

1.3　深度強(qiáng)化學(xué)習(xí)的適用性 18

1.3.1　利弊分析 18

1.3.2　深度強(qiáng)化學(xué)習(xí)之利 19

1.3.3　深度強(qiáng)化學(xué)習(xí)之弊 20

1.4　設(shè)定明確的雙向預(yù)期 21

1.4.1　本書的預(yù)期 21

1.4.2　本書的*佳使用方式 22

1.4.3　深度強(qiáng)化學(xué)習(xí)的開發(fā)環(huán)境 23

1.5　小結(jié) 24

第2章　強(qiáng)化學(xué)習(xí)數(shù)學(xué)基礎(chǔ) 27

2.1　強(qiáng)化學(xué)習(xí)組成 28

2.1.1　問題、智能體和環(huán)境的示例 30

2.1.2　智能體：決策者 31

2.1.3　環(huán)境：其余一切 32

2.1.4　智能體與環(huán)境交互循環(huán) 37

2.2　MDP：環(huán)境的引擎 38

2.2.1　狀態(tài)：環(huán)境的特定配置 40

2.2.2　動作：影響環(huán)境的機(jī)制 43

2.2.3　轉(zhuǎn)換函數(shù)：智能體行為的后果 44

2.2.4　獎勵信號：胡蘿卜和棍棒 46

2.2.5　視界：時間改變*佳選擇 49

2.2.6　折扣：未來是不確定的，別太看重它 50

2.2.7　MDP擴(kuò)展 51

2.2.8　總體回顧 53

2.3　小結(jié) 54

第3章　平衡短期目標(biāo)與長期目標(biāo) 57

3.1　決策智能體的目標(biāo) 58

3.1.1　策略：各狀態(tài)動作指示 62

3.1.2　狀態(tài).-.值函數(shù)：有何期望 63

3.1.3　動作-值函數(shù)：如果這樣做，有何期望 64

3.1.4　動作-優(yōu)勢函數(shù)：如果這樣做，有何進(jìn)步 65

3.1.5　*優(yōu)性 66

3.2　規(guī)劃*優(yōu)動作順序 67

3.2.1　策略評估：評級策略 67

3.2.2　策略改進(jìn)：利用評級得以改善 73

3.2.3　策略迭代：完善改進(jìn)后的行為 77

3.2.4　價值迭代：早期改進(jìn)行為 81

3.3　小結(jié) 85

第4章　權(quán)衡信息收集和運用 87

4.1　解讀評估性反饋的挑戰(zhàn) 88

4.1.1　老虎機(jī)：單狀態(tài)決策問題 89

4.1.2　后悔值：探索的代價 90

4.1.3　解決MAB環(huán)境的方法 91

4.1.4　貪婪策略：總在利用 93

4.1.5　隨機(jī)策略：總在探索 95

4.1.6　ε.貪婪策略：通常貪婪，時而隨機(jī) 97

4.1.7　衰減.ε.貪婪策略：先*大化探索，后*大化利用 99

4.1.8　樂觀初始化策略：始于相信世界美好 101

4.2　策略型探索 105

4.2.1　柔性*大值策略：根據(jù)估計值按比隨機(jī)選擇動作 106

4.2.2　置信上界策略：現(xiàn)實樂觀，而非樂觀 108

4.2.3　湯普森抽樣策略：平衡回報與風(fēng)險 110

4.3　小結(jié) 116

第5章　智能體行為評估 119

5.1　學(xué)習(xí)估計策略價值 120

5.1.1　首次訪問蒙特卡洛：每次迭代后，改善估計 123

5.1.2　蒙特卡洛每次訪問：處理狀態(tài)訪問的不同方法 125

5.1.3　時差學(xué)習(xí)：每步后改進(jìn)估計 129

5.2　學(xué)習(xí)從多步進(jìn)行估算 137

5.2.1　n.步TD學(xué)習(xí)：經(jīng)過幾步后改進(jìn)估計 138

5.2.2　前瞻TD(λ)：改進(jìn)對所有訪問狀態(tài)的估計 141

5.2.3　TD(λ)：在每步之后改進(jìn)對所有訪問狀態(tài)的估計 143

5.3　小結(jié) 151

第6章　智能體行為的優(yōu)化 153

6.1　對智能體強(qiáng)化學(xué)習(xí)的解析 154

6.1.1　大多數(shù)智能體都要收集經(jīng)驗樣本 156

6.1.2　大多數(shù)智能體都要評估 157

6.1.3　大多數(shù)智能體都要優(yōu)化策略 159

6.1.4　廣義策略迭代 160

6.2　學(xué)習(xí)動作策略的優(yōu)化 162

6.2.1　蒙特卡洛控制：在每一迭代后優(yōu)化策略 163

6.2.2　SARSA：在每一步之后優(yōu)化策略 169

6.3　從學(xué)習(xí)中分離動作 173

6.3.1　Q學(xué)習(xí)：學(xué)會*優(yōu)動作，即使我們不選 173

6.3.2　雙Q學(xué)習(xí)：*大值估計值的*大估計值 177

6.4　小結(jié) 184

第7章　更有效、更高效地完成目標(biāo) 187

7.1　學(xué)習(xí)使用魯棒性目標(biāo)優(yōu)化策略 188

7.1.1　SARSA(λ)：基于多階段評估，在每一階段后優(yōu)化策略 189

7.1.2　Watkin的Q(λ)：再一次，從學(xué)習(xí)中分離行為 196

7.2　智能體的交互、學(xué)習(xí)、計劃 200

7.2.1　Dyna-Q：學(xué)習(xí)樣本模型 201

7.2.2　軌跡抽樣：為不久的將來做計劃 206

7.3　小結(jié) 219

第8章　基于價值的深度強(qiáng)化學(xué)習(xí) 221

8.1　深度強(qiáng)化學(xué)習(xí)智能體使用的反饋種類 222

8.1.1　深度強(qiáng)化學(xué)習(xí)智能體處理慣序性反饋 223

8.1.2　如果它不是慣序性反饋，那它是什么 224

8.1.3　深度強(qiáng)化學(xué)習(xí)智能體處理評估性反饋 225

8.1.4　如果它不是評估性反饋，那它是什么 226

8.1.5　深度強(qiáng)化學(xué)習(xí)智能體處理抽樣性反饋 226

8.1.6　如果它不是抽樣性反饋，那它是什么 227

8.2　強(qiáng)化學(xué)習(xí)中的逼近函數(shù) 228

8.2.1　強(qiáng)化學(xué)習(xí)問題能夠擁有高維狀態(tài)和動作空間 229

8.2.2　強(qiáng)化學(xué)習(xí)問題可以具有連續(xù)的狀態(tài)和動作空間 229

8.2.3　使用函數(shù)逼近有很多優(yōu)點 231

8.3　NFQ：對基于價值的深入強(qiáng)化學(xué)習(xí)的**次嘗試 233

8.3.1　第1個決策點：選擇逼近一個值函數(shù) 234

8.3.2　第2個決策點：選擇神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu) 235

8.3.4　第3個決策點：選擇要優(yōu)化的內(nèi)容 236

8.3.5　第4個決策點：為策略評估選擇目標(biāo) 238

8.3.6　第5個決策點：選擇探索策略 241

8.3.7　第6個決策點：選擇損失函數(shù) 242

8.3.8　第7個決策點：選擇一種*優(yōu)方法 243

8.3.9　可能出錯的事情 248

8.4　小結(jié) 250

第9章　更穩(wěn)定的基于價值方法 253

9.1　DQN：使強(qiáng)化學(xué)習(xí)更像是監(jiān)督學(xué)習(xí) 254

9.1.1　基于價值的深度強(qiáng)化學(xué)習(xí)的普遍問題 254

9.1.2　使用目標(biāo)網(wǎng)絡(luò) 256

9.1.3　使用更大網(wǎng)絡(luò) 259

9.1.4　使用經(jīng)驗回放 259

9.1.5　使用其他探索策略 263

9.2　雙重DQN：減少對動作-值函數(shù)的高估 269

9.2.1　高估問題 269

9.2.2　將動作選擇從動作評估剝離 270

9.2.3　一個解決方案 271

9.2.4　一個更實用的解決方案 272

9.2.5　一個更寬容的損失函數(shù) 275

9.2.6　仍可改進(jìn)之處 280

9.3　小結(jié) 281

第10章　高效抽樣的基于價值學(xué)習(xí)方法 285

10.1　Dueling DDQN：具備強(qiáng)化學(xué)習(xí)意識的神經(jīng)網(wǎng)絡(luò)架構(gòu) 286

10.1.1　強(qiáng)化學(xué)習(xí)不屬于監(jiān)督學(xué)習(xí)問題 286

10.1.2　基于價值的強(qiáng)化學(xué)習(xí)方法的微妙區(qū)別 287

10.1.3　利用優(yōu)點的優(yōu)勢 288

10.1.4　有意識強(qiáng)化學(xué)習(xí)框架 289

10.1.5　建立一個Dueling網(wǎng)絡(luò)架構(gòu) 290

10.1.6　重構(gòu)動作-值函數(shù) 291

10.1.7　連續(xù)更新目標(biāo)網(wǎng)絡(luò) 293

10.1.8　Dueling網(wǎng)絡(luò)能為表格帶來什么 294

10.2　PER：優(yōu)先有意義經(jīng)驗的回放 297

10.2.1　更明智的回放經(jīng)驗方法 297

10.2.2　如何較好地衡量“重要”經(jīng)驗 298

10.2.3　利用TD 誤差做出貪婪優(yōu)先級操作 299

10.2.4　隨機(jī)對優(yōu)先的經(jīng)驗進(jìn)行抽樣 300

10.2.5　成比例的優(yōu)先級 301

10.2.6　基于排名的優(yōu)先級 302

10.2.7　優(yōu)先偏倚 303

10.3　小結(jié) 309

第11章　策略梯度與actor-critic方法 313

11.1　REINFORCE算法：基于結(jié)果策略學(xué)習(xí) 314

11.1.1　策略梯度法簡介 314

11.1.2　策略梯度法之優(yōu)勢 315

11.1.3　直接學(xué)習(xí)策略 319

11.1.4　減少策略梯度方差 320

11.2　VPG：學(xué)習(xí)值函數(shù) 322

11.2.1　進(jìn)一步減少策略梯度方差 323

11.2.2　學(xué)習(xí)值函數(shù) 323

11.2.3　鼓勵探索 324

11.3　A3C：平行策略更新 328

11.3.1　使用actor工作器 328

11.3.2　使用n-step估計 331

11.3.3　無障礙模型更新 334

11.4　GAE: 穩(wěn)健優(yōu)勢估計 335

11.5　A2C: 同步策略更新 338

11.5.1　權(quán)重分擔(dān)模型 338

11.5.2　恢復(fù)策略更新秩序 340

11.6　小結(jié) 346

第12章　高級actor-critic方法 349

12.1　DDPG: 逼近確定性策略 351

12.1.1　DDPG使用DQN中的許多技巧 351

12.1.2　學(xué)習(xí)確定性策略 353

12.1.3　用確定性策略進(jìn)行探索 356

12.2　TD3：*先進(jìn)的DDPG改進(jìn) 358

12.2.1　DDPG中的雙重學(xué)習(xí) 358

12.2.2　平滑策略更新目標(biāo) 360

12.2.3　延遲更新 363

12.3　SAC: *大化預(yù)期收益和熵 365

12.3.1　在貝爾曼方程中添加熵 365

12.3.2　學(xué)習(xí)動作-值函數(shù) 366

12.3.3　學(xué)習(xí)策略 366

12.3.4　自動調(diào)整熵系數(shù) 367

12.4　PPO: 限制優(yōu)化步驟 372

12.4.1　使用與A2C相同的actor-critic架構(gòu) 372

12.4.2　分批處理經(jīng)驗 373

12.4.3　剪裁策略更新 377

12.4.4　剪裁值函數(shù)更新 377

12.5　小結(jié) 382

第13章　邁向通用人工智能 385

13.1　已涵蓋的以及未特別提及的內(nèi)容 386

13.1.1　馬爾可夫決策過程 387

13.1.2　規(guī)劃法 388

13.1.3　Bandit法 389

13.1.4　表格型強(qiáng)化學(xué)習(xí) 390

13.1.5　基于值函數(shù)的深度強(qiáng)化學(xué)習(xí) 391

13.1.6　基于策略的深度強(qiáng)化學(xué)習(xí)和actor-critic深度強(qiáng)化學(xué)習(xí) 392

13.1.7　高級actor-critic技術(shù) 392

13.1.8　基于模型的深度強(qiáng)化學(xué)習(xí) 393

13.1.9　無梯度優(yōu)化方法 395

13.2　更多AGI高級概念 397

13.2.1　什么是AGI 397

13.2.2　高級探索策略 399

13.2.3　逆強(qiáng)化學(xué)習(xí) 399

13.2.4　遷移學(xué)習(xí) 400

13.2.5　多任務(wù)學(xué)習(xí) 401

13.2.6　課程學(xué)習(xí) 401

13.2.7　元學(xué)習(xí) 402

13.2.8　分層強(qiáng)化學(xué)習(xí) 402

13.2.9　多智能體強(qiáng)化學(xué)習(xí) 402

13.2.10　可解釋AI、安全、公平和道德標(biāo)準(zhǔn) 403

13.3　接下來是什么 404

13.3.1　如何用DRL解決特定問題 404

13.3.2　繼續(xù)前進(jìn) 405

13.3.3　從現(xiàn)在開始，放下本書 406

13.4　小結(jié) 407

展開全部

深度強(qiáng)化學(xué)習(xí)圖解作者簡介

　Miguel Morales在洛克希德·馬丁(Lockheed Martin)公司從事強(qiáng)化學(xué)習(xí)工作，在佐治亞理工學(xué)院擔(dān)任強(qiáng)化學(xué)習(xí)與決策課程的講師。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
隨園食單
隨園食單
袁枚
¥18.2~~¥48.0~~
>
史學(xué)評論
史學(xué)評論
楊玉圣
¥14.4~~¥42.0~~
>
【精裝繪本】畫給孩子的中國神話
【精裝繪本】畫給孩子的中國神話
施英巍
¥18.6~~¥55.0~~
>
大紅狗在馬戲團(tuán)-大紅狗克里弗-助人
大紅狗在馬戲團(tuán)-大紅狗克里弗-助人
[美] 諾爾曼·伯德韋爾著，杜可名譯
¥4.5~~¥10.0~~
>
我從未如此眷戀人間
我從未如此眷戀人間
史鐵生/汪曾祺
¥16.9~~¥49.8~~
>
經(jīng)典常談
經(jīng)典常談
朱自清
¥13.7~~¥39.8~~
>
詩經(jīng)-先民的歌唱
詩經(jīng)-先民的歌唱
裴溥言
¥18.3~~¥39.8~~
>
羅曼·羅蘭讀書隨筆-精裝
羅曼·羅蘭讀書隨筆-精裝
[法]羅曼·羅蘭著,鄭克魯譯
¥35.8~~¥58.0~~

本類暢銷

大模型應(yīng)用開發(fā)極簡入門基于GPT-4和ChatGPT

(比)奧利維耶·卡埃朗,(法)瑪麗-艾麗

¥41.9~~¥59.8~~
人工智能現(xiàn)代方法第4版(全2冊)

(美)斯圖爾特·羅素,(美)彼得·諾維格

¥120.8~~¥198~~
計算機(jī)視覺:算法與應(yīng)用

RichardSzeliski、艾海舟

¥95.9~~¥139~~
必然(修訂版)

KevinKelly（凱文·凱利）

¥53.5~~¥89~~
GPT時代人類再騰飛

(美)里德·霍夫曼,美國GPT-4

¥54.9~~¥89.9~~
生成式人工智能(AIGC)應(yīng)用

張亭婷,湯景,陶蕊編

¥64.9~~¥90~~

中图网(原中国图书网)：网上书店，尾货特色书店，30万种特价书低至2折！

包郵深度強(qiáng)化學(xué)習(xí)圖解

深度強(qiáng)化學(xué)習(xí)圖解版權(quán)信息

深度強(qiáng)化學(xué)習(xí)圖解本書特色

深度強(qiáng)化學(xué)習(xí)圖解內(nèi)容簡介

深度強(qiáng)化學(xué)習(xí)圖解目錄

深度強(qiáng)化學(xué)習(xí)圖解作者簡介

隨園食單

史學(xué)評論

【精裝繪本】畫給孩子的中國神話

大紅狗在馬戲團(tuán)-大紅狗克里弗-助人

我從未如此眷戀人間

經(jīng)典常談

詩經(jīng)-先民的歌唱

羅曼·羅蘭讀書隨筆-精裝

大模型應(yīng)用開發(fā)極簡入門基于GPT-4和ChatGPT

人工智能現(xiàn)代方法第4版(全2冊)

計算機(jī)視覺:算法與應(yīng)用

必然(修訂版)

GPT時代人類再騰飛

生成式人工智能(AIGC)應(yīng)用

熊千佳昆蟲記

時間停止的那一天

百年夢憶:梁實秋人生自述

俄羅斯書簡

張學(xué)良人格圖譜

陶潛和櫻子

包郵 深度強(qiáng)化學(xué)習(xí)圖解

深度強(qiáng)化學(xué)習(xí)圖解 版權(quán)信息

深度強(qiáng)化學(xué)習(xí)圖解 本書特色

深度強(qiáng)化學(xué)習(xí)圖解 內(nèi)容簡介

深度強(qiáng)化學(xué)習(xí)圖解 目錄

深度強(qiáng)化學(xué)習(xí)圖解 作者簡介

包郵深度強(qiáng)化學(xué)習(xí)圖解

深度強(qiáng)化學(xué)習(xí)圖解版權(quán)信息

深度強(qiáng)化學(xué)習(xí)圖解本書特色

深度強(qiáng)化學(xué)習(xí)圖解內(nèi)容簡介

深度強(qiáng)化學(xué)習(xí)圖解目錄

深度強(qiáng)化學(xué)習(xí)圖解作者簡介