-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
深度強化學習實踐(原書第2版) 版權信息
- ISBN:9787111687382
- 條形碼:9787111687382 ; 978-7-111-68738-2
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
深度強化學習實踐(原書第2版) 本書特色
一本幫助你快速上手強化學習并開始實踐的入門書,從理論與實踐維度對強化學習進行全面解釋和演示
深度強化學習實踐(原書第2版) 內容簡介
本書理論與實踐相結合,系統闡述強化學習的基礎知識,以及如何動手編寫智能體以執行一系列實際任務。通過閱讀本書,讀者將獲得深層Q網絡、策略梯度方法、連續控制問題以及高度可擴展的非梯度方法等主題領域的可行洞見,還將學會如何構建一個經過強化學習訓練、價格低廉的真實硬件機器人,并通過一步步代碼優化在短短30分鐘的訓練后解決Pong環境。此外,本書還專門介紹了強化學習的新發展,包括離散優化(解決魔方問題)、多智能體方法、Microsoft的TextWorld環境、不錯探索技術等。
深度強化學習實踐(原書第2版) 目錄
前言
作者簡介
審校者簡介
第1章 什么是強化學習
1.1 機器學習分類
1.1.1 監督學習
1.1.2 非監督學習
1.1.3 強化學習
1.2 強化學習的復雜性
1.3 強化學習的形式
1.3.1 獎勵
1.3.2 智能體
1.3.3 環境
1.3.4 動作
1.3.5 觀察
1.4 強化學習的理論基礎
1.4.1 馬爾可夫決策過程
1.4.2 策略
1.5 總結
第2章 OpenAIGym
2.1 剖析智能體
2.2 硬件和軟件要求
2.3 0penAIGymAPI
2.3.1 動作空間
2.3.2 觀察空間
2.3.3 環境
2.3.4 創建環境
2.3.5 車擺系統
2.4 隨機CartPole智能體
2.5 Gym的額外功能:包裝器和監控器
2.5.1 包裝器
2.5.2 監控器
2.6 總結
第3章 使用PyTorch進行深度學習
3.1 張量
3.1.1 創建張量
3.1.2 零維張量
3.1.3 張量操作
3.1.4 GPU張量
3.2 梯度
3.3 NN構建塊
3.4 自定義層
3.5 *終黏合劑:損失函數和優化器
3.5.1 損失函數
3.5.2 優化器
3.6 使用TensorBoard進行監控
3.6.1 TensorBOard101
3.6.2 繪圖
3.7 示例:將GAN應用于Atari圖像
3.8 PyTorchlgnite
3.9 總結
第4章 交叉熵方法
4.1 RL方法的分類
4.2 交叉熵方法的實踐
4.3 交叉熵方法在CartPole中的應用
4.4 交叉熵方法在FrozenLake中的應用
4.5 交叉熵方法的理論背景
4.6 總結
第5章 表格學習和Bellman方程
5.1 價值、狀態和*優性
5.2 *佳Bellman方程
5.3 動作的價值
5.4 價值迭代法
5.5 價值迭代實踐
5.6 Q-Iearning在FrozenLake中的應用
5.7 總結
第6章 深度Q.network
6.1 現實的價值迭代
6.2 表格Q-Iearning
6.3 深度Q-learning
6.3.1 與環境交互
6.3.2 SGD優化
6.3.3 步驟之間的相關性
6.3.4 馬爾可夫性質
6.3.5 DQN訓練的*終形式
6.4 DQN應用于Pong游戲
6.4.1 包裝器
6.4.2 DQN模型
6.4.3 訓練
6.4.4 運行和性能
6.4.5 模型實戰
6.5 可以嘗試的事情
6.6 總結
第7章 高級強化學習庫
7.1 為什么使用強化學習庫
7.2 PTAN庫
7.2.1 動作選擇器
7.2.2 智能體
7.2.3 經驗源
7.2.4 經驗回放緩沖區
7.2.5 TargetNet類
7.2.6 Ignite幫助類
7.3 PTAN版本的CartPole解決方案
7.4 其他強化學習庫
7.5 總結
第8章 DQN擴展
8.1 基礎DQN
8.1.1 通用庫
8.1.2 實現
8.1.3 結果
8.2 N步DQN
……
第9章 加速強化學習訓練的方法
第10章 使用強化學習進行股票交易
第11章 策略梯度:一種替代方法
第12章 actor-critic方法
第13章 A3C
第14章 使用強化學習訓練聊天機器人
第15章 TextWorld環境
第16章 Web導航
第17章 連續動作空間
第18章 機器人技術中的強化學習
第19章 置信域:PPO、TRPO、ACKTR及SAC
第20章 強化學習中的黑盒優化
深度強化學習實踐(原書第2版) 作者簡介
馬克西姆·拉潘(Maxim Lapan),一位深度學習愛好者和獨立研究者。他擁有15年軟件開發和系統架構經驗,涵蓋從低級Linux內核驅動程序開發到性能優化以及在數千臺服務器上工作的分布式應用程序設計的方方面面。他在大數據、機器學習以及大型并行分布式HPC和非HPC系統方面擁有豐富的工作經驗,他能夠使用簡單的詞匯和生動的示例來解釋復雜的事物。他當前感興趣的領域包括深度學習的實際應用,例如,深度自然語言處理和深度強化學習。林然,在2016年加入Thoughtworks之后,主要擔任全棧軟件開發工程師、TechLead、算法工程師等。在技術領域,他特別擅長全棧軟件開發、端到端交付、面向對象設計、測試驅動開發、持續交付、領域驅動設計(DDD),熟悉整潔架構、微服務、DevOps、Scrum、Kanban、深度強化學習、Hadoop生態等技術和方法論。當前他在精進以重構、測試驅動開發和持續交付為核心的軟件工程能力的基礎上,正深耕于以領域驅動設計為代表的數字化架構能力、數據中臺的架構能力以及以深度強化學習為代表的機器學習解決方案。同時,他曾參與翻譯《Python機器學習手冊》。王薇,北京郵電大學碩士,現任Thoughtworks數據分析師。有金融、通信、醫療、娛樂等不同行業的數據類項目經驗,精通多種數據挖掘算法,擅長將算法與業務相結合進行數據挖掘和分析。
- >
朝聞道
- >
煙與鏡
- >
苦雨齋序跋文-周作人自編集
- >
山海經
- >
推拿
- >
唐代進士錄
- >
莉莉和章魚
- >
我與地壇