中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
深度強化學習實戰

包郵 深度強化學習實戰

出版社:人民郵電出版社出版時間:2023-04-01
開本: 16開 頁數: 296
中 圖 價:¥75.5(6.3折) 定價  ¥119.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深度強化學習實戰 版權信息

  • ISBN:9787115576361
  • 條形碼:9787115576361 ; 978-7-115-57636-1
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

深度強化學習實戰 本書特色

適讀人群 :1. 想了解深度強化學習基礎知識的讀者 2. 有一定深度學習、機器學習基礎并對強化學習感興趣的讀者 3. 項目示例以Jupter Notebook樣式給出1.詳細講解深度強化學習基礎知識,內容豐富2.提供多個實戰案例,學習更有效,實踐更有用3.包含深度強化學***算法+PyTorch、OpenAI Gym等流行工具,新穎實用4.作者在深度強化學習領域經驗豐富,知識點梳理清晰,易懂易學

深度強化學習實戰 內容簡介

本書先介紹深度強化學習的基礎知識及相關算法,然后給出多個實戰項目,以期讓讀者可以根據環境的直接反饋對智能體加以調整和改進,提升運用深度強化學習技術解決實際問題的能力。 本書涵蓋深度Q網絡、策略梯度法、演員-評論家算法、進化算法、Dist-DQN、多智能體強化學習、可解釋性強化學習等內容。本書給出的實戰項目緊跟深度強化學習技術的發展趨勢,且所有項目示例以Jupter Notebook樣式給出,便于讀者修改代碼、觀察結果并及時獲取經驗,能夠帶給讀者交互式的學習體驗。 本書適合有一定深度學習和機器學習基礎并對強化學習感興趣的讀者閱讀。

深度強化學習實戰 目錄

第 一部分 基礎篇
第 1章 什么是強化學習 3
1.1 深度強化學習中的“深度” 4
1.2 強化學習 5
1.3 動態規劃與蒙特卡洛 7
1.4 強化學習框架 9
1.5 強化學習可以做什么 12
1.6 為什么是深度強化學習 14
1.7 教學工具:線圖 15
1.8 后續內容概述 17
小結 18
第 2章 強化學習問題建模: 馬爾可夫決策過程 19
2.1 線圖與本書的教學方法 19
2.2 解決多臂老虎機問題 22
2.2.1 探索與利用 23
2.2.2 貪婪策略 24
2.2.3 Softmax選擇策略 29
2.3 應用老虎機算法優化廣告投放 31
2.3.1 上下文老虎機 31
2.3.2 狀態、動作和獎勵 32
2.4 利用PyTorch構建網絡 33
2.4.1 自動微分 33
2.4.2 構建模型 34
2.5 解決上下文老虎機問題 35
2.6 馬爾可夫性質 39
2.7 預測未來獎勵:價值和策略函數 41
2.7.1 策略函數 42
2.7.2 *優策略 43
2.7.3 價值函數 43
小結 44
第3章 預測*佳狀態和動作: 深度Q網絡 46
3.1 Q函數 46
3.2 Q-learning導航 47
3.2.1 Q-learning是什么 48
3.2.2 應用于Gridworld游戲 49
3.2.3 超參數 50
3.2.4 貼現因子 50
3.2.5 構建網絡 52
3.2.6 介紹Gridworld游戲引擎 53
3.2.7 構建Q函數的神經網絡 55
3.3 防止災難性遺忘:經驗回放 64
3.3.1 災難性遺忘 64
3.3.2 經驗回放 65
3.4 利用目標網絡提高穩定性 69
學習的不穩定性 70
3.5 回顧 74
小結 76
第4章 學習選擇*佳策略:策略梯度法 77
4.1 使用神經網絡的策略函數 77
4.1.1 神經網絡作為策略函數 78
4.1.2 隨機策略梯度 78
4.1.3 探索 80
4.2 強化良好動作:策略梯度算法 81
4.2.1 定義目標 81
4.2.2 強化動作 82
4.2.3 對數概率 84
4.2.4 信用分配 84
4.3 與OpenAI Gym配合 85
4.3.1 CartPole 87
4.3.2 OpenAI Gym API 87
4.4 REINFORCE算法 88
4.4.1 創建策略網絡 88
4.4.2 使智能體與環境交互 89
4.4.3 訓練模型 89
4.4.4 完整訓練循環 91
4.4.5 所得到的結論 93
小結 93
第5章 利用演員-評論家算法 解決更復雜的問題 94
5.1 重構價值-策略函數 95
5.2 分布式訓練 99
5.3 演員-評論家優勢算法 104
5.4 N-step演員-評論家算法 112
小結 116
第二部分 進階篇
第6章 可替代的優化方法: 進化算法 119
6.1 另一種強化學習方法 119
6.2 具有進化策略的強化學習 121
6.2.1 進化理論 121
6.2.2 進化實踐 123
6.3 CartPole的遺傳算法 128
6.4 進化算法的優缺點 134
6.4.1 進化算法探索更多 134
6.4.2 進化算法令人難以置信的樣本密集性 134
6.4.3 模擬器 135
6.5 進化算法作為一種可擴展的替代方案 135
6.5.1 擴展的進化算法 135
6.5.2 并行與串行處理 137
6.5.3 擴展效率 138
6.5.4 節點間通信 138
6.5.5 線性擴展 140
6.5.6 擴展基于梯度的算法 140
小結 141
第7章 Dist-DQN:獲取完整故事 142
7.1 Q-learning存在的問題 143
7.2 再論概率統計 147
7.2.1 先驗和后驗 148
7.2.2 期望和方差 149
7.3 貝爾曼方程 153
分布式貝爾曼方程 153
7.4 分布式Q-learning 154
7.4.1 使用Python表示概率分布 154
7.4.2 實現Dist-DQN 162
7.5 比較概率分布 164
7.6 模擬數據上的Dist-DQN 167
7.7 使用分布式Q-learning玩Freeway 172
小結 177
第8章 好奇心驅動的 探索 178
8.1 利用預測編碼處理稀疏獎勵 179
8.2 反向動態預測 182
8.3 搭建《超級馬里奧兄弟》環境 184
8.4 預處理和Q網絡 186
8.5 創建Q網絡和策略函數 188
8.6 內在好奇心模塊 191
8.7 可替代的內在獎勵機制 203
小結 205
第9章 多智能體強化 學習 206
9.1 從單個到多個智能體 206
9.2 鄰域Q-learning 210
9.3 一維伊辛模型 213
9.4 平均場Q-learning和二維伊辛模型 221
9.5 混合合作競技游戲 230
小結 239
第 10章 強化學習可解釋性: 注意力和關系 模型 241
10.1 帶注意力和關系偏差的 機器學習可解釋性 242
不變性和等變性 243
10.2 利用注意力進行關系 推理 244
10.2.1 注意力模型 245
10.2.2 關系推理 246
10.2.3 自注意力模型 251
10.3 對MNIST實現 自注意力 253
10.3.1 轉換的MNIST 254
10.3.2 關系模塊 255
10.3.3 張量縮并和愛因斯坦 標記法 258
10.3.4 訓練關系模塊 261
10.4 多頭注意力和 關系DQN 264
10.5 雙Q-learning 270
10.6 訓練和注意力 可視化 271
10.6.1 *大熵學習 275
10.6.2 課程學習 275
10.6.3 可視化注意力權重 276
小結 278
第 11章 總結:回顧和 路線圖 280
11.1 我們學到了什么 280
11.2 深度強化學習中的 未知課題 282
11.2.1 優先經驗回放 282
11.2.2 近端策略優化 282
11.2.3 分層強化學習和 options框架 283
11.2.4 基于模型的規劃 283
11.2.5 蒙特卡洛樹搜索 284
全書結語 284
附錄A 數學、深度學習和
PyTorch 285
A.1 線性代數 285
A.2 微積分 287
A.3 深度學習 290
A.4 PyTorch 291
參考資料 295
展開全部

深度強化學習實戰 作者簡介

Alexander Zai曾擔任Codesmith(一個沉浸式的編碼訓練營)首席技術官和技術顧問、Uber 軟件工程師、Bonjo和AmazonAI機器學習工程師,他也是開源深度學習框架Apache MXNet的貢獻者。此外,他還是兩家公司的聯合創立人,其中一家曾是Y-combinator的參與者。Brandon Brown從很小的時候就開始編程,大學期間做過兼職軟件工程師,但最終選擇投身醫療行業(在此期間,他在醫療保健科技領域擔任軟件工程師)。受深度強化學習的啟發,他近期專注于計算精神病學的研究。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 超声波焊接机_超音波熔接机_超声波塑焊机十大品牌_塑料超声波焊接设备厂家 | 深圳天际源广告-形象堆头,企业文化墙,喷绘,门头招牌设计制作专家 | 清水-铝合金-建筑模板厂家-木模板价格-铝模板生产「五棵松」品牌 | 脱硫搅拌器厂家-淄博友胜不锈钢搅拌器厂家 | 环氧树脂地坪漆_济宁市新天地漆业有限公司 | 排烟防火阀-消防排烟风机-正压送风口-厂家-价格-哪家好-德州鑫港旺通风设备有限公司 | 长沙广告公司|长沙广告制作设计|长沙led灯箱招牌制作找望城湖南锦蓝广告装饰工程有限公司 | 股指期货-期货开户-交易手续费佣金加1分-保证金低-期货公司排名靠前-万利信息开户 | 工业车间焊接-整体|集中除尘设备-激光|等离子切割机配套除尘-粉尘烟尘净化治理厂家-山东美蓝环保科技有限公司 | 冷凝水循环试验箱-冷凝水试验箱-可编程高低温试验箱厂家-上海巨为(www.juweigroup.com) | 大_小鼠elisa试剂盒-植物_人Elisa试剂盒-PCR荧光定量试剂盒-上海一研生物科技有限公司 | 冷却塔改造厂家_不锈钢冷却塔_玻璃钢冷却塔改造维修-广东特菱节能空调设备有限公司 | 手术示教系统-数字化手术室系统-林之硕医疗云智能视频平台 | 硬质合金模具_硬质合金非标定制_硬面加工「生产厂家」-西迪技术股份有限公司 | 能耗监测系统-节能监测系统-能源管理系统-三水智能化 | 罗茨真空机组,立式无油往复真空泵,2BV水环真空泵-力侨真空科技 | 膏方加工_丸剂贴牌_膏滋代加工_湖北康瑞生物科技有限公司 | 四川职高信息网-初高中、大专、职业技术学校招生信息网 | 热熔胶网膜|pes热熔网膜价格|eva热熔胶膜|热熔胶膜|tpu热熔胶膜厂家-苏州惠洋胶粘制品有限公司 | 【直乐】河北石家庄脊柱侧弯医院_治疗椎间盘突出哪家医院好_骨科脊柱外科专业医院_治疗抽动症/关节病骨伤权威医院|排行-直乐矫形中医医院 | 铣床|万能铣床|立式铣床|数控铣床|山东滕州万友机床有限公司 | 减速机电机一体机_带电机减速器一套_德国BOSERL电动机与减速箱生产厂家 | 防水接头-电缆防水接头-金属-电缆密封接头-不锈钢电缆接头 | 博医通医疗器械互联网供应链服务平台_博医通 | 盘式曝气器-微孔曝气器-管式曝气器-曝气盘-斜管填料 | 郑州市前程水处理有限公司 | 除尘布袋_液体过滤袋_针刺毡滤料-杭州辉龙过滤技术有限公司 | 欧美日韩国产一区二区三区不_久久久久国产精品无码不卡_亚洲欧洲美洲无码精品AV_精品一区美女视频_日韩黄色性爱一级视频_日本五十路人妻斩_国产99视频免费精品是看4_亚洲中文字幕无码一二三四区_国产小萍萍挤奶喷奶水_亚洲另类精品无码在线一区 | 苏州注册公司_苏州代理记账_苏州工商注册_苏州代办公司-恒佳财税 | 体检车_移动CT车_CT检查车_CT车_深圳市艾克瑞电气有限公司移动CT体检车厂家-深圳市艾克瑞电气有限公司 | 南京技嘉环保科技有限公司-杀菌除臭剂|污水|垃圾|厕所|橡胶厂|化工厂|铸造厂除臭剂 | 共享雨伞_共享童车_共享轮椅_共享陪护床-共享产品的领先者_有伞科技 | 动库网动库商城-体育用品专卖店:羽毛球,乒乓球拍,网球,户外装备,运动鞋,运动包,运动服饰专卖店-正品运动品网上商城动库商城网 - 动库商城 | 北京开源多邦科技发展有限公司官网| 三佳互联一站式网站建设服务|网站开发|网站设计|网站搭建服务商 赛默飞Thermo veritiproPCR仪|ProFlex3 x 32PCR系统|Countess3细胞计数仪|371|3111二氧化碳培养箱|Mirco17R|Mirco21R离心机|仟诺生物 | 石英粉,滑石粉厂家,山东滑石粉-莱州市向阳滑石粉有限公司 | 洛阳装修公司-洛阳整装一站式品牌-福尚云宅装饰| 干粉砂浆设备_干混砂浆生产线_腻子粉加工设备_石膏抹灰砂浆生产成套设备厂家_干粉混合设备_砂子烘干机--郑州铭将机械设备有限公司 | 湖南长沙商标注册专利申请,长沙公司注册代理记账首选美创! | 宜兴紫砂壶知识分享 - 宜兴壶人 医用空气消毒机-医用管路消毒机-工作服消毒柜-成都三康王 | 石家庄律师_石家庄刑事辩护律师_石家庄取保候审-河北万垚律师事务所 | 贝壳粉涂料-内墙腻子-外墙腻子-山东巨野七彩贝壳漆业中心 |