中圖網

>

計算機理論

深度強化學習--算法原理與金融實踐入門

包郵深度強化學習--算法原理與金融實踐入門

作者：謝文杰、周煒星

出版社：清華大學出版社出版時間：2023-09-01

開本：其他頁數： 246

本類榜單：計算機/網絡銷量榜

中圖價:¥52.1(7.6折) 定價 ~~¥69.0~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥52.1 加入購物車

版權信息
本書特色
內容簡介
目錄
作者簡介

深度強化學習--算法原理與金融實踐入門版權信息

ISBN：9787302641063
條形碼：9787302641063 ; 978-7-302-64106-3
裝幀：平裝-膠訂
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
計算機理論

深度強化學習--算法原理與金融實踐入門本書特色

深度強化學習——算法原理與金融實踐入門，將算法原理與金融實踐結合，讓讀者深入理解深度強化學習的原理

深度強化學習--算法原理與金融實踐入門內容簡介

深度強化學習是人工智能和機器學習的重要分支領域，有著廣泛應用，如AlphaGo和ChatGPT。本書作為該領域的入門教材，在內容上盡可能覆蓋深度強化學習的基礎知識和經典算法。全書共10章，大致分為4部分：第1部分（第1～2章）介紹深度強化學習背景（智能決策、人工智能和機器學習）；第2部分（第3～4章）介紹深度強化學習基礎知識（深度學習和強化學習）；第3部分（第5～9章）介紹深度強化學習經典算法（DQN、AC、DDPG等）；第4部分（第10章）為總結和展望。每章都附有習題并介紹了相關閱讀材料，以便有興趣的讀者進一步深入探索。本書可作為高等院校計算機、智能金融及相關專業的本科生或研究生教材，也可供對深度強化學習感興趣的研究人員和工程技術人員閱讀參考。

深度強化學習--算法原理與金融實踐入門目錄

第 1章智能決策與復雜系統 . 1 1.1智能決策.1 1.1.1智能決策簡介 . 1 1.1.2復雜金融系統中的智能決策 . 2 1.2復雜系統.4 1.2.1復雜性科學 . 4 1.2.2復雜系統定義 . 6 1.2.3復雜系統類型 . 6 1.2.4復雜系統研究 . 8 1.3復雜環境特征 .13 1.3.1完全可觀察的和部分可觀察的環境 . 13 1.3.2單智能體和多智能體 . 14 1.3.3確定的和隨機的環境 . 14 1.3.4片段式和延續式環境 . 15 1.3.5靜態和動態環境 . 15 1.3.6離散和連續環境 . 16 1.3.7已知和未知環境 . 16 1.4復雜環境建模 .17 1.5智能體建模 . 21 1.5.1典型決策系統模型框架 .21 1.5.2智能體建模框架 . 21 1.6智能決策系統建模 24 1.6.1問題提煉 24 1.6.2數據采集 25 1.6.3模型構建 26 1.6.4算法實現 26 1.6.5模型訓練 26 1.6.6模型驗證 26 1.6.7模型改進 27 1.6.8模型運用 27 1.7應用實踐 . 27
第 1章習題 29 第 2章人工智能與機器學習 30 2.1人工智能簡介 .30 2.1.1人工智能農業 31 2.1.2人工智能教育 31 2.1.3人工智能工業 31 2.1.4人工智能金融 32 2.2人工智能前沿 .32 2.3人工智能簡史 .33 2.4人工智能流派 .34 2.4.1符號主義學派 35 2.4.2聯結主義學派 36 2.4.3行為主義學派 37 2.5人工智能基礎 .37 2.5.1運籌學.38 2.5.2*優化控制 38 2.5.3交叉學科 39 2.5.4人工智能和機器學習相關會議 39 2.6機器學習分類 .39 2.6.1監督學習 41 2.6.2無監督學習 41 2.6.3強化學習 43 2.7機器學習基礎 .44 2.7.1激活函數 44 2.7.2損失函數 46 2.7.3優化算法 50 2.8應用實踐 . 57
第 2章習題 58
第 3章深度學習入門 .59 3.1深度學習簡介 .59 3.1.1深度學習與人工智能 . 59 3.1.2深度學習與機器學習 . 59 3.1.3深度學習與表示學習 . 61 3.2深度神經網絡 .62 3.2.1深度神經網絡構建 . 62 3.2.2深度神經網絡實例 . 64 3.3深度卷積神經網絡 68 目錄
3.4深度循環神經網絡 69 3.5深度圖神經網絡.71 3.5.1圖神經網絡簡介 . 72 3.5.2圖神經網絡聚合函數 . 72 3.5.3圖神經網絡更新函數 . 72 3.5.4圖神經網絡池化函數 . 73 3.6深度神經網絡訓練 73 3.6.1模型訓練挑戰 73 3.6.2數據預處理 74 3.6.3參數初始化 75 3.6.4學習率調整 76 3.6.5梯度優化算法 77 3.6.6超參數優化 78 3.6.7正則化技術 80 3.7應用實踐 . 80 3.7.1 TensorFlow安裝.81 3.7.2 TensorFlow基本框架 81 3.7.3 TensorBoard.82 3.7.4 scikit-learn 82 3.7.5 Keras83
第 3章習題 83
第 4章強化學習入門 .84 4.1強化學習簡介 .84 4.2馬爾可夫決策過程 86 4.3動態規劃方法 .87 4.3.1策略函數 88 4.3.2獎勵函數 88 4.3.3累積回報 89 4.3.4狀態值函數 89 4.3.5狀態-動作值函數 .90 4.3.6狀態-動作值函數與狀態值函數的關系 90 4.3.7 Bellman方程 91 4.3.8策略迭代算法 92 4.3.9值函數迭代算法 . 95 4.4蒙特卡洛方法 .97 4.4.1蒙特卡洛估計 97 4.4.2蒙特卡洛強化學習算法偽代碼 .100 · VII · 4.5時序差分學習 100 4.5.1時序差分學習算法 100 4.5.2時序差分學習算法、動態規劃和蒙特卡洛算法比較 101 4.5.3 Q-learning102 4.5.4 SARSA.104 4.6策略梯度方法 105 4.7應用實踐 110 4.7.1強化學習的智能交易系統框架 .110 4.7.2智能交易系統環境模型編程 . 110
第 4章習題 .116
第 5章深度強化學習 Q網絡 . 117 5.1深度 Q網絡 . 117 5.1.1智能策略 . 117 5.1.2策略函數與 Q表格 . 118 5.1.3策略函數與 Q網絡 . 120 5.2 DQN算法介紹 121 5.2.1經驗回放 . 121 5.2.2目標網絡 . 122 5.3 DQN算法 .123 5.4 DoubleDQN 125 5.4.1 Double DQN背景 125 5.4.2雙 Q網絡結構126 5.4.3 Double DQN算法偽代碼 . 127 5.5 Dueling DQN128 5.5.1 Dueling DQN算法框架簡介 128 5.5.2 Dueling DQN算法核心思想 128 5.6 Distributional DQN . 129 5.7 DQN的其他改進 130 5.7.1優先級經驗回放 131 5.7.2噪聲網絡 DQN . 132 5.7.3多步（Multi-step）DQN134 5.7.4分布式訓練 . 135 5.7.5 DQN算法改進 . 136 5.7.6 DQN算法總結 . 136 5.8應用實踐 137 5.8.1智能投資決策系統 137 5.8.2核心代碼解析 .139 目錄
5.8.3模型訓練 . 140 5.8.4模型測試 . 142
第 5章習題 .143
第 6章深度策略優化方法 . 144 6.1策略梯度方法簡介 . 144 6.1.1 DQN的局限 . 144 6.1.2策略梯度方法分類 145 6.2隨機性策略梯度算法 . 147 6.2.1軌跡數據 . 147 6.2.2目標函數 . 147 6.2.3梯度計算 . 148 6.2.4更新策略 . 150 6.3隨機性策略梯度定理 . 150 6.3.1隨機性策略梯度定理介紹 . 150 6.3.2隨機性策略梯度定理分析 . 151 6.4策略梯度優化幾種實現方法 152 6.4.1策略梯度優化理論 152 6.4.2完整軌跡的累積獎勵回報 . 152 6.4.3部分軌跡的累積獎勵回報 . 153 6.4.4常數基線函數 .153 6.4.5基于狀態的基線函數 153 6.4.6基于狀態值函數的基線函數 . 154 6.4.7基于自舉方法的梯度估計 . 154 6.4.8基于優勢函數的策略梯度優化 .154 6.5深度策略梯度優化算法.155 6.6置信閾策略優化算法 . 157 6.6.1置信閾策略優化算法介紹 . 157 6.6.2重要性采樣 . 158 6.6.3置信閾策略優化算法核心技巧 .160 6.6.4置信閾策略優化算法偽代碼 . 160 6.7近端策略優化算法 . 162 6.7.1近端策略優化算法介紹162 6.7.2近端策略優化算法核心技巧 . 162 6.7.3近端策略優化算法（PPO2）偽代碼 .164 6.8應用實踐 165 6.8.1模型參數 . 166 6.8.2模型訓練 . 167 · IX · 6.8.3模型測試 . 167
第 6章習題 .168
第 7章深度確定性策略梯度方法 169 7.1確定性策略梯度方法應用場景 169 7.2策略梯度方法比較 . 170 7.3確定性策略函數的深度神經網絡表示 . 172 7.4確定性策略梯度定理 . 173 7.5深度確定性策略梯度算法 175 7.5.1算法核心介紹 .175 7.5.2經驗回放 . 176 7.5.3目標網絡 . 176 7.5.4參數軟更新 . 177 7.5.5深度確定性策略梯度算法偽代碼 178 7.6孿生延遲確定性策略梯度算法 179 7.6.1 TD3算法介紹 179 7.6.2 TD3算法的改進 179 7.6.3 TD3算法偽代碼 181 7.7應用實踐 183 7.7.1核心代碼解析 .183 7.7.2模型訓練 . 184 7.7.3模型測試 . 184
第 7章習題 .185
第 8章 Actor-Critic算法 186 8.1 Actor-Critic簡介 186 8.2 AC算法 .187 8.2.1 AC算法介紹 . 187 8.2.2 AC算法參數更新.188 8.2.3 AC算法偽代碼 . 189 8.3 A2C算法190 8.3.1 A2C算法介紹 190 8.3.2優勢函數和基線函數 192 8.3.3 A2C算法偽代碼 193 8.4 A3C算法193 8.4.1 A3C算法介紹 194 8.4.2 A3C算法的改進和優化 .194 8.4.3 A3C算法偽代碼 196 8.5 SAC算法 . 197 目錄
8.5.1 SAC算法介紹 197 8.5.2智能體動作多樣性 198 8.5.3 SAC算法理論核心 . 199 8.5.4 SAC算法偽代碼201 8.6應用實踐 203 8.6.1核心代碼解析 .203 8.6.2模型訓練 . 204 8.6.3模型測試 . 204
第 8章習題 .205
第 9章深度強化學習與規劃 .206 9.1學習與規劃 206 9.2基于模型的深度強化學習 207 9.2.1深度強化學習模型分類207 9.2.2深度強化學習中的學習模塊 . 208 9.2.3深度強化學習中的規劃模塊 . 209 9.3 Dyna框架 .210 9.3.1 Dyna框架介紹 . 210 9.3.2 Dyna框架的模型學習 211 9.4 Dyna-Q算法 212 9.4.1 Dyna-Q算法介紹.212 9.4.2 Dyna-Q算法偽代碼 213 9.5 Dyna-Q改進 215 9.6 Dyna-2框架 .217 9.7應用實踐 218 9.7.1編程實踐模塊介紹 218 9.7.2 Gym . 218 9.7.3強化學習代碼庫 219
第 9章習題 .221
第 10章深度強化學習展望 223 10.1深度強化學習背景 223 10.1.1源于學科交叉 . 223 10.1.2用于序貫決策 . 223 10.1.3強于深度學習 . 224 10.2深度強化學習簡史 224 10.2.1游戲控制嶄露頭角 . 224 10.2.2 AlphaGo風靡全球 225 10.2.3通用智能備受期待 . 225 · XI · 10.3深度強化學習分類 226 10.3.1基于值函數和基于策略函數的深度強化學習 226 10.3.2基于模型和無模型的深度強化學習 . 226 10.3.3異策略和同策略學習 .228 10.4深度強化學習面臨的挑戰 . 228 10.4.1樣本效率 228 10.4.2災難性遺忘 229 10.4.3虛實映射鴻溝 . 230 10.4.4有效表征學習 . 231 10.4.5可拓展性與規�；� . 232 10.4.6延遲獎勵 233 10.4.7稀疏獎勵 233 10.4.8探索和利用 234 10.4.9復雜動態環境 . 235 10.5深度強化學習前沿 236 10.5.1多智能體深度強化學習 236 10.5.2深度逆向強化學習 . 237 10.5.3模仿學習 238 10.5.4行為克隆 239 10.5.5圖強化學習 241 10.6深度強化學習實踐 241 10.6.1深度強化學習建模框架 241 10.6.2深度強化學習模型的核心模塊242
第 10章習題 245

展開全部

深度強化學習--算法原理與金融實踐入門作者簡介

謝文杰，男，湖南瀏陽人，應用數學博士，上海市晨光學者。現任職華東理工大學商學院金融學系副教授、碩士研究生導師、金融物理研究中心成員，主要研究復雜金融網絡、機器學習、深度強化學習、金融風險管理等。獲2016年度上海市自然科學獎二等獎（4/5），主持完成4項國家或省部級科研項目。周煒星，男，浙江諸暨人。青年長江學者、上海領軍人才、新世紀優秀人才、上海市曙光學者、上海市青年科技啟明星。現任職于華東理工大學商學院、數學學院，二級教授，博士生導師，金融物理研究中心主任�，F兼任中國優選法統籌法與經濟數學研究會理事、風險管理分會副理事長，中國系統工程學會理事、金融系統工程專業委員會副主任，管理科學與工程學會理事、金融計量與風險管理分會副理事長，中國工業統計教學研究會金融科技與大數據技術分會副理事長，中國數量經濟學會經濟復雜性專業委員會副理事長，中國復雜性科學學會副理事長。主要從事金融物理學、經濟物理學和社會經濟系統復雜性研究，以及相關領域大數據分析。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
有舍有得是人生
有舍有得是人生
梁實秋
¥25.7~~¥45.0~~
>
經典常談
經典常談
朱自清
¥13.7~~¥39.8~~
>
我從未如此眷戀人間
我從未如此眷戀人間
史鐵生/汪曾祺
¥20.5~~¥49.8~~
>
中國歷史的瞬間
中國歷史的瞬間
李永熾
¥16.7~~¥38.0~~
>
中國人在烏蘇里邊疆區:歷史與人類學概述
中國人在烏蘇里邊疆區:歷史與人類學概述
[蘇]阿爾謝尼耶夫著，劉宇譯
¥21.6~~¥48.0~~
>
詩經-先民的歌唱
詩經-先民的歌唱
裴溥言
¥14.5~~¥39.8~~
>
自卑與超越
自卑與超越
[奧]阿爾弗雷德·阿德勒著，韓陽譯
¥16.7~~¥39.8~~
>
名家帶你讀魯迅:朝花夕拾
名家帶你讀魯迅:朝花夕拾
魯迅著，陳漱渝主編
¥10.0~~¥21.0~~

本類暢銷

大模型應用開發極簡入門基于GPT-4和ChatGPT

(比)奧利維耶·卡埃朗,(法)瑪麗-艾麗

¥41.9~~¥59.8~~
人工智能現代方法第4版(全2冊)

(美)斯圖爾特·羅素,(美)彼得·諾維格

¥120.8~~¥198~~
計算機視覺:算法與應用

RichardSzeliski、艾海舟

¥95.9~~¥139~~
必然(修訂版)

KevinKelly（凱文·凱利）

¥53.5~~¥89~~
GPT時代人類再騰飛

(美)里德·霍夫曼,美國GPT-4

¥54.9~~¥89.9~~
生成式人工智能(AIGC)應用

張亭婷,湯景,陶蕊編

¥64.9~~¥90~~

中图网(原中国图书网)：网上书店，尾货特色书店，30万种特价书低至2折！

包郵深度強化學習--算法原理與金融實踐入門

深度強化學習--算法原理與金融實踐入門版權信息

深度強化學習--算法原理與金融實踐入門本書特色

深度強化學習--算法原理與金融實踐入門內容簡介

深度強化學習--算法原理與金融實踐入門目錄

深度強化學習--算法原理與金融實踐入門作者簡介

有舍有得是人生

經典常談

我從未如此眷戀人間

中國歷史的瞬間

中國人在烏蘇里邊疆區:歷史與人類學概述

詩經-先民的歌唱

自卑與超越

名家帶你讀魯迅:朝花夕拾

大模型應用開發極簡入門基于GPT-4和ChatGPT

人工智能現代方法第4版(全2冊)

計算機視覺:算法與應用

必然(修訂版)

GPT時代人類再騰飛

生成式人工智能(AIGC)應用

女孩們

連科六短篇-短篇經典文庫

時間停止的那一天

朱仙鎮年畫:七日談

趙元任早年自傳

熊千佳昆蟲記

包郵 深度強化學習--算法原理與金融實踐入門

深度強化學習--算法原理與金融實踐入門 版權信息

深度強化學習--算法原理與金融實踐入門 本書特色

深度強化學習--算法原理與金融實踐入門 內容簡介

深度強化學習--算法原理與金融實踐入門 目錄

深度強化學習--算法原理與金融實踐入門 作者簡介

包郵深度強化學習--算法原理與金融實踐入門

深度強化學習--算法原理與金融實踐入門版權信息

深度強化學習--算法原理與金融實踐入門本書特色

深度強化學習--算法原理與金融實踐入門內容簡介

深度強化學習--算法原理與金融實踐入門目錄

深度強化學習--算法原理與金融實踐入門作者簡介