-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
深度強化學習--算法原理與金融實踐入門 版權信息
- ISBN:9787302641063
- 條形碼:9787302641063 ; 978-7-302-64106-3
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
深度強化學習--算法原理與金融實踐入門 本書特色
深度強化學習——算法原理與金融實踐入門,將算法原理與金融實踐結合,讓讀者深入理解深度強化學習的原理
深度強化學習--算法原理與金融實踐入門 內容簡介
深度強化學習是人工智能和機器學習的重要分支領域,有著廣泛應用,如AlphaGo和ChatGPT。本書作為該領域的入門教材,在內容上盡可能覆蓋深度強化學習的基礎知識和經典算法。全書共10章,大致分為4部分:第1部分(第1~2章)介紹深度強化學習背景(智能決策、人工智能和機器學習);第2部分(第3~4章)介紹深度強化學習基礎知識(深度學習和強化學習);第3部分(第5~9章)介紹深度強化學習經典算法(DQN、AC、DDPG等);第4部分(第10章)為總結和展望。每章都附有習題并介紹了相關閱讀材料,以便有興趣的讀者進一步深入探索。 本書可作為高等院校計算機、智能金融及相關專業的本科生或研究生教材,也可供對深度強化學習感興趣的研究人員和工程技術人員閱讀參考。
深度強化學習--算法原理與金融實踐入門 目錄
第 1章習題 29 第 2章人工智能與機器學習 30 2.1人工智能簡介 .30 2.1.1人工智能 農業 31 2.1.2人工智能 教育 31 2.1.3人工智能 工業 31 2.1.4人工智能 金融 32 2.2人工智能前沿 .32 2.3人工智能簡史 .33 2.4人工智能流派 .34 2.4.1符號主義學派 35 2.4.2聯結主義學派 36 2.4.3行為主義學派 37 2.5人工智能基礎 .37 2.5.1運籌學.38 2.5.2*優化控制 38 2.5.3交叉學科 39 2.5.4人工智能和機器學習相關會議 39 2.6機器學習分類 .39 2.6.1監督學習 41 2.6.2無監督學習 41 2.6.3強化學習 43 2.7機器學習基礎 .44 2.7.1激活函數 44 2.7.2損失函數 46 2.7.3優化算法 50 2.8應用實踐 . 57
第 2章習題 58
第 3章深度學習入門 .59 3.1深度學習簡介 .59 3.1.1深度學習與人工智能 . 59 3.1.2深度學習與機器學習 . 59 3.1.3深度學習與表示學習 . 61 3.2深度神經網絡 .62 3.2.1深度神經網絡構建 . 62 3.2.2深度神經網絡實例 . 64 3.3深度卷積神經網絡 68 目錄
3.4深度循環神經網絡 69 3.5深度圖神經網絡.71 3.5.1圖神經網絡簡介 . 72 3.5.2圖神經網絡聚合函數 . 72 3.5.3圖神經網絡更新函數 . 72 3.5.4圖神經網絡池化函數 . 73 3.6深度神經網絡訓練 73 3.6.1模型訓練挑戰 73 3.6.2數據預處理 74 3.6.3參數初始化 75 3.6.4學習率調整 76 3.6.5梯度優化算法 77 3.6.6超參數優化 78 3.6.7正則化技術 80 3.7應用實踐 . 80 3.7.1 TensorFlow安裝.81 3.7.2 TensorFlow基本框架 81 3.7.3 TensorBoard.82 3.7.4 scikit-learn 82 3.7.5 Keras83
第 3章習題 83
第 4章強化學習入門 .84 4.1強化學習簡介 .84 4.2馬爾可夫決策過程 86 4.3動態規劃方法 .87 4.3.1策略函數 88 4.3.2獎勵函數 88 4.3.3累積回報 89 4.3.4狀態值函數 89 4.3.5狀態-動作值函數 .90 4.3.6狀態-動作值函數與狀態值函數的關系 90 4.3.7 Bellman方程 91 4.3.8策略迭代算法 92 4.3.9值函數迭代算法 . 95 4.4蒙特卡洛方法 .97 4.4.1蒙特卡洛估計 97 4.4.2蒙特卡洛強化學習算法偽代碼 .100 · VII · 4.5時序差分學習 100 4.5.1時序差分學習算法 100 4.5.2時序差分學習算法、動態規劃和蒙特卡洛算法比較 101 4.5.3 Q-learning102 4.5.4 SARSA.104 4.6策略梯度方法 105 4.7應用實踐 110 4.7.1強化學習的智能交易系統框架 .110 4.7.2智能交易系統環境模型編程 . 110
第 4章習題 .116
第 5章深度強化學習 Q網絡 . 117 5.1深度 Q網絡 . 117 5.1.1智能策略 . 117 5.1.2策略函數與 Q表格 . 118 5.1.3策略函數與 Q網絡 . 120 5.2 DQN算法介紹 121 5.2.1經驗回放 . 121 5.2.2目標網絡 . 122 5.3 DQN算法 .123 5.4 DoubleDQN 125 5.4.1 Double DQN背景 125 5.4.2雙 Q網絡結構126 5.4.3 Double DQN算法偽代碼 . 127 5.5 Dueling DQN128 5.5.1 Dueling DQN算法框架簡介 128 5.5.2 Dueling DQN算法核心思想 128 5.6 Distributional DQN . 129 5.7 DQN的其他改進 130 5.7.1優先級經驗回放 131 5.7.2噪聲網絡 DQN . 132 5.7.3多步(Multi-step)DQN134 5.7.4分布式訓練 . 135 5.7.5 DQN算法改進 . 136 5.7.6 DQN算法總結 . 136 5.8應用實踐 137 5.8.1智能投資決策系統 137 5.8.2核心代碼解析 .139 目錄
5.8.3模型訓練 . 140 5.8.4模型測試 . 142
第 5章習題 .143
第 6章深度策略優化方法 . 144 6.1策略梯度方法簡介 . 144 6.1.1 DQN的局限 . 144 6.1.2策略梯度方法分類 145 6.2隨機性策略梯度算法 . 147 6.2.1軌跡數據 . 147 6.2.2目標函數 . 147 6.2.3梯度計算 . 148 6.2.4更新策略 . 150 6.3隨機性策略梯度定理 . 150 6.3.1隨機性策略梯度定理介紹 . 150 6.3.2隨機性策略梯度定理分析 . 151 6.4策略梯度優化幾種實現方法 152 6.4.1策略梯度優化理論 152 6.4.2完整軌跡的累積獎勵回報 . 152 6.4.3部分軌跡的累積獎勵回報 . 153 6.4.4常數基線函數 .153 6.4.5基于狀態的基線函數 153 6.4.6基于狀態值函數的基線函數 . 154 6.4.7基于自舉方法的梯度估計 . 154 6.4.8基于優勢函數的策略梯度優化 .154 6.5深度策略梯度優化算法.155 6.6置信閾策略優化算法 . 157 6.6.1置信閾策略優化算法介紹 . 157 6.6.2重要性采樣 . 158 6.6.3置信閾策略優化算法核心技巧 .160 6.6.4置信閾策略優化算法偽代碼 . 160 6.7近端策略優化算法 . 162 6.7.1近端策略優化算法介紹162 6.7.2近端策略優化算法核心技巧 . 162 6.7.3近端策略優化算法(PPO2)偽代碼 .164 6.8應用實踐 165 6.8.1模型參數 . 166 6.8.2模型訓練 . 167 · IX · 6.8.3模型測試 . 167
第 6章習題 .168
第 7章深度確定性策略梯度方法 169 7.1確定性策略梯度方法應用場景 169 7.2策略梯度方法比較 . 170 7.3確定性策略函數的深度神經網絡表示 . 172 7.4確定性策略梯度定理 . 173 7.5深度確定性策略梯度算法 175 7.5.1算法核心介紹 .175 7.5.2經驗回放 . 176 7.5.3目標網絡 . 176 7.5.4參數軟更新 . 177 7.5.5深度確定性策略梯度算法偽代碼 178 7.6孿生延遲確定性策略梯度算法 179 7.6.1 TD3算法介紹 179 7.6.2 TD3算法的改進 179 7.6.3 TD3算法偽代碼 181 7.7應用實踐 183 7.7.1核心代碼解析 .183 7.7.2模型訓練 . 184 7.7.3模型測試 . 184
第 7章習題 .185
第 8章 Actor-Critic算法 186 8.1 Actor-Critic簡介 186 8.2 AC算法 .187 8.2.1 AC算法介紹 . 187 8.2.2 AC算法參數更新.188 8.2.3 AC算法偽代碼 . 189 8.3 A2C算法190 8.3.1 A2C算法介紹 190 8.3.2優勢函數和基線函數 192 8.3.3 A2C算法偽代碼 193 8.4 A3C算法193 8.4.1 A3C算法介紹 194 8.4.2 A3C算法的改進和優化 .194 8.4.3 A3C算法偽代碼 196 8.5 SAC算法 . 197 目錄
8.5.1 SAC算法介紹 197 8.5.2智能體動作多樣性 198 8.5.3 SAC算法理論核心 . 199 8.5.4 SAC算法偽代碼201 8.6應用實踐 203 8.6.1核心代碼解析 .203 8.6.2模型訓練 . 204 8.6.3模型測試 . 204
第 8章習題 .205
第 9章深度強化學習與規劃 .206 9.1學習與規劃 206 9.2基于模型的深度強化學習 207 9.2.1深度強化學習模型分類207 9.2.2深度強化學習中的學習模塊 . 208 9.2.3深度強化學習中的規劃模塊 . 209 9.3 Dyna框架 .210 9.3.1 Dyna框架介紹 . 210 9.3.2 Dyna框架的模型學習 211 9.4 Dyna-Q算法 212 9.4.1 Dyna-Q算法介紹.212 9.4.2 Dyna-Q算法偽代碼 213 9.5 Dyna-Q改進 215 9.6 Dyna-2框架 .217 9.7應用實踐 218 9.7.1編程實踐模塊介紹 218 9.7.2 Gym . 218 9.7.3強化學習代碼庫 219
第 9章習題 .221
第 10章深度強化學習展望 223 10.1深度強化學習背景 223 10.1.1源于學科交叉 . 223 10.1.2用于序貫決策 . 223 10.1.3強于深度學習 . 224 10.2深度強化學習簡史 224 10.2.1游戲控制嶄露頭角 . 224 10.2.2 AlphaGo風靡全球 225 10.2.3通用智能備受期待 . 225 · XI · 10.3深度強化學習分類 226 10.3.1基于值函數和基于策略函數的深度強化學習 226 10.3.2基于模型和無模型的深度強化學習 . 226 10.3.3異策略和同策略學習 .228 10.4深度強化學習面臨的挑戰 . 228 10.4.1樣本效率 228 10.4.2災難性遺忘 229 10.4.3虛實映射鴻溝 . 230 10.4.4有效表征學習 . 231 10.4.5可拓展性與規; . 232 10.4.6延遲獎勵 233 10.4.7稀疏獎勵 233 10.4.8探索和利用 234 10.4.9復雜動態環境 . 235 10.5深度強化學習前沿 236 10.5.1多智能體深度強化學習 236 10.5.2深度逆向強化學習 . 237 10.5.3模仿學習 238 10.5.4行為克隆 239 10.5.5圖強化學習 241 10.6深度強化學習實踐 241 10.6.1深度強化學習建模框架 241 10.6.2深度強化學習模型的核心模塊242
第 10章習題 245
深度強化學習--算法原理與金融實踐入門 作者簡介
謝文杰,男,湖南瀏陽人,應用數學博士,上海市晨光學者。現任職華東理工大學商學院金融學系副教授、碩士研究生導師、金融物理研究中心成員,主要研究復雜金融網絡、機器學習、深度強化學習、金融風險管理等。獲2016年度上海市自然科學獎二等獎(4/5),主持完成4項國家或省部級科研項目。 周煒星,男,浙江諸暨人。青年長江學者、上海領軍人才、新世紀優秀人才、上海市曙光學者、上海市青年科技啟明星。現任職于華東理工大學商學院、數學學院,二級教授,博士生導師,金融物理研究中心主任,F兼任中國優選法統籌法與經濟數學研究會理事、風險管理分會副理事長,中國系統工程學會理事、金融系統工程專業委員會副主任,管理科學與工程學會理事、金融計量與風險管理分會副理事長,中國工業統計教學研究會金融科技與大數據技術分會副理事長,中國數量經濟學會經濟復雜性專業委員會副理事長,中國復雜性科學學會副理事長。主要從事金融物理學、經濟物理學和社會經濟系統復雜性研究,以及相關領域大數據分析。
- >
有舍有得是人生
- >
經典常談
- >
我從未如此眷戀人間
- >
中國歷史的瞬間
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
詩經-先民的歌唱
- >
自卑與超越
- >
名家帶你讀魯迅:朝花夕拾