中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
深度強化學習--算法原理與金融實踐入門

包郵 深度強化學習--算法原理與金融實踐入門

出版社:清華大學出版社出版時間:2023-09-01
開本: 其他 頁數: 246
中 圖 價:¥52.1(7.6折) 定價  ¥69.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深度強化學習--算法原理與金融實踐入門 版權信息

  • ISBN:9787302641063
  • 條形碼:9787302641063 ; 978-7-302-64106-3
  • 裝幀:平裝-膠訂
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

深度強化學習--算法原理與金融實踐入門 本書特色

深度強化學習——算法原理與金融實踐入門,將算法原理與金融實踐結合,讓讀者深入理解深度強化學習的原理

深度強化學習--算法原理與金融實踐入門 內容簡介

深度強化學習是人工智能和機器學習的重要分支領域,有著廣泛應用,如AlphaGo和ChatGPT。本書作為該領域的入門教材,在內容上盡可能覆蓋深度強化學習的基礎知識和經典算法。全書共10章,大致分為4部分:第1部分(第1~2章)介紹深度強化學習背景(智能決策、人工智能和機器學習);第2部分(第3~4章)介紹深度強化學習基礎知識(深度學習和強化學習);第3部分(第5~9章)介紹深度強化學習經典算法(DQN、AC、DDPG等);第4部分(第10章)為總結和展望。每章都附有習題并介紹了相關閱讀材料,以便有興趣的讀者進一步深入探索。 本書可作為高等院校計算機、智能金融及相關專業的本科生或研究生教材,也可供對深度強化學習感興趣的研究人員和工程技術人員閱讀參考。

深度強化學習--算法原理與金融實踐入門 目錄

第 1章智能決策與復雜系統 . 1 1.1智能決策.1 1.1.1智能決策簡介 . 1 1.1.2復雜金融系統中的智能決策 . 2 1.2復雜系統.4 1.2.1復雜性科學 . 4 1.2.2復雜系統定義 . 6 1.2.3復雜系統類型 . 6 1.2.4復雜系統研究 . 8 1.3復雜環境特征 .13 1.3.1完全可觀察的和部分可觀察的環境 . 13 1.3.2單智能體和多智能體 . 14 1.3.3確定的和隨機的環境 . 14 1.3.4片段式和延續式環境 . 15 1.3.5靜態和動態環境 . 15 1.3.6離散和連續環境 . 16 1.3.7已知和未知環境 . 16 1.4復雜環境建模 .17 1.5智能體建模 . 21 1.5.1典型決策系統模型框架 .21 1.5.2智能體建模框架 . 21 1.6智能決策系統建模 24 1.6.1問題提煉 24 1.6.2數據采集 25 1.6.3模型構建 26 1.6.4算法實現 26 1.6.5模型訓練 26 1.6.6模型驗證 26 1.6.7模型改進 27 1.6.8模型運用 27 1.7應用實踐 . 27
第 1章習題 29 第 2章人工智能與機器學習 30 2.1人工智能簡介 .30 2.1.1人工智能 農業 31 2.1.2人工智能 教育 31 2.1.3人工智能 工業 31 2.1.4人工智能 金融 32 2.2人工智能前沿 .32 2.3人工智能簡史 .33 2.4人工智能流派 .34 2.4.1符號主義學派 35 2.4.2聯結主義學派 36 2.4.3行為主義學派 37 2.5人工智能基礎 .37 2.5.1運籌學.38 2.5.2*優化控制 38 2.5.3交叉學科 39 2.5.4人工智能和機器學習相關會議 39 2.6機器學習分類 .39 2.6.1監督學習 41 2.6.2無監督學習 41 2.6.3強化學習 43 2.7機器學習基礎 .44 2.7.1激活函數 44 2.7.2損失函數 46 2.7.3優化算法 50 2.8應用實踐 . 57
第 2章習題 58
第 3章深度學習入門 .59 3.1深度學習簡介 .59 3.1.1深度學習與人工智能 . 59 3.1.2深度學習與機器學習 . 59 3.1.3深度學習與表示學習 . 61 3.2深度神經網絡 .62 3.2.1深度神經網絡構建 . 62 3.2.2深度神經網絡實例 . 64 3.3深度卷積神經網絡 68 目錄
3.4深度循環神經網絡 69 3.5深度圖神經網絡.71 3.5.1圖神經網絡簡介 . 72 3.5.2圖神經網絡聚合函數 . 72 3.5.3圖神經網絡更新函數 . 72 3.5.4圖神經網絡池化函數 . 73 3.6深度神經網絡訓練 73 3.6.1模型訓練挑戰 73 3.6.2數據預處理 74 3.6.3參數初始化 75 3.6.4學習率調整 76 3.6.5梯度優化算法 77 3.6.6超參數優化 78 3.6.7正則化技術 80 3.7應用實踐 . 80 3.7.1 TensorFlow安裝.81 3.7.2 TensorFlow基本框架 81 3.7.3 TensorBoard.82 3.7.4 scikit-learn 82 3.7.5 Keras83
第 3章習題 83
第 4章強化學習入門 .84 4.1強化學習簡介 .84 4.2馬爾可夫決策過程 86 4.3動態規劃方法 .87 4.3.1策略函數 88 4.3.2獎勵函數 88 4.3.3累積回報 89 4.3.4狀態值函數 89 4.3.5狀態-動作值函數 .90 4.3.6狀態-動作值函數與狀態值函數的關系 90 4.3.7 Bellman方程 91 4.3.8策略迭代算法 92 4.3.9值函數迭代算法 . 95 4.4蒙特卡洛方法 .97 4.4.1蒙特卡洛估計 97 4.4.2蒙特卡洛強化學習算法偽代碼 .100 · VII · 4.5時序差分學習 100 4.5.1時序差分學習算法 100 4.5.2時序差分學習算法、動態規劃和蒙特卡洛算法比較 101 4.5.3 Q-learning102 4.5.4 SARSA.104 4.6策略梯度方法 105 4.7應用實踐 110 4.7.1強化學習的智能交易系統框架 .110 4.7.2智能交易系統環境模型編程 . 110
第 4章習題 .116
第 5章深度強化學習 Q網絡 . 117 5.1深度 Q網絡 . 117 5.1.1智能策略 . 117 5.1.2策略函數與 Q表格 . 118 5.1.3策略函數與 Q網絡 . 120 5.2 DQN算法介紹 121 5.2.1經驗回放 . 121 5.2.2目標網絡 . 122 5.3 DQN算法 .123 5.4 DoubleDQN 125 5.4.1 Double DQN背景 125 5.4.2雙 Q網絡結構126 5.4.3 Double DQN算法偽代碼 . 127 5.5 Dueling DQN128 5.5.1 Dueling DQN算法框架簡介 128 5.5.2 Dueling DQN算法核心思想 128 5.6 Distributional DQN . 129 5.7 DQN的其他改進 130 5.7.1優先級經驗回放 131 5.7.2噪聲網絡 DQN . 132 5.7.3多步(Multi-step)DQN134 5.7.4分布式訓練 . 135 5.7.5 DQN算法改進 . 136 5.7.6 DQN算法總結 . 136 5.8應用實踐 137 5.8.1智能投資決策系統 137 5.8.2核心代碼解析 .139 目錄
5.8.3模型訓練 . 140 5.8.4模型測試 . 142
第 5章習題 .143
第 6章深度策略優化方法 . 144 6.1策略梯度方法簡介 . 144 6.1.1 DQN的局限 . 144 6.1.2策略梯度方法分類 145 6.2隨機性策略梯度算法 . 147 6.2.1軌跡數據 . 147 6.2.2目標函數 . 147 6.2.3梯度計算 . 148 6.2.4更新策略 . 150 6.3隨機性策略梯度定理 . 150 6.3.1隨機性策略梯度定理介紹 . 150 6.3.2隨機性策略梯度定理分析 . 151 6.4策略梯度優化幾種實現方法 152 6.4.1策略梯度優化理論 152 6.4.2完整軌跡的累積獎勵回報 . 152 6.4.3部分軌跡的累積獎勵回報 . 153 6.4.4常數基線函數 .153 6.4.5基于狀態的基線函數 153 6.4.6基于狀態值函數的基線函數 . 154 6.4.7基于自舉方法的梯度估計 . 154 6.4.8基于優勢函數的策略梯度優化 .154 6.5深度策略梯度優化算法.155 6.6置信閾策略優化算法 . 157 6.6.1置信閾策略優化算法介紹 . 157 6.6.2重要性采樣 . 158 6.6.3置信閾策略優化算法核心技巧 .160 6.6.4置信閾策略優化算法偽代碼 . 160 6.7近端策略優化算法 . 162 6.7.1近端策略優化算法介紹162 6.7.2近端策略優化算法核心技巧 . 162 6.7.3近端策略優化算法(PPO2)偽代碼 .164 6.8應用實踐 165 6.8.1模型參數 . 166 6.8.2模型訓練 . 167 · IX · 6.8.3模型測試 . 167
第 6章習題 .168
第 7章深度確定性策略梯度方法 169 7.1確定性策略梯度方法應用場景 169 7.2策略梯度方法比較 . 170 7.3確定性策略函數的深度神經網絡表示 . 172 7.4確定性策略梯度定理 . 173 7.5深度確定性策略梯度算法 175 7.5.1算法核心介紹 .175 7.5.2經驗回放 . 176 7.5.3目標網絡 . 176 7.5.4參數軟更新 . 177 7.5.5深度確定性策略梯度算法偽代碼 178 7.6孿生延遲確定性策略梯度算法 179 7.6.1 TD3算法介紹 179 7.6.2 TD3算法的改進 179 7.6.3 TD3算法偽代碼 181 7.7應用實踐 183 7.7.1核心代碼解析 .183 7.7.2模型訓練 . 184 7.7.3模型測試 . 184
第 7章習題 .185
第 8章 Actor-Critic算法 186 8.1 Actor-Critic簡介 186 8.2 AC算法 .187 8.2.1 AC算法介紹 . 187 8.2.2 AC算法參數更新.188 8.2.3 AC算法偽代碼 . 189 8.3 A2C算法190 8.3.1 A2C算法介紹 190 8.3.2優勢函數和基線函數 192 8.3.3 A2C算法偽代碼 193 8.4 A3C算法193 8.4.1 A3C算法介紹 194 8.4.2 A3C算法的改進和優化 .194 8.4.3 A3C算法偽代碼 196 8.5 SAC算法 . 197 目錄
8.5.1 SAC算法介紹 197 8.5.2智能體動作多樣性 198 8.5.3 SAC算法理論核心 . 199 8.5.4 SAC算法偽代碼201 8.6應用實踐 203 8.6.1核心代碼解析 .203 8.6.2模型訓練 . 204 8.6.3模型測試 . 204
第 8章習題 .205
第 9章深度強化學習與規劃 .206 9.1學習與規劃 206 9.2基于模型的深度強化學習 207 9.2.1深度強化學習模型分類207 9.2.2深度強化學習中的學習模塊 . 208 9.2.3深度強化學習中的規劃模塊 . 209 9.3 Dyna框架 .210 9.3.1 Dyna框架介紹 . 210 9.3.2 Dyna框架的模型學習 211 9.4 Dyna-Q算法 212 9.4.1 Dyna-Q算法介紹.212 9.4.2 Dyna-Q算法偽代碼 213 9.5 Dyna-Q改進 215 9.6 Dyna-2框架 .217 9.7應用實踐 218 9.7.1編程實踐模塊介紹 218 9.7.2 Gym . 218 9.7.3強化學習代碼庫 219
第 9章習題 .221
第 10章深度強化學習展望 223 10.1深度強化學習背景 223 10.1.1源于學科交叉 . 223 10.1.2用于序貫決策 . 223 10.1.3強于深度學習 . 224 10.2深度強化學習簡史 224 10.2.1游戲控制嶄露頭角 . 224 10.2.2 AlphaGo風靡全球 225 10.2.3通用智能備受期待 . 225 · XI · 10.3深度強化學習分類 226 10.3.1基于值函數和基于策略函數的深度強化學習 226 10.3.2基于模型和無模型的深度強化學習 . 226 10.3.3異策略和同策略學習 .228 10.4深度強化學習面臨的挑戰 . 228 10.4.1樣本效率 228 10.4.2災難性遺忘 229 10.4.3虛實映射鴻溝 . 230 10.4.4有效表征學習 . 231 10.4.5可拓展性與規; . 232 10.4.6延遲獎勵 233 10.4.7稀疏獎勵 233 10.4.8探索和利用 234 10.4.9復雜動態環境 . 235 10.5深度強化學習前沿 236 10.5.1多智能體深度強化學習 236 10.5.2深度逆向強化學習 . 237 10.5.3模仿學習 238 10.5.4行為克隆 239 10.5.5圖強化學習 241 10.6深度強化學習實踐 241 10.6.1深度強化學習建模框架 241 10.6.2深度強化學習模型的核心模塊242
第 10章習題 245
展開全部

深度強化學習--算法原理與金融實踐入門 作者簡介

謝文杰,男,湖南瀏陽人,應用數學博士,上海市晨光學者。現任職華東理工大學商學院金融學系副教授、碩士研究生導師、金融物理研究中心成員,主要研究復雜金融網絡、機器學習、深度強化學習、金融風險管理等。獲2016年度上海市自然科學獎二等獎(4/5),主持完成4項國家或省部級科研項目。 周煒星,男,浙江諸暨人。青年長江學者、上海領軍人才、新世紀優秀人才、上海市曙光學者、上海市青年科技啟明星。現任職于華東理工大學商學院、數學學院,二級教授,博士生導師,金融物理研究中心主任,F兼任中國優選法統籌法與經濟數學研究會理事、風險管理分會副理事長,中國系統工程學會理事、金融系統工程專業委員會副主任,管理科學與工程學會理事、金融計量與風險管理分會副理事長,中國工業統計教學研究會金融科技與大數據技術分會副理事長,中國數量經濟學會經濟復雜性專業委員會副理事長,中國復雜性科學學會副理事長。主要從事金融物理學、經濟物理學和社會經濟系統復雜性研究,以及相關領域大數據分析。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 英国雷迪地下管线探测仪-雷迪RD8100管线仪-多功能数字听漏仪-北京迪瑞进创科技有限公司 | 电磁铁_小型推拉电磁铁_电磁阀厂家-深圳市宗泰电机有限公司 | 周口风机|周风风机|河南省周口通用风机厂 | 空冷器|空气冷却器|空水冷却器-无锡赛迪森机械有限公司[官网] | 丽陂特官网_手机信号屏蔽器_Wifi信号干扰器厂家_学校考场工厂会议室屏蔽仪 | 网站建设,北京网站建设,北京网站建设公司,网站系统开发,北京网站制作公司,响应式网站,做网站公司,海淀做网站,朝阳做网站,昌平做网站,建站公司 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 实验室pH计|电导率仪|溶解氧测定仪|离子浓度计|多参数水质分析仪|pH电极-上海般特仪器有限公司 | 硅胶布|电磁炉垫片|特氟龙胶带-江苏浩天复合材料有限公司 | 气弹簧定制-气动杆-可控气弹簧-不锈钢阻尼器-工业气弹簧-可调节气弹簧厂家-常州巨腾气弹簧供应商 | 一体化预制泵站-一体化提升泵站-一体化泵站厂家-山东康威环保 | 上海logo设计 | 上海平衡机-单面卧式动平衡机-万向节动平衡机-圈带动平衡机厂家-上海申岢动平衡机制造有限公司 | 变色龙PPT-国内原创PPT模板交易平台 - PPT贰零 - 西安聚讯网络科技有限公司 | 无线讲解器-导游讲解器-自助讲解器-分区讲解系统 品牌生产厂家[鹰米讲解-合肥市徽马信息科技有限公司] | 桨叶搅拌机_螺旋挤压/方盒旋切造粒机厂家-无锡市鸿诚输送机械有限公司 | 艺术涂料|木纹漆施工|稻草漆厂家|马来漆|石桦奴|水泥漆|选加河南天工涂料 | 工控机-工业平板电脑-研华工控机-研越无风扇嵌入式box工控机 | 托利多电子平台秤-高精度接线盒-托利多高精度电子秤|百科 | 经济师考试_2025中级经济师报名时间_报名入口_考试时间_华课网校经济师培训网站 | 基本型顶空进样器-全自动热脱附解吸仪价格-AutoHS全模式-成都科林分析技术有限公司 | 股指期货-期货开户-交易手续费佣金加1分-保证金低-期货公司排名靠前-万利信息开户 | 奥因-光触媒除甲醛公司-除甲醛加盟公司十大品牌 | 提升海外网站流量,增加国外网站访客UV,定制海外IP-访客王 | 厂厂乐-汇聚海量采购信息的B2B微营销平台-厂厂乐官网 | 武汉天安盾电子设备有限公司 - 安盾安检,武汉安检门,武汉安检机,武汉金属探测器,武汉测温安检门,武汉X光行李安检机,武汉防爆罐,武汉车底安全检查,武汉液体探测仪,武汉安检防爆设备 | 论文查重_免费论文查重_知网学术不端论文查重检测系统入口_论文查重软件 | 车牌识别道闸_停车场收费系统_人脸识别考勤机_速通门闸机_充电桩厂家_中全清茂官网 | 哈希余氯测定仪,分光光度计,ph在线监测仪,浊度测定仪,试剂-上海京灿精密机械有限公司 | 自动配料系统_称重配料控制系统厂家| 折弯机-刨槽机-数控折弯机-数控刨槽机-数控折弯机厂家-深圳豐科机械有限公司 | 净化车间_洁净厂房_净化公司_净化厂房_无尘室工程_洁净工程装修|改造|施工-深圳净化公司 | 凝胶成像系统(wb成像系统)百科-上海嘉鹏 | 中天寰创-内蒙古钢结构厂家|门式刚架|钢结构桁架|钢结构框架|包头钢结构煤棚 | 软瓷_柔性面砖_软瓷砖_柔性石材_MCM软瓷厂家_湖北博悦佳软瓷 | 小型气象站_便携式自动气象站_校园气象站-竞道气象设备网 | 螺旋绞龙叶片,螺旋输送机厂家,山东螺旋输送机-淄博长江机械制造有限公司 | 扬尘监测_扬尘监测系统_带证扬尘监测设备 - 郑州港迪科技有限公司 | 武汉印刷厂-不干胶标签印刷厂-武汉不干胶印刷-武汉标签印刷厂-武汉标签制作 - 善进特种标签印刷厂 | 新密高铝耐火砖,轻质保温砖价格,浇注料厂家直销-郑州荣盛窑炉耐火材料有限公司 | 传动滚筒_厂家-淄博海恒机械制造厂 |