中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊
> >
PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用

包郵 PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用

出版社:機(jī)械工業(yè)出版社出版時(shí)間:2023-09-01
開本: 16開 頁數(shù): 348
中 圖 價(jià):¥86.4(6.7折) 定價(jià)  ¥129.0 登錄后可看到會(huì)員價(jià)
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 版權(quán)信息

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 本書特色

強(qiáng)化學(xué)習(xí)(RL)是用于創(chuàng)建自學(xué)習(xí)自主智能體的人工智能方法。本書基于強(qiáng)大的理論基礎(chǔ),采用實(shí)用的方法來研究強(qiáng)化學(xué)習(xí),并使用受現(xiàn)實(shí)世界中商業(yè)和行業(yè)問題啟發(fā)的實(shí)際示例來教授先進(jìn)的強(qiáng)化學(xué)習(xí)知識(shí)。 本書首先介紹老虎機(jī)問題、馬爾可夫決策過程和動(dòng)態(tài)規(guī)劃,帶你深入了解經(jīng)典強(qiáng)化學(xué)習(xí)技術(shù),包括蒙特卡羅方法和時(shí)間差分學(xué)習(xí)方法。然后,你將了解深度Q-學(xué)習(xí)、策略梯度方法、Actor-Critic算法、基于模型的方法以及多智能體強(qiáng)化學(xué)習(xí)。接下來,本書將介紹一些成功的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)背后的關(guān)鍵方法,例如,域隨機(jī)化和好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)。 隨著學(xué)習(xí)的深入,你將使用現(xiàn)代Python庫(例如,TensorFlow和Ray的RLlib包)探索許多具有高級(jí)實(shí)現(xiàn)的新穎算法。你還將了解如何在機(jī)器人、供應(yīng)鏈管理、市場營銷、金融、智慧城市與網(wǎng)絡(luò)安全等領(lǐng)域應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù),同時(shí)評估不同方法的利弊并避免常見的陷阱。 學(xué)完本書,你將掌握如何訓(xùn)練和部署自己的強(qiáng)化學(xué)習(xí)智能體來解決強(qiáng)化學(xué)習(xí)問題。通過閱讀本書,你將: ? 使用強(qiáng)化學(xué)習(xí)建模并解決復(fù)雜的序貫決策問題。 ? 深入了解先進(jìn)的強(qiáng)化學(xué)習(xí)方法的工作原理。 ? 使用Python和TensorFlow從頭開始編寫強(qiáng)化學(xué)習(xí)算法。 ? 使用Ray的RLlib包并行化強(qiáng)化學(xué)習(xí)實(shí)現(xiàn),以及擴(kuò)展強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)。 ? 深入了解各種強(qiáng)化學(xué)習(xí)主題。 ? 了解不同強(qiáng)化學(xué)習(xí)方法之間的利弊。 ? 發(fā)現(xiàn)并解決在現(xiàn)實(shí)世界中實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的挑戰(zhàn)。

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 內(nèi)容簡介

本書使用受現(xiàn)實(shí)世界商業(yè)和行業(yè)問題啟發(fā)的實(shí)際示例來講授強(qiáng)化學(xué)習(xí)技術(shù)的相關(guān)知識(shí)。本書分為四部分:**部分涵蓋強(qiáng)化學(xué)習(xí)的必要背景,包括定義、數(shù)學(xué)基礎(chǔ)和強(qiáng)化學(xué)習(xí)解決方案的概述;第二部分深入介紹*優(yōu)選的強(qiáng)化學(xué)習(xí)算法(規(guī)模化的深度Q-學(xué)習(xí)、基于策略的方法、基于模型的方法、多智能體強(qiáng)化學(xué)習(xí)等),包括每種算法的優(yōu)缺點(diǎn);第三部分介紹強(qiáng)化學(xué)習(xí)中的高級(jí)技術(shù),包括機(jī)器教學(xué)、泛化和域隨機(jī)化、元強(qiáng)化學(xué)習(xí)等主題,還涵蓋強(qiáng)化學(xué)習(xí)中有助于改進(jìn)模型的各種高級(jí)主題;第四部分講解強(qiáng)化學(xué)習(xí)的各種應(yīng)用,例如自主系統(tǒng)、供應(yīng)鏈管理、營銷和金融、智慧城市與網(wǎng)絡(luò)安全等,并討論強(qiáng)化學(xué)習(xí)領(lǐng)域的一些挑戰(zhàn)及未來方向。學(xué)完本書,你將掌握如何訓(xùn)練和部署自己的強(qiáng)化學(xué)習(xí)智能體來解決強(qiáng)化學(xué)習(xí)問題。

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 目錄



CONTENTS
目  錄
譯者序
前言
作者簡介
審校者簡介
**部分 強(qiáng)化學(xué)習(xí)基礎(chǔ)
第1章 強(qiáng)化學(xué)習(xí)簡介 2
1.1 為什么選擇強(qiáng)化學(xué)習(xí) 2
1.2 機(jī)器學(xué)習(xí)的三種范式 3
1.2.1 監(jiān)督學(xué)習(xí) 3
1.2.2 無監(jiān)督學(xué)習(xí) 4
1.2.3 強(qiáng)化學(xué)習(xí) 4
1.3 強(qiáng)化學(xué)習(xí)應(yīng)用領(lǐng)域和成功案例 5
1.3.1 游戲 6
1.3.2 機(jī)器人技術(shù)和自主系統(tǒng) 7
1.3.3 供應(yīng)鏈 8
1.3.4 制造業(yè) 8
1.3.5 個(gè)性化和推薦系統(tǒng) 9
1.3.6 智慧城市 9
1.4 強(qiáng)化學(xué)習(xí)問題的元素 10
1.4.1 強(qiáng)化學(xué)習(xí)概念 10
1.4.2 將井字棋游戲建模為強(qiáng)化
學(xué)習(xí)問題 11
1.5 設(shè)置強(qiáng)化學(xué)習(xí)環(huán)境 12
1.5.1 硬件要求 12
1.5.2 操作系統(tǒng) 13
1.5.3 軟件工具箱 13
1.6 總結(jié) 14
1.7 參考文獻(xiàn) 15
第2章 多臂老虎機(jī) 17
2.1 探索–利用權(quán)衡 17
2.2 什么是多臂老虎機(jī)問題 18
2.2.1 問題定義 18
2.2.2 一個(gè)簡單多臂老虎機(jī)問題
的實(shí)驗(yàn) 19
2.3 案例研究:在線廣告 22
2.4 A/B/n測試 23
2.4.1 符號(hào) 23
2.4.2 應(yīng)用于在線廣告場景 24
2.4.3 A/B/n測試的優(yōu)缺點(diǎn) 27
2.5 ε-貪心策略行動(dòng) 27
2.5.1 應(yīng)用于在線廣告場景 27
2.5.2 ε-貪心策略行動(dòng)的優(yōu)缺點(diǎn) 29
2.6 使用置信上界進(jìn)行行動(dòng)選擇 30
2.6.1 應(yīng)用于在線廣告場景 30
2.6.2 使用置信上界的優(yōu)缺點(diǎn) 32
2.7 湯普森(后)采樣 33
2.7.1 應(yīng)用于在線廣告場景 33
2.7.2 湯普森采樣的優(yōu)缺點(diǎn) 36
2.8 總結(jié) 36
2.9 參考文獻(xiàn) 36
第3章 上下文多臂老虎機(jī) 37
3.1 為什么我們需要函數(shù)近似 37
3.2 對上下文使用函數(shù)近似 38
3.2.1 案例研究:使用合成用戶
數(shù)據(jù)的上下文在線廣告 39
3.2.2 使用正則化邏輯斯諦回歸
的函數(shù)近似 42
3.2.3 目標(biāo)函數(shù):悔值小化 45
3.2.4 解決在線廣告問題 46
3.3 對行動(dòng)使用函數(shù)近似 50
3.3.1 案例研究:使用來自美國
人口普查的用戶數(shù)據(jù)的上
下文在線廣告 51
3.3.2 使用神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)
近似 55
3.3.3 計(jì)算悔值 57
3.3.4 解決在線廣告問題 57
3.4 多臂老虎機(jī)和上下文老虎機(jī)的
其他應(yīng)用 59
3.4.1 推薦系統(tǒng) 59
3.4.2 網(wǎng)頁/應(yīng)用程序功能設(shè)計(jì) 60
3.4.3 醫(yī)療保健 60
3.4.4 動(dòng)態(tài)定價(jià) 60
3.4.5 金融 60
3.4.6 控制系統(tǒng)調(diào)整 60
3.5 總結(jié) 61
3.6 參考文獻(xiàn) 61
第4章 馬爾可夫決策過程的制定 63
4.1 馬爾可夫鏈 63
4.1.1 具有馬爾可夫性的隨機(jī)
過程 63
4.1.2 馬爾可夫鏈中的狀態(tài)分類 65
4.1.3 轉(zhuǎn)移和穩(wěn)態(tài)行為 66
4.1.4 示例:網(wǎng)格世界中的n-
步行為 67
4.1.5 示例:一個(gè)可遍歷馬爾可
夫鏈中的樣本路徑 69
4.1.6 半馬爾可夫過程和連續(xù)時(shí)
間馬爾可夫鏈 70
4.2 引入獎(jiǎng)勵(lì):馬爾可夫獎(jiǎng)勵(lì)過程 70
4.2.1 將獎(jiǎng)勵(lì)附加到網(wǎng)格世界
示例 71
4.2.2 不同初始化的平均獎(jiǎng)勵(lì)之
間的關(guān)系 72
4.2.3 回報(bào)、折扣和狀態(tài)值 72
4.2.4 解析式地計(jì)算狀態(tài)值 73
4.2.5 迭代式地估計(jì)狀態(tài)值 74
4.3 引入行動(dòng):馬爾可夫決策過程 75
4.3.1 定義 75
4.3.2 網(wǎng)格世界作為馬爾可夫決
策過程 76
4.3.3 狀態(tài)值函數(shù) 77
4.3.4 行動(dòng)值函數(shù) 77
4.3.5 優(yōu)狀態(tài)值和行動(dòng)值
函數(shù) 78
4.3.6 貝爾曼優(yōu)性 78
4.4 部分可觀測的馬爾可夫決策過程 79
4.5 總結(jié) 80
4.6 練習(xí) 80
4.7 參考文獻(xiàn) 81
第5章 求解強(qiáng)化學(xué)習(xí)問題 82
5.1 探索動(dòng)態(tài)規(guī)劃 82
5.1.1 示例用例:食品卡車的庫存補(bǔ)充 82
5.1.2 策略評估 85
5.1.3 策略迭代 90
5.1.4 值迭代 94
5.1.5 動(dòng)態(tài)規(guī)劃方法的缺點(diǎn) 95
5.2 用蒙特卡羅法訓(xùn)練智能體 96
5.2.1 蒙特卡羅預(yù)測 97
5.2.2 蒙特卡羅控制 104
5.3 時(shí)間差分學(xué)習(xí) 111
5.3.1 一步時(shí)間差分學(xué)習(xí) 112
5.3.2 n-步時(shí)間差分學(xué)習(xí) 117
5.4 了解模擬在強(qiáng)化學(xué)習(xí)中的
重要性 117
5.5 總結(jié) 118
5.6 練習(xí) 119
5.7 參考文獻(xiàn) 119
第二部分 深度強(qiáng)化學(xué)習(xí)
第6章 規(guī)模化的深度Q-學(xué)習(xí) 122
6.1 從表格型Q-學(xué)習(xí)到深度Q-
學(xué)習(xí) 122
6.1.1 神經(jīng)網(wǎng)絡(luò)擬合的Q-迭代 123
6.1.2 在線Q-學(xué)習(xí) 127
6.2 深度Q網(wǎng)絡(luò) 128
6.2.1 DQN中的關(guān)鍵概念 128
6.2.2 DQN算法 129
6.3 DQN擴(kuò)展:Rainbow 130
6.3.1 擴(kuò)展 130
6.3.2 集成智能體的性能 134
6.3.3 如何選擇使用哪些擴(kuò)展:Rainbow的消融實(shí)驗(yàn) 134
6.3.4 “死亡三組合”發(fā)生了什
展開全部

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 作者簡介

埃內(nèi)斯·比爾金 (Enes Bilgin) 微軟自主系統(tǒng)部門的高級(jí)人工智能工程師和技術(shù)主管。他是一名機(jī)器學(xué)習(xí)與運(yùn)籌學(xué)從業(yè)者和研究員,在使用Python、TensorFlow和Ray/RLlib為頂級(jí)科技公司構(gòu)建生產(chǎn)系統(tǒng)和模型方面擁有豐富的經(jīng)驗(yàn)。他擁有波士頓大學(xué)系統(tǒng)工程碩士學(xué)位和博士學(xué)位,以及比爾肯特大學(xué)工業(yè)工程學(xué)士學(xué)位。他曾在亞馬遜擔(dān)任研究科學(xué)家,并在AMD擔(dān)任過運(yùn)籌學(xué)研究科學(xué)家,還在得克薩斯大學(xué)奧斯汀分校的麥庫姆斯商學(xué)院和得克薩斯州立大學(xué)的英格拉姆工程學(xué)院擔(dān)任過兼職教師。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
主站蜘蛛池模板: 北京易通慧公司从事北京网站优化,北京网络推广、网站建设一站式服务商-北京网站优化公司 | 恒温恒湿试验箱_高低温试验箱_恒温恒湿箱-东莞市高天试验设备有限公司 | 智能型高压核相仪-自动开口闪点测试仪-QJ41A电雷管测试仪|上海妙定 | 机床主轴维修|刀塔维修|C轴维修-常州翔高精密机械有限公司 | 直齿驱动-新型回转驱动和回转支承解决方案提供商-不二传动 | 卫生纸复卷机|抽纸机|卫生纸加工设备|做卫生纸机器|小型卫生纸加工需要什么设备|卫生纸机器设备多少钱一台|许昌恒源纸品机械有限公司 | 东莞爱加真空科技有限公司-进口真空镀膜机|真空镀膜设备|Polycold维修厂家 | 重庆网站建设,重庆网站设计,重庆网站制作,重庆seo,重庆做网站,重庆seo,重庆公众号运营,重庆小程序开发 | 发电机组|柴油发电机组-批发,上柴,玉柴,潍柴,康明斯柴油发电机厂家直销 | 全自动实验室洗瓶机,移液管|培养皿|进样瓶清洗机,清洗剂-广州摩特伟希尔机械设备有限责任公司 | 天一线缆邯郸有限公司_煤矿用电缆厂家_矿用光缆厂家_矿用控制电缆_矿用通信电缆-天一线缆邯郸有限公司 | 模具钢_高速钢_不锈钢-万利钢金属材料 | 手术示教系统-数字化手术室系统-林之硕医疗云智能视频平台 | 线材成型机,线材折弯机,线材成型机厂家,贝朗自动化设备有限公司1 | 北京四合院出租,北京四合院出售,北京平房买卖 - 顺益兴四合院 | 在线浊度仪_悬浮物污泥浓度计_超声波泥位计_污泥界面仪_泥水界面仪-无锡蓝拓仪表科技有限公司 | 防水套管厂家_刚性防水套管_柔性防水套管_不锈钢防水套管-郑州中泰管道 | 贵州水玻璃_-贵阳花溪闽兴水玻璃厂 | 自动钻孔机-全自动数控钻孔机生产厂家-多米(广东)智能装备有限公司 | PSI渗透压仪,TPS酸度计,美国CHAI PCR仪,渗透压仪厂家_价格,微生物快速检测仪-华泰和合(北京)商贸有限公司 | 冷却塔减速机器_冷却塔皮带箱维修厂家_凉水塔风机电机更换-广东康明冷却塔厂家 | 医用酒精_84消毒液_碘伏消毒液等医用消毒液-漓峰消毒官网 | 冷却塔风机厂家_静音冷却塔风机_冷却塔电机维修更换维修-广东特菱节能空调设备有限公司 | 板框压滤机-隔膜压滤机-厢式压滤机生产厂家-禹州市君工机械设备有限公司 | 小区健身器材_户外健身器材_室外健身器材_公园健身路径-沧州浩然体育器材有限公司 | 书信之家_书信标准模板范文大全| 隐形纱窗|防护纱窗|金刚网防盗纱窗|韦柏纱窗|上海青木装潢制品有限公司|纱窗国标起草单位 | 防水套管_柔性防水套管_刚性防水套管-巩义市润达管道设备制造有限公司 | 焊缝跟踪系统_激光位移传感器_激光焊缝跟踪传感器-创想智控 | 专注提供国外机电设备及配件-工业控制领域一站式服务商-深圳市华联欧国际贸易有限公司 | 南京试剂|化学试剂|分析试剂|实验试剂|cas号查询-专业60年试剂销售企业 | 施工围挡-施工PVC围挡-工程围挡-深圳市旭东钢构技术开发有限公司 | 天然气分析仪-液化气二甲醚分析仪|传昊仪器 | 超声波气象站_防爆气象站_空气质量监测站_负氧离子检测仪-风途物联网 | 一体式钢筋扫描仪-楼板测厚仪-裂缝检测仪-泰仕特(北京) | 招商帮-一站式网络营销服务|搜索营销推广|信息流推广|短视视频营销推广|互联网整合营销|网络推广代运营|招商帮企业招商好帮手 | ★济南领跃标识制作公司★济南标识制作,标牌制作,山东标识制作,济南标牌厂 | 臻知网大型互动问答社区-你的问题将在这里得到解答!-无锡据风网络科技有限公司 | 河北中仪伟创试验仪器有限公司是专业生产沥青,土工,水泥,混凝土等试验仪器的厂家,咨询电话:13373070969 | 色油机-色母机-失重|称重式混料机-称重机-米重机-拌料机-[东莞同锐机械]精密计量科技制造商 | 定做大型恒温循环水浴槽-工业用不锈钢恒温水箱-大容量低温恒温水槽-常州精达仪器 |