包郵 PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用

作者：[美]埃內(nèi)斯·比爾金(Enes Bilg

出版社：機(jī)械工業(yè)出版社出版時(shí)間：2023-09-01

開本： 16開 頁數(shù)： 348

本類榜單：計(jì)算機(jī)/網(wǎng)絡(luò)銷量榜

中圖價(jià):¥86.4(6.7折) 定價(jià) ~~¥129.0~~ 登錄后可看到會(huì)員價(jià)

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計(jì)算機(jī)等級(jí)考試最新真考題庫模擬考場及詳解·二級(jí)MSOffice高級(jí)應(yīng)用

全國計(jì)算機(jī)等級(jí)考試最新真考題庫模擬考場及詳解·二級(jí)MSOffice高級(jí)應(yīng)用

¥14.4¥45
>
決戰(zhàn)行測5000題(言語理解與表達(dá))

決戰(zhàn)行測5000題(言語理解與表達(dá))

¥44.1¥88
>
軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路

軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續(xù)交付

JAVA持續(xù)交付

¥58.1¥119
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)

EXCEL最強(qiáng)教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學(xué)習(xí)

深度學(xué)習(xí)

¥92.4¥168

商品詳情
商品評論(0條)

中圖價(jià):¥86.4 加入購物車

版權(quán)信息
本書特色
內(nèi)容簡介
目錄
作者簡介

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用版權(quán)信息

ISBN：9787111734895
條形碼：9787111734895 ; 978-7-111-73489-5
裝幀：平裝-膠訂
冊數(shù)：暫無
重量：暫無
所屬分類：
計(jì)算機(jī)/網(wǎng)絡(luò)
>
軟件工程/開發(fā)項(xiàng)目管理

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用本書特色

強(qiáng)化學(xué)習(xí)(RL)是用于創(chuàng)建自學(xué)習(xí)自主智能體的人工智能方法。本書基于強(qiáng)大的理論基礎(chǔ)，采用實(shí)用的方法來研究強(qiáng)化學(xué)習(xí)，并使用受現(xiàn)實(shí)世界中商業(yè)和行業(yè)問題啟發(fā)的實(shí)際示例來教授先進(jìn)的強(qiáng)化學(xué)習(xí)知識(shí)。本書首先介紹老虎機(jī)問題、馬爾可夫決策過程和動(dòng)態(tài)規(guī)劃，帶你深入了解經(jīng)典強(qiáng)化學(xué)習(xí)技術(shù)，包括蒙特卡羅方法和時(shí)間差分學(xué)習(xí)方法。然后，你將了解深度Q-學(xué)習(xí)、策略梯度方法、Actor-Critic算法、基于模型的方法以及多智能體強(qiáng)化學(xué)習(xí)。接下來，本書將介紹一些成功的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)背后的關(guān)鍵方法，例如，域隨機(jī)化和好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)。隨著學(xué)習(xí)的深入，你將使用現(xiàn)代Python庫（例如，TensorFlow和Ray的RLlib包）探索許多具有高級(jí)實(shí)現(xiàn)的新穎算法。你還將了解如何在機(jī)器人、供應(yīng)鏈管理、市場營銷、金融、智慧城市與網(wǎng)絡(luò)安全等領(lǐng)域應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)，同時(shí)評估不同方法的利弊并避免常見的陷阱。學(xué)完本書，你將掌握如何訓(xùn)練和部署自己的強(qiáng)化學(xué)習(xí)智能體來解決強(qiáng)化學(xué)習(xí)問題。通過閱讀本書，你將： ? 使用強(qiáng)化學(xué)習(xí)建模并解決復(fù)雜的序貫決策問題。 ? 深入了解先進(jìn)的強(qiáng)化學(xué)習(xí)方法的工作原理。 ? 使用Python和TensorFlow從頭開始編寫強(qiáng)化學(xué)習(xí)算法。 ? 使用Ray的RLlib包并行化強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)，以及擴(kuò)展強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)。 ? 深入了解各種強(qiáng)化學(xué)習(xí)主題。 ? 了解不同強(qiáng)化學(xué)習(xí)方法之間的利弊。 ? 發(fā)現(xiàn)并解決在現(xiàn)實(shí)世界中實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的挑戰(zhàn)。

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用內(nèi)容簡介

本書使用受現(xiàn)實(shí)世界商業(yè)和行業(yè)問題啟發(fā)的實(shí)際示例來講授強(qiáng)化學(xué)習(xí)技術(shù)的相關(guān)知識(shí)。本書分為四部分：**部分涵蓋強(qiáng)化學(xué)習(xí)的必要背景，包括定義、數(shù)學(xué)基礎(chǔ)和強(qiáng)化學(xué)習(xí)解決方案的概述；第二部分深入介紹*優(yōu)選的強(qiáng)化學(xué)習(xí)算法（規(guī)模化的深度Q-學(xué)習(xí)、基于策略的方法、基于模型的方法、多智能體強(qiáng)化學(xué)習(xí)等），包括每種算法的優(yōu)缺點(diǎn)；第三部分介紹強(qiáng)化學(xué)習(xí)中的高級(jí)技術(shù)，包括機(jī)器教學(xué)、泛化和域隨機(jī)化、元強(qiáng)化學(xué)習(xí)等主題，還涵蓋強(qiáng)化學(xué)習(xí)中有助于改進(jìn)模型的各種高級(jí)主題；第四部分講解強(qiáng)化學(xué)習(xí)的各種應(yīng)用，例如自主系統(tǒng)、供應(yīng)鏈管理、營銷和金融、智慧城市與網(wǎng)絡(luò)安全等，并討論強(qiáng)化學(xué)習(xí)領(lǐng)域的一些挑戰(zhàn)及未來方向。學(xué)完本書，你將掌握如何訓(xùn)練和部署自己的強(qiáng)化學(xué)習(xí)智能體來解決強(qiáng)化學(xué)習(xí)問題。

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用目錄

CONTENTS
目　　錄
譯者序
前言
作者簡介
審校者簡介
**部分　強(qiáng)化學(xué)習(xí)基礎(chǔ)
第1章　強(qiáng)化學(xué)習(xí)簡介　2
1.1　為什么選擇強(qiáng)化學(xué)習(xí)　2
1.2　機(jī)器學(xué)習(xí)的三種范式　3
1.2.1　監(jiān)督學(xué)習(xí)　3
1.2.2　無監(jiān)督學(xué)習(xí)　4
1.2.3　強(qiáng)化學(xué)習(xí)　4
1.3　強(qiáng)化學(xué)習(xí)應(yīng)用領(lǐng)域和成功案例　5
1.3.1　游戲　6
1.3.2　機(jī)器人技術(shù)和自主系統(tǒng)　7
1.3.3　供應(yīng)鏈　8
1.3.4　制造業(yè)　8
1.3.5　個(gè)性化和推薦系統(tǒng)　9
1.3.6　智慧城市　9
1.4　強(qiáng)化學(xué)習(xí)問題的元素　10
1.4.1　強(qiáng)化學(xué)習(xí)概念　10
1.4.2　將井字棋游戲建模為強(qiáng)化
學(xué)習(xí)問題　11
1.5　設(shè)置強(qiáng)化學(xué)習(xí)環(huán)境　12
1.5.1　硬件要求　12
1.5.2　操作系統(tǒng)　13
1.5.3　軟件工具箱　13
1.6　總結(jié)　14
1.7　參考文獻(xiàn)　15
第2章　多臂老虎機(jī)　17
2.1　探索–利用權(quán)衡　17
2.2　什么是多臂老虎機(jī)問題　18
2.2.1　問題定義　18
2.2.2　一個(gè)簡單多臂老虎機(jī)問題
的實(shí)驗(yàn)　19
2.3　案例研究：在線廣告　22
2.4　A/B/n測試　23
2.4.1　符號(hào)　23
2.4.2　應(yīng)用于在線廣告場景　24
2.4.3　A/B/n測試的優(yōu)缺點(diǎn)　27
2.5　ε-貪心策略行動(dòng)　27
2.5.1　應(yīng)用于在線廣告場景　27
2.5.2　ε-貪心策略行動(dòng)的優(yōu)缺點(diǎn)　29
2.6　使用置信上界進(jìn)行行動(dòng)選擇　30
2.6.1　應(yīng)用于在線廣告場景　30
2.6.2　使用置信上界的優(yōu)缺點(diǎn)　32
2.7　湯普森（后）采樣　33
2.7.1　應(yīng)用于在線廣告場景　33
2.7.2　湯普森采樣的優(yōu)缺點(diǎn)　36
2.8　總結(jié)　36
2.9　參考文獻(xiàn)　36
第3章　上下文多臂老虎機(jī)　37
3.1　為什么我們需要函數(shù)近似　37
3.2　對上下文使用函數(shù)近似　38
3.2.1　案例研究：使用合成用戶
數(shù)據(jù)的上下文在線廣告　39
3.2.2　使用正則化邏輯斯諦回歸
的函數(shù)近似　42
3.2.3　目標(biāo)函數(shù)：悔值小化　45
3.2.4　解決在線廣告問題　46
3.3　對行動(dòng)使用函數(shù)近似　50
3.3.1　案例研究：使用來自美國
人口普查的用戶數(shù)據(jù)的上
下文在線廣告　51
3.3.2　使用神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)
近似　55
3.3.3　計(jì)算悔值　57
3.3.4　解決在線廣告問題　57
3.4　多臂老虎機(jī)和上下文老虎機(jī)的
其他應(yīng)用　59
3.4.1　推薦系統(tǒng)　59
3.4.2　網(wǎng)頁/應(yīng)用程序功能設(shè)計(jì)　60
3.4.3　醫(yī)療保健　60
3.4.4　動(dòng)態(tài)定價(jià)　60
3.4.5　金融　60
3.4.6　控制系統(tǒng)調(diào)整　60
3.5　總結(jié)　61
3.6　參考文獻(xiàn)　61
第4章　馬爾可夫決策過程的制定　63
4.1　馬爾可夫鏈　63
4.1.1　具有馬爾可夫性的隨機(jī)
過程　63
4.1.2　馬爾可夫鏈中的狀態(tài)分類　65
4.1.3　轉(zhuǎn)移和穩(wěn)態(tài)行為　66
4.1.4　示例：網(wǎng)格世界中的n-
步行為　67
4.1.5　示例：一個(gè)可遍歷馬爾可
夫鏈中的樣本路徑　69
4.1.6　半馬爾可夫過程和連續(xù)時(shí)
間馬爾可夫鏈　70
4.2　引入獎(jiǎng)勵(lì)：馬爾可夫獎(jiǎng)勵(lì)過程　70
4.2.1　將獎(jiǎng)勵(lì)附加到網(wǎng)格世界
示例　71
4.2.2　不同初始化的平均獎(jiǎng)勵(lì)之
間的關(guān)系　72
4.2.3　回報(bào)、折扣和狀態(tài)值　72
4.2.4　解析式地計(jì)算狀態(tài)值　73
4.2.5　迭代式地估計(jì)狀態(tài)值　74
4.3　引入行動(dòng)：馬爾可夫決策過程　75
4.3.1　定義　75
4.3.2　網(wǎng)格世界作為馬爾可夫決
策過程　76
4.3.3　狀態(tài)值函數(shù)　77
4.3.4　行動(dòng)值函數(shù)　77
4.3.5　優(yōu)狀態(tài)值和行動(dòng)值
函數(shù)　78
4.3.6　貝爾曼優(yōu)性　78
4.4　部分可觀測的馬爾可夫決策過程　79
4.5　總結(jié)　80
4.6　練習(xí)　80
4.7　參考文獻(xiàn)　81
第5章　求解強(qiáng)化學(xué)習(xí)問題　82
5.1　探索動(dòng)態(tài)規(guī)劃　82
5.1.1　示例用例：食品卡車的庫存補(bǔ)充　82
5.1.2　策略評估　85
5.1.3　策略迭代　90
5.1.4　值迭代　94
5.1.5　動(dòng)態(tài)規(guī)劃方法的缺點(diǎn)　95
5.2　用蒙特卡羅法訓(xùn)練智能體　96
5.2.1　蒙特卡羅預(yù)測　97
5.2.2　蒙特卡羅控制　104
5.3　時(shí)間差分學(xué)習(xí)　111
5.3.1　一步時(shí)間差分學(xué)習(xí)　112
5.3.2　n-步時(shí)間差分學(xué)習(xí)　117
5.4　了解模擬在強(qiáng)化學(xué)習(xí)中的
重要性　117
5.5　總結(jié)　118
5.6　練習(xí)　119
5.7　參考文獻(xiàn)　119
第二部分　深度強(qiáng)化學(xué)習(xí)
第6章　規(guī)模化的深度Q-學(xué)習(xí)　122
6.1　從表格型Q-學(xué)習(xí)到深度Q-
學(xué)習(xí)　122
6.1.1　神經(jīng)網(wǎng)絡(luò)擬合的Q-迭代　123
6.1.2　在線Q-學(xué)習(xí)　127
6.2　深度Q網(wǎng)絡(luò)　128
6.2.1　DQN中的關(guān)鍵概念　128
6.2.2　DQN算法　129
6.3　DQN擴(kuò)展：Rainbow　130
6.3.1　擴(kuò)展　130
6.3.2　集成智能體的性能　134
6.3.3　如何選擇使用哪些擴(kuò)展：Rainbow的消融實(shí)驗(yàn)　134
6.3.4　“死亡三組合”發(fā)生了什

展開全部

PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用作者簡介

埃內(nèi)斯·比爾金（Enes Bilgin）微軟自主系統(tǒng)部門的高級(jí)人工智能工程師和技術(shù)主管。他是一名機(jī)器學(xué)習(xí)與運(yùn)籌學(xué)從業(yè)者和研究員，在使用Python、TensorFlow和Ray/RLlib為頂級(jí)科技公司構(gòu)建生產(chǎn)系統(tǒng)和模型方面擁有豐富的經(jīng)驗(yàn)。他擁有波士頓大學(xué)系統(tǒng)工程碩士學(xué)位和博士學(xué)位，以及比爾肯特大學(xué)工業(yè)工程學(xué)士學(xué)位。他曾在亞馬遜擔(dān)任研究科學(xué)家，并在AMD擔(dān)任過運(yùn)籌學(xué)研究科學(xué)家，還在得克薩斯大學(xué)奧斯汀分校的麥庫姆斯商學(xué)院和得克薩斯州立大學(xué)的英格拉姆工程學(xué)院擔(dān)任過兼職教師。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
有舍有得是人生
有舍有得是人生
梁實(shí)秋
¥25.7~~¥45.0~~
>
【精裝繪本】畫給孩子的中國神話
【精裝繪本】畫給孩子的中國神話
施英巍
¥18.6~~¥55.0~~
>
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(紅燭學(xué)術(shù)叢書)
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(紅燭學(xué)術(shù)叢書)
易竹賢
¥9.9~~¥23.0~~
>
朝聞道
朝聞道
劉慈欣
¥9.8~~¥23.8~~
>
伊索寓言-世界文學(xué)名著典藏-全譯本
伊索寓言-世界文學(xué)名著典藏-全譯本
[古希臘] 伊索著，陳韻如譯
¥6.7~~¥19.0~~
>
苦雨齋序跋文-周作人自編集
苦雨齋序跋文-周作人自編集
周作人著，止庵校訂
¥6.1~~¥16.0~~
>
名家?guī)阕x魯迅:朝花夕拾
名家?guī)阕x魯迅:朝花夕拾
魯迅著，陳漱渝主編
¥11.1~~¥21.0~~
>
人文閱讀與收藏·良友文學(xué)叢書:一天的工作
人文閱讀與收藏·良友文學(xué)叢書:一天的工作
魯迅
¥15.7~~¥45.8~~