包郵 PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用
-
>
全國計(jì)算機(jī)等級(jí)考試最新真考題庫模擬考場及詳解·二級(jí)MSOffice高級(jí)應(yīng)用
-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 版權(quán)信息
- ISBN:9787111734895
- 條形碼:9787111734895 ; 978-7-111-73489-5
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 本書特色
強(qiáng)化學(xué)習(xí)(RL)是用于創(chuàng)建自學(xué)習(xí)自主智能體的人工智能方法。本書基于強(qiáng)大的理論基礎(chǔ),采用實(shí)用的方法來研究強(qiáng)化學(xué)習(xí),并使用受現(xiàn)實(shí)世界中商業(yè)和行業(yè)問題啟發(fā)的實(shí)際示例來教授先進(jìn)的強(qiáng)化學(xué)習(xí)知識(shí)。 本書首先介紹老虎機(jī)問題、馬爾可夫決策過程和動(dòng)態(tài)規(guī)劃,帶你深入了解經(jīng)典強(qiáng)化學(xué)習(xí)技術(shù),包括蒙特卡羅方法和時(shí)間差分學(xué)習(xí)方法。然后,你將了解深度Q-學(xué)習(xí)、策略梯度方法、Actor-Critic算法、基于模型的方法以及多智能體強(qiáng)化學(xué)習(xí)。接下來,本書將介紹一些成功的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)背后的關(guān)鍵方法,例如,域隨機(jī)化和好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)。 隨著學(xué)習(xí)的深入,你將使用現(xiàn)代Python庫(例如,TensorFlow和Ray的RLlib包)探索許多具有高級(jí)實(shí)現(xiàn)的新穎算法。你還將了解如何在機(jī)器人、供應(yīng)鏈管理、市場營銷、金融、智慧城市與網(wǎng)絡(luò)安全等領(lǐng)域應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù),同時(shí)評估不同方法的利弊并避免常見的陷阱。 學(xué)完本書,你將掌握如何訓(xùn)練和部署自己的強(qiáng)化學(xué)習(xí)智能體來解決強(qiáng)化學(xué)習(xí)問題。通過閱讀本書,你將: ? 使用強(qiáng)化學(xué)習(xí)建模并解決復(fù)雜的序貫決策問題。 ? 深入了解先進(jìn)的強(qiáng)化學(xué)習(xí)方法的工作原理。 ? 使用Python和TensorFlow從頭開始編寫強(qiáng)化學(xué)習(xí)算法。 ? 使用Ray的RLlib包并行化強(qiáng)化學(xué)習(xí)實(shí)現(xiàn),以及擴(kuò)展強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)。 ? 深入了解各種強(qiáng)化學(xué)習(xí)主題。 ? 了解不同強(qiáng)化學(xué)習(xí)方法之間的利弊。 ? 發(fā)現(xiàn)并解決在現(xiàn)實(shí)世界中實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的挑戰(zhàn)。
PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 內(nèi)容簡介
本書使用受現(xiàn)實(shí)世界商業(yè)和行業(yè)問題啟發(fā)的實(shí)際示例來講授強(qiáng)化學(xué)習(xí)技術(shù)的相關(guān)知識(shí)。本書分為四部分:**部分涵蓋強(qiáng)化學(xué)習(xí)的必要背景,包括定義、數(shù)學(xué)基礎(chǔ)和強(qiáng)化學(xué)習(xí)解決方案的概述;第二部分深入介紹*優(yōu)選的強(qiáng)化學(xué)習(xí)算法(規(guī)模化的深度Q-學(xué)習(xí)、基于策略的方法、基于模型的方法、多智能體強(qiáng)化學(xué)習(xí)等),包括每種算法的優(yōu)缺點(diǎn);第三部分介紹強(qiáng)化學(xué)習(xí)中的高級(jí)技術(shù),包括機(jī)器教學(xué)、泛化和域隨機(jī)化、元強(qiáng)化學(xué)習(xí)等主題,還涵蓋強(qiáng)化學(xué)習(xí)中有助于改進(jìn)模型的各種高級(jí)主題;第四部分講解強(qiáng)化學(xué)習(xí)的各種應(yīng)用,例如自主系統(tǒng)、供應(yīng)鏈管理、營銷和金融、智慧城市與網(wǎng)絡(luò)安全等,并討論強(qiáng)化學(xué)習(xí)領(lǐng)域的一些挑戰(zhàn)及未來方向。學(xué)完本書,你將掌握如何訓(xùn)練和部署自己的強(qiáng)化學(xué)習(xí)智能體來解決強(qiáng)化學(xué)習(xí)問題。
PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 目錄
CONTENTS
目 錄
譯者序
前言
作者簡介
審校者簡介
**部分 強(qiáng)化學(xué)習(xí)基礎(chǔ)
第1章 強(qiáng)化學(xué)習(xí)簡介 2
1.1 為什么選擇強(qiáng)化學(xué)習(xí) 2
1.2 機(jī)器學(xué)習(xí)的三種范式 3
1.2.1 監(jiān)督學(xué)習(xí) 3
1.2.2 無監(jiān)督學(xué)習(xí) 4
1.2.3 強(qiáng)化學(xué)習(xí) 4
1.3 強(qiáng)化學(xué)習(xí)應(yīng)用領(lǐng)域和成功案例 5
1.3.1 游戲 6
1.3.2 機(jī)器人技術(shù)和自主系統(tǒng) 7
1.3.3 供應(yīng)鏈 8
1.3.4 制造業(yè) 8
1.3.5 個(gè)性化和推薦系統(tǒng) 9
1.3.6 智慧城市 9
1.4 強(qiáng)化學(xué)習(xí)問題的元素 10
1.4.1 強(qiáng)化學(xué)習(xí)概念 10
1.4.2 將井字棋游戲建模為強(qiáng)化
學(xué)習(xí)問題 11
1.5 設(shè)置強(qiáng)化學(xué)習(xí)環(huán)境 12
1.5.1 硬件要求 12
1.5.2 操作系統(tǒng) 13
1.5.3 軟件工具箱 13
1.6 總結(jié) 14
1.7 參考文獻(xiàn) 15
第2章 多臂老虎機(jī) 17
2.1 探索–利用權(quán)衡 17
2.2 什么是多臂老虎機(jī)問題 18
2.2.1 問題定義 18
2.2.2 一個(gè)簡單多臂老虎機(jī)問題
的實(shí)驗(yàn) 19
2.3 案例研究:在線廣告 22
2.4 A/B/n測試 23
2.4.1 符號(hào) 23
2.4.2 應(yīng)用于在線廣告場景 24
2.4.3 A/B/n測試的優(yōu)缺點(diǎn) 27
2.5 ε-貪心策略行動(dòng) 27
2.5.1 應(yīng)用于在線廣告場景 27
2.5.2 ε-貪心策略行動(dòng)的優(yōu)缺點(diǎn) 29
2.6 使用置信上界進(jìn)行行動(dòng)選擇 30
2.6.1 應(yīng)用于在線廣告場景 30
2.6.2 使用置信上界的優(yōu)缺點(diǎn) 32
2.7 湯普森(后)采樣 33
2.7.1 應(yīng)用于在線廣告場景 33
2.7.2 湯普森采樣的優(yōu)缺點(diǎn) 36
2.8 總結(jié) 36
2.9 參考文獻(xiàn) 36
第3章 上下文多臂老虎機(jī) 37
3.1 為什么我們需要函數(shù)近似 37
3.2 對上下文使用函數(shù)近似 38
3.2.1 案例研究:使用合成用戶
數(shù)據(jù)的上下文在線廣告 39
3.2.2 使用正則化邏輯斯諦回歸
的函數(shù)近似 42
3.2.3 目標(biāo)函數(shù):悔值小化 45
3.2.4 解決在線廣告問題 46
3.3 對行動(dòng)使用函數(shù)近似 50
3.3.1 案例研究:使用來自美國
人口普查的用戶數(shù)據(jù)的上
下文在線廣告 51
3.3.2 使用神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)
近似 55
3.3.3 計(jì)算悔值 57
3.3.4 解決在線廣告問題 57
3.4 多臂老虎機(jī)和上下文老虎機(jī)的
其他應(yīng)用 59
3.4.1 推薦系統(tǒng) 59
3.4.2 網(wǎng)頁/應(yīng)用程序功能設(shè)計(jì) 60
3.4.3 醫(yī)療保健 60
3.4.4 動(dòng)態(tài)定價(jià) 60
3.4.5 金融 60
3.4.6 控制系統(tǒng)調(diào)整 60
3.5 總結(jié) 61
3.6 參考文獻(xiàn) 61
第4章 馬爾可夫決策過程的制定 63
4.1 馬爾可夫鏈 63
4.1.1 具有馬爾可夫性的隨機(jī)
過程 63
4.1.2 馬爾可夫鏈中的狀態(tài)分類 65
4.1.3 轉(zhuǎn)移和穩(wěn)態(tài)行為 66
4.1.4 示例:網(wǎng)格世界中的n-
步行為 67
4.1.5 示例:一個(gè)可遍歷馬爾可
夫鏈中的樣本路徑 69
4.1.6 半馬爾可夫過程和連續(xù)時(shí)
間馬爾可夫鏈 70
4.2 引入獎(jiǎng)勵(lì):馬爾可夫獎(jiǎng)勵(lì)過程 70
4.2.1 將獎(jiǎng)勵(lì)附加到網(wǎng)格世界
示例 71
4.2.2 不同初始化的平均獎(jiǎng)勵(lì)之
間的關(guān)系 72
4.2.3 回報(bào)、折扣和狀態(tài)值 72
4.2.4 解析式地計(jì)算狀態(tài)值 73
4.2.5 迭代式地估計(jì)狀態(tài)值 74
4.3 引入行動(dòng):馬爾可夫決策過程 75
4.3.1 定義 75
4.3.2 網(wǎng)格世界作為馬爾可夫決
策過程 76
4.3.3 狀態(tài)值函數(shù) 77
4.3.4 行動(dòng)值函數(shù) 77
4.3.5 優(yōu)狀態(tài)值和行動(dòng)值
函數(shù) 78
4.3.6 貝爾曼優(yōu)性 78
4.4 部分可觀測的馬爾可夫決策過程 79
4.5 總結(jié) 80
4.6 練習(xí) 80
4.7 參考文獻(xiàn) 81
第5章 求解強(qiáng)化學(xué)習(xí)問題 82
5.1 探索動(dòng)態(tài)規(guī)劃 82
5.1.1 示例用例:食品卡車的庫存補(bǔ)充 82
5.1.2 策略評估 85
5.1.3 策略迭代 90
5.1.4 值迭代 94
5.1.5 動(dòng)態(tài)規(guī)劃方法的缺點(diǎn) 95
5.2 用蒙特卡羅法訓(xùn)練智能體 96
5.2.1 蒙特卡羅預(yù)測 97
5.2.2 蒙特卡羅控制 104
5.3 時(shí)間差分學(xué)習(xí) 111
5.3.1 一步時(shí)間差分學(xué)習(xí) 112
5.3.2 n-步時(shí)間差分學(xué)習(xí) 117
5.4 了解模擬在強(qiáng)化學(xué)習(xí)中的
重要性 117
5.5 總結(jié) 118
5.6 練習(xí) 119
5.7 參考文獻(xiàn) 119
第二部分 深度強(qiáng)化學(xué)習(xí)
第6章 規(guī)模化的深度Q-學(xué)習(xí) 122
6.1 從表格型Q-學(xué)習(xí)到深度Q-
學(xué)習(xí) 122
6.1.1 神經(jīng)網(wǎng)絡(luò)擬合的Q-迭代 123
6.1.2 在線Q-學(xué)習(xí) 127
6.2 深度Q網(wǎng)絡(luò) 128
6.2.1 DQN中的關(guān)鍵概念 128
6.2.2 DQN算法 129
6.3 DQN擴(kuò)展:Rainbow 130
6.3.1 擴(kuò)展 130
6.3.2 集成智能體的性能 134
6.3.3 如何選擇使用哪些擴(kuò)展:Rainbow的消融實(shí)驗(yàn) 134
6.3.4 “死亡三組合”發(fā)生了什
PYTHON強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用 作者簡介
埃內(nèi)斯·比爾金 (Enes Bilgin) 微軟自主系統(tǒng)部門的高級(jí)人工智能工程師和技術(shù)主管。他是一名機(jī)器學(xué)習(xí)與運(yùn)籌學(xué)從業(yè)者和研究員,在使用Python、TensorFlow和Ray/RLlib為頂級(jí)科技公司構(gòu)建生產(chǎn)系統(tǒng)和模型方面擁有豐富的經(jīng)驗(yàn)。他擁有波士頓大學(xué)系統(tǒng)工程碩士學(xué)位和博士學(xué)位,以及比爾肯特大學(xué)工業(yè)工程學(xué)士學(xué)位。他曾在亞馬遜擔(dān)任研究科學(xué)家,并在AMD擔(dān)任過運(yùn)籌學(xué)研究科學(xué)家,還在得克薩斯大學(xué)奧斯汀分校的麥庫姆斯商學(xué)院和得克薩斯州立大學(xué)的英格拉姆工程學(xué)院擔(dān)任過兼職教師。
- >
有舍有得是人生
- >
【精裝繪本】畫給孩子的中國神話
- >
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(紅燭學(xué)術(shù)叢書)
- >
朝聞道
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
苦雨齋序跋文-周作人自編集
- >
名家?guī)阕x魯迅:朝花夕拾
- >
人文閱讀與收藏·良友文學(xué)叢書:一天的工作

京ICP備09013606號(hào)-3京信市監(jiān)發(fā)[2002]122號(hào)海淀公安分局備案編號(hào):1101083394