-
>
全國(guó)計(jì)算機(jī)等級(jí)考試最新真考題庫(kù)模擬考場(chǎng)及詳解·二級(jí)MSOffice高級(jí)應(yīng)用
-
>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強(qiáng)教科書(shū)(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
用Python動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)(第2版全彩印刷) 版權(quán)信息
- ISBN:9787115564221
- 條形碼:9787115564221 ; 978-7-115-56422-1
- 裝幀:一般膠版紙
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類:>
用Python動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)(第2版全彩印刷) 本書(shū)特色
1.從基礎(chǔ)到應(yīng)用,一本書(shū)快速入門(mén)強(qiáng)化學(xué)習(xí) 2.基于Python實(shí)現(xiàn)強(qiáng)化學(xué)習(xí),直觀理解運(yùn)作過(guò)程 3.內(nèi)容豐富,涵蓋強(qiáng)化學(xué)習(xí)基本概念、算法詳解、前沿應(yīng)用、弱點(diǎn)及對(duì)策 4.132張圖表與大量示例,全彩印刷圖文并茂提供良好閱讀體驗(yàn) 5.附免費(fèi)下載源代碼為讀者提供親身實(shí)踐機(jī)會(huì)
用Python動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)(第2版全彩印刷) 內(nèi)容簡(jiǎn)介
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要分支之一。《用Python動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)》結(jié)合實(shí)際可運(yùn)行的Python代碼,通過(guò)簡(jiǎn)明的文字、豐富的插圖和示例,通俗易懂地介紹了從基礎(chǔ)概念到前沿應(yīng)用等方方面面的內(nèi)容,包括根據(jù)環(huán)境和經(jīng)驗(yàn)制訂計(jì)劃的學(xué)習(xí)方法、強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的組合,以及強(qiáng)化學(xué)習(xí)的弱點(diǎn)和克服方法。讀者通過(guò)下載書(shū)中代碼并親自動(dòng)手運(yùn)行,可以快速入門(mén)強(qiáng)化學(xué)習(xí)并進(jìn)行實(shí)踐。
用Python動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)(第2版全彩印刷) 目錄
1.1 強(qiáng)化學(xué)習(xí)與各關(guān)鍵詞之間的關(guān)系 1
1.2 強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn)和弱點(diǎn) 8
1.3 強(qiáng)化學(xué)習(xí)的問(wèn)題設(shè)定:馬爾可夫決策過(guò)程 9
第 2章 強(qiáng)化學(xué)習(xí)的解法(1):根據(jù)環(huán)境制訂計(jì)劃 21
2.1 價(jià)值的定義和計(jì)算:貝爾曼方程 22
2.2 基于動(dòng)態(tài)規(guī)劃法的價(jià)值近似的學(xué)習(xí):價(jià)值迭代 28
2.3 基于動(dòng)態(tài)規(guī)劃法的策略的學(xué)習(xí):策略迭代 32
2.4 基于模型的方法和無(wú)模型的方法的區(qū)別 36
第3章 強(qiáng)化學(xué)習(xí)的解法(2):根據(jù)經(jīng)驗(yàn)制訂計(jì)劃 39
3.1 平衡經(jīng)驗(yàn)的積累與利用:Epsilon-Greedy 算法 41
3.2 是根據(jù)實(shí)際獎(jiǎng)勵(lì)還是預(yù)測(cè)來(lái)修正計(jì)劃:蒙特卡洛方法和時(shí)序差分學(xué)習(xí) 46
3.3 用經(jīng)驗(yàn)來(lái)更新價(jià)值近似還是策略:基于價(jià)值和基于策略 62
第4章 使用面向強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò) 73
4.1 將神經(jīng)網(wǎng)絡(luò)應(yīng)用于強(qiáng)化學(xué)習(xí) 74
4.2 通過(guò)含有參數(shù)的函數(shù)實(shí)現(xiàn)價(jià)值近似:價(jià)值函數(shù)近似 100
4.3 將深度學(xué)習(xí)應(yīng)用于價(jià)值近似:DQN 109
4.4 通過(guò)含有參數(shù)的函數(shù)實(shí)現(xiàn)策略:策略梯度 121
4.5 將深度學(xué)習(xí)應(yīng)用于策略:A2C 133
4.6 是價(jià)值近似還是策略呢 153
第5章 強(qiáng)化學(xué)習(xí)的弱點(diǎn) 157
5.1 獲取樣本的效率低 157
5.2 容易陷入局部*優(yōu)行動(dòng)和過(guò)擬合160
5.3 復(fù)現(xiàn)性差 163
5.4 以弱點(diǎn)為前提的對(duì)策 164
第6章 克服強(qiáng)化學(xué)習(xí)弱點(diǎn)的方法 169
6.1 應(yīng)對(duì)采樣效率低的方法:與基于模型的方法一起使用、表征學(xué)習(xí) 170
6.2 改善復(fù)現(xiàn)性的方法:進(jìn)化策略 198
6.3 應(yīng)對(duì)局部*優(yōu)行動(dòng)和過(guò)擬合的方法:模仿學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí) 206
第7章 強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域 237
7.1 行動(dòng)的*優(yōu)化 239
7.2 學(xué)習(xí)的*優(yōu)化 248
參考文獻(xiàn) 252
用Python動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)(第2版全彩印刷) 作者簡(jiǎn)介
[日]久保隆宏(作者) 任職于日本大型系統(tǒng)集成商TIS,具有豐富的機(jī)器學(xué)習(xí)研究和開(kāi)發(fā)經(jīng)驗(yàn)。論文共享網(wǎng)站站arXivTimes運(yùn)營(yíng)者,積極致力于技術(shù)普及,著有《TensorFlow應(yīng)用指南》(合著)。 梁垿(譯者) 碩士畢業(yè)于日本早稻田大學(xué),研究方向?yàn)闄C(jī)器學(xué)習(xí)。目前在日本大型系統(tǒng)集成商TIS任自然語(yǔ)言處理工程師。熱愛(ài)長(zhǎng)跑與讀書(shū),喜歡科幻、蒸汽朋克、克蘇魯?shù)阮}材的作品。 程引(譯者) 工學(xué)博士學(xué)位,畢業(yè)于上海交通大學(xué)。目前在日本BizReach公司(Visional Group)AI部門(mén)任算法工程師。業(yè)務(wù)方向?yàn)橥扑]系統(tǒng)與自然語(yǔ)言處理,研究興趣包括強(qiáng)化學(xué)習(xí)與自動(dòng)控制。
- >
龍榆生:詞曲概論/大家小書(shū)
- >
人文閱讀與收藏·良友文學(xué)叢書(shū):一天的工作
- >
詩(shī)經(jīng)-先民的歌唱
- >
苦雨齋序跋文-周作人自編集
- >
推拿
- >
羅曼·羅蘭讀書(shū)隨筆-精裝
- >
煙與鏡
- >
莉莉和章魚(yú)