人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 版權(quán)信息
- ISBN:9787302538295
- 條形碼:9787302538295 ; 978-7-302-53829-5
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 本書特色
《強(qiáng)化學(xué)習(xí)》一書內(nèi)容系統(tǒng)全面,覆蓋面廣,既有理論闡述、公式推導(dǎo),又有豐富的典型案例,理論聯(lián)系實(shí)際。書中全面系統(tǒng)地描述了強(qiáng)化學(xué)習(xí)的起源、背景和分類,各類強(qiáng)化學(xué)習(xí)算法的原理、實(shí)現(xiàn)方式以及各算法間的關(guān)系,為讀者構(gòu)建了一個完整的強(qiáng)化學(xué)習(xí)知識體系;同時包含豐富的經(jīng)典案例,如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機(jī)、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等,通過給出它們對應(yīng)的詳細(xì)案例說明和代碼描述,讓讀者深度理解各類強(qiáng)化學(xué)習(xí)算法的精髓。《強(qiáng)化學(xué)習(xí)》案例生動形象,描述深入淺出,代碼簡潔易懂,注釋詳細(xì)。 《強(qiáng)化學(xué)習(xí)》可作為高等院校計(jì)算機(jī)、自動化及相關(guān)專業(yè)的本科生或研究生教材,也可供對強(qiáng)化學(xué)習(xí)感興趣的研究人員和工程技術(shù)人員閱讀參考。
人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 內(nèi)容簡介
《強(qiáng)化學(xué)習(xí)》一書內(nèi)容系統(tǒng)全面,覆蓋面廣,既有理論闡述、公式推導(dǎo),又有豐富的典型案例,理論聯(lián)系實(shí)際。書中全面系統(tǒng)地描述了強(qiáng)化學(xué)習(xí)的起源、背景和分類,各類強(qiáng)化學(xué)習(xí)算法的原理、實(shí)現(xiàn)方式以及各算法間的關(guān)系,為讀者構(gòu)建了一個完整的強(qiáng)化學(xué)習(xí)知識體系;同時包含豐富的經(jīng)典案例,如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機(jī)、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等,通過給出它們對應(yīng)的詳細(xì)案例說明和代碼描述,讓讀者深度理解各類強(qiáng)化學(xué)習(xí)算法的精髓。《強(qiáng)化學(xué)習(xí)》案例生動形象,描述深入淺出,代碼簡潔易懂,注釋詳細(xì)。 《強(qiáng)化學(xué)習(xí)》可作為高等院校計(jì)算機(jī)、自動化及相關(guān)專業(yè)的本科生或研究生教材,也可供對強(qiáng)化學(xué)習(xí)感興趣的研究人員和工程技術(shù)人員閱讀參考。
人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 目錄
目錄
第1章強(qiáng)化學(xué)習(xí)概述 1.1強(qiáng)化學(xué)習(xí)的背景 1.2強(qiáng)化學(xué)習(xí)初探 1.2.1智能體和環(huán)境 1.2.2智能體主要組成 1.2.3強(qiáng)化學(xué)習(xí)、監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí) 1.2.4強(qiáng)化學(xué)習(xí)分類 1.2.5研究方法 1.2.6發(fā)展歷程 1.3強(qiáng)化學(xué)習(xí)的重點(diǎn)概念 1.3.1學(xué)習(xí)與規(guī)劃 1.3.2探索與利用 1.3.3預(yù)測與控制 1.4小結(jié) 1.5習(xí)題 第2章馬爾可夫決策過程 2.1馬爾可夫基本概念 2.1.1馬爾可夫性 2.1.2馬爾可夫過程 2.1.3馬爾可夫決策過程 2.2貝爾曼方程 2.2.1貝爾曼期望方程 2.2.2貝爾曼*優(yōu)方程
2.3*優(yōu)策略 2.3.1*優(yōu)策略定義 2.3.2求解*優(yōu)策略 2.4小結(jié) 2.5習(xí)題 第3章動態(tài)規(guī)劃 3.1動態(tài)規(guī)劃簡介 3.2策略評估 3.3策略改進(jìn) 3.4策略迭代 3.5值迭代 3.6實(shí)例講解 3.6.1“找寶藏”環(huán)境描述 3.6.2策略迭代 3.6.3值迭代 3.6.4實(shí)例小結(jié) 3.7小結(jié) 3.8習(xí)題 第4章蒙特卡羅 4.1蒙特卡羅簡介 4.2蒙特卡羅評估 4.3蒙特卡羅控制 4.4在線策略蒙特卡羅 4.5離線策略蒙特卡羅 4.5.1重要性采樣離線策略蒙特卡羅 4.5.2加權(quán)重要性采樣離線策略蒙特卡羅 4.6實(shí)例講解 4.6.1“十點(diǎn)半”游戲 4.6.2在線策略蒙特卡羅 4.6.3離線策略蒙特卡羅 4.6.4實(shí)例小結(jié) 4.7小結(jié) 4.8習(xí)題 第5章時序差分 5.1時序差分簡介 5.2三種方法的性質(zhì)對比 5.3Sarsa: 在線策略TD 5.4Qlearning: 離線策略TD方法 5.5實(shí)例講解 5.5.1迷宮尋寶 5.5.2Sarsa方法 5.5.3Qlearning方法 5.5.4實(shí)例小結(jié) 5.6小結(jié) 5.7習(xí)題 第6章資格跡 6.1資格跡簡介 6.2多步TD評估 6.3前向算法 6.4后向算法 6.5前向算法與后向算法的統(tǒng)一 6.6Sarsa(λ)方法 6.6.1前向Sarsa(λ)方法 6.6.2后向Sarsa(λ)方法 6.7Q (λ)方法 6.7.1前向Watkinss Q(λ)方法 6.7.2后向Watkinss Q(λ)方法 *6.7.3Pengs Q(λ)方法 6.8實(shí)例講解 6.8.1風(fēng)格子世界 6.8.2后向Sarsa(λ) 6.8.3后向Q(λ) 6.8.4實(shí)例小結(jié) 6.9小結(jié) 6.10習(xí)題 第7章值函數(shù)逼近 7.1值函數(shù)逼近簡介 7.2線性逼近 7.2.1增量法 7.2.2批量法 7.3非線性逼近 7.3.1DQN方法 7.3.2Double DQN方法 7.3.3Dueling DQN方法 7.4實(shí)例講解 7.4.1游戲簡介 7.4.2環(huán)境描述 7.4.3算法詳情 7.4.4核心代碼 7.5小結(jié) 7.6習(xí)題 第8章隨機(jī)策略梯度 8.1隨機(jī)策略梯度簡介 8.1.1策略梯度優(yōu)缺點(diǎn) 8.1.2策略梯度方法分類 8.2隨機(jī)策略梯度定理及證明 8.2.1隨機(jī)策略梯度定理 *8.2.2隨機(jī)策略梯度定理證明 8.3蒙特卡羅策略梯度 8.3.1REINFORCE方法 8.3.2帶基線的REINFORCE方法 8.4TRPO方法 8.5實(shí)例講解 8.5.1游戲簡介及環(huán)境描述 8.5.2算法詳情 8.5.3核心代碼 8.6小結(jié) 8.7習(xí)題 第9章ActorCritic及變種 9.1AC方法 9.1.1在線策略AC方法 9.1.2離線策略AC方法 9.1.3兼容性近似函數(shù)定理 9.2A2C方法 9.3A3C方法 9.3.1簡介 9.3.2異步Qlearning方法 9.3.3異步Sarsa方法 9.3.4異步n步Qlearning方法 9.3.5A3C方法詳述 9.4實(shí)例講解 9.4.1AC實(shí)例 9.4.2A3C實(shí)例 9.5小結(jié) 9.6習(xí)題 第10章確定性策略梯度 10.1確定性策略梯度及證明 10.1.1確定性策略梯度定理 *10.1.2確定性策略梯度定理證明 10.2DPG方法 10.2.1在線策略確定性AC方法 10.2.2離線策略確定性AC 10.2.3兼容性近似函數(shù)定理 10.3DDPG方法 10.3.1DDPG簡介 10.3.2算法要點(diǎn) 10.3.3算法流程 10.4實(shí)例講解 10.4.1游戲簡介及環(huán)境描述 10.4.2算法詳情 10.4.3核心代碼 10.5小結(jié) 10.6習(xí)題 第11章學(xué)習(xí)與規(guī)劃 11.1有模型方法和無模型方法 11.2模型擬合 11.2.1模型數(shù)學(xué)表示 11.2.2監(jiān)督式學(xué)習(xí)構(gòu)建模型 11.2.3利用模型進(jìn)行規(guī)劃
11.3Dyna框架及相關(guān)算法 11.3.1DynaQ 11.3.2DynaQ 11.3.3優(yōu)先級掃描的DynaQ 11.4Dyna2 11.5實(shí)例講解 11.5.1游戲簡介及環(huán)境描述 11.5.2算法詳情 11.5.3核心代碼 11.6小結(jié) 11.7習(xí)題 第12章探索與利用 12.1探索利用困境 12.2多臂賭博機(jī)問題 12.3樸素探索 12.4樂觀初始值估計(jì) 12.5置信區(qū)間上界 12.6概率匹配 12.7信息價值 12.8實(shí)例講解 12.8.1游戲簡介及環(huán)境描述 12.8.2算法詳情 12.8.3核心代碼 12.9小結(jié) 12.10習(xí)題 第13章博弈強(qiáng)化學(xué)習(xí) 13.1博弈及博弈樹 13.2極大極小搜索 13.3AlphaBeta搜索 13.4蒙特卡羅樹搜索 13.5AlphaGo 13.5.1監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)pσ 13.5.2快速走子策略網(wǎng)絡(luò)pπ 13.5.3強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)pρ 13.5.4價值網(wǎng)絡(luò)vθ 13.5.5蒙特卡羅樹搜索 13.5.6總結(jié) 13.6AlphaGo Zero 13.6.1下棋原理 13.6.2網(wǎng)絡(luò)結(jié)構(gòu) 13.6.3蒙特卡羅樹搜索 13.6.4總結(jié) 13.7AlphaZero 13.8實(shí)例講解 13.8.1游戲簡介及環(huán)境描述 13.8.2算法流程描述 13.8.3算法細(xì)節(jié) 13.8.4核心代碼 13.9小結(jié) 13.10習(xí)題 參考文獻(xiàn)
人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 作者簡介
鄒偉 博士,睿客邦創(chuàng)始人,研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算幾何,致力于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在實(shí)際中的應(yīng)用;主持研發(fā)50多個人工智能領(lǐng)域工業(yè)級項(xiàng)目,并受邀在中國移動、花旗銀行、中信集團(tuán)、中航信、烽火科技、京東方、完美世界等公司進(jìn)行了上百場講座和內(nèi)部培訓(xùn)。創(chuàng)立的睿客邦與國內(nèi)十多所高校建立了AI聯(lián)合實(shí)驗(yàn)室或?qū)嵱?xùn)基地;兼任天津大學(xué)創(chuàng)業(yè)導(dǎo)師、山東交通學(xué)院客座教授等。曾在多個在線平臺講授“機(jī)器學(xué)習(xí)”“深度學(xué)習(xí)”等課程,廣受網(wǎng)友好評,累計(jì)學(xué)習(xí)人數(shù)超過百萬。
鬲玲 碩士,北京神舟航天軟件公司知識工程團(tuán)隊(duì)負(fù)責(zé)人,資深研發(fā)工程師。研究方向?yàn)橹R工程、語義檢索、強(qiáng)化學(xué)習(xí)、自然語言處理。作為牽頭單位技術(shù)負(fù)責(zé)人參與并完成國家科技支撐計(jì)劃項(xiàng)目1項(xiàng),863計(jì)劃項(xiàng)目1項(xiàng)。有多年知識管理系統(tǒng)以及自然語言處理項(xiàng)目研發(fā)經(jīng)驗(yàn),目前正致力于垂直領(lǐng)域知識圖譜的落地以及強(qiáng)化學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用。
劉昱杓 現(xiàn)供職于央視市場研究,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)研發(fā)工程師,研究方向?yàn)橛?jì)算機(jī)視覺。有多年深度學(xué)習(xí)視覺方向開發(fā)經(jīng)驗(yàn),參與了多個圖像識別、目標(biāo)檢測、目標(biāo)追蹤等領(lǐng)域的落地項(xiàng)目。目前專注于深度強(qiáng)化學(xué)習(xí)方向的研究。
- >
羅曼·羅蘭讀書隨筆-精裝
- >
苦雨齋序跋文-周作人自編集
- >
人文閱讀與收藏·良友文學(xué)叢書:一天的工作
- >
我從未如此眷戀人間
- >
煙與鏡
- >
經(jīng)典常談
- >
月亮虎
- >
山海經(jīng)