中圖網(wǎng)

>

人工智能

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí)

包郵人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí)

作者：鄒偉.鬲玲.劉昱杓

出版社：清華大學(xué)出版社出版時間：2020-06-01

開本：其他頁數(shù)： 380

本類榜單：計(jì)算機(jī)/網(wǎng)絡(luò)銷量榜

中圖價:¥68.3(6.9折) 定價 ~~¥99.0~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計(jì)算機(jī)等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用

全國計(jì)算機(jī)等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用

¥14.4¥45
>
決戰(zhàn)行測5000題(言語理解與表達(dá))

決戰(zhàn)行測5000題(言語理解與表達(dá))

¥44.1¥88
>
軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路

軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續(xù)交付

JAVA持續(xù)交付

¥58.1¥119
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)

EXCEL最強(qiáng)教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學(xué)習(xí)

深度學(xué)習(xí)

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥68.3 加入購物車

版權(quán)信息
本書特色
內(nèi)容簡介
目錄
作者簡介

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 版權(quán)信息

ISBN：9787302538295
條形碼：9787302538295 ; 978-7-302-53829-5
裝幀：平裝-膠訂
冊數(shù)：暫無
重量：暫無
所屬分類：
計(jì)算機(jī)/網(wǎng)絡(luò)
>
人工智能

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 本書特色

《強(qiáng)化學(xué)習(xí)》一書內(nèi)容系統(tǒng)全面，覆蓋面廣，既有理論闡述、公式推導(dǎo)，又有豐富的典型案例，理論聯(lián)系實(shí)際。書中全面系統(tǒng)地描述了強(qiáng)化學(xué)習(xí)的起源、背景和分類，各類強(qiáng)化學(xué)習(xí)算法的原理、實(shí)現(xiàn)方式以及各算法間的關(guān)系，為讀者構(gòu)建了一個完整的強(qiáng)化學(xué)習(xí)知識體系；同時包含豐富的經(jīng)典案例，如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機(jī)、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等，通過給出它們對應(yīng)的詳細(xì)案例說明和代碼描述，讓讀者深度理解各類強(qiáng)化學(xué)習(xí)算法的精髓。《強(qiáng)化學(xué)習(xí)》案例生動形象，描述深入淺出，代碼簡潔易懂，注釋詳細(xì)。《強(qiáng)化學(xué)習(xí)》可作為高等院校計(jì)算機(jī)、自動化及相關(guān)專業(yè)的本科生或研究生教材，也可供對強(qiáng)化學(xué)習(xí)感興趣的研究人員和工程技術(shù)人員閱讀參考。

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 內(nèi)容簡介

《強(qiáng)化學(xué)習(xí)》一書內(nèi)容系統(tǒng)全面，覆蓋面廣，既有理論闡述、公式推導(dǎo)，又有豐富的典型案例，理論聯(lián)系實(shí)際。書中全面系統(tǒng)地描述了強(qiáng)化學(xué)習(xí)的起源、背景和分類，各類強(qiáng)化學(xué)習(xí)算法的原理、實(shí)現(xiàn)方式以及各算法間的關(guān)系，為讀者構(gòu)建了一個完整的強(qiáng)化學(xué)習(xí)知識體系；同時包含豐富的經(jīng)典案例，如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機(jī)、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等，通過給出它們對應(yīng)的詳細(xì)案例說明和代碼描述，讓讀者深度理解各類強(qiáng)化學(xué)習(xí)算法的精髓。《強(qiáng)化學(xué)習(xí)》案例生動形象，描述深入淺出，代碼簡潔易懂，注釋詳細(xì)。《強(qiáng)化學(xué)習(xí)》可作為高等院校計(jì)算機(jī)、自動化及相關(guān)專業(yè)的本科生或研究生教材，也可供對強(qiáng)化學(xué)習(xí)感興趣的研究人員和工程技術(shù)人員閱讀參考。

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 目錄

目錄
第1章強(qiáng)化學(xué)習(xí)概述 1.1強(qiáng)化學(xué)習(xí)的背景 1.2強(qiáng)化學(xué)習(xí)初探 1.2.1智能體和環(huán)境 1.2.2智能體主要組成 1.2.3強(qiáng)化學(xué)習(xí)、監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí) 1.2.4強(qiáng)化學(xué)習(xí)分類 1.2.5研究方法 1.2.6發(fā)展歷程 1.3強(qiáng)化學(xué)習(xí)的重點(diǎn)概念 1.3.1學(xué)習(xí)與規(guī)劃 1.3.2探索與利用 1.3.3預(yù)測與控制 1.4小結(jié) 1.5習(xí)題第2章馬爾可夫決策過程 2.1馬爾可夫基本概念 2.1.1馬爾可夫性 2.1.2馬爾可夫過程 2.1.3馬爾可夫決策過程 2.2貝爾曼方程 2.2.1貝爾曼期望方程 2.2.2貝爾曼*優(yōu)方程
2.3*優(yōu)策略 2.3.1*優(yōu)策略定義 2.3.2求解*優(yōu)策略 2.4小結(jié) 2.5習(xí)題第3章動態(tài)規(guī)劃 3.1動態(tài)規(guī)劃簡介 3.2策略評估 3.3策略改進(jìn) 3.4策略迭代 3.5值迭代 3.6實(shí)例講解 3.6.1“找寶藏”環(huán)境描述 3.6.2策略迭代 3.6.3值迭代 3.6.4實(shí)例小結(jié) 3.7小結(jié) 3.8習(xí)題第4章蒙特卡羅 4.1蒙特卡羅簡介 4.2蒙特卡羅評估 4.3蒙特卡羅控制 4.4在線策略蒙特卡羅 4.5離線策略蒙特卡羅 4.5.1重要性采樣離線策略蒙特卡羅 4.5.2加權(quán)重要性采樣離線策略蒙特卡羅 4.6實(shí)例講解 4.6.1“十點(diǎn)半”游戲 4.6.2在線策略蒙特卡羅 4.6.3離線策略蒙特卡羅 4.6.4實(shí)例小結(jié) 4.7小結(jié) 4.8習(xí)題第5章時序差分 5.1時序差分簡介 5.2三種方法的性質(zhì)對比 5.3Sarsa：在線策略TD 5.4Qlearning：離線策略TD方法 5.5實(shí)例講解 5.5.1迷宮尋寶 5.5.2Sarsa方法 5.5.3Qlearning方法 5.5.4實(shí)例小結(jié) 5.6小結(jié) 5.7習(xí)題第6章資格跡 6.1資格跡簡介 6.2多步TD評估 6.3前向算法 6.4后向算法 6.5前向算法與后向算法的統(tǒng)一 6.6Sarsa(λ)方法 6.6.1前向Sarsa(λ)方法 6.6.2后向Sarsa(λ)方法 6.7Q (λ)方法 6.7.1前向Watkinss Q(λ)方法 6.7.2后向Watkinss Q(λ)方法 *6.7.3Pengs Q(λ)方法 6.8實(shí)例講解 6.8.1風(fēng)格子世界 6.8.2后向Sarsa(λ) 6.8.3后向Q(λ) 6.8.4實(shí)例小結(jié) 6.9小結(jié) 6.10習(xí)題第7章值函數(shù)逼近 7.1值函數(shù)逼近簡介 7.2線性逼近 7.2.1增量法 7.2.2批量法 7.3非線性逼近 7.3.1DQN方法 7.3.2Double DQN方法 7.3.3Dueling DQN方法 7.4實(shí)例講解 7.4.1游戲簡介 7.4.2環(huán)境描述 7.4.3算法詳情 7.4.4核心代碼 7.5小結(jié) 7.6習(xí)題第8章隨機(jī)策略梯度 8.1隨機(jī)策略梯度簡介 8.1.1策略梯度優(yōu)缺點(diǎn) 8.1.2策略梯度方法分類 8.2隨機(jī)策略梯度定理及證明 8.2.1隨機(jī)策略梯度定理 *8.2.2隨機(jī)策略梯度定理證明 8.3蒙特卡羅策略梯度 8.3.1REINFORCE方法 8.3.2帶基線的REINFORCE方法 8.4TRPO方法 8.5實(shí)例講解 8.5.1游戲簡介及環(huán)境描述 8.5.2算法詳情 8.5.3核心代碼 8.6小結(jié) 8.7習(xí)題第9章ActorCritic及變種 9.1AC方法 9.1.1在線策略AC方法 9.1.2離線策略AC方法 9.1.3兼容性近似函數(shù)定理 9.2A2C方法 9.3A3C方法 9.3.1簡介 9.3.2異步Qlearning方法 9.3.3異步Sarsa方法 9.3.4異步n步Qlearning方法 9.3.5A3C方法詳述 9.4實(shí)例講解 9.4.1AC實(shí)例 9.4.2A3C實(shí)例 9.5小結(jié) 9.6習(xí)題第10章確定性策略梯度 10.1確定性策略梯度及證明 10.1.1確定性策略梯度定理 *10.1.2確定性策略梯度定理證明 10.2DPG方法 10.2.1在線策略確定性AC方法 10.2.2離線策略確定性AC 10.2.3兼容性近似函數(shù)定理 10.3DDPG方法 10.3.1DDPG簡介 10.3.2算法要點(diǎn) 10.3.3算法流程 10.4實(shí)例講解 10.4.1游戲簡介及環(huán)境描述 10.4.2算法詳情 10.4.3核心代碼 10.5小結(jié) 10.6習(xí)題第11章學(xué)習(xí)與規(guī)劃 11.1有模型方法和無模型方法 11.2模型擬合 11.2.1模型數(shù)學(xué)表示 11.2.2監(jiān)督式學(xué)習(xí)構(gòu)建模型 11.2.3利用模型進(jìn)行規(guī)劃
11.3Dyna框架及相關(guān)算法 11.3.1DynaQ 11.3.2DynaQ 11.3.3優(yōu)先級掃描的DynaQ 11.4Dyna2 11.5實(shí)例講解 11.5.1游戲簡介及環(huán)境描述 11.5.2算法詳情 11.5.3核心代碼 11.6小結(jié) 11.7習(xí)題第12章探索與利用 12.1探索利用困境 12.2多臂賭博機(jī)問題 12.3樸素探索 12.4樂觀初始值估計(jì) 12.5置信區(qū)間上界 12.6概率匹配 12.7信息價值 12.8實(shí)例講解 12.8.1游戲簡介及環(huán)境描述 12.8.2算法詳情 12.8.3核心代碼 12.9小結(jié) 12.10習(xí)題第13章博弈強(qiáng)化學(xué)習(xí) 13.1博弈及博弈樹 13.2極大極小搜索 13.3AlphaBeta搜索 13.4蒙特卡羅樹搜索 13.5AlphaGo 13.5.1監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)pσ 13.5.2快速走子策略網(wǎng)絡(luò)pπ 13.5.3強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)pρ 13.5.4價值網(wǎng)絡(luò)vθ 13.5.5蒙特卡羅樹搜索 13.5.6總結(jié) 13.6AlphaGo Zero 13.6.1下棋原理 13.6.2網(wǎng)絡(luò)結(jié)構(gòu) 13.6.3蒙特卡羅樹搜索 13.6.4總結(jié) 13.7AlphaZero 13.8實(shí)例講解 13.8.1游戲簡介及環(huán)境描述 13.8.2算法流程描述 13.8.3算法細(xì)節(jié) 13.8.4核心代碼 13.9小結(jié) 13.10習(xí)題參考文獻(xiàn)

展開全部

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 作者簡介

鄒偉博士，睿客邦創(chuàng)始人，研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算幾何，致力于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在實(shí)際中的應(yīng)用；主持研發(fā)50多個人工智能領(lǐng)域工業(yè)級項(xiàng)目，并受邀在中國移動、花旗銀行、中信集團(tuán)、中航信、烽火科技、京東方、完美世界等公司進(jìn)行了上百場講座和內(nèi)部培訓(xùn)。創(chuàng)立的睿客邦與國內(nèi)十多所高校建立了AI聯(lián)合實(shí)驗(yàn)室或?qū)嵱?xùn)基地；兼任天津大學(xué)創(chuàng)業(yè)導(dǎo)師、山東交通學(xué)院客座教授等。曾在多個在線平臺講授“機(jī)器學(xué)習(xí)”“深度學(xué)習(xí)”等課程，廣受網(wǎng)友好評，累計(jì)學(xué)習(xí)人數(shù)超過百萬。
鬲玲碩士，北京神舟航天軟件公司知識工程團(tuán)隊(duì)負(fù)責(zé)人，資深研發(fā)工程師。研究方向?yàn)橹R工程、語義檢索、強(qiáng)化學(xué)習(xí)、自然語言處理。作為牽頭單位技術(shù)負(fù)責(zé)人參與并完成國家科技支撐計(jì)劃項(xiàng)目1項(xiàng)，863計(jì)劃項(xiàng)目1項(xiàng)。有多年知識管理系統(tǒng)以及自然語言處理項(xiàng)目研發(fā)經(jīng)驗(yàn)，目前正致力于垂直領(lǐng)域知識圖譜的落地以及強(qiáng)化學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用。
劉昱杓現(xiàn)供職于央視市場研究，深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)研發(fā)工程師，研究方向?yàn)橛?jì)算機(jī)視覺。有多年深度學(xué)習(xí)視覺方向開發(fā)經(jīng)驗(yàn)，參與了多個圖像識別、目標(biāo)檢測、目標(biāo)追蹤等領(lǐng)域的落地項(xiàng)目。目前專注于深度強(qiáng)化學(xué)習(xí)方向的研究。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
羅曼·羅蘭讀書隨筆-精裝
羅曼·羅蘭讀書隨筆-精裝
[法]羅曼·羅蘭著,鄭克魯譯
¥32.9~~¥58.0~~
>
苦雨齋序跋文-周作人自編集
苦雨齋序跋文-周作人自編集
周作人著，止庵校訂
¥6.1~~¥16.0~~
>
人文閱讀與收藏·良友文學(xué)叢書:一天的工作
人文閱讀與收藏·良友文學(xué)叢書:一天的工作
魯迅
¥19.7~~¥45.8~~
>
我從未如此眷戀人間
我從未如此眷戀人間
史鐵生/汪曾祺
¥16.9~~¥49.8~~
>
煙與鏡
煙與鏡
[英] 尼爾·蓋曼著，王爽譯
¥15.4~~¥48.0~~
>
經(jīng)典常談
經(jīng)典常談
朱自清
¥13.7~~¥39.8~~
>
月亮虎
月亮虎
[英] 佩內(nèi)洛普·萊夫利著，郭國良譯
¥16.4~~¥48.0~~
>
山海經(jīng)
山海經(jīng)
林非
¥18.7~~¥68.0~~

本類暢銷

這就是ChatGPT

(美)斯蒂芬·沃爾弗拉姆

¥41.9~~¥59.8~~
機(jī)器學(xué)習(xí)

周志華

¥47.4~~¥108~~
深度學(xué)習(xí)導(dǎo)論

(美)尤金·查爾尼克(Eugene Ch

¥24.5~~¥49~~
正版圖書攜程人工智能實(shí)踐

攜程技術(shù)團(tuán)隊(duì)

¥51.1~~¥109~~
TensorFlow實(shí)戰(zhàn)

黃文堅(jiān)

¥26.3~~¥79~~
做好課題申報:AI輔助申請書寫作

趙鑫宋義平郭澤德

¥48.9~~¥69.8~~

中图网(原中国图书网)：网上书店，尾货特色书店，30万种特价书低至2折！

包郵人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí)

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 版權(quán)信息

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 本書特色

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 內(nèi)容簡介

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 目錄

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 作者簡介

羅曼·羅蘭讀書隨筆-精裝

苦雨齋序跋文-周作人自編集

人文閱讀與收藏·良友文學(xué)叢書:一天的工作

我從未如此眷戀人間

煙與鏡

經(jīng)典常談

月亮虎

山海經(jīng)

這就是ChatGPT

機(jī)器學(xué)習(xí)

深度學(xué)習(xí)導(dǎo)論

正版圖書攜程人工智能實(shí)踐

TensorFlow實(shí)戰(zhàn)

做好課題申報:AI輔助申請書寫作

每日論語

陶潛和櫻子

趙元任早年自傳

熊千佳昆蟲記

俄羅斯書簡

連科六短篇-短篇經(jīng)典文庫

包郵 人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí)

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 版權(quán)信息

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 本書特色

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 內(nèi)容簡介

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 目錄

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 作者簡介

包郵人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí)