包郵 控制系統(tǒng)與強(qiáng)化學(xué)習(xí)
-
>
貨幣大歷史:金融霸權(quán)與大國(guó)興衰六百年
-
>
(精)方力鈞作品圖錄
-
>
《藏書報(bào)》2021合訂本
-
>
(精)中國(guó)當(dāng)代書畫名家作品集·范碩:書法卷+繪畫卷(全2卷)
-
>
(噴繪樓閣版)女主臨朝:武則天的權(quán)力之路
-
>
書里掉出來一只狼+狼的故事-全2冊(cè)
-
>
奇思妙想創(chuàng)意玩具書(精裝4冊(cè))
控制系統(tǒng)與強(qiáng)化學(xué)習(xí) 版權(quán)信息
- ISBN:9787111775768
- 條形碼:9787111775768 ; 978-7-111-77576-8
- 裝幀:平裝-膠訂
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類:
控制系統(tǒng)與強(qiáng)化學(xué)習(xí) 內(nèi)容簡(jiǎn)介
一個(gè)高中生可以創(chuàng)建深度的Q-learning代碼來控制她的機(jī)器人,卻不了解 "深度 "或 "Q "的含義,也不知道為什么代碼有時(shí)會(huì)失敗。本書旨在以具有微積分和矩陣代數(shù)背景的學(xué)生可以理解的方式,解釋強(qiáng)化學(xué)習(xí)和優(yōu)化控制背后的科學(xué)。本書的一個(gè)獨(dú)特重點(diǎn)是算法設(shè)計(jì),以獲得學(xué)習(xí)算法的快收斂速度,以及對(duì)強(qiáng)化學(xué)習(xí)有時(shí)失敗的原因的洞察。一開始就避開了高級(jí)隨機(jī)過程理論,用更直觀的確定性探測(cè)來代替學(xué)習(xí)的隨機(jī)探索。一旦理解了這些思想,掌握植根于隨機(jī)控制的技術(shù)就不難了。這些主題在本書的第二部分有所涉及,從馬爾科夫鏈理論開始,以對(duì)強(qiáng)化學(xué)習(xí)的行為者批評(píng)方法的全新審視結(jié)束。
- >
自卑與超越
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語(yǔ))
- >
回憶愛瑪儂
- >
推拿
- >
羅曼·羅蘭讀書隨筆-精裝
- >
龍榆生:詞曲概論/大家小書
- >
姑媽的寶刀
- >
上帝之肋:男人的真實(shí)旅程