-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
深度強化學習原理與實踐 版權(quán)信息
- ISBN:9787302660705
- 條形碼:9787302660705 ; 978-7-302-66070-5
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
深度強化學習原理與實踐 本書特色
?精選深度學習、強化學習、深度強化學習中的一些常用方法。
?從原理的角度,力求講解清楚這些方法,以幫助讀者迅速掌握并深入理解這些方法。
?從實踐的角度,通過41個循序漸進的原創(chuàng)實驗,引領(lǐng)讀者獨立編程實現(xiàn)這些方法,為讀者精通深度強化學習并應用深度強化學習方法解決實際問題奠定堅實基礎(chǔ)。
?每個實驗配有提示、解析及帶中文注釋的參考程序3種不同層面的指導,供讀者根據(jù)情況選擇使用。
?提供完整的實驗參考程序,可通過掃描書中二維碼下載,便于讀者迅速應用書中方法解決實際問題。
深度強化學習原理與實踐 內(nèi)容簡介
本書從原理的角度,力求講解清楚深度學習、強化學習、深度強化學習中的一些精選方法,并從實踐的角度,通過一系列循序漸進的原創(chuàng)實驗,引領(lǐng)讀者獨立編程實現(xiàn)這些方法,以期為讀者精通深度強化學習并應用深度強化學習方法解決實際問題奠定堅實基礎(chǔ)。 本書不僅適合計算機科學與技術(shù)、人工智能、物聯(lián)網(wǎng)工程、數(shù)據(jù)科學與大數(shù)據(jù)、軟件工程、通信工程、電子信息、機器人工程、自動化、智能制造等相關(guān)專業(yè)高年級本科生及研究生教學與自學使用,也適合機器學習等領(lǐng)域的從業(yè)者、科研人員及愛好者自學與參考使用。
深度強化學習原理與實踐 目錄
1.1深度強化學習及其簡史1
1.2深度強化學習的應用領(lǐng)域3
1.3深度強化學習方法的實現(xiàn)4
1.3.1NumPy庫和Matplotlib庫4
1.3.2PyTorch框架7
1.4本章實驗解析11
1.5本書各章聯(lián)系14
1.6本章小結(jié)14
1.7思考與練習15 第2章從神經(jīng)網(wǎng)絡到深度學習16
2.1神經(jīng)網(wǎng)絡回顧16
2.1.1神經(jīng)網(wǎng)絡的推測過程17
2.1.2神經(jīng)網(wǎng)絡的訓練過程18
2.1.3神經(jīng)網(wǎng)絡實踐23
2.2從神經(jīng)網(wǎng)絡到深度神經(jīng)網(wǎng)絡26
2.3深度神經(jīng)網(wǎng)絡29
2.3.1深度神經(jīng)網(wǎng)絡的推測過程29
2.3.2深度神經(jīng)網(wǎng)絡的訓練過程30
2.3.3反向模式自動微分34
2.3.4深度神經(jīng)網(wǎng)絡實踐及分析35
2.4卷積神經(jīng)網(wǎng)絡37
2.4.1卷積層和合并層38
2.4.2卷積神經(jīng)網(wǎng)絡實踐41
2.5循環(huán)神經(jīng)網(wǎng)絡42
2.6本章實驗解析45
2.7本章小結(jié)51
2.8思考與練習52第3章強化學習基礎(chǔ)53
3.1強化學習概述53
3.1.1多老虎機問題53
3.1.2利用與探索57
3.1.3強化學習的要素58
3.2有限馬爾可夫決策過程59
3.2.1狀態(tài)與馬爾可夫性59
3.2.2什么是有限馬爾可夫決策過程60
3.2.3收益與策略63
3.3求解MDP65
3.3.1貝爾曼方程與貝爾曼*優(yōu)方程65
3.3.2價值迭代69
3.3.3策略評估74
3.3.4策略迭代77
3.3.5廣義策略迭代82
3.4本章實驗解析85
3.5本章小結(jié)90
3.6思考與練習90 深度強化學習原理與實踐目錄第4章行動價值方法92
4.1行動價值與*優(yōu)行動價值92
4.1.1行動價值92
4.1.2*優(yōu)行動價值96
4.2蒙特卡洛方法99
4.3Q學習107
4.4DynaQ114
4.5使用監(jiān)督學習方法推測*優(yōu)行動價值的極限值118
4.6使用深度神經(jīng)網(wǎng)絡推測*優(yōu)行動價值的極限值124
4.7本章實驗解析129
4.8本章小結(jié)136
4.9思考與練習136 第5章策略梯度方法138
5.1策略梯度基本方法138
5.2蒙特卡洛策略梯度方法142
5.2.1各個行動的蒙特卡洛策略梯度方法142
5.2.2單個行動的蒙特卡洛策略梯度方法147
5.2.3平移的蒙特卡洛策略梯度方法149
5.3行動評價方法154
5.4不完全觀測160
5.5本章實驗解析163
5.6本章小結(jié)168
5.7思考與練習169 附錄A實驗參考程序及注釋171 參考文獻231
深度強化學習原理與實踐 作者簡介
陳喆,美國田納西理工大學博士。2003年碩士畢業(yè)后在UT斯達康、意法半導體等企業(yè)工作多年。2011年博士畢業(yè)后在東北大學物聯(lián)網(wǎng)工程專業(yè)任副教授、碩士研究生導師。曾任東北大學物聯(lián)網(wǎng)工程研究所副所長、無錫(濱湖) 傳感信息中心副主任(掛職),曾在美國北卡羅來納州立大學訪學。主要研究方向包括物聯(lián)網(wǎng)無線通信、機器學習、認知無線電等。講授機器學習、物聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)通信技術(shù)、無線傳感網(wǎng)絡概論、無線傳感網(wǎng)絡實驗、創(chuàng)業(yè)基礎(chǔ)、創(chuàng)新創(chuàng)業(yè)活動、High-Performance Embedded System Design等課程。編著《物聯(lián)網(wǎng)無線通信原理與實踐》。多次被學生評選為“我 喜愛的老師”,所負責的課程多次被學生評選為“我 喜愛的專業(yè)課程”。
- >
隨園食單
- >
名家?guī)阕x魯迅:故事新編
- >
月亮虎
- >
唐代進士錄
- >
羅曼·羅蘭讀書隨筆-精裝
- >
詩經(jīng)-先民的歌唱
- >
二體千字文
- >
名家?guī)阕x魯迅:朝花夕拾