-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
深入淺出強化學習:原理入門 版權信息
- ISBN:9787121329180
- 條形碼:9787121329180 ; 978-7-121-32918-0
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
深入淺出強化學習:原理入門 本書特色
《深入淺出強化學習:原理入門》用通俗易懂的語言深入淺出地介紹了強化學習的基本原理,覆蓋了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法。開篇從*基本的馬爾科夫決策過程入手,將強化學習問題納入到嚴謹的數學框架中,接著闡述了解決此類問題*基本的方法——動態規劃方法,并從中總結出解決強化學習問題的基本思路:交互迭代策略評估和策略改善。基于這個思路,分別介紹了基于值函數的強化學習方法和基于直接策略搜索的強化學習方法。*后介紹了逆向強化學習方法和近年具有代表性、比較前沿的強化學習方法。 除了系統地介紹基本理論,書中還介紹了相應的數學基礎和編程實例。因此,《深入淺出強化學習:原理入門》既適合零基礎的人員入門學習、也適合相關科研人員作為研究參考。
深入淺出強化學習:原理入門 內容簡介
從零起步掌握強化學習技術精髓,稱霸人工智能領域! 《深入淺出強化學習:原理入門》針對初學者的需求,直接分析原理,并輔以編程實踐。從解決問題的思路,層層剖析,普及了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法,直接將讀者帶入強化學習的殿堂。讀完本書,讀者能在熟練掌握原理的基礎上,直接上手編程實踐。 本書的敘述方式簡潔、直接、清晰,值得精讀!
深入淺出強化學習:原理入門 目錄
深入淺出強化學習:原理入門 相關資料
推薦序一 強化學習是機器學習的一個重要分支,它試圖解決決策優化的問題。所謂決策優化,是指面對特定狀態(State,S),采取什么行動方案(Action,A),才能使收益*(Reward,R)。很多問題都與決策優化有關,比如下棋、投資、課程安排、駕車,動作模仿等。 AlphaGo的核心算法,就是強化學習。AlphaGo不僅穩操勝券地戰勝了當今世界所有人類高手,而且甚至不需要學習人類棋手的棋譜,完全靠自己摸索,就在短短幾天內,發現并超越了一千多年來人類積累的全部圍棋戰略戰術。 *簡單的強化學習的數學模型,是馬爾科夫決策過程(Markov Decision Process,MDP)。之所以說MDP是一個簡單的模型,是因為它對問題做了很多限制。 1.面對的狀態st,數量是有限的。 2.采取的行動方案at,數量也是有限的。 3.對應于特定狀態st,當下的收益rt是明確的。 4.在某一個時刻t,采取了行動方案at,狀態從當前的st轉換成下一個狀態st 1。下一個狀態有多種可能,記為 , i = 1... n。 換句話說,面對局面st,采取行動at,下一個狀態是 ,不是確定的,而是概率的,狀態轉換概率,記為P( | st, at )。但是狀態轉換只依賴于當前狀態st,而與先前的狀態st-1, st-2 ...無關。 解決馬爾科夫決策過程問題的常用的算法,是動態規劃(Dynamic Programming)。 對馬爾科夫決策過程的各項限制,不斷放松,研究相應的算法,是強化學習的目標。例如對狀態st放松限制: 1.假如狀態st的數量,雖然有限,但是數量巨大,如何降低動態規劃算法的計算成本; 2.假如狀態st的數量是無限的,現有動態規劃算法失效,如何改進算法; 3.假如狀態st的數量不僅是無限的,而且取值不是離散的,而是連續的,如何改進算法; 4.假如狀態st不能被完全觀察到,只能被部分觀察到,剩余部分被遮擋或缺失,如何改進算法; 5.假如狀態st完全不能被觀察到,只能通過其他現象猜測潛在的狀態,如何改進算法。 放松限制,就是提升問題難度。在很多情況下,強化學習的目標,不是尋找*的*解,而是尋找相對滿意的次優解。 強化學習的演進,有兩個軸線:一個是不斷挑戰更難的問題,不斷從次優解向*解逼近;另一個是在不嚴重影響算法精度的前提下,不斷降低算法的計算成本。 此書的敘述線索非常清晰,從*簡單的解決馬爾科夫決策過程的動態規劃算法,一路講解到*前沿的深度強化學習算法(Deep Q Network,DQN),單刀直入,全無枝枝蔓蔓之感。不僅解釋數學原理,而且注重編程實踐。同時,行文深入淺出,通俗易懂。 將本書與Richard Sutton和Andrew Barto合著的經典著作Reinforcement Learning: An Introduction, Second Edition相比,Sutton和Barto在內容上更注重全面,覆蓋了強化學習各個分支的研究成果;而本書更強調實用,是值得精讀的教材。 鄧侃 PhD of Robotics Institute, School of Computer Science, Carnegie Mellon University,前Oracle 主任架構師、前百度網頁搜索部高級總監、北京大數醫達科技有限公司創始人 推薦序二 強化學習又稱為增強學習或再勵學習(Reinforcement learning),是AlphaGo、AlphaGo Zero等人工智能軟件的核心技術。近年來,隨著高性能計算、大數據和深度學習技術的突飛猛進,強化學習算法及其應用也得到更為廣泛的關注和更加快速的發展。尤其是強化學習與深度學習相結合而發展起來的深度強化學習技術已經取得若干突破性進展。AlphaGo與人類*棋手之間的對弈,使得深度強化學習技術在學術界和工業界得到了更為廣泛的關注。強化學習不僅在計算機博弈中取得巨大成功,而且在機器人控制、汽車智能駕駛、人機對話、過程優化決策與控制等領域,也被認為是實現高級人工智能*有潛力的方法。 本人在多年從事強化學習與近似動態規劃理論和應用的研究過程中,力求不斷提升強化學習算法的快速收斂性和泛化性能,并且將強化學習新理論和新算法應用于移動機器人和自主駕駛車輛等領域,為智能移動機器人和自主駕駛車輛在復雜、不確定條件下的自主優化決策和自學習控制提供高效的技術手段。今后,隨著相關理論和技術的不斷進步,強化學習技術在智能機器人和自主駕駛車輛、復雜生產過程的優化決策與控制、天空與海洋無人系統等領域的應用將很快會有新的突破。 強化學習的思想從20世紀初便被提出來了,經過將近一個世紀的發展,強化學習與心理學、運籌學、智能控制、優化理論、計算智能、認知科學等學科有著密切的聯系,是一個典型的多學科交叉領域。來自不同學科的概念和思想使得初學者學習和了解強化學習存在較大的困難。郭憲博士和方勇純教授的這本《深入淺出強化學習:原理入門》用通俗的語言系統地講解了強化學習的基本概念以及它們之間的關聯關系。從內容的廣度來看,這本書涵蓋了強化學習領域的基本概念和基本方法(基于值函數的方法和基于直接策略搜索的方法);從內容的深度來看,這本書既有傳統的強化學習算法(基于表格的強化學習方法,如Qlearning,Sarsa算法等),也有*近發展起來的深度強化學習算法(如DQN,TRPO,DDPG等)。另外,該書還有兩大特色:*,在介紹強化學習算法的同時,相應地介紹了算法設計和分析的數學基礎;第二,相關算法配有代碼實例。這兩個特色使得該書非常適合初學者、相關領域科研人員以及研究生學習和研討。鑒于此,強烈推薦該書作為廣大讀者學習強化學習技術的入門讀物,也希望該書能引導和幫助更多的學者投入到強化學習的研究和應用中,為我國新一代人工智能的發展貢獻自己的力量。 徐昕 國防科技大學教授 推薦序三 繼深度學習與大數據結合產生了巨大的技術紅利之后,人們開始探索后深度學習時代的新技術方向。當前主流的機器學習范式大都是以預先收集或構造數據及標簽,基于已存在的靜態數據進行機器學習為特征的“開環學習”。近年來,采用動態的數據及標簽,將數據產生與模型優化通過一定的交互方式結合在一起,將動態反饋信號引入學習過程的“閉環學習”受到越來越多的關注。強化學習就是“閉環學習”范式的典型代表。 在AlphaGo戰勝人類圍棋選手之后,AlphaGO Zero以其完全憑借自我學習超越人類數千年經驗的能力再次刷新了人類對人工智能的認識。而這一人工智能領域的巨大成功的核心就是強化學習與深度學習的結合,這也使得強化學習這一行為主義學習范式,受到了學術界和產業界的新一輪廣泛關注。 本書的出版正是在這樣的背景下,可謂恰逢其時。本書深入淺出地對強化學習的理論進行了綜合全面的介紹,系統完整又通俗易懂。同時,結合OpenAI的仿真環境,將強化學習算法的實際使用與理論介紹聯系起來,具有很強的實用性。在強化學習方法論得到廣泛關注,以及其實踐需求快速增長的背景下,這是一本很好的入門教程。 俞凱 上海交通大學研究員 推薦序四 AlphaGo的誕生掀起了(深度)強化學習技術的一輪熱潮,該方向已成為人工智能領域*熱門的方向之一,由于其通用性而備受各個應用領域推崇,從端對端控制、機器人手臂控制,到推薦系統、自然語言對話系統等。(深度)強化學習也被OpenAI等公司認為是實現通用人工智能的重要途徑。 然而目前強化學習中文資料相對零散,缺少兼具系統性和前沿性的強化學習教學及科研資料。郭博士的《深入淺出強化學習:原理入門》這本書恰好填補了這一空白。本書根據郭博士在知乎的強化學習專欄內容整理而成,條分縷析、通俗易懂,既對強化學習基礎知識做了全方面“深入淺出”的講述,又涵蓋了深度強化學習領域一系列*的前沿技術。因此它無論是對強化學習的入門者,還是強化學習領域研究人員和工程師,都是一本很好的推薦讀物,相信不同的讀者都會從中獲益。 郝建業 天津大學副教授、天津市青年千人、天津大學“北洋青年學者” 推薦序五 受行為主義心理學研究啟發,在機器學習領域中產生了一種交互式學習方法的分支,這便是強化學習,又稱為增強學習。強化學習模擬的是人類的一種學習方式,在執行某個動作或決策后根據執行效果來獲得獎勵,通過不斷與環境的交互進行學習,*終達到目標。強化學習概念早在上世紀就已經提出,在計算機領域,*個增強學習問題是利用獎懲手段學習迷宮策略。然而,直到2016年AlphaGo對決李世石一戰成名后,強化學習的概念才真正廣為人知。強化學習主要應用于眾多帶有交互性和決策性問題,比如博弈、游戲、機器人、人機對話等,這些問題是常用的監督學習和非監督學習方法無法很好處理的。 本人一直從事移動機器人、機器視覺和機器學習領域的研究,以及人工智能課程的教學。此前,為了解決人形機器人斜坡穩定行走問題,在查閱深度學習相關資料的過程中,在網上偶然看到郭憲博士開辟的強化學習專欄,讀后很有收獲。現在他將專欄文章整理編著成書,重新按知識層次進行編排和補充,對于讀者學習更有幫助。 本書覆蓋了強化學習*基本的概念和算法。在基于值函數的強化學習方法中,介紹了蒙特卡羅法、時間差分法和值函數逼近法。在基于直接策略搜索的強化學習方法中,介紹了策略梯度法、置信域策略法、確定性策略搜索法和引導策略搜索。在強化學習的前沿部分,介紹了逆向強化學習、深度強化學習和PILCO等。除了深度學習算法本身,書中還對涉及的基礎知識,如概率學基礎、馬爾科夫決策過程、線性方程組的數值求解方法、函數逼近方法、信息論中熵和相對熵的概念等也做了詳細的說明。本書非常適合科技人員、高等學校師生和感興趣人員作為入門強化學習的讀物,也可作為相關研究和教學的參考書。 本書內容深入淺出、文字簡單明了,采用了豐富的實例,讓讀者易讀、易懂。同時配有習題和代碼詳解,能有效提升讀者對理論知識的理解,幫助讀者運用理論解決實際問題。建議讀者跟隨書中的示例和代碼(https://github.com/gxnk/reinforcement- learning-code)來實現和驗證相關強化學習算法,并可同時關注作者的知乎專欄(https://zhuanlan.zhihu.com/sharerl)以便更好地互動和探討相關細節。 陳白帆 中南大學副教授 湖南省自興人工智能研究院副院長
深入淺出強化學習:原理入門 作者簡介
郭憲,南開大學計算機與控制工程學院博士后。2009 年畢業于華中科技大學機械設計制造及自動化專業,同年保送到中國科學院沈陽自動化研究所碩博連讀,主攻機器人動力學建模與控制,并于 2016 年 1 月獲得工學博士學位;期間在國內外知名雜志和會議發表論文數 10 篇。2016 年以來,郭博士主攻方向為機器人智能感知和智能決策,目前主持兩項國家級課題,內容涉及深度學習、深度強化學習等智能算法在機器人領域中的應用。
- >
小考拉的故事-套裝共3冊
- >
我從未如此眷戀人間
- >
苦雨齋序跋文-周作人自編集
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
巴金-再思錄
- >
月亮與六便士
- >
龍榆生:詞曲概論/大家小書
- >
【精裝繪本】畫給孩子的中國神話