中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
深入淺出強化學習:原理入門

包郵 深入淺出強化學習:原理入門

出版社:電子工業出版社出版時間:2018-01-01
開本: 16開 頁數: 239
中 圖 價:¥58.7(7.4折) 定價  ¥79.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

深入淺出強化學習:原理入門 版權信息

  • ISBN:9787121329180
  • 條形碼:9787121329180 ; 978-7-121-32918-0
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

深入淺出強化學習:原理入門 本書特色

《深入淺出強化學習:原理入門》用通俗易懂的語言深入淺出地介紹了強化學習的基本原理,覆蓋了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法。開篇從*基本的馬爾科夫決策過程入手,將強化學習問題納入到嚴謹的數學框架中,接著闡述了解決此類問題*基本的方法——動態規劃方法,并從中總結出解決強化學習問題的基本思路:交互迭代策略評估和策略改善。基于這個思路,分別介紹了基于值函數的強化學習方法和基于直接策略搜索的強化學習方法。*后介紹了逆向強化學習方法和近年具有代表性、比較前沿的強化學習方法。 除了系統地介紹基本理論,書中還介紹了相應的數學基礎和編程實例。因此,《深入淺出強化學習:原理入門》既適合零基礎的人員入門學習、也適合相關科研人員作為研究參考。

深入淺出強化學習:原理入門 內容簡介

從零起步掌握強化學習技術精髓,稱霸人工智能領域! 《深入淺出強化學習:原理入門》針對初學者的需求,直接分析原理,并輔以編程實踐。從解決問題的思路,層層剖析,普及了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法,直接將讀者帶入強化學習的殿堂。讀完本書,讀者能在熟練掌握原理的基礎上,直接上手編程實踐。 本書的敘述方式簡潔、直接、清晰,值得精讀!

深入淺出強化學習:原理入門 目錄

1 緒論 1 1.1 這是一本什么書 1 1.2 強化學習可以解決什么問題 2 1.3 強化學習如何解決問題 4 1.4 強化學習算法分類及發展趨勢 5 1.5 強化學習仿真環境構建 7 1.5.1 gym安裝及簡單的demo示例 8 1.5.2 深入剖析gym環境構建 10 1.6 本書主要內容及安排 12 **篇 強化學習基礎 17 2 馬爾科夫決策過程 18 2.1 馬爾科夫決策過程理論講解 18 2.2 MDP中的概率學基礎講解 26 2.3 基于gym的MDP實例講解 29 2.4 習題 34 3 基于模型的動態規劃方法 36 3.1 基于模型的動態規劃方法理論 36 3.2 動態規劃中的數學基礎講解 47 3.2.1 線性方程組的迭代解法 47 3.2.2 壓縮映射證明策略評估的收斂性 49 3.3 基于gym的編程實例 52 3.4 *優控制與強化學習比較 54 3.5 習題 56 第二篇 基于值函數的強化學習方法 57 4 基于蒙特卡羅的強化學習方法 58 4.1 基于蒙特卡羅方法的理論 58 4.2 統計學基礎知識 67 4.3 基于Python的編程實例 71 4.4 習題 74 5 基于時間差分的強化學習方法 75 5.1 基于時間差分強化學習算法理論講解 75 5.2 基于Python和gym的編程實例 83 5.3 習題 87 6 基于值函數逼近的強化學習方法 88 6.1 基于值函數逼近的理論講解 88 6.2 DQN及其變種 94 6.2.1 DQN方法 94 6.2.2 Double DQN 100 6.2.3 優先回放(Prioritized Replay) 102 6.2.4 Dueling DQN 104 6.3 函數逼近方法 105 6.3.1 基于非參數的函數逼近 105 6.3.2 基于參數的函數逼近 111 6.3.3 卷積神經網絡 117 6.4 習題 123 第三篇 基于直接策略搜索的強化學習方法 125 7 基于策略梯度的強化學習方法 126 7.1 基于策略梯度的強化學習方法理論講解 126 7.2 基于gym和TensorFlow的策略梯度算法實現 134 7.2.1 安裝Tensorflow 135 7.2.2 策略梯度算法理論基礎 135 7.2.3 Softmax策略及其損失函數 136 7.2.4 基于TensorFlow的策略梯度算法實現 138 7.2.5 基于策略梯度算法的小車倒立擺問題 141 7.3 習題 141 8 基于置信域策略優化的強化學習方法 142 8.1 理論基礎 143 8.2 TRPO中的數學知識 153 8.2.1 信息論 153 8.2.2 優化方法 155 8.3 習題 164 9 基于確定性策略搜索的強化學習方法 165 9.1 理論基礎 165 9.2 習題 170 10 基于引導策略搜索的強化學習方法 171 10.1 理論基礎 171 10.2 GPS中涉及的數學基礎 178 10.2.1 監督相LBFGS優化方法 178 10.2.2 ADMM算法 179 10.2.3 KL散度與變分推理 183 10.3 習題 184 第四篇 強化學習研究及前沿 185 11 逆向強化學習 186 11.1 概述 186 11.2 基于*大邊際的逆向強化學習 187 11.3 基于*大熵的逆向強化學習 194 11.4 習題 201 12 組合策略梯度和值函數方法 202 13 值迭代網絡 207 13.1 為什么要提出值迭代網絡 207 13.2 值迭代網絡 210 14 基于模型的強化學習方法:PILCO及其擴展 214 14.1 概述 214 14.2 PILCO 216 14.3 濾波PILCO和探索PILCO 226 14.3.1 濾波PILCO算法 227 14.3.2 有向探索PILCO算法 230 14.4 深度PILCO 232 后記 235 參考文獻 237
展開全部

深入淺出強化學習:原理入門 相關資料

推薦序一 強化學習是機器學習的一個重要分支,它試圖解決決策優化的問題。所謂決策優化,是指面對特定狀態(State,S),采取什么行動方案(Action,A),才能使收益*(Reward,R)。很多問題都與決策優化有關,比如下棋、投資、課程安排、駕車,動作模仿等。 AlphaGo的核心算法,就是強化學習。AlphaGo不僅穩操勝券地戰勝了當今世界所有人類高手,而且甚至不需要學習人類棋手的棋譜,完全靠自己摸索,就在短短幾天內,發現并超越了一千多年來人類積累的全部圍棋戰略戰術。 *簡單的強化學習的數學模型,是馬爾科夫決策過程(Markov Decision Process,MDP)。之所以說MDP是一個簡單的模型,是因為它對問題做了很多限制。 1.面對的狀態st,數量是有限的。 2.采取的行動方案at,數量也是有限的。 3.對應于特定狀態st,當下的收益rt是明確的。 4.在某一個時刻t,采取了行動方案at,狀態從當前的st轉換成下一個狀態st 1。下一個狀態有多種可能,記為 , i = 1... n。 換句話說,面對局面st,采取行動at,下一個狀態是 ,不是確定的,而是概率的,狀態轉換概率,記為P( | st, at )。但是狀態轉換只依賴于當前狀態st,而與先前的狀態st-1, st-2 ...無關。 解決馬爾科夫決策過程問題的常用的算法,是動態規劃(Dynamic Programming)。 對馬爾科夫決策過程的各項限制,不斷放松,研究相應的算法,是強化學習的目標。例如對狀態st放松限制: 1.假如狀態st的數量,雖然有限,但是數量巨大,如何降低動態規劃算法的計算成本; 2.假如狀態st的數量是無限的,現有動態規劃算法失效,如何改進算法; 3.假如狀態st的數量不僅是無限的,而且取值不是離散的,而是連續的,如何改進算法; 4.假如狀態st不能被完全觀察到,只能被部分觀察到,剩余部分被遮擋或缺失,如何改進算法; 5.假如狀態st完全不能被觀察到,只能通過其他現象猜測潛在的狀態,如何改進算法。 放松限制,就是提升問題難度。在很多情況下,強化學習的目標,不是尋找*的*解,而是尋找相對滿意的次優解。 強化學習的演進,有兩個軸線:一個是不斷挑戰更難的問題,不斷從次優解向*解逼近;另一個是在不嚴重影響算法精度的前提下,不斷降低算法的計算成本。 此書的敘述線索非常清晰,從*簡單的解決馬爾科夫決策過程的動態規劃算法,一路講解到*前沿的深度強化學習算法(Deep Q Network,DQN),單刀直入,全無枝枝蔓蔓之感。不僅解釋數學原理,而且注重編程實踐。同時,行文深入淺出,通俗易懂。 將本書與Richard Sutton和Andrew Barto合著的經典著作Reinforcement Learning: An Introduction, Second Edition相比,Sutton和Barto在內容上更注重全面,覆蓋了強化學習各個分支的研究成果;而本書更強調實用,是值得精讀的教材。 鄧侃 PhD of Robotics Institute, School of Computer Science, Carnegie Mellon University,前Oracle 主任架構師、前百度網頁搜索部高級總監、北京大數醫達科技有限公司創始人 推薦序二 強化學習又稱為增強學習或再勵學習(Reinforcement learning),是AlphaGo、AlphaGo Zero等人工智能軟件的核心技術。近年來,隨著高性能計算、大數據和深度學習技術的突飛猛進,強化學習算法及其應用也得到更為廣泛的關注和更加快速的發展。尤其是強化學習與深度學習相結合而發展起來的深度強化學習技術已經取得若干突破性進展。AlphaGo與人類*棋手之間的對弈,使得深度強化學習技術在學術界和工業界得到了更為廣泛的關注。強化學習不僅在計算機博弈中取得巨大成功,而且在機器人控制、汽車智能駕駛、人機對話、過程優化決策與控制等領域,也被認為是實現高級人工智能*有潛力的方法。 本人在多年從事強化學習與近似動態規劃理論和應用的研究過程中,力求不斷提升強化學習算法的快速收斂性和泛化性能,并且將強化學習新理論和新算法應用于移動機器人和自主駕駛車輛等領域,為智能移動機器人和自主駕駛車輛在復雜、不確定條件下的自主優化決策和自學習控制提供高效的技術手段。今后,隨著相關理論和技術的不斷進步,強化學習技術在智能機器人和自主駕駛車輛、復雜生產過程的優化決策與控制、天空與海洋無人系統等領域的應用將很快會有新的突破。 強化學習的思想從20世紀初便被提出來了,經過將近一個世紀的發展,強化學習與心理學、運籌學、智能控制、優化理論、計算智能、認知科學等學科有著密切的聯系,是一個典型的多學科交叉領域。來自不同學科的概念和思想使得初學者學習和了解強化學習存在較大的困難。郭憲博士和方勇純教授的這本《深入淺出強化學習:原理入門》用通俗的語言系統地講解了強化學習的基本概念以及它們之間的關聯關系。從內容的廣度來看,這本書涵蓋了強化學習領域的基本概念和基本方法(基于值函數的方法和基于直接策略搜索的方法);從內容的深度來看,這本書既有傳統的強化學習算法(基于表格的強化學習方法,如Qlearning,Sarsa算法等),也有*近發展起來的深度強化學習算法(如DQN,TRPO,DDPG等)。另外,該書還有兩大特色:*,在介紹強化學習算法的同時,相應地介紹了算法設計和分析的數學基礎;第二,相關算法配有代碼實例。這兩個特色使得該書非常適合初學者、相關領域科研人員以及研究生學習和研討。鑒于此,強烈推薦該書作為廣大讀者學習強化學習技術的入門讀物,也希望該書能引導和幫助更多的學者投入到強化學習的研究和應用中,為我國新一代人工智能的發展貢獻自己的力量。 徐昕 國防科技大學教授 推薦序三 繼深度學習與大數據結合產生了巨大的技術紅利之后,人們開始探索后深度學習時代的新技術方向。當前主流的機器學習范式大都是以預先收集或構造數據及標簽,基于已存在的靜態數據進行機器學習為特征的“開環學習”。近年來,采用動態的數據及標簽,將數據產生與模型優化通過一定的交互方式結合在一起,將動態反饋信號引入學習過程的“閉環學習”受到越來越多的關注。強化學習就是“閉環學習”范式的典型代表。 在AlphaGo戰勝人類圍棋選手之后,AlphaGO Zero以其完全憑借自我學習超越人類數千年經驗的能力再次刷新了人類對人工智能的認識。而這一人工智能領域的巨大成功的核心就是強化學習與深度學習的結合,這也使得強化學習這一行為主義學習范式,受到了學術界和產業界的新一輪廣泛關注。 本書的出版正是在這樣的背景下,可謂恰逢其時。本書深入淺出地對強化學習的理論進行了綜合全面的介紹,系統完整又通俗易懂。同時,結合OpenAI的仿真環境,將強化學習算法的實際使用與理論介紹聯系起來,具有很強的實用性。在強化學習方法論得到廣泛關注,以及其實踐需求快速增長的背景下,這是一本很好的入門教程。 俞凱 上海交通大學研究員 推薦序四 AlphaGo的誕生掀起了(深度)強化學習技術的一輪熱潮,該方向已成為人工智能領域*熱門的方向之一,由于其通用性而備受各個應用領域推崇,從端對端控制、機器人手臂控制,到推薦系統、自然語言對話系統等。(深度)強化學習也被OpenAI等公司認為是實現通用人工智能的重要途徑。 然而目前強化學習中文資料相對零散,缺少兼具系統性和前沿性的強化學習教學及科研資料。郭博士的《深入淺出強化學習:原理入門》這本書恰好填補了這一空白。本書根據郭博士在知乎的強化學習專欄內容整理而成,條分縷析、通俗易懂,既對強化學習基礎知識做了全方面“深入淺出”的講述,又涵蓋了深度強化學習領域一系列*的前沿技術。因此它無論是對強化學習的入門者,還是強化學習領域研究人員和工程師,都是一本很好的推薦讀物,相信不同的讀者都會從中獲益。 郝建業 天津大學副教授、天津市青年千人、天津大學“北洋青年學者” 推薦序五 受行為主義心理學研究啟發,在機器學習領域中產生了一種交互式學習方法的分支,這便是強化學習,又稱為增強學習。強化學習模擬的是人類的一種學習方式,在執行某個動作或決策后根據執行效果來獲得獎勵,通過不斷與環境的交互進行學習,*終達到目標。強化學習概念早在上世紀就已經提出,在計算機領域,*個增強學習問題是利用獎懲手段學習迷宮策略。然而,直到2016年AlphaGo對決李世石一戰成名后,強化學習的概念才真正廣為人知。強化學習主要應用于眾多帶有交互性和決策性問題,比如博弈、游戲、機器人、人機對話等,這些問題是常用的監督學習和非監督學習方法無法很好處理的。 本人一直從事移動機器人、機器視覺和機器學習領域的研究,以及人工智能課程的教學。此前,為了解決人形機器人斜坡穩定行走問題,在查閱深度學習相關資料的過程中,在網上偶然看到郭憲博士開辟的強化學習專欄,讀后很有收獲。現在他將專欄文章整理編著成書,重新按知識層次進行編排和補充,對于讀者學習更有幫助。 本書覆蓋了強化學習*基本的概念和算法。在基于值函數的強化學習方法中,介紹了蒙特卡羅法、時間差分法和值函數逼近法。在基于直接策略搜索的強化學習方法中,介紹了策略梯度法、置信域策略法、確定性策略搜索法和引導策略搜索。在強化學習的前沿部分,介紹了逆向強化學習、深度強化學習和PILCO等。除了深度學習算法本身,書中還對涉及的基礎知識,如概率學基礎、馬爾科夫決策過程、線性方程組的數值求解方法、函數逼近方法、信息論中熵和相對熵的概念等也做了詳細的說明。本書非常適合科技人員、高等學校師生和感興趣人員作為入門強化學習的讀物,也可作為相關研究和教學的參考書。 本書內容深入淺出、文字簡單明了,采用了豐富的實例,讓讀者易讀、易懂。同時配有習題和代碼詳解,能有效提升讀者對理論知識的理解,幫助讀者運用理論解決實際問題。建議讀者跟隨書中的示例和代碼(https://github.com/gxnk/reinforcement- learning-code)來實現和驗證相關強化學習算法,并可同時關注作者的知乎專欄(https://zhuanlan.zhihu.com/sharerl)以便更好地互動和探討相關細節。 陳白帆 中南大學副教授 湖南省自興人工智能研究院副院長

深入淺出強化學習:原理入門 作者簡介

郭憲,南開大學計算機與控制工程學院博士后。2009 年畢業于華中科技大學機械設計制造及自動化專業,同年保送到中國科學院沈陽自動化研究所碩博連讀,主攻機器人動力學建模與控制,并于 2016 年 1 月獲得工學博士學位;期間在國內外知名雜志和會議發表論文數 10 篇。2016 年以來,郭博士主攻方向為機器人智能感知和智能決策,目前主持兩項國家級課題,內容涉及深度學習、深度強化學習等智能算法在機器人領域中的應用。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 北京康百特科技有限公司-分子蒸馏-短程分子蒸馏设备-实验室分子蒸馏设备 | 【德信自动化】点胶机_全自动点胶机_自动点胶机厂家_塑料热压机_自动螺丝机-深圳市德信自动化设备有限公司 | 合肥制氮机_合肥空压机厂家_安徽真空泵-凯圣精机 | 精密机械零件加工_CNC加工_精密加工_数控车床加工_精密机械加工_机械零部件加工厂 | 打包箱房_集成房屋-山东佳一集成房屋有限公司 | 江苏全风,高压风机,全风环保风机,全风环形高压风机,防爆高压风机厂家-江苏全风环保科技有限公司(官网) | 无味渗透剂,泡沫抑尘剂,烷基糖苷-威海威能化工有限公司 | 立式壁挂广告机厂家-红外电容触摸一体机价格-华邦瀛 | 食品无尘净化车间,食品罐装净化车间,净化车间配套风淋室-青岛旭恒洁净技术有限公司 | 智能化的检漏仪_气密性测试仪_流量测试仪_流阻阻力测试仪_呼吸管快速检漏仪_连接器防水测试仪_车载镜头测试仪_奥图自动化科技 | 散热器-电子散热器-型材散热器-电源散热片-镇江新区宏图电子散热片厂家 | 智能监控-安防监控-监控系统安装-弱电工程公司_成都万全电子 | 天然鹅卵石滤料厂家-锰砂滤料-石英砂滤料-巩义东枫净水 | 蜂窝块状沸石分子筛-吸附脱硫分子筛-萍乡市捷龙环保科技有限公司 | 电动葫芦|手拉葫芦|环链电动葫芦|微型电动葫芦-北京市凌鹰起重机械有限公司 | 聚氨酯复合板保温板厂家_廊坊华宇创新科技有限公司 | 水平筛厂家-三轴椭圆水平振动筛-泥沙震动筛设备_山东奥凯诺矿机 包装设计公司,产品包装设计|包装制作,包装盒定制厂家-汇包装【官方网站】 | 异噻唑啉酮-均三嗪-三丹油-1227-中北杀菌剂厂家 | 免联考国际MBA_在职MBA报考条件/科目/排名-MBA信息网 | 骨密度检测仪_骨密度分析仪_骨密度仪_动脉硬化检测仪专业生产厂家【品源医疗】 | 上海橡胶接头_弹簧减震器_金属软接头厂家-上海淞江集团 | 净气型药品柜-试剂柜-无管道净气型通风柜-苏州毕恩思 | 爱佩恒温恒湿测试箱|高低温实验箱|高低温冲击试验箱|冷热冲击试验箱-您身边的模拟环境试验设备技术专家-合作热线:400-6727-800-广东爱佩试验设备有限公司 | 质检报告_CE认证_FCC认证_SRRC认证_PSE认证_第三方检测机构-深圳市环测威检测技术有限公司 | 不锈钢钢格栅板_热浸锌钢格板_镀锌钢格栅板_钢格栅盖板-格美瑞 | 影像测量仪_三坐标测量机_一键式二次元_全自动影像测量仪-广东妙机精密科技股份有限公司 | 永嘉县奥阳陶瓷阀门有限公司 | 电子万能试验机_液压拉力试验机_冲击疲劳试验机_材料试验机厂家-济南众标仪器设备有限公司 | PC构件-PC预制构件-构件设计-建筑预制构件-PC构件厂-锦萧新材料科技(浙江)股份有限公司 | 新能源汽车教学设备厂家报价[汽车教学设备运营18年]-恒信教具 | 乐考网-银行从业_基金从业资格考试_初级/中级会计报名时间_中级经济师 | 派克防爆伺服电机品牌|国产防爆伺服电机|高低温伺服电机|杭州摩森机电科技有限公司 | 塑胶地板-商用PVC地板-pvc地板革-安耐宝pvc塑胶地板厂家 | 赛默飞Thermo veritiproPCR仪|ProFlex3 x 32PCR系统|Countess3细胞计数仪|371|3111二氧化碳培养箱|Mirco17R|Mirco21R离心机|仟诺生物 | 方源木业官网-四川木门-全国木门专业品牌 | 诚暄电子公司首页-线路板打样,pcb线路板打样加工制作厂家 | 泥浆在线密度计厂家-防爆数字压力表-膜盒-远传压力表厂家-江苏大亚自控设备有限公司 | 工业CT-无锡璟能智能仪器有限公司 | 混合气体腐蚀试验箱_盐雾/硫化氢/气体腐蚀试验箱厂家-北京中科博达 | Eiafans.com_环评爱好者 环评网|环评论坛|环评报告公示网|竣工环保验收公示网|环保验收报告公示网|环保自主验收公示|环评公示网|环保公示网|注册环评工程师|环境影响评价|环评师|规划环评|环评报告|环评考试网|环评论坛 - Powered by Discuz! | R507制冷剂,R22/R152a制冷剂厂家-浙江瀚凯制冷科技有限公司 |