中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊
> >
人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí)

包郵 人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí)

出版社:清華大學(xué)出版社出版時間:2020-06-01
開本: 其他 頁數(shù): 380
中 圖 價:¥68.3(6.9折) 定價  ¥99.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 版權(quán)信息

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 本書特色

《強(qiáng)化學(xué)習(xí)》一書內(nèi)容系統(tǒng)全面,覆蓋面廣,既有理論闡述、公式推導(dǎo),又有豐富的典型案例,理論聯(lián)系實(shí)際。書中全面系統(tǒng)地描述了強(qiáng)化學(xué)習(xí)的起源、背景和分類,各類強(qiáng)化學(xué)習(xí)算法的原理、實(shí)現(xiàn)方式以及各算法間的關(guān)系,為讀者構(gòu)建了一個完整的強(qiáng)化學(xué)習(xí)知識體系;同時包含豐富的經(jīng)典案例,如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機(jī)、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等,通過給出它們對應(yīng)的詳細(xì)案例說明和代碼描述,讓讀者深度理解各類強(qiáng)化學(xué)習(xí)算法的精髓。《強(qiáng)化學(xué)習(xí)》案例生動形象,描述深入淺出,代碼簡潔易懂,注釋詳細(xì)。 《強(qiáng)化學(xué)習(xí)》可作為高等院校計(jì)算機(jī)、自動化及相關(guān)專業(yè)的本科生或研究生教材,也可供對強(qiáng)化學(xué)習(xí)感興趣的研究人員和工程技術(shù)人員閱讀參考。

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 內(nèi)容簡介

《強(qiáng)化學(xué)習(xí)》一書內(nèi)容系統(tǒng)全面,覆蓋面廣,既有理論闡述、公式推導(dǎo),又有豐富的典型案例,理論聯(lián)系實(shí)際。書中全面系統(tǒng)地描述了強(qiáng)化學(xué)習(xí)的起源、背景和分類,各類強(qiáng)化學(xué)習(xí)算法的原理、實(shí)現(xiàn)方式以及各算法間的關(guān)系,為讀者構(gòu)建了一個完整的強(qiáng)化學(xué)習(xí)知識體系;同時包含豐富的經(jīng)典案例,如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機(jī)、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等,通過給出它們對應(yīng)的詳細(xì)案例說明和代碼描述,讓讀者深度理解各類強(qiáng)化學(xué)習(xí)算法的精髓。《強(qiáng)化學(xué)習(xí)》案例生動形象,描述深入淺出,代碼簡潔易懂,注釋詳細(xì)。 《強(qiáng)化學(xué)習(xí)》可作為高等院校計(jì)算機(jī)、自動化及相關(guān)專業(yè)的本科生或研究生教材,也可供對強(qiáng)化學(xué)習(xí)感興趣的研究人員和工程技術(shù)人員閱讀參考。

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 目錄


目錄
第1章強(qiáng)化學(xué)習(xí)概述 1.1強(qiáng)化學(xué)習(xí)的背景 1.2強(qiáng)化學(xué)習(xí)初探 1.2.1智能體和環(huán)境 1.2.2智能體主要組成 1.2.3強(qiáng)化學(xué)習(xí)、監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí) 1.2.4強(qiáng)化學(xué)習(xí)分類 1.2.5研究方法 1.2.6發(fā)展歷程 1.3強(qiáng)化學(xué)習(xí)的重點(diǎn)概念 1.3.1學(xué)習(xí)與規(guī)劃 1.3.2探索與利用 1.3.3預(yù)測與控制 1.4小結(jié) 1.5習(xí)題 第2章馬爾可夫決策過程 2.1馬爾可夫基本概念 2.1.1馬爾可夫性 2.1.2馬爾可夫過程 2.1.3馬爾可夫決策過程 2.2貝爾曼方程 2.2.1貝爾曼期望方程 2.2.2貝爾曼*優(yōu)方程
2.3*優(yōu)策略 2.3.1*優(yōu)策略定義 2.3.2求解*優(yōu)策略 2.4小結(jié) 2.5習(xí)題 第3章動態(tài)規(guī)劃 3.1動態(tài)規(guī)劃簡介 3.2策略評估 3.3策略改進(jìn) 3.4策略迭代 3.5值迭代 3.6實(shí)例講解 3.6.1“找寶藏”環(huán)境描述 3.6.2策略迭代 3.6.3值迭代 3.6.4實(shí)例小結(jié) 3.7小結(jié) 3.8習(xí)題 第4章蒙特卡羅 4.1蒙特卡羅簡介 4.2蒙特卡羅評估 4.3蒙特卡羅控制 4.4在線策略蒙特卡羅 4.5離線策略蒙特卡羅 4.5.1重要性采樣離線策略蒙特卡羅 4.5.2加權(quán)重要性采樣離線策略蒙特卡羅 4.6實(shí)例講解 4.6.1“十點(diǎn)半”游戲 4.6.2在線策略蒙特卡羅 4.6.3離線策略蒙特卡羅 4.6.4實(shí)例小結(jié) 4.7小結(jié) 4.8習(xí)題 第5章時序差分 5.1時序差分簡介 5.2三種方法的性質(zhì)對比 5.3Sarsa: 在線策略TD 5.4Qlearning: 離線策略TD方法 5.5實(shí)例講解 5.5.1迷宮尋寶 5.5.2Sarsa方法 5.5.3Qlearning方法 5.5.4實(shí)例小結(jié) 5.6小結(jié) 5.7習(xí)題 第6章資格跡 6.1資格跡簡介 6.2多步TD評估 6.3前向算法 6.4后向算法 6.5前向算法與后向算法的統(tǒng)一 6.6Sarsa(λ)方法 6.6.1前向Sarsa(λ)方法 6.6.2后向Sarsa(λ)方法 6.7Q (λ)方法 6.7.1前向Watkinss Q(λ)方法 6.7.2后向Watkinss Q(λ)方法 *6.7.3Pengs Q(λ)方法 6.8實(shí)例講解 6.8.1風(fēng)格子世界 6.8.2后向Sarsa(λ) 6.8.3后向Q(λ) 6.8.4實(shí)例小結(jié) 6.9小結(jié) 6.10習(xí)題 第7章值函數(shù)逼近 7.1值函數(shù)逼近簡介 7.2線性逼近 7.2.1增量法 7.2.2批量法 7.3非線性逼近 7.3.1DQN方法 7.3.2Double DQN方法 7.3.3Dueling DQN方法 7.4實(shí)例講解 7.4.1游戲簡介 7.4.2環(huán)境描述 7.4.3算法詳情 7.4.4核心代碼 7.5小結(jié) 7.6習(xí)題 第8章隨機(jī)策略梯度 8.1隨機(jī)策略梯度簡介 8.1.1策略梯度優(yōu)缺點(diǎn) 8.1.2策略梯度方法分類 8.2隨機(jī)策略梯度定理及證明 8.2.1隨機(jī)策略梯度定理 *8.2.2隨機(jī)策略梯度定理證明 8.3蒙特卡羅策略梯度 8.3.1REINFORCE方法 8.3.2帶基線的REINFORCE方法 8.4TRPO方法 8.5實(shí)例講解 8.5.1游戲簡介及環(huán)境描述 8.5.2算法詳情 8.5.3核心代碼 8.6小結(jié) 8.7習(xí)題 第9章ActorCritic及變種 9.1AC方法 9.1.1在線策略AC方法 9.1.2離線策略AC方法 9.1.3兼容性近似函數(shù)定理 9.2A2C方法 9.3A3C方法 9.3.1簡介 9.3.2異步Qlearning方法 9.3.3異步Sarsa方法 9.3.4異步n步Qlearning方法 9.3.5A3C方法詳述 9.4實(shí)例講解 9.4.1AC實(shí)例 9.4.2A3C實(shí)例 9.5小結(jié) 9.6習(xí)題 第10章確定性策略梯度 10.1確定性策略梯度及證明 10.1.1確定性策略梯度定理 *10.1.2確定性策略梯度定理證明 10.2DPG方法 10.2.1在線策略確定性AC方法 10.2.2離線策略確定性AC 10.2.3兼容性近似函數(shù)定理 10.3DDPG方法 10.3.1DDPG簡介 10.3.2算法要點(diǎn) 10.3.3算法流程 10.4實(shí)例講解 10.4.1游戲簡介及環(huán)境描述 10.4.2算法詳情 10.4.3核心代碼 10.5小結(jié) 10.6習(xí)題 第11章學(xué)習(xí)與規(guī)劃 11.1有模型方法和無模型方法 11.2模型擬合 11.2.1模型數(shù)學(xué)表示 11.2.2監(jiān)督式學(xué)習(xí)構(gòu)建模型 11.2.3利用模型進(jìn)行規(guī)劃
11.3Dyna框架及相關(guān)算法 11.3.1DynaQ 11.3.2DynaQ 11.3.3優(yōu)先級掃描的DynaQ 11.4Dyna2 11.5實(shí)例講解 11.5.1游戲簡介及環(huán)境描述 11.5.2算法詳情 11.5.3核心代碼 11.6小結(jié) 11.7習(xí)題 第12章探索與利用 12.1探索利用困境 12.2多臂賭博機(jī)問題 12.3樸素探索 12.4樂觀初始值估計(jì) 12.5置信區(qū)間上界 12.6概率匹配 12.7信息價值 12.8實(shí)例講解 12.8.1游戲簡介及環(huán)境描述 12.8.2算法詳情 12.8.3核心代碼 12.9小結(jié) 12.10習(xí)題 第13章博弈強(qiáng)化學(xué)習(xí) 13.1博弈及博弈樹 13.2極大極小搜索 13.3AlphaBeta搜索 13.4蒙特卡羅樹搜索 13.5AlphaGo 13.5.1監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)pσ 13.5.2快速走子策略網(wǎng)絡(luò)pπ 13.5.3強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)pρ 13.5.4價值網(wǎng)絡(luò)vθ 13.5.5蒙特卡羅樹搜索 13.5.6總結(jié) 13.6AlphaGo Zero 13.6.1下棋原理 13.6.2網(wǎng)絡(luò)結(jié)構(gòu) 13.6.3蒙特卡羅樹搜索 13.6.4總結(jié) 13.7AlphaZero 13.8實(shí)例講解 13.8.1游戲簡介及環(huán)境描述 13.8.2算法流程描述 13.8.3算法細(xì)節(jié) 13.8.4核心代碼 13.9小結(jié) 13.10習(xí)題 參考文獻(xiàn)
展開全部

人工智能科學(xué)與技術(shù)叢書強(qiáng)化學(xué)習(xí) 作者簡介

鄒偉 博士,睿客邦創(chuàng)始人,研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算幾何,致力于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在實(shí)際中的應(yīng)用;主持研發(fā)50多個人工智能領(lǐng)域工業(yè)級項(xiàng)目,并受邀在中國移動、花旗銀行、中信集團(tuán)、中航信、烽火科技、京東方、完美世界等公司進(jìn)行了上百場講座和內(nèi)部培訓(xùn)。創(chuàng)立的睿客邦與國內(nèi)十多所高校建立了AI聯(lián)合實(shí)驗(yàn)室或?qū)嵱?xùn)基地;兼任天津大學(xué)創(chuàng)業(yè)導(dǎo)師、山東交通學(xué)院客座教授等。曾在多個在線平臺講授“機(jī)器學(xué)習(xí)”“深度學(xué)習(xí)”等課程,廣受網(wǎng)友好評,累計(jì)學(xué)習(xí)人數(shù)超過百萬。
鬲玲 碩士,北京神舟航天軟件公司知識工程團(tuán)隊(duì)負(fù)責(zé)人,資深研發(fā)工程師。研究方向?yàn)橹R工程、語義檢索、強(qiáng)化學(xué)習(xí)、自然語言處理。作為牽頭單位技術(shù)負(fù)責(zé)人參與并完成國家科技支撐計(jì)劃項(xiàng)目1項(xiàng),863計(jì)劃項(xiàng)目1項(xiàng)。有多年知識管理系統(tǒng)以及自然語言處理項(xiàng)目研發(fā)經(jīng)驗(yàn),目前正致力于垂直領(lǐng)域知識圖譜的落地以及強(qiáng)化學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用。
劉昱杓 現(xiàn)供職于央視市場研究,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)研發(fā)工程師,研究方向?yàn)橛?jì)算機(jī)視覺。有多年深度學(xué)習(xí)視覺方向開發(fā)經(jīng)驗(yàn),參與了多個圖像識別、目標(biāo)檢測、目標(biāo)追蹤等領(lǐng)域的落地項(xiàng)目。目前專注于深度強(qiáng)化學(xué)習(xí)方向的研究。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 阀门智能定位器_电液动执行器_气动执行机构-赫尔法流体技术(北京)有限公司 | 安徽合肥项目申报咨询公司_安徽合肥高新企业项目申报_安徽省科技项目申报代理 | 精密冲床,高速冲床等冲压设备生产商-常州晋志德压力机厂 | 旋振筛|圆形摇摆筛|直线振动筛|滚筒筛|压榨机|河南天众机械设备有限公司 | ge超声波测厚仪-电动涂膜机-电动划格仪-上海洪富| ERP企业管理系统永久免费版_在线ERP系统_OA办公_云版软件官网 | 招商帮-一站式网络营销服务|互联网整合营销|网络推广代运营|信息流推广|招商帮企业招商好帮手|搜索营销推广|短视视频营销推广 | vr安全体验馆|交通安全|工地安全|禁毒|消防|安全教育体验馆|安全体验教室-贝森德(深圳)科技 | 无锡网站建设-做网站-建网站-网页设计制作-阿凡达建站公司 | ICP备案查询_APP备案查询_小程序备案查询 - 备案巴巴 | 高通量组织研磨仪-多样品组织研磨仪-全自动组织研磨仪-研磨者科技(广州)有限公司 | 聚丙烯酰胺_阴离子_阳离子「用量少」巩义亿腾厂家直销,售后无忧 聚合甘油__盐城市飞龙油脂有限公司 | 气动|电动调节阀|球阀|蝶阀-自力式调节阀-上海渠工阀门管道工程有限公司 | 金属抛光机-磁悬浮抛光机-磁力研磨机-磁力清洗机 - 苏州冠古科技 | 低合金板|安阳低合金板|河南低合金板|高强度板|桥梁板_安阳润兴 北京租车牌|京牌指标租赁|小客车指标出租 | 消电检公司,消电检价格,北京消电检报告-北京设施检测公司-亿杰(北京)消防工程有限公司 | 影合社-影视人的内容合作平台| 气动隔膜泵-电动隔膜泵-循环热水泵-液下排污/螺杆/管道/化工泵「厂家」浙江绿邦 | ZHZ8耐压测试仪-上海胜绪电气有限公司| 合肥注册公司|合肥代办营业执照、2024注册公司流程 | 多功能干燥机,过滤洗涤干燥三合一设备-无锡市张华医药设备有限公司 | 特材真空腔体_哈氏合金/镍基合金/纯镍腔体-无锡国德机械制造有限公司 | 油罐车_加油机_加油卷盘_加油机卷盘_罐车人孔盖_各类球阀_海底阀等车用配件厂家-湖北华特专用设备有限公司 | 不锈钢复合板厂家_钛钢复合板批发_铜铝复合板供应-威海泓方金属复合材料股份有限公司 | 水成膜泡沫灭火剂_氟蛋白泡沫液_河南新乡骏华消防科技厂家 | 广东燎了网络科技有限公司官网-网站建设-珠海网络推广-高端营销型外贸网站建设-珠海专业h5建站公司「了了网」 | 小区健身器材_户外健身器材_室外健身器材_公园健身路径-沧州浩然体育器材有限公司 | 恒温槽_恒温水槽_恒温水浴槽-上海方瑞仪器有限公司 | 烟台游艇培训,威海游艇培训-烟台市邮轮游艇行业协会 | 液压扳手-高品质液压扳手供应商 - 液压扳手, 液压扳手供应商, 德国进口液压拉马 | PO膜_灌浆膜及地膜供应厂家 - 青州市鲁谊塑料厂 | 专业广州网站建设,微信小程序开发,一物一码和NFC应用开发、物联网、外贸商城、定制系统和APP开发【致茂网络】 | 注塑_注塑加工_注塑模具_塑胶模具_注塑加工厂家_深圳环科 | 岩石钻裂机-液压凿岩机-劈裂机-挖改钻_湖南烈岩科技有限公司 | 丽陂特官网_手机信号屏蔽器_Wifi信号干扰器厂家_学校考场工厂会议室屏蔽仪 | 塑料瓶罐_食品塑料瓶_保健品塑料瓶_调味品塑料瓶–东莞市富慷塑料制品有限公司 | 冰雕-冰雪世界-大型冰雕展制作公司-赛北冰雕官网| 2025黄道吉日查询、吉时查询、老黄历查询平台- 黄道吉日查询网 | 数码管_LED贴片灯_LED数码管厂家-无锡市冠卓电子科技有限公司 | 质检报告_CE认证_FCC认证_SRRC认证_PSE认证_第三方检测机构-深圳市环测威检测技术有限公司 | 喷码机,激光喷码打码机,鸡蛋打码机,手持打码机,自动喷码机,一物一码防伪溯源-恒欣瑞达有限公司 |