网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 强化学习/智能科学与技术丛书 |
分类 | |
作者 | (荷)马可·威宁(Marco Wiering),(荷)马丁·范·奥特罗(Martijn Van Otterlo) 编著;赵地 等 译 |
出版社 | 机械工业出版社 |
下载 | ![]() |
简介 | 内容推荐 本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容,并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用,后提出未来发展趋势及研究热点问题,有助于年轻的研究者了解整个强化学习领域,发现新的研究方向。本书适合作为高等院校机器学习相关课程的参考书,也可作为人工智能领域从业技术人员的参考用书。 作者简介 马可·威宁,在荷兰格罗宁根大学人工智能系工作,他发表过各种强化学习主题的文章,研究领域包括强化学习、机器学习、深度学习、目标识别、文本学习,进化计算、机器人等。 马丁·范·奥特罗,是荷兰奈梅亨大学认知人工智能小组的一员。主要研究领域是强化学习在环境中的知识表示。 目录 译者序 序言 前言 作者清单 部分绪论 章强化学习和马尔可夫决策过程2 1.1简介2 1.2时序决策3 1.2.1接近时序决策4 1.2.2在线学习与离线学习4 1.2.3贡献分配5 1.2.4探索-运用的平衡5 1.2.5反馈、目标和性能5 1.2.6表达6 1.3正式的框架6 1.3.1马尔可夫决策过程7 1.3.2策略9 1.3.3最优准则和减量9 1.4价值函数和贝尔曼方程10 1.5求解马尔可夫决策过程12 1.6动态规划:基于模型的解决方案13 1.6.1基本的动态规划算法13 1.6.2高效的动态规划算法17 1.7强化学习:无模型的解决方案19 1.7.1时序差分学习20 1.7.2蒙特卡罗方法23 1.7.3高效的探索和价值更新24 1.8总结27 参考文献27 第二部分高效的解决方案框架 第2章批处理强化学习32 2.1简介32 2.2批处理强化学习问题33 2.2.1批处理学习问题33 2.2.2增长批处理学习问题34 2.3批处理强化学习算法的基础34 2.4批处理强化学习算法37 2.4.1基于核的近似动态规划37 2.4.2拟合Q迭代39 2.4.3基于最小二乘的策略迭代40 2.4.4识别批处理算法41 2.5批处理强化学习理论42 2.6批处理强化学习的实现43 2.6.1神经拟合Q迭代44 2.6.2控制应用中的神经拟合Q迭代算法45 2.6.3面向多学习器的批处理强化学习46 2.6.4深度拟合Q迭代48 2.6.5应用/发展趋势49 2.7总结50 参考文献50 第3章策略迭代的最小二乘法53 3.1简介53 3.2预备知识:经典策略迭代算法54 3.3近似策略评估的最小二乘法55 3.3.1主要原则和分类55 3.3.2线性情况下和矩阵形式的方程57 3.3.3无模型算法的实现60 3.3.4参考文献62 3.4策略迭代的在线最小二乘法63 3.5例子:car-on-the-hill64 3.6性能保障66 3.6.1渐近收敛性和保证66 3.6.2有限样本的保证68 3.7延伸阅读73 参考文献74 第4章学习和使用模型78 4.1简介78 4.2什么是模型79 4.3规划80 4.4联合模型和规划82 4.5样本复杂度84 4.6分解域86 4.7探索88 4.8连续域91 4.9实证比较93 4.10扩展95 4.11总结96 参考文献97 第5章强化学习中的迁移:框架和概观101 5.1简介101 5.2强化学习迁移的框架和分类102 5.2.1迁移框架102 5.2.2分类104 5.3固定状态-动作空间中从源到目标迁移的方法108 5.3.1问题形式化108 5.3.2表示迁移109 5.3.3参数迁移110 5.4固定状态-动作空间中跨多任务迁移的方法111 5.4.1问题形式化111 5.4.2实例迁移111 5.4.3表示迁移112 5.4.4参数迁移113 5.5不同状态-动作空间中从源到目标任务迁移的方法114 5.5.1问题形式化114 5.5.2实例迁移115 5.5.3表示迁移115 5.5.4参数迁移116 5.6总结和开放性问题116 参考文献117 第6章探索的样本复杂度边界122 6.1简介122 6.2预备知识123 6.3形式化探索效率124 6.3.1探索的样本复杂度和PAC-MDP124 6.3.2遗憾最小化125 6.3.3平均损失127 6.3.4贝叶斯框架127 6.4通用PAC-MDP定理128 6.5基于模型的方法130 6.5.1Rmax130 6.5.2Rmax的泛化132 6.6无模型方法138 6.7总结141 参考文献141 第三部分建设性的表征方向 第7章连续状态和动作空间中的强化学习146 7.1简介146 7.1.1连续域中的马尔可夫决策过程147 7.1.2求解连续MDP的方法148 7.2函数逼近149 7.2.1线性函数逼近150 7.2.2非线性函数逼近153 7.2.3更新参数154 7.3近似强化学习157 7.3.1数值逼近157 7.3.2策略逼近162 7.4双极车杆实验168 7.5总结171 参考文献171 第8章综述:求解一阶逻辑马尔可夫决策过程179 8.1关系世界中的顺序决策简介179 8.1.1马尔可夫决策过程:代表性和可扩展性180 8.1.2简短的历史和与其他领域的联系181 8.2用面向对象和关系扩展马尔可夫决策过程183 8.2.1关系表示与逻辑归纳183 8.2.2关系型马尔可夫决策过程184 8.2.3抽象问题和求解184 8.3基于模型的解决方案186 8.3.1贝尔曼备份的结构186 8.3.2确切的基于模型的算法187 8.3.3基于近似模型的算法190 8.4无模型的解决方案192 8.4.1固定泛化的价值函数学习192 8.4.2带自适应泛化的价值函数193 8.4.3基于策略的求解技巧196 8.5模型、层级、偏置198 8.6现在的发展201 8.7总结和展望203 参考文献204 第9章层次式技术213 9.1简介213 9.2背景215 9.2.1抽象动作215 9.2.2半马尔可夫决策问题216 9.2.3结构217 9.2.4状态抽象218 9.2.5价值函数分解219 9.2.6优化220 9.3层次式强化学习技术220 9.3.1选项221 9.3.2HAMQ学习222 9.3.3MAXQ223 9.4学习结构226 9.5相关工作和当前研究228 9.6总结230 参考文献230 0章针对强化学习的演化计算235 10.1简介235 10.2神经演化237 10.3TWEANN239 10.3.1挑战239 10.3.2NEAT240 10.4混合方法241 10.4.1演化函数近似242 10.4.2XCS243 10.5协同演化245 10.5.1合作式协同演化245 10.5.2竞争式协同演化246 10.6生成和发展系统247 10.7在线方法249 10.7.1基于模型的技术249 10.7.2在线演化计算250 10.8总结251 参考文献251 第四部分概率模型 1章贝叶斯强化学习260 11.1简介260 11.2无模型贝叶斯强化学习261 11.2.1基于价值函数的算法261 11.2.2策略梯度算法264 11.2.3演员-评论家算法266 11.3基于模型的贝叶斯强化学习268 11.3.1由POMDP表述的贝叶斯强化学习268 11.3.2通过动态规划的贝叶斯强化学习269 11.3.3近似在线算法271 11.3.4贝叶斯多任务强化学习272 11.3.5集成先验知识273 11.4有限样本分析和复杂度问题274 11.5总结和讨论275 参考文献275 2章部分可观察的马尔可夫决策过程279 12.1简介279 12.2部分可观察环境中的决策280 12.2.1POMDP模型280 12.2.2连续和结构化的表达281 12.2.3优化决策记忆282 12.2.4策略和价值函数284 12.3基于模型的技术285 12.3.1基于MDP的启发式解决方案285 12.3.2POMDP的值迭代286 12.3.3确切的值迭代288 12.3.4基于点的值迭代方法290 12.3.5其他近似求解方法291 12.4无先验模型的决策292 12.4.1无记忆技术292 12.4.2学习内部记忆292 12.5近期研究趋势294 参考文献295 3章预测性定义状态表示300 13.1简介300 13.1.1状态是什么301 13.1.2哪一个状态表示301 13.1.3为什么使用预测性定义模型302 13.2PSR303 13.2.1历史及测试303 13.2.2测试的预测304 13.2.3系统动态向量304 13.2.4系统动态矩阵305 13.2.5充分的数据集305 13.2.6状态306 13.2.7更新状态306 13.2.8线性PSR307 13.2.9线性PSR与POMDP的关联307 13.2.10线性PSR的理论结果308 13.3PSR模型学习308 13.3.1发现问题308 13.3.2学习问题309 13.3.3估计系统动态矩阵309 13.4规划与PSR309 13.5PSR的扩展310 13.6其他具有预测性定义状态的模型311 13.6.1可观测算子模型311 13.6.2预测线性高斯模型312 13.6.3时序差分网络312 13.6.4分集自动机312 13.6.5指数族PSR313 13.6.6转换PSR313 13.7总结313 参考文献314 4章博弈论和多学习器强化学习317 14.1简介317 14.2重复博弈319 14.2.1博弈论319 14.2.2重复博弈中的强化学习322 14.3顺序博弈325 14.3.1马尔可夫博弈326 14.3.2马尔可夫博弈中的强化学习327 14.4在多学习器系统中的稀疏交互330 14.4.1多等级学习330 14.4.2协调学习与稀疏交互331 14.5延伸阅读334 参考文献334 5章去中心化的部分可观察马尔可夫决策过程338 15.1简介338 15.2Dec-POMDP框架339 15.3历史状态与策略340 15.3.1历史状态341 15.3.2策略341 15.3.3策略的结构342 15.3.4联合策略的质量343 15.4有限域的Dec-POMDP的解决方案344 15.4.1穷举搜索和Dec-POMDP复杂性344 15.4.2交替优选化344 15.4.3Dec-POMDP的最优价值函数345 15.4.4前推法:启发式搜索348 15.4.5后推法:动态规划350 15.4.6其他有限域的方法353 15.5延伸阅读353 15.5.1一般化和特殊问题353 15.5.2有限Dec-POMDP354 15.5.3强化学习355 15.5.4通信356 参考文献356 第五部分其他应用领域 6章强化学习与心理和神经科学之间的关系364 16.1简介364 16.2经典(巴甫洛夫)条件反射365 16.2.1行为365 16.2.2理论366 16.2.3小结和其他注意事项367 16.3操作性(工具性)条件反射368 16.3.1动作368 16.3.2理论369 16.3.3基于模型的控制与无模型的控制370 16.3.4小结和其他注意事项371 16.4多巴胺371 16.4.1多巴胺作为奖励预测误差372 16.4.2多巴胺的强化信号的作用372 16.4.3小结和其他注意事项373 16.5基底神经节373 16.5.1基底神经节概述374 16.5.2纹状体的神经活动374 16.5.3皮质基神经节丘脑循环375 16.5.4小结和其他注意事项377 16.6总结378 参考文献378 7章游戏领域的强化学习387 17.1简介387 17.1.1目标和结构387 17.1.2范围388 …… |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。