网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 深度强化学习 基于Python的理论及实践 |
分类 | 教育考试-大中专教材-大学教材 |
作者 | (美)劳拉·格雷泽,(美)龚辉伦 |
出版社 | 机械工业出版社 |
下载 | |
简介 | 编辑推荐 阐述深度强化机器学习理论和优化算法。围绕深度强化学习的体系特征进行深入浅出地讲解探讨,特点鲜明。本书采用端到端的方式引入深度强化学习,即从感性认识开始,而后解释理论和算法,*后提供代码实现和实用性技巧。 内容推荐 本书围绕深度强化学习进行讲解,结构合理有序,内容重点突出,理论结合实践,全面讨论了深度强化学习的研究成果及实践工具。本书分为四部分,共17章,涉及的主要内容包括:REINFORCE、SARSA、深度Q网络、改进的深度Q网络、优势演员-评论家算法、近端策略优化算法、并行方法、深度强化学习工程实践、SLMLab、神经网络架构、硬件、状态、动作、奖励、转换函数等。 本书可以作为高等院校人工智能、计算机、大数据等相关专业的本科或研究生教材,也可以作为人工智能相关领域的硏究人员和技术人员的参考书籍。 目录 赞誉 译者序 序言 前言 致谢 第1章强化学习简介1 1.1强化学习1 1.2强化学习中的MDP4 1.3强化学习中的学习函数7 1.4深度强化学习算法9 1.4.1基于策略的算法9 1.4.2基于值的算法10 1.4.3基于模型的算法10 1.4.4组合方法11 1.4.5本书中的算法12 1.4.6同策略和异策略算法12 1.4.7小结12 1.5强化学习中的深度学习13 1.6强化学习与监督学习14 1.6.1缺乏先知14 1.6.2反馈稀疏性15 1.6.3数据生成15 1.7总结16 第一部分基于策略的算法和基于值的算法 第2章REINFORCE18 2.1策略18 2.2目标函数19 2.3策略梯度19 2.3.1策略梯度推导20 2.4蒙特卡罗采样22 2.5REINFORCE算法23 2.5.1改进的REINFORCE算法23 2.6实现REINFORCE24 2.6.1一种最小化REINFORCE的实现24 2.6.2用PyTorch构建策略26 2.6.3采样动作28 2.6.4计算策略损失29 2.6.5REINFORCE训练循环30 2.6.6同策略内存回放31 2.7训练REINFORCE智能体33 2.8实验结果36 2.8.1实验:评估折扣因子γ的影响36 2.8.2实验:评估基准线的影响37 2.9总结39 2.10扩展阅读39 2.11历史回顾39 第3章SARSA40 3.1Q函数和V函数40 3.2时序差分学习42 3.2.1时间差分学习示例44 3.3SARSA中的动作选择48 3.3.1探索和利用49 3.4SARSA算法50 3.4.1同策略算法51 3.5实现SARSA52 3.5.1动作函数:ε-贪婪52 3.5.2计算Q损失52 3.5.3SARSA训练循环54 3.5.4同策略批处理内存回放55 3.6训练SARSA智能体56 3.7实验结果58 3.7.1实验:评估学习率的影响58 3.8总结60 3.9扩展阅读60 3.10历史回顾60 第4章深度Q网络62 4.1学习DQN中的Q函数62 4.2DQN中的动作选择64 4.2.1Boltzmann策略65 4.3经验回放67 4.4DQN算法68 4.5实现DQN69 4.5.1计算Q损失70 4.5.2DQN训练循环70 4.5.3内存回放71 4.6训练DQN智能体74 4.7实验结果77 4.7.1实验:评估网络架构的影响77 4.8总结78 4.9扩展阅读79 4.10历史回顾79 第5章改进的深度Q网络80 5.1目标网络80 5.2双重DQN算法82 5.3优先级经验回放85 5.3.1重要性抽样86 5.4实现改进的DQN88 5.4.1网络初始化88 5.4.2计算Q损失89 5.4.3更新目标网络90 5.4.4包含目标网络的DQN91 5.4.5双重DQN91 5.4.6优先级经验回放91 5.5训练DQN智能体玩Atari游戏96 5.6实验结果101 5.6.1实验:评估双重DQN与PER的影响101 5.7总结104 5.8扩展阅读104 第二部分组合方法 第6章优势演员-评论家算法106 6.1演员106 6.2评论家107 6.2.1优势函数107 6.2.2学习优势函数110 6.3A2C算法111 6.4实现A2C113 6.4.1优势估计113 6.4.2计算值损失和策略损失115 6.4.3演员-评论家训练循环116 6.5网络架构117 6.6训练A2C智能体118 6.6.1在Pong上使用n步回报的A2C算法118 6.6.2在Pong上使用GAE的A2C算法121 6.6.3在BipedalWalker上使用n步回报的A2C算法122 6.7实验结果124 6.7.1实验:评估n步回报的影响124 6.7.2实验:评估GAE中λ的影响126 6.8总结127 6.9扩展阅读128 6.10历史回顾128 第7章近端策略优化算法130 7.1替代目标函数130 7.1.1性能突然下降130 7.1.2修改目标函数132 7.2近端策略优化136 7.3PPO算法139 7.4实现PPO141 7.4.1计算PPO的策略损失141 7.4.2PPO训练循环142 7.5训练PPO智能体143 7.5.1在Pong上使用PPO算法143 7.5.2在BipedalWalker上使用PPO算法146 7.6实验结果149 7.6.1实验:评估GAE中λ的影响149 7.6.2实验:评估裁剪变量ε的影响150 7.7总结152 7.8扩展阅读152 第8章并行方法153 8.1同步并行153 8.2异步并行154 8.2.1Hogwild!算法155 8.3训练A3C智能体157 8.4总结160 8.5扩展阅读160 第9章算法总结161 第三部分实践细节 第10章深度强化学习工程实践164 10.1软件工程实践164 10.1.1单元测试164 10.1.2代码质量169 10.1.3Git工作流170 10.2调试技巧171 10.2.1生命迹象172 10.2.2策略梯度诊断172 10.2.3数据诊断173 10.2.4预处理器174 10.2.5内存174 10.2.6算法函数174 10.2.7神经网络175 10.2.8算法简化177 10.2.9问题简化177 10.2.10超参数178 10.2.11实验室工作流178 10.3Atari技巧179 10.4深度强化学习小结181 10.4.1超参数表181 10.4.2算法性能比较184 10.5总结186 第11章SLM Lab187 11.1SLM Lab算法实现187 11.2spec文件188 11.2.1搜索spec语法190 11.3运行SLM Lab192 11.3.1SLM Lab指令193 11.4分析实验结果193 11.4.1实验数据概述193 11.5总结195 第12章神经网络架构196 12.1神经网络的类型196 12.1.1多层感知机196 12.1.2卷积神经网络198 12.1.3循环神经网络199 12.2选择网络族的指导方法199 12.2.1MDP与POMDP200 12.2.2根据环境选择网络202 12.3网络API204 12.3.1输入层和输出层形状推断205 12.3.2自动构建网络207 12.3.3训练步骤209 12.3.4基础方法的使用210 12.4总结211 12.5扩展阅读212 第13章硬件213 13.1计算机213 13.2数据类型217 13.3在强化学习中优化数据类型219 13.4选择硬件222 13.5总结223 第四部分环境设计 第14章状态226 14.1状态示例226 14.2状态完整性231 14.3状态复杂性231 14.4状态信息损失235 14.4.1图像灰度235 14.4.2离散化235 14.4.3散列冲突236 14.4.4元信息损失236 14.5预处理238 14.5.1标准化239 14.5.2图像预处理240 14.5.3时间预处理241 14.6总结244 第15章动作245 15.1动作示例245 15.2动作完整性247 15.3动作复杂性248 15.4总结251 15.5扩展阅读:日常事务中的动作设计252 第16章奖励255 16.1奖励的作用255 16.2奖励设计准则256 16.3总结259 第17章转换函数260 17.1可行性检测260 17.2真实性检测262 17.3总结263后记264 附录A深度强化学习时间线267 附录B示例环境269 参考文献274 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。