![]()
内容推荐 深度强化学习结合了深度学习和强化学习,使人工智能体能够在没有监督的情况下学习如何解决顺序决策问题。在过去的十年中,深度强化学习在一系列问题上取得了显著的成果,涵盖从单机游戏和多人游戏到机器人技术等方方面面。本书采用理论结合实践的方法,从直觉开始,然后仔细解释深度强化学习算法的理论,讨论在配套软件库SLMLab中的实现,最后呈现深度强化学习算法的实践细节。 作者简介 劳拉·格雷泽(Laura Graesser)是一名软件工程师,在谷歌从事机器人技术方面的工作。她拥有纽约大学计算机科学硕士学位,专攻机器学习。 目录 第1章 强化学习简介 1.1 强化学习 1.2 强化学习中的MDP 1.3 强化学习中的学习函数 l.4 深度强化学习算法 1.4.1 基于策略的算法 1.4.2 基于值的算法 1.4.3 基于模型的算法 1.4.4 组合方法 1.4.5 本书中的算法 1.4.6 同策略和异策略算法 1.4.7 小结 1.5 强化学习中的深度学习 1.6 强化学习与监督学习 1.6.1 缺乏先知 1.6.2 反馈稀疏性 1.6.3 数据生成 1.7 总结 第一部分 基于策略的算法和基于值的算法 第2章 REINFORCE 2.1 策略 2.2 目标函数 2.3 策略梯度 2.3.1 策略梯度推导 2.4 蒙特卡罗采样 2.5 REINFORCE算法 2.5.1 改进的REINFORCE算法 2.6 实现REINFORcE 2.6.1 一种最小化RINFORCE的实现 2.6.2 用PvTorch构建策略 2.6.3 采样动作 2.6.4 计算策略损失 2.6.5 REINFORCE训练循环 2.6.6 同策略内存回放 2.7 训练REINFORCE智能体 2.8 实验结果 2.8.1 实验:评估折扣因子y的影响 2.8.2 实验:评估基准线的影响 2.9 总结 2.10 扩展阅读 2.11 历史回顾 第3章 SARSA 3.1 Q函数和V函数 3.2 时序差分学习 3.2.1 时序差分学习示例 3.3 sARsA中的动作选择 3.3.1 探索和利用 3.4 SARSA算法 3.4.1 同策略算法 3.5 实现SARSA 3.5.1 动作函数:□贪婪 3.5.2 计算Q损失 3.5.3 SARSA训练循环 3.5.4 同策略批处理内存回放 3.6 训练sARsA智能体 3.7 实验结果 3.7.1 实验:评估学习率的影响 3.8 总结 3.9 扩展阅读 3.10 历史回顾 …… 第二部分 组合方法 第三部分 实践细节 第四部分 环境设计 后记 附录 参考文献 |