网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | TensorFlow强化学习快速入门指南--使用Python动手搭建自学习的智能体/大数据丛书 |
分类 | |
作者 | (美)考希克·巴拉克里希南 |
出版社 | 机械工业出版社 |
下载 | ![]() |
简介 | 内容推荐 强化学习是一类重要的机器学习方法,在很多领域得到了成功的应用,很近几年与深度学习结合起来,进一步推动了人工智能的发展。本书首先介绍了强化学习的基本原理,然后介绍典型的强化学习算法,包括时序差分、SARSA、Q-Learning、DeepQ-network、Double DQN、竞争网络结构、Rainbow、Actor-Critic、A2C、A3C、TRPO和PPO等,每种算法基本上利用了主流的开源机器学习框架TensorFlow,使用Python编程进行实现。此外,还介绍了一些上述算法的应用。本书可以使读者快速理解强化学习的基本知识,并通过简单的案例加深对算法的理解。本书适合对强化学习感兴趣的普通高校师生以及相关专业人员阅读。 目录 译者序 前言 章 强化学习的启动和运行 1.1 为何选择强化学习 阐述强化学习问题 1.2 agent及其环境之间的关系 1.2.1 定义agent的状态 1.2.2 定义agent的行为 1.2.3 了解策略、价值函数和优势函数 1.3 认识回合 1.4 认识奖励函数和折扣奖励奖励 1.5 学习马尔可夫决策过程 1.6 定义贝尔曼方程 1.7 同步策略与异步策略学习 1.7.1 同步策略方法 1.7.2 异步策略方法 1.8 无模型训练和基于模型训练 1.9 本书中涉及的算法 总结 思考题 扩展阅读 第2章 时序差分、SARSA与Q-Learning 2.1 技术需求 2.2 理解TD学习 价值函数与状态之间的关系 2.3 理解SARSA与Q-Learning 2.3.1 学习SARSA 2.3.2 理解Q-Learning 2.4 悬崖徒步与网格世界问题 2.4.1 SARSA下的悬崖徒步 2.4.2 Q-Learning下的悬崖徒步 2.4.3 SARSA下的网格世界 总结 扩展阅读 第3章 深度Q网络 3.1 技术需求 3.2 学习DQN原理 3.3 理解目标网络 3.4 了解重放缓冲区 3.5 Atari环境介绍 3.5.1 Atari游戏概述 3.5.2 用TensorFlow编写DQN 3.6 验证DQN在Atari Breakout上的性能 总结 思考题 扩展阅读 第4章 Double DQN、竞争网络结构和Rainbow 4.1 技术需求 4.2 了解Double DQN 4.2.1 编写DDQN并训练解决Atari Breakout问题 4.2.2 在Atari Breakout问题中评估DDQN的性能 4.3 理解竞争网络结构 4.3.1 编写竞争网络结构并训练其解决Atari Breakout问题 4.3.2 在Atari Breakout中评估竞争网络结构的性能 4.4 了解Rainbow网络DQN改进 4.5 在Dopamine上运行Rainbow网络 使用Dopamine运行Rainbow 总结 思考题 扩展阅读 第5章 深度确定性策略梯度 5.1 技术需求 5.2 Actor-Critic算法和策略梯度策略梯度 5.3 深度确定性策略梯度 5.3.1 编写ddpg.py 5.3.2 编写AandC.py 5.3.3 编写TrainOrTest.py 5.3.4 编写replay_buffer.py 5.4 在Pendulum-v0中训练和测试DDPG 总结 思考题 扩展阅读 第6章 异步的方法——A3C和A2C 6.1 技术需求 6.2 A3C算法 6.2.1 损失函数 6.2.2 CartPole and LunarLander 6.3 A3C算法在CartPole中的应用 6.3.1 编写cartpole.py 6.3.2 编写a3c.py 6.3.3 Worker类 6.3.4 编写utils.py 6.3.5 CartPole训练 6.4 A3C算法在LunarLander中的应用 6.4.1 编写lunar.py 6.4.2 在LunarLander上训练 6.5 A2C算法 总结 思考题 扩展阅读 第7章 信任区域策略优化和近端策略优化 7.1 技术需求 7.2 学习TRPO TRPO方程 7.3 学习PPO PPO损失函数 7.4 使用PPO解决Mountain Car问题 7.4.1 编写class_ppo.py 7.4.2 编写train_test.py 7.5 评估性能 7.6 马力全开 7.7 随机发力 总结 思考题 扩展阅读 第8章 深度强化学习在自动驾驶中的应用 8.1 技术需求 8.2 汽车驾驶模拟器 8.3 学习使用ORCS 8.3.1 状态空间 8.3.2 支持文件 8.4 训练 DDPG agent来学习驾驶 8.4.1 编写ddpg.py 8.4.2 编写AandC.py 8.4.3 编写TrainOrTest.py 8.5 训练 PPO agent 总结 思考题 扩展阅读 附录 思考题答案 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。