![]()
编辑推荐 " 本书带领读者深入强化宁习算法的世界,并使用Fyth cn在不同用例中应用它们。其中涵盖了一些重要主题,例如策略样度算法和Q学习算法,并使用了TensorFlaw. Keras和OpenAl Gym框架。 本书带领读者深入强化宁习算法的世界,并使用Fyth cn在不同用例中应用它们。其中涵盖了一些重要主题,例如策略样度算法和Q学习算法,并使用了TensorFlaw. Keras和OpenAl Gym框架。 本书介绍了强化学习(RL)算法背后的理论及用于实现它们的代码。读占将依次学习CpenAl Gym的各类功能,从应用标准库,到创建白己的环境,再到掌掘如何构建龚化学习问题,从而能够研究、开发和部署基千强化学习的解决方案。 " 内容推荐 《Python强化学习实战:使用OpenAI Gym、TensorFlow和Keras》带领读者深入强化学习算法的世界,并使用Python在不同用例中应用它们。其中涵盖了一些重要主题,例如策略梯度算法和Q学习算法,并使用了TensorFlow、Keras和OpenAIGym框架。 《Python强化学习实战:使用OpenAI Gym、TensorFlow和Keras》介绍了强化学习(RL)算法背后的理论及用于实现它们的代码。读者将依次学习OpenAIGym的各类功能,从应用标准库,到创建自己的环境,再到掌握如何构建强化学习问题,从而能够研究、开发和部署基于强化学习的解决方案。 目录 第1章强化学习导论1 1.1强化学习的发展史2 1.2MDP及其与强化学习的关系3 1.3强化学习算法和强化学习框架5 1.4Q学习8 1.5强化学习的应用9 1.5.1经典控制问题9 1.5.2《超级马里奥兄弟》游戏10 1.5.3《毁灭战士》游戏11 1.5.4基于强化学习的做市策略12 1.5.5《刺猬索尼克》游戏12 1.6本章小结13 第2章强化学习算法15 2.1OpenAIGym15 2.2基于策略的学习16 2.3策略梯度的数学解释17 2.4基于梯度上升的策略优化19 2.5使用普通策略梯度法求解车杆问题20 2.6什么是折扣奖励,为什么要使用它们23 2.7策略梯度的不足28 2.8近端策略优化(PPO)和Actor-Critic模型29 2.9实现PPO并求解《超级马里奥兄弟》30 2.9.1《超级马里奥兄弟》概述30 2.9.2安装环境软件包31 2.9.3资源库中的代码结构32 2.9.4模型架构32 2.10应对难度更大的强化学习挑战37 2.11容器化强化学习实验39 2.12实验结果41 2.13本章小结41 第3章强化学习算法:Q学习及其变种43 3.1Q学习43 3.2时序差分(TD)学习45 3.3epsilon-greedy算法46 3.4利用Q学习求解冰湖问题47 3.5深度Q学习50 3.6利用深度Q学习玩《毁灭战士》游戏51 3.7训练与性能56 3.8深度Q学习的局限性57 3.9双Q学习和双深度Q网络58 3.10本章小结59 第4章基于强化学习的做市策略61 4.1什么是做市61 4.2TradingGym63 4.3为什么强化学习适用于做市64 4.4使用TradingGym合成订单簿数据66 4.5使用TradingGym生成订单簿数据67 4.6实验设计68 4.6.1强化学习方法1:策略梯度71 4.6.2强化学习方法2:深度Q网络71 4.7结果和讨论73 4.8本章小结74 第5章自定义OpenAI强化学习环境75 5.1《刺猬索尼克》游戏概述75 5.2下载该游戏76 5.3编写该环境的代码78 5.4A3CActor-Critic82 5.5本章小结88 附录A源代码91 |