![]()
内容推荐 强化学习是机器学习的重要分支,是实现通用人工智能的重要途径。本书介绍了强化学习在算法层面的快速发展,包括值函数、策略梯度、值分布建模等基础算法,以及为了提升样本效率产生的基于模型学习、探索与利用、多目标学习、层次化学习、技能学习等算法,以及一些新兴领域,包括离线学习、表示学习、元学习等,旨在提升数据高效性和策略的泛化能力的算法,还介绍了应用领域中强化学习在智能控制、机器视觉、语言处理、医疗、推荐、金融等方面的相关知识。 本书深入浅出、结构清晰、重点突出,系统地阐述了强化学习的前沿算法和应用,适合从事人工智能、机器学习、优化控制、机器人、游戏开发等工作的专业技术人员阅读,还可作为计算机、人工智能、智能科学相关专业的研究生和高年级本科生的教材。 作者简介 郝建业,天津大学智能与计算学部副教授,获哈尔滨工业大学学士学位,香港中文大学博士学位,曾任MIT计算机科学与人工智能实验室博士后研究员。研究方向为深度强化学习和多智能体系统,近年在NeurIPS、ICML、ICLR、AAAI、IJCAI等人工智能领域知名会议和IEEE汇刊发表论文80余篇,出版专著2部。 目录 序言 前言 第1章 强化学习简介 1.1 从监督学习到强化学习 1.2 强化学习的发展历史 1.3 强化学习的研究范畴 1.4 强化学习的应用领域 第2章 强化学习基础知识 2.1 强化学习的核心概念 2.2 马尔可夫性和决策过程 2.3 值函数和策略学习 第3章 基于值函数的强化学习算法 3.1 深度Q学习的基本理论 3.1.1 深度Q网络 3.1.2 经验池 3.1.3 目标网络 3.2 深度Q学习的过估计 3.2.1 过估计的产生原因 3.2.2 Double Q-学习 3.3 深度Q学习的网络改进和高效采样 3.3.1 Dueling网络 3.3.2 高效采样 3.4 周期后序迭代Q学习 3.5 Q学习用于连续动作空间 3.5.1 基于并行结构的Q学习 3.5.2 基于顺序结构的Q学习 3.6 实例:使用值函数学习的Atari游戏 3.6.1 环境预处理 3.6.2 Q网络的实现 3.6.3 Q学习的核心步骤 第4章 策略梯度迭代的强化学习算法 4.1 REINFORCE策略梯度 4.1.1 策略梯度的基本形式 4.1.2 降低策略梯度的方差 4.2 异步策略梯度法 4.2.1 引入优势函数 4.2.2 异步策略梯度 4.3 近端策略优化法 4.3.1 裁剪的优化目标 4.3.2 自适应的优化目标 4.4 深度确定性策略梯度 4.4.1 critic学习 4.4.2 actor学习 4.4.3 拓展1:探索噪声 4.4.4 拓展2:孪生DDPG 4.5 熵策略梯度 4.5.1 熵约束的基本原理 4.5.2 SAC算法 4.6 实例:使用策略梯度的Mujoco任务 4.6.1 actor-critic网络实现 4.6.2 核心算法实现 第5章 基于模型的强化学习方法 5.1 如何使用模型来进行强化学习 5.2 基于模型预测的规划 5.2.1 随机打靶法 5.2.2 集成概率轨迹采样法 5.2.3 基于模型和无模型的混合算法 5.2.4 基于想象力的隐式规划方法 5.3 黑盒模型的理论框架 5.3.1 随机下界优化算法 5.3.2 基于模型的策略优化算法 5.4 白盒模型的使用 5.4.1 随机值梯度算法 5.4.2 模型增强的actor-critic算法 5.5 实例:AlphaGo围棋智能体 5.5.1 网络结构介绍 5.5.2 蒙特卡罗树搜索 5.5.3 总体训练流程 第6章 值分布式强化学习算法 6.1 离散分布投影的值分布式算法 6.2 分位数回归的值分布式算法 6.2.1 分位数回归 6.2.2 Wasserstein距离 6.2.3 QR-DQN算法 6.2.4 单调的分位数学习算法 6.3 隐式的值分布网络 6.4 基于值分布的代价敏感学习 6.4.1 IQN中的代价敏感学习 6.4.2 基于IQN的actor-critic模型的代价敏感学习 6.5 实例:基于值分布的Q网络实现 6.5.1 IQN模型构建 6.5.2 IQN损失函数 第7章 强化学习中的探索算法 7.1 探索算法的分类 7.2 基于不确定性估计的探索 7.2.1 参数化后验的算法思路 7.2.2 重采样DQN 7.3 进行虚拟计数的探索 7.3.1 基于图像生成模型的虚拟计数 7.3.2 基于哈希的虚拟计数 7.4 根据环境模型的探索 7.4.1 特征表示的学习 7.4.2 随机网络蒸馏 7.4.3 Never-Give-Up算法 7.5 实例:蒙特祖玛复仇任务的探索 7.5.1 RND网络结构 7.5.2 RND的训练 7.5.3 RND用于探索 第8章 多目标强化学习算法 8.1 以目标为条件的价值函数 8.1.1 熵HER 8.1.2 动态目标HER 8.2 监督式的多目标学习 8.2.1 Hindsight模仿学习 8.2.2 加权监督式多目标学习 8.3 推广的多目标学习 8.4 实例:仿真机械臂的多目标抓取 8.4.1 多目标实验环境 8.4.2 HER的实现方法 8.4.3 MEP的算法实现 第9章 层次化强化学习算法 9.1 层次化学习的重要性 9.2 基于子目标的层次化学习 9.2.1 封建网络的层次化学习 9.2.2 离策略修正的层次化学习 9.2.3 虚拟子目标的强化学习方法 9.3 基于技能的层次化学习 9.3.1 使用随机网络的层次化学习 9.3.2 共享分层的元学习方法 9.4 基于选项的层次化学习 9.4.1 option与半马尔可夫决策过程 9.4.2 option-critic结构 9.5 实例:层次化学习蚂蚁走迷宫任务 第10章 基于技能的强化学习算法 10.1 技能学习的定义 10.2 互信息化的技能学习算法 10.2.1 多样性化技能学习算法 10.2.2 其他基于互信息的技能学习方法 10.3 融合环境模型的技能学习算法 10.4 化状态覆盖的技能学习算法 10.5 实例:人形机器人的技能学习 第11章 离线强化学习算法 11.1 离线强化学习中面临的困难 11.2 策略约束的离线学习 11.2.1 BCQ算法 11.2.2 BRAC算法 11.2.3 TD3-BC算法 11.3 使用保守估计的离线学习 11.4 基于不确定性的离线学习 11.4.1 UWAC算法 |