网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 统计强化学习(现代机器学习方法)/智能科学与技术丛书
分类
作者 (日)杉山将
出版社 机械工业出版社
下载
简介
内容推荐
本书将统计学习和强化学习相结合,对强化学习函数估计中的基函数设计、样本重用以及策略搜索、模型估计等做了深入浅出的介绍。全书共11章,分为四部分:第一部分(第1章)介绍了强化学习的基本知识;第二部分(第2~6章)介绍了模型无关策略迭代的知识;第三部分(第7~9章)介绍了模型无关策略搜索的知识;第四部分(第10~11章)介绍了基于模型的强化学习。本书适合从事人工智能和机器学习研究和应用的专家学者、技术人员、研究生阅读。
作者简介
杉山将(Masashi Sugiyama)东京大学教授,拥有东京工业大学计算机科学博士学位,研究兴趣包括机器学习与数据挖掘的理论、算法和应用,涉及信号处理、图像处理、机器人控制等。2007年获得IBM学者奖,以表彰其在机器学习领域非平稳性方面做出的贡献。2011年获得日本信息处理协会颁发的Nagao特别研究员奖,以及日本文部科学省颁发的青年科学家奖,以表彰其对机器学习密度比范型的贡献。
目录
译者序

前言
作者简介
第一部分 简介
第1章 强化学习介绍
1.1 强化学习
1.2 数学形式化
1.3 本书结构
1.3.1 模型无关策略迭代
1.3.2 模型无关策略搜索
1.3.3 基于模型的强化学习
第二部分 模型无关策略迭代
第2章 基于值函数近似的策略迭代
2.1 值函数
2.1.1 状态值函数
2.1.2 状态-动作值函数
2.2 最小二乘策略迭代
2.2.1 瞬时奖赏回归
2.2.2 算法
2.2.3 正则化
2.2.4 模型选择
2.3 本章小结
第3章 值函数近似中的基函数设计
3.1 图中的高斯核
3.1.1 MDP-诱导图
3.1.2 通用高斯核
3.1.3 测地线高斯核
3.1.4 扩展到连续状态空间
3.2 图解说明
3.2.1 配置
3.2.2 测地线高斯核
3.2.3 通用高斯核
3.2.4 图拉普拉斯特征基
3.2.5 扩散小波
3.3 数值示例
3.3.1 机器人手臂控制
3.3.2 机器人导航
3.4 本章小结
第4章 策略迭代中的样本重用
4.1 形式化
4.2 离策略值函数近似
4.2.1 片段重要性加权
4.2.2 每次决策的重要性加权
4.2.3 自适应的每次决策重要性加权
4.2.4 图解说明
4.3 展平参数的自动选择
4.3.1 重要性加权交叉验证
4.3.2 图解说明
4.4 样本重用策略迭代
4.4.1 算法
4.4.2 图解说明
4.5 数值示例
4.5.1 倒立摆
4.5.2 小车爬山
4.6 本章小结
第5章 策略迭代中的主动学习
5.1 主动学习的高效探索
5.1.1 问题配置
5.1.2 泛化误差的分解
5.1.3 估计泛化误差
5.1.4 设计采样策略
5.1.5 图解说明
5.2 主动策略迭代
5.2.1 具有主动学习的样本重用策略迭代
5.2.2 图解说明
5.3 数值示例
5.4 本章小结
第6章 鲁棒策略迭代
6.1 策略迭代中的鲁棒性和可靠性
6.1.1 鲁棒性
6.1.2 可靠性
6.2 最小绝对策略迭代
6.2.1 算法
6.2.2 图解说明
6.2.3 性质
6.3 数值示例
6.4 可能的拓展
6.4.1 Huber损失
6.4.2 pinball损失
6.4.3 deadzone-linear损失
6.4.4 切比雪夫逼近
6.4.5 条件风险值
6.5 本章小结
第三部分 模型无关策略搜索
第7章 梯度上升的直接策略搜索
7.1 形式化
7.2 梯度方法
7.2.1 梯度上升
7.2.2 方差约简的基线减法
7.2.3 梯度估计量的方差分析
7.3 自然梯度法
7.3.1 自然梯度上升
7.3.2 图解说明
7.4 计算机图形中的应用:艺术家智能体
7.4.1 东方山水画绘画
7.4.2 状态、动作和瞬时奖赏的设计
7.4.3 实验结果
7.5 本章小结
第8章 期望最大化的直接策略搜索
8.1 期望最大化方法
8.2 样本重用
8.2.1 片段重要性加权
8.2.2 每次决策的重要性加权
8.2.3 自适应的每次决策重要性加权
8.2.4 展平参数的自动选择
8.2.5 样本重用的加权奖赏回归
8.3 数值示例
8.4 本章小结
第9章 策略优先搜索
9.1 形式化
9.2 基于参数探索的策略梯度
9.2.1 策略优先的梯度上升
9.2.2 方差约简的基线减法
9.2.3 梯度估计量的方差分析
9.2.4 数值示例
9.3 策略优先搜索中的样本重用
9.3.1 重要性加权
9.3.2 基线减法的方差约简
9.3.3 数值示例
9.4 本章小结
第四部分 基于模型的强化学习
第10章 转移模型估计
10.1 条件密度估计
10.1.1 基于回归的方法
10.1.2 ε-邻域核密度估计
10.1.3 最小二乘条件密度估计
10.2 基于模型的强化学习
10.3 数值示例
10.3.1 连续型链条游走
10.3.2 人形机器人控制
10.4 本章小结
第11章 转移模型估计的维度约简
11.1 充分维度约简
11.2 平方损失条件熵
11.2.1 条件独立
11.2.2 利用SCE进行维度约简
11.2.3 SCE与平方损失互信息的关系
11.3 数值示例
11.3.1 人工和标准数据集
11.3.2 人形机器人
11.4 本章小结
参考文献
导语
本书为强化学习算法引入了一种发人深省的统计处理方法,反映了作者在该领域的工作和研究状态,为快速发展的机器学习文献补充了最新的资料。初学者和经验丰富的研究人员都会发现此书是理解最新强化学习技术的重要来源。
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/2/23 0:55:11