强化学习原理及其应用/智能科学技术著作丛书王雪松//朱美强//程玉虎科学出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

《智能科学技术著作丛书》序

序

前言

第1章强化学习概述

1.1 强化学习模型及其基本要素

1.1.1 强化学习模型

1.1.2 强化学习基本要素

1.2 强化学习的发展历史

1.2.1 试错学习

1.2.2 动态规划与最优控制

1.2.3 时间差分学习

1.3 强化学习研究概述

1.3.1 分层强化学习研究现状

1.3.2 近似强化学习研究现状

1.3.3 启发式回报函数设计研究现状

1.3.4 探索和利用平衡研究现状

1.3.5 基于谱图理论的强化学习研究现状

1.4 强化学习方法的应用

1.4.1 自适应优化控制中的应用

1.4.2 调度管理中的应用

1.4.3 人工智能问题求解中的应用

1.5 本书主要内容及安排

参考文献

第2章强化学习基础理论

2.1 马尔科夫决策过程概述

2.1.1 马尔科夫决策过程

2.1.2 策略和值函数t

2.2 基于模型的动态规划方法

2.2.1 线性规划

2.2.2 策略迭代

2.2.3 值迭代

2.2.4 广义策略迭代

2.3 模型未知的强化学习

2.3.1 强化学习基础

2.3.2 蒙特卡罗法

2.3.3 时间差分TD法

2.3.4 Q学习与SARSA学习

2.3.5 Dyna，学习框架

2.3.6 直接策略方法

2.3.7 Actor-Critic学习

2.4 近似强化学习

2.4.1 带值函数逼近的TD学习

2.4.2 近似值迭代

2.4.3 近似策略迭代

2.4.4 最小二乘策略迭代

2.5 本章小结

参考文献

第3章基于支持向量机的强化学习

3.1 支持向量机原理

3.1.1 机器学习

3.1.2 核学习

3.1.3 SVM的思想

3.1.4 SVM的重要概念

3.2 基于半参数支持向量机的强化学习

3.2.1 基于半参数回归模型的Q学习结构

3.2.2 半参数回归模型的学习

3.2.3 仿真研究

3.3 基于概率型支持向量机的强化学习

3.3.1 基于概率型支持向量机分类机的Q学习

3.3.2 概率型支持向量分类机

3.3.3 仿真研究

3.4 本章小结

参考文献

第4章基于状态一动作图测地高斯基的策略迭代强化学习

4.1 强化学习中的基函数选择

4.2 基于状态一动作图测地高斯基的策略迭代

4.2.1 MDP的状态一动作空间图

4.2.2 状态一动作图上测地高斯核

4.2.3 基于状态一动作图测地高斯基的动作值函数逼近

4.3 算法步骤

4.4 仿真研究

4.5 本章小结

参考文献

第5章基于抽象状态的贝叶斯强化学习电梯群组调度

5.1 电梯群组调度强化学习模型

5.2 基于抽象状态的贝叶斯强化学习电梯群组调度

5.2.1 吠态空间抽象

5.2.2 强化学习系统的回报函数

5.2.3 贝叶斯网推断

5.2.4 状态-动作值函数的神经网络逼近

5.2.5 动作选择策略

5.3 仿真研究

5.4 本章小结

参考文献

第6章基于增量最小二乘时间差分的Actor-Critic学习

6.1 策略梯度理论

6.2 基于常规梯度的增量式Actor—Critic学习

6.3 基于iLSTD(A)的Actor—Critic学习

6.4 仿真研究

6.5 本章小结

参考文献

第7章融合经验数据的Actor.Critic强化学习

7.1 增量式Actor—Critic学习算法的数据有效性改进

7.1.1 基于R15STD(λ)或iLSTD(λ)的增量式Actor-Critic学习

7.1.2 算法步骤

7.1.3 仿真研究

7.2 基于自适应重要采样的Actor一Critic学习

7.2.1 基于最小二乘时间差分的Actor-critic强化学习

7.2.2 基于重要采样的估计

7.2.3 基于自适应重要采样的估计

7.2.4 算法步骤

7.2.5 仿真研究

7.3 本章小结

参考文献

第8章基于资格迹的折扣回报型增量自然Actor-Critic学习

8.1 自然梯度

8.2 自然策略梯度的估计方法

8.2.1 基于：Fisher-信息矩阵的自然策略梯度

8.2.2 基于兼容函数逼近器的自然策略梯度

8.2.3 自然策略梯度的仿真

8.2.4 自然策略梯度的特性

8.3 基于资格迹的折扣回报型增量自然.Actor—Critic学习

8.4 仿真研究

8.5 本章小结

参考文献

第9章基于参数探索的EM策略搜索

9.1 策略搜索强化学习方法分析

9.2 期望最大化策略搜索强化学习

9.3 基于参数探索的EM策略搜索学习

9.4 算法步骤

9.5 仿真研究

9.5.1 小球平衡问题

9.5.2 倒立摆平衡问题

9.6 本章小结

参考文献

第10章基于谱图理论的强化学习基础

10.1.谱图理论与谱图分割

10.1.1 谱图理论与谱方法

10.1.2 谱图分割和谱聚类

10.2 基于谱图理论的流形和距离度量学习

10.2.1 流形学习概述

10.2.2 基于流形学习的度量学习

10.3 基于拉普拉斯特征映射法的强化学习

10.3.1 拉普拉斯特征映射法基础

10.3.2 基于拉普拉斯特征映射的强化学习

10.4 基于拉普拉斯特征映射的强化学习分析

10.5 本章小结

参考文献

第11章基于拉普拉斯特征映射的启发式策略选择

11.1 探索和利用平衡问题概述

11.2 启发式策略选择原理

11.3 基于拉普拉斯特征映射的启发式策略选择

11.3.1 基本思想

11.3.2 基于拉普拉斯特征映射的启发式Q学习

11.4 算法步骤、计算复杂度和适用范围

11.4.1 算法主要步骤

11.4.2 计算复杂度

11.4.3 适用范围

11.5 仿真研究

11.5.1 5房间格子世界

11.5.2 对称4房间格子世界

1.6 本章小结

参考文献

第12章基于拉普拉斯特征映射的Dyna规划

12.1 强化学习在移动机器人自主导航中的应用研究概述

12.2 强化学习在井下救援机器人导航中的应用研究

12.3 基于拉普拉斯特征映射的DynaQ算法

12.3.1 Dyna_Q的基本思想

12.3.2 基于谱图理论的优先级机制

12.3.3 算法步骤

12.3.4 计算复杂度分析和适用范围

12.4 仿真结果及分析

12.4.1 5房间格子地图

12.4.2 对称4房间格子地图

12.4.3 9房间格子地图

12.5 本章小结

参考文献

第13章基于谱方法的强化学习迁移研究

13.1 基于谱图理论的强化学习迁移

13.1.1 强化学习迁移概述

13.1.2 基于谱图理论的强化学习迁移分析

13.2 基于谱图理论的Option自动生成研究

13.2.1 Option原理

13.2.2 基于谱图分割的Option自动生成算法概述

13.2.3 虚拟值函数法

13.3 基于谱图理论的强化学习混合迁移方法

13.3.1 基函数的线性插值

13.3.2 迁移基函数的逼近能力

13.3.3 基函数与子任务策略的混合迁移

13.4 算法步骤和适用范围

13.4.1 算法步骤

13.4.2 适用范围

13.5 仿真实验与分析

13.5.1 地图不变迁移

13.5.2 地图比例放大迁移

13.5.3 实验结果统计分析

13.6 本章小结

参考文献

附录

书名	强化学习原理及其应用/智能科学技术著作丛书
分类
作者	王雪松//朱美强//程玉虎
出版社	科学出版社
下载
简介	目录《智能科学技术著作丛书》序序前言第1章强化学习概述 1.1 强化学习模型及其基本要素 1.1.1 强化学习模型 1.1.2 强化学习基本要素 1.2 强化学习的发展历史 1.2.1 试错学习 1.2.2 动态规划与最优控制 1.2.3 时间差分学习 1.3 强化学习研究概述 1.3.1 分层强化学习研究现状 1.3.2 近似强化学习研究现状 1.3.3 启发式回报函数设计研究现状 1.3.4 探索和利用平衡研究现状 1.3.5 基于谱图理论的强化学习研究现状 1.4 强化学习方法的应用 1.4.1 自适应优化控制中的应用 1.4.2 调度管理中的应用 1.4.3 人工智能问题求解中的应用 1.5 本书主要内容及安排参考文献第2章强化学习基础理论 2.1 马尔科夫决策过程概述 2.1.1 马尔科夫决策过程 2.1.2 策略和值函数t 2.2 基于模型的动态规划方法 2.2.1 线性规划 2.2.2 策略迭代 2.2.3 值迭代 2.2.4 广义策略迭代 2.3 模型未知的强化学习 2.3.1 强化学习基础 2.3.2 蒙特卡罗法 2.3.3 时间差分TD法 2.3.4 Q学习与SARSA学习 2.3.5 Dyna，学习框架 2.3.6 直接策略方法 2.3.7 Actor-Critic学习 2.4 近似强化学习 2.4.1 带值函数逼近的TD学习 2.4.2 近似值迭代 2.4.3 近似策略迭代 2.4.4 最小二乘策略迭代 2.5 本章小结参考文献第3章基于支持向量机的强化学习 3.1 支持向量机原理 3.1.1 机器学习 3.1.2 核学习 3.1.3 SVM的思想 3.1.4 SVM的重要概念 3.2 基于半参数支持向量机的强化学习 3.2.1 基于半参数回归模型的Q学习结构 3.2.2 半参数回归模型的学习 3.2.3 仿真研究 3.3 基于概率型支持向量机的强化学习 3.3.1 基于概率型支持向量机分类机的Q学习 3.3.2 概率型支持向量分类机 3.3.3 仿真研究 3.4 本章小结参考文献第4章基于状态一动作图测地高斯基的策略迭代强化学习 4.1 强化学习中的基函数选择 4.2 基于状态一动作图测地高斯基的策略迭代 4.2.1 MDP的状态一动作空间图 4.2.2 状态一动作图上测地高斯核 4.2.3 基于状态一动作图测地高斯基的动作值函数逼近 4.3 算法步骤 4.4 仿真研究 4.5 本章小结参考文献第5章基于抽象状态的贝叶斯强化学习电梯群组调度 5.1 电梯群组调度强化学习模型 5.2 基于抽象状态的贝叶斯强化学习电梯群组调度 5.2.1 吠态空间抽象 5.2.2 强化学习系统的回报函数 5.2.3 贝叶斯网推断 5.2.4 状态-动作值函数的神经网络逼近 5.2.5 动作选择策略 5.3 仿真研究 5.4 本章小结参考文献第6章基于增量最小二乘时间差分的Actor-Critic学习 6.1 策略梯度理论 6.2 基于常规梯度的增量式Actor—Critic学习 6.3 基于iLSTD(A)的Actor—Critic学习 6.4 仿真研究 6.5 本章小结参考文献第7章融合经验数据的Actor.Critic强化学习 7.1 增量式Actor—Critic学习算法的数据有效性改进 7.1.1 基于R15STD(λ)或iLSTD(λ)的增量式Actor-Critic学习 7.1.2 算法步骤 7.1.3 仿真研究 7.2 基于自适应重要采样的Actor一Critic学习 7.2.1 基于最小二乘时间差分的Actor-critic强化学习 7.2.2 基于重要采样的估计 7.2.3 基于自适应重要采样的估计 7.2.4 算法步骤 7.2.5 仿真研究 7.3 本章小结参考文献第8章基于资格迹的折扣回报型增量自然Actor-Critic学习 8.1 自然梯度 8.2 自然策略梯度的估计方法 8.2.1 基于：Fisher-信息矩阵的自然策略梯度 8.2.2 基于兼容函数逼近器的自然策略梯度 8.2.3 自然策略梯度的仿真 8.2.4 自然策略梯度的特性 8.3 基于资格迹的折扣回报型增量自然.Actor—Critic学习 8.4 仿真研究 8.5 本章小结参考文献第9章基于参数探索的EM策略搜索 9.1 策略搜索强化学习方法分析 9.2 期望最大化策略搜索强化学习 9.3 基于参数探索的EM策略搜索学习 9.4 算法步骤 9.5 仿真研究 9.5.1 小球平衡问题 9.5.2 倒立摆平衡问题 9.6 本章小结参考文献第10章基于谱图理论的强化学习基础 10.1.谱图理论与谱图分割 10.1.1 谱图理论与谱方法 10.1.2 谱图分割和谱聚类 10.2 基于谱图理论的流形和距离度量学习 10.2.1 流形学习概述 10.2.2 基于流形学习的度量学习 10.3 基于拉普拉斯特征映射法的强化学习 10.3.1 拉普拉斯特征映射法基础 10.3.2 基于拉普拉斯特征映射的强化学习 10.4 基于拉普拉斯特征映射的强化学习分析 10.5 本章小结参考文献第11章基于拉普拉斯特征映射的启发式策略选择 11.1 探索和利用平衡问题概述 11.2 启发式策略选择原理 11.3 基于拉普拉斯特征映射的启发式策略选择 11.3.1 基本思想 11.3.2 基于拉普拉斯特征映射的启发式Q学习 11.4 算法步骤、计算复杂度和适用范围 11.4.1 算法主要步骤 11.4.2 计算复杂度 11.4.3 适用范围 11.5 仿真研究 11.5.1 5房间格子世界 11.5.2 对称4房间格子世界 1.6 本章小结参考文献第12章基于拉普拉斯特征映射的Dyna规划 12.1 强化学习在移动机器人自主导航中的应用研究概述 12.2 强化学习在井下救援机器人导航中的应用研究 12.3 基于拉普拉斯特征映射的DynaQ算法 12.3.1 Dyna_Q的基本思想 12.3.2 基于谱图理论的优先级机制 12.3.3 算法步骤 12.3.4 计算复杂度分析和适用范围 12.4 仿真结果及分析 12.4.1 5房间格子地图 12.4.2 对称4房间格子地图 12.4.3 9房间格子地图 12.5 本章小结参考文献第13章基于谱方法的强化学习迁移研究 13.1 基于谱图理论的强化学习迁移 13.1.1 强化学习迁移概述 13.1.2 基于谱图理论的强化学习迁移分析 13.2 基于谱图理论的Option自动生成研究 13.2.1 Option原理 13.2.2 基于谱图分割的Option自动生成算法概述 13.2.3 虚拟值函数法 13.3 基于谱图理论的强化学习混合迁移方法 13.3.1 基函数的线性插值 13.3.2 迁移基函数的逼近能力 13.3.3 基函数与子任务策略的混合迁移 13.4 算法步骤和适用范围 13.4.1 算法步骤 13.4.2 适用范围 13.5 仿真实验与分析 13.5.1 地图不变迁移 13.5.2 地图比例放大迁移 13.5.3 实验结果统计分析 13.6 本章小结参考文献附录内容推荐作为一类求解序贯优化决策问题的有效方法，强化学习在运筹学、计算科学和自动控制等领域得到广泛应用，业已成为机器学习领域最活跃的研究分支之一。现阶段，强化学习研究的核心问题是如何解决维数灾难，提高学习效率。王雪松、朱美强、程玉虎编写的《强化学习原理及其应用》的主要内容正是针对上述问题展开的，分别从值函数逼近、直接策略搜索和基于谱方法的学习3个方面来阐述强化学习的理论、方法及其应用，共13章。第l章～第2章为强化学习概述和相关基础理论。第3章—第5章为基于值函数估计的强化学习方法，包括基于支持向量机、测地高斯基的强化学习和基于抽象状态的贝叶斯强化学习。第6章—第9章为直接策略搜索强化学习方法，包括基于增量最小二乘时间差分的Actor-Critic学习、融合经验数据的Actor-Critic强化学习、基于资格迹的折扣回报型增量自然Actor-Critic学习和基于参数探索的期望最大策略搜索。第10章～第13章为基于谱方法的强化学习研究，包括基于拉普拉斯特征映射的启发式策略选择、Dyna规划和迁移研究。为便于应用本书阐述的算法，书后附有部分强化学习算法MATLAB源程序。《强化学习原理及其应用》可供理工科高等院校计算机科学、信息科学、人工智能和自动化技术及相关专业的教师与研究生阅读，也可供自然科学和工程领域中的研究人员参考。编辑推荐《强化学习原理及其应用》是作者王雪松、朱美强、程玉虎近年来在国家自然科学基金、教育部“新世纪优秀人才支持计划”、江苏省自然科学基金以及教育部博士学科点专项科研基金项目的资助下，取得的一系列关于强化学习研究成果的结晶，不仅是对已有研究成果的全面总结，也是对当前强化学习研究成果的重要补充。书中全面、系统地介绍了强化学习的基本概念、发展历史、分类及其部分主要算法，并重点围绕当前强化学习领域的热点问题展开研究，主要包括：基于值函数估计的强化学习方法、直接策略搜索强化学习方法和基于谱图理论的强化学习。
随便看	英语词汇学习英语与从事英语工作的人生历程轨道法讲义在通往语言途中的教育语言论教育论纲英汉语比较与翻译 12 行走的学习场馆研学课程的编制与实施后殖民文学的核心概念实验数据分析高等数学习题精选精解(专科版) 国际法(第4版)/中国法学教科书原理与研究系列微气象学基础(第2版普通高等教育十一五国家级规划教材) 2022年度第二届文章杯下水作文大赛获奖作品集锦(初中卷) 变局(组织管理创新案例集)/新时代管理案例丛书护理学<中级>考试考前密押试卷与解析/2023护考应急包经济学基础(高等职业教育财经商贸类专业基础课经世济民立德树人新形态一体化教材) 托妮·莫里森与新黑人(精) 综合医学基础实训指导(供高职高专护理专业用) 大地上的英雄数字化转型战略的河南实践线性代数练习册(名师名校新形态通识教育系列教材) 法律方法(第39卷) 全能家居创意提案(空间规划) 新编司法精神医学(新法科法学核心课程系列教材) 花木兰/迪士尼拼音认读图画故事中华人民共和国公务员法/人事人才政策法规专辑美柚-大姨妈月经期助手 FoldingText For Mac 天翼超清移动家教王(试用版) Contacts Sync For Mac K2UI For Mac Optim For Mac 冰点还原For Mac SearchBar For Mac OptimApps For Mac 我的世界霸占孤岛地图存档 v2.0 我的世界空岛商店生存地图存档 v1.0 实况足球2016夏季转会存档 v2.0 我的世界不死的村民地图存档 v2.0 NBA2K15麦迪属性徽章全满存档 v2.0 深蓝人机大战黑白棋 v3.6 NBA2K15科比辉煌生涯存档 v2.0 深蓝中国象棋人机对弈 v3.6 实况足球2016英超明星队存档 v2.0 深蓝CF窗口化工具箱 v3.0 buzzard buzz cut buzzed-up buzzer buzzword buzzy by bye-bye by-election bygone [BT下载][飞狐外传][第25-26集][WEB-MP4/1.22G][国语配音/中文字幕][1080P][SeeWEB] 剧集 2022 大陆武侠连载 [BT下载][台北女子图鉴][第01-02集][WEB-MKV/4.04G][国语音轨/简繁英字幕][1080P][Disney+][Xiaomi] 剧集 2022 台湾剧情连载 [BT下载][蒙面歌王美版/The Masked Singer 第八季][更新至01集][英语无字][MKV][720P/1080P][片源] 剧集 2022 美国真人追更 [BT下载][卡戴珊家族 The Kardashians 第二季][更新至01集][英语无字][MKV][720P/1080P][多版] 剧集 2022 美国真人追更 [BT下载][炒作 The Hype 第一季][全08集][英语无字][MKV][720P/1080P][WEB-RAW] 剧集 2021 美国真人打包 [BT下载][炒作 The Hype 第二季][更新至03集][英语无字][MKV][720P/1080P][片源] 剧集 2022 美国真人追更 [BT下载][戈德堡一家/金色年代/The Goldbergs 第十季][更新至01集][英语无字][MKV][720P/1080P][片源] 剧集 2022 美国喜剧追更 [BT下载][康纳一家/康纳家庭生活 The Conners 第五季][更新至01集][英语无字][MKV][720P/1080P][片源] 剧集 2022 美国喜剧追更 [BT下载][极速前进/The Amazing Race 第三十四季][更新至01集][英语无字][MKV][720P/1080P][多版] 剧集 2022 美国真人追更 [BT下载][幸存者 Survivor 第四十三季][更新至01集][英语无字][MKV][720P/1080P][多版] 剧集 2022 美国真人追更沙石镇时光航天飞船模型碎片在哪里-航天飞船模型碎片位置介绍夸克浏览器如何识别食物能量-夸克浏览器识别食物能量的方法沙石镇时光猫咪石像碎片在哪里-猫咪石像碎片位置介绍夸克浏览器怎么添加新窗口-夸克浏览器添加新窗口的方法沙石镇时光鸡毛掸子怎么获得-沙石镇时光鸡毛掸子获得方法夸克浏览器如何设置视频播放位置-设置视频播放位置的方法沙石镇时光中级废品加工机怎么建造-中级废品加工机建造方法夸克浏览器如何分享文件-夸克浏览器分享文件的方法沙石镇时光民用机床怎么建造-沙石镇时光民用机床建造方法沙石镇时光黄金牛头碎片在哪里-黄金牛头碎片位置一览