网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 强化学习/智能科学与技术丛书
分类
作者 (荷)马可·威宁(Marco Wiering),(荷)马丁·范·奥特罗(Martijn Van Otterlo) 编著;赵地 等 译
出版社 机械工业出版社
下载
简介
内容推荐
本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容,并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用,后提出未来发展趋势及研究热点问题,有助于年轻的研究者了解整个强化学习领域,发现新的研究方向。本书适合作为高等院校机器学习相关课程的参考书,也可作为人工智能领域从业技术人员的参考用书。
作者简介
马可·威宁,在荷兰格罗宁根大学人工智能系工作,他发表过各种强化学习主题的文章,研究领域包括强化学习、机器学习、深度学习、目标识别、文本学习,进化计算、机器人等。
马丁·范·奥特罗,是荷兰奈梅亨大学认知人工智能小组的一员。主要研究领域是强化学习在环境中的知识表示。
目录
译者序
序言
前言
作者清单
部分绪论
章强化学习和马尔可夫决策过程2
1.1简介2
1.2时序决策3
1.2.1接近时序决策4
1.2.2在线学习与离线学习4
1.2.3贡献分配5
1.2.4探索-运用的平衡5
1.2.5反馈、目标和性能5
1.2.6表达6
1.3正式的框架6
1.3.1马尔可夫决策过程7
1.3.2策略9
1.3.3最优准则和减量9
1.4价值函数和贝尔曼方程10
1.5求解马尔可夫决策过程12
1.6动态规划:基于模型的解决方案13
1.6.1基本的动态规划算法13
1.6.2高效的动态规划算法17
1.7强化学习:无模型的解决方案19
1.7.1时序差分学习20
1.7.2蒙特卡罗方法23
1.7.3高效的探索和价值更新24
1.8总结27
参考文献27
第二部分高效的解决方案框架
第2章批处理强化学习32
2.1简介32
2.2批处理强化学习问题33
2.2.1批处理学习问题33
2.2.2增长批处理学习问题34
2.3批处理强化学习算法的基础34
2.4批处理强化学习算法37
2.4.1基于核的近似动态规划37
2.4.2拟合Q迭代39
2.4.3基于最小二乘的策略迭代40
2.4.4识别批处理算法41
2.5批处理强化学习理论42
2.6批处理强化学习的实现43
2.6.1神经拟合Q迭代44
2.6.2控制应用中的神经拟合Q迭代算法45
2.6.3面向多学习器的批处理强化学习46
2.6.4深度拟合Q迭代48
2.6.5应用/发展趋势49
2.7总结50
参考文献50
第3章策略迭代的最小二乘法53
3.1简介53
3.2预备知识:经典策略迭代算法54
3.3近似策略评估的最小二乘法55
3.3.1主要原则和分类55
3.3.2线性情况下和矩阵形式的方程57
3.3.3无模型算法的实现60
3.3.4参考文献62
3.4策略迭代的在线最小二乘法63
3.5例子:car-on-the-hill64
3.6性能保障66
3.6.1渐近收敛性和保证66
3.6.2有限样本的保证68
3.7延伸阅读73
参考文献74
第4章学习和使用模型78
4.1简介78
4.2什么是模型79
4.3规划80
4.4联合模型和规划82
4.5样本复杂度84
4.6分解域86
4.7探索88
4.8连续域91
4.9实证比较93
4.10扩展95
4.11总结96
参考文献97
第5章强化学习中的迁移:框架和概观101
5.1简介101
5.2强化学习迁移的框架和分类102
5.2.1迁移框架102
5.2.2分类104
5.3固定状态-动作空间中从源到目标迁移的方法108
5.3.1问题形式化108
5.3.2表示迁移109
5.3.3参数迁移110
5.4固定状态-动作空间中跨多任务迁移的方法111
5.4.1问题形式化111
5.4.2实例迁移111
5.4.3表示迁移112
5.4.4参数迁移113
5.5不同状态-动作空间中从源到目标任务迁移的方法114
5.5.1问题形式化114
5.5.2实例迁移115
5.5.3表示迁移115
5.5.4参数迁移116
5.6总结和开放性问题116
参考文献117
第6章探索的样本复杂度边界122
6.1简介122
6.2预备知识123
6.3形式化探索效率124
6.3.1探索的样本复杂度和PAC-MDP124
6.3.2遗憾最小化125
6.3.3平均损失127
6.3.4贝叶斯框架127
6.4通用PAC-MDP定理128
6.5基于模型的方法130
6.5.1Rmax130
6.5.2Rmax的泛化132
6.6无模型方法138
6.7总结141
参考文献141
第三部分建设性的表征方向
第7章连续状态和动作空间中的强化学习146
7.1简介146
7.1.1连续域中的马尔可夫决策过程147
7.1.2求解连续MDP的方法148
7.2函数逼近149
7.2.1线性函数逼近150
7.2.2非线性函数逼近153
7.2.3更新参数154
7.3近似强化学习157
7.3.1数值逼近157
7.3.2策略逼近162
7.4双极车杆实验168
7.5总结171
参考文献171
第8章综述:求解一阶逻辑马尔可夫决策过程179
8.1关系世界中的顺序决策简介179
8.1.1马尔可夫决策过程:代表性和可扩展性180
8.1.2简短的历史和与其他领域的联系181
8.2用面向对象和关系扩展马尔可夫决策过程183
8.2.1关系表示与逻辑归纳183
8.2.2关系型马尔可夫决策过程184
8.2.3抽象问题和求解184
8.3基于模型的解决方案186
8.3.1贝尔曼备份的结构186
8.3.2确切的基于模型的算法187
8.3.3基于近似模型的算法190
8.4无模型的解决方案192
8.4.1固定泛化的价值函数学习192
8.4.2带自适应泛化的价值函数193
8.4.3基于策略的求解技巧196
8.5模型、层级、偏置198
8.6现在的发展201
8.7总结和展望203
参考文献204
第9章层次式技术213
9.1简介213
9.2背景215
9.2.1抽象动作215
9.2.2半马尔可夫决策问题216
9.2.3结构217
9.2.4状态抽象218
9.2.5价值函数分解219
9.2.6优化220
9.3层次式强化学习技术220
9.3.1选项221
9.3.2HAMQ学习222
9.3.3MAXQ223
9.4学习结构226
9.5相关工作和当前研究228
9.6总结230
参考文献230
0章针对强化学习的演化计算235
10.1简介235
10.2神经演化237
10.3TWEANN239
10.3.1挑战239
10.3.2NEAT240
10.4混合方法241
10.4.1演化函数近似242
10.4.2XCS243
10.5协同演化245
10.5.1合作式协同演化245
10.5.2竞争式协同演化246
10.6生成和发展系统247
10.7在线方法249
10.7.1基于模型的技术249
10.7.2在线演化计算250
10.8总结251
参考文献251
第四部分概率模型
1章贝叶斯强化学习260
11.1简介260
11.2无模型贝叶斯强化学习261
11.2.1基于价值函数的算法261
11.2.2策略梯度算法264
11.2.3演员-评论家算法266
11.3基于模型的贝叶斯强化学习268
11.3.1由POMDP表述的贝叶斯强化学习268
11.3.2通过动态规划的贝叶斯强化学习269
11.3.3近似在线算法271
11.3.4贝叶斯多任务强化学习272
11.3.5集成先验知识273
11.4有限样本分析和复杂度问题274
11.5总结和讨论275
参考文献275
2章部分可观察的马尔可夫决策过程279
12.1简介279
12.2部分可观察环境中的决策280
12.2.1POMDP模型280
12.2.2连续和结构化的表达281
12.2.3优化决策记忆282
12.2.4策略和价值函数284
12.3基于模型的技术285
12.3.1基于MDP的启发式解决方案285
12.3.2POMDP的值迭代286
12.3.3确切的值迭代288
12.3.4基于点的值迭代方法290
12.3.5其他近似求解方法291
12.4无先验模型的决策292
12.4.1无记忆技术292
12.4.2学习内部记忆292
12.5近期研究趋势294
参考文献295
3章预测性定义状态表示300
13.1简介300
13.1.1状态是什么301
13.1.2哪一个状态表示301
13.1.3为什么使用预测性定义模型302
13.2PSR303
13.2.1历史及测试303
13.2.2测试的预测304
13.2.3系统动态向量304
13.2.4系统动态矩阵305
13.2.5充分的数据集305
13.2.6状态306
13.2.7更新状态306
13.2.8线性PSR307
13.2.9线性PSR与POMDP的关联307
13.2.10线性PSR的理论结果308
13.3PSR模型学习308
13.3.1发现问题308
13.3.2学习问题309
13.3.3估计系统动态矩阵309
13.4规划与PSR309
13.5PSR的扩展310
13.6其他具有预测性定义状态的模型311
13.6.1可观测算子模型311
13.6.2预测线性高斯模型312
13.6.3时序差分网络312
13.6.4分集自动机312
13.6.5指数族PSR313
13.6.6转换PSR313
13.7总结313
参考文献314
4章博弈论和多学习器强化学习317
14.1简介317
14.2重复博弈319
14.2.1博弈论319
14.2.2重复博弈中的强化学习322
14.3顺序博弈325
14.3.1马尔可夫博弈326
14.3.2马尔可夫博弈中的强化学习327
14.4在多学习器系统中的稀疏交互330
14.4.1多等级学习330
14.4.2协调学习与稀疏交互331
14.5延伸阅读334
参考文献334
5章去中心化的部分可观察马尔可夫决策过程338
15.1简介338
15.2Dec-POMDP框架339
15.3历史状态与策略340
15.3.1历史状态341
15.3.2策略341
15.3.3策略的结构342
15.3.4联合策略的质量343
15.4有限域的Dec-POMDP的解决方案344
15.4.1穷举搜索和Dec-POMDP复杂性344
15.4.2交替优选化344
15.4.3Dec-POMDP的最优价值函数345
15.4.4前推法:启发式搜索348
15.4.5后推法:动态规划350
15.4.6其他有限域的方法353
15.5延伸阅读353
15.5.1一般化和特殊问题353
15.5.2有限Dec-POMDP354
15.5.3强化学习355
15.5.4通信356
参考文献356
第五部分其他应用领域
6章强化学习与心理和神经科学之间的关系364
16.1简介364
16.2经典(巴甫洛夫)条件反射365
16.2.1行为365
16.2.2理论366
16.2.3小结和其他注意事项367
16.3操作性(工具性)条件反射368
16.3.1动作368
16.3.2理论369
16.3.3基于模型的控制与无模型的控制370
16.3.4小结和其他注意事项371
16.4多巴胺371
16.4.1多巴胺作为奖励预测误差372
16.4.2多巴胺的强化信号的作用372
16.4.3小结和其他注意事项373
16.5基底神经节373
16.5.1基底神经节概述374
16.5.2纹状体的神经活动374
16.5.3皮质基神经节丘脑循环375
16.5.4小结和其他注意事项377
16.6总结378
参考文献378
7章游戏领域的强化学习387
17.1简介387
17.1.1目标和结构387
17.1.2范围388
……
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/2/23 1:09:35