网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 随机学习与优化--基于灵敏度的方法/信息技术和电气工程学科国际知名教材中译本系列
分类
作者 (美)曹希仁
出版社 清华大学出版社
下载
简介
编辑推荐

摄动分析经历了初出茅庐的艰辛,如今已发展成运筹学和仿真领域的一个重要分支。这本《随机学习与优化——基于灵敏度的方法》的作者曹希仁是这个学科的共同创立人和领军专家。在本书中作者不仅展现了对该课题的最新领悟,并且将其与两个更广泛的学科——马尔可夫决策过程和强化学习,结合在了一起。对于高年级和新入学的研究生来说,这个统一的视角和处理方式使得大部分的系统工程的知识变得明白易懂。

内容推荐

随机学习与优化在现代工程、社会、金融问题中具有广泛的应用。这本由曹希仁著的《随机学习与优化——基于灵敏度的方法》以一个统一的框架,涵盖了离散事件动态系统的摄动分析、马尔可大决策过程、强化学习、辨识和自适应控制等学习和优化的不同学科;并利用基于性能差分公式的简单方法介绍马尔可夫决策过程理论,通过该方法能求得以长期平均代价为准则的n阶偏差优化策略以及无折扣的Blackwell优化策略。本书还包含有最近发展出来的基于事件的优化方法,它为利用系统的特性来克服或减轻维数灾的研究开辟了个新方向。本书强调以样本路径的构造为基础的物理解释,物理上的直观认识可以为完善已有的优化方法提供新思路。

为帮助读者理解掌握书中的内容,本书提供了大量的示例和丰富的习题。

《随机学习与优化——基于灵敏度的方法》适合作为相关专业的研究生教材,学生可从一门课程中学到原本属于多个不同学科的内容。本书有助于促进学习和优化领域中各学科之间的合作,对该领域的研究人员也大有裨益。

目录

 1 引言

1.1 学习和优化概述

 1.1.1 问题描述

 1.1.2 最优策略

 1.1.3 学习和优化的基本局限

 1.1.4 学习和优化的基于灵敏度的观点

1.2 不同学科中问题的描述

 1.2.1 摄动分析(PA)

 1.2.2 马尔可夫决策过程

 1.2.3 强化学习

 1.2.4 辨识和自适应控制

 1.2.5 基于事件的优化和性能势集结

1.3 学习和优化学科关系图

1.4 术语和符号

习题

第1部分 学习与优化的四门学科

 2 摄动分析

2.1 马尔可夫链的摄动分析

 2.1.1 构造摄动样本路径

 2.1.2 摄动实现因子和性能势

 2.1.3 性能导数公式

 2.1.4 折扣报酬准则的梯度

 2.1.5 高阶导数和麦克劳林级数

2.2 马尔可夫过程的性能灵敏度

2.3 半马尔可夫过程的性能灵敏度

 2.3.1 半马尔可夫过程的基础知识

 2.3.2 性能灵敏度公式

2.4 排队系统的摄动分析

 2.4.1 构造摄动样本路径

 2.4.2 摄动实现

 2.4.3 性能导数

 2.4.4 相关理论问题的评注

2.5 其他方法

习题

 3 利用摄动分析的学习与优化

3.1 性能势

3.1.1 数值方法

3.1.2 从样本路径学习性能势

3.1.3 耦合

3.2 性能梯度

 3.2.1 通过性能势估计

 3.2.2 直接学习

3.3 利用摄动分析的优化

 3.3.1 梯度方法和随机逼近

 3.3.2 利用长样本路径的优化

 3.3.3 应用

习题

 4 马尔可夫决策过程

4.1 遍历链

 4.1.1 策略迭代

 4.1.2 偏差最优性

 4.1.3 折扣报酬马尔可夫决策过程

4.2 多链

 4.2.1 策略迭代

 4.2.2 偏差最优性

 4.2.3 折扣报酬马尔可夫决策过程

4.3 n阶偏差优化问题

 4.3.1 n阶偏差差分公式

 4.3.2 最优性方程

 4.3.3 策略迭代

 4.3.4 n阶偏差最优策略空间

习题

 5 基于样本路径的策略迭代

5.1 研究动机

5.2 收敛性

 5.2.1 性能势估计值的收敛性

 5.2.2 再生期数目固定的样本路径

 5.2.3 长度增加的样本路径

5.3 “快”算法

 5.3.1 有限个周期后终止的算法

 5.3.2 采用随机逼近

习题

 6 强化学习

6.1 随机逼近

 6.1.1 用迭代寻找函数的零点

 6.1.2 估计均值

6.2 瞬时差分方法

 6.2.1 估计性能势的瞬时差分方法

 6.2.2 Q-因子和其他扩展

 6.2.3 性能导数的瞬时差分方法

6.3 瞬时差分方法和性能优化

 6.3.1 基于摄动分析的优化

 6.3.2 Q-学习

 6.3.3 乐观的在线策略迭代

 6.3.4 值迭代

6.4 学习和优化方法总结

习题

 7 从马尔可夫决策过程到自适应控制

7.1 控制问题与马尔可夫决策过程

 7.1.1 建模为马尔可夫决策过程的控制系统

 7.1.2 两种方法的比较

7.2 连续状态空间的马尔可夫决策过程

 7.2.1 连续空间的算子

 7.2.2 性能势和策略迭代

7.3 线性控制系统和Riccati方程

 7.3.1 线性二次问题

 7.3.2 跳变线性二次问题

7.4 在线优化和自适应控制

 7.4.1 离散化和估计

 7.4.2 讨论

习题

第2部分 基于事件的优化——一种新方法

 8 基于事件的马尔可夫系统的优化

8.1 概述

 8.1.1 前面章节的总结

 8.1.2 基于事件的方法概述

8.2 与马尔可夫链相关的事件

 8.2.1 事件与事件空间

 8.2.2 事件的概率

 8.2.3 通过示例说明基本思想

 8.2.4 三类事件的分类

8.3 基于事件的优化

8.3.1 问题描述

8.3.2 性能差分公式

8.3.3 性能导数公式

8.3.4 优化

8.4 学习:估计集结性能势

 8.4.1 集结性能势

 8.4.2 基于事件优化的集结性能势

8.5 应用与示例

 8.5.1 制造系统

 8.5.2 服务速率控制

 8.5.3 一般应用

习题

 9 构造灵敏度公式

9.1 研究动机

9.2 同一个状态空间上的马尔可夫链

9.3 基于事件的系统

 9.3.1 样本路径的构造

 9.3.2 参数化系统:一个例子

9.4 不同状态空间上的马尔可夫链

 9.4.1 一个状态空间是另一个的子空间

 9.4.2 更一般的例子

9.5 小结

习题

第3部分 附录:数学基础

 A 概率论与马尔可夫过程

A.1 概率论

A.2 马尔可夫过程

习题

 B 随机矩阵

B.1 规范形

B.2 特征值

B.3 极限矩阵

习题

 C 排队论

C.1 单服务台队列

C.2 排队网络

C.3 一些有用的技巧

习题

参考文献

索引

译者后记

专家及读者评论

随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/1 11:36:11