随机学习与优化--基于灵敏度的方法/信息技术和电气工程学科国际知名教材中译本系列(美)曹希仁清华大学出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

1 引言

1.1 学习和优化概述

1.1.1 问题描述

1.1.2 最优策略

1.1.3 学习和优化的基本局限

1.1.4 学习和优化的基于灵敏度的观点

1.2 不同学科中问题的描述

1.2.1 摄动分析（PA）

1.2.2 马尔可夫决策过程

1.2.3 强化学习

1.2.4 辨识和自适应控制

1.2.5 基于事件的优化和性能势集结

1.3 学习和优化学科关系图

1.4 术语和符号

习题

第1部分学习与优化的四门学科

2 摄动分析

2.1 马尔可夫链的摄动分析

2.1.1 构造摄动样本路径

2.1.2 摄动实现因子和性能势

2.1.3 性能导数公式

2.1.4 折扣报酬准则的梯度

2.1.5 高阶导数和麦克劳林级数

2.2 马尔可夫过程的性能灵敏度

2.3 半马尔可夫过程的性能灵敏度

2.3.1 半马尔可夫过程的基础知识

2.3.2 性能灵敏度公式

2.4 排队系统的摄动分析

2.4.1 构造摄动样本路径

2.4.2 摄动实现

2.4.3 性能导数

2.4.4 相关理论问题的评注

2.5 其他方法

习题

3 利用摄动分析的学习与优化

3.1 性能势

3.1.1 数值方法

3.1.2 从样本路径学习性能势

3.1.3 耦合

3.2 性能梯度

3.2.1 通过性能势估计

3.2.2 直接学习

3.3 利用摄动分析的优化

3.3.1 梯度方法和随机逼近

3.3.2 利用长样本路径的优化

3.3.3 应用

习题

4 马尔可夫决策过程

4.1 遍历链

4.1.1 策略迭代

4.1.2 偏差最优性

4.1.3 折扣报酬马尔可夫决策过程

4.2 多链

4.2.1 策略迭代

4.2.2 偏差最优性

4.2.3 折扣报酬马尔可夫决策过程

4.3 n阶偏差优化问题

4.3.1 n阶偏差差分公式

4.3.2 最优性方程

4.3.3 策略迭代

4.3.4 n阶偏差最优策略空间

习题

5 基于样本路径的策略迭代

5.1 研究动机

5.2 收敛性

5.2.1 性能势估计值的收敛性

5.2.2 再生期数目固定的样本路径

5.2.3 长度增加的样本路径

5.3 “快”算法

5.3.1 有限个周期后终止的算法

5.3.2 采用随机逼近

习题

6 强化学习

6.1 随机逼近

6.1.1 用迭代寻找函数的零点

6.1.2 估计均值

6.2 瞬时差分方法

6.2.1 估计性能势的瞬时差分方法

6.2.2 Q-因子和其他扩展

6.2.3 性能导数的瞬时差分方法

6.3 瞬时差分方法和性能优化

6.3.1 基于摄动分析的优化

6.3.2 Q-学习

6.3.3 乐观的在线策略迭代

6.3.4 值迭代

6.4 学习和优化方法总结

习题

7 从马尔可夫决策过程到自适应控制

7.1 控制问题与马尔可夫决策过程

7.1.1 建模为马尔可夫决策过程的控制系统

7.1.2 两种方法的比较

7.2 连续状态空间的马尔可夫决策过程

7.2.1 连续空间的算子

7.2.2 性能势和策略迭代

7.3 线性控制系统和Riccati方程

7.3.1 线性二次问题

7.3.2 跳变线性二次问题

7.4 在线优化和自适应控制

7.4.1 离散化和估计

7.4.2 讨论

习题

第2部分基于事件的优化——一种新方法

8 基于事件的马尔可夫系统的优化

8.1 概述

8.1.1 前面章节的总结

8.1.2 基于事件的方法概述

8.2 与马尔可夫链相关的事件

8.2.1 事件与事件空间

8.2.2 事件的概率

8.2.3 通过示例说明基本思想

8.2.4 三类事件的分类

8.3 基于事件的优化

8.3.1 问题描述

8.3.2 性能差分公式

8.3.3 性能导数公式

8.3.4 优化

8.4 学习：估计集结性能势

8.4.1 集结性能势

8.4.2 基于事件优化的集结性能势

8.5 应用与示例

8.5.1 制造系统

8.5.2 服务速率控制

8.5.3 一般应用

习题

9 构造灵敏度公式

9.1 研究动机

9.2 同一个状态空间上的马尔可夫链

9.3 基于事件的系统

9.3.1 样本路径的构造

9.3.2 参数化系统：一个例子

9.4 不同状态空间上的马尔可夫链

9.4.1 一个状态空间是另一个的子空间

9.4.2 更一般的例子

9.5 小结

习题

第3部分附录：数学基础

A 概率论与马尔可夫过程

A.1 概率论

A.2 马尔可夫过程

习题

B 随机矩阵

B.1 规范形

B.2 特征值

B.3 极限矩阵

习题

C 排队论

C.1 单服务台队列

C.2 排队网络

C.3 一些有用的技巧

习题

参考文献

索引

译者后记

专家及读者评论

书名	随机学习与优化--基于灵敏度的方法/信息技术和电气工程学科国际知名教材中译本系列
分类
作者	(美)曹希仁
出版社	清华大学出版社
下载
简介	编辑推荐摄动分析经历了初出茅庐的艰辛，如今已发展成运筹学和仿真领域的一个重要分支。这本《随机学习与优化——基于灵敏度的方法》的作者曹希仁是这个学科的共同创立人和领军专家。在本书中作者不仅展现了对该课题的最新领悟，并且将其与两个更广泛的学科——马尔可夫决策过程和强化学习，结合在了一起。对于高年级和新入学的研究生来说，这个统一的视角和处理方式使得大部分的系统工程的知识变得明白易懂。内容推荐随机学习与优化在现代工程、社会、金融问题中具有广泛的应用。这本由曹希仁著的《随机学习与优化——基于灵敏度的方法》以一个统一的框架，涵盖了离散事件动态系统的摄动分析、马尔可大决策过程、强化学习、辨识和自适应控制等学习和优化的不同学科；并利用基于性能差分公式的简单方法介绍马尔可夫决策过程理论，通过该方法能求得以长期平均代价为准则的n阶偏差优化策略以及无折扣的Blackwell优化策略。本书还包含有最近发展出来的基于事件的优化方法，它为利用系统的特性来克服或减轻维数灾的研究开辟了个新方向。本书强调以样本路径的构造为基础的物理解释，物理上的直观认识可以为完善已有的优化方法提供新思路。为帮助读者理解掌握书中的内容，本书提供了大量的示例和丰富的习题。《随机学习与优化——基于灵敏度的方法》适合作为相关专业的研究生教材，学生可从一门课程中学到原本属于多个不同学科的内容。本书有助于促进学习和优化领域中各学科之间的合作，对该领域的研究人员也大有裨益。目录 1 引言 1.1 学习和优化概述 1.1.1 问题描述 1.1.2 最优策略 1.1.3 学习和优化的基本局限 1.1.4 学习和优化的基于灵敏度的观点 1.2 不同学科中问题的描述 1.2.1 摄动分析（PA） 1.2.2 马尔可夫决策过程 1.2.3 强化学习 1.2.4 辨识和自适应控制 1.2.5 基于事件的优化和性能势集结 1.3 学习和优化学科关系图 1.4 术语和符号习题第1部分学习与优化的四门学科 2 摄动分析 2.1 马尔可夫链的摄动分析 2.1.1 构造摄动样本路径 2.1.2 摄动实现因子和性能势 2.1.3 性能导数公式 2.1.4 折扣报酬准则的梯度 2.1.5 高阶导数和麦克劳林级数 2.2 马尔可夫过程的性能灵敏度 2.3 半马尔可夫过程的性能灵敏度 2.3.1 半马尔可夫过程的基础知识 2.3.2 性能灵敏度公式 2.4 排队系统的摄动分析 2.4.1 构造摄动样本路径 2.4.2 摄动实现 2.4.3 性能导数 2.4.4 相关理论问题的评注 2.5 其他方法习题 3 利用摄动分析的学习与优化 3.1 性能势 3.1.1 数值方法 3.1.2 从样本路径学习性能势 3.1.3 耦合 3.2 性能梯度 3.2.1 通过性能势估计 3.2.2 直接学习 3.3 利用摄动分析的优化 3.3.1 梯度方法和随机逼近 3.3.2 利用长样本路径的优化 3.3.3 应用习题 4 马尔可夫决策过程 4.1 遍历链 4.1.1 策略迭代 4.1.2 偏差最优性 4.1.3 折扣报酬马尔可夫决策过程 4.2 多链 4.2.1 策略迭代 4.2.2 偏差最优性 4.2.3 折扣报酬马尔可夫决策过程 4.3 n阶偏差优化问题 4.3.1 n阶偏差差分公式 4.3.2 最优性方程 4.3.3 策略迭代 4.3.4 n阶偏差最优策略空间习题 5 基于样本路径的策略迭代 5.1 研究动机 5.2 收敛性 5.2.1 性能势估计值的收敛性 5.2.2 再生期数目固定的样本路径 5.2.3 长度增加的样本路径 5.3 “快”算法 5.3.1 有限个周期后终止的算法 5.3.2 采用随机逼近习题 6 强化学习 6.1 随机逼近 6.1.1 用迭代寻找函数的零点 6.1.2 估计均值 6.2 瞬时差分方法 6.2.1 估计性能势的瞬时差分方法 6.2.2 Q-因子和其他扩展 6.2.3 性能导数的瞬时差分方法 6.3 瞬时差分方法和性能优化 6.3.1 基于摄动分析的优化 6.3.2 Q-学习 6.3.3 乐观的在线策略迭代 6.3.4 值迭代 6.4 学习和优化方法总结习题 7 从马尔可夫决策过程到自适应控制 7.1 控制问题与马尔可夫决策过程 7.1.1 建模为马尔可夫决策过程的控制系统 7.1.2 两种方法的比较 7.2 连续状态空间的马尔可夫决策过程 7.2.1 连续空间的算子 7.2.2 性能势和策略迭代 7.3 线性控制系统和Riccati方程 7.3.1 线性二次问题 7.3.2 跳变线性二次问题 7.4 在线优化和自适应控制 7.4.1 离散化和估计 7.4.2 讨论习题第2部分基于事件的优化——一种新方法 8 基于事件的马尔可夫系统的优化 8.1 概述 8.1.1 前面章节的总结 8.1.2 基于事件的方法概述 8.2 与马尔可夫链相关的事件 8.2.1 事件与事件空间 8.2.2 事件的概率 8.2.3 通过示例说明基本思想 8.2.4 三类事件的分类 8.3 基于事件的优化 8.3.1 问题描述 8.3.2 性能差分公式 8.3.3 性能导数公式 8.3.4 优化 8.4 学习：估计集结性能势 8.4.1 集结性能势 8.4.2 基于事件优化的集结性能势 8.5 应用与示例 8.5.1 制造系统 8.5.2 服务速率控制 8.5.3 一般应用习题 9 构造灵敏度公式 9.1 研究动机 9.2 同一个状态空间上的马尔可夫链 9.3 基于事件的系统 9.3.1 样本路径的构造 9.3.2 参数化系统：一个例子 9.4 不同状态空间上的马尔可夫链 9.4.1 一个状态空间是另一个的子空间 9.4.2 更一般的例子 9.5 小结习题第3部分附录：数学基础 A 概率论与马尔可夫过程 A.1 概率论 A.2 马尔可夫过程习题 B 随机矩阵 B.1 规范形 B.2 特征值 B.3 极限矩阵习题 C 排队论 C.1 单服务台队列 C.2 排队网络 C.3 一些有用的技巧习题参考文献索引译者后记专家及读者评论
随便看	职务犯罪的实证分析与防范知识产权论(第3版) 外科护理学习题集(新世纪全国高等中医药院校规划教材配套教学用书) 律师与立法/中国行政法实务论坛丛书 PWM与数字化电动机控制技术应用/现代工业自动化技术应用丛书一种历史实践--近现代中西法概念理论比较研究/法律和社会文丛倒闸操作安全技术药用植物栽培学(供中药药学中药资源药用植物栽培等专业用新世纪全国高等中医药院校创新教材) 接地技术话安全--接地安全与触电事故分析高校师资工作文集(第19集) 法学方法与现代民法(第5版)/法学家书坊电站锅炉试验/电力试验技术丛书仲裁与法律(第107辑) 现代临床医学概论(供医药类院校非临床医学专业用新世纪全国高等中医药院校创新教材) 议论文写作与创新实招肿瘤与淋巴水肿/肿瘤科普丛书登记限度论--以不动产权利登记制为中心/上大法学文库公平与福利/法律经济学丛书电力安装工长培训教材希波克拉底文集(精) 错视艺术设计/同济大学艺术设计丛书悦读法律英语多元的法律文化/全国外国法制史研究会学术丛书中西医结合脑血管病诊疗学卫生宝鉴/中医经典文库 Rcysoft Free Photo Recovery v8.8 Free Raw Drive Data Recovery(免费驱动器数据恢复) v8.8 ucasthesis(国科大学位论文LaTeX模板) v2020.07.28 成绩统计工具 v1.0 Soft4Boost Video to Flash(视频格式转换工具) v7.1.7.643 Free Card Data Recovery(免费SD卡数据恢复) v8.8 帅乾自动压缩工具 v1.0 金狮车位摇号软件 v5.0 ZDOO工作流版 v1.0 unc0ver6.1.1最新版(苹果iOS 14.5越狱工具) v1.2 鬼谷八荒独孤九剑强化MOD v2.56 怪物猎人世界冰原纸尿裤MOD v2.48 翼星求生十六项修改器 v2021.12.05 苍空之雾重制版修改器+2 V1.0 绿色版天龙八部微锐答题器 V1.0 绿色版无双答题器 V1.0 绿色版上古卷轴5重制版生化8吸血鬼夫人MOD v2.15 CE修改器Cheat Engine v7.3 动物园之星增添欧亚驼鹿作为新物种MOD v1.18 黑暗潜伏者修改器+10 V1.0 绿色版 coalesce coalface coalfield coal-fired coalition coal mine coal miner coal scuttle coal tar coarse [BT下载][亚刻奥特曼/超人力霸王雅克/Ultraman Arc][更新至01集][日语中字][MKV][1080P][多版] [BT下载][新宿野战医院][更新至02集][日语中字][MKV][1080P][多版] [BT下载][微笑俄罗斯娃娃][更新至03集][日语中字][MKV][1080P][多版] [BT下载][黑色止血钳第2季][更新至01集][日语中字][MKV][1080P][多版] [BT下载][彩香最爱弘子前辈][更新至02集][日语中字][MKV][1080P][多版] [BT下载][海的开始][更新至02集][日语中字][MKV][1080P][多版] [BT下载][芥子时光][第12集][WEB-MP4/1.77G][国语配音/中文字幕][4K-2160P][流媒体][ParkTV] [BT下载][错位][第04-05集][WEB-MKV/1.20G][国语配音/中文字幕][1080P][流媒体][ParkTV] [BT下载][错位][第04-05集][WEB-MKV/2.01G][国语配音/中文字幕][4K-2160P][H265][流媒体][ParkTV] [BT下载][错位][第04-05集][WEB-MKV/3.51G][国语配音/中文字幕][4K-2160P][60帧率][H265][流媒体][ParkTV] 《原神》克洛琳德培养一图流克洛琳德怎么培养《真三国无双起源》七阶毕业武器词条推荐武器特性一览《炉石传说》星际联动法师预构筑分享《炉石传说》星际联动牧师预构筑分享星灵牧构筑分享《炉石传说》星际联动盗贼预构筑分享星灵贼构筑分享《双影奇境》中配预告片分享《燕云十六声》镇守任务视频合集《炉石传说》星际联动德鲁伊预构筑分享星灵德构筑分享《燕云十六声》积矩九剑循环与心法搭配教学积矩九剑怎么循环《真三国无双起源》枪配装与连招教学枪怎么连招