马尔可夫决策过程理论与应用/运筹与管理科学丛书刘克//曹平科学出版社豆瓣PDF电子书bt网盘迅雷下载科学技术-自然科学-数学-霍普软件下载网

《运筹与管理科学丛书》序

前言

常用符号表

第1章引论

1.1 序列决策模型

1.2 马氏决策过程的例子

1.3 马氏决策过程的定义与记号

1.3.1 决策时刻与周期

1.3.2 状态与行动集

1.3.3 转移概率和报酬

1.3.4 历史、决策规则与策略

1.3.5 诱导过程、效用准则与马氏策略优势

1.4 马氏决策过程的起源和发展

1.5 问题

第2章有限阶段模型

2.1 最优准则

2.2 有限阶段的策略迭代和最优方程

2.3 最优策略的存在性和算法

2.4 两个例子

2.4.1 序贯分配问题

2.4.2 秘书问题

2.5 单调策略的最优性

2.6 部分可观察的马氏决策过程

2.6.1 有限状态和行动空间的部分可观察马氏决策过程

2.6.2 算法

2.7 问题

第3章无限阶段折扣模型

3.1 最优准则

3.2 最优方程

3.3 最优策略的存在性

3.4 策略迭代算法

3.5 值迭代算法

3.6 改进的策略迭代算法

3.7 线性规划算法

3.8 可数状态与行动的模型

3.8.1 无界报酬的情形

3.8.2 有限状态逼近无限状态的情形

3.8.3 设备维修的例子

3.8.4 有限状态可数行动的情形

3.9 最优单调策略

3.10 最优策略的结构

3.11 多臂赌博机问题

3.12 问题

第4章无限阶段平均模型

4.1 最优准则

4.2 最优平稳策略的存在性

4.3 平稳策略一些特征

4.4 最优方程与策略迭代算法

4.5 单链时的情形

4.5.1 最优方程解存在的条件

4.5.2 值迭代算法

4.5.3 单链MDPs的策略迭代算法及其改进

4.5.4 单链MDPs的线性规划算法

4.5.5 带约束模型和方差准则模型

4.5.6 可数状态模型

4.5.7 结构化最优策略

4.6 多链时的情形

4.6.1 线性规划算法

4.6.2 平均准则下的Bellman最优原则

4.7 问题

第5章权重准则模型与概率准则模型

5.1 折扣权重模型

5.2 折扣与平均权重模型

5.3 MDP的百分比与目标水平

5.4 风险概率准则模型

5.4.1 终达目标最小风险模型

5.4.2 首达目标最小风险模型

5.5 问题

第6章连续时间与半马氏模型

6.1 连续时间折扣MDP

6.1.1 模型和策略的定义

6.1.2 连续时间MDP的决策过程与折扣准则

6.1.3 最优策略的存在性与结构

6.1.4 转化为离散时间模型

6.1.5 适用范围的推广

6.2 连续时间平均MDP

6.3 折扣半马氏模型

6.4 平均半马氏模型

6.5 服务率受控的一个排队模型

6.6 问题

第7章空集装箱调配问题

7.1 单港口的问题与建模

7.2 无限阶段折扣准则

7.3 无限阶段平均准则

7.4 数值例子

7.5 多港口空集装箱的调配问题

第8章人力资源模型

8.1 问题

8.2 数学模型

8.2.1 状态空间

8.2.2 决策时刻与行动集

8.2.3 转移速率与转移概率

8.2.4 费用与准则

8.3 相关参数分析

8.4 数例

第9章软件测试的最优发布问题

9.1 模型

9.2 结构性质

9.2.1 最优函数V*(n，t)的性质

9.2.2 最优策略的阈值结构

9.3 数值仿真研究

9.3.1 连续时间模型的离散逼近

9.3.2 数值例子

9.4 基本模型的一般化

第10章大规模问题的近似算法

10.1 大规模问题的挑战

10.2 向前动态规划方法

10.2.1 近似最优决策行为的选择

10.2.2 随时间向前递推过程

10.2.3 随机变量的抽样

10.2.4 向前动态规划算法

10.3 Q-learning和SARSA方法

10.3.1 Q-learning方法

10.3.2 SARSA方法

10.4 实时动态规划方法

10.5 逼近值迭代方法

10.6 决策后状态方法

10.6.1 寻找决策后状态变量

10.6.2 决策后状态变量的例子

10.6.3 决策后状态变量的最优方程

10.6.4 决策后状态方程的逼近算法

10.6.5 决策后状态与Q-learning

10.7 探索和利用的问题

10.8 近似线性规划方法

10.9 策略近似算法

10.10 总结

参考文献

索引

习题解答

《运筹与管理科学丛书》已出版书目

书名	马尔可夫决策过程理论与应用/运筹与管理科学丛书
分类	科学技术-自然科学-数学
作者	刘克//曹平
出版社	科学出版社
下载
简介	编辑推荐刘克、曹平写作这本《马尔可夫决策过程理论与应用》有三个目的：一个是为理论研究者提供参考，为高等院校有关专业的高年级大学生和研究生提供教材；另一个是希望本书的内容能够引起管理者、计算机科学工作者、经济学家、应用数学家、控制与通信工程方面的工作者、信息科学与工业工程等方面的学者和技术人员的兴趣；最后是想通过增加的练习题，为读者熟悉这些理论方法提供帮助。内容推荐《马尔可夫决策过程理论与应用》从马氏决策的一般理论出发，介绍了马氏决策的基本概念，给出了决策过程的表述方法并介绍了不同准则条件下的基本理论，还给出了作者刘克、曹平对一些实际问题的研究心得，为读者提供参考。本书在《实用马尔可夫决策过程》一书的基础上增加了Bandit过程、部分可观察过程、软件可靠性建模分析以及大规模计算方法等章节，为读者提供更为宽阔的视野。本书可作为高等院校高年级大学生和研究生的教材，也可作为运筹学、管理科学、信息科学、系统科学以及计算机科学和工程领域的学者和技术人员的参考书。目录《运筹与管理科学丛书》序前言常用符号表第1章引论 1.1 序列决策模型 1.2 马氏决策过程的例子 1.3 马氏决策过程的定义与记号 1.3.1 决策时刻与周期 1.3.2 状态与行动集 1.3.3 转移概率和报酬 1.3.4 历史、决策规则与策略 1.3.5 诱导过程、效用准则与马氏策略优势 1.4 马氏决策过程的起源和发展 1.5 问题第2章有限阶段模型 2.1 最优准则 2.2 有限阶段的策略迭代和最优方程 2.3 最优策略的存在性和算法 2.4 两个例子 2.4.1 序贯分配问题 2.4.2 秘书问题 2.5 单调策略的最优性 2.6 部分可观察的马氏决策过程 2.6.1 有限状态和行动空间的部分可观察马氏决策过程 2.6.2 算法 2.7 问题第3章无限阶段折扣模型 3.1 最优准则 3.2 最优方程 3.3 最优策略的存在性 3.4 策略迭代算法 3.5 值迭代算法 3.6 改进的策略迭代算法 3.7 线性规划算法 3.8 可数状态与行动的模型 3.8.1 无界报酬的情形 3.8.2 有限状态逼近无限状态的情形 3.8.3 设备维修的例子 3.8.4 有限状态可数行动的情形 3.9 最优单调策略 3.10 最优策略的结构 3.11 多臂赌博机问题 3.12 问题第4章无限阶段平均模型 4.1 最优准则 4.2 最优平稳策略的存在性 4.3 平稳策略一些特征 4.4 最优方程与策略迭代算法 4.5 单链时的情形 4.5.1 最优方程解存在的条件 4.5.2 值迭代算法 4.5.3 单链MDPs的策略迭代算法及其改进 4.5.4 单链MDPs的线性规划算法 4.5.5 带约束模型和方差准则模型 4.5.6 可数状态模型 4.5.7 结构化最优策略 4.6 多链时的情形 4.6.1 线性规划算法 4.6.2 平均准则下的Bellman最优原则 4.7 问题第5章权重准则模型与概率准则模型 5.1 折扣权重模型 5.2 折扣与平均权重模型 5.3 MDP的百分比与目标水平 5.4 风险概率准则模型 5.4.1 终达目标最小风险模型 5.4.2 首达目标最小风险模型 5.5 问题第6章连续时间与半马氏模型 6.1 连续时间折扣MDP 6.1.1 模型和策略的定义 6.1.2 连续时间MDP的决策过程与折扣准则 6.1.3 最优策略的存在性与结构 6.1.4 转化为离散时间模型 6.1.5 适用范围的推广 6.2 连续时间平均MDP 6.3 折扣半马氏模型 6.4 平均半马氏模型 6.5 服务率受控的一个排队模型 6.6 问题第7章空集装箱调配问题 7.1 单港口的问题与建模 7.2 无限阶段折扣准则 7.3 无限阶段平均准则 7.4 数值例子 7.5 多港口空集装箱的调配问题第8章人力资源模型 8.1 问题 8.2 数学模型 8.2.1 状态空间 8.2.2 决策时刻与行动集 8.2.3 转移速率与转移概率 8.2.4 费用与准则 8.3 相关参数分析 8.4 数例第9章软件测试的最优发布问题 9.1 模型 9.2 结构性质 9.2.1 最优函数V*(n，t)的性质 9.2.2 最优策略的阈值结构 9.3 数值仿真研究 9.3.1 连续时间模型的离散逼近 9.3.2 数值例子 9.4 基本模型的一般化第10章大规模问题的近似算法 10.1 大规模问题的挑战 10.2 向前动态规划方法 10.2.1 近似最优决策行为的选择 10.2.2 随时间向前递推过程 10.2.3 随机变量的抽样 10.2.4 向前动态规划算法 10.3 Q-learning和SARSA方法 10.3.1 Q-learning方法 10.3.2 SARSA方法 10.4 实时动态规划方法 10.5 逼近值迭代方法 10.6 决策后状态方法 10.6.1 寻找决策后状态变量 10.6.2 决策后状态变量的例子 10.6.3 决策后状态变量的最优方程 10.6.4 决策后状态方程的逼近算法 10.6.5 决策后状态与Q-learning 10.7 探索和利用的问题 10.8 近似线性规划方法 10.9 策略近似算法 10.10 总结参考文献索引习题解答《运筹与管理科学丛书》已出版书目
随便看	捕人传江南事件簿赝品 Seven Letters 天书浪子总裁才女系列之绿茶情缘雏菊第一期之‘绽放’ 生活幻想想——生活墨色羽翼萨摩耶之站恋无邪爱无邪网王+东邦-以后的幸福此时彼刻白褶裙里的记忆（网王）华丽的幸福寂寞的死亡泪鱼青春的羽毛球社黑色玫瑰吕雉春秋综漫\|火影+海贼王同人\|之闯天下终极一家完整篇镜中垣签赋LabelShop专业条码标签设计软件途游斗地主电脑版乐播投屏美丽说 iTools模拟器(苹果模拟器) 优芽互动电影客户端服装进销存(进销存服装版)-小管家快手最浪漫表白神器电脑版公务员万题库电脑版东奥会计课堂电脑版中世纪战场 1.0 鸾霄汉化绿色版宝石迷阵3(Bejeweled) 简体中文绿色免费版愤怒的小鸟之季节版 2.1.0 游侠原创汉化版魔兽争霸Ⅲ 显示全图工具（MH4.32）优化绿色版王国之心3梦魇奇力希MOD v3.19 骑马与砍杀2骑砍一代战团城市MOD v2.56 《孤岛惊魂4》黄金版《孤岛惊魂1》中文免安装下载《孤岛惊魂3》豪华版免安装破解硬盘版《孤岛惊魂3：血龙》中文下载 signally signalman signatory signature signature tune signet ring significance significant significantly signification [BT下载][萌探奇遇记][第04集][WEB-MP4/1.35G][国语配音/中文字幕][1080P][流媒体][ColorTV] [BT下载][错嫁世子妃][第16-17集][WEB-MP4/0.65G][国语配音/中文字幕][1080P][流媒体][ColorTV] [BT下载][错嫁世子妃][第16-17集][WEB-MP4/1.24G][国语配音/中文字幕][4K-2160P][H265][流媒体][ColorTV] [BT下载][红豆面包][第46集][WEB-MKV/0.35G][中文字幕][1080P][流媒体][DeePTV] [BT下载][无限超越班.第三季][第14集][WEB-MP4/0.14G][国语配音/中文字幕][4K-2160P][H265][流媒体][DeePTV] [BT下载][是女儿是妈妈2][第04集][WEB-MP4/2.47G][国语配音/中文字幕][1080P][流媒体][ColorTV] [BT下载][爸爸当家.第四季][第07-08集][WEB-MP4/16.17G][国语配音/中文字幕][4K-2160P][H265][流媒体][DeeP [BT下载][背后][第06集][WEB-MP4/0.77G][国语配音/中文字幕][1080P][H265][流媒体][DeePTV] [BT下载][背后][第06集][WEB-MP4/2.30G][国语配音/中文字幕][4K-2160P][H265][流媒体][DeePTV] [BT下载][韶华若锦][第23集][WEB-MP4/2.02G][国语配音/中文字幕][1080P][HDR版本][H265][流媒体][ColorTV] AutoCAD2009怎么画十字路-AutoCAD2009教程 AutoCAD2009如何安装-AutoCAD2009安装教程使用VideoScribe如何改变图层的颜色-VideoScribe使用教程 Axialis IconWorkshop如何使用-设置图标的不透明度的方法 Axialis IconWorkshop如何使用-为文件夹设置自定义图标的方法 Axialis IconWorkshop如何使用-用IconWorkshop制作图标的方法 Axialis IconWorkshop如何使用-IconWorkshop换图标背景的方法 Axialis IconWorkshop如何使用-IconWorkshop转换大图标的方法 AcFun怎么恢复默认设置-AcFun恢复默认设置的简单步骤 acfun怎么改名-acfun进行快速改名的相关教程