深度强化学习落地指南魏宁电子工业出版社豆瓣PDF电子书bt网盘迅雷下载教育考试-考试-计算机类-霍普软件下载网

本书从工业界一线算法工作者的视角，对深度强化学习落地实践中的工程经验和相关方法论做出了深度思考和系统归纳。本书跳出了原理介绍加应用案例的传统叙述模式，转而在横向上对深度强化学习落地过程中的核心环节进行了完整复盘。主要内容包括需求分析和算法选择的方法，动作空间、状态空间和回报函数设计的理念，训练调试和性能冲刺的技巧等。本书既是前人智慧与作者个人经验的交叉印证和精心整合，又构成了从理论到实践再到统一方法论的认知闭环，与市面上侧重于算法原理和代码实现的强化学习书籍形成了完美互补。

第1章需求分析\t1
1.1 需求分析：勿做DRL铁锤人\t1
1.2 一问“是不是”\t2
1.2.1 Agent和环境定义\t2
1.2.2 马尔可夫决策过程和强化学习\t3
1.3 二问“值不值”\t5
1.3.1 试试规则和启发式搜索\t5
1.3.2 别忘了传统强化学习\t7
1.3.3 使用DRL的理由\t7
1.4 三问“能不能”\t9
1.4.1 场景固定：两个分布一致\t9
1.4.2 数据廉价：多、快、好、费\t13
1.5 四问“边界在哪里”\t16
1.6 本章小结\t18
参考文献\t19
第2章动作空间设计\t23
2.1 动作空间设计：这里大有可为\t23
2.1.1 被忽视的价值\t23
2.1.2 动作空间的常见类型\t24
2.1.3 动作空间设计的基本原则\t26
2.2 动作空间的完备性\t26
2.2.1 功能完备\t27
2.2.2 时效完备\t29
2.3 动作空间的高效性\t30
2.3.1 化整为零：以精度换效率\t31
2.3.2 有机组合：尺度很重要\t33
2.4 动作空间的合法性\t35
2.4.1 非法动作屏蔽机制\t36
2.4.2 Agent的知情权\t37
2.5 本章小结\t39
参考文献\t40
第3章状态空间设计\t43
3.1 状态空间设计：特征工程的诱惑\t43
3.2 状态空间设计的两种常见误区\t44
3.2.1 过分依赖端到端特征学习\t44
3.2.2 很好特征工程\t44
3.3 与动作空间和回报函数的协同设计\t45
3.3.1 与动作空间尺度一致\t45
3.3.2 以回报函数为中心\t46
3.4 状态空间设计的四个步骤\t47
3.4.1 任务分析\t47
3.4.2 相关信息筛选\t49
3.4.3 泛化性考量\t53
3.4.4 效果验证\t58
3.5 本章小结\t61
参考文献\t62
第4章回报函数设计\t64
4.1 回报函数设计：面向强化学习的编程\t64
4.2 稀疏回报问题\t65
4.2.1 孤独无援的主线回报\t65
4.2.2 稀疏回报问题的本质\t66
4.3 辅助回报\t67
4.3.1 子目标回报\t67
4.3.2 塑形回报\t70
4.3.3 内驱回报\t76
4.3.4 回报取值的注意事项\t77
4.4 回报函数设计的常见陷阱\t78
4.4.1 鲁莽\t79
4.4.2 贪婪\t80
4.4.3 懦弱\t82
4.5 很优回报问题\t83
4.6 基于学习的回报函数\t84
4.6.1 经典方法\t84
4.6.2 前沿方法\t85
4.7 本章小结\t87
参考文献\t88
第5章算法选择\t92
5.1 算法选择：拿来主义和改良主义\t92
5.1.1 DRL算法的发展脉络\t92
5.1.2 一筛、二比、三改良\t94
5.1.3 从独当一面到众星捧月\t96
5.2 牢记经典勿忘本\t97
5.2.1 DQN\t98
5.2.2 DDPG\t99
5.2.3 A3C\t102
5.3 关注SOTA算法别留恋\t105
5.3.1 TD3\t105
5.3.2 SAC\t107
5.3.3 PPO\t110
5.4 其他算法\t112
5.5 本章小结\t113
参考文献\t113
第6章训练调试\t119
6.1 训练调试：此事要躬行\t119
6.2 训练前的准备工作\t120
6.2.1 制定训练方案\t120
6.2.2 选择网络结构\t124
6.2.3 随机漫步\t128
6.2.4 数据预处理\t129
6.3 训练进行时\t131
6.3.1 反脆弱：拥抱不确定性\t131
6.3.2 调节超参数\t134
6.3.3 监控训练状态\t143
6.4 给初学者的建议\t146
6.5 本章小结\t148
参考文献\t149
第7章性能冲刺\t154
7.1 性能冲刺：为DRL注入强心剂\t154
7.2 课程学习\t155
7.2.1 源任务及其分类\t155
7.2.2 应用方式\t157
7.3 额外监督信号\t162
7.3.1 有监督预训练\t163
7.3.2 辅助任务\t164
7.4 进化策略\t169
7.4.1 基本原理\t169
7.4.2 关键细节\t170
7.4.3 应用方式\t174
7.5 本章小结\t175
参考文献\t176

书名	深度强化学习落地指南
分类	教育考试-考试-计算机类
作者	魏宁
出版社	电子工业出版社
下载
简介	编辑推荐 "√一本讨论强化学习落地应用的技术书 √从实用性角度对强化学习进行归纳和梳理，重点围绕如何解决实际问题展开 √重难点技术剖析：动作空间的设计、状态空间的搭建、回报函数的构造、算法的选择和调试等 √《深度强化学习落地指南》囊括了作者对强化学习应用落地的全新思考" 内容推荐本书从工业界一线算法工作者的视角，对深度强化学习落地实践中的工程经验和相关方法论做出了深度思考和系统归纳。本书跳出了原理介绍加应用案例的传统叙述模式，转而在横向上对深度强化学习落地过程中的核心环节进行了完整复盘。主要内容包括需求分析和算法选择的方法，动作空间、状态空间和回报函数设计的理念，训练调试和性能冲刺的技巧等。本书既是前人智慧与作者个人经验的交叉印证和精心整合，又构成了从理论到实践再到统一方法论的认知闭环，与市面上侧重于算法原理和代码实现的强化学习书籍形成了完美互补。目录第1章需求分析\t1 1.1 需求分析：勿做DRL铁锤人\t1 1.2 一问“是不是”\t2 1.2.1 Agent和环境定义\t2 1.2.2 马尔可夫决策过程和强化学习\t3 1.3 二问“值不值”\t5 1.3.1 试试规则和启发式搜索\t5 1.3.2 别忘了传统强化学习\t7 1.3.3 使用DRL的理由\t7 1.4 三问“能不能”\t9 1.4.1 场景固定：两个分布一致\t9 1.4.2 数据廉价：多、快、好、费\t13 1.5 四问“边界在哪里”\t16 1.6 本章小结\t18 参考文献\t19 第2章动作空间设计\t23 2.1 动作空间设计：这里大有可为\t23 2.1.1 被忽视的价值\t23 2.1.2 动作空间的常见类型\t24 2.1.3 动作空间设计的基本原则\t26 2.2 动作空间的完备性\t26 2.2.1 功能完备\t27 2.2.2 时效完备\t29 2.3 动作空间的高效性\t30 2.3.1 化整为零：以精度换效率\t31 2.3.2 有机组合：尺度很重要\t33 2.4 动作空间的合法性\t35 2.4.1 非法动作屏蔽机制\t36 2.4.2 Agent的知情权\t37 2.5 本章小结\t39 参考文献\t40 第3章状态空间设计\t43 3.1 状态空间设计：特征工程的诱惑\t43 3.2 状态空间设计的两种常见误区\t44 3.2.1 过分依赖端到端特征学习\t44 3.2.2 很好特征工程\t44 3.3 与动作空间和回报函数的协同设计\t45 3.3.1 与动作空间尺度一致\t45 3.3.2 以回报函数为中心\t46 3.4 状态空间设计的四个步骤\t47 3.4.1 任务分析\t47 3.4.2 相关信息筛选\t49 3.4.3 泛化性考量\t53 3.4.4 效果验证\t58 3.5 本章小结\t61 参考文献\t62 第4章回报函数设计\t64 4.1 回报函数设计：面向强化学习的编程\t64 4.2 稀疏回报问题\t65 4.2.1 孤独无援的主线回报\t65 4.2.2 稀疏回报问题的本质\t66 4.3 辅助回报\t67 4.3.1 子目标回报\t67 4.3.2 塑形回报\t70 4.3.3 内驱回报\t76 4.3.4 回报取值的注意事项\t77 4.4 回报函数设计的常见陷阱\t78 4.4.1 鲁莽\t79 4.4.2 贪婪\t80 4.4.3 懦弱\t82 4.5 很优回报问题\t83 4.6 基于学习的回报函数\t84 4.6.1 经典方法\t84 4.6.2 前沿方法\t85 4.7 本章小结\t87 参考文献\t88 第5章算法选择\t92 5.1 算法选择：拿来主义和改良主义\t92 5.1.1 DRL算法的发展脉络\t92 5.1.2 一筛、二比、三改良\t94 5.1.3 从独当一面到众星捧月\t96 5.2 牢记经典勿忘本\t97 5.2.1 DQN\t98 5.2.2 DDPG\t99 5.2.3 A3C\t102 5.3 关注SOTA算法别留恋\t105 5.3.1 TD3\t105 5.3.2 SAC\t107 5.3.3 PPO\t110 5.4 其他算法\t112 5.5 本章小结\t113 参考文献\t113 第6章训练调试\t119 6.1 训练调试：此事要躬行\t119 6.2 训练前的准备工作\t120 6.2.1 制定训练方案\t120 6.2.2 选择网络结构\t124 6.2.3 随机漫步\t128 6.2.4 数据预处理\t129 6.3 训练进行时\t131 6.3.1 反脆弱：拥抱不确定性\t131 6.3.2 调节超参数\t134 6.3.3 监控训练状态\t143 6.4 给初学者的建议\t146 6.5 本章小结\t148 参考文献\t149 第7章性能冲刺\t154 7.1 性能冲刺：为DRL注入强心剂\t154 7.2 课程学习\t155 7.2.1 源任务及其分类\t155 7.2.2 应用方式\t157 7.3 额外监督信号\t162 7.3.1 有监督预训练\t163 7.3.2 辅助任务\t164 7.4 进化策略\t169 7.4.1 基本原理\t169 7.4.2 关键细节\t170 7.4.3 应用方式\t174 7.5 本章小结\t175 参考文献\t176
随便看	欢欢摘星记剑网三网游之呆喵遇上丑耗子旧历记事哈哈哈 [魔法少女小圆]童话（红蓝，焰圆）（《红线》END.12）瞎蒙了就这样吧未知之前未来以后一世长安流年花散，如初见在水一方吹不散眉弯另类痴迷陆梓言 [综]天知道我为什么穿越了畸骨美兮 [短篇]也许墙里墙外游园须知一万件小事买来的小忠犬米小白撞爱记吾辈的银魂短篇同人集 [隋唐]专业做国师列御之永夜未央 Origram Solid 3d MonopointBlack Lubalin Graph BusNormal Halidians Blockserif Thirtysix Barthowheel Making Lettering KitTypeThin 微风天气电脑版火柴人坦克电脑版优步Uber电脑版米理财电脑版血流成河电脑版四川移动掌上营业厅电脑版寻影电脑版弹道导弹电脑版 WPS日历电脑版小伙伴电脑版 inkling inkstand inkwell inky inland in-laws inlay inlet in-line skate in-line skating [BT下载][完美世界][第124集][WEB-MP4/0.37G][国语配音/中文字幕][4K-2160P][H265][Huawei] 剧集 2021 大陆剧情连载 [BT下载][时光代理人第二季][第07集][WEB-MP4/0.40G][国语配音/中文字幕][1080P][Huawei] 剧集 2023 大陆动画连载 [BT下载][时光代理人第二季][第07集][WEB-MP4/1.15G][国语配音/中文字幕][4K-2160P][Huawei] 剧集 2023 大陆动画连载 [BT下载][有盼头][第22-23集][WEB-MP4/1.17G][国语配音/中文字幕][1080P][BlackTV] 剧集 2023 大陆剧情连载 [BT下载][有盼头][第22-23集][WEB-MP4/2.71G][国语配音/中文字幕][4K-2160P][H265][BlackTV] 剧集 2023 大陆剧情连载 [BT下载][有盼头][第22-23集][WEB-MP4/10.71G][国语配音/中文字幕][4K-2160P][H265][BlackTV] 剧集 2023 大陆剧情连载 [BT下载][消失的痕迹][全32集][WEB-MP4/9.67G][国语配音/中文字幕][1080P][BlackTV] 剧集 2023 大陆悬疑打包 [BT下载][消失的痕迹][全32集][WEB-MP4/17.89G][国语配音/中文字幕][4K-2160P][H265][BlackTV] 剧集 2023 大陆悬疑打包 [BT下载][混世机甲][第09集][WEB-MP4/0.54G][国语配音/中文字幕][1080P][Huawei] 剧集 2023 大陆科幻连载 [BT下载][遮天][第18集][WEB-MP4/0.31G][国语配音/中文字幕][1080P][Huawei] 剧集 2023 大陆动画连载有道云协作群怎么添加成员-有道云协作群添加成员的方法有道云协作怎么上传和更新文件-有道云协作上传和更新文件的方法有道云协作怎么上传文档-有道云协作上传文档的操作步骤有道云协作中文件怎么删除和重命名-删除和重命名文件的方法美篇怎么发布作品-美篇发布作品的具体流程美篇怎么制作相册-美篇制作相册的详细方法美篇访问量怎么查看-美篇查看访问量的方法美篇怎么清除缓存-美篇清除缓存的具体方法美篇昵称怎么修改-美篇修改昵称的操作方法闲鱼怎么设置访问权限-闲鱼设置访问权限的方法