网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 深度强化学习图解
分类
作者 (美)米格尔·莫拉莱斯
出版社 清华大学出版社
下载
简介
内容推荐
我们在与环境交互的过程中进行学习,经历的奖励或惩罚将指导我们未来的行为。深度强化学习将该过程引入人工智能领域,通过分析结果来寻找最有效的前进方式。DRL智能体可提升营销效果、预测股票涨跌,甚至击败顶尖围棋高手和国际象棋大师。
《深度强化学习图解》呈现生动示例,指导你构建深度学习体系。Python代码包含详明、直观的注释,助你深刻理解DRL技术。你将学习算法的运行方式,并学会用评估性反馈来开发自己的DRL智能体。
本书主要内容包括:
强化学习入门;
行为与人类似的DRL智能体;
在复杂情况下应用DRL。
本书适用于具有基础深度学习经验的开发者。
作者简介
郭涛,Turing Lab发起人,主要从事模式识别与人工智能、智能机器人技术、软件工程技术和地理人工智能(GeoAI)、时空大数据挖掘与分析等前沿交叉领域研究。曾翻译过《复杂性思考:复杂性科学和计算模型(第2版)》《神经网络设计与实现》等多本图书。
目录
第1章 深度强化学习导论
1.1 深度强化学习概念
1.1.1 深度强化学习:人工智能的机器学习法
1.1.2 深度强化学习着重创建计算机程序
1.1.3 智能体解决智能问题
1.1.4 智能体通过试错提高性能
1.1.5 智能体从惯序性反馈中学习
1.1.6 智能体从评估性反馈中学习
1.1.7 智能体从抽样性反馈中学习
1.1.8 智能体使用强大的非线性函数逼近
1.2 深度强化学习的过去、现在与未来
1.2.1 人工智能和深度强化学习的发展简史
1.2.2 人工智能的寒冬
1.2.3 人工智能现状
1.2.4 深度强化学习进展
1.2.5 未来的机遇
1.3 深度强化学习的适用性
1.3.1 利弊分析
1.3.2 深度强化学习之利
1.3.3 深度强化学习之弊
1.4 设定明确的双向预期
1.4.1 本书的预期
1.4.2 本书的最佳使用方式
1.4.3 深度强化学习的开发环境
1.5 小结
第2章 强化学习数学基础
2.1 强化学习组成
2.1.1 问题、智能体和环境的示例
2.1.2 智能体:决策者
2.1.3 环境:其余一切
2.1.4 智能体与环境交互循环
2.2 MDP:环境的引擎
2.2.1 状态:环境的特定配置
2.2.2 动作:影响环境的机制
2.2.3 转换函数:智能体行为的后果
2.2.4 奖励信号:胡萝卜和棍棒
2.2.5 视界:时间改变最佳选择
2.2.6 折扣:未来是不确定的,别太看重它
2.2.7 MDP扩展
2.2.8 总体回顾
2.3 小结
第3章 平衡短期目标与长期目标
3.1 决策智能体的目标
3.1.1 策略:各状态动作指示
3.1.2 状态-值函数:有何期望
3.1.3 动作-值函数:如果这样做,有何期望
3.1.4 动作-优势函数:如果这样做,有何进步
3.1.5 最优性
3.2 规划最优动作顺序
3.2.1 策略评估:评级策略
3.2.2 策略改进:利用评级得以改善
3.2.3 策略迭代:完善改进后的行为
3.2.4 价值迭代:早期改进行为
3.3 小结
第4章 权衡信息收集和运用
4.1 解读评估性反馈的挑战
4.1.1 老虎机:单状态决策问题
4.1.2 后悔值:探索的代价
……
第5章 智能体行为评估
第6章 智能体行为的优化
第7章 更有效、更高效地完成目标
第8章 基于价值的深度强化学习
第9章 更稳定的基于价值方法
第10章 高效抽样的基于价值学习方法
第11章 策略梯度与actor-critic方法
第12章 高级actor-critic方法
第13章 迈向通用人工智能
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/4/4 6:22:17