深度强化学习/图灵原创王树森//黎彧君//张志华人民邮电出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

书名

深度强化学习/图灵原创

分类

作者

王树森//黎彧君//张志华

出版社

人民邮电出版社

下载

简介

内容推荐

本书基于备受读者推崇的王树森“深度强化学习”系列公开视频课，专门解决“入门深度强化学习难”的问题。
本书的独特之处在于：第一，知识精简，剔除一切不必要的概念和公式，学起来轻松；第二，内容新颖，聚焦近10年深度强化学习领域的突破，让你一上手就紧跟最新技术。本书系统讲解深度强化学习的原理与实现，但不回避数学公式和各种模型，原创100多幅精美插图，并以全彩印刷展示。简洁清晰的语言+生动形象的图示，助你扫除任何可能的学习障碍！本书内容分为五部分：基础知识、价值学习、策略学习、多智能体强化学习、应用与展望，涉及DQN、A3C、TRPO、DDPG、AlphaGo等。
本书面向深度强化学习入门读者，助你构建完整的知识体系。学完本书，你能够轻松看懂深度强化学习的实现代码、读懂该领域的论文、听懂学术报告，具备进一步自学和深挖的能力。

序言
前言
常用符号
第一部分基础知识
第1章机器学习基础
1.1 线性模型
1.1.1 线性回归
1.1.2 逻辑斯谛回归
1.1.3 softmax分类器
1.2 神经网络
1.2.1 全连接神经网络
1.2.2 卷积神经网络
1.3 梯度下降和反向传播
1.3.1 梯度下降
1.3.2 反向传播
知识点小结
习题
第2章蒙特卡洛方法
2.1 随机变量
2.2 蒙特卡洛方法实例
2.2.1 例一：近似π值
2.2.2 例二：估算阴影部分面积
2.2.3 例三：近似定积分
2.2.4 例四：近似期望
2.2.5 例五：随机梯度
知识点小结
习题
第3章强化学习基本概念
3.1 马尔可夫决策过程
3.1.1 状态、动作、奖励
3.1.2 状态转移
3.2 策略
3.3 随机性
3.4 回报与折扣回报
3.4.1 回报
3.4.2 折扣回报
3.4.3 回报中的随机性
3.4.4 有限期MDP和无限期MDP
3.5 价值函数
3.5.1 动作价值函数
3.5.2 最优动作价值函数
3.5.3 状态价值函数
3.6 实验环境：OpenAIGym
知识点小结
习题
第二部分价值学习
第4章 DQN与Q学习
4.1 DQN
4.1.1 概念回顾
4.1.2 DQN表达式
4.1.3 DQN的梯度
4.2 TD算法
4.2.1 驾车时间预测示例
4.2.2 TD算法的原理
4.3 用TD训练DQN
4.3.1 算法推导
4.3.2 训练流程
4.4 Q学习算法
4.4.1 表格形式的Q学习
4.4.2 算法推导
4.4.3 训练流程
4.5 同策略与异策略
相关文献
知识点小结
习题
第5章 SARSA算法
5.1 表格形式的SARSA
5.1.1 算法推导
5.1.2 训练流程
5.1.3 Q学习与SARSA的对比
5.2 神经网络形式的SARSA
5.2.1 价值网络
5.2.2 算法推导
5.2.3 训练流程
5.3 多步TD目标
5.3.1 算法推导
5.3.2 多步TD目标的原理
5.3.3 训练流程
5.4 蒙特卡洛方法与自举
5.4.1 蒙特卡洛方法
5.4.2 自举
5.4.3 蒙特卡洛方法和自举的对比
相关文献
知识点小结
习题
第6章价值学习高级技巧
6.1 经验回放

导语

入门深度强化学习就用猫书！北大教授王树森等业内大咖新作，涵盖近十年热门深度学习方法，围绕实用、精简两大原则，140多幅全彩插图，配备PPT与视频课程，零基础也能轻松掌握，让你的深度学习之旅倍感愉悦！

随便看

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。