深度强化学习(算法原理与金融实践入门)清华大学出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

深度强化学习是人工智能和机器学习的重要分支领域，有着广泛应用，如AlphaGo和ChatGPT。本书作为该领域的入门教材，在内容上尽可能覆盖深度强化学习的基础知识和经典算法。全书共10章，大致分为4部分：第1部分（第1～2章）介绍深度强化学习背景（智能决策、人工智能和机器学习）；第2部分（第3～4章）介绍深度强化学习基础知识（深度学习和强化学习）；第3部分（第5～9章）介绍深度强化学习经典算法（DQN、AC、DDPG等）；第4部分（第10章）为总结和展望。每章都附有习题并介绍了相关阅读材料，以便有兴趣的读者进一步深入探索。
本书可作为高等院校计算机、智能金融及相关专业的本科生或研究生教材，也可供对深度强化学习感兴趣的研究人员和工程技术人员阅读参考。

第1章智能决策与复杂系统
1.1 智能决策
1.1.1 智能决策简介
1.1.2 复杂金融系统中的智能决策
1.2 复杂系统
1.2.1 复杂性科学
1.2.2 复杂系统定义
1.2.3 复杂系统类型
1.2.4 复杂系统研究
1.3 复杂环境特征
1.3.1 完全可观察的和部分可观察的环境
1.3.2 单智能体和多智能体
1.3.3 确定的和随机的环境
1.3.4 片段式和延续式环境
1.3.5 静态和动态环境
1.3.6 离散和连续环境
1.3.7 已知和未知环境
1.4 复杂环境建模
1.5 智能体建模
1.5.1 典型决策系统模型框架
1.5.2 智能体建模框架
1.6 智能决策系统建模
1.6.1 问题提炼
1.6.2 数据采集
1.6.3 模型构建
1.6.4 算法实现
1.6.5 模型训练
1.6.6 模型验证
1.6.7 模型改进
1.6.8 模型运用
1.7 应用实践
第1章习题
第2章人工智能与机器学习
2.1 人工智能简介
2.1.1 人工智能+农业
2.1.2 人工智能+教育
2.1.3 人工智能+工业
2.1.4 人工智能+金融
2.2 人工智能前沿
2.3 人工智能简史
2.4 人工智能流派
2.4.1 符号主义学派
2.4.2 联结主义学派
2.4.3 行为主义学派
2.5 人工智能基础
2.5.1 运筹学
2.5.2 最优化控制
2.5.3 交叉学科
2.5.4 人工智能和机器学习相关会议
2.6 机器学习分类
2.6.1 监督学习
2.6.2 无监督学习
2.6.3 强化学习
2.7 机器学习基础
2.7.1 激活函数
2.7.2 损失函数
2.7.3 优化算法
2.8 应用实践
第2章习题
第3章深度学习入门
3.1 深度学习简介
3.1.1 深度学习与人工智能
3.1.2 深度学习与机器学习
3.1.3 深度学习与表示学习
3.2 深度神经网络
3.2.1 深度神经网络构建
3.2.2 深度神经网络实例
3.3 深度卷积神经网络
3.4 深度循环神经网络
3.5 深度图神经网络
3.5.1 图神经网络简介
3.5.2 图神经网络聚合函数
3.5.3 图神经网络更新函数
3.5.4 图神经网络池化函数
3.6 深度神经网络训练
3.6.1 模型训练挑战
3.6.2 数据预处理
3.6.3 参数初始化
3.6.4 学习率调整
3.6.5 梯度优化算法
3.6.6 超参数优化
3.6.7 正则化技术
3.7 应用实践
3.7.1 TensorFlow安装
3.7.2 TensorFlow基本框架
3.7.3 TensorBoard
3.7.4 scikit-learn
3.7.5 Keras
第3章习题
第4章强化学习入门
4.1 强化学习简介
4.2 马尔可夫决策过程
4.3 动态规划方法
4.3.1 策略函数
4.3.2 奖励函数
4.3.3 累积回报
4.3.4 状态值函数
4.3.5 状态-动作值函数
4.3.6 状态-动作值函数与状态值函数的关系
4.3.7 Bellman方程
4.3.8 策略迭代算法
4.3.9 值函数迭代算法
4.4 蒙特卡洛方法
4.4.1 蒙特卡洛估计
4.4.2 蒙特卡洛强化学习算法伪代码
4.5 时序差分学习
4.5.1 时序差分学习算法
4.5.2 时序差分学习算法、动态规划和蒙特卡洛算法比较
4.5.3 Q-learning
4.5.4 SARSA
4.6 策略梯度方法
4.7 应用实践
4.7.1 强化学习的智能交易系统框架
4.7.2 智能交易系统环境模型编程
第4章习题
第5章深度强化学习Q网络
5.1 深度Q网络
5.1.1 智能策略
5.1.2 策略函数与Q表格
5.1.3 策略函数与Q网络
5.2 DQN算法介绍
5.2.1 经验回放
5.2.2 目标网络
5.3 DQN算法
5.4 DoubleDQN
5.4.1 DoubleDQN背景
5.4.2 双Q网络结构
5.4.3 DoubleDQN算法伪代码
5.5 DuelingDQN
5.5.1 DuelingDQN算法框架简介
5.5.2 DuelingDQN算法核心思想
5.6 DistributionalDQN
5.7 DQN的其他改进
5.7.1 优先级经验回放
5.7.2 噪声网络DQN
5.7.3 多步（Multi-step）DQN
5.7.4 分布式训练
5.7.5 DQN算法改进
5.7.6 DQN算法总结
5.8 应用实践
5.8.1 智能投资决策系统
5.8.2 核心代码解析
5.8.3 模型训练
5.8.4 模型测试
第5章习题
第6章深度策略优化方法
6.1 策略梯度方法简介
6.1.1 DQN的局限
6.1.2 策略梯度方法分类
6.2 随机性策略梯度算法
6.2.1 轨迹数据
6.2.2 目标函数
6.2.3 梯度计算
6.2.4 更新策略
6.3 随机性策略梯度定理
6.3.1 随机性策略梯度定理介绍
6.3.2 随机性策略梯度定理分析
6.4 策略梯度优化几种实现方法
6.4.1 策略梯度优化理论
6.4.2 完整轨迹的累积奖励回报
6.4.3 部分轨迹的累积奖励回报
6.4.4

书名	深度强化学习(算法原理与金融实践入门)
分类
作者
出版社	清华大学出版社
下载
简介	内容推荐深度强化学习是人工智能和机器学习的重要分支领域，有着广泛应用，如AlphaGo和ChatGPT。本书作为该领域的入门教材，在内容上尽可能覆盖深度强化学习的基础知识和经典算法。全书共10章，大致分为4部分：第1部分（第1～2章）介绍深度强化学习背景（智能决策、人工智能和机器学习）；第2部分（第3～4章）介绍深度强化学习基础知识（深度学习和强化学习）；第3部分（第5～9章）介绍深度强化学习经典算法（DQN、AC、DDPG等）；第4部分（第10章）为总结和展望。每章都附有习题并介绍了相关阅读材料，以便有兴趣的读者进一步深入探索。本书可作为高等院校计算机、智能金融及相关专业的本科生或研究生教材，也可供对深度强化学习感兴趣的研究人员和工程技术人员阅读参考。作者简介谢文杰，男，湖南浏阳人，应用数学博士，上海市晨光学者。现任职华东理工大学商学院金融学系副教授、硕士研究生导师、金融物理研究中心成员，主要研究复杂金融网络、机器学习、深度强化学习、金融风险管理等。获2016年度上海市自然科学奖二等奖（4/5），主持完成4项国家或省部级科研项目。目录第1章智能决策与复杂系统 1.1 智能决策 1.1.1 智能决策简介 1.1.2 复杂金融系统中的智能决策 1.2 复杂系统 1.2.1 复杂性科学 1.2.2 复杂系统定义 1.2.3 复杂系统类型 1.2.4 复杂系统研究 1.3 复杂环境特征 1.3.1 完全可观察的和部分可观察的环境 1.3.2 单智能体和多智能体 1.3.3 确定的和随机的环境 1.3.4 片段式和延续式环境 1.3.5 静态和动态环境 1.3.6 离散和连续环境 1.3.7 已知和未知环境 1.4 复杂环境建模 1.5 智能体建模 1.5.1 典型决策系统模型框架 1.5.2 智能体建模框架 1.6 智能决策系统建模 1.6.1 问题提炼 1.6.2 数据采集 1.6.3 模型构建 1.6.4 算法实现 1.6.5 模型训练 1.6.6 模型验证 1.6.7 模型改进 1.6.8 模型运用 1.7 应用实践第1章习题第2章人工智能与机器学习 2.1 人工智能简介 2.1.1 人工智能+农业 2.1.2 人工智能+教育 2.1.3 人工智能+工业 2.1.4 人工智能+金融 2.2 人工智能前沿 2.3 人工智能简史 2.4 人工智能流派 2.4.1 符号主义学派 2.4.2 联结主义学派 2.4.3 行为主义学派 2.5 人工智能基础 2.5.1 运筹学 2.5.2 最优化控制 2.5.3 交叉学科 2.5.4 人工智能和机器学习相关会议 2.6 机器学习分类 2.6.1 监督学习 2.6.2 无监督学习 2.6.3 强化学习 2.7 机器学习基础 2.7.1 激活函数 2.7.2 损失函数 2.7.3 优化算法 2.8 应用实践第2章习题第3章深度学习入门 3.1 深度学习简介 3.1.1 深度学习与人工智能 3.1.2 深度学习与机器学习 3.1.3 深度学习与表示学习 3.2 深度神经网络 3.2.1 深度神经网络构建 3.2.2 深度神经网络实例 3.3 深度卷积神经网络 3.4 深度循环神经网络 3.5 深度图神经网络 3.5.1 图神经网络简介 3.5.2 图神经网络聚合函数 3.5.3 图神经网络更新函数 3.5.4 图神经网络池化函数 3.6 深度神经网络训练 3.6.1 模型训练挑战 3.6.2 数据预处理 3.6.3 参数初始化 3.6.4 学习率调整 3.6.5 梯度优化算法 3.6.6 超参数优化 3.6.7 正则化技术 3.7 应用实践 3.7.1 TensorFlow安装 3.7.2 TensorFlow基本框架 3.7.3 TensorBoard 3.7.4 scikit-learn 3.7.5 Keras 第3章习题第4章强化学习入门 4.1 强化学习简介 4.2 马尔可夫决策过程 4.3 动态规划方法 4.3.1 策略函数 4.3.2 奖励函数 4.3.3 累积回报 4.3.4 状态值函数 4.3.5 状态-动作值函数 4.3.6 状态-动作值函数与状态值函数的关系 4.3.7 Bellman方程 4.3.8 策略迭代算法 4.3.9 值函数迭代算法 4.4 蒙特卡洛方法 4.4.1 蒙特卡洛估计 4.4.2 蒙特卡洛强化学习算法伪代码 4.5 时序差分学习 4.5.1 时序差分学习算法 4.5.2 时序差分学习算法、动态规划和蒙特卡洛算法比较 4.5.3 Q-learning 4.5.4 SARSA 4.6 策略梯度方法 4.7 应用实践 4.7.1 强化学习的智能交易系统框架 4.7.2 智能交易系统环境模型编程第4章习题第5章深度强化学习Q网络 5.1 深度Q网络 5.1.1 智能策略 5.1.2 策略函数与Q表格 5.1.3 策略函数与Q网络 5.2 DQN算法介绍 5.2.1 经验回放 5.2.2 目标网络 5.3 DQN算法 5.4 DoubleDQN 5.4.1 DoubleDQN背景 5.4.2 双Q网络结构 5.4.3 DoubleDQN算法伪代码 5.5 DuelingDQN 5.5.1 DuelingDQN算法框架简介 5.5.2 DuelingDQN算法核心思想 5.6 DistributionalDQN 5.7 DQN的其他改进 5.7.1 优先级经验回放 5.7.2 噪声网络DQN 5.7.3 多步（Multi-step）DQN 5.7.4 分布式训练 5.7.5 DQN算法改进 5.7.6 DQN算法总结 5.8 应用实践 5.8.1 智能投资决策系统 5.8.2 核心代码解析 5.8.3 模型训练 5.8.4 模型测试第5章习题第6章深度策略优化方法 6.1 策略梯度方法简介 6.1.1 DQN的局限 6.1.2 策略梯度方法分类 6.2 随机性策略梯度算法 6.2.1 轨迹数据 6.2.2 目标函数 6.2.3 梯度计算 6.2.4 更新策略 6.3 随机性策略梯度定理 6.3.1 随机性策略梯度定理介绍 6.3.2 随机性策略梯度定理分析 6.4 策略梯度优化几种实现方法 6.4.1 策略梯度优化理论 6.4.2 完整轨迹的累积奖励回报 6.4.3 部分轨迹的累积奖励回报 6.4.4
随便看	梁启超讲读王阳明心学人类的由来及性选择/科学元典丛书推开童诗的门(儿童诗阅读教学与创作) 长不大的小樱子/小樱子上学啦一家人(精) 油气管道在役焊接技术(精)/石油石化学术文库西游记/线装经典垂虹问俗--田野中的近现代江南社会与文化我们的大自然(给中国孩子的手绘自然百科)(精) 黑猫(爱伦·坡短篇小说集) 美体重塑(模特都在偷偷练) 怪医杜立德(精) 等一等总有惊喜与你不期而遇/悦读文库晚安爸爸妈妈/我能做幼儿生活习惯养成图画书精准扶贫(理论路径与和田思考)(英文版)/国家智库报告岩溶地下河探测与评价(精) 企业海外经营的组织合法性研究--基于社会网络视角阳光瀑布/希望树成长书系 STS视域下的技术安全哲学研究说唐三传/中国古典小说丛书相声考论/博导文丛/中国艺术学文库光与影拆信猫时间(丢了魔术的魔术师)/儿童文学童书馆国富论(精)/译林人文精选认同自己--如何超越与生俱来的弱点 ultimate vocal remover5 v2.56 Ultimate Vocal Remover GUI v5.4.0 拼多多评论采集 V2.49 KSA-Kanxue Security Access v2.64 央视网超级下载工具 v1.0 ultimate vocal remover5 v2.56 Ultimate Vocal Remover GUI v5.4.0 拼多多评论采集 V2.49 KSA-Kanxue Security Access v2.64 Indexz插件 v22.03 博德之门3Umberlee的网袜中文翻译MOD v3.35 模拟人生4迷彩工装裤MOD v3.48 星空科幻风二次元女孩杂志封面替换MOD v3.3 博德之门3急速之鞋MOD v1.76 博德之门3法术强化元素武器MOD v1.79 博德之门3沙洛佛克的盔甲套装MOD v1.67 博德之门3火矮人平面兵工厂MOD v2.7 恶灵附身2 epic版修改器 v1.41 博德之门3卡苏斯的王冠MOD v3.77 辐射4义勇军增强MOD v2.3 podcast podgy podiatrist podium poem poet poetic poetic justice poetic licence Poet Laureate [BT下载][老鹰五兄弟拜托了][第50集][WEB-MKV/1.40G][中文字幕][1080P][流媒体][DeePTV] [BT下载][健将联盟][全16集][WEB-MKV/68.52G][简繁英字幕][1080P][流媒体][DeePTV] [BT下载][异人旅馆][第03集][WEB-MP4/0.37G][中文字幕][1080P][流媒体][DeePTV] [BT下载][全知干预视角][第356集][WEB-MKV/2.18G][简繁英字幕][1080P][流媒体][DeePTV] [BT下载][薰香花朵凛然绽放][第02集][WEB-MKV/0.87G][简繁英字幕][1080P][Netflix][流媒体][DeePTV] [BT下载][甜心医生][第01集][WEB-MKV/0.79G][简繁英字幕][1080P][流媒体][DeePTV] [BT下载][魔女与使魔][第16集][WEB-MKV/0.87G][简繁英字幕][1080P][Netflix][流媒体][DeePTV] [BT下载][种地吧3][第01-80集][WEB-MP4/94.43G][国语配音/中文字幕][1080P][流媒体][DeePTV] [BT下载][红豆面包][第81集][WEB-MKV/1.03G][中文字幕][1080P][流媒体][DeePTV] [BT下载][瑞草洞][第06集][WEB-MKV/5.56G][中文字幕][1080P][流媒体][DeePTV] 哈利波特魔法觉醒阿瓦达索命咒怎么用-阿瓦达索命咒用法金铲铲之战跳跳虎阵容怎么搭配-跳跳虎阵容搭配推荐金铲铲之战狂野龙刺阵容怎么玩-狂野龙刺阵容出装推荐金铲铲之战黄金铁三角阵容怎么玩-黄金铁三角阵容攻略金铲铲之战爆杀雷熊阵容怎么玩-爆杀雷熊阵容攻略英雄联盟S11全球总决赛赛程安排 Win11如何取消更新并关机-Win11取消更新并关机方法 Win11可不可以安装到VM中-Win11安装到VM方法 Win11更新Windows Hello不可用-Windows Hello不可用解决方法 Win11玩游戏是否卡顿-Win11玩游戏是否卡顿介绍