《智能科学技术著作丛书》序
前言
章 绪论
1.1 概念与内涵
1.2 国内外研究现状与发展趋势
1.2.1 国内外研究现状
1.2.2 发展趋势分析
1.3 《星际争霸》AI比赛
1.4 小结
思考题
第2章 多智能即时策略对抗基础
2.1 多智能体即时策略对抗形式化描述
2.2 多智能体强化学习基础
2.2.1 完全合作任务算法
2.2.2 完全竞争任务算法
2.2.3 混合竞争与合作任务算法
2.3 解决方法
2.3.1 基于知识驱动的启发式方法
2.3.2 基于数据驱动的学习方法
2.4 强化学习算法研究流程
2.5 即时策略对抗研究环境
2.6 对抗场景与算法性能基准
2.7 小结
思考题
第3章 多智能体双向协调网络
3.1 算法架构
3.2 训练方法
3.3 实验设计与结果分析
3.4 小结
思考题
第4章 反事实多智能体策略梯度
4.1 算法架构
4.2 学习算法
4.3 实验设计与结果分析
4.4 小结
思考题
第5章 共享参数多智能体策略下降Sarsa(λ)算法
5.1 算法架构
5.2 训练方法
5.3 实验设计与结果分析
5.4 小结
思考题
第6章 进化策略算法
6.1 进化策略
6.2 基于进化策略的多智能体动作策略模型
6.3 实验设计与结果分析
6.4 小结
思考题
第7章 《星际争霸》AI研究环境搭建
7.1 Anaconda与PyCharm工具
7.2 《星际争霸》AI研究环境搭建方式一:Win-Linux模式
7.2.1 Windows服务器端安装
7.2.2 Linux客户端安装
7.2.3 运行示例代码测试环境安装的正确性
7.3 《星际争霸》AI研究环境搭建方式二:单Linux模式
7.3.1 基于Linux的环境搭建
7.3.2 运行示例代码测试环境安装的正确性
7.4 小结
思考题
第8章 《星际争霸》即时策略对抗AI开发基础
8.1 Gym接口规范
8.2 基于Gym接口规范的《星际争霸》对抗环境开发
8.3 最简单的多智能体对抗策略实例―随机攻击
8.4 小结
思考题
第9章 基于知识驱动的启发式策略开发实战
9.1 《星际争霸》Gym环境设计
9.2 攻击最近敌方策略设计
9.3 攻击最弱最近敌方策略设计
9.4 实验设计与结果分析
9.4.1 不同决策频率对胜率的影响
9.4.2 不同初始阵型对胜率的影响
9.4.3 不同对战规模对胜率的影响
9.4.4 不同策略间相互对抗胜率
9.5 小结
思考题
0章 多智能体强化学习方法开发实战
10.1 BiCNet《星际争霸》Gym环境设计实现
10.2 训练算法实现
10.3 运行模型
10.4 实验设计与结果分析
10.5 小结
思考题
附录A 深度神经网络与强化学习简介
A.1 深度神经网络
A.1.1 多层感知器
A.1.2 卷积神经网络
A.1.3 循环神经网络
A.2 强化学习
A.2.1 时间差分学习
A.2.2 蒙特卡罗方法
A.2.3 策略梯度方法
附录B 《星际争霸》游戏基础
B.1 游戏种族与兵种
B.1.1 人族
B.1.2 神族
B.1.3 虫族
B.2 游戏地图制作与编辑
B.2.1 角色战斗力修改
B.2.2 游戏中触发器修改
参考文献