自AlphaGo在2016年击败职业棋手以来,人工智能技术中的强化学习和深度强化学习也引起了各个领域的关注。然而,强化学习与机器学习、深度学习相比,其相关的书籍相对来说比较少,而且很多书籍中还使用了大量晦涩的专业术语和数学公式,初学者往往面临很高的门槛。
本书的目的就是为了消除这种高门槛,并通过使用初级数学中的“平均值”等概念,对强化学习中的“价值”“探索”和“马尔可夫性”等基本概念进行浅显易懂的解释。
对于每个算法,本书将使用“多臂老虎机问题”或“网格世界问题”中的一个,以易于比较的状态进行解释,这样,可以让读者更直观地理解各算法的特点和差异。此外,对于核心算法,本书提供了使用Python和MATLAB编写的两种类型的代码,通过运行这些代码,可以让读者直观地理解“原理→公式→程序”的一系列流程。