面向稀疏奖励任务的深度强化学习探索方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 博士学位论文

题名	面向稀疏奖励任务的深度强化学习探索方法研究
作者	徐沛
答辩日期	2023-05-17
文献子类	博士
关键词	深度强化学习稀疏奖励探索
英文摘要	稀疏奖励场景下的探索问题旨在研究如何让机器像人类一样探索周围环境，是强化学习领域基础且富有挑战的问题。为了支撑日趋广泛的应用，强化学习智能体需要拥有高效探索环境的能力，以摆脱对精心设计的奖励信号的依赖。经过长期的发展，智能体探索环境的能力取得了长足的进步，但仍然难以处理高维状态空间、巨大状态空间以及状态空间的动态变化等问题。这些问题极大的限制了强化学习智能体的适用场景。本文围绕如何面向稀疏奖励任务设计高效的强化学习探索方法展开，以单智能体场景、多智能体场景和程序生成场景为依托，系统的研究了探索中的高维状态空间、巨大状态空间以及状态空间的动态变化等问题。本文首先在单智能体场景下研究了高维状态空间中的内部奖励计算问题；接着从单智能体场景转向多智能体场景，研究了巨大状态空间中的高效探索问题；最后，在程序生成场景下研究了状态空间的动态变化对探索目标的影响。论文的主要工作和创新点归纳如下: 1. 基于注意力图的探索方法。探索问题是强化学习领域的基础问题之一。为了处理稀疏奖励任务中的探索问题，许多研究者通过设计密集的内部奖励信号引导智能体的探索行为。为了处理高维状态空间，之前的工作基于预测误差计算内部奖励，从而引导智能体探索环境。然而，为了避免由特征变化引起的随机性，这些方法大多基于图像空间而不是可学习的特征空间。这导致这些方法在计算内部奖励时，忽略了在图像中占比较小、但却与智能体位置密切相关的状态信息，从而无法产生准确的内部奖励以鼓励智能体进行高效探索。为此，本工作首先将现有方法与经过预训练的特征结合，以验证具有丰富表征能力的状态特征对探索的正面影响。为了避免额外的预训练步骤，本工作进一步提出了基于注意力图的特征离散化方法。所提方法可以减小特征学习过程中引入的随机性对内部奖励的影响，从而允许状态特征与智能体的参数同步地在线更新。经典探索任务中的实验结果验证了所提方法的有效性。 2. 基于子空间感知的多智能体探索方法。除高维状态空间外，巨大的状态空间也是亟待解决的问题。为此，本工作在多智能体场景下，研究了巨大状态空间中的高效探索问题。针对该问题的一个可能的解决方案是利用任务结构特点来加速探索过程。为此，本工作针对稀疏奖励多智能体任务，提出了一种新的探索方法，该方法将任务奖励函数的特殊结构编码到探索过程中。具体地，本工作通过引入一种基于子空间状态熵的探索目标，实现了对任务奖励函数的特殊结构的编码，从而帮助智能体快速地发现任务奖励。此外，本工作通过最大化所提探索目标的下界，提出了一种可应用于实际任务的近似算法。大量的标准稀疏奖励多智能体任务上的实验结果验证了所提方法的有效性。具体地，本工作提出的基于子空间感知的多智能体探索方法在3个国际主流测试环境的15个任务中，大幅度超越了其他方法。对于其他方法能解决的任务，所提方法可实现2～10倍的加速。此外，本方法在依赖少量先验知识的情况下，解决了4个之前无法被解决的任务。 3. 基于多样性驱动的探索方法。除状态空间的维度和状态空间的大小外，状态空间的动态变化也是智能体探索环境时面临的主要挑战之一。为此，本工作在程序生成场景下，研究了状态空间的动态变化对探索目标的影响。不同于传统的强化学习任务，程序生成任务的特点在于智能体每个回合面临的环境是由程序随机生成的，这导致智能体不太可能遇见之前回合中访问过的状态。为此，一些研究者提出了针对程序生成任务的探索方法。然而，这些方法仍然仅使用与状态相关的信息来引导探索。为了在程序生成任务中实现高效的探索，本工作提出了基于多样性驱动的探索方法，所提方法利用策略多样性和状态多样性来共同引导智能体的探索行为。具体而言，本工作提出了基于模仿者的非平衡策略多样性来度量智能体的当前策略与历史策略之间的差异，并鼓励智能体最大化这种差异。此外，本工作同时鼓励智能体最大化回合内的状态多样性，从而让其在一个回合内尽可能访问不同的状态。最后，本工作在主流的程序生成环境上评估了所提方法的有效性。与其他方法相比，所提方法显著地提高了样本效率。具体而言，在小规模的程序生成任务中，所提方法比其他方法提升了30%的状态覆盖率。在国际标准的程序生成任务的测试环境中，所提方法可以实现2～6倍的加速。此外，为了验证所提方法的通用性，本工作在多智能体环境中开展了实验。实验结果显示所提方法可以有效提高智能体的探索能力。具体而言，在标准的多智能体任务的测试环境中，相同时间内，所提方法比其他方法多探索了12%～60%的区域。此外，该方法在不使用先验知识的设定下，首次解决了2个之前无法被解决的多智能体任务。
语种	中文
学科主题	计算机科学技术 ; 人工智能 ; 计算机神经网络 ; 人工智能其他学科
页码	128
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/52029]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	徐沛. 面向稀疏奖励任务的深度强化学习探索方法研究[D]. 2023.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们