强化学习中环境建模误差问题研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 智能感知与计算研究中心

题名	强化学习中环境建模误差问题研究
作者	黄文振
答辩日期	2021-11
文献子类	博士
授予单位	中国科学院大学人工智能学院
授予地点	中国科学院大学
导师	黄凯奇
关键词	基于模型的强化学习深度强化学习元学习
学位专业	计算机应用技术
英文摘要	强化学习旨在通过试错的方式来获取序列决策问题的最优策略。早期的强化学习方法通常采用表格形式记录不同状态的价值或使用线性函数来逼近状态的价值，这使得它们的应用范围往往局限于一些低维问题。强化学习与深度神经网络等性能强大的函数逼近器的结合，极大地拓展了强化学习的应用场景，包括从模拟机器人的控制，到围棋等各种棋类游戏，再到以视觉为输入的各类复杂的电脑游戏等一系列的场景。然而，常见的强化学习方法的样本效率（Sample Efficiency）都较低，即它们需要大量样本才能学习到良好的策略，这意味着智能体需要与环境进行大量交互，进而导致这类算法应用到真实场景时，存在对设备的磨损过大以及训练时间过长等问题。为提高强化学习的样本效率，本文将研究的重点聚焦于基于模型的强化学习。基于模型的强化学习方法通常被认为具有较高样本效率。此类方法学习一个动力学模型来模拟真实环境，并利用该模型生成虚拟数据、执行在线规划或进行策略搜索，从而减少对真实样本的需求量。但学习到的动力学模型的精确程度却对这些基于模型的强化学习算法的性能有着很大的影响，模型误差可能导致次优的性能甚至算法发散。针对模型误差问题，本文从两个角度展开研究：一、调整智能体与环境的交互策略——收集合适的训练样本来降低动力学模型的预测误差；二、调整生成样本的使用方式——限制带有较大预测误差的生成样本参与到策略的训练过程中。主要工作概括如下： 1.为了收集合适的训练样本以降低动力学模型的预测误差，本工作提出了一种针对规划树（Planning Tree）的每一层进行自举的强化学习方法。这种方法能够衡量动力学模型对不同状态-动作对进行预测时的不确定度，并对不确定度高的状态增加探索，从而减少潜在的模型误差。此外，本工作在更新动作价值函数时，目标值是通过对自举分布进行采样获得的，这样做可以更好地将未来和当前的不确定度联系起来。本工作还引入了先验机制以提高探索效率。实验结果表明本工作所提的方法可以有效地减少模型误差，并在多个Atari游戏上取得了比其他基于模型的方法更好的性能。 2.为了限制带有预测误差的生成样本参与到策略的训练过程中，本工作提出了一种自适应的针对生成样本的重加权机制。具体而言，本工作通过先使用生成样本来更新动作价值和策略网络，再在真实样本上计算更新前后两个网络的损失值的差异的方式，以该差异来评估生成样本对训练过程的影响。为了高效地实现对每个样本的重加权，本工作构造了一个权重预测网络，并基于上述评估标准设计了一个元学习算法来训练该权重网络。算法大体流程如下：使用加权后的生成样本来更新动作价值和策略网络，计算更新前后损失值的差异，然后通过链式法则求取该差异对权重网络参数的梯度，并以此来更新权重网络。实验结果表明，提出的方法在多个控制任务上优于现有的基于模型和无模型的强化学习算法。权重变化的可视化进一步验证了该加权方案的合理性。 3.本文的第二个研究工作（参见上一段）尝试通过最小化生成样本的负面影响来对样本进行加权，但这种方法还面临权重低估这一挑战。针对这一挑战，本文提出了两种解决方案。方案一，本工作扩展了第二个研究工作的思路，从生成样本在训练过程中对策略或价值网络参数的影响的角度出发，仍使用元学习方法训练权重预测函数，但额外地以真实样本为基准，对权重预测函数进行调节，从而避免生成样本的权重被低估。方案二，本工作从生成样本在训练过程中对价值网络输出结果的影响的角度出发，构建了一种样本加权机制，该机制通过直接对比真实样本和生成样本上计算出的目标值的差异来对权重预测网络进行监督训练，在避免生成样本的权重被低估的同时降低了计算代价。实验结果表明，在多个高维连续控制任务中，基于以上机制设计的算法不仅优于当前最优的基于模型和无模型的强化学习算法，还优于第二个研究工作所提的算法。综上，针对模型误差问题，本文提出两条解决思路：收集具有较高不确定度的状态-动作对以减少潜在的模型误差，以及减少带有预测误差的生成样本的负面影响，并按照这些思路展开了相关研究。
语种	中文
页码	134
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/46601]
专题	自动化研究所_智能感知与计算研究中心
推荐引用方式 GB/T 7714	黄文振. 强化学习中环境建模误差问题研究[D]. 中国科学院大学. 中国科学院大学人工智能学院. 2021.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们