CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名基于深度强化学习的扁平类物体预抓取操作的研究
作者吴家汐
答辩日期2022-05
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师乔红
关键词预抓取操作 深度强化学习 课程学习
学位名称工学硕士
学位专业控制理论与控制工程
英文摘要

当书本、盘碟等扁平类物体被平放在桌面时,由于它们的厚度过薄或宽度已经超过夹爪限制,机器人无法直接对它们进行抓取。此时,机器人需要借助一些预抓取操作,改变该类物体的位姿,使它们从不可抓取的状态,变为可抓取状态。然而对于机器人来说,想学会这些复杂操作是非常困难的,尤其是在面对形状各异、动力学参数各异的物体时。同时,预抓取操作是一个天然的稀疏奖励任务,现有学习方法往往需要大规模数据才能够学会合适的策略;特别是在面对具有多个物体的杂乱环境时,机器人更难学会合适的预抓取操作策略。
本文针对上述问题,提出了基于深度强化学习的机器人预抓取操作学习方法,使得原本不具备抓取条件的扁平类物体变为可抓取状态。本文的主要成果和贡献归纳如下:
1. 针对预抓取操作中的稀疏奖励问题,提出了基于参考轨迹的逆向课程学习方法:当智能体直接从整体状态空间学习策略时,其会面临探索性问题,导致网络难以收敛。因此本文在参考轨迹的指导下,控制智能体先在目标附近的局部状态空间进行学习。待智能体学会该子任务后,再逐渐增大状态空间,直至覆盖整体状态空间。同时,本文采用了切片式后视经验回放,用以增加采样样本的利用效率,使网络更快收敛。本文分别在仿真和实物实验上对所提方法进行验证,均取得了较好的性能。
2. 针对扁平类物体在初始位姿下不具备抓取条件的问题,设计了一种自适应初始化的预抓取操作策略学习方法:本文构建了不同形状的物体和桌面,用于预抓取操作策略的训练,以增强训练模型对新物体的泛化能力。此外,本文提出了一种自适应初始化方式,控制环境的初始状态自适应地从演示轨迹上的状态和随机初始状态中进行采样,在帮助策略收敛的同时,保证其能够更好地探索状态空间。借助于域随机化技术,本文将仿真中训练策略迁移至实体机器人上面,完成了扁平类物体的预抓取操作,并验证了策略的鲁棒性与泛化性。
3. 面对杂乱环境下扁平类物体的抓取问题,提出了一种具有离散-连续混合动作空间的预抓取操作策略学习方法:本文采用滑动基元作为动作变量,并将该问题抽象为参数化动作空间的马尔可夫决策过程。本文采用一个权重共享的价值网络选取待滑动的物体,使用另一个权重共享的策略网络预测对应的滑动动作参数。同时,本文将课程学习集成到所提方法中,实现了具有更多物体的杂乱环境中的预抓取操作。在仿真和实物实验中,本文方法均以较高的成功率实现了杂乱环境下扁平类物体的预抓取操作,并展现了对新物体的泛化能力。

语种中文
页码98
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48498]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
吴家汐. 基于深度强化学习的扁平类物体预抓取操作的研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace