CORC  > 软件研究所  > 中科院软件所  > 中科院软件所
题名基于视频的人机交互及其关键技术研究
作者王西颖
学位类别博士
答辩日期2007-06-08
授予单位中国科学院软件研究所
授予地点软件研究所
关键词基于视频的人机交互 手势交互 交互框架模型 视频分割 视频跟踪 手势理解 虚拟现实
其他题名Research on key issues of vision-based interaction
中文摘要随着人机交互技术的发展,各种新的交互手段不断涌现,使人机交互朝着更加自然、高效和更加智能化的方向前进。基于视频的交互(VBI,Vision Based Interaction)或基于摄像头的交互(CBI,Camera Based Interaction)就是近年来出现的新型交互技术之一,并且受到了广泛的关注。通过基于视频的交互方式,人可以按照自身行为习惯完成交互动作,由摄像头感知人的动作和行为,并由计算机进行视频数据的分析与理解,然后自动地完成交互任务,整个过程甚至可以忽略计算机与摄像头的存在。基于视频的交互在虚拟现实、普适计算等领域越来越受到研究人员的重视,并将成为主流交互方式之一。 视频手势交互是VBI的主要方式,手势具有丰富的形状与动作信息,其直接操纵的特点特别适合3D交互任务的完成,但由于人手是一个复杂的变形体,手势本身具有的复杂性、多义性,以及时间与空间上的差异性等特点,使对其进行分析与理解成为一项极富挑战性的研究课题。 基于视频的交互是涉及计算机视觉、数字图像及视频处理、模式识别、人机交互以及行为心理学等多种学科的技术,本文主要针对VBI的交互框架与关键使能技术两个方面进行了研究。基于视频的交互框架研究从总体角度概括了基于视频交互的基本特性,对交互系统开发与具体技术路线应用具有重要的指导意义。针对视频手势交互,本文对其关键使能技术进行了研究,包括视频手势的分割、连续视频跟踪、动态手势建模及理解,并提出了有效的算法或解决方案。 本文主要的创新性成果可归纳为以下五个方面: 1、VBI的STEF交互框架。 首先系统地分析了基于视频交互的基本特点、它的输入输出结构及其主要的计算环境-普适计算、虚拟现实与计算机支持的协同计算环境,在此基础上提出了一种基于视频交互的框架-STEF(Scene,Task,Event and Feedback)模型。STEF模型是一种面向任务的以视觉事件为驱动,并具备反馈机制的循环结构模型。该模型可为基于视频的交互界面(VBUI,Vision-Based User Interface)研究及应用程序设计提供总体指导。 2、基于模糊集的手势图像分割方法 提出了一种新的基于模糊集理论的手势分割方法,定义了三种不同的手势模糊集,以及在模糊集合基础上的模糊形态学处理方法,实现了在连续的视频帧中手区域的精确提取。并且进一步利用图像金字塔技术实现了对手势图像的多分辨率分析,成功实现了手指与手掌部位的分离。 3、一种面向实时交互的视频手势跟踪算法。 针对基于视频手势的实时交互任务,提出了一种快速连续的变形手势跟踪方法,它结合了基于模型与基于表观方法的特点,使跟踪过程建立在对目标对象-手势的理解基础之上,通过识别静态手势并将其模型与图像特征相匹配,实现了自动跟踪初始化和跟踪失败后的自动恢复。跟踪过程中能够动态地更新跟踪模板,以适应多关节手势不断变化的外观轮廓。通过将复杂的高维度特征向量分解为多个2D跟踪模板,跟踪计算量大为减小。 该方法还将K-Means聚类与粒子滤波Particle Filter算法相结合,成功解决了多手指互相干扰的问题。通过跟踪检测实现了目标丢失后的自动恢复,保证了交互的连续性。实验证明,这种方法可以实时地跟踪外观不断变化的手区域与手指尖位置,是一种有效的变形手势跟踪方法。 4、基于HMM-FNN模型的复杂手势识别算法。 提出一种新颖的HMM-FNN模型,它是一种结合了隐马尔可夫模型(HMM,Hidden Markov Model)的时序建模能力与模糊神经网络(FNN, Fuzzy Neural Network)的模糊逻辑表达与推理能力的模型,HMM对观察值序列的似然概率作为各子类别的模糊隶属度,通过模糊神经网络的模糊推理得到最终输出结果。针对复杂的动态手势,提出了基于HMM-FNN模型的手势建模与识别方法。它充分利用了动态手势本身的特点,即动态手势运动特征的可分解性与语义描述上的模糊性,将其分解为手形变化、2D平面运动与Z轴方向运动三个组成部分,通过对手及手指指尖的位置跟踪,获得三组特征值序列作为HMM-FNN模型的输入数据。 与普通HMM模型相比,该方法在对复杂动态手势识别时,通过利用手势本身的特点将复杂问题进行分解,避免了用高维度特征对手势进行描述,从而降低了运算复杂度,提高了系统性能。此外该方法还充分考虑到手势的模糊特性,并通过FNN的形式进行模糊规则的建模与模糊推理,较之简单的确定性推理,系统的鲁棒性得到增强。HMM-FNN模型还充分利用了人的先验知识,在模糊规则的构造与网络连接结构上进行优化处理,提高系统的训练与识别效率。 5、层次化的交互手势建模与理解方法。 针对虚拟现实环境下的交互手势,提出一种层次化方法对交互手势进行建模与分类。根据交互手势的运动特征和交互特点,本文首先给出了一种新的层次化交互手势类型划分方法,然后对不同类型的交互手势通过不同的模型进行描述与表示,这样就避免了采用单一模型导致效率不高的问题。在层次化建模的基础上进行识别和理解,这是一个由粗到精的过程,通过滑动窗技术实时提取手势的全局统计特征,实现手势类别的粗略划分,然后根据各类手势不同特点采用不同的分析方法,从而完成交互任务。此外,交互环境及上下文信息被用以辅助手势的类别划分,提高了识别效率。 基于视频的交互研究具有较高的应用价值和良好的应用前景,目前的研究工作还处于初级阶段,需要进一步解决的问题仍然很多。但本文作者相信,随着计算机科学的发展,以及多学科多领域知识的进一步融合必将大大推动该方向研究的进展,基于视频的交互方式终将进入人们的日常生活,与其他交互方式一起共同构建一个更加自然、和谐的人机交互环境。
语种中文
公开日期2011-03-17
页码122
内容类型学位论文
源URL[http://ir.iscas.ac.cn/handle/311060/7536]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
王西颖. 基于视频的人机交互及其关键技术研究[D]. 软件研究所. 中国科学院软件研究所. 2007.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace