题名基于多任务学习的Transformer网络隐私保护
作者郎佳奇
答辩日期2020-05-30
文献子类硕士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师曾大军
关键词隐私保护 对抗训练 多任务学习 Transformer神经网络
学位专业计算机技术
英文摘要

基于神经网络的机器学习技术在各个领域中取得了显著的成果,机器学习的安全和隐私的威胁在多个领域已经引起了研究者的广泛关注,在自然语言处理领域,基于Transformer编码器的网络在众多任务中都表现出不俗的性能。本文旨在以此种网络为例,深入分析神经网络的中间层隐私暴露的问题,以及如何利用多任务学习和对抗训练的方法进行中间层的隐私保护,主要工作及创新点如下:

1.基于多任务学习的隐私保护。本文重点研究了神经网络的中间层表示的隐私保护,与传统的分类任务所不同的是,我们使用多任务学习的方法,在中间层表示结果之后不仅接有分类器,还要通过梯度反转层连接到对抗训练器,这个训练器本质上也是一个分类器,只是分类的类别为隐私变量,在其训练的过程中,如果训练器分类的结果是正确的,通过梯度反转层的作用,编码器优化时会向着梯度上升的方向训练,通过这样的反转作用,使得编码器难以编码文本中的隐私变量的信息,从而实现中间层表示的隐私保护。本研究首次提出了Transformer网络隐私保护的问题,并提出了多任务学习的框架下训练模型,减轻了隐私泄露的情况。

2.编码器表示的隐私保护对比分析。本研究提出了不同编码器表示的隐私保护比较问题,通过实验对比了卷积神经编码器和Transformer编码器的隐私暴露程度,通过主任务的准确度与隐私量预测的准确度的比值作为比较基准。发现在不同的数据集上,两种编码器的隐私暴露程度不一,没有绝对的优劣之分,这是由于通常主任务的准确度越高,相应的编码器也就将越多的隐私信息编码到神经表示当中。这也是首次在隐私保护的角度对比不同的编码器。

3.神经表示的防御策略分析。通过对抗训练可以在一定程度上降低模型的隐私暴露程度,对抗训练就是在模型的训练阶段,除了提高主任务的准确率,还要模型对隐私变量预测的能力降低。通过对抗训练,提高编码器的防御能力,尽量减少与主任务不相干的隐私变量被编码到中间层表达中。训练过程中,根据使用者对隐私及主任务的权衡,调节相关系数,使得模型达到预期的隐私防御水平。

语种中文
页码74
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/39076]  
专题自动化研究所_复杂系统管理与控制国家重点实验室_互联网大数据与安全信息学研究中心
推荐引用方式
GB/T 7714
郎佳奇. 基于多任务学习的Transformer网络隐私保护[D]. 中国科学院自动化研究所. 中国科学院大学. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace