基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
杨雅婷; 陈玺; 董瑞; 马博; 王磊; 周喜
2021-06-08
著作权人中国科学院新疆理化技术研究所
文献子类发明专利
英文摘要

本发明公开了一种基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质,具体实现方案为:获取训练样本数据集;对所述的样本数据集进行预处理。针对已有的源语言或目标语言语料,分别训练基于Transformer结构的正向语言模型和逆向语言模型;通过正向语言模型、逆向语言模型来获得句子中任意位置的词在整个词表上的概率分布;根据概率分布以及整个词表的词向量来确定最终词向量,利用最终词向量替换该位置的单词;利用替换后的双语平行语料训练神经机器翻译模型,得到翻译的结果;同时可以将单语数据融入本方法以得到更好的翻译效果。实验结果表明,本发明所述的方法可以显著提高机器翻译模型的翻译质量。

申请日期2021-03-13
内容类型专利
源URL[http://ir.xjipc.cas.cn/handle/365002/8036]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
杨雅婷,陈玺,董瑞,等. 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质. 2021-06-08.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace