CORC  > 清华大学
基于规则和统计的日语分词和词性标注的研究
姜尚仆 ; 陈群秀 ; JIANG Shangpu ; CHEN Qunxiu
2010-07-15 ; 2010-07-15
会议名称中国计算机语言学研究前沿进展(2007-2009) ; Advances of Computational Linguistics in China ; 第十届全国计算语言学学术会议 ; 10th Chinese National Conference on Compuational Linguistics ; 中国山东烟台 ; CNKI ; 中国中文信息学会
关键词日汉机器翻译系统 日语分词 日语词性标注 联合分词 Japanese-Chinese machine translation system Japanese word segmentation Japanese POS tagging joint word segmentation TP391.2
其他题名Study on Japanese Word Segmentation and POS Tagging Based on Rules and Statistics
中文摘要和中文类似,日语的词法分析需要首先进行分词。基于词的方法是日语分词的主流方法。同时,对中文的研究结果表明,词性标注对分词结果的正确性有帮助,这点在日语中也得到了证实。我们提出了一种基于规则和统计的日语分词和词性标注方法,使用基于单一感知器的联合分词和词性标注算法进行训练和解码,并加入了词语的邻接属性特征。实验结果表明,这种方法无论是分词准确率还是分词加词性标注的准确率都比原有的基于字和词的混合HMM算法更高。我们已将这种方法应用到我们的日汉机器翻译系统中。; Like that of Chinese,Japanese morphological analysis starts with word segmentation.Word-based approach is the mainstream on Japanese word segmentation.Meanwhile,according to the study on Chinese,POS tagging results are helpful to the correctness of word segmentation.This conclusion is also substantiated on Japanese.We propose a Japanese word segmentation and POS tagging approach based on rules and statistics,which uses a single perceptron based joint word segmentation and POS tagging algorithm for training and decoding,and is added with the features of adjacency attribute. The experiment shows that the new approach is better performed than the hybrid character and word based HMM algorithm.We have already applied this approach into our Japanese-Chinese machine translation system.; 国家863计划重点项目(项目号:2006AA010109)资助
会议录出版者清华大学出版社
语种中文 ; 中文
内容类型会议论文
源URL[http://hdl.handle.net/123456789/69758]  
专题清华大学
推荐引用方式
GB/T 7714
姜尚仆,陈群秀,JIANG Shangpu,等. 基于规则和统计的日语分词和词性标注的研究[C]. 见:中国计算机语言学研究前沿进展(2007-2009), Advances of Computational Linguistics in China, 第十届全国计算语言学学术会议, 10th Chinese National Conference on Compuational Linguistics, 中国山东烟台, CNKI, 中国中文信息学会.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace