题名 | 汉语自动分词与未登录词处理; Chinese Words Automatic Segmentation and Out-of-Vocabulary Words Detection |
作者 | 曾华琳 |
答辩日期 | 2005 ; 2005 |
导师 | 李堂秋 ; 史晓东 |
关键词 | 汉语自动分词 改进的PPM算法 新词发现 Chinese words segmentation improved PPM algorithm out-of-vocabulary words detecting |
英文摘要 | 分词处理是汉语信息处理过程中的一个基础环节。在分词处理过程中,未登录词及其处理是急待解决的一个难题。传统的未登录词处理方法一般都是基于规则或者统计的,也有两者结合的,这些方法各有优点,但是也存在着在理论上的不足之处。本文首先综述了目前汉语自动分词的研究现状,简要介绍了几种不同的比较有代表性的自动分词算法,以及未登录词发现处理算法,对这些算法给出分析,说明其不足的地方,在这些不足的方面加以改进。在研究了汉语分词中未登录词的发现与处理问题之后,本文的主要工作重点放在了在线分词处理过程中的新词识别与处理任务上,结合了实际的新词识别问题进行了具体的研究。本文设计了汉语词条(包括未登录词在内)的完整分类...; Chinese words segmentation is a basic issue of Chinese information processing. It is an urgent and difficult task to find out and to resolve out-of-vocabulary words. The traditional method is rule-based, statistical-based or both of them which have their own merits yet also have the deficiency on the theory respectively. First, the article summarizes the on-time research on the Chinese...; 学位:工学硕士; 院系专业:计算机与信息工程学院计算机科学系_计算机应用技术; 学号:200228046 |
语种 | zh_CN |
出处 | http://210.34.4.13:8080/lunwen/detail.asp?serial=10729 |
内容类型 | 学位论文 |
源URL | [http://dspace.xmu.edu.cn/handle/2288/52010] |
专题 | 信息技术-学位论文 |
推荐引用方式 GB/T 7714 | 曾华琳. 汉语自动分词与未登录词处理, Chinese Words Automatic Segmentation and Out-of-Vocabulary Words Detection[D]. 2005, 2005. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论