CORC  > 清华大学
基于主题词对的文档重排方法
何婷婷 ; 许婷 ; 瞿国忠 ; 涂新辉 ; Tingting He ; Ting Xu ; Guozhong Qu ; Xinhui Tu
2010-07-15 ; 2010-07-15
会议名称第三届学生计算语言学研讨会论文集 ; Proceedings of the 3rd Students' Workshop on Computational Linguistics ; 第三届学生计算语言学研讨会 ; The 3rd Students' Workshop on Computational Linguistics ; 中国辽宁沈阳 ; CNKI ; 中国中文信息学会
关键词主题词对 概率潜在语义索引 文档重排 topic word pair plsi document re-ranking TP391.3
其他题名Re-ranking Based on Topic Word Pairs
中文摘要信息检索中相关文档的排序一直是一个至关重要的问题。本文提出一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。本文中,主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。; How to improve the rankings of the relevant documents plays a key role in information retrieval. In this paper, a re-ranking approach based on topic words pair is proposed to improve precision while recall is preserved. The topic word pairs contain two correlated words, one of which is the original query word and the other come from the documents. The selection is based on Probabilistic Latent Semantic Indexing (PLSI). Then, the distribution of the word pairs is used to re-rank documents. Results show a 53.6% and 55.8% improvement compare to the initial retrieval without any re-ranking or query expansion on NTCIR-5 document collection for SLIR.; 国家自然科学基金(60442005) 教育部科学技术研究重点项目(105117)
语种中文 ; 中文
内容类型会议论文
源URL[http://hdl.handle.net/123456789/70097]  
专题清华大学
推荐引用方式
GB/T 7714
何婷婷,许婷,瞿国忠,等. 基于主题词对的文档重排方法[C]. 见:第三届学生计算语言学研讨会论文集, Proceedings of the 3rd Students' Workshop on Computational Linguistics, 第三届学生计算语言学研讨会, The 3rd Students' Workshop on Computational Linguistics, 中国辽宁沈阳, CNKI, 中国中文信息学会.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace