CORC  > 北京大学  > 信息科学技术学院
基于XML的Web信息提取
刘世杰 ; 北京大学视觉与听觉信息处理国家重点实验室 ; 杨冬青 ; 北京大学视觉与听觉信息处理国家重点实验室 ; 唐世渭 ; 北京大学视觉与听觉信息处理国家重点实验室 ; 王腾蛟 ; 北京大学视觉与听觉信息处理国家重点实验室 ; 李立宇 ; 北京大学视觉与听觉信息处理国家重点实验室
2003
关键词XML HTML 信息提取 模式提取 内容提取 模板库 特征匹配
英文摘要Internet高速发展,信息量书刊号膨胀.通常用户关心的可访问Web信息并不是存放在数据库系统中,而是在HTML页面中.HTML是一种显示描述语言,缺乏结构和元数据信息.通过浏览器,人可以非常直观地获取自己关心的知识和信息,但是计算机却难以理解这些HTML文档.这给信息集成、信息交换、Web知识挖掘、Web信皮的精确查询带来极大的不便.本文提出一种新的基于XML技术的Web信息提取算法.本算法分为三个阶段:HTML页面的模式提取;HTML页面的特征匹配;Web信息的内容提取.本算法已经在COMMIX原型系统中初步实现,兼顾了通用性和高精确度,取得了很好的效果.; 0
语种中文
内容类型其他
源URL[http://ir.pku.edu.cn/handle/20.500.11897/153742]  
专题信息科学技术学院
推荐引用方式
GB/T 7714
刘世杰,北京大学视觉与听觉信息处理国家重点实验室,杨冬青,等. 基于XML的Web信息提取. 2003-01-01.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace