基于XML的Web信息提取

CORC > 北京大学 > 信息科学技术学院

	基于XML的Web信息提取
	刘世杰 ; 北京大学视觉与听觉信息处理国家重点实验室 ; 杨冬青 ; 北京大学视觉与听觉信息处理国家重点实验室 ; 唐世渭 ; 北京大学视觉与听觉信息处理国家重点实验室 ; 王腾蛟 ; 北京大学视觉与听觉信息处理国家重点实验室 ; 李立宇 ; 北京大学视觉与听觉信息处理国家重点实验室
	2003
关键词	XML HTML 信息提取模式提取内容提取模板库特征匹配
英文摘要	Internet高速发展,信息量书刊号膨胀.通常用户关心的可访问Web信息并不是存放在数据库系统中,而是在HTML页面中.HTML是一种显示描述语言,缺乏结构和元数据信息.通过浏览器,人可以非常直观地获取自己关心的知识和信息,但是计算机却难以理解这些HTML文档.这给信息集成、信息交换、Web知识挖掘、Web信皮的精确查询带来极大的不便.本文提出一种新的基于XML技术的Web信息提取算法.本算法分为三个阶段:HTML页面的模式提取;HTML页面的特征匹配;Web信息的内容提取.本算法已经在COMMIX原型系统中初步实现,兼顾了通用性和高精确度,取得了很好的效果.; 0
语种	中文
内容类型	其他
源URL	[http://ir.pku.edu.cn/handle/20.500.11897/153742]
专题	信息科学技术学院
推荐引用方式 GB/T 7714	刘世杰,北京大学视觉与听觉信息处理国家重点实验室,杨冬青,等. 基于XML的Web信息提取. 2003-01-01.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们