手机版

索引子系统的设计与实现(6)

发布时间:2021-06-08   来源:未知    
字号:

索引子系统的设计与实现

第一章 绪论

XML文档是一种半结构化数据格式文档,随着XML技术的发展,它已经成为了很多场合下数据交换和数据存储事实上的标准。同时,由于互联网的迅速发展和XML技术的广泛应用,使得互联网中XML文档格式的数据变得越来越多,这种数据量的日益剧增,加大了人们在互联网上查找有用信息的难度。近几年来,由于我国信息技术的高速发展以及互联网在我国的快速普及,中文XML文档信息也变得越来越丰富,所以就需要一个中文信息检索系统来帮助人们准确且高效地检索有用的中文信息,CnX就是这样的一个中文信息检索系统。索引的构建对于任何一个信息检索系统都是至关重要的,CnX同样也不例外。本论文主要的工作就是设计并实现CnX的索引子系统,为CnX信息检索系统的构建做必要的准备。

1.1 XML信息检索技术

XML文献集[1]就是一组或者若干组具有相同或相似结构的XML文档的集合,而XML信息检索的目的就是为了帮助用户在这些XML文献集中方便而快速地检索出对用户有用或相关的信息。XML信息检索技术作为现代信息检索技术中的一个分支,它的重点依然是信息检索,而不是数据检索,因此确定信息的相关性同样是XML信息检索的核心。

1.1.1 XML文档的重要性

XML是Extensible Markup Language(可扩展性标识语言)的简称,和通常所见的HTML一样,它也是一种“标记”语言。XML牢牢植根于SGML[2],由于SGML本身因为太复杂难以移植到web上,所以就产生了一个该语言的缩略版。推出它的目的是为了能够在网络上按照现在HTML所利用的方法利用、接受和处理通用SGML。XML的设计宗旨是让网络应用程序的执行更容易,并且增强SGML和HTML的互动操作性能。XML是一个严格符合SGML编写格式的被应用程序所利用的文档格式。XML提供了一种结构化的数据显示,这种结构化的数据功能强大且易于使用。XML不像HTML一样使用预定义的标签,而是允许设计者自行创建自己的元素及其标签,使得这些元素的标签既能够容易被人阅读,又能方便被机器阅读。

XML通过自身的结构来描述文档的信息,它是一种创建可相互交换的结构化文档的方法[3]。当一个数据集中(某个会议的论文集)的所有文档都使用XML来编制时,可以定义DTD或者模式来创建XML文档,这样使得这个数据集中的所有文档都成为带有结构信息的文档——XML文档。XML文档的优点在于它自身是一种带有自描述标签树形结构文档,这完全不同于关系数据模型。正是因为XML文档的这种树结构,使得人们能够用一种更加自然的方式去直接管理数

索引子系统的设计与实现(6).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
×
二维码
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)