索引子系统的设计与实现
据,而不是完全依赖于某个关系数据库软件来管理一些简单的数据。
每一个XML文档都是一棵树,它由很多的结点构成,而每一个结点有包含一个标签和对应的内容以及相对应的属性。在具体的处理过程当中,对于当前结点的属性,可以把它当作当前结点的子结点来看待的,这样这棵树就有了统一的结构,同时也不会破坏原XML文档的信息。对于树中的节点的内容,它要么是空,要么就是一段文字。通常来说,非叶子结点只是包含子结点和自己的属性(此时每个属性也作为自己的子叶子结点),而只有叶子结点才拥有文本内容。但是对于既包含文本信息又包含子结点的结点和只包含纯文本的结点,在XML文档中也是存在。
XML文档的每个结点都包含一定的文本信息,所以对于每一个结点的内容来说都可以称是全文本模型,同时可以这样定义一个XML元素(结点)的全文本内容:一个元素(结点)的全文本内容包括它所有子孙结点的全文本内容。这种统计思想也是源于XML文档的树型结构。
1.1.2 XML信息检索的概念
XML信息检索就是为了帮助用户在特定的XML文献集中准确且高效的地找出对用户有用或相关的信息,确定信息的相关性是XML信息检索的核心。在讨论XML信息检索之前,先介绍一下现代信息检索技术。
在过去的几十年中,信息检索领域已经得到了很大的发展,并且已经超越了它标记文本和在某一集合中检索出有用文献的最初目标。现代信息检索技术的研究包括建模、文献的分类和归类、系统构建、用户界面、数据可视化、信息过滤和查询语言等。
信息检索的核心是确定数据相关性,这不同于数据检索。信息检索的行为受到用户任务和检索系统所采用的文献逻辑视图的直接影响。用户的检索任务基本分为两种类型:信息或数据的检索和浏览,而往往用户的这两种类型的任务又是联系在一起的,如图1-1所示。
图1-1 用户任务间的联系
[1]