索引子系统的设计与实现
1.2 XML信息检索系统
XML信息检索系统就是应用XML信息检索技术,并结合其它的软件工程的方法和思想构建的信息检索系统软件,人们不必了解它的具体工作原理,而是直接通过合理使用它,就可以在特定的XML文献集中找到有用或相关的信息。本论文介绍的CnX就是这样的一个XML信息检索系统。
1.2.1 XML信息检索系统的概念
XML信息检索系统是一套完整的软件系统。它主要的功能包括XML文献集的倒排索引文档的构建和利用倒排索引文档,并使用适当的检索方法,根据用户的需求,帮助用户在特定的XML文献集中高效而准确的检索出有用或相关的信息。
1.2.2 XML信息检索的基本流程
XML信息检索系统使用Top-k[2]查询方法,并且有一定的查询扩展能力。XML信息检索的主体流程与一般的信息检索流程仍然大体相似,只是会在一些细节的地方侧重不同,比如说XML文档的倒排索引的数据模型应该是怎样的,数据结构应该如何构建以及如何解决查询处理的相关问题等。
XML结构上的优势使得它可以比较容易的支持自己的检索的语言,而不仅只是使用在检索框中输入几个关键字的方式进行检索。下面用XML信息检索系统的结构图1-2来说明XML信息检索的基本流程。
图1-2 XML信息检索一般流程
在图1-2中可以看到,XML信息检索需要先根据一定的数据模型构建合理的倒排索引,然后用户输入自己的查询描述,系统将会预先处理这些描述,然后根据一定的算法对检索结果进行排序,或者是根据排序得出结果,其中也可以加