索引子系统的设计与实现
摘 要
CnX索引子系统是一个完整的中文XML文献倒排索引的构建系统,它主要由中英文语义处理模块、倒排索引构建模块和Okapi BM25概率模型评分模块组成,论文设计并实现了基于C/S架构的多线程CnX索引子系统。
与普通的无结构文本文档不同,XML文档是一种半结构化的文档,在构建XML文档倒排索引的时候要考虑在倒排索引中体现XML的结构信息。XML文档的结构就是一棵树,它由很多的结点构成,它的结点又可以分为结构(内部)结点和叶子结点,通常认为只有叶子结点才会包含文本信息。对于每个叶子结点所包含的文本信息,可以跟检索平面文件的方式一样——直接进行简单的全文检索。
由于CnX索引子系统需要支持中文检索,所以在进行创建索引的过程中,先要对中文语句进行分词处理。然后根据XML文档的结构信息构建tag-term的语词对,在内存中调整XML树的结构,并形成一个虚拟的文档树对象。接下来通过运用前后序遍历算法处理这棵树,将XML文档的倒排索引存储到数据库中。最终在完成基本索引的创建之后,再使用Okapi BM25算法对所有索引进行评分,以供上层的核心查询程序使用。
CnX索引子系统是一个完整XML信息检索系统的基础,对于XML信息检索系统的整体构建有着很重要的作用。
关键词:XML;中文;倒排索引;信息检索(IR)