[硕士论文] 垂直搜索引擎的设计与实现
西北工业大学硕士学位论文第二章垂直搜索引擎的结构档的长度,因为文档长度可以通过后续文档起始位置偏移和当前文档起始位置偏
移的差获得。
URL索引文件以ISAM存储,包含了URL的摘要和文档编号。为了能够快速
地给指定的URL找到对应的文档编号,URL索引文件按照URL摘要排序,这样就可以根据二分查找算法在URL索引文件中查找到对应的文档编号。
图2-8索引网页库算法
2.3.2.2分析网页
分析网页包括提取正文信息和把正文信息切分为索引项两个阶段。形成的结
果是文档号到索引项的对应关系表。每条记录中包括文档编号,索引项编号,索
引项在文档中的位置信息。
提取正文信息是本文研究的重点之一,垂直搜索引擎采用的是基于语法的信
息抽取技术,详细内容将在第三章介绍。
得到网页正文信息,调用分词程序,获得正向索引。垂直搜索引擎采用的分
词算法——全二分最大匹配快速分词算法将在第五章详细介绍。
2.3.2.3建立倒排文件
垂直搜索引擎面临大量的用户检索请求(几十~几千点击/秒),要求垂直搜
索引擎在检索程序的设计上要高效,尽可能地将大运算量的工作在索引建立时完
成,使检索时的运算尽量的少。一般的数据库系统不能快速响应如此大量的用户
请求,本文采用倒排索引技术。
创建倒排索引包括建立正向索引和反向索引。分析完网页后,得到以网页编
号为主键的正向索引表,如图2-9(a)所示。当索引建立完成后,得到图2-9(b)。
这是一个表的重组的过程,时间复杂度为0(n),为了加快速度,全过程需要在内存中完成。在小数据量时,有足够的内存保证该创建过程可以一次完成。数据