[硕士论文] 垂直搜索引擎的设计与实现
西北工业大学硕士学位论文第二章垂直搜索引擎的结构在海量信息而且复杂多变,Web搜集器的实现常常采用分布式、并行计算技术,
以提高信息发现和更新速度。
本文设计的%b搜集器能够根据某一类信息需求,从互联网上的各个信息网
站(主要是独立制作发布信息的网站),收集围绕着某个(或某类)主题的相关信息资料。它是垂直搜索引擎的核心部分,详细内容将在第三章介绍.
2.3.2索引子系统
索引予系统包括索引器和索引数据库。索引器将原始数据库的内容重新组
织,建立索引数据库,以提高检索效率.索引子系统如图2—7所示。
图争7索引子系统结构
索引予系统的第一步就是为原始网页建立索引,实现图2-7中索引网页库;
接下来对索引网页库进行分析,它包括提取正文信息和把正文信息切分为索引项两个阶段;最后将网页到索引项的映射转化为索引项到网页的映射,形成倒排文件(包括倒排表和索引项表),同时将网页中包含的不重复的索引项汇聚成索引项表。
2.3.2.1索引网页库
索引网页库的任务就是完成给定一个URL,在原始网页库中定位到该URL所
指向的记录旧。
如果不对网页库建立索引信息,可以通过顺序查找的方法完成URL到指定记
录的过程,但是会消耗大量的I/o,数据量增大的时候不能满足垂直搜索引擎的快速响应要求,所以需要创建索引。对原始网页集R,索引网页库算法描述如图2—8所示”’。
网页索引文件以ISAM(索引顺序访问模式)存储。这种结构可以保证数据的紧凑性和O(1)的检索能力。为节省空间,索引文件中的每一行记录不保存文