[硕士论文] 垂直搜索引擎的设计与实现
西北工业大学硕士学位论文第二章垂直搜索引擎的结构
第二章垂直搜索引擎的结构
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延
伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据,进行处理后再以某种形式返回给用户。本章首先介绍基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,然后在此基础上,设计了垂直搜索引擎
的系统结构,并介绍了各部分所完成的工作。
2.1基于查询串的搜索引擎
基于查询串的搜索引肇通常是由网络蜘蛛(Spider,)以某种策略自动地在互
联网中搜集和发现信息,并将搜集到的信息建立索引,形成索引库。由检索器根据用户输入的关键词检索索引库,并将查询结果返回给用户“1。典型的搜索引擎有:Alta
2.1.1Vista,Excite,NorthernLight,Google等。AltaVista搜索引擎结构
AltaVista搜索引擎结构如图2-1所示。1:
制
图2—1AltaVista结构
AltaVista软件结构主要包括两个部分:第一部分是用户接口和查询机制,
主要实现用户所提交的查询条件在索引库中完成搜索,并将相关的检索结果反馈给用户的过程,索引机制采用集中式的方式应答用户的请求;第二部分包含网络蜘蛛和索引机制,网络蜘蛛运行在本地机上,通过自动将请求发送给远程Web服务器,获取相应服务器上的信息,经过处理后存入索引库,从而实现索引库的动态扩充。
1998年,AltaVista运行在20个CPU上,130GB内存和500GB的硬盘。6