[硕士论文] 垂直搜索引擎的设计与实现
摘要
随着Internet的迅速发展,Web己经发展成为包含多种信息资源、站点分
布全球的海量信息服务网络。搜索引擎是一种用于帮助Web用户查询信息的搜索工具,它以一定的策略在Internet中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务和信息导航。通用搜索引擎的特点是:索引数据库的规模大;检索结果数据量特大。
随着信息多元化的发展,通用搜索引擎己经不能满足主题用户的需求。用户
迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得主题资源信息。在这种需求的推动下,垂直搜索引擎应运而生。
论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分
类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:Web搜集器、信息抽取技术、中文分词和检索技术进行了深入研究,期望对推进本领域的技术发展作一点贡献。
在总体设计方面采用的是模块化思想,垂直搜索引擎被分为搜集子系统、索
引子系统和检索子系统,各子系统相对独立,实现较为方便。
本文实现的垂直搜索引擎已经在实际中成功运用,具有较好的效果,很好地
满足了主题用户的需求,具有广阔的市场前景。关键词:搜索引擎,信息抽取,下推自动机,中文分词,页面距离