手机版

主页 > 文库下载 > 求职职场 > 内容

[硕士论文] 垂直搜索引擎的设计与实现(21)

时间：2025-04-26 来源：未知

小中大

字号：

[硕士论文] 垂直搜索引擎的设计与实现

西北工业大学硕士学位论文第三章Ｗｅｂ搜集器

Ｗｅｂ搜集器负责从种子网页开始收集主题相关的网页，该模块的执行效率决

定了垂直搜索引擎的效率。为提高垂直搜索引擎的执行效率，Ｗｅｂ搜集器采用多线程并行地进行网页的下载和分析．本节详细介绍了Ｗｅｂ搜集器的主要类、接口与数据库设计。

（１）ＣｒａｗｌｅｒＳｔａｔｅ类

状态类ＣｒａｗｌｅｒＳｔａｔｅ管理Ｗｅｂ搜集器的状态．其状态设计如表３－１所示：

各状态之间的转化关系如图３—１所示。

（２）Ｐａｇｅ类

Ｐａｇｅ类封装了网页的属性和操作。当发现一个新的链接（ＵＲＬ）时将其存

入数据库中等待下载，下载完毕后创建一个Ｐａｇｅ对象，等待Ｃｒａｗｌｅｒ线程进行分析。

Ｐａｇｅ类的主要数据成员如下：

ＵＲＬｂａｓｅ；／／网页的ＵＲＬ地址，比如ｗｗｗ．ｙａｈｏｏ．ｃｏｌｎ．皿

Ｓｔｒｉｎｇｔｉｔｌｅ：／／网页的标题

Ｓｔｒｉｎｇｃｏｎｔｅｎｔ；／／网页的主要内容

Ｒｅｇｉｏｎ［］ｔｏｋｅｎｓ；

Ｔｅｘｔ［】ｗｏｒｄｓ；

Ｔａｇ［］ｔａｇｓｌ／／网页中的所有标签

Ｅｌｅｍｅｎｔ［］ｅｌｅｍｅｎｔ；／／网页文档结构树中的所有节点

Ｅｌｅｍｅｎｔｒｏｏｔ；／／网页文档结构树的根

Ｌｉｎｋ［］ｌｉｎｋｓ；／／网页中的所有链接

（３）ｌｉｎｋ类

ｌｉｎｋ类封装了网页之间链接的属性和操作，包括链接的父网页对应的Ｐａｇｅ

对象，链接的地址以及链接的Ａｎｃｈｏｒ文字等元数据。

ｌｉｎｋ类的主要数据成员如下；

ｐｒｉｖａｔｅＰａｇｅ

ｐｒｏｔｅｃｔｅｄＵＲＬ

ｐｒｉｖａｔｅｆｌｏａｔｐａｇｅ：／／链接的父网页对应的Ｐａｇｅ对象ｕｒｌ；／／链接的ＵＲＬ地址ｐｒｉｏｒｉｔｙ；／／链接的主题相关性权值

ｄｐ：／／链接的下载参数ｐｒｉｖａｔｅＤｏｗｎｌｏａｄＰａｒａｍｅｔｅｒｓ

（４）Ｃｒａｗｌｅｒ类

Ｗｅｂ搜集器的核心是Ｃｒａｗｌｅｒ类，它实现了收集主题相关网页的功能。

Ｃｒａｗｌｅｒ类的主要数据成员如下：

ｐｒｏｔｅｃｔｅｄ１ｗｏｒｋｌｏａｄＳｔｏｒａｂｌｅｗｏｒｋｌｏａｄ；／／数据库接口，管理Ｃｒａｗｌｅｒ搜集到的链接（ＵＲＬ），等待ＣｒａｗｌｅｒＷｏｒｋｅｒ线程池中的线程下载分析

[硕士论文] 垂直搜索引擎的设计与实现(21).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

上一篇：微生物学第四章 2015

下一篇：03.新中文DC油圧回路

×

二维码

相

关

文

章

分类导航

幼儿教育小学教育初中教育教学研究专业资料资格考试教育文库外语考试高等教育求职职场高中教育实用文档

[硕士论文] 垂直搜索引擎的设计与实现(21)

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签

[硕士论文] 垂直搜索引擎的设计与实现(21)

推荐阅读

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签