手机版

主页 > 文库下载 > 求职职场 > 内容

[硕士论文] 垂直搜索引擎的设计与实现(12)

时间：2025-04-26 来源：未知

小中大

字号：

[硕士论文] 垂直搜索引擎的设计与实现

西北工业大学硕士学位论文第二章垂直搜索引擎的结构ｄｏｃＩＤ。

建立索引的任务则交给索引器和排序器来完成。Ｉｎｄｅｘｅｒ依次从Ｒｅｐｏｓｉｔｏｒｙ

中取出文档，对文档解压缩，然后对文档进行解析。随后文档被解析为一组命中。

在Ｇｏｏｇｌｅ中，命中是一种数据结构，用来记录单词在文档中每一次出现的信息。

在命中结构中，记录了每个词、词在页面中的位置、大小写、字体相对大小写等

信息。这样，每个词都有很多不同的命中，这些命中的组合又称为该词的命中列

表。索引器把这些命中再写入一组桶中，并建立一个部分排序的前序索引。索引

器还同时把网页中所有的链接的重要信息解析出来，并记录到一个叫做Ａｎｃｈｏｒｓ的文件中。该文件包含了足够多的信息，从中可以查询出每一个链接的来源、指

向以及该链接的文本。

ＵＲＬＳｅｒｖｅｒ卜———叫Ｃｒａｗｌｅｒ卜———叫ＳｔｏｒｅＳｅｒｖｅ

ＲＬＲｅｓｏｌｖｅＡｎｃｈｏｒｓＲｅｐｏｓｉｔ

Ｌｉｎｋｓ

ＤｏｃＩｎｄｅｘｌｌＳｏｒｔｅｒ

图２—３Ｇｏｏｇｌｅ结构

ＵＲＬＲｅｓｏｌｖｅｒ服务器负责从Ａｎｃｈｏｒｓ文件中读取出这些链接，把相对路径

转换为绝对路径，再转换为相应的ｄｏｃＩＤ。通过ｄｏｃＩＤ的关联，锚文件的信息也

被加入到前序索引的ａｎｃｈｏｒｈｉｔ结构中。ＵＲＬＲｅｓｏｌｖｅｒ同时创建了一个Ｌｉｎｋｓ数据库，用来存放两两相互对应的ｄｏｃＩＤ。Ｌｉｎｋｓ数据库被用来计算所有文档的

ＰａｇｅＲａｎｋ。

接着排序器接管这些桶。排序器的主要任务是按照ＷｏｒｄＩＤ重新进行排序。

从而为这些桶生成一个倒排索引。这个操作是在每个桶中执行的，所以只需用很

少的临时空间。排序器还建立了一个ｗｏｒｄｌＤ列表。列表中同时记录了该ｗｏｒｄＩＤ在倒排索引中的偏移量大小。有一个叫做ＤｕｍｐＬｅｘｉｃｏｎ的工具，用来把ｗｏｒｄｌＤ和由索引器产生的词典相结合，并产生一个新的词典。这个新的词典被用在最终８

[硕士论文] 垂直搜索引擎的设计与实现(12).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

上一篇：微生物学第四章 2015

下一篇：03.新中文DC油圧回路

×

二维码

相

关

文

章

分类导航

幼儿教育小学教育初中教育教学研究专业资料资格考试教育文库外语考试高等教育求职职场高中教育实用文档

[硕士论文] 垂直搜索引擎的设计与实现(12)

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签

[硕士论文] 垂直搜索引擎的设计与实现(12)

推荐阅读

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签