手机版

[硕士论文] 垂直搜索引擎的设计与实现(19)

发布时间:2021-06-07   来源:未知    
字号:

[硕士论文] 垂直搜索引擎的设计与实现

西北工业大学硕士学位论文第三章Web搜集器

第三章Web搜集器

Web搜集器的功能是在互联网中漫游、发现和搜集信息。它常常是一个计算

机程序(也称为spider,crawler和robot等),日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上信息更新很快,所以还要定期访问已经搜集过的旧信息,以避免死链接和无效链接.

本文设计的Web搜集器能够根据某一类信息需求,从互联网上的各个信息阿

站(主要是独立制作发布信息的网站),收集围绕着某个(或某类)主题的相关信息资料。

3.1Web搜集器算法

Web搜集器算法包括四个重要的队列:url_queue包括网络蜘蛛(Crawler)访

问过的与主题无关的URL;相应的Topic_urlqueue包含网络蜘蛛搜集到的与主题相关的URL,这些URL对应的页面需要扩展;一旦一个网页被访问过,该网页与它对应的URL一同存储在crawled_pages中;Links包含着URL对(uI,U2),U。是父网页的URL,u2是子网页的URL。其中url_queue和Topic_url_queue队列中的URL的权值的捧序通过函数reorder_queue0来实现。其算法如下:

输入:starting_url(种子URL)

执行过程:

[1]enqueue(url—queue,starting_url)

[2]while(notempty(topic_url—queue)and

[3]notempty(url_queue))url=dequeue2(topic_urlqueue,url_queue)

[4]page=crawl_page(url)

[5]

[6]

[7】enqueue(crawled_pages,(url,page))url—list=extract_urls(page)foreachuinurl—list

[8]

[9]

[10]

[11]

[12]

[13]enqueue(1inks,(url,u))if(u隹url_queueandu岳topic_url—queueandu圣crawled_pages)if(classifier(anchorandsurroundingandurltextofu)>C)enqueue(topic—url—queue,u)elseenqueue(url—queue,u)

[硕士论文] 垂直搜索引擎的设计与实现(19).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
×
二维码
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)