[硕士论文] 垂直搜索引擎的设计与实现
西北工业大学硕士学位论文第一章绪论重组的方式重构整体的信息框架,并将所得信息资源分门别类,而用户的检索显然也要按照这种事先规定好的类目结构来进行。但由于自动分类技术的难度,基于全文检索的方法就巧妙地绕开了这个障碍,即使人们不具备理解信息资源本身的条件,也可以借助计算机技术快速地进行全文索引和全文检索匹配。从理论上讲,每个词语都成为了检索的依据,以信息理解为基础的信息检索行为逐渐过渡到以信息单纯匹配为基础的检索行为(即以关键词为主的主题检索).
现代的搜索引擎在面对海量数据的时候,通过简单的全文检索匹配来返回最
终结果,但是仍然缺乏有效的手段让用户通过键入的少量关键词就能快速准确定位到自己所需要的信息嘲。从本质上讲,这由于两方面的原因:首先,互联网信息量巨大,哪怕用户只是搜索其中的一小部分内容,搜索引擎返回的命中页面数量也是巨大的,从本质上看,这也是应该的,利用用户键入的词语来进行全文检索就应该返回所有相关信息;其次,用户本身检索专业能力有限,最为普遍的关键词检索行为中用户通常只是键入几个词语,如A.Spink等人曾对Excite等搜索引擎的近300位用户做过实验后发现人均输入的检索词为3.34个,国内部分学者也有相似的结论,发现90%左右的用户输入的中文检索单字为2~6个,。过少的检索词事实上无法真正表达用户的检索需求。而且用户通常也不去进行复杂的逻辑构造,只有相当少的用户使用布尔逻辑检索、限制性检索和高级检索等方法,如A.Spink等人发现,仅有5.24%的检索式中包含有布尔逻辑运算符,国内部分学者的研究结果也表明约40%的用户不能正确运用字段检索或二次检索,
80%左右的用户不能正确运用高级检索功能,甚至还发现用户缺乏动力去学习复杂的检索技能,多数用户都寄希望于搜索引擎能够自动地为他们构造有效的检索式“1。由于缺乏过去联机检索中常常具备的检索人员,用户实际的检索行为与用户理想的检索行为存在事实上的差距,因此信息查准率非常低。
进一步提高搜索引擎的查询效率和效果,必定是下一代搜索引擎的主要目
标。从检索专业角度来看,基于关键词的主题检索一定要和基于目录的分类检索进行有机的结合才能提高检索的成效,主要原因在于这种结合有两方面的好处:
首先,在检索界面中,它可以利用主题词表达分类目录,能有效地提高类目的可理解性,同时也可以利用类目修饰关键词,加强关键词的指向度;其次,在返回结果界面中,通过目录和关键词的组合表达,使得用户更加易于定位所需信息。
随着信息多元化的发展,通用搜索引擎己经不能满足主题用户的需求。用户
迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得主题资源信息。在这种需求的推动下,垂直搜索引擎应运而生。