手机版

文摘索引型数据库和全文数据库检索系统的比较

发布时间:2024-11-28   来源:未知    
字号:

检索

2005年第3期总第127期

图书馆工作与研究

TuShuGuanGongZuoYuYanJiu

No.3SerialNo.127

参考咨询

文摘索引型数据库和全文数据库检索系统的比较

王泽琪(中国民航学院图书馆,天津

300300)

[摘 要]本文通过对文摘索引型数据库和全文数据库的现状进行比较,总结出两类数据库的相同和不同特征,并对日后不断融合互补作了展望。

[关键词]文摘索引型数据库;全文数据库;检索系统;检索平台;数据库检索[中图分类号]G252.6 [文献标识码]B [文章编号]1005-6610(2005)03-0048-04

网络信息时代,数字资源日益成为文献信息资源的重要力量,文摘索引型数据库和全文数据库是数字资源的两种重要形式。文摘索引型数据库即是二次文献数据库,而全文数据库就是含有一次文献的数据库,包括电子书、电子刊及其它数据库。研究总结这两类数据库检索系统的特征,比较其异同,对我们引进国外数据库或者购置国内数据库或者自主开发制作数据库,有着积极的意义。

1 两类数据库检索系统的相同特征1.1 网络检索

文摘索引型数据库经历了脱机批处理检索、联机检索、光盘检索和网络检索几个阶段的发展。上世纪90年代,INTERNET技术的迅猛发展和普及,计算机信息检索网络化,图书情报界及数据库商开发了基于INTERNET的检索平台,把数据库放在网络服务器上,提供网络版的数据库检索,才使数据库检索大众化。网络使信息挣脱传统物理条件的束缚,大规模快速转移和复制信息成为可能。数据库检索的主体由专业人士到普通民众,成千上万的用户接受了基于INTERNET的网络检索形式,迅速抛弃了光盘检索和国际联机检索和印刷本检索等几种形式。无论是国外引进还是国内购置及自我开发,基于INTERNET的网络版数据库检索已成为文摘索引型数据库的主要检索方式。

全文数据库在经历了短暂的光盘检索阶段后,迅速地迈入了基于INTERNET的网络阶段,无论是CD-ROM光盘还是DVD光盘,都让用户感到其更新速度、频率及海量存储的不便。原来光盘版的全文数据库随即又推出了on-line网络版或镜像网络版,目前虽然光盘版和网络版并存,但光盘版往往只是作为网络数据更新备份存档的形式,不再作为读者直接检索的工具。目前,国内外只有极少量的全文数据库,如AIAA只提供光盘版形式,绝大部分数据库商都提供基于INTERNET的网络检索的全文数据库检索。

基于INTERNET的网络检索方式具有如下优势:数据库存放在远程服务器或镜像服务器上,最终读者用户无需专门技术维护,可直接在任意具有权限的连接INTERNET的计算机上利用通用的浏览器便捷地检索。可同时检索同一若干年代的累积数据或相关数据库的相关数据,免去光盘数据库同时检索数据量有限,需不断换盘的烦恼。

1.2 资源整合和集成检索

两类数据库检索都曾有过用户对某一特定检索课题逐一地对单一数据库进行检索或在不同数

检索

据库间不断切换的历史,低效率检索严重浪费了用户的宝贵时间。数据库商最新推出了一站式信息资源整合平台,把不同的文摘索引型数据库或全文数据库整合到同一检索平台上,用户可以在同一平台上跨库检索。统一的检索平台不但可以对二次文献进行整合,而且还对其它信息机构的事实性数据库、图书馆的OPAC系统、电子书刊进行整合。但是由于数据库数量的庞大并日益增长和数据库商及其开发检索平台的多元化,不可能短时间解决这个复杂的问题。

有的图书馆也已注意到了这个问题,他们对本馆的一些引进数据库先打散,然后再整合,读者可在多个数据库的基础上跨库检索。1.3 融菜单检索和高级检索于一体

目前的文摘索引型和全文数据库都是直接面对大众读者,所以都能提供简单的菜单式检索,读者通过点击和选择菜单命令和利用检索窗口的功能键或功能词实现简单的检索。但是仅仅提供菜单式检索是不够的,菜单检索对复杂一点的检索往往无能为力。所以两类数据库一般都提供了高级检索形式来实现。有的文摘索引型数据库还提供了命令式检索。如全称为CambridgeScientificAbstracts 剑桥科学文摘 检索系统除提供菜单式的基本检索和命令型检索外,还提供格式相对固定的高级检索形式,读者只需多次选择布尔算符和检索字段,输入检索词即可。这样的高级检索介于菜单式和命令式检索之间,能检索稍复杂但不能检索较复杂的题目。无论是哪类数据库,很少有只提供一种检索方式的,实质上是给读者更多的选择余地,无论是初学者还是对数据库有一定认识和研究的读者都能各取所需。

1.4 综合运用布尔检索、截词检索和位置检索等检索技术

文摘索引型数据库是基于对文献记录和字段的组织,布尔检索、截词检索、字段限制和位置检索,这些传统检索技术功能就是在文摘索引型数据库检索基础上发展起来的。直到今天,其仍然强调从逻辑关系、位置关系、词的不同变化等几个方面通过分类、主题两大主要途径和作者等其它辅助途径通过字段的限制进行检索。命令检索体现了对传统检索技术的综合运用。高级检索是对检索命令检索的简化改进。菜单检索只是对命令检索步骤的肢解,都没有突破联机检索的检索功能。但它们都注意对数据库检索技术的综合运用。

即使是全文数据库亦如此。如Springer-Link系统的在 SearchFor 菜单内检索,输入多个关键词选择 AllWords ,相当于 or 检索全部关键词,选择 AnyWords 相当于 检索一个或多个关键词。 * 用于词尾表示前方一致的检索,用 Within 的选项表示了检索字段限制。用 Result 、 Dates 、 Publications 分别表示了对检索结果在排序方式、日期和出版物的类型方面进行限制。简单的菜单检索通过多个选项的综合达到了优化结果的目的。目前大多数数据库都通过灵活地把逻辑关系、位置关系、截词检索、字段限制、加权检索等检索技术的几项结合在一起,满足广大读者的检索之需,单纯使用一种检索功能的菜单型检索已很少见到。

1.5 数据库检索人性化

为用户着想不断满足用户对产品质量不断提高的需求,是商家的立足之本。数据库商为了提高产品的竞争力,适应用户为普通读者而非专业人士的需要,在检索界面、检索过程、检索帮助、个性检索、结果输出等方面作了若干改进,体现了 以人为本 一切为了用户 的人文精神。检索界面更加友好,无需用户牢记不同检索系统的各不相同的检索命令、字段代码以及逻辑算符、位置算符的检索规定,只需按照菜单检索窗口功能键功能词的提示或在线检索词列表的勾选、复制粘贴,就能顺利完成检索。

在线检索内容非常丰富,读者不但可以了解数据库的概况,还可以学习数据库的检索方法。即便是较复杂的命令检索,用户也可以通过在线帮助了解检索途径,掌握检索字段及其代码的输入格式、各种算符的使用规定等等,并能对照提供的具体实例编制检索式。

提供不同格式的屏幕显示、存盘和打印多种输出形式及E-Mail服务,灵活方便地处理检索结果。

提供个性化服务。目前主要提供的有在检索系统中建立个人帐号,允许用户在服务器硬盘上保存检索策略和检索结果,便于日后在联网的其它计算机上登陆后调用。服务器还可根据用户保存的检索策略自动检索,把更新后读者的需求信息推送到用户的E-Mail中。2 两类数据库检索系统的不同特征

文摘索引型数据库和全文数据库的最大差别就是前者结果只提供题录和文摘等二次文献信息,后者除可提供二次文献信息外,还能提供作者

检索

原文的一次文献信息。2.1 检索途径存在着差异

检索途径有主题、分类及除此之外的作者、号码等其它辅助途径,通过数据库设置的检索字段反映检索途径的实现。不同的数据库根据检索的实际需要设置检索字段。

全文数据库设置的检索字段一般较文摘索引型数据库少,如Springer-Link只设全文、文摘、作者、题名4个检索字段。有些全文数据所设字段如出版物日期只是起限制检索结果的作用,不具备真正的检索意义。它们不但提供选择或输入检索词检索的途径,往往还提供分类浏览的功能。提供简单灵活的学科分类导航或文献名称导航,但缺乏严谨性和科学性,让不熟悉其导航体系的用户感到零乱。这主要是因为全文数据库由于收录的文献种类不太多,便于进行目录型组织浏览或者虽收录文献较多,但因其内容的日常性、大众性而放弃严谨的分类体系突出其实用性。文摘索引型数据库设置检索的字段较多,且每个字段的检索能在命令检索指令中独立执行。文摘索引型数据库由于收录的文献众多,一般不采用简单的浏览途径。有的数据库提供分类途径,但其分类一般遵循全景式的细致的学科等级体系,较之全文数据库的浏览分类导航系统严谨。2.2 收录文献的原则和目的不同,数据库所起的作用不同

文摘索引型数据库一般收录特定时期的综合学科领域或某一学科分支的相同或不同出版类型的文献。有的强调收录文献的全面性,如维普公司上世纪出版的 中国科技期刊篇名数据库 以收录中国期刊全面而著名。有的强调收录文献的质量性,如EI公司的COMPENDEX以收录具有永久保留价值的文献为宗旨。

由于文摘索引型数据库的收录文献不涉及作者的著作权,数据库制作商不必和著者或文献出版者发生版权关系,依据自己的目的采集收录文献,具有很强的连续性。所以有的文摘索引型数据库能反映某一段时间内某一学科某一领域的理论和方法的进展及技术与手段的应用,体现了学术上的发展和继承的特点,为读者用户了解借鉴同行的研究成果和学术创新提供帮助。有的收录文章因质量高而在学术界享有盛名,甚至成了学术评价的重要工具,所起的作用远远超出了数据库制作商当初的愿望。EI的COMPENDEX数据库在其一百多年前印刷本创立时,其主编约翰逊教授奉行的宗旨只是保存具有永久保留价值的文献,简明扼要地摘录全文。但EI在我国的作用被人们认识更多地是,大学排名、晋升职称、获得学位和奖励等附加职能。数据库的这种附加职能只有在文摘索引型数据库身上体现。

全文数据库以为用户提供利用一次文献为主要宗旨,其数据库商必须和著者或出版单位商谈著作使用权问题,只有双方达成协议签署合同,并履约支付著作权报酬才能使用文献原文而收录数据库。因此全文数据库不可能存在收录文献全面性问题。WorldSciNet数据库收录期刊93种(截止2004年3月)Springer-Link收录期刊527种(截止2004年9月),AcademicSearchPremier收录具有全文的期刊较多,有3971种(截止2003年12月),收录文献数量无法和文摘索引型数据库相比。收录质量依据签约文献的质量而定。有些高质量的文献因对版权的考虑,可能拒绝数据库制作商的请求。相对而言,全文数据库很难像文摘索引数据库那样从宏观上反映某一学科某一领域的学术进展情况,更不可能充当学术评价的工具。使用全文数据库最大的好处是用户能直接得到原始文献,免除了用户到图书馆查找借阅全文或馆际传递全文在时间上精力上和资金上的消耗。

2.3 检索技术的运用不尽相同

2.3.1 检索原理的不同

文摘索引型数据库是以记录组织文献,处理每一条记录依据基于文献内容的特征属性和文献外表的特征,如题名、主题词、作者等等。它们构成了记录的一个个字段,是典型的结构化的线性的数据,模式简单,易于处理,体现传统的布尔检索、截词检索和位置检索等功能。

全文数据库主要通过运用对整个文本信息的分析,利用将全部文本划分为主题紧凑的不同子段,用不同的关键字特征标注各子段的文本切分技术和计算机自动进行全文自动抽词标引来处理原始文献的。全文检索技术能体现关键词在子段和全文出现的频率和分布,处理的是典型的非结构化的非线性的数据。

2.3.2 主题检索特征不同

如何帮助用户高质量地准确地检索获取真正有用的信息,是目前信息技术的热点问题,也是数据库商亟待解决的关键。主题检索是用户通过数据库检索获取信息的最主要途径。信息服务界主要采取人工规范检索词对文献进行主题标引的方

检索

式来实现基于主题概念的检索和不进行人工干预,以日常用语、关键词等作为检索词并和计算机从文本自动抽词匹配的基于自然语言的检索。文摘索引型数据库在提供自然语言的同时,一般都有自己的主题词表反映数据库中各检索词之间的关系,依据主题词表对文献进行主题标引,对每篇文献给出若干个主题词。数据库提供自然语言检索的同时,也提供规范的在线主题词表让用户选择,以便准确全面地检索出所需信息。虽然具体检索实施时,也存在各种不理想的问题,但相比只提供自然语言检索应是一进步。

全文数据库一般没有自己的主题词表,主题检索依靠不加规范的自然语言实现。使用自然语言主要是基于检索最终用户的大众化,最大好处就是避免了人工标引的随意性、繁琐性,提高了处理数据的效率,节约了成本。但其实质上是把检索词和数据库文献中的关键词或截取文献的标题、全文进行简单字型上的对照匹配,有的全文数据库和计算机累积的同一词、近义词和相关词汇匹配。大部分全文数据库使用的前一种方法,这种仅仅基于字型而非主题概念语义关系的一致,不仅不能反映广泛存在于自然语言中的同义词、近义词之间的关系,也不能反映基于概念的词与词之间的等级从属关联关系。用户不但不能消除检索词的歧义性,也不能根据自己的需要进行缩检扩检或作相关检索。2.3.3 输出格式的不同

全文数据库对原文的显示及下载一般采用不同的特定格式,在初次检索前往往要注意下载解压并安装浏览器以便使用。有的提供通用格式,如Springer-Link数据库原文显示采用PDF格式或HTM格式。有的数据库甚至采用自主研制开发的专用浏览器,如CNKI系列数据库原文采用CAJ格式。

文摘索引型数据库其输出结果比较简单,没有专用特定的格式。

3 文摘索引型数据库和全文型数据库合作互补3.1 两类数据库存在着天然的联系

文摘索引型数据库产生在先,有的全文数据库由文摘索引型数据库发展而来。 维普期刊全文数据库 是在文摘索引型数据库 中国科技期刊篇名数据库 和 中文期刊数据库 的基础上增加

原文文献演化而来,继承了原数据库的基本特点。

有的全文数据库只有部分文献提供全文,其它文献只提供题录和文摘,如AcademicSearchPremier数据库共收录期刊7699种,提供全文的期刊只有3971种(截止到2003年12月)。有的全文数据库中途有些期刊由于种种原因退出合约或合约期满不再续约或作者声明不同意著作被全文数据库收录,导致部分文献不提供全文。最近, 中国图书馆学报 、 图书情报工作 的期刊论文全文CNKI的 中国学术期刊数据库 就未收录,只有题录信息。

同一数据库商既出版发行全文数据库又出版发行文摘索引数据库,且放置在同一个检索平台上。

3.2 两类数据库不断融合取长补短

信息技术的发展进步使文摘索引型数据库和全文数据库不断融合。统一的检索平台对资源的整合和检索的集成使跨库交叉检索成为可能,其不但可以对二次文献整合,而且在寻求和电子期刊出版商合作,建立基于全文期刊的链接合作关系。统一的检索平台还和图书馆的馆藏目录和馆购全文数据相联。检索平台除了实现跨库检索外,还将能实现检索多个不同平台数据库的联合检索,使用户能选择参加联合检索的文摘索引数据库和全文数据库,完成对图书馆订购数据库的无缝检索。检索结果通过DOI链接实现参考文献和引文的互联,在图书馆购买全文的前提下阅读文献原文。图书馆没购买全文的文献可以通过检索平台链接到兄弟图书馆的OPAC目录上,随着图书馆参考咨询工作的不断深化,用户可以通过馆际全文传递得到所需的原文文献。

[参考文献]

[1]林佳,杨毅.文摘索引型数据库检索系统的现状与发展趋势[J] 图书情报工作,2003,(10):68-73.

[2]陈朋.ISIWebofKnowledge集成检索平台评析[J].图书馆杂志,2004,(9):55-59.

[3]张云秋,吴正荆.网络全文检索系统的实现技术与未来发展[J] 情报科学,2003,21(10):1080-1083.

[作者简介]王泽琪(1968-),男,华东师范大学图书馆学情报学专业本科毕业,馆员。

文摘索引型数据库和全文数据库检索系统的比较.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
    ×
    二维码
    × 游客快捷下载通道(下载后可以自由复制和排版)
    VIP包月下载
    特价:29 元/月 原价:99元
    低至 0.3 元/份 每月下载150
    全站内容免费自由复制
    VIP包月下载
    特价:29 元/月 原价:99元
    低至 0.3 元/份 每月下载150
    全站内容免费自由复制
    注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
    × 常见问题(客服时间:周一到周五 9:30-18:00)