第28卷第5期2011年10月贵州大学学报(自然科学版)
JournalofGuizhouUniversity(NaturalSciences)Vol.28No.5
Oct.2011
文章编号1000-5269(2011)05-0080-04
多特征融合的中文问答系统答案抽取算法
唐朝霞
摘
*
(淮阴工学院计算机工程学院,江苏淮安223003)
要:随着互联网的迅速发展和Web2.0概念的提出,问答系统以直接返回给用户精确的答案
而逐渐成为一种新的信息检索技术。由于问句都是自然语言的形式,涉及到对问句的语义理解
及相似度的判断。本文提出了一种基于问句的表层和语义相似度计算方法,通过聚类去除冗余信息,再通过熵的特征计算权值,最后融合多种特征计算问句相似度,进行答案抽取。实验证明,这种方法能够有效地提高答案抽取的精度和效率。关键词:问答系统;问句相似度;聚类;答案抽取中图分类号:TP311
文献标识码:A
问答系统是指不需要用户把问题分解成关键词,而直接以自然语言的形式提问,经过系统处理,再从知识库或者互联网上快速搜索出和用户问题对应的答案,然后把答案直接返回给用户,而不是相关的网页。因此问答系统大大降低了用户的使用难度,它比传统的搜索引擎更加方便和高效,是未来搜索引擎发展的一大方向。
国外对于问答系统的研究相对较早,已经开发
如麻省理工的出一些相对成熟的问答系统,
START系统是第一个基于Web的问答系统、密歇DavidWarthen和根州立大学的AnswerBus系统、
GarrettGruener创建的AskJeeves系统等[1]。国内也有许多科研院所投入到问答系统的研
究中,如哈尔滨工业大学秦兵等人开发了基于常问问题集的中文问答系统、清华大学黄寅飞等开发的
北京理工大学樊孝忠等开校园导航系统EasyNav、
[2]
发的银行领域汉语自动问答系统BAQS等。
随着国内外学者的深入研究,目前的问句相似
以抽取答案。相似度,
1
1.1
问句的表层相似度
词形相似度
词形相似度通过计算两个问句的词形即相同
Q2,词的个数来比较相似度。设两个问句Q1、则Q1和Q2的词形相似度为[3]:
WordSim(Q1,Q2)=2×
Same(Q1,Q2)
Len(Q1)+Len(Q2)
(1)
Q2)为Q1、Q2中所含相同词其中:Same(Q1,
Q2中出现多次则算一次;若一个词在Q1、的个数,
Len(Q1)为Q1中词的个数;Len(Q2)为Q2中词的
个数。1.2
长度相似度
问句长度相似度在一定程度上反映了问句形态上的相似性,两问句长度相差越小,相似的可能Q2的长度相似度为[4]:性越大。问句Q1、
|Len(Q1)-Len(Q2)|
LenSim(Q1,Q2)=1-
Len(Q1)+Len(Q2)
(2)
1.3
词序相似度
词序相似度从词的顺序来标注问句的相似性,反映两个问句中所含相同词或同义词在位置关系上的相似程度,以两个问句中所含相同词或同义词
度计算有基于词形词序匹配的方法、基于语义计算
的方法、基于编辑距离的方法等,但答案抽取的准确率不高。本文提出了一种基于多特征融合的方
充分利用问句之间存在的相似信息,在表层和法,
语义两大层次上同时考察问句与候选问句的相似度,对这些特征进行融合,更加准确地衡量问句的
*
收稿日期:2011-07-05
基金项目:江苏省高校自然科学基金(06KJD520024)
Email:zx-tang@163.com.作者简介:唐朝霞(1978-),女,江苏洪泽人,讲师,硕士,研究方向:算法与程序设计,*通讯作者:唐朝霞,Email:zx-tang@163.com.