手机版

多特征融合的中文问答系统答案抽取算法(3)

发布时间:2021-06-05   来源:未知    
字号:

Q21)WSem_Sim(Q11,Q22)…WSem_Sim(Q11,Q2m)WSem_Sim(Q11,

F(Q1,Q2)=

WSem_Sim(Q12,Q21)WSem_Sim(Q12,Q22)…WSem_Sim(Q12,Q2m)…

WSem_Sim(Q1n,Q21)WSem_Sim(Q1n,Q22)…WSem_Sim(Q1n,Q2m)

则问句Q1和Q2的语义相似度为:

Sem_Sim1(Q1,Q2)=

n

4答案抽取算法

(Wi∑i=1

×max(WSem_Sim(W1i,W2j))

j=1.m

设用户问句Qt以及候选问句集合Q={Q1,

Q2,..Qm},返回相关答案的个数k:

(9)

Step1:对问句进行分词等预处理,并利用同义词词库进行关键词扩展,得到各个问句的关键词集;

Step2:遍历所有候选问句按以下方法计算相似度;

(10)

For

i=1

to

m

读入候选问句Qi;

按公式(1)-(3)计算Qt和Qi的词形

(11)

相似度、词序相似度和句长相似度

按公式(4)-(6)计算Qt和Qi词语的概念相似度

词语语义聚类

按公式(7)-(8)计算聚类后词语的权值按公式(9)-(11)计算Qt和Qi的语

义相似度

按公式(12)-(13)计算两个问句Qt

和Qi的相似度

Nexti

Step3:按候选问句的相似度排序,取前k个候选问句的答案。

n

同理问句Q2和Q1的语义相似度为:Sem_Sim2(Q1,Q2)=

m

(Wi∑i=1

×max(WSem_Sim(W1j,W2i))

j=1.n

m

最后求平均得到两个问句的语义相似度:Sem_Sim(Q1,Q2)=Sem_Sim1(Q1,Q2)+Sem_Sim2(Q1,Q2)

2

3基于多特征融合的问句相似度计算

由上分析可知:问句的相似度包括表层相似度和语义相似度。表层相似度从词形、长度和词序分别反映了问句的不同侧面信息,语义相似度反映问句与候选问句之间的深层语义特征的相关程度,因此,本文先采用线性融合方法,融合三种表层特征:

Sur_Sim(Q1,Q2)=λ1×WordSim(Q1,Q2)+Q2)+λ3×OrdSim(Q1,Q2)λ2×LenSim(Q1,

(12)其中:λ1、λ2和λ3分别表示词形、长度和词序三种特征的权值,经过在问题集中的测试,取λ1=0.6,λ2=0.2,λ3=0.2.

再将表层特征融合语义特征,问句的相似度为:

Sim(Q1,Q2)=a1×Sur_Sim(Q1,Q2)+a2×Sem_Sim(Q1,Q2)

(13)

a2为表层和语义特征的权值,其中:a1、经过

a2=0.6.在问题集中的测试,取a1=0.4,

表1

候选问句

Q1Q2Q3Q4

WordSim0.3670.40.40.4

LenSim0.909111

0.50.50.50.75OrdSim

5实验结果及分析

以人工分词的100个汉语语句作为测试集,以

:“淮阴工学院究竟在哪招生领域为例,设问句Qt,Q2,Q3,Q4},Q1:里?”候选问句集合Q={Q1,

“淮阴工学院的联系方式是什么?”,Q2:“淮阴工,Q3:“淮阴工学院地址是多学院就业情况如何?”

,Q4:“淮阴工学院在什么地方?”。按本文的少?”

答案抽取算法,测试结果如表1所示:

实验结果

Sur-Sim0.5020.540.540.59

Sem-Sim0.7010.6990.8370.903

Sim0.6210.6350.7180.778

多特征融合的中文问答系统答案抽取算法(3).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
×
二维码
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)