多特征融合的中文问答系统答案抽取算法(2)

时间：2026-01-16 来源：未知

小中大

字号：

Q2的词的相邻顺序逆向的个数来衡量。问句Q1、

［5］

序相似度为：

OrdSim（Q1，Q2）=1－

Rev（Q1，Q2）

（3）

MaxRev（Q1，Q2）

2．2词语语义聚类

由于一些词语可能具有相同或相似的意思，本

文选取一个作为特征词语来代替它们，这样可以减提高计算效率。设问句的词语小语义空间的维度，

W2，…，Wn），词语语义聚类算法集合为W=（W1，如下：

For

i=1

tonj=i+1

to

n

计算Wi和Wj语义相似度Max_ijIfMax_i＜Max_ijthen

Max_i=Max_ijk=j

Endif

．

NextIf

j

then

‘f为阀值

Max_i＞f

Q2）表示Q1中关键词在Q2中其中，Rev（Q1，

的位置构成的自然数序列的逆序数；MaxRev（Q1，Q2）表示Q1与Q2相同关键词的个数的自然数序列的最大逆序数。

For

2问句的语义相似度

问句的语义相似度计算需要语义知识资源做基础，本文采用HowNet作为语义知识资源，先计算词语的语义相似度，然后计算用户问句与候选问句的语义相似度。2．1

词语相似度计算

定义1义原之间的语义距离

在HowNet中，一个词对应n个概念，每个概念

x2，对应m个义原，假设两个义原x1、义原之间的语义距离为：

Dis（x1，x2）=

w

d+w

（4）

合并Wi和Wk作为一代表特征n=n－lEnd

if

d是x1和x2在义原层次体系中的路径长其中，

w是一个可调节的参数。度，定义2

概念之间的语义相似度在HowNet中，把概念的语义分为：第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式

［6］

经过词语的语义聚类后，所有的代表词语就构

成了问句的最终语义空间。2．3

基于熵特征的权值计算

词语的特征权值是依据它们的重要性而定，本文采用基于熵的方法来对特征词语赋权值。设fijni表示第i个特征词语在第j个类别中出现的次数，

表示第i个特征词语在所有类别中一共出现的次N表示类别的个数，数，那么第i个特征词语的嫡定义为：

N

。假设两个概念s1、s2，概

4

i

念之间的语义相似度为：

Con_Sim（s1，s2）=

x2）βi∏Disj（x1，∑i=1j=1

（5）

其中，βi表示第i类义原描述式在概念相似度

计算中的权重，反映了四类义原在语义相似度计算中的重要程度，一般要求β1≥β2≥β3≥β4，根据刘群等人的经验，参数设为β1=0．5，β2=0．2，β3=0．17，β4=0．13定义3

［7］

Hi=－

∑j=1

fijfij

×lognini

（7）

当第i个特征词语对区分类别没有作用时，它

的熵最大为log（N）；当第i个特征词语对区分类别有重要作用时，它的熵最小为0．因此，第i个特征词语权值定义为：

Wi=1－2．4

HilogN

（8）

．

词语之间的语义相似度对于两个词语W1和W2，如果W1有n概念：S11，S12，…，S1n，W2有m个概念：S21，S22，…，S2m，则W1和W2的相似度为各个概念之间的相似度的最大值：

WSem_Sim（W1，W2）=s2j）

i=1．n，j=1．m

问句的语义相似度计算

Q1有n个词语：Q11，Q12，设两个问句Q1和Q2，

maxCon_Sim（s1i，

（6）

……，Q1n，Q2有m个词语：Q21，Q22，……，Q2m，则有

如下矩阵：

多特征融合的中文问答系统答案抽取算法(2).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

上一篇：四年级音乐教案我的家乡日喀则

下一篇：【儿童教育】【文献综述】大班幼儿早期阅读兴

相

关

文

章

分类导航

幼儿教育小学教育初中教育教学研究专业资料资格考试教育文库外语考试高等教育求职职场高中教育实用文档

多特征融合的中文问答系统答案抽取算法(2)

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签

多特征融合的中文问答系统答案抽取算法(2)

推荐阅读

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签