Q2的词的相邻顺序逆向的个数来衡量。问句Q1、
[5]
序相似度为:
OrdSim(Q1,Q2)=1-
Rev(Q1,Q2)
(3)
MaxRev(Q1,Q2)
2.2词语语义聚类
由于一些词语可能具有相同或相似的意思,本
文选取一个作为特征词语来代替它们,这样可以减提高计算效率。设问句的词语小语义空间的维度,
W2,…,Wn),词语语义聚类算法集合为W=(W1,如下:
For
i=1
tonj=i+1
to
n
计算Wi和Wj语义相似度Max_ijIfMax_i<Max_ijthen
Max_i=Max_ijk=j
Endif
.
NextIf
j
then
‘f为阀值
Max_i>f
Q2)表示Q1中关键词在Q2中其中,Rev(Q1,
的位置构成的自然数序列的逆序数;MaxRev(Q1,Q2)表示Q1与Q2相同关键词的个数的自然数序列的最大逆序数。
For
2问句的语义相似度
问句的语义相似度计算需要语义知识资源做基础,本文采用HowNet作为语义知识资源,先计算词语的语义相似度,然后计算用户问句与候选问句的语义相似度。2.1
词语相似度计算
定义1义原之间的语义距离
在HowNet中,一个词对应n个概念,每个概念
x2,对应m个义原,假设两个义原x1、义原之间的语义距离为:
Dis(x1,x2)=
w
d+w
(4)
Next
i
合并Wi和Wk作为一代表特征n=n-lEnd
if
d是x1和x2在义原层次体系中的路径长其中,
w是一个可调节的参数。度,定义2
概念之间的语义相似度在HowNet中,把概念的语义分为:第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式
[6]
经过词语的语义聚类后,所有的代表词语就构
成了问句的最终语义空间。2.3
基于熵特征的权值计算
词语的特征权值是依据它们的重要性而定,本文采用基于熵的方法来对特征词语赋权值。设fijni表示第i个特征词语在第j个类别中出现的次数,
表示第i个特征词语在所有类别中一共出现的次N表示类别的个数,数,那么第i个特征词语的嫡定义为:
N
。假设两个概念s1、s2,概
4
i
念之间的语义相似度为:
Con_Sim(s1,s2)=
x2)βi∏Disj(x1,∑i=1j=1
(5)
其中,βi表示第i类义原描述式在概念相似度
计算中的权重,反映了四类义原在语义相似度计算中的重要程度,一般要求β1≥β2≥β3≥β4,根据刘群等人的经验,参数设为β1=0.5,β2=0.2,β3=0.17,β4=0.13定义3
[7]
Hi=-
∑j=1
fijfij
×lognini
(7)
当第i个特征词语对区分类别没有作用时,它
的熵最大为log(N);当第i个特征词语对区分类别有重要作用时,它的熵最小为0.因此,第i个特征词语权值定义为:
Wi=1-2.4
HilogN
(8)
.
词语之间的语义相似度对于两个词语W1和W2,如果W1有n概念:S11,S12,…,S1n,W2有m个概念:S21,S22,…,S2m,则W1和W2的相似度为各个概念之间的相似度的最大值:
WSem_Sim(W1,W2)=s2j)
i=1.n,j=1.m
问句的语义相似度计算
Q1有n个词语:Q11,Q12,设两个问句Q1和Q2,
maxCon_Sim(s1i,
(6)
……,Q1n,Q2有m个词语:Q21,Q22,……,Q2m,则有
如下矩阵: