索引子系统的设计与实现
其中: ∑t∈nftf(t,n)K=k1 (1 b)+b avg∑t'ftf(t',n')n' (2-2) n为节点n下所有语词的集合,n'表示标签为A的结点。
在该子系统中,取k1为1.25,b为0.75。然后根据上述的Okapi BM25评分公式对所有文献进行全局的评分统计,最后得出每个元素(结点)的最大分数和全局语词对(tag-term)出现频率:
表2-7 elements_maxscores表
字段名
tag
maxelementscore 字段含义 名为tag的元素 最大分数
表2-8 dfvalues表
字段名
tag
term
df 字段含义 元素名 语词 语词对全局出现次数
评分是构建XML倒排索引过程中的很重要的一部分,它的构建是建立在前者(基本倒排索引)之上的,可以完全在关系数据库中完成评分的工作。到这里,XML的倒排索引就构建需求就分析完了。