2) 其余 n-k 个点逐个进入, 每个点进入时归入与相应凝聚点距离最近的类中,每个点进入之后重新计算每一类的重心作为该类新的凝聚点;
3) 重复2)直至所有类的凝聚点均不再变化为止
12. 写出在决策树算法中熵和增益的计算定义式,并说明式中各变量的含义。
S 的熵(entropy)或者期望信息为:entropy(S) pilog2pi,式中,pi表示类Ci的概率。
i 1n
根据A划分的子集的熵或期望信息由下式给出:entropy(S,A)
|Si|
entropy(Si), |S|i 1
m
式中,Si 表示
根据属性 A 划分的 S 的第i个子集,|S|和|Si|分别表示S和Si中的样本数目。信息增益用来衡量熵的
期望减少值,因此,使用属性 A对S进行划分获得的信息增益为:gain(S,A) entropy(S) entropy(S,A)。gain(S,A)是指因为知道属性A的值后导致的熵的期望压缩。
四、分析题(抄题干及分析,不用画图)
1. 下图是Excel中得到的某市衣着类消费指数与消费总指数的回归分析结果图,请对此图所反映的回归
模型、拟合优度等信息进行分析。
2. 已知数据库D中有9个事务(如下表示),设最小支持度为2,求出所有的频繁项集。另,设置信度
为70%,列出三个强规则。