8. 以下为SPSS中方差分析的结果图,试对其进行分析。
从上图可知组间离差平方和为,组内离差平方和为,总离差平方和为,自由度为分别为:,组间均方和为组内均方和为,Sig.<0.05,拒绝原假设,接收备选假设,即平均亩产各不相同,且Between Groups>Within Groups的值,即品种对平均亩产有较大的影响。
9. 根据下图说明此数据挖掘算法是什么,并说明图中各主要参数项的含义。
自下而上的聚合型层次聚类,采用最短距离法,amalgamation(融合,混合)计算欧式距离,对原始数据中变量1,3-4,6-8进行聚类,Casewise 对样本的智能处理,默认是在统计时不取该行数据。 10. 聚类算法和分类算法有哪些区别?各自的目标是什么?
“聚类分析”往往预先不知道各分类集合的目标属性,只有通过其它已知属性按聚类算法得到分类之后,才去分析各分类的特征,归纳出目标属性。其方向是通过“聚”来得到分类。例如对银行客户的划分。
“分类分析”对于目标属性及其取值是已知的,其目标是在已知的数据集中去发现其它属性与目标属性的某种规则模型,这一模型要能对未知对象的目标属性进行准确预测。其方向是通过“分”来找到规则。
但二者又是有关联的,例如,可以在聚类识别了新的目标属性的基础上,在原数据集上增加新的目标属性;针对这一新的数据集,再用分类算法去找到基于已有发生推导出目标属性归属的分类规则,并用来对未知数据分类。
11. 什么是K-means方法,请描述其用途及基本思想。
K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。 其步骤为:
1) 在 n 个数据中选取 k 个作为凝聚点, 并且定义点与点之间的距离;