切氏距离马氏距离
向量夹角余弦Tanimoto测度
3分类的主观性与客观性
5)特征的生成6)数据的标准化
极差标准化方差标准化
错误率最小的贝叶斯决策规则VS风险最小的贝叶斯决策规则
第四章聚类分析
基本概念
相似性测度度量同一类样本间的类似性和不属于同一样本间的差异性聚类准则
基于数值的准则将相似的模式样本分在同类,相异的分在不同的类。衡量聚类优劣的标准
聚类算法
最大最小距离法
基本思想以试探类间欧氏距离为最大作为预选出聚类中心的条件。
算法步骤
系统聚类法
基本思想算法步骤
先把每个样本各作为一类,然后将模式样本按距离准则逐步聚类,类别由多到少,直到获得合适的分类要求为止。
1. 样本{x1, x2,…,xn}自成一类,即:
G1(0), G2(0),…Gn(0),计算各类间距离矩阵:Dn´n (0)2. 求Dn´n (0)中的最小元素,其对应的类别合并,建立新的分类: G1(1), G2(1),… Gn-1(1)。3. 重复:求D (N) ,建新的分类: G1(N+1), G2(N+1),…。当D (N)中的最小值大于阈值T或 类别数等于K,迭代结束,输出分类结果。准则函数计算准则
进行聚类合并的一个关键就是每次迭代中形成的聚类之间以及它们和样本之间距离的计算,采用不同的距离函数会得到不同的计算结果。
1、最短距离法:两类中相距最近的两样本间的距离。2、最长距离法 :两类中相距最远的两样本间的距离。
3、中间距离法:最短距离和最长距离都有片面性,因此有时用中间距离。 设ω1类和ω23类间的最短距离为d12,最长距离为d13,ω 23类的长度为 d23,则中间距离为:
距离准则
4、重心距离法:均值间的距离。