数学建模,模型
第 12 章 聚类分析12.1 聚类分析的基本原理 12.2 层次聚类 12.3 K-均值聚类 K-
数学建模,模型
统计学STATISTICS
怎样把消费者分类? 怎样把消费者分类?
南京雅兴市场研究有限公司在A 城市的14 个城区抽取3000 个 南京雅兴市场研究有限公司在 A 城市的 14个城区抽取 3000个 15岁以上具有独立购买能力的消费者样本, 研究消费者的生 15岁以上具有独立购买能力的消费者样本, 活方式。调查中采用一系列关于对社会活动、 活方式。调查中采用一系列关于对社会活动、价值观念等内容 的陈述,请消费者根据自己的情况做出评价。评价结果采用7 的陈述,请消费者根据自己的情况做出评价。评价结果采用7 分评价法, 分表示“非常同意” 分评价法,1分表示“非常同意”,7分表示“非常不同意” 分表示“非常不同意” 对调查结果先通过因子分析将一系列的测试语句进行综合, 对调查结果先通过因子分析将一系列的测试语句进行综合,根 据消费者的回答情况,将这些语句分为几大类,最后得到5 据消费者的回答情况,将这些语句分为几大类,最后得到5个 主要因子,它们的含义分别是:对时尚的观点、 主要因子,它们的含义分别是:对时尚的观点、个人的事业性 与进取性、对经济利益的看法、社交能力与影响力、 与进取性、对经济利益的看法、社交能力与影响力、生活的计 划性。 划性。根据因子分析的结果对样本的回答按照新的类型进行重 新评估打分, 新评估打分,然后根据这些评价进行聚类分析 根据每一类消费者的因子的特征,最终将消费者的生活方式分 为6个类别,即:时尚型、自保型、领袖型、上进型、迷茫型 (缺乏生活目标型)和平庸型 缺乏生活目标型)12 - 2 August 3 , 2010
数学建模,模型
统计学STATISTICS
怎样把消费者分类? 怎样把消费者分类?
时尚型:这类消费者约占样本量的约21% 时尚型:这类消费者约占样本量的约21%,主要特征为:年龄相对较 轻,平均年龄在35岁左右,教育程度相对较高,一般具有高中以上文 平均年龄在35岁左右,教育程度相对较高, 化程度,虽然平均家庭月收入较好,平均在2200元左右, 化程度,虽然平均家庭月收入较好,平均在2200元左右,同时也是分 散程度最高的,表明喜爱时尚并不是高收入者的专利。 散程度最高的,表明喜爱时尚并不是高收入者的专利。这一类型中的 三资企业员工的比例最大,未婚的比例较大,约占1 三资企业员工的比例最大,未婚的比例较大,约占1/4,女性的比例为 55%,高于男性 55% 自保型:这类消费者占16% 他们更多的是为自己的生计考虑, 自保型:这类消费者占16%,他们更多的是为自己的生计考虑,考
虑 自己能否有稳定的经济来源, 自己能否有稳定的经济来源,维持家庭的经济保障是他们最关心的问 题。这些人的平均受教育程度较低,中年人的比例较高,平均年龄在 这些人的平均受教育程度较低,中年人的比例较高, 44岁左右,家庭月收入较低,平均在1600元左右,国营企业员工以及 44岁左右,家庭月收入较低,平均在1600元左右, 离退休人员的比例较高。 离退休人员的比例较高。女性的比例高于男性 领袖型:这类消费者占13% 教育程度处于社会平均水平, 领袖型:这类消费者占13%。教育程度处于社会平均水平,主要为中 年人,有较多的生活阅历,年龄多在45-54 岁之间。 年人,有较多的生活阅历,年龄多在45-54岁之间。家庭月平均收入 一般在1800元左右。在职业上没有显著特征。 一般在1800元左右。在职业上没有显著特征。已婚比例是各类消费者 中最高的,这似乎表明有稳定的家庭也是成为领袖的一个条件。 中最高的,这似乎表明有稳定的家庭也是成为领袖的一个条件。男性 比例占55% 比例占55%,高于女性12 - 3 August 3 , 2010
数学建模,模型
统计学STATISTICS
怎样把消费者分类? 怎样把消费者分类?
上进型:占消费者总人数的不到13% 他们对生活的态度积极, 上进型 :占消费者总人数的不到13%。他们对生活的态度积极,多 为未婚青年,平均年龄在28岁左右,25岁以下的占40% 为未婚青年,平均年龄在28岁左右,25岁以下的占40%,单身未婚 的比例占1 以上。职业上的显著特征是:1 为学生, 的比例占1/2以上。职业上的显著特征是:1/3为学生,三资企业员工 的比例达1 10 。男性的比例高于女性。 的比例达1/10。男性的比例高于女性 。这类消费者是受教育程度最 高的,他们的平均家庭收入却是最高的,月平均收入在2300元左右 高的,他们的平均家庭收入却是最高的,月平均收入在2300元左右 迷茫(缺乏生活目标) 约占15% 他们既不注重经济保障, 迷茫(缺乏生活目标)型:约占15%,他们既不注重经济保障,也不参 加培训,生活节奏较缓慢。这类消费者主要为退休人员, 加培训,生活节奏较缓慢。这类消费者主要为退休人员,约占该类 型人员的2 型人员的2/3,剩下的主要为国营企业员工。平均年龄在50岁以上, 剩下的主要为国营企业员工。平均年龄在50岁以上, 他们的教育程度是最低的,家庭收入也是最低的,平均不到1600元 他们的教育程度是最低的,家庭收入也是最低的,平均不到1600元。 在性别分布上,女性的比例远远高于男性, 62% 在性别分布上,女性的比例远远高于男性,占62% 平庸型:这类消费者约占23% 最大的特点是生活没有计划, 平庸型 :这类
消费者约占23%,最大的特点是生活没有计划,日常 生活没有规律,而其他指标则均处于中间状态。 生活没有规律,而其他指标则均处于中间状态。这类消费者在年龄 上比较分散, 15岁到54岁之间的各年龄段均有相当比例, 上比较分散,从15岁到54岁之间的各年龄段均有相当比例,平均教 育程度一般,家庭月平均收入在1900元左右。 育程度一般,家庭月平均收入在1900元左右。在职业上没有显著特 征,但待岗人员的比例稍高于其他各类型。在性别上,男性稍高于 但待岗人员的比例稍高于其他各类型。在性别上, 女性12 - 4 August 3 , 2010
数学建模,模型
统计学STATISTICS
聚类分析(cluster analysis)根据经济发展水平把各个国家分成发达国家、 根据经济发展水平把各个国家分成发达国家 、 中等发达 国家、 国家、发展中国家 按照消费者的特征对消费者分类, 按照消费者的特征对消费者分类 , 按照产品特征对产品 分类
在现实生活中, 在现实生活中,分类问题是十分常见的
这些分类中, 有的事先并不知道存在什么类别, 这些分类中 , 有的事先并不知道存在什么类别 , 完 全按照反映对象特征的数据把对象进行分类, 全按照反映对象特征的数据把对象进行分类 , 这在 统计上称为聚类分析;有的则是在事先有了某种分 类标准之后, 类标准之后 , 判定一个新的研究对象应该归属到哪 一类别, 这在统计上则称为判别分析(discriminant 一类别 , 这在统计上则称为判别分析 (discriminant analysis) 本章主要介绍聚类分析方法12 - 5 August 3 , 2010
数学建模,模型
第 12 章 聚类分析12.1 聚类分析的基本原理12.1.1 什么是聚类分析? 什么是聚类分析? 12.1.2 相似性的度量
数学建模,模型
12.1 聚类分析的思想和原理 12.1.1 什么是聚类分析? 什么是聚类分析?
数学建模,模型
统计学STATISTICS
什么是聚类分析? 什么是聚类分析?(cluster analysis)这些类不是事先给定的, 这些类不是事先给定的,而是直接根据数据的特 征确定的
把“对象”分成不同的类别 对象”
把相似的东西放在一起, 把相似的东西放在一起 , 从而使得类别内部 的 “ 差异 ” 尽可能小 , 而类别之间的“ 差异 差异” 尽可能小, 而类别之间的 “ ”尽可能大 聚类分析就是按照对象之间的“ 相似” 聚类分析就是按照对象之间的 “ 相似 ” 程度 把对象进行分类
12 - 8
August 3 , 2010
数学建模,模型
统计学STATISTICS
什么是聚类分析? 什么是聚类分析?(两种分类方式) 两种分类方式)
聚类分析的“对象”可以是所观察的多个样本, 聚类分析的“对象”可以是所观察的多个样本, 也可以是针对每个样本测得的多个变量 按照变量对所观察的样本进行分类称为Q 按照变量对所
观察的样本进行分类称为Q型聚类按照多项经济指标(变量)对不同的地区(样本) 按照多项经济指标(变量)对不同的地区(样本)进行分 类
按照样本对多个变量进行分类,则称为R 按照样本对多个变量进行分类,则称为R型聚类按照不同地区的样本数据对多个经济变量进行分类
两种聚类没有什么本质区别, 两种聚类没有什么本质区别,实际中人们更感兴 趣的通常是根据变量对样本进行分类(Q型聚类) 趣的通常是根据变量对样本进行分类(Q型聚类)12 - 9 August 3 , 2010
数学建模,模型
统计学STATISTICS
什么是聚类分析? 什么是聚类分析?(按什么分类) 按什么分类)
按对象的“相似” 按对象的“相似”程度分类 根据样本的观测数据测度变量之间的相似性 程度可以使用夹角余弦 Pearson相关系数 程度可以使用 夹角余弦 、 Pearson 相关系数 夹角余弦、 等工具,也称为相似系数 等工具,也称为相似系数变量间的相似系数越大, 变量间的相似系数越大,说明它们越相近
根据变量来测度样本之间的相似程度则使用 “距离” 距离”把离得比较近的归为一类, 把离得比较近的归为一类,而离得比较远的放在 不同的类12 - 10 August 3 , 2010
数学建模,模型
12.1 聚类分析的思想和原理 12.1.2 相似性的度量
数学建模,模型
统计学STATISTICS
相似性的度量
聚类分析中是用“距离” 聚类分析中是用“距离”或“相似系数”来度量对象 相似系数” 之间的相似性 在第13 章例13. 在第 13章例 13.1 中 , 31 个地区的人均GDP 数据就是 31个地区的人均 GDP数据就是 直线上的31个点, 直线上的31个点,每一个点对应一个地区 如果按照人均GDP对它们进行分类, 如果按照人均GDP对它们进行分类,就可以把在直线 上离得比较近的那些点归为一类。 上离得比较近的那些点归为一类。如果再考虑财政收 入,那么人均GDP和财政收入就是二维平面上的一个 那么人均GDP和财政收入就是二维平面上的一个 点,31个地区就是平面中的31个点 31个地区就是平面中的31个点 多个变量就是高维空间中的一个点,31个地区就是高 多个变量就是高维空间中的一个点,31个地区就是高 维空间中的31个点 维空间中的31个点 各个点之间距离的远近就是分类的依据12 - 12 August 3 , 2010
数学建模,模型
统计学STATISTICS
相似性的度量(样本点间距离的计算方法) 样本点间距离的计算方法)
在对样本进行分类时, 在对样本进行分类时 , 度量样本之间的相似 性使用点间距离 点间距离的计算方法主要有欧氏距离(Euclidean 欧氏距离(Euclidean distance) 平方欧氏距离(Squared 平方欧氏距离(Squared Euclidean distance) Block距离(Block Block距离(Block distance) Chebychev距离(Chebychev Chebychev距离(Chebychev distance) 马氏距
离(Minkovski 马氏距离(Minkovski distance) 最常用的是平方欧氏距离12 - 13 August 3 , 2010
数学建模,模型
统计学STATISTICS
相似性的度量(样本点间距离的计算方法) 样本点间距离的计算方法)( xi yi ) 2 ∑i =1 p
Euclidean距离 距离 Squared Euclidean距离 距离 Block距离 距离 Chebychev距离 距离 Minkovski距离 距离12 - 14
( xi y i ) 2 ∑i =1p
p
∑xi =1
i
yi
max xi yip q
∑xi =1
i
yi
q
August 3 , 2010
数学建模,模型
统计学STATISTICS
相似性的度量(变量相似系数的计算方法) 变量相似系数的计算方法)
在对变量进行分类时, 在对变量进行分类时 , 度量变量之间的相似 性常用相似系数, 性常用相似系数,测度方法有cos θ xy =
∑x yi i ii
i
夹角余弦
x i2 ∑ y i2 ∑ii i
Pearson相关系数 相关系数
rxy =
∑(x x)(y y)(xi x)2 ∑( yi y)2 ∑i i
12 - 15
August 3 , 2010
数学建模,模型
第 12 章 聚类分析12.2 层次聚类12.2.1 层次聚类的两种方式 12.2.2 类间距离的计算方法 12.2.3 层次聚类的应用
数学建模,模型
12.2 层次聚类 12.2.1 层次聚类的两种方式
数学建模,模型
统计学STATISTICS
层次聚类(hierarchical cluster) cluster)
层次聚类又称系统聚类 事先不确定要分多少类, 事先不确定要分多少类 , 而是先把每一个 对象作为一类, 对象作为一类,然后一层一层进行分类 根据运算的方向不同, 根据运算的方向不同 , 层次聚类法又分为 合并法和 分解法, 合并法 和 分解法 , 两种方法的运算原理一 样,只是方向相反
12 - 18
August 3 , 2010
数学建模,模型
统计学STATISTICS
层次聚类(合并法) 合并法)
将每一个样本作为一类,如果是k个样本就分k 将每一个样本作为一类,如果是k个样本就分k成类 按照某种方法度量样本之间的距离, 按照某种方法度量样本之间的距离 , 并将距离最近 的两个样本合并为一个类别,从而形成了k 的两个样本合并为一个类别,从而形成了k-1个类别 再计算出新产生的类别与其他各类别之间的距离, 再计算出新产生的类别与其他各类别之间的距离 , 并将距离最近的两个类别合并为一类。 这时, 并将距离最近的两个类别合并为一类 。 这时 , 如果 类别的个数仍然大于1 则继续重复这一步, 类别的个数仍然大于1,则继续重复这一步,直到所 有的类别都合并成一类为止 总是先把离得最近的两个类进行合并合并越晚的类, 合并越晚的类,距离越远 事先并不会指定最后要分成多少类, 事先并不会指定最后要分成多少类 , 而是把所有可能的 分类都列出, 分类都列出,再视具体情况选择一个合适的分类结果12 - 19 August 3 , 2010
数学建模,模型
统计学STATISTICS
层次聚类(分解法) 分解法)
分解方法原理与合并法相反 先把所有的对象(样本或变量)作为一大类, 先
把所有的对象(样本或变量)作为一大类,然 后度量对象之间的距离或相似程度, 后度量对象之间的距离或相似程度 , 并将距 离或相似程度最远的对象分离出去, 离或相似程度最远的对象分离出去 , 形成两 大类(其中的一类只有一个对象) 大类(其中的一类只有一个对象) 再度量类别中剩余对象之间的距离或相似程 度 , 并将最远的分离出去 , 不断重复这一过 并将最远的分离出去, 程,直到所有的对象都自成一类为止 SPSS中只提供了合并法 SPSS中只提供了合并法12 - 20 August 3 , 2010
数学建模,模型
12.2 层次聚类 12.2.2 类间距离的计算方法