手机版

主页 > 文库下载 > 求职职场 > 内容

(12)第12章聚类分析

发布时间：2021-06-07 来源：未知

小中大

字号：

数学建模,模型

第 12 章聚类分析12.1 聚类分析的基本原理 12.2 层次聚类 12.3 K-均值聚类 K-

数学建模,模型

统计学STATISTICS

怎样把消费者分类？怎样把消费者分类？

南京雅兴市场研究有限公司在A 城市的14 个城区抽取3000 个南京雅兴市场研究有限公司在 A 城市的 14个城区抽取 3000个 15岁以上具有独立购买能力的消费者样本，研究消费者的生 15岁以上具有独立购买能力的消费者样本，活方式。调查中采用一系列关于对社会活动、活方式。调查中采用一系列关于对社会活动、价值观念等内容的陈述，请消费者根据自己的情况做出评价。评价结果采用7 的陈述，请消费者根据自己的情况做出评价。评价结果采用7 分评价法，分表示“非常同意” 分评价法，1分表示“非常同意”,7分表示“非常不同意” 分表示“非常不同意” 对调查结果先通过因子分析将一系列的测试语句进行综合，对调查结果先通过因子分析将一系列的测试语句进行综合，根据消费者的回答情况，将这些语句分为几大类，最后得到5 据消费者的回答情况，将这些语句分为几大类，最后得到5个主要因子，它们的含义分别是：对时尚的观点、主要因子，它们的含义分别是：对时尚的观点、个人的事业性与进取性、对经济利益的看法、社交能力与影响力、与进取性、对经济利益的看法、社交能力与影响力、生活的计划性。划性。根据因子分析的结果对样本的回答按照新的类型进行重新评估打分，新评估打分，然后根据这些评价进行聚类分析根据每一类消费者的因子的特征，最终将消费者的生活方式分为6个类别，即：时尚型、自保型、领袖型、上进型、迷茫型 (缺乏生活目标型)和平庸型缺乏生活目标型)12 - 2 August 3 , 2010

数学建模,模型

统计学STATISTICS

怎样把消费者分类？怎样把消费者分类？

时尚型：这类消费者约占样本量的约21% 时尚型：这类消费者约占样本量的约21%,主要特征为：年龄相对较轻，平均年龄在35岁左右，教育程度相对较高，一般具有高中以上文平均年龄在35岁左右，教育程度相对较高，化程度，虽然平均家庭月收入较好，平均在2200元左右，化程度，虽然平均家庭月收入较好，平均在2200元左右，同时也是分散程度最高的，表明喜爱时尚并不是高收入者的专利。散程度最高的，表明喜爱时尚并不是高收入者的专利。这一类型中的三资企业员工的比例最大，未婚的比例较大，约占1 三资企业员工的比例最大，未婚的比例较大，约占1/4,女性的比例为 55%,高于男性 55% 自保型：这类消费者占16% 他们更多的是为自己的生计考虑，自保型：这类消费者占16%,他们更多的是为自己的生计考虑，考

虑自己能否有稳定的经济来源，自己能否有稳定的经济来源，维持家庭的经济保障是他们最关心的问题。这些人的平均受教育程度较低，中年人的比例较高，平均年龄在这些人的平均受教育程度较低，中年人的比例较高， 44岁左右，家庭月收入较低，平均在1600元左右，国营企业员工以及 44岁左右，家庭月收入较低，平均在1600元左右，离退休人员的比例较高。离退休人员的比例较高。女性的比例高于男性领袖型：这类消费者占13% 教育程度处于社会平均水平，领袖型：这类消费者占13%。教育程度处于社会平均水平，主要为中年人，有较多的生活阅历，年龄多在45-54 岁之间。年人，有较多的生活阅历，年龄多在45-54岁之间。家庭月平均收入一般在1800元左右。在职业上没有显著特征。一般在1800元左右。在职业上没有显著特征。已婚比例是各类消费者中最高的，这似乎表明有稳定的家庭也是成为领袖的一个条件。中最高的，这似乎表明有稳定的家庭也是成为领袖的一个条件。男性比例占55% 比例占55%,高于女性12 - 3 August 3 , 2010

数学建模,模型

统计学STATISTICS

怎样把消费者分类？怎样把消费者分类？

上进型：占消费者总人数的不到13% 他们对生活的态度积极，上进型：占消费者总人数的不到13%。他们对生活的态度积极，多为未婚青年，平均年龄在28岁左右，25岁以下的占40% 为未婚青年，平均年龄在28岁左右，25岁以下的占40%,单身未婚的比例占1 以上。职业上的显著特征是：1 为学生，的比例占1/2以上。职业上的显著特征是：1/3为学生，三资企业员工的比例达1 10 。男性的比例高于女性。的比例达1/10。男性的比例高于女性。这类消费者是受教育程度最高的，他们的平均家庭收入却是最高的，月平均收入在2300元左右高的，他们的平均家庭收入却是最高的，月平均收入在2300元左右迷茫(缺乏生活目标) 约占15% 他们既不注重经济保障，迷茫(缺乏生活目标)型：约占15%,他们既不注重经济保障，也不参加培训，生活节奏较缓慢。这类消费者主要为退休人员，加培训，生活节奏较缓慢。这类消费者主要为退休人员，约占该类型人员的2 型人员的2/3,剩下的主要为国营企业员工。平均年龄在50岁以上，剩下的主要为国营企业员工。平均年龄在50岁以上，他们的教育程度是最低的，家庭收入也是最低的，平均不到1600元他们的教育程度是最低的，家庭收入也是最低的，平均不到1600元。在性别分布上，女性的比例远远高于男性， 62% 在性别分布上，女性的比例远远高于男性，占62% 平庸型：这类消费者约占23% 最大的特点是生活没有计划，平庸型：这类

消费者约占23%,最大的特点是生活没有计划，日常生活没有规律，而其他指标则均处于中间状态。生活没有规律，而其他指标则均处于中间状态。这类消费者在年龄上比较分散， 15岁到54岁之间的各年龄段均有相当比例，上比较分散，从15岁到54岁之间的各年龄段均有相当比例，平均教育程度一般，家庭月平均收入在1900元左右。育程度一般，家庭月平均收入在1900元左右。在职业上没有显著特征，但待岗人员的比例稍高于其他各类型。在性别上，男性稍高于但待岗人员的比例稍高于其他各类型。在性别上，女性12 - 4 August 3 , 2010

数学建模,模型

统计学STATISTICS

聚类分析(cluster analysis)根据经济发展水平把各个国家分成发达国家、根据经济发展水平把各个国家分成发达国家、中等发达国家、国家、发展中国家按照消费者的特征对消费者分类，按照消费者的特征对消费者分类，按照产品特征对产品分类

在现实生活中，在现实生活中，分类问题是十分常见的

这些分类中，有的事先并不知道存在什么类别，这些分类中，有的事先并不知道存在什么类别，完全按照反映对象特征的数据把对象进行分类，全按照反映对象特征的数据把对象进行分类，这在统计上称为聚类分析；有的则是在事先有了某种分类标准之后，类标准之后，判定一个新的研究对象应该归属到哪一类别，这在统计上则称为判别分析(discriminant 一类别，这在统计上则称为判别分析 (discriminant analysis) 本章主要介绍聚类分析方法12 - 5 August 3 , 2010

数学建模,模型

第 12 章聚类分析12.1 聚类分析的基本原理12.1.1 什么是聚类分析? 什么是聚类分析? 12.1.2 相似性的度量

数学建模,模型

12.1 聚类分析的思想和原理 12.1.1 什么是聚类分析？什么是聚类分析？

数学建模,模型

统计学STATISTICS

什么是聚类分析？什么是聚类分析？(cluster analysis)这些类不是事先给定的，这些类不是事先给定的，而是直接根据数据的特征确定的

把“对象”分成不同的类别对象”

把相似的东西放在一起，把相似的东西放在一起，从而使得类别内部的 “ 差异 ” 尽可能小，而类别之间的“ 差异差异” 尽可能小，而类别之间的 “ ”尽可能大聚类分析就是按照对象之间的“ 相似” 聚类分析就是按照对象之间的 “ 相似 ” 程度把对象进行分类

12 - 8

August 3 , 2010

数学建模,模型

统计学STATISTICS

什么是聚类分析？什么是聚类分析？(两种分类方式) 两种分类方式)

聚类分析的“对象”可以是所观察的多个样本，聚类分析的“对象”可以是所观察的多个样本，也可以是针对每个样本测得的多个变量按照变量对所观察的样本进行分类称为Q 按照变量对所

观察的样本进行分类称为Q型聚类按照多项经济指标(变量)对不同的地区(样本) 按照多项经济指标(变量)对不同的地区(样本)进行分类

按照样本对多个变量进行分类，则称为R 按照样本对多个变量进行分类，则称为R型聚类按照不同地区的样本数据对多个经济变量进行分类

两种聚类没有什么本质区别，两种聚类没有什么本质区别，实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类) 趣的通常是根据变量对样本进行分类(Q型聚类)12 - 9 August 3 , 2010

数学建模,模型

统计学STATISTICS

什么是聚类分析？什么是聚类分析？(按什么分类) 按什么分类)

按对象的“相似” 按对象的“相似”程度分类根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦 Pearson相关系数程度可以使用夹角余弦、 Pearson 相关系数夹角余弦、等工具，也称为相似系数等工具，也称为相似系数变量间的相似系数越大，变量间的相似系数越大，说明它们越相近

根据变量来测度样本之间的相似程度则使用 “距离” 距离”把离得比较近的归为一类，把离得比较近的归为一类，而离得比较远的放在不同的类12 - 10 August 3 , 2010

数学建模,模型

12.1 聚类分析的思想和原理 12.1.2 相似性的度量

数学建模,模型

统计学STATISTICS

相似性的度量

聚类分析中是用“距离” 聚类分析中是用“距离”或“相似系数”来度量对象相似系数” 之间的相似性在第13 章例13. 在第 13章例 13.1 中， 31 个地区的人均GDP 数据就是 31个地区的人均 GDP数据就是直线上的31个点，直线上的31个点，每一个点对应一个地区如果按照人均GDP对它们进行分类，如果按照人均GDP对它们进行分类，就可以把在直线上离得比较近的那些点归为一类。上离得比较近的那些点归为一类。如果再考虑财政收入，那么人均GDP和财政收入就是二维平面上的一个那么人均GDP和财政收入就是二维平面上的一个点，31个地区就是平面中的31个点 31个地区就是平面中的31个点多个变量就是高维空间中的一个点，31个地区就是高多个变量就是高维空间中的一个点，31个地区就是高维空间中的31个点维空间中的31个点各个点之间距离的远近就是分类的依据12 - 12 August 3 , 2010

数学建模,模型

统计学STATISTICS

相似性的度量(样本点间距离的计算方法) 样本点间距离的计算方法)

在对样本进行分类时，在对样本进行分类时，度量样本之间的相似性使用点间距离点间距离的计算方法主要有欧氏距离(Euclidean 欧氏距离(Euclidean distance) 平方欧氏距离(Squared 平方欧氏距离(Squared Euclidean distance) Block距离(Block Block距离(Block distance) Chebychev距离(Chebychev Chebychev距离(Chebychev distance) 马氏距

离(Minkovski 马氏距离(Minkovski distance) 最常用的是平方欧氏距离12 - 13 August 3 , 2010

数学建模,模型

统计学STATISTICS

相似性的度量(样本点间距离的计算方法) 样本点间距离的计算方法)( xi yi ) 2 ∑i =1 p

Euclidean距离距离 Squared Euclidean距离距离 Block距离距离 Chebychev距离距离 Minkovski距离距离12 - 14

( xi y i ) 2 ∑i =1p

p

∑xi =1

i

yi

max xi yip q

∑xi =1

i

yi

q

August 3 , 2010

数学建模,模型

统计学STATISTICS

相似性的度量(变量相似系数的计算方法) 变量相似系数的计算方法)

在对变量进行分类时，在对变量进行分类时，度量变量之间的相似性常用相似系数，性常用相似系数，测度方法有cos θ xy =

∑x yi i ii

i

夹角余弦

x i2 ∑ y i2 ∑ii i

Pearson相关系数相关系数

rxy =

∑(x x)(y y)(xi x)2 ∑( yi y)2 ∑i i

12 - 15

August 3 , 2010

数学建模,模型

第 12 章聚类分析12.2 层次聚类12.2.1 层次聚类的两种方式 12.2.2 类间距离的计算方法 12.2.3 层次聚类的应用

数学建模,模型

12.2 层次聚类 12.2.1 层次聚类的两种方式

数学建模,模型

统计学STATISTICS

层次聚类(hierarchical cluster) cluster)

层次聚类又称系统聚类事先不确定要分多少类，事先不确定要分多少类，而是先把每一个对象作为一类，对象作为一类，然后一层一层进行分类根据运算的方向不同，根据运算的方向不同，层次聚类法又分为合并法和分解法，合并法和分解法，两种方法的运算原理一样，只是方向相反

12 - 18

August 3 , 2010

数学建模,模型

统计学STATISTICS

层次聚类(合并法) 合并法)

将每一个样本作为一类，如果是k个样本就分k 将每一个样本作为一类，如果是k个样本就分k成类按照某种方法度量样本之间的距离，按照某种方法度量样本之间的距离，并将距离最近的两个样本合并为一个类别，从而形成了k 的两个样本合并为一个类别，从而形成了k-1个类别再计算出新产生的类别与其他各类别之间的距离，再计算出新产生的类别与其他各类别之间的距离，并将距离最近的两个类别合并为一类。这时，并将距离最近的两个类别合并为一类。这时，如果类别的个数仍然大于1 则继续重复这一步，类别的个数仍然大于1,则继续重复这一步，直到所有的类别都合并成一类为止总是先把离得最近的两个类进行合并合并越晚的类，合并越晚的类，距离越远事先并不会指定最后要分成多少类，事先并不会指定最后要分成多少类，而是把所有可能的分类都列出，分类都列出，再视具体情况选择一个合适的分类结果12 - 19 August 3 , 2010

数学建模,模型

统计学STATISTICS

层次聚类(分解法) 分解法)

分解方法原理与合并法相反先把所有的对象(样本或变量)作为一大类，先

把所有的对象(样本或变量)作为一大类，然后度量对象之间的距离或相似程度，后度量对象之间的距离或相似程度，并将距离或相似程度最远的对象分离出去，离或相似程度最远的对象分离出去，形成两大类(其中的一类只有一个对象) 大类(其中的一类只有一个对象) 再度量类别中剩余对象之间的距离或相似程度，并将最远的分离出去，不断重复这一过并将最远的分离出去，程，直到所有的对象都自成一类为止 SPSS中只提供了合并法 SPSS中只提供了合并法12 - 20 August 3 , 2010

数学建模,模型

12.2 层次聚类 12.2.2 类间距离的计算方法

(12)第12章聚类分析.doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

上一篇：国家平面控制网

下一篇：粗细集料的混合级配对混凝土和易性的影响

×

二维码

相

关

文

章

分类导航

幼儿教育小学教育初中教育教学研究专业资料资格考试教育文库外语考试求职职场高等教育高中教育实用文档

(12)第12章聚类分析

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签

(12)第12章 聚类分析

推荐阅读

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签

(12)第12章聚类分析