第"<卷第"期’##)年+月模糊系统与数学
-_bbcdcefg8ehZi/hfjg8hf‘3e
klm="<2nl="
/ho=2’##)
文章编号!"##"$%&#’(’##)*#"$#"&+$#,
1
聚类算法中模糊加权指数的优选方法-./0
宫改云2高新波2伍忠东
西安电子科技大学电子工程学院2陕西西安(
%"##%"*
摘
要!模糊3均值(聚类算法是一种通过目标函数的极小化来获得数据集模糊划分的方法7其$456*
中2模糊加权指数8对4而调用456算法的分类性能有着重要的影响256算法进行模糊聚类分析时又必须给8赋值7因此2模糊加权指数8的优选研究就变得很有意义7基于模糊决策的方法本文给出了一种对8的优选方法2实验结果表明该方法是有效的7关键词!模糊3均值聚类9模糊加权指数89模糊决策$中图分类号!<"=&":;+
文献标识码!>
"引言
模糊3均值(算法是目前最受欢迎和应用最广泛的聚类分析方法之一7$"<%&年2456*?@AA利用类内加权平方误差和函数定义了4后来D(*256算法的目标函数BC23EFGEH通过引入一个模糊’
L"M推广到一个目标函数的无限族B加权指数8把B(**28I("2JK*7对于加权指数8C2.C23’8(L"M
对4参数8控制着模糊类间的分享程度O但没有给出严格的256算法性能的影响2DEFGEH认为N
证明7此外2只有很少量的文献涉及过这一问题7要实现4然56算法就必须选择一个合适的8值2而如何选取一个最佳8尚缺乏理论指导7文L给出了经验取值范围为"得到了8"M="P8P)9文L’M
L+M
认为8取’最合适95Q’时456算法的物理解释2RE@AS和5REA从应用背景得出的最佳取值应
L&M
在"=’)T"=%)之间9D[EFGEH和UVWRVXVY等人从算法的收敛性角度着手得出8的取值要大于Z
其中Z为待分析样本的数目9;和D(\’*2V]EFGEH等人从聚类有效性角度得出8的取值范围为Z
,M^M和刘宜平等L分别提出了基于模糊决策的8值优选方法7这些有关8的取L"=)2’=)M9高新波等L值方法2实际上都可以看成是对分类结果的评价问题7为此2从分类结果的模糊性分析角度出发2本文提出了一种新的基于模糊决策的加权指数8的优选方法7
’456中参数8的优选
在4目标函数B和隶属度_分别由下式决定!*56算法中2C238(‘a
1收稿日期!’##+$#&$’^
基金项目!国家自然科学基金资助项目(教育部重点资助项目(,#’#’##&*9"#&"%+*作者简介!宫改云(女2山西忻州人2西安电子科技大学电子工程学院研究生2研究方向!模式识别9高新波("<%^$*2"<%’$*2万方数据 男2山东莱芜人2西安电子科技大学电子工程学院教授2研究方向!智能信息处理2多媒体信息处理和模式识别9伍忠东("<,^$*2
男2湖南醴陵人2西安电子科技大学电子工程学院博士研究生2研究方向!模糊信息处理7
文L中指出指数8是4它影响到模糊聚类结果的模糊程度7)M56聚类算法中的一个重要参数2
+ZZ
模糊系统
&
与
,
数学
0@@V年
!$%&’("#
))./
*(+-(+
"0
*-*-
#+’
&:+":+
*-.#0’*-(/)*11(+
当;<+时%对于式#中的每一个=有=当;(+时A均值算法0’<@或+%EBC聚类算法就退化为硬D>?>?
对于式#中的每一个=有=此时的划分是最模糊的K可见%指数;#G当;<HI时%0’<+J%FBC’D>?>?
直接决定分类结果的模糊性K
3
文L中指出O当数据集的聚类结构较明显时%同样分布类型的数据%MN#+’#0’;取大点较合适G样本数增加时;应适当减小%反之则需适当增大K因此%我们;的合理选择对分类性能至关重要%必须构造合理的评价函数来实现;的优选K
0P+划分模糊度定义Q和模糊划分矩阵S%其划分模糊度定义为PR对于给定的聚类数D
TA$%&’())U..’U"#*-:#*-@PV
,*(+-(+
其中
+%.PV*-X@
#.’(*-@PV
%.PV@*-Y@
定理Q的A其划分模糊度具有如下性质OPR对于+YDY[%;\L+%HI’BC算法%
是;的单调递增函数G#+’’]^S%D;##0’@_]’_+G^S%D;#
当;(+’(@‘S是硬划分G#W’%]^S%D;#
当;<HI%]#Z’’(+‘S(L+JNK^S%DD;#证明设在S中满足=并把=与所对应的b重新排序为=X+J0的元素有a个%%%满足=Yb>?>?>???>?
同样把=与所对应的b重新排序为=且使a+J0的元素有c个%%%Hc(DPb[>?>?>>在迭代求解d的最小值时%=是按拉格朗日乘子法得到的%即令’S%D;#>?
&
,
"0
*-*-,
-&
*-&
,
#W’
#Z’
!$%&’("#
则
+:).3))./:)e2
*(+-(+
-(+
*(+
#V’
":+0(".-(@*-/*-:ef.*-即
".-*-/*-(e
由#知h’
"0./*-*-*-(.e-令
e(;jklem-+_-_"":+0
#g’
#h’
#i’
#M’
把#代入#得Oi’%#M’W’
"0./TA$%&’())"#*-*-:0e,*-(+-(+
&
,
万方数据
X
,
)2L
*(+
n
"0
+:./H
e**
3
o
)
-(+
"0
./e--
N
第(期宫改云;高新波等DL?y聚类算法中模糊加权指数"的优选方法(Pj
".
!)*’+’/%#$’!("
令
&
2&
-0
%*+3
"
1
.1
1!(
4(56
".".
7!%)*4((6’+’/%*1+1
’!("1!(
由5可知?及4式知D89;8(及式4=6;4>6@5A若不考虑?与B的嵌套关系;则由4(56;C6;4>69:<
2-
3
"J@5
E"#$
所以K是B的单调递增函数A6LM;NB4
性质4显然成立;性质4由4推出AO6;4P6.6(6;4O6;4P6
4(.6
对于模糊聚类问题;由于样本集的划分越分明就越有利于分类A因此;对于给定的值;总希望越小越好A6G7Q算法得到的模糊划分的KLM;NB4
.R.基于模糊决策的评价函数
模糊决策理论是STUU"V#和WV+TX提出的一种决策分析工具A假设给定一个模糊目标4G*YYZ
那么;一个决策4由]即6;66G*YYZ7\#_‘aV’#‘?bTI’_’\#[\VU]^和一个模糊约束4^^和?^的交集形成;
b![cd7c
ef6!B:ghef6;ef6ib4[474
最终的决策结果为满足式4的决策空间中的备选解A(j6
ek’6!Blmhek16ib4b4
n1
4(O6
当]它们分别由其隶属函数来刻划;模糊决策的隶属度函数可表示为^和?^作为模糊集处理时;
4(P6
4(j6
当处理多目标和多约束决策问题时;最优决策由给定的多个目标]和多个约束?的交集;n:;n<:<来确定D
b!4d[6d4d76d’1
n’
n1
4(o6
多目标模糊决策的隶属函数由式4给出D(C6
ef6!4pe6p4pe6b4[7’1
n’
n1
4(C6
因此;利用模糊决策解问题的关键在于构造合适的模糊目标;模糊约束以及它们的隶属函数A下面着重分析模糊聚类问题的模糊目标和模糊约束A
聚类的目的就是要对给定的数据集进行合理的分类;使相似的样本归为一类;而不相似的样本尽量划分到不同的类中A从数学的角度讲;就是要使分类后的样本集类内距离尽可能小;类间距离类内加权误差平方和函数4即为衡量这一要求的最合适的工具A而G尽可能的大;6q[rr7Q算法中加权指数B的选取也必须以合理聚类为最终目标A因此;我们定义参数B优选的这一决策问题的模糊目标为
[:ghsHt;I6u"v4(;/w6ic!B"4
此外;以便于正确区分每个样G7Q算法在完成模糊聚类的同时还要求数据集的划分尽可能分明;本的类属关系A因此;这就给参数B的选择加上了一个约束;即所选取的值不要使G7Q算法的聚类结果太模糊A而由.划分模糊度是评价模糊聚类划分模糊性的良好量度A这样以来;参R(的介绍知;数B优选的这一决策问题的模糊约束为
7:ghFGHt;I6u"v4(;/w6ic!B"4
t
均为不同B值条件下;对应的值A6G7Q算法得到的最优划分得到的4M;N万方数据
由以上分析可知;关于参数B优选的模糊决策可表示为
4(=6
4(>6
其中;和K的具体计算按4和4给出的公式;所不同的是;式4和4中的函数66(6O6(6O6xM;NLM;NB4B4
KTP
模糊系统与数学
?@@O年
()*+,."/012!-!#$%-?@1
’!
45467."/01>()3!-为了使模糊目标A要进行模糊决策/还需要定义模糊目标AB和模糊约束CB的隶属度函数DB和
"
模糊约束C可令B的隶属函数具有相同的增减幅度/
E!1#F-
"!"
,./01($G!-’!
I
J
-?K1
E!1#67,."/01!-L-由下式可求得M(值/
!"#$%&+($G+()*+E!1/E!1222F-F-’!
-??1
于是/最优加权指数("取为模糊目标和模糊约束所对应的模糊子集交集中的最大隶属度所对应的
-?J1
既以较大的隶属度极小化聚类目标函数/又以较大的隶属度极按-所得到的("将能保证/?J1小化聚类的划分模糊度/使7又能保证样本LN算法得到的模糊聚类既能表达样本间的相近信息/类分的明晰性/因此/也必然对应于好的模糊聚类结果D
J实验结果及分析
为验证本文提出的加权指数(的优选方法的有效性/分别用不同的人造数据进行了实验D为了便于比较/每组数据对于不同的(选用相同的聚类初始化D
共有K方差分别取@得到数据K数据?和数据J如图K所示D图O@个样本/4J/@4P/@4Q///-1/-1/-1RS0分别给出了数据K数据?和数据J的基于模糊决策得到的最优(取值D显然/随着样?-1/-1/-1/RS0
本方差的增大/即类间可分性的降低/以提高分类结果的明晰性D(的取值由大变小/
实验一M选用平面五类数据来说明(的取值与数据集散布程度的关系D该数据每类J@个样本/
-1数据KR-1数据?S
图K测试数据集
-1数据J0
-1("#?4TOR-1("#?S
图?加权指数(的优选值
-1("#K4U?0
万方数据
第)期宫改云%高新波等!dBV聚类算法中模糊加权指数e的优选方法),+
实验二!验证同样分布类型的样本集数据量的大小与"的关系#分别取数据$中每类样本不变%每类样本随机减少一半%每类样本随机增加一倍%但所加样本的方差仍为&这样每个数据集’(%
的样本量分别为)得到数据,数据*数据-如图$所示#图,*&%+*%$&&%%%%.0%.0%.0.0%.0%.0/12/12对应的"的值也要减小一点%以提高分类结果的明晰性#
分别给出了数据,数据*和数据-的基于模糊决策得到的最优"取值#显然%每类的样本量越多%%
.0数据$/.0数据,1
图$测试数据集
.0数据*2
.0"34)’56/.0"34)’5*1
图,加权指数"的优选值
.0"34)’+52
,结论
本文提出的基于模糊决策的7证实了文:中参数"和给定的样本(;89中参数"的优选方法%集结构与好的聚类结果之间的相互关系#但文:中的方法只考虑到样本集本身%即样本的紧致性(;虽然都是基于模糊决策的思想%但本文中的方法具有隶属度简单且不含参数的优点#尽管本文提出了模糊加权指数"的又一种优选方法%但关于参数"的优选仍有待于进一步的研究#参考文献!
:);<’C:’W=!C%=>?=@ABDEE=FG=HIJFKEKIFLKEMNO>>PIQR=HEKS=NOFHEKIFDTJIGKEM"UV;LXIG@T=FO"CG=UU
)(5)’
-!$5+b$(&’万
方数据
:$;B%’VIM=FJX\BMDFcC?KNK=?NO>>P[\]^Y_YNIGEM=HTDUUKNKHDEKIFINMDF?LGKEKFJBMKF=U=HMDGDHE=GU
和分离性%而没有顾及到样本的模糊划分%本文提出的方法则兼顾两方面#同文:中的方法相比%*;
:6;<’YZ;’[’’VD’%)(+-%\a=>?=@ABMPUKHDTKFE=GZG=EDEKIFINNO>>P[\]^Y_Y:A‘‘‘_GDFU\PUEFBPQ=GFVB
9@;
模糊系统与数学
[ZZU年
!$%$$-$-$!#$589:;<=><9?><@$"#&’(’)*+,’+)./+010-’234,-/+673’&0
!@#A8$-L=!#$*0BC0DE-F7,.7G7HI’+J0&60+(0,.0’&H)’&)4BBHK207+1(’4+,0&0M723N017+C&037/&1EOOO
$5$Q7$89:;S89STUV=;S>?;SS$P&7+1H1,+-HR0&+
!U#%8A$X+(L!#$*$Y7NWI0BC0DE-N41,0&J7N/C/,H)’&,.0)4BBHK207+12’C0NEOOOP&7+14BBH5H1,028
9::U8>T>V=>SZ?>S:$
均值聚类算法中加权指数2的研究!!<#高新波8裴继红8谢维信$模糊K#$电子学报8[ZZZ8[;T@V=;Z?;>$LE模糊算法的优化及应用研究!西安=西安电子科技大学89!S#高新波$#$:::=9?>9$\
沈毅8刘志言$一种Y系统工程与电子技术8#$[ZZZ8[[T@V=9?>$!;#刘宜平8E-Q聚类算法的改进与优化!西安电子科技大学8[!:#章小平$基于塔形模糊聚类的纹理分割方法!$西安=ZZ>=[[?>>$Q#西安电子科技大学89!9Z#范九伦$模糊聚类有效性研究!#$西安=::;=>Z?<<$\
]^_‘abcdefgahiji‘fgkglmcncbi‘inoa]pejedqr‘ina]stdsgna‘fb
L8L8LuXWuu7/H4+u"Xv/+R’wxy.’+6C’+6
T8v8vz9ZZS98V5(.’’N’)ON0(,&’+/(O+6/+00&/+6/C/7+x+/J0&1/,H/7+S-./+7
=YLTt{r‘nch‘4BBHK207+Y-QV/173’34N7&7+C0))0(,/J07N6’&/,.2)’&’R,7/+/+67+’3,/27N)4BBH
8/37&,/,/’+’)C7,710,RH2/+/2/B/+67+’R|0(,/J0)4+(,/’++G./(.,.0G0/6.,/+60M3’+0+,}3N7H1
$P7+/23’&,7+,&’N0’30&)’&2,.0Y-Q7N6’&/,.2873&’30&J7N401.’4NCR0711/6+0C,’,.0
8,37&720,0&}$*,,.41/10110+,/7N)’&41,’1,4CH,.0’3,/27N(.’/(0’)}$Y’&,./10+C./13730&$/NN41,&7,0,.00))0(,/J0+011’),.03&’3’10C20,.’C
=YL#Y~i!"gnkr4BBHK207+-N41,0&/+64BBHw0/6.,/+6OM3’+0+,}#Y4BBH\0(/1/’+
$P3&010+,17+’3,/27N(.’/(020,.’C)’&}R710C’+)4BBHC0(/1/’+,.0’&H.00M30&/20+,7N&014N,1
万方数据
FCM聚类算法中模糊加权指数m的优选方法
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
宫改云, 高新波, 伍忠东, GONG Gai-yun, GAO Xin-bo, WU Zhong-dong西安电子科技大学,电子工程学院,陕西,西安,710071模糊系统与数学
FUZZY SYSTEMS AND MATHEMATICS2005,19(1)24次
1.章小平 基于塔形模糊聚类的纹理分割方法 2003
2.刘宜平;沈毅;刘志言 一种FCM聚类算法的改进与优化[期刊论文]-系统工程与电子技术 2000(04)3.高新波 模糊算法的优化及应用研究[学位论文] 1999
4.高新波;裴继红;谢维信 模糊c-均值聚类算法中加权指数m的研究[期刊论文]-电子学报 2000(04)5.Pal N R;Bezdek J C On cluster validity for the fuzzy c-means model[外文期刊] 1995(03)6.Bezdek J C;Hathaway R Convergence theory for fuzzy c-means:counterexamples and repairs1987(05)
7.Cheng Y S;Chan K P Modified fuzzy ISODATA for the classification of handwriting Chinesecharacters 1986
8.范九伦 模糊聚类有效性研究[学位论文] 1998
9.Bezdek J C A physical interpretation of fuzzy ISODATA 1976
10.Bezdek J C Patten recognition with fuzzy objective function algorithms 1981
1.陈佳妮.段文英.丁徽 模糊C-均值聚类分析在基因表达数据分析中的应用[期刊论文]-森林工程2010(2)
2.徐克虎.孟强.李科 基于对抗演练的坦克单车成绩评定方法[期刊论文]-装甲兵工程学院学报 2010(3)3.陈军.唐世星.张吉强.易东 一种改进的FCM算法对海马组织基因的聚类分析[期刊论文]-中国卫生统计 2010(4)
4.徐晓晖.黄剑玲 基于模糊协同进化免疫的RBF网络学习算法研究[期刊论文]-计算机与现代化 2010(7)5.陈寿文.李明东 一种混合均值聚类算法的实现[期刊论文]-计算机工程与应用 2010(18)
6.肖满生.阳娣兰.张居武.唐文评 基于模糊相关度的模糊C均值聚类加权指数研究[期刊论文]-计算机应用 2010(12)
7.刘飞荣.段隆振.陈梅香.杨艳玲 一种基于动态模糊Kohonen网络的聚类模型及应用[期刊论文]-南昌大学学报(理科版) 2010(6)
8.唐世星.陈军.柯凤琴 基于FCM算法的小脑基因模糊聚类分析[期刊论文]-数学的实践与认识 2010(12)9.石海霞.叶水生 FCM聚类算法中模糊加权指数m的优化[期刊论文]-计算机应用与软件 2009(5)10.姜琴.甘海涛 FCM算法中参数确定方法的探讨[期刊论文]-武汉工业学院学报 2009(1)11.关昕.柴瑞敏 模糊联想记忆规则提取的聚类方法[期刊论文]-世界科技研究与发展 2009(4)
12.张忠平.陈丽萍.王爱杰 IFCM:改进的区间值数据的模糊C-均值聚类算法[期刊论文]-计算机工程与设计 2008(24)
13.周金海.耿玉良 基于遗传算法的模糊聚类在临床决策分析中的研究[期刊论文]-医学信息 2008(11)14.龚雪 模糊聚类分析在火灾早期探测系统中的应用[期刊论文]-消防科学与技术 2008(1)15.王纬.王妍.黄山 模糊聚类的分析[期刊论文]-计算机工程与科学 2008(5)
16.孙晓霞.刘晓霞.谢倩茹 模糊C-均值(FCM)聚类算法的实现[期刊论文]-计算机应用与软件 2008(3)17.刘蕊洁.张金波.刘锐 模糊c均值聚类算法[期刊论文]-重庆工学院学报(自然科学版) 2008(2)18.王洪春.彭宏 基于模糊C-均值的增量式聚类算法[期刊论文]-微电子学与计算机 2007(6)19.徐晓晖.唐凤涛 基于改进的模糊聚类的RBF网络的设计[期刊论文]-上饶师范学院学报 2006(6)20.杨保峰.沈越泓 模拟信源标量量化的模糊c-均值算法[期刊论文]-解放军理工大学学报(自然科学版) 2006(6)
21.孙晓霞 聚类分析在客户细分领域的应用研究[学位论文]硕士 200622.孙扬 模糊聚类在智能医疗诊断系统中的研究与应用[学位论文]硕士 200623.叶海军 模糊聚类分析技术及其应用研究[学位论文]硕士 2006
24.陈生昱 客户关系管理系统的设计及客户分类方法的研究[学位论文]硕士 2006
25.刘飞荣.段隆振.陈梅香.杨艳玲 一种基于动态模糊Kohonen网络的聚类模型及应用[期刊论文]-南昌大学学报(理科版) 2010(6)
本文链接:http://www.77cn.com.cn/Periodical_mhxtysx200501025.aspx