得到广泛应用,并被实践证明比较科学、合理的评价方法——投影寻踪评价法,将其应用到生态城市评价体系中。
2基于实数遗传算法的投影寻踪评价法
投影寻踪评价方法是针对目前常规的系统综合评价方法的形式化、数学化等局限性,以及对某些高维、非线性、非正态评价问题的适应能力不强等不足之处,提出的一种由样本数据驱动的探索性数据分析方法。该方法的思路是把高维数据通过某种组合投影到低维子空间上,对于投影到的构形,采用投影指标函数(目标函数)来描述投影值暴露原系统综合评价某种分类排序结构的可能性大小,寻找出使投影指标函数达到最优(即能反应高维数据结构或特征)的投影值。然后根据该投影值来分析高维数据的分类结构特征(即寻求投影寻踪聚类评价模型)。其中,投影指标函数的构造及其优化问题是运用投影寻踪方法成功的关键。
遗传算法是解决函数优化问题的数据挖掘方法。遗传算法源于对生物系统所进行的计算机模拟研究,是Michigan大学的Holland教授及其学生根据生物模拟技术创造出来的自适应概率优化技术。遗传算法通过计算机编码实现模拟生物进化过程中的复制、交叉、变异、显性、倒位等遗传过程,实现系统设计、函数优化等复杂过程。它与传统的算法不同,传统的优化算法是基于1个单一的度量函数(评估函数)的梯度或较高次统计,以产生1个确定性的试验解序列。遗传算法不依赖于梯度信息,而是通过模拟自然进化过程来搜索最优解,它利用某种编码技术,作用于称为染色体的数字串,模拟由这些串组成的群体的进化过程。遗传算法是通过有组织、随机的信息交换来重新组合那些适应性好的串,生产新的串的群体。
基于实数的加速遗传算法(RAGA)的投影寻踪聚类评价(ProjectionpursuitclassiifcationevaluationmodelbasedonRAGA,PPCE)模型的分析过程包括以下4个步骤。
步骤1:评价指标值的归一化处理。
步骤2:构造投影指标函数。投影寻踪方法就是把P维数据综合成l维投影值。然后根据1维投影值进行分类。在求投影值时,要求投影值的散布特征为:局部投影点尽可能密集,最好凝聚成若干个点团;而在整体上,投影点团之间要尽可能散开。基于此,构造投影指标函数。
步骤3:优化投影指标函数。当各指标值的样本集给定时,投影指标函数只随着投影方向的变化而变化。不同的投影方向反应不同的数据结构特征,最佳投影方向就是最大可能暴露高维数据某类特征结构的投影方向,可通过求解投影指标函数最大化问题来估计最佳投影方向。这是一个复杂非线性优化问题,用常规优化方法处理较困难。模拟生物优胜劣汰规则与群体内部染色体信息交换机制的加速遗传算法是一种通用的全局优化方法,用它来求解上述优化问题较简便和有效。
步骤4:排序分类。根据步骤3求得投影值,并进行排序分类。
3投影寻踪评价法在石家庄生态城市测评中的应用
3.1数据的收集和处理指标体系含5个子系统,63个指标分量。数据来源主要有《石家庄统计年鉴》(2001—2007),《石家庄年鉴》(2001~2006),《中国环境年鉴》(2001~2005),《河北环境统计公报>(2oo2—2007),《石家庄市国民经济和社会发展统计公报》(2005~2OO7),石家庄市卫生信息网,石