第12章 连续变量的统计推断 (二)――单因素方差分析
12.1 方差分析入门
12.1 方差分析入门为什么要进行方差分析 方法原理 单因素方差分析的应用条件 单因素方差分析的SPSS实现
12.1.1 12.1.2 12.1.3 12.1.4
12.1.1 为什么要进行方差分析
在科学实验中常常要探讨不同实验条件或处理 方法对实验结果的影响。通常是比较不同实验 条件下样本均值间的差异 方差分析是检验多组样本均值间的差异是否具 有统计意义的一种方法。例如
医学界研究几种药物对某种疾病的疗效; 农业研究土壤、肥料、日照时间等因素对某种农作 物产量的影响 不同饲料对牲畜体重增长的效果等
都可以使用方差分析方法去解决
12.1.2 方法原理
方差分析的相关概念:上述农作物产量、广告效果等最终效果 的变量被称为观测因素,或称为观测变 量; 影响观测变量的因素称为控制因素,或 者控制变量; 控制变量的不同类别,称为控制变量的 不同水平。
12.1.2 方法原理方差分析就是从观测变量的方差入手, 研究诸多控制变量中哪些是对观测变 量有显著影响的,其不同水平及各水 平的搭配是如何影响观测变量的; 方差分析认为,影响观测变量值变化 的有两类:
一类是控制变量的不同水平带来的影响; 一类是随机因素的影响,主要指抽样误差;
12.1.2 方法原理
方差分析认为:如果观测变量在控制变 量各个水平上波动大,则控制变量对观 测变量有重大影响,波动不大则是随机 因素造成的; 衡量是否产生明显波动是通过检验观测 变量在控制变量各水平上的分布是否出 现了显著差异来实现的,如果有差异就 有波动,反之没有;
12.1.2 方法原理
在下述条件下,可以将分布的差异变成均值 的差异:
观测变量总体服从正态分布; 观测变量各总体方差应该相同;
总之,方差分析从观测变量的方差入手,检验 均值是否显著差异,分析控制变量是否给观测 变量显著影响,进而对控制变量各水平对观测 变量影响程度进行分析; 方差分析可分为单因素、多因素方差和协方差 分析
单因素方差分析的基本原理
单因素方差分析用来研究一个控制变量 的各个水平是否对观测变量产生显著影 响; 例子:
不同施肥量是否对农作物产量带来显著影响; 考察地区差异是否影响妇女生育率;
都可以通过单因素方差分析得到结论;
单因素方差分析的基本原理
例12.3 打开SPSS自带文件Cars.sav,其 中变量mpg的含义为每加仑汽油可以行 驶的里程数(简单理解为耗油量),现在希 望
比较产自美国,日本,欧洲的汽车, 考察其每千米耗油量有无差异。
Cars.sav数据表
单因素方差分析的基本原理
该问题是考察产地这一因素的变化对汽 车耗油量是否有显著性影响。因此,这 个问题属于单因素方差分析。 通常把产地看作一个因素,记为A因素, 它有3个不同水平记为A1,A2,A3. 耗油量称为试验指标,记为y,第 i 产地 在第 j 次试验下的耗油量用yij表示。
单因素方差分析的基本原理
一般地,单因素方差分析 问题是:设某个因素A有k 个不同水平A1,… ,Ak. 1 每个水平下重复进行ni次 试验,得到ni(i=1,2, … ,k) 2 个试验指标。总样本量 … N=sum(ni) 问因素A的变化对试验指 … 标y是否有显著性影响试验号
水平
A1 A2 … Ak
y11 y21 … yk1y12 y22 … yk2 … … … …y1,n1 y2,n2 … yk,nk
单因素方差分析的基本原理
设 i 表示在水平Ai下试验指标y的真实平均值, 则在Ai下每次试验结果yij应该是在真实平均值 ij 的左右随机波动,这个随机波动记为 方差分析模型为
诸 ij 相互独立且 ij ~ N (0, ) , i, 为未知 研究因素的影响是否显著,归结为k个总体是 否具有相同的均值,即检验假设:2
yij i ij , i 1,..., k ,
j 1,..., ni2
H0: 1 2 k .
单因素方差分析的基本原理
所有数据的偏差平方和 SST ( yij y)2i 1 j 1
k
ni
总平方和=组间平方和+组内平方和k k ni 2 2 i 1 i 1 j 1
SST SSB SSw ni ( yi y) ( yij y i )
组间平方和是由A发生变化引起的,反映 总体均数之间的差异。 组内平方和是由随机因素引起的差异。
单因素方差分析的基本原理
理论上,SST 有自由度 n-1,SSB有自由 度 k-1,SSW 有自由度 n-k,在正态分布 的假设下, 如果各组均值相等(原假设), MS B SS B /(k 1) 则统计量 F MSW SSW /(n k ) 服从自由度为 k-1 和n-k 的F 分布。对于 给定样本, SST确定,如果原假设成立, SSB偏小,由分解知SSW偏大,故F偏小。
单因素方差分析的基本原理
反之,如果F偏大,在 SST确定的情形下, SSB偏大,由分解知SSW偏小,从而原假 设不成立。因此可以使用F统计量来判断 假设是否成立。 根据F分布计算p值:p=Sig.=P(F>F值) 若p<alpha,拒绝原假设,认为因素A对 试验指标有显著性影响。通常当p<0.01 时,称有非常的显著影响。
单因素方差分析的基本原理
方差分析中常常将所计算出的指标形成 方差分析表(Analysis of Variance Table)变异来源 组间变异 自由度 (Sum of Squares) (df) 偏差平方和 SSB k-1 均方(Mean Square)
F值 (F)
P值 (Sig.
)
(Between Groups)
MSB=SSB/(k-1)
MSB/MSW P(F>F值)
组内变异(Within Groups)
SSW
n-k
MSW=SSW/(n-k)
总变异(Total)
SST
n-1
12.1.3单因素方差分析的应用条件
可比性
若资料中各组均数本身不具可比性则不适用 方差分析。 即偏态分布资料不适用方差分析。 对偏态分布的资料应考虑用对数变换、平方 根变换、倒数变换、平方根反正弦变换等变 量变换方法变为正态或接近正态后再进行方 差分析。
正态性
12.1.3单因素方差分析的应用条件 方差齐性
即若组间方差不齐则不适用方差分 析。 多个方差的齐性检验可用Bartlett 法,它用卡方值作为检验统计量, 结果判断需查阅卡方界值表。
12.1.4单因素方差分析的SPSS实现
Analyze Compare Means One-Way ANOVA Dependent List:mpg Factor:origin Options:
Descriptive:描述统计量 Homogeneity of Variance:方差齐次性检验 Mean Plot:均值分布图
12.1.4单因素方差分析的SPSS实现
方差齐性检验表明:p>0.90,可认为样 本所来自的总体满足方差齐性的要求。Test of Homogeneity of Variances Miles per Gallon Levene Statistic .106 df1 2 df2 394 Sig. .900