定性数据统计分析第3章四格表
第三章 四格表2×2列联表
定性数据统计分析第3章四格表
什么是四格表【例3.1】为了解吸烟与肺癌的关系,选择63个肺癌 患者和43个与肺癌患者年龄、性别和其他属性类似 的健康人(对照组)进行研究,调查结果见表3.1。 问总体中肺癌患者吸烟的比例是否比健康人吸烟的 比例高? 表3.1 对肺癌患者和对照组的调查结果吸烟 不吸烟 吸烟比例%
肺癌患者 对照组
60 32
3 11
95.2 74.4
定性数据统计分析第3章四格表
什么是四格表 上述检验问题可以一般化为:有B 有A 没有A 合计n11
没有Bn12 n22 n 2
合计n1 n2
n21 n 1
n
其数据结构关系包括五个等式。– 从略
定性数据统计分析第3章四格表
四格表的抽样方式 根据四格表的边缘分布是否给定,可能的 抽样方式有以下四种: 1、单侧给定,如 n1+ 和n2+给定,则在四格 中有两个随机变量,服从二项分布; 如:63个肺癌患者和43个对照组,属于行边缘分布 给定的情况
– 2、总样本容量 n给定,则有三个随机变量, n11 , n12 , n21 , n22 服从多项分布; 如: Mendel豌豆实验,属于n给定的情况
定性数据统计分析第3章四格表
四格表的抽样方式– 3、都不给定时, n11 , n12 , n21 , n22都是随机变量, 通常假定它们服从Poisson 分布 如:某商店在某一天可能来的顾客数未知,顾客的性 别以及有没有购买的情况,存在4个随机变量
男购买 不购买 合计n11
女n12 n22 n 2
合计n1 n2
n21 n 1
n
定性数据统计分析第3章四格表
四格表的抽样方式– 4、两侧都给定时,只有一个是随机变量,它服 从超几何分布。 如:假设100件产品中有8件次品,随机抽5件加以检 验,问有多少件次品?抽取 不合格 合格 合 计 未抽取 合 计 8 92 100
n11 n215
n12 n2295
对不同抽样方式下得到的四格表,其数据分析方法 也有可能不同。
定性数据统计分析第3章四格表
属性之间独立与不相关 两个相互独立的随机变量一定不相关,但不相关 不一定独立。– 这里相关指线性相关
四格表中属性A与B相互独立等价于不相关。 根据前面的频数分布表可以得到概率四格表: X Y 有B(b1) 有A(a1) p11 p21 没有A(a2) p 1 合计 没有B(b2)p12 p22 p 2
合计p1 p2
1
定性数据统计分析第3章四格表
属性之间独立与不相关 若以下等式成立,则称属性A和B相互独立。pij pi p j, i, j 1, 2
该式包括: p11 p1 p 1p12 p1 p 2 p 21 p 2 p 1 p 22 p 2 p 2
且有: p p p p p p 11 1 1 12 1 2 p21 p2 p 1 p22 p2 p 2
定性数据统计分析第3章四格表
属性之间独立与不相关 在四格表中,独立等价于不相关。 可以通过考察随机变量X(属性A)与Y (属性B)的协 方差知:C ov( X , Y ) E ( XY ) E ( X ) E (Y ) ( a1 a2 )(b1 b2 )( p11 p1 p 1 )– 其中,a1,a2和b1,b2分别是属性A和B的分类(取值)
当A与B不相关时,有: p11
p1 p 1 0 pij pi p j 0 可见,四格表中属性A与B无关也就是相互独立。
定性数据统计分析第3章四格表
属性之间独立与不相关 在协方差的基础上,不难计算出随机变量X(A)和 Y(B)的方差,并得到它们的相关系数。 各自方差分别为: 2D ( X ) ( a1 a 2 ) p1 p 2 D (Y ) (b1 b2 ) 2 p 1 p 2
则相关系数:r
p11 p1 p 1 p1 p2 p 1 p 2
可见,四格表中属性间的关系与属性的赋值无关。
定性数据统计分析第3章四格表
单侧给定的四格表的检验 单侧给定时四格表中仅有两个随机变量, 且服从二项分布– 如:当n1+和n2+给定时,n11和n21分别服从: – B(n1+,p1)和B(n2+,p2),其中,p1 P ( B | A), p2 P ( B | A )
上例肺癌患者吸烟比例是否比对照组高, 也即要求验证假设p1=p2还是p1>p2.p1 p11 p1 p2 p21 p2 p11 p21 p1 p2 p 1 p11 p1 p 1
定性数据统计分析第3章四格表
单侧给定的四格表的检验 可见,原假设成立时,实际上是检验属性A与B相 互独立或不相关。因此,四格表的检验有以下三 种情况:原假设H0 有方向检验 p1=p2 p1=p2 备择假设H1 p1>p2 p1<p2
无方向检验 (独立性检验)
p1=p2
p1≠p2
单侧给定的四格表检验,其实就是两总体的比例 差的检验,区别仅在于使用的值不同,一个是样本 比例,一个是观测频数。
定性数据统计分析第3章四格表
单侧给定的四格表的检验 首先,由样本比例的抽样分布有: p1 p2 n11 n1 n21 n2 n11 / n1 p1 p1 (1 p1 ) / n1 n21 / n2 p2 p2 (1 p2 ) / n2 ~ N (0,1) ~ N (0,1)
于是,令p1=p2=p,进行线性变换(见附录5) 有: n /n n /nU p 11 1 21 2
p (1 p )(1 / n1 1 / n2 ) n11 n21 n1 n2 n 1
~ N (0,1),其中:
n1 n11 n2 n21 n1 n2 p1 p2 n n n1 n n2 n n
定性数据统计分析第3章四格表
单侧给定的四格表的检验 将 p 代入U后可以得到:
定性数据统计分析第3章四格表
单侧给定的四格表的检验 例3.1的解:H 0 : p1 p2或肺癌患者与吸烟相互独立 H 1 : p1 p2或肺癌患者吸烟比例高于健康人 106 (60 11-32 3) U 3.1086 92 14 63 43
在给定的显著性水平(0.05)下,显然大于临 界值,应该拒绝原假设。 相应的P-值为0.00094,可以得到同样的结 论。
定性数据统计分析第3章四格表
独立性的三个等价定义 1、 pij pi p j 2、 p1 p 2 p11 p1 p 21 p2 p11 p 21 p1 p 2 p 1
p11 p1 p 1
p 3、 11 p21 p p p p n n n n 11 22 12 21 11 22 12 21 p12 p22