卢淑华著,北京大学出版社出版,第四版
第十讲
列联表
第一节 概念
1、研究内容 1)研究两定类变量的关系 2)为研究y的分类是否与x之分类有关,将 数据先按x分类,再分别统计x分类情况下y 的分类。 3)按两个定类变量进行交叉分类的频次分 配表,即二维列联表。
卢淑华著,北京大学出版社出版,第四版
4、列联表的一般形式 y y1 x
x1N11 N12
x2N21 N22
..
..
..
xcNc1 Nc2
y2. . .
.
.
.
. . .N1r
. . .N2r . . .
. . .Ncr
yr
Nij:x=xi y=yj时所具有的频次
卢淑华著,北京大学出版社出版,第四版
学生上网调查(统计各项比例,能发现什么问题?) 男生 20 50 15 15 女生 20 50 15 15
聊天 玩游戏 网恋 学习
卢淑华著,北京大学出版社出版,第四版
2、列联表中变量的分布
1)联合分布 对于二变量来说,为了知道分布,集合中的变量值,必须同时具有x和y 两个变量的取值。 ( x1 y1 N11) ( x2 y2 N12) 此称联合分布 ( x1 yr N1r) ( xi yj Nij) ( xc yr Ncr) 表示频次时 联合频次分布表 Nij Pij 表示概率时 联合概率分布表Nij 后者可以通过前者求出 pij N
N
N p 1c r
c
r
ij
i 1 j 1
i 1 j 1
ij
卢淑华著,北京大学出版社出版,第四版
2)边缘分布: 对联合分布进行简比,只研究其中某一 变量的分布,而不管另一变量的取值, 这样就得到边缘分布。 按行加总y的边缘分布:P y yr P1r P2 r Pcr P r
按列加总x的边缘分布:P x xc Pc1 P2c Pcr Pc
卢淑华著,北京大学出版社出版,第四版
3)条件分布: 将其中一个变量控制起来取固定值,再看另 一变量的分布,即条件分布。 控制x时,条件分布中的每一项都以边缘分布 的 N1* N 2* N c* 为分母 控制y时,条件分布中的每一项都以边缘分布 的 N *1 N *2 N *r 为分母
卢淑华著,北京大学出版社出版,第四版
3、列联表中的相互独立性:
1)列联表研究定类变量之间的关系,实际上 是通过条件分布的比较进行的。 如果两个变量之间没有关系,则称变量之间 是相互独立的。 2)如果两个变量之间是相互独立的,则必然 存在变量的条件分布与其边缘分布相同 。
卢淑华著,北京大学出版社出版,第四版
条件分布=边缘分布是列联表检验的基础: (控制x时)
N11 N 21 N*1 N N1* N 2* Nij
Ni*
N* j N
Nij N N* j N N i* NPij Pi*P* j
卢淑华著,北京大学出版社出版,第四版
第二节 列联表的检验
一、原假设: 将总体中变量间无关系或相互独立作为检验 的原假设。
H :p p p0 ij
i*
*j
总体 pi* 和 p* j 未知时,用样本 p i 和 P 代 j 替。 n j ni P i P j n n
卢淑华著,北京大学出版社出版,第四版
2
2
2
c
r2
ij
ni* n* j E ij nij
E np*j
卢淑华著,北京大学出版社出版,第四版
统计量的讨论
1、对于2×2列联表,由于格数过少,为 减少作为离散观测值与作为连续型变量x 值之间的偏差,可作连续性修正:2 2 2 2
2、二项总体2
E2 1
ij2
E p0 为总体成
数1
E2
2
卢淑华著,北京大学出版社出版,第四版
男女休闲爱好男 泡吧 逛商店 80 20 女 30 70
卢淑华著,北京大学出版社出版,第四版
3、对多项总体:
统计量:
x
2
ni Ei 2
r
i 1
E
~
x r 1 2
i
E2
i
n
p
i0
4、使用统计量 x 对列联表迚行检验,每一格值的 Eij
要保持在一定数目乊上。如果有的格值 Eij 过小, 2 那么在计算 值时 nij Eij 值的波劢就会较大。 E
x
2
ij
卢淑华著,北京大学出版社出版,第四版
每格要求:
E ij 520 30 18 29 3 4 1 2
处理方法:将期望值偏小的格值合并。 右例,做检验。Eij nij
卢淑华著,北京大学出版社出版,第四版
注意: 列联表就其检验内容来看是双边检验,但从 形式上看,却又很像单边检验。其判断的内 容仅是变量间是否存在关系。至于方向,由 于列联表属定类变量,因此是不存在的。
卢淑华著,北京大学出版社出版,第四版
列联表检验步骤 1、 H 0 H1
2、统计量:2 r
ni Ei ~ x r 1 x 2
2
3、
i 1
E
i
4、比较