第十章
系统抽样
众所周知,计算机在抽样过程中起着十分重要的作用。 例如,前面提出利用计算机产生随机数,当然我们知道它产 生的是“伪”随机数。本章所讨论的系统抽样在抽样过程中 选择使用计算机将是十分方便的。 所谓系统抽样,就是将总体中N个单元按照随机方式( 有时也按某种特定的规则)编号为1,2,…,N,若想抽取 n 个样本,不妨假设N/n=k为整数,利用计算机可以立即将 这N个单元排成n 行k 列的矩阵,再从1~k之间随机地产生 一个随机数 i ,则取第 i 列的全体单元作为样本。这种方 法看起来似乎很“机械”,因此有时候也称为“机械抽样” 。然而由于数值“ i ”是随机产生的,那么所得到的样本具 有一定的随机性。
但在实际中,总体的N个单元的编号并非完全随机的, 常常带有一定的规律性,例如按照居住地区、工作性质等等 的编号,有时也常常利用一些个体原有的编号——诸如学生 的学号等。此时,系统抽样的随机性就与最有代表性的简单 随机抽样存在一定的差距。
§1
系统抽样的若干习性
考察N=nk这种最简单的情形,从总体中实施容量为 n 的 系统抽样相当于从k 列中随机地任取一列,显然每一列被选中 的概率是一样的,从而总体中每个单元入样的概率均相等, 这是N=nk时系统抽样的基本习性。
当N nk 时,用上述计算机排列抽样的方法就不能保证 各单元入样的概率相同,因为有些列有 n 个单元,有些列不 足 n 个单元,当列不足 n 时,通常在 YN后再接上 Y1 , Y2 , ,依 原来顺序再排列下去,直到第 n 行填满单元为止,这样任取 的一列恰好保证有 n 个样本。但是,这样产生的后果是增大 了某些单元入样的概率。但当 n 足够大时(例如 n 50), 这时 N n 不为整数所带来的问题并不大,因此,在以后需 要 n 比较大时,我们总是假设 N 是 n 的整数倍。 我们注意到一个有趣的事实:当用计算机将 N 个单元排 成 k 列 n 行时,实际上相当于将总体分为 k 层(或群),系 统抽样相当于从 k 个群中随机地抽出一个群进行整群抽样。 这是最简单的整群抽样!因此,在讨论系统抽样的参数估计 时,很多场合将引用整群抽样的一些现成结果。
系统抽样在实际工作中很受调研工作者的欢迎。首先在 于它的实施方便,同时还能保证样本一定程度的代表性。有 时候使用系统抽样不必重新编制抽样框,尤其是在被调查单 元具有自然顺序排列的时侯,例如流水线上生产的产品每隔 k 个抽查一次,只要第一件受检查产品确定以后,余下的抽 查工作将有条不紊地进行。
比如,对上海地区的车辆进行某种特性的抽样检测就可
以对车辆牌照采用系统抽样,譬如车牌号码尾数为39的车辆 必须到检测所参加测试就是每 100 个单元中抽一个系统抽样如果总体中单元原来的排列呈现一定的规律性甚至周期 性,依赖于这些排列的系统抽样会产生效果很差的可能。系 统抽样的另一个不足之处在于,在实际中被认为行之有效的 系统抽样一般不是严格的概率抽样,估算估计量的方差有较 大困难。
§2
估计量与方差
既然将总体单元排列成 n k 的矩阵,因此总体中各单 元的下标也有所改动以便于讨论与表达,见下表:
112 n
2 i kY12 Y1i Y1k Y22 Y2 i Y2 k
行平均
Y11 Y21
Y1 Y2
Yn1Y 1
Yn 2 Yni YnkY 2 Y i Y k
Yn
列平均
设系统样本为上表中的第 i 列,“ i ”随机等概率确定的 那么总体平均数就用该列的平均数进行估计:
这是只抽一个群的整群抽样估计,因此 y sy 是Y 的无偏估计 其方差为:k k 1 1 k 1 2 2 Var ( ysy ) ( Y Y ) ( Y Y ) i i k k 1 i 1 k i 1
1 n ysy Y i Y ji n j 1
(10.1)
(10.2)
利用
( N 1) S 2 (Y ji Y )2 (Y ji Y i Y i Y )2 (Y ji Y i )2 n (Y i Y )2i 1 j 1 i 1
k
n
k
n
i 1 j 1 k n
i 1 j 1 k
可得
N 1 2 1 k n 2 Var ( ysy ) S ( Y Y ) ji i nk nk i 1 j 1
N 1 2 n 1 2 S S wsy N n
(10.3)
2 其中 S wsy
k n 1 2 ( Y Y ) 表示按列所分的层在 ji i k ( n 1) i 1 j 1
各层内的方差(之和)部分。
(10.3)式告诉我们,系统内(或层内)方差越大, y sy 的方差 就越小;如果划分的层或系统内的差异趋于相当小, Var ( ysy )
N n 2 与容量为 n 的简单随机抽样的方差 Var ( y ) S 比较 Nn n 1 2 2 (10.4) Var ( ysy ) Var ( y ) ( S Swsy ) n
N 1 2 S ,倘若各系统内无差异,则 y sy 的 则趋于极大值 N误差达到最大且与系统内各单元的个数 n 无关,这一点完全 符合直观。相反地,如果系统内的方差总大于总体的方差, 说明我们的系统抽样样本比简单随机样本更具有代表性(在 相同容量下),此时系统抽样的精度优于简单随机抽样的精 度。 在N nk 时,我们已经指出系统抽样实际上是在群的大 小相等情形下的只抽一个群的整群抽样,因此完全可以利用 整群抽样估计量的方差表示式,而在那里我们用到了群内( 或层内、系统内)的相关系数 ,所以可以用相关系数 来表示 Var ( ysy ) 。
例10—1:构造一个虚拟总体(N=25),数据如下表,利用系 统抽样抽取 n=5 的样本估计总体平均
数,现考虑按行以及 按列进行的系统抽样,比较其样本平均数与方差有何不同。列 行 1 10 23 25 30 2 18 17 15 23 3 16 22 13 16 4 30 11 40 14 5 21 31 32 28
行平均数
行方差
1 2 3 4 5列平均数
1721 59.5
2619.8 20.7
3320 63.5
1922.8 144.7
2928.2 18.7
19 20.8 25 22.2 24.8
54 55.2 129.5 50.2 45.2行内平均 方差66.82
Y 22.36列内平均 方差61.42
列方差
S 2 61.24
比较几种不同抽样的效果,均取 n=5 (1)简单随机抽样
1 f 2 Var ( y ) S 9.7984 n(2)以行为群的系统抽样
N 1 2 n 1 Var ( ysy1 ) S (行内平均方差) N n 5.3344(3)以列为群的系统抽样
N 1 2 n 1 Var ( ysy2 ) S (列内平均方差) N n 9.6544
以上数据分析说明了几个事实: (1)正如我们在讨论 y sy 的方差时所指出的那样,不管是按 行还是按列进行系统抽样,由于群(系统)内的方差大于总 体方差,因此,以行或以列为系统的抽样效果均优于简单随 机抽样。 (2)由于按列为群的系统抽样中系统内的方差几乎等于总体 方差,因而它与简单随机抽样几乎具有相同的效果。事实上 以行为系统的 5 个行平均数比起以列为系统的 5 个列平均数 离总体平均数的距离的范围要小一些,因而它的精度自然比 较高。这就告诉我们,因总体单元的排列不同,从而构成的 系统不同,那么产生的抽样效果当然也不同。
现在尝试一下将总体单元按大小顺序从左到右每行 5 个 地排成 5 列,然后以列为群作系统抽样。直觉告诉我们,这 种排列法使每列都具有较小的单元,也都具有较大的单元, 列内单元间差异增大,而各列之间的相似程度增加,这样, 以列为系统的抽样样本更接近于总体,可以设想此时的系统 抽样将大大地提高精度。 例10—2:将例10—1的总体单元按大小顺序从左到右排成 5 5 的阵列,其数据及列平均方差如下表:
列 行
1 10 16 19 25
2 11 16 21 26
3 13 17 22 28
4 14 17 23 29
5 15 18 23 30
1 2 3 4 5列平均数 列方差
3020 60.5
3121 62.5
3222.4 60.3
3323.2 63.2
4025.2 100.7
Y 22.36列内平均 方差69.44
S 2 61.24
以列为群的系统抽样平均数的方差为
N 1 2 n 1 Var ( ysy2 ) S (列内平均方差) N n 3.2384
这个结果比起例10—1中以行为群的系统抽样的效果还要好 在此,我们不再计算行平均数与行方差,从每行的单元看, 显然以行为群作系统抽样其效果很差。
§3
方差与总体单元排列顺序的关系
从上一节讨论可知,系统抽样的精度不仅与总体方差有 关,而且与为了构成群而进行的单元排列顺序有关。但是, 令人满意的按照单元大小顺序排列是不切实际的,我们不可 能知道总体单元的指标大小,否则,就
不必进行抽样调查了
有时我们能“毛估估”到单元的大小趋势,那么在实际中 按照这种大约的趋势进行排列,以便系统抽样所得到的样本 包含大大小小、各种各样的代表,这种做法其实与分层抽样 几乎出于同一思想。
如果我们对总体单元的指标大小根本是一无所知,那么 怎样去进行单元排列呢?其做法不外乎按照单元自然的顺序 进行排列,该自然顺序一般应当与我们关心的指标值没有相 关关系。例如,我们调查个人年收入,对于总体中的人员可 以按照姓氏笔划进行排列(同姓的几个人可以采取随机的方 法确定他们的顺序),显然,姓氏笔划一般与这个人的收入 没有任何关系。这样的排列方式完全相当于将单元作随机排 列。前面的例子已经指出,当单元排列为随机时,系统抽样 与简单随机抽样有着几乎相同的效果。 当然,简单随机抽样的方差不会因为单元的排列顺序不 同而变化,对于总体来说是个常数。但是,系统抽样的方差 随着随机排列的不同形式而改变。这里所说的效果相同,是 从平均意义上来讲的。作多次的随机排列,这些排列所得方 差的平均值随着排列次数的增加而接近简单随机抽样的方差
需要注意的一点是,有时我们虽然不知道总体单元的指 标大小,但是根据某些与指标值有密切关系的辅助变量依然 可以进行令人满意的排列以提高系统抽样的精度。一旦从这 些辅助变量发现总体大小上周期性的变化,那么抽样的间隔 k 必须与该周期错开,否则系统抽样的质量将无法保证。 例如,我们调查某航空公司每月班机旅客人数,在旅游 旺季的月份旅客增多,而在淡季的月份则相反,年年如此。 如果我们对近几年该公司每月记录作系统抽样,若取 k=12 那么取得的一系列数据要么都是旺季的最高额,要么是淡季 的低客流量,不能很好地反映总的情况。
§4
具有线性趋势的总体的抽样方法改进
如果总体的单元按照某个辅助变量的大小顺序排列,而 该辅助变量与我们关心的指标值线性相关,称为线性趋势排 列。由于这在一定程度上相当于按单元大小排列,我们所讨 论的等距( k 为常数)系统抽样有着较高的精度。这种排列 使得系统内样本方差增大,因此系统抽样的方差小于简单随 机抽样方差。 如果按大小分成几个层,在各层中随机取一个单元,如 此分层抽样产生的方差应当比系统抽样方差小。理由很简单 系统抽样中一旦按大小或线性趋势排列,那么各系统完全被 确定,抽样的随机性只是体现在抽哪一个系统。如果抽到的 排列阵靠左的那个系统,那么该系统的各个数值在各个系统 比较之中属于较小;反之,
如果抽到排列阵靠右的列,相对
地数值就较大,由此得到的估计量也就偏小或偏大,从而增 大了估计量的方差。而我们所说的分层抽样则不一样,在我 们的排列阵中的每一行随机抽取的一个可以在该行中偏小或 者偏大或者居中,很清楚,由此得到的样本既考虑到按大小 的分层,又比系统抽样的样本更具代表性,一般它的方差要 比较小一些。这个事实启迪了我们,能否针对系统抽样的缺陷对抽样 方法或估计方法作适当的改进以提高估计的精度呢?以下介 绍的若干方法对于总体单元呈线性趋势的情况是行之有效的
1、首尾校正法仍考虑 N nk,倘若我们随机抽到 i ,那么对第 i 个系 统内 n 个样本构成的平均数,Yates(1948)建议不用等权平均 而用加权平均,他所改变的权实际上只针对系统内最小与最
大的两个样本,其余的样本仍赋予权 1/n ,因此称为首尾校 正法。具体来讲,对首尾两个样本各赋予如下权:
1 2i k 1 W1 n 2( n 1)k 1 2i k 1 Wn n 2( n 1)k
(10.5)
如果总体单元具有严格的线性趋势 Yu u 时,无论取 哪一个 i ,均有第 i 系统的加权平均数等于总体平均数。如果N nk,按照第一节所叙述的方法,我们知道,选 择的第 i 个系统,有可能第 n 个样本比前(n-1)个样本大, 即相当于 N nk 时的正常情况,也有可能第 n 个样本越过 YN 而取在 Y1 , Y2 , 等总体开头的几个单元中(显然其在 总体中的大小位置不会达到或越过第 i 系统的第一个样本)
此时的加权不能再用Yates的方法,因此,在 N nk 的情况 下,常根据两种情况进行加权: (1)若 i ( n 1)k N ,其实这是所谓的“正常”情况, 此时首、尾两个样本单元的权分别为:
1 2i ( n 1)k ( N 1) W1 n 2( n 1)k 1 2i ( n 1)k ( N 1) Wn n 2( n 1)k
(10.6)
(2)若 i (n 1)k N ,此时第 n 个样本(尾样本)出 现在 Y1 与我们选取的样本单元 Yi 之间(它可能等于Y1 但不 可能取到 Yi ),不妨设该样本为 Ym ( m i (n 1)k N ) 此时,首尾单元应赋予的权分别为:
1 2i ( n 1)k ( N 1) 2mN n W1 n 2( n 1)k 1 2i ( n 1)k ( N 1) 2mN n Wn n 2( n 1)k
(10.7)
当然在情况(1)与(2)中,其它的样本均赋予权 1/n , 这里应当指出的是,情况(1)虽属“正常”情况,但它所赋予 的首尾权绝对不等同于 N nk 时的(10.5)式,因为 i 是随 机选取的,因此在 N nk 时,(1)与(2)必须综合在一 起考虑赋权才能取得较好的效果。