概率统计 王松桂
概率论与数理统计 第十八讲
主讲教师:程维虎教授 北京工业大学应用数理学院
概率统计 王松桂
§7.3 估计量的优良性准则从前面两节的讨论中可以看到:● 同一参数可以有几种不同的估计,这时就需
要判断采用哪一种估计为好的问题。 ● 另一方面,对于同一个参数,用矩法和极大 似然法即使得到的是同一个估计, 也存在衡 量这个估计优劣的问题。估计量的优良性准则就是:评价一个估计量 “好”与“坏”的标准。
概率统计 王松桂
7.3.1 无偏性 设总体的分布参数为 , ( X 1 , X 2 , , X n )
简记为 是 的一个估计(注意! 它是一个统 计量,是随机变量。 对于样本 X1,X2, ,Xn 的不同取值, 取不同的值 )。 如果 的均 值等于 ,即
E[ ( X 1 , X 2 , , X n )] 对一切可能的 成立,则称 为 的无偏估计。
概率统计 王松桂
说明:无偏性的意义是:用估计量 估计 参数 ,有时可能估计偏高,有时可能偏低, 但是平均来说它等于 。 “一切可能的 ”是指:在参数估计问题 中,参数 一切可能的取值。 我们之所以要求对一切可能的 都成立, 是因为在参数估计问题中, 我们并不知道参数 的真实取值。自然要求它在参数 的一切可 能取值的范围内都成立
E[ ( X 1 , X 2 , , X n )] .
概率统计 王松桂
例如:若 指的是正态总体N( , 2)的均值 , 则其一切可能取值范围是(-∞,∞)。若 指的 是方差 2,则其一切可能取值范围是(0,∞)。 例1:设 X1, X2, , Xn 为抽自均值为 的总体X 的随机样本,考虑 的如下几个估计量:
1 X 1 因 E ( 1 ) E ( X 1 ) , 所以, 1是 的无偏估计。
概率统计 王松桂
X1 X 2 2 2 因 E ( 2 ) , 所以, 2 是 的无偏估计。
X 1 X 2 X n 1 X n 3 4 是 的无偏估计。
(n 4)
4 2 X 1
是有偏估计。是有偏估计。
X1 X 2 5 3
概率统计 王松桂
定理1:设总体X的均值为 ,方差为 2, X1,X2, ,Xn 为来自总体X 的随机样本,记 X 与 S 2分别为样本均值与样本方差,即1n 1 n 2 X Xi, S ( X i X )2 . n i 1 n 1 i 1 2 2 则 E ( X ) , E (S ) .
即样本均值和样本方差分别是总体均值 和总体方差的无偏估计。
概率统计 王松桂
证明:因为X1, X2, , Xn 独立同分布,且 E(Xi )=μ , 所以1 1 n 1 n E ( X ) E X i E ( X i ) n ; n n i 1 n i 1
另一方面,因i 1
( X i X ) X 2( X i ) X nX 2 2 i 1 n 2 i i 1 2
n
n
n
X nX ,i 1 2 i
概率统计 王松桂
注意到E ( X ) Var( X ) [ E ( X )]2 2
2n
2,
E ( X i2 ) Var( X i ) [ E ( X i )]2 2 2 ,
于是,有1 n 2 2 E (S )
E ( X i ) nE( X ) n 1 i 1 2 1 2 2 2 n( ) n n n 1 2.2
概率统计 王松桂
前面两节中,我们曾用矩法和极大似然法 分别求得了正态总体 N(μ, σ2) 中参数σ2 的估计, 均为 1 n 2 ( X i X )2 . n i 1 很显然,它不是σ2 的无偏估计。这正是我们为 什么要将其分母修正为 n-1,获得样本方差 S2 来估计σ2 的理由。 如果 是参数 的一个估计,我们通常用g ( ) 作为g ( )的估计。但必须注意的是:即使 是 的 无偏估计,g ( )也未必是g ( )的无偏估计。
概率统计 王松桂
例2:求证:样本标准差 S 不是总体标准差 的无偏估计。 证明:因 E(S2)= 2, 所以,Var(S)+[E(S)]2 = 2, 由 Var(S)>0,知 [E(S)]2 = 2 - Var(S)< 2. 所以,E(S)< . 故,S 不是 的无偏估计。
概率统计 王松桂
II. 均方误差准则 用估计量 ( X 1 , X 2 , , X n ) 估计 ,估计误差 ( X1 , X 2 , , X n ) 是随机变量,通常用其均值 衡量估计误差的大小。 要注意: 为了防止求均值时正、负误差相 互抵消,我们先将其平方后再求均值,并称其 为均方误差,记成 MSE ( ) ,即
) E ( ) 2 . MSE (
概率统计 王松桂
对 的两个估计 1 和 2 , 哪个估计的均方 误差小,就称哪个估计比较优,这种判定估计 优劣的准则为“均方误差准则”。 注意:均方误差可分解成两部分: ) Var ( ) [ E ( ) ]2 . MSE ( 证明:MSE( ) E ( ) 2 E{[ E ( )] [ E ( ) ]}2 E[ E ( )]2 [ E ( ) ]2 2[ E ( ) ] E[ E ( )] Var ( ) [ E ( ) ]2 .
概率统计 王松桂
MSE ( ) Var( ) [ E ( ) ]2
上式表明,均方误差由两部分构成:第一 部分是估计量的方差,第二部分是估计量的偏 差的平方和。 注意:如果一个估计量是无偏的,则第二 部分是零,则有: MSE ( ) Var ( )。如果两个估计都是无偏估计,这时哪个估 计的方差小,哪个估计就较优。这种判定估计 量优劣的准则称为方差准则。
概率统计 王松桂
例3:设 X1, X2, , Xn 为抽自均值为 的总体, 考虑 的如下两个估计的优劣: X, 1 n i X j. n 1 j 1j i
我们看到: 显然两个估计都是 的无偏 估计。计算二者的方差: 2 Var( ) Var( X ) , 1 Var( i ) n 1 2
n
Var( Xj 1 j i
n
j
)
2
n 1
.
于是,X 比 i 方差小, 优于 i 。 X
概率统计 王松桂
这表明:当用样本均值去估计总体均值时, 使用全样本总比不使用全样本要好。
概率统计 王松桂
§7.4 正态总体
的区间估计(一)前面讨论了参数的点估计。点估计就是 利用样本计算出的值(即实轴上点) 来估计未 知参数。其优点是:可直地告诉人们 “未知 缺点是:并未反映出估 参数大致是多少”; 计的误差范围 (精度)。故,在使用上还有不 尽如人意之处。而区间估计正好弥补了点估 计的这一不足之处 。
概率统计 王松桂
例如:在估计正态总体均值µ的问题中, 若根据一组实际样本,得到µ的极大似然估 计为10.12。 实际上,µ 的真值可能大于10.12,也可 能小于10.12。一个可以想到的估计办法是:给出一个 区间,并告诉人们该区间包含未知参数µ的 可靠度 (也称置信系数)。
概率统计 王松桂
也就是说,给出一个区间,使我们能以 一定的可靠度相信区间包含参数 µ。
这里的“可靠度”是用概率来度量的, 称为置信系数,常用1 表示 (0 1)。
概率统计 王松桂
置信系数的大小常根据实际需要来确定, 通常取0.95或0.99,即 0.05 或 0.01。 根据实际样本,由给定的置信系数,可 求出一个尽可能短的区间 [ 1 , 2 ],使
P( 1 2 ) 1 . 称区间[ 1 , 2 ] 为 的置信系数为 的 1 置信区间。其中 与 为两个统计量由样本 (1 2
完全确定的已知函数, 2。 1
概率统计 王松桂
为确定置信区间,我们先回顾前面给出 的随机变量的上α 分位点的概念。
设 0 1 对随机变量 X,称满足 , P( X x ) 的点 x 为 X 的上 分位点。