第二章
2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X (X1,X2,联合分布密度函数是一个p维的函数,而边际分布讨论是X (X1,X2,概率分布,其概率密度函数的维数小于p。 2.2设二维随机向量(X1
解:设(X1
Xp) 的
Xp) 的子向量的
X2) 服从二元正态分布,写出其联合分布和各边缘分布。
12 12 2 ,协方差矩阵为 ,则其联2 212
X2) 的均值向量为μ 1
合分布密度函数为
12
f(x) 2 212
2.3已知随机向量(X1
2
2
1
1/2
12 1 112
exp (x μ) (x μ) 。 2
2 21 2
X2) 的联合密度函数为
f(x1,x2)
2[(d c)(x1 a) (b a)(x2 c) 2(x1 a)(x2 c)]
22
(b a)(d c)
其中a x1 b,c x2 d。求
(1)随机变量X1和X2的边缘密度函数、均值和方差; (2)随机变量X1和X2的协方差和相关系数; (3)判断X1和X2是否相互独立。
(1)解:随机变量X1和X2的边缘密度函数、均值和方差;
fx1(x1)
d
c
2[(d c)(x1 a) (b a)(x2 c) 2(x1 a)(x2 c)]
dx 22
(b a)(d c)
d
2(d c)(x1 a)x2
(b a)2(d c)2
2(d c)(x1 a)x2
(b a)2(d c)2
cd
d
c
2[(b a)(x2 c) 2(x1 a)(x2 c)]
dx2 22
(b a)(d c)2[(b a)t 2(x1 a)t]
dt
(b a)2(d c)2
c
d c
2(d c)(x1 a)x2
(b a)2(d c)2
所以
d
c
[(b a)t2 2(x1 a)t2]
(b a)2(d c)2
d c
1 b a
b a b a 。
由于X1服从均匀分布,则均值为,方差为
212
2
1
同理,由于X2服从均匀分布fx2(x2) d c
0
x1 c,d 其它
,则均值为
d c
,2
d c 方差为
12
2
。
(2)解:随机变量X1和X2的协方差和相关系数;
cov(x1,x2)
d
b
c
a b d c 2[(d c)(x1 a) (b a)(x2 c) 2(x1 a)(x2 c)]
x x 1dx21 2 22 a 22(b a)(d c)
(c d)(b a)
36
cov(x1,x2)
x x
1
2
1 3
(3)解:判断X1和X2是否相互独立。
X1和X2由于f(x1,x2) fx1(x1)fx2(x2),所以不独立。
2.4设X (X1,X2,互独立的随机变量。
解: 因为X (X1,X2,
p
Xp) 服从正态分布,已知其协方差矩阵 为对角阵,证明其分量是相
Xp) 的密度函数为
1/2 1 1
f(x1,...,xp) Σexp (x μ)Σ(x μ) 2 12
2
2
又由于Σ
2 p
2
Σ 12 22 p
1
2 1 Σ 1
1
2 2
1 2 p
则f(x1,...,x
p)
22 Σ 1 2
p
1 2 1 1 2 1/2
pexp (x μ) Σ 1
2
1
2
2
(x
μ)
1 2 p
1 2p
p
p
1
222 1(xp p) 1(x1 1)1(x2 3)
exp ... 222
2 2 2 12p
(xi i)2 f(x1)...f(xp) 2
2 i i 1
则其分量是相互独立。
2.5由于多元正态分布的数学期望向量和均方差矩阵的极大似然分别为
Xin μ
i 1n
n
(X )(X ) Σii
i 1
35650.00
12.33 μ
17325.00 152.50
201588000.0038900.0083722500.00
13.06716710.00 38900.00Σ
83722500.0016710.0036573750.00 -736800.00-35.800-199875.00 -736800.00
-35.80
-199875.00
16695.10
0
1
1
11 I )X注:利用 p 1 X 1n, S X (In 1n1 其中 nn nn
0
在SPSS中求样本均值向量的操作步骤如下:
1. 选择菜单项Analyze→Descriptive Statistics→Descriptives,打开Descriptives对话框。
将待估计的四个变量移入右边的Variables列表框中,如图2.1。
图2.1 Descriptives对话框
2.
单击Options按钮,打开Options子对话框。在对话
框中选择Mean复选框,即计算样本均值向量,如图2.2所示。单击Continue按钮返回主对话框。
图2.2 Options子对话框
3. 单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.1,即
样本均值向量为(35.3333,12.3333,17.1667,1.5250E2)。
表2.1 样本均值向量
在SPSS中计算样本协差阵的步骤如下: 1. 选择菜单项Analyze→Correlate→Bivariate,打开
Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图2.3。
2.
图2.3 Bivariate Correlations对话框
单击Options按钮,打开Options子对话框。选择
Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差阵,如图2.4。单击Continue按钮,返回主对话框。
3.
图2.4 Options子对话框
单击OK按钮,执行操作。则在结果输出窗口中给
出相关分析表,见表2.2。表中Covariance给出样本协差阵。(另外,Pearson Correlation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products为样本离差阵。)
2.6 无偏性;渐近无偏性、有效性和一致性;
2.7 设总体服从正态分布,X~Np(μ,Σ),有样本X1,X2,...,Xn。由于是相互独立的正态分布随机向量之和,所以也服从正态分布。又
n
n n
E() E Xin E Xi μn μ
i 1 i 1 i 1
1nΣ n 1n
D() D Xin 2 D Xi 2 Σ
ni 1n i 1 ni 1
所以~Np(μ,Σ)。
n
1 2.8 方法1: Σ (Xi )(Xi ) n 1i 1
1n
XiX i n
n 1i 1
n
1 ) E(ΣE( XiX i n) n 1i 1
1 n
EXX nE ii n 1 i 1 1 nΣ 1
Σ n (n 1)Σ Σ。 n 1 i 1n n 1
方法2:S
n
(X--)
i
i
i 1i
i
n
X-μ ( μ)X-μ ( μ)
i 1n
(X-μ)(X-μ) 2 (X-μ)(-μ) n( μμ μ)
i
i
i
i 1
i 1
n
(X-μ)(X-μ) 2n( μ μ) n( μ μ)
i
i
i 1n
n
(X-μ)(X-μ) n( μ μ)
i
i
i 1
S1 n
E() E (Xi-μ)(Xi-μ) n( μ μ) n 1n 1 i 1 1 n E(Xi-μ)X(i-μ )nE μ μ n 1 i 1
故
) Σ。
S
为Σ的无偏估计。 n 1
2.9.设X(1),X(2),...,X(n)是从多元正态分布X~Np(μ,Σ)抽出的一个简单随机样本,试求S的分布。
证明: 设
Γ
******* *
* ( ij)为一正交矩阵,即Γ Γ I。
令Ζ=(Ζ1Ζ2
Ζn)= X1X2Xn Γ ,
由于Xi(i 1,2,3,4,
所以 ( 1
n)独立同正态分布,且Γ为正交矩阵 n)独立同正态分布。且有
2
E(Ζa) E( rajΧ
j)
j 1n
n
(a 1,2,3,,n 1)
raj
j 1n
rnj 0 raj
i 1
Var(Ζa) Var( rajΧj)
j 1
2
rVar Χj Σ raj Σ
2
ajj 1
j 1
n
n
n
所以Ζ1Ζ2Ζn 1独立同N(0,Σ)分布。
n
又因为S
n
(X
i 1
j
)(Xj )
XjX j n
j 1
nn
XiXi ZnZ 因为n nn i 1i 1 n
又因为
XX X
j
j
j 1
1
X2
X1
X
Xn 2
X n X 1 X2 Xn ΓΓ X n Z 1 Z2 Zn Z n
n
j
j
n
n
X1
X2
Z1
Z2
所以原式
XX ZZ ZZ ZZ
j
j
n
n
j 1
j 1
n
Z2Z Z1Z12 ... ZnZn-ΖnΖn
故S
,由于Z,Z,
j
j
n 1j 1
12
,Zn 1独立同正态分布Np(0,Σ),所以
S j j~Wp(n 1, )
j 1
n 1
2.10.设Xi(ni p)是来自Np(μi,Σi)的简单随机样本,i 1,2,3,
,k,
(1)已知μ1 μ2 ... μk μ且Σ1 Σ2 ... Σk Σ,求μ和Σ的估计。 (2)已知Σ1 Σ2 ... Σk Σ求μ1,μ2,...,,μk和Σ的估计。
1 解:(1)μ
n1 n2 ... nk
x
a 1i 1
kna
ai
,
Σ
x
a 1i 1
kna
a
i
xia
n1 n2 ... nk
(2) lnL(μ1,
p
,μk,Σ)
n ln (2 )Σ
1knaa
exp[ (xi-μa) Σ-1(xia-μa)]
2a 1i 1
1n1knaa
lnL(μ,Σ) pnln(2 ) lnΣ (xi-μa) Σ-1(xia-μa)
222a 1i 1
2 lnL(μ,Σ)n 11kna
Σ (Xia μa)(Xia μa) Σ 1 0
Σ22a 1i 1
lnL(μj,Σ)
μj
解之,得
Σ 1(Xij μj) 0(j 1,2,...,k)
i 1
nj
1 j j μ
nj
x
i 1
nj
ij
,Σ
x
j 1i 1
k
nj
x ijjijj
n1 n2 ... nk
第三章
3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。
其基本思想和步骤均可归纳为:
答: 第一,提出待检验的假设和H1;
第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
均值向量的检验:
统计量 拒绝域
在单一变量中
当 2已知 z 当 2未知 t
2
|z| z /2
|t| t /2(n 1)
1n
(S (Xi )2作为 2的估计量) n 1i 1
一个正态总体H0:μ μ0
2
协差阵Σ已知 T02 n( μ0) Σ 1( μ0)~ 2(p) T02 协差阵Σ未知
(T (n 1 μ0) S两个正态总体H0:μ1 μ2
2
有共同已知协差阵 T0
(n 1) p 12n p2
T~F(p,n p) T F
(n 1)p(n 1)p
2
μ0)])
n m2
Σ 1( ) ) ~2p( ) T02
n m
(n m 2) p 12
T~F(p, nm p1有共同未知协差阵 F ) F F
(n m 2)p
1
(其中 T (n m 2) ) S ) )
(n p)n
S-1~F(p,n p) F F 协差阵不等n m F
p
2
协差阵不等n m F (n p)n
S-1~F(p,n p) F F p
多个正态总体H0: 1 2 k 单因素方差 F
k 1)
~F(k 1,n k) F F
SSE(n k)
多因素方差 协差阵的检验 检验Σ Σ0
ET
EA E
~ (p,n k,k 1)
1 n/2 e
H0:Σ Ip exp trS S
2 n
np/2
np/2
1 n/2 e
H0:Σ Σ0 Ip exp trS* S*
2 n
检验Σ1 Σ2 ΣkH0:Σ1 Σ2 Σk
统计量 k n
3.2 试述多元统计中霍特林系。
答:(1)霍特林
分布是t分布对于多元变量的推广。
np/2
S
i 1
k
ni/2i
S
n/2
n
i 1
k
i
pni/2
分布和威尔克斯分布分别与一元统计中t分布和F分布的关
n( )22 1
t n( )(S)( )而若设X~Np(μ,Σ),S~Wp(n,Σ)且X与S2
S
2
相互独立,n p,则称统计量的分布为非中心霍特林T2分布。
2 1
若X~Np(0,Σ),S~Wp(n,Σ)且X与S相互独立,令T nX SX,则
n p 12
T~F(pn, p 1 )。 np
(2)威尔克斯分布在实际应用中经常把统计量化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。
3.3 试述威尔克斯统计量在多元方差分析中的重要意义。
答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。
H0:μ1 μ2 μk H1:至少存在i j使μi μj
用似然比原则构成的检验统计量为 E
TEA E
~ (p,n平 ,查Wilks分布表,确定临界值,然后作出统计判断。
k,k
1 )给定检验水
第四章
4.1 简述欧几里得距离与马氏距离的区别和联系。 答: 设p维欧几里得空间离为
中的两点X=
和Y=
。则欧几里得距
。欧几里得距离的局限有①在多元数据分析中,数量级的影响。②会受到
实际问题中量纲的影响。
设X,Y
是来自均值向量为
,协方差为
的总体G中的p维样本。则马氏距离为
D(X,Y)=D(X,Y)=
=
。
当
即欧几里得距离。
即单位阵时,
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2, ,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为
,则称
为
的一个
划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划
分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是 1和 2,对于一个新的样品X,
22
要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D(X,G1)和D(X,G2),则
X X
,D(X,G1)D(X,G2) ,D(X,G1)> D(X,G2,
2
2
22
具体分析,
D2(X,G1) D2(X,G2)
(X μ1) Σ 1(X μ1) (X μ2) Σ 1(X μ2)
1
Σ 1μ1 (X Σ 1X 2X Σ 1μ2 μ X Σ 1X 2X Σ 1μ1 μ12Σμ2) 1 Σ 1μ1 μ 2X Σ 1(μ2 μ1) μ12Σμ2
2X Σ 1(μ2 μ1) (μ1 μ2) Σ 1(μ1 μ2)
μ1 μ2 1
2 X Σ(μ1 μ2)
2
2(X ) α 2α (X )
记W(X) α (X ) 则判别规则为
X X
,W(X)
,W(X)<0
②多个总体的判别问题。
设有k个总体G1,G2, ,Gk,其均值和协方差矩阵分别是μ1,μ2, ,μk和Σ1,Σ2, ,Σk,且Σ1 Σ2 Σk Σ。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。
具体分析,D2(X,G ) (X μ ) Σ 1(X μ )
Σ 1X μ Σ 1μ X Σ 1X 2μ
1
X C ) X ΣX 2(I 1 1
Σμ , 1,2, ,k。 取I Σ 1μ ,C μ 2
可以取线性判别函数为
X C , 1,2, ,k W (X) I
X C ) 相应的判别规则为X Gi 若 Wi(X) max(I
1 k
4.4 简述贝叶斯判别法的基本思想和方法。
基本思想:设k个总体G1,G2, ,Gk,其各自的分布密度函数f1(x),f2(x), ,fk(x),假设k个总体各自出现的概率分别为q1,q2, ,qk,qi 0,
k
q
i 1
i
1。设将本来属于Gi总体的样品
错判到总体Gj时造成的损失为C(j|i),i,j 1,2, ,k。
设k个总体G1,G2, ,Gk相应的p维样本空间为 R (R1,R2, ,Rk)。 在规则R下,将属于Gi的样品错判为Gj的概率为
P(j|i,R) fi(x)dx i,j 1,2, ,k
Rj
i j
则这种判别规则下样品错判后所造成的平均损失为
r(i|R) [C(j|i)P(j|i,R)] i 1,2, ,k
j 1
k
则用规则R来进行判别所造成的总平均损失为
g(R) qir(i,R)
k
qi C(j|i)P(j|i,R)
i 1
j 1
i 1k
k
贝叶斯判别法则,就是要选择一种划分R1,R2, ,Rk,使总平均损失g(R)达到极小。 基本方法:g(R)
k
k
q C(j|i)P(j|i,R)
ii 1
j 1Rj
kk
qi C(j|i) fi(x)dx
i 1
j 1k
( qiC(j|i)fi(x))dx
j 1
Rj
i 1
k
令
qC(j|i)f(x) h(x),则 g(R)
i
i
j
i 1
kk
j 1
Rjk
hj(x)dx
R*j
若有另一划分R (R,R, ,R),g(R) 则在两种划分下的总平均损失之差为
*
*
1*2*k
*
j 1
hj(x)dx
g(R) g(R)
*
i 1j 1
kk
Ri R*j
[hi(x) hj(x)]dx
因为在Ri上hi(x) hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。
Ri {x|hi(x) minhj(x)}R (R,R, ,R)1 j k12k从而得到的划分为 i 1,2, ,k
4.5 简述费希尔判别法的基本思想和方法。
答:基本思想:从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
U(X) u1X1 u2X2 upXp u X 系数u (u1,u2, ,up) 可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
答:① 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 ② 当k=2时,若
二者与贝叶斯判别也等价。 ③ 当
时,费希尔判别用
作为共同协差阵,实际看成等协差阵,此与距离判
则费希尔判别与距离判别等价。当判别变量服从正态分布时,
别、贝叶斯判别不同。
④ 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X
W(X)
X
,
,W(X)<lnd
距离判别的判别规则是 X X
,W(X)
,W(X)<0
二者的区别在于阈值点。当q1 q2,C(1|2) C(2|1)时,d 1,lnd 0。二者完全相同。
4.7 设有两个二元总体
和
,从中分别抽取样本计算得到
,, 假设,试用距离判别法建立判别函数和判
别规则。 样品X=(6,0)’应属于哪个总体? 解:
= ,
= , =
=
即样品X属于总体
4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。