第十五章 多元线性回归分析 (multiple linear regression)授课老师:曾小敏 (zxiaomin@http://www.77cn.com.cn) 公共卫生学院 卫生统计学教研室1
例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量 (mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的 回归方程。表9-1 8名正常儿童的年龄 X (岁)与尿肌酐含量Y(mmol/24h)编 号 年龄 X 尿肌酐含量 Y 1 13 3.54 2 11 3.01 3 9 3.09 4 6 2.48 5 8 2.56 6 10 3.36 7 12 3.18 8 7 2.65
复习——双变量直线回归分析
意义:分析1个自变量(X)对一个应变量(Y)的影响,例9-1正常儿童的尿肌酐含量(mmol/24h)(Y)与其年龄(X)的数量依存关系。
目的:作出以自变量(X)估计应变量(Y性回归方程。( Y a bX
)的一元线)
Y | X(9 1) X
资料:应变量(Y
)、自变量(X)为定量指标,且每
个X值相应的Y 服从正态分布。
用途:解释和预报。3
例15-1 27名糖尿病人的血清总胆固醇、甘油三脂、
空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线 性回归方程。
表15-2 27名糖尿病人的血糖及有关变量的测量结果序号 i1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
总胆固醇 (mmol/L) X15.68 3.79 6.02 4.85 4.60 6.05 4.90 7.08 3.85 4.65 4.59 4.29 7.97 6.19 6.13 5.71 6.40 6.06 5.09 6.13 5.78 5.43 6.50 7.98 11.54 5.84 3.84
甘油三脂 (mmol/L) X21.90 1.64 3.56 1.07 2.32 0.64 8.50 3.00 2.11 0.63 1.97 1.97 1.93 1.18 2.06 1.78 2.40 3.67 1.03 1.71 3.36 1.13 6.21 7.92 10.89 0.92 1.20
胰岛素 (μU/ml) X34.53 7.32 6.95 5.88 4.05 1.42 12.60 6.75 16.28 6.59 3.61 6.61 7.57 1.42 10.35 8.53 4.53 12.79 2.53 5.28 2.96 4.31 3.47 3.37 1.20 8.61 6.45
糖化血 红蛋白(%) X48.2 6.9 10.8 8.3 7.5 13.6 8.5 11.5 7.9 7.1 8.7 7.8 9.9 6.9 10.5 8.0 10.3 7.1 8.9 9.9 8.0 11.3 12.3 9.8 10.5 6.4 9.6
血糖 (mmol/L) Y11.2 8.8 12.3 11.6 13.4 18.3 11.1 12.1 9.6 8.4 9.3 10.6 8.4 9.6 10.9 10.1 14.8 9.1 10.8 10.2 13.6 14.9 16.0 13.2 20.0 13.3 10.4
多元线性回归分析:
意义:分析多个自变量对一个应变量的影响,如糖尿病人 的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、 甘油三脂等多种生化指标的影响。
目的:作出以多个自变量(Xi)估计应变量(Y )的多元 线性回归方程。
资料:应变量(Y )为定量指标;自变量(Xi)全部或大部分为定量指标,若有少量定性或等级指标需作转换。 用途:解释和预报。
讲述内容第一节 多元线性回归 第二节 自变量选择方法
第三节 多元线性回归的应用及其注意事项
第一节
多元线性回归
例15-1: 表15-2 27名糖尿病人的血糖及有关变量的测量结果序号 i1 2 3 4
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
总胆固醇 (mmol/L) X15.68 3.79 6.02 4.85 4.60 6.05 4.90 7.08 3.85 4.65 4.59 4.29 7.97 6.19 6.13 5.71 6.40 6.06 5.09 6.13 5.78 5.43 6.50 7.98 11.54 5.84 3.84
甘油三脂 (mmol/L) X21.90 1.64 3.56 1.07 2.32 0.64 8.50 3.00 2.11 0.63 1.97 1.97 1.93 1.18 2.06 1.78 2.40 3.67 1.03 1.71 3.36 1.13 6.21 7.92 10.89 0.92 1.20
胰岛素 (μU/ml) X34.53 7.32 6.95 5.88 4.05 1.42 12.60 6.75 16.28 6.59 3.61 6.61 7.57 1.42 10.35 8.53 4.53 12.79 2.53 5.28 2.96 4.31 3.47 3.37 1.20 8.61 6.45
糖化血 红蛋白(%) X48.2 6.9 10.8 8.3 7.5 13.6 8.5 11.5 7.9 7.1 8.7 7.8 9.9 6.9 10.5 8.0 10.3 7.1 8.9 9.9 8.0 11.3 12.3 9.8 10.5 6.4 9.6
血糖 (mmol/L) Y11.2 8.8 12.3 11.6 13.4 18.3 11.1 12.1 9.6 8.4 9.3 10.6 8.4 9.6 10.9 10.1 14.8 9.1 10.8 10.2 13.6 14.9 16.0 13.2 20.0 13.3 10.4
一、多元线性回归模型
变量:应变量 1 个,自变量m个,共 m+1 个。
样本含量:n 数据格式:见表15-1 回归模型一般形式:
Y 0 1 X 1 2 X 2 m X m e1. 应变量 Y 可以近似地表示为自变量 X 1 , X 2 , , X m 的线性函数。 2. 0 为常数项。 3. 1 , 2 , , m 为偏回归系数,表示在其它自变量保持不变时,X j 增加或减少一个单位时 Y 的平均变化量。
Y
4. e 是去除 m 个自变量对 Y 影响后的随机误差(残差) 。10
表15-1 多元回归分析数据格式例号 1 2 ┇ n X1 X11 X21 ┇ Xn1 X2 X12 X22 ┇ Xn2 Xm X1m X2m ┇ Xnm Y Y1 Y2 ┇ Yn
多元线性回归模型的应用条件Y (1) 与 X 1 , X 2 , , X m 之间具有线性关系。
(2)各例观测值Yi (i 1,2, , n) 相互独立。 (3)残差 e 服从均数为 分布。11
2 0、 方差为
的正态分布, 它等价于对任意
一组自变量 X 1 , X 2 , , X m 值,应变量 Y 具有相同方差,并且服从正态
Y X X X e Y 0 1 1 2 2 m m样本估计值: …
(1)求偏回归系数 b0 , b1 , b2 , , bm建立回归方程
一 般 步 骤
统计描述
Y b0 b1 X 1 b2 X 2 bm X m(2)对回归方程、各自变量做假设检 验;并评价回归方程的拟合效果和 各自变量的作用大小
统计推断12
二、多元线性回归方程的建立
例15-1: 表15-2 27名糖尿病人的血糖及有关变量的测量结果序号 i1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
总胆固醇 (mmol/L) X15.68 3.79 6.02 4.85 4.60 6.05 4.90 7.08 3.85 4.65 4.59 4.29 7.97 6.19 6.13 5.71 6.40 6.06 5.09 6.13 5.78 5.43 6.50 7.98 11.54 5.84 3.84
甘油三脂 (mmol/L) X21.90 1.64 3.56 1.07 2.32 0.64 8.50 3.00 2.11 0.63 1.97 1.97 1.93 1.18 2.06 1.78 2.40 3.67 1.03 1.71 3.36 1.13 6.21 7.92 10.89 0.92 1.20
胰岛素 (μU/ml) X34.53 7.32 6.95 5.88 4.05 1.42 12.60 6.75 16.28 6.59 3.61 6.61 7.57 1.42 10.35 8.53 4.53 12.79 2.53 5.28 2.96 4.3
1 3.47 3.37 1.20 8.61 6.45
糖化血 红蛋白(%) X48.2 6.9 10.8 8.3 7.5 13.6 8.5 11.5 7.9 7.1 8.7 7.8 9.9 6.9 10.5 8.0 10.3 7.1 8.9 9.9 8.0 11.3 12.3 9.8 10.5 6.4 9.6
血糖 (mmol/L) Y11.2 8.8 12.3 11.6 13.4 18.3 11.1 12.1 9.6 8.4 9.3 10.6 8.4 9.6 10.9 10.1 14.8 9.1 10.8 10.2 13.6 14.9 16.0 13.2 20.0 13.3 10.4
第九章:
Y Y e, Y a bX(9-3)
l XY ( X X )(Y Y ) b 2 l XX (X X )
即:l XX b l XY(9-4)
a Y bX
式中 l XY 为 X 与 Y 的离均差乘积和:
( X )( Y ) l ( X X )(Y Y ) XY (9 5) XY n15
残差平方和: Q (Y Y ) 2 [Y (b b X b X b X )]2 0 1 1 2 2 m m建立方程组
Y
l11b1 l12b2 l1m bm l1Y l b l b l b l 二乘法——残 21 1 22 2 2m m 2Y 差平方和最小) l m1b1 l m 2 b2 l mm bm l mY
原理:最小
b1,b2,…,bm(15-3)
lij ( X i X i )( X j X j ) X i X j l jY ( X j X j )(Y Y ) X jY
X Xi
j
X Y ,j
n
, i , j=1,2, ,m j 1, 2 , m
(15-5) (15-6) (15-4)16
n
b0 Y (b1 X 1 b2 X 2 bm X m )