2011年数学建模培训 统计分析模型与SAS软件 张景祥
一、统计学分析方法
1.1 回归分析1.2 聚类分析 1.3 数据分类 1.4 判别分析 1.5 主成分分析
1.6 因子分析1.7 残差分析 1.8 典型相关分析 1.9 时间序列
7月10日(培训主要内容) 第一部分 回归模型 第二部分 SAS与Excel数据
回归分析模型主要应用于变量间相关关系的分析
一元线性回归 一元非线性回归 多元线性回归 多元非线性回归
回归这一术语是1886年英国生物学家高尔顿在 研究遗传现象时引进的. 他发现: 虽然高个子的先代会有高个子的后代, 但后代的增高并不 与先代的增高等量. 他称这一现象为“向平常高度的回归”.
尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据:
分析出儿子的身高y和父亲的身高x大致为如下关系: y=0.516x+33.73 (英寸)
6英寸
3英寸
这意味着, 若父亲身高超过父亲平均身高6英寸, 那么其儿子的身高 大约只超过儿子平均身高3英寸, 可见有向平均值返回的趋势. 诚然, 如今对回归这一概念的理解并不是高尔顿的原意, 但这一名 词却一直沿用下来, 成为统计学中最常用的概念之一.
在回归分析中, 当变量只有两个时, 称为一元回归分析; 当变量 在两个以上时, 称为多元回归分析. 变量间成线性关系, 称线性回归, 变量间不具有线性关系, 称非线性回归.一元回归 线性 非线性
多元回归在这一讲里, 我们主要讨论的是一元线性回归. 它是处理两个变 量之间关系的最简单的模型. 它虽然比较简单, 但我们从中可以了解 到回归分析的基本思想、方法和应用.
设随机变量y与变量x之间存在着某种相关关系, 其中x是能够控 制或可以精确测量的变量.x y 血压 体重
年龄身高
施肥量积雪深度
产量灌溉面积
… … 为了今后研究方便, 我们把x当作普通变量, 而不把它看作随机变量.
对于x的一组不完全相同的值x1, x2,…,xn作独立观察, 得到随机变量y 相应的观察值y1,y2, …,yn, 构成n对数据. 用这n对数据可作出一个散 点图, 直观地描述一下两变量之间的关系.
y· · · · · · · · · · ·
·
o
x
y
这里有三幅散点图. · · · · · · · · · ·(1) y x
y
· · · · · ·· ·· · · · x
o
o
(2)
·· · · · · · ·· · · · ·· · · · · ··
o
(3)
x
根据散点图, 考虑以下几个问题:
(1)两变量之间的关系是否密切, 或者说我们能否由x来估计y.(2)两变量之间的关系是呈一条直线还是呈某种曲线. (3)是否存在某个点偏离过大. (4)是否存在其它规律.
考虑采用线性方程拟合 y · · · · · · · · · y · · · · · ·· ·· · · · x
· o
(1)y
x
o
(2)
采用非线性方程拟合
·· · · · · · ·· · · · ·· ·
· · · ·· (3)
o
x
一元线性回归
为了估计山上积雪融化后对下游灌溉的影响, 在山上建立了一 个观测站, 测量了最大积雪深度x与当年灌溉面积 y, 得到连续 10年的数据如下表: 年序 最大积雪深度x(米) 灌溉面积y(公顷) 1 5.1 1907 2 3.5 1287 3 7.1 2693 4 6.2 2373 5 8.8 3260 6 7.8 3000 7 4.5 1947 8 5.6 2273 9 8.0 3113 10 6.4 2493
为了研究这些数据中所蕴含的规律性, 我们由10对数据 作出散点图.y 4000 3000 2000 1000
· · ·· ·· · · ·· ·
x 2 4 6 8 10 从图看到, 数据点大致落在一条直线附近, 这告诉我 们变量x和y之间大致可看作线性关系.从图中还看到, 这些点又不完全在一条直线上, 这表明x和 y的关系并没有确切到给定x就可以唯一确定y的程度.
o
事实上, 还有许多其它因素对y产生影响,如当年的平均气 温、当年的降雨量等等, 都是影响y取什么值的随机因素. 如果我们只研究x和y的关系, 可以假定有如下结构式: y =a+bx+ε 其中a和b是未知常数, 称回归系数, ε表示其它随机因素对灌溉面积 的影响. 实际中常假定ε服从正态分布N(0,σ2), 即
E ( ) 0 2 D ( ) 0
σ2未知