回归分析的基本思想及其初步应用(H)
1.1 回归分析的基本思想 及其初步应用
回归分析的基本思想及其初步应用(H)
温故知新不相关 两个变量的关系 函数关系 相关关系 非线性相关 函数关系中的两个变量间是一种确定性关系。 函数关系中的两个变量间是一种确定性关系。 相关关系是一种非确定性关系。 相关关系是一种非确定性关系。 线性相关
回归分析的基本思想及其初步应用(H)
例1、某大学中随机选取8名女大学生,其身高 某大学中随机选取8名女大学生, 和体重数据如下表所示. 和体重数据如下表所示.编号 体重/kg 体重/kg 1 48 2 57 3 50 4 54 5 64 6 61 7 43 8 59 身高/cm 身高/cm 165 165 157 170 175 165 155 170
求根据女大学生的身高预报体重的回归方程, 求根据女大学生的身高预报体重的回归方程, 并预报一名身高为172cm的女大学生的体重 的女大学生的体重. 并预报一名身高为 的女大学生的体重
回归分析的基本思想及其初步应用(H)
解:1、选取身高为自变量 ,体重为因变量 ,作散点图: 、选取身高为自变量x,体重为因变量y,作散点图:
2、由散点图知道身高和体重有比较好的线性相关关系, 、由散点图知道身高和体重有比较好的线性相关关系, 因此可以用线性回归方程刻画它们之间的关系。 因此可以用线性回归方程刻画它们之间的关系。
回归分析的基本思想及其初步应用(H)
样本点呈条状分布,身高和体重有较好的线性相关关 样本点呈条状分布, 因此可以用回归方程来近似的刻画它们之间的关系. 系,因此可以用回归方程来近似的刻画它们之间的关系. (x,y)称 (x,y)称为
$ $ 就是未知参数a和 的最好估计 心 根据最小二乘法估计a 和b 就是未知参数 和b的最好估计, 样的最好估计, 本点的中n n ∑(xi - x)(yi - y) ∑ xiyi - nxy 探究P4: 探究 : i=1 b = i=1 n = n = 0.849, 的女大学生的体重一定是 于是有 身高为172cm的女大学生的体重一定是 身高为 的女大学生的体重一定是60.316kg吗? 吗 2 2 2 ∑(xi - x) ∑ xi - nx 如果不是,你能解析一下原因吗? 如果不是,你能解析一下原因吗? i=1 i=1 a = y - bx = -85.712
y 所以回归方程是 $ = 0.849 x 85.712所以,对于身高为 的女大学生, 所以,对于身高为172cm的女大学生,由回归方程可以预报其体重为 的女大学生
$ = 0.849 ×172 85.712 = 60.316(kg ) y
回归分析的基本思想及其初步应用(H)
解:散点图: 散点图:
思考P3 思考产生随机误差项e 产生随机误差项 的原因是什么? 的原因是什么?
3、从散点图还看到,样本点散布在某一条直线的附 、从散点图还看到, 线性回归模型来表示: 来表示 我们可以用下面的线性回归模型来表示: 而不是在一条直线上, 近,而不是在一条直线上,所以不能用一次函数 y=bx+a+e,其中a和b为模型的未知参数, y=bx+a+e,其中a 为模型的未知参数, y=bx+a简单描述它们关系。 简单描述它们关系
。 简单描述它们关系 e称为随机误差。 称为随机误差。
回归分析的基本思想及其初步应用(H)
思考P3 思考 产生随机误差项e的原因是什么 的原因是什么? 产生随机误差项 的原因是什么?随机误差e的来源(可以推广到一般): 随机误差e的来源(可以推广到一般): 1、其它因素的影响:影响体重 y 的因素不只是身高 、其它因素的影响: x,可能还包括遗传基因、饮食习惯、生长环境等 ,可能还包括遗传基因、饮食习惯、 因素; 因素; 2、身高 x的观测误差。 的观测误差。 、 的观测误差
回归分析的基本思想及其初步应用(H)
线性回归模型y=bx+a+e增加了随机误差项e,因 线性回归模型y=bx+a+e增加了随机误差项e y=bx+a+e增加了随机误差项 变量y的值由自变量x和随机误差项e共同确定, 变量y的值由自变量x和随机误差项e共同确定,即自 变量x只能解析部分y的变化。 变量x只能解析部分y的变化。 在统计中,我们也把自变量x称为解析变量, 在统计中,我们也把自变量x称为解析变量,因变 解析变量 预报变量。 量y为预报变量。
回归分析的基本思想及其初步应用(H)
残差数据点和它在回归直线上相应位置的差异 称为相应于点( 残差。 称为相应于点(xi,yi ) 的残差。
$ e i = yi $ i y
例:编号为6的女大学生,计算随机误差的效应(残差) 编号为6的女大学生,计算随机误差的效应(残差)
61 (0.849 × 165 85.712) = 6.627残差平方和把每一个残差所得的值平方后加起来, 把每一个残差所得的值平方后加起来,用数学符号表 n 示为: 示为: ( yi $ i ) 2 y ∑i =1
称为残差平方和 称为残差平方和 在例1 在例1中,残差平方和约为128.361。 残差平方和约为128.361。 128.361
回归分析的基本思想及其初步应用(H)
残差分析与残差图的定义: 残差分析与残差图的定义:$ $ $ 来判断模型拟合的效果, 我们可以通过残差 e1 , e 2 ,L , e n 来判断模型拟合的效果,判断原始 数据中是否存在可疑数据,这方面的分析工作称为残差分析。 数据中是否存在可疑数据,这方面的分析工作称为残差分析。表1-4列出了女大学生身高和体重的原始数据以及相应的残差数据。 列出了女大学生身高和体重的原始数据以及相应的残差数据。 列出了女大学生身高和体重的原始数据以及相应的残差数据
编号 身高 体重/kg 体重 残差
1 165 48-6.373
2 165 572.627
3 157 502.419
4 170 54-4.618
5 175 641.137
6 165 616.627
7 155 43-2.883
8 170 590.382
我们可以利用图形来分析残差特性,作图时纵坐标为残差, 我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可 以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残 以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残 差图。 差图。
回归分析的基本思想及其初步应用(H)
残差图的制作及作
用。 残差图的制作及作用。 坐标纵轴为残差变量,横轴可以有不同的选择; 坐标纵轴为残差变量,横轴可以有不同的选择; 若模型选择的正确,残差图中的点应该分布在以 若模型选择的正确, 横轴为心的带形区域; 横轴为心的带形区域; 对于远离横轴的点,要特别注意。 对于远离横轴的点,要特别注意。
身 高 与 体 重 残 差 图
异 常 点 错误数据 模型问题
:
个样本点和第6个样本点的残差比较大, 个样本点和第 个样本点的残差比较大,需要确认在采集过程中是否有人为 个样本点的残差比较大 如果数据采集有错误,就予以纠正, 如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数 果数据采集没有错误,则需要寻找其他的原因。 果数据采集没有错误,则需要寻找其他的原因。 残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适, 残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这 状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。 状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。
回归分析的基本思想及其初步应用(H)
我们可以用相关指数 2来刻画回归的效果,其计算公式是 我们可以用相关指数R 来刻画回归的效果, 相关指数(yi - yi )2 ∑ $ R2 = 1 i=1 n n
∑(yi=1
i
- y)2
显然, 的值越大,说明残差平方和越小, 显然,R2的值越大,说明残差平方和越小,也就是说模型拟合 效果越好。 效果越好。 R2越接近 ,表示回归的效果越好(因为 2越接近 ,表示解析 越接近1,表示回归的效果越好(因为R 越接近1, 变量和预报变量的线性相关性越强)。 变量和预报变量的线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析, 如果某组数据可能采取几种不同回归方程进行回归分析, 总的来说: 总的来说: 则可以通过比较R 的值来做出选择, 选取R 。 则可以通过比较R2的值来做出选择,即选取R2较大的模型作为 相关指数R2是度量模型拟合效果的一种指标。 相关指数 是度量模型拟合效果的一种指标 这组数据的模型。 它代表自变量刻画预报变量的能力。 在线性模型中, 在线性模型中,
回归分析的基本思想及其初步应用(H)
用身高预报体重时,需要注意下列问题: 用身高预报体重时,需要注意下列问题: 1、回归方程只适用于我们所研究的样本的总体; 、回归方程只适用于我们所研究的样本的总体; 2、我们所建立的回归方程一般都有时间性; 、我们所建立的回归方程一般都有时间性; 3、样本采集的范围会影响回归方程的适用范围; 、样本采集的范围会影响回归方程的
适用范围; 4、不能期望回归方程得到的预报值就是预报变量的 精确值。事实上,它是预报变量的可能取值的平均值。 精确值。事实上,它是预报变量的可能取值的平均值。
回归分析的基本思想及其初步应用(H)
一般地,建立回归模型的基本步骤为: 一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解析变量,哪个变量 确定研究对象,明确哪个变量是解析变量, 是预报变量。 是预报变量。 (2)画出确定好的解析变量和预报变量的散点图,观察 画出确定好的解析变量和预报变量的散点图, 它们之间的关系(如是否存在线性关系等)。 它们之间的关系(如是否存在线性关系等)。 (3)由经验确定回归方程的类型(如我们观察到数据呈线 由经验确定回归方程的类型( 性关系,则选用线性回归方程y=bx+a y=bx+a) 性关系,则选用线性回归方程y=bx+a). (4)按一定规则估计回归方程中的参数(如最小二乘法)。 按一定规则估计回归方程中的参数(如最小二乘法)。 (5)得出结果后分析残差图是否有异常(个别数据对应残差 得出结果后分析残差图是否有异常( 过大,或残差呈现不随机的规律性,等等),过存在异常, ),过存在异常 过大,或残差呈现不随机的规律性,等等),过存在异常,则 检查数据是否有误,或模型是否合适等。 检查数据是否有误,或模型是否合适等。
回归分析的基本思想及其初步应用(H)
作业: 作业: 块并排的、 在7块并排的、形状大小相同的实验田上进行施 块并排的 肥量对水稻产量影响的试验, 肥量对水稻产量影响的试验,得到如下一组表所示 的数据(单位: ) 的数据(单位:kg)施化肥量x 施化肥量x 水稻产量y 水稻产量y 15 330 20 345 25 365 30 405 35 445 40 450 45 455
(1)以x为解释变量,y为预报变量,作出散点图 以 为解释变量 为解释变量, 为预报变量 为预报变量, (2)求y与x之间的回归方程,并求施肥量为 之间的回归方程, 求 与 之间的回归方程 并求施肥量为28kg时 时 的水稻产量的预报值 (3)计算各组残差,并计算残差平方和 计算各组残差, 计算各组残差 (4)求R2,并说明残差变量对产量影响有多大? 并说明残差变量对产量影响有多大? 求