何晓群编著,《现代统计分析方法与应用》第三版,中国人民大学出版社,2012。数据和部分程序下载 第2章
服装标准例程序利用R软件,运行如下R程序便可计算相应的条件均值和条件协方差矩阵: #均值向量
m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1); m;
#协方差矩阵
sigma=matrix(c(29.66,6.51,1.85,9.36,10.34, 6.51,30.53,25.54,3.54,19.53, 1.85,25.54,39.86,2.23,20.70, 9.36,3.54,2.23,7.03,5.21,
10.34,19.53,20.70,5.21,27.36),5,5); sigma;
#条件均值 x5=85;
m1=matrix(m[1:4,1],4,1)+matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%(x5-sigma[5,1]); m1;
#条件协方差1(d[x1,x2,x3,x4|x5])
d1=sigma[1:4,1:4]-matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%matrix(sigma[5,1:4],1,4); d1;
#条件协方差2(d[x1,x2,x3|x4,x5])
d2=d1[1:3,1:3]-matrix(d1[1:3,4]*d1[4,4]^(-1),3,1)%*%matrix(d1[4,1:3],1,3); d2;
注:上面程序假定X5 85,可以根据实际情况更改X5的值以计算相应的条件均值。 利用R软件,运行如下的R程序便可计算出偏相关系数: #均值向量
m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1); m;
#协方差矩阵
sigma=matrix(c(29.66,6.51,1.85,9.36,10.34, 6.51,30.53,25.54,3.54,19.53, 1.85,25.54,39.86,2.23,20.70, 9.36,3.54,2.23,7.03,5.21,
10.34,19.53,20.70,5.21,27.36),5,5); sigma;
#偏相关系数1(r[12.45])
r1=d2[1,2]/sqrt(d2[1,1]*d2[2,2]); r1;
#偏相关系数2(r[13.45])
r2=d2[1,3]/sqrt(d2[1,1]*d2[3,3]); r2;
#偏相关系数3(r[23.45])
r3=d2[2,3]/sqrt(d2[2,2]*d2[3,3]); r3;
第3章
例3.1 某超市为了研究顾客对三种牌号的矿泉水的喜好比例,以便为下一次进货提供决策,随机观察了150名购买者,并记录下他们所买的品牌,统计出购买三种品牌的人数如表3-1。
表3-1 顾客购买喜好调查
这些数据是否说明顾客对这三种矿泉水的喜好确实存在差异?
表3-7 喜好地板的数据
表3-9
(n)的计算(括号中的数) Eij
表3-11
表3-12
表3-13
表3-15 工作表现按地区划分的结果
表3-17 按所喜欢的电视节目类型分类的三组人员样本
表3-19 宾馆注销房间的数据
表3-20
2检验的计算
表3-23
表3-24
2检验的计算
表3-26
6.在进行一项市场调查时,得到了关于375个家庭的户主受教育水平和年收入的资料。表3-27是这些资料按两种标准进行交叉分类的结果。试以0.05的显著性水平检验关于收入与受教育水平彼此独立的零假设。
表3-27
表3-28
表3-29
第4章
例4.1 假定我们需要研究化肥施用量与粮食产量的关系,以便准确地定出化肥施用量的单位变化如何影响粮食产量的平均单位变化,进而确定合理的化肥施用量。表4.1列出了20组粮食产量与化肥施用量的数据。图4.1给出20个样本点的分布状况。
表4.1
粮食产量与化肥施用量
例4.2 在研究我国人均消费水平的问题中,把全国人均消费金额记作y(元);把人均国民收入记为x(元)。我们收集到1986-2005年20年的样本数据(xi,yi),i=1,2, ,n。数据见表4.2。
表4.2 人均国民收入表
表4.8 1973年Anscombe构造了四组数据
表4--9 表4--10 第5章
表5.4
表5.7
表5.10
第5章习题9的数据 表5.11
第6章 数据
表6-7
表6-9
第7章
例7.3表7-1是五大钢铁公司反映经营状况的十大指标,为了比较国内钢铁公司与韩国蒲项钢铁公司的差距,下面做出韩国蒲项钢铁公司、宝钢、鞍钢、武钢、首钢五家钢铁公司的脸谱图。
表7-1
例7.4资料仍取我国35个上市公司的资料。常见的EXCEL就可画出很漂亮的雷达图。用EXCEL画雷达图的方法,比如仅对深能源和深南电两公司画雷达图,方法如下:
在EXCEL窗口中,输入资料格式如下:
例 7.7
附:MATLAB做星座图的程序
%每一行为一个样本,行数目代表样本数,列数目代表维数
X=[109.61 8.71 18.51 3.36 10.91 19.19 61.02 29.73 127.17 10.5 17.53 2.75 10.29 14.34 58.81 80.63
118.87 9.73 20.44 5.2 7.65 18.74 53.21 60.35 125.74 10.93 14.19 6.12 13.53 17.85 68.05 47.46]; [row,col]=size(X); %1 将数据变换为角度 Xmin=min(X); %1 * col Xmax=max(X); %1 * col
Sita=(X-ones(row,1)*Xmin)./(ones(row,1)*Xmax-ones(row,1)*Xmin)*pi; %2 适当的选取权重 w=1/col; %3 每一点的路径 Xi=cos(Sita); Yi=sin(Sita); Uk=w*cumsum(Xi,2); Vk=w*cumsum(Yi,2); %4 画一个半径为1的上半圆 i=[0:pi/100:pi]; hold on;
plot(cos(i),sin(i)); hold on;
plot([-1:1/100:1],0*[-1:1/100:1]); %5 画星座图 for i=1:row hold on;
plot(Uk(i,:),Vk(i,:),'.-'); hold on;
plot(Uk(i,col),Vk(i,col),'*'); end
第8章
[例8.1] 若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表8.1。在表中,“标准工资收入” 、“职工奖金” 、“职工津贴” 、“性别” 、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数” 、“政治面貌” 等,指标如何选择取决于聚类的目的。 表8.1 某市2001年城镇居民户主个人收入数据
X1 职工标准工资收入 X5 单位得到的其他收入 X2 职工奖金收入 X6 其他收入 X3 职工津贴收入 X7 性别 X4 其他工资性收入 X8 就业身份 X1 540.00 1137.00 1236.00 1008.00 1723.00
X2 0.0 125.00 300.00 0.0 419.00 X3 0.0 96.00 270.00 96.00 400.00 X4 0.0 0.0 0.0 0.0 0.0 X5 0.0 109.00 102.00 86.0 122.00 X6 6.00 812.00 318.00 246.00 312.00 X7 男 女 女 男 男 X8 国有 集体 国有 集体 国有
1080.00 1326.00 1110.00 1012.00 1209.00 1101.00 569.00 0.0 110.00 88.00 102.00 215.00 147.00 300.00 96.00 298.00 179.00 201.00 156.00 0.0 0.0 0.0 67.00 39.00 210.00 148.00 80.00 79.00 198.00 146.00 318.00 312.00 193.00 278.00 514.00 477.00 男 女 女 女 男 男 集体 国有 集体 国有 集体 集体
【例8.3】 为了研究辽宁等5省份2000年城镇居民消费支出的分布规律,根据调查资料作类型划分。指标名称及原始数据见表8.3。资料来源中国统计年鉴(2000年)。 表8.3 2000年5个省市城镇居民平均每人全年消费性支出数据
X1 食品支出(元/人) X5 交通和通讯支出(元/人)
X2 衣着支出(元/人) X6 娱乐、教育和文化服务支出(元/人) X3 家庭设备、用品及服务支出(元/人) X7 居住支出(元/人)
X4 医疗保健支出(元/人) X8 杂项商品和服务支出(元/人)
辽宁 浙江 河南 甘肃 青海
X1 1772.14 2752.25 1386.76 1552.77 1711.03
X2 568.25 569.95 460.99 517.16 458.57
X3 298.66 662.31 312.97 402.03 334.91
X4 352.20 541.06 280.78 272.44 307.24
X5 307.21 623.05 246.24 265.29 297.72
X6 490.83 917.23 407.26 563.10 495.34
X7 364.28 599.98 547.19 302.27 274.48
X8 202.50 354.39 188.52 251.41 306.45
[例8.8] 城镇居民消费水平通常用表8.4中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表8.4。将原始数据录入SPSS,并依次点击“Analyze”→“Correlate” →“Bivariate”,打开Bivariate Correlations对话框,把八个变量选入Variables栏中,单击“OK”,得到这八个指标对应的相关系数,列于表8.5。
表8.4 2005年31个省、市、自治区城镇居民月平均消费数据
x1 人均粮食支出 (元/人) x5 人均衣着支出 (元/人)
x2 人均副食支出 (元/人) x6 人均日用杂品支出 (元/人) x3 人均烟、酒、饮料支出 (元/人) x7 人均水电燃料支出 (元/人) x4 人均其他副食支出 (元/人) x8 人均其他非商品支出 (元/人)
4.近几年,中国房地产业得到了长足的发展,但房地产价格的上涨一直饱受争议,甚至有逃离“北、上、广”的言论,这也从侧面反映了房地产价格的区域性特征,下表为2008年中国31个省、市、自治区房地产业的相关统计数据,试根据这些数据分别进行R型和Q型聚类分析。
表8-8中指标说明如下:
X1:房屋平均销售价格;X2:住宅平均销售价格;
X3:别墅、高档公寓平均销售价格;X4:经济适用房平均销售价格; X5:办公楼平均销售价格;X6:商业营业用房平均销售价格
X7:其他平均销售价格;X8:商品房销售面积;X9:住宅销售面积 表8-8
第9章
表9-1 2005年31个省、市、自治区农村居民家庭平均每人生活消费支出
x1 人均食品支出 (元/人) x5 人均交通和通信支出 (元/人)
x2 人均衣着支出 (元/人) x6 人均文教娱乐用品及服务支出(元/人) x3 人均住房支出 (元/人) x7 人均医疗保健支出 (元/人) 4 人均家庭设备及服务支出 (元/人) 其他商品及服务支出 (元/人)
表9-4 2005年31个省、市、自治区国有及控股工业企业经济效益数据
x1 工业增加值率 (%) x5 工业成本费用利润率 (%) x2 总资产贡献率 (%) x6 全员劳动生产率 (万元/人·年) x3 资产负债率 (%) x7 产品销售率 (%) x4 流动资产周转次数 (次)