是我们不想要的,称为“脏数据”。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
3. 数据分析方法论与具体的数据分析方法有何区别? 数据分析方法论与数据分析法的区别 数据分析方法论主要用来指导数据分析师进行一个完整的数据分析,它更多的是指导数据分析思路,比如,主要从哪几个方面开展数据分析?各方面包含什么内容或指标? 数据分析方法论从宏观角度指导如何进行数据分析,它就像是一个数据分析的前期规划,指导着后期数据分析工作的开展。而数据分析法则是指各种具体的方法,主要从微观层面指导如何进行数据分析。 4. 简述类型抽样与整群抽样的区别。
5. 在数据分析方法的层次上,5W2H属于方法论还是具体的方法,简述其主要内容。
方法论,具体内容:why(何因)what(何事)who(何人)when(何时)where(何地)how(如何做)how much(何价)。
(1) WHAT--是什么?目的是什么?做什么工作?
(2) HOW --怎么做?如何提高效率?如何实施?方法怎样?
(3) WHY--为什么?为什么要这么做?理由何在?原因是什么?造成这样的结果为什么? (4)WHEN--何时?什么时间完成?什么时机最适宜? (5) WHERE--何处?在哪里做?从哪里入手? (6) WHO--谁?由谁来承担?谁来完成?谁负责?
(7) HOW MUCH--多少?做到什么程度?数量如何?质量水平如何?费用产出如何? 6. 假设检验的总体思路是怎样的,简述之。(PPT 95)
总思路是:
1)根据问题的需要对所研究的总体作某种假设,记作 H0;
2)选取合适的统计量,这个统计量的选取要使得在假设 H0 成立时,其分布为已知;
3)由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受 假设 H0 的判断。
7. 以下为SPSS中相关分析的结果图,试对其进行分析。
从上图可知,皮尔森相关系数是为-0.449,Sig.=0.013,样本量为30,Sig.<0.05,拒绝原假设,接收备选假设,即 xy 0。即文盲率与人均GDP存在相关性,文盲率与人均GDP负相关,但是-0.5<-0.449<0,所以相关性较小。