(A) 这里的关联规则可以描述为 IF Body THEN Head的形式 (B) IF (Gender=Male) Then (Pizza) 的置信度是70.12195% (C) 在此题中,IF (Gender=Male) Then (Pizza) 与IF (Pizza) Then(Gender=Male)的支持度均相同,这是正
确的
(D) 在此题中57.5%的支持度表示的是Head supp。 15. 关于下图的描述中,错误的是(C)。
(A) 上图反映了质心之间的距离 (B) 上图反映了两个类之间的距离
(C) 这是K-means聚类分析的结果,即基于分类的成批修改法 (D) 类之间距离的计算方法有最长距离法、最短距离法等
三、简答题(抄题干及分析,不用画图)
1. 区分如下四个概念:类型抽样、等距抽样、整群抽样、多阶段抽样。 类型抽样 类型抽样也称分层抽样,是将总体中的各单位按照某种特征或某种规则划分成若干个不同的类型组,然后从各类型组中独立、随机地抽取样本,再将各类型组的样本结合起来,对总体的目标量进行估计。 等距抽样 等距抽样又称系统抽样,是将总体中各单位按照某一标志顺序排列,在规定的范围内随机确定起点,然后按照一定的间隔抽取其他样本单位的抽样组织形式。 整群抽样 整群抽样是将总体各单位划分为若干群,然后以群为单位从中随机抽取一些群,对抽中群的所有单位都进行调查的抽样组织形式。 多阶段抽样 多阶段抽样也称多级抽样或阶段抽样,是将对总体单位的整个抽样过程分为两个或更多个阶段进行,先从总体中抽选若干个大的样本群,称为第一阶段单位,然后从被抽中的若干个大的单位群中,抽选较小的样本单位,以此类推。 2. 为什么要进行数据清洗?
1. 重复数据处理 2. 处理缺失数据 3. 检查数据逻辑错误
数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史
数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然