数据挖掘试题参考答案
人员配合市场推出的各项优惠政策( 尤其是存话费、赠话费等) , 细分市场, 使该类优惠政策达到最好的效果。 通过对客户信用度的划分, 使决策人员能够清晰地看到,了解本网用户的信用度构成, 使其在制定、研究营销政策的时候做到心中有数。 数据的收集和抽取 数据收集和抽取的过程就是要理解、熟悉客户数据, 能够将商业理解转化为对数据的理解, 从而有针对性的开展数据挖掘。具体包括如下过程: 2.1数据源描述 对电信客户信用度的评估, 主要使用到数据源主要包括:行为数据、客户属性数据。具体到业务层面包含的信息有:客户的档案、身份信息、年龄、性别、历史欠费情况、往月的帐务消费情况等。 2.2数据质量描述 对获取的各变量进行分析探索, 选取可使用的关键变量(如年龄、话费等),可使用图形来展示这些关键的字段的分布。 数据准备
电信客户的用户群很大,且业务繁杂,拥有多个业务系统,各个系统对于参数
的定义和归类也是不尽相同的, 统一、整合各个系统中的信息, 使之能够达到参
数一致化, 能够满足挖掘目标的要求, 需要处理的数据量也是非常巨大的, 具
体处理步骤如下:
3.1数据的整合
3.2清洗数据
3.3构建数据
3.4选择数据
3.5确定训练集和结果集
建立挖掘模型
信用度挖掘变量很多, 数据结构也比较复杂,目前对于其研究也很多,而最常
用的挖掘方法为神经元网络和 C5.0 决策树两种算法。
建模之前, 我们需要对训练集的数据做修改: 即在训练集数据中加入结果字段,
供训练模型使用,我们首先根据业务需求人为划定信用度档次, 初步将信用度
划分为3个层次: 欠费回收情况、月均加权区内消费、区内消费变异系数。
经过以上三轮信用度划分, 可以划分结果为 AAA-EEE。
欠费回收情况首先反映了信用度的主要方面, 如果一个用户欠3个月以上才能
缴费或者不能缴费, 这样的用户对于电信公司来讲, 信用度应该是最差的"反之, 未发生欠费的用户信用度应该是最高的;
划分的第二个指标之所以选择了区内通话费, 是因为: 在用户消费过程中, 长
途等消费每个月的波动是比较大的, 我们在进行划分档次的时候应该尽量选择
比较平稳的指标, 所以本文选择了区内通话费,为了剔出1个月区内话费可能的
突高情况带来的噪声, 采用了近6个月区内消费金额的加权平均数。
划分的第三个指标采用了区内消费的变异系数, 反映了月 区内消费的波动情
况, 即: 越稳定的用户信用级别越高, 反之, 波动比较大的用户级别低。
而后根据两个算法进行建模分析。
模型选择
模型的选择和实际业务的需求密切相关, 和数据挖掘人员对业务逻辑的掌握是