手机版

数据分析方法与技术作业及答案(8)

时间:2025-04-28   来源:未知    
字号:

由频繁项集产生强关联规则 confidence(A B)=P(B|A)=

Support_count(A B)

Support_count(A)

基于找出的频繁项集I={I1,I2,I5}可以产生的强关联规则: {I2,I1} I5, confidence=2/4=50% {I1,I5} I2, confidence=2/2=100% {I2,I5} I1, confidence=2/2=100% I1 {I2,I5}, confidence=2/6=100% I2 {I1,I5}, confidence=2/7=29% I5 {I1,I2}, confidence=2/2=100%

最小置信度阈值为70%,则只有2,3和最后一个规则可以输出,这些就是产生的强规则。

3. 已知如下数据集,目标分类属性为 buys_computer,运用ID3算法求出该训练集在根节点的最佳分类。

首先计算该训练集的熵, 根据熵公式,需知道各分类的概率, buys_computer= yes 的记录有9条,其概率为9/14, 记该集合为C1

buys_computer= no 的记录有5条,其概率为5/14, 记该集合为C2

entropy(S)

9955

log2() log2()

0.940位 14141414

首先考察age这一分类属性,需要知道按age 分类后的各子集的目标属性集的概率,

age的youth 类有5个样本,其中有2 个属于C1类,即buys_computer= yes,3个属于C2类,即buys_computer= no age的middle_aged 类有4个样本,4 个属于C1类,0个属于C2类 age的senior 类有5个样本,3 个属于C1类,2个属于C2类 于是,有:

entropy(S,age)

522334440053322

( log2 log2) ( log2 log2) ( log2 log2) 0.694位145555144444145555

因此,属性age 的增益为:gain(S, age) = entropy(S)-entropy(S, age) = 0.940-0.694=0.246位 同理,可计算得:gain(S, income) = 0.029位gain(S, student) = 0.151位gain(S, credit_rating) = 0.048位 可见,按属性 age 分类具有最高的增益,因此选择其为分枝属性。其分枝结果如下图示。

3. 已知三个病人五种参考症状的数据情况,计算各样本点之间的雅克比匹配系数;说明该参量的使用

使用雅克比系数,则两两之间的距离为

数据分析方法与技术作业及答案(8).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
×
二维码
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)