手机版

数据分析方法与技术作业及答案(8)

时间：2025-04-28 来源：未知

小中大

字号：

由频繁项集产生强关联规则 confidence(A B)=P(B|A)=

Support_count(A B)

Support_count(A)

基于找出的频繁项集I={I1,I2,I5}可以产生的强关联规则： {I2,I1} I5, confidence=2/4=50% {I1,I5} I2, confidence=2/2=100% {I2,I5} I1, confidence=2/2=100% I1 {I2,I5}, confidence=2/6=100% I2 {I1,I5}, confidence=2/7=29% I5 {I1,I2}, confidence=2/2=100%

最小置信度阈值为70%,则只有2，3和最后一个规则可以输出，这些就是产生的强规则。

3. 已知如下数据集，目标分类属性为 buys_computer，运用ID3算法求出该训练集在根节点的最佳分类。

首先计算该训练集的熵，根据熵公式，需知道各分类的概率， buys_computer= yes 的记录有9条，其概率为9/14, 记该集合为C1

buys_computer= no 的记录有5条，其概率为5/14, 记该集合为C2

entropy(S)

9955

log2() log2()

0.940位 14141414

首先考察age这一分类属性，需要知道按age 分类后的各子集的目标属性集的概率，

age的youth 类有5个样本，其中有2 个属于C1类，即buys_computer= yes，3个属于C2类，即buys_computer= no age的middle_aged 类有4个样本，4 个属于C1类，0个属于C2类 age的senior 类有5个样本，3 个属于C1类，2个属于C2类于是，有：

entropy(S,age)

522334440053322

( log2 log2) ( log2 log2) ( log2 log2) 0.694位145555144444145555

因此，属性age 的增益为：gain(S, age) = entropy(S)－entropy(S, age) = 0.940－0.694=0.246位同理，可计算得：gain(S, income) = 0.029位gain(S, student) = 0.151位gain(S, credit_rating) = 0.048位可见，按属性 age 分类具有最高的增益，因此选择其为分枝属性。其分枝结果如下图示。

3. 已知三个病人五种参考症状的数据情况，计算各样本点之间的雅克比匹配系数；说明该参量的使用

使用雅克比系数，则两两之间的距离为

数据分析方法与技术作业及答案(8).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

上一篇：《盗梦空间》分析

下一篇：人教版六年级上册语文期末复习题

×

二维码

相

关

文

章

分类导航

幼儿教育小学教育初中教育教学研究专业资料资格考试教育文库外语考试高等教育求职职场高中教育实用文档

数据分析方法与技术作业及答案(8)

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签

数据分析方法与技术作业及答案(8)

推荐阅读

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签