手机版

数据挖掘中分类技术应用(5)

发布时间：2021-06-05 来源：未知

小中大

字号：

西安电子科技大学数据挖掘课程课件,关于分类聚部分的

的训练可能需要很多个训练周期，经常是几百个。训练完成之后得到的神经网络就是在通过训练集发现的模型，描述了训练集中响应变量受预测变量影响的变化规律。

由于神经网络隐含层中的可变参数太多，如果训练时间足够长的话，神经网络很可能把训练集的所有细节信息都“记”下来，而不是建立一个忽略细节只具有规律性的模型，我们称这种情况为训练过度。显然这种“模型”对训练集会有很高的准确率，而一旦离开训练集应用到其他数据，很可能准确度急剧下降。为了防止这种训练过度的情况，我们必须知道在什么时候要停止训练。在有些软件实现中会在训练的同时用一个测试集来计算神经网络在此测试集上的正确率，一旦这个正确率不再升高甚至开始下降时，那么就认为现在神经网络已经达到做好的状态了可以停止训练。

图6中的曲线可以帮我们理解为什么利用测试集能防止训练过度的出现。在图中可以看到训练集和测试集的错误率在一开始都随着训练周期的增加不断降低，而测试集的错误率在达到一个谷底后反而开始上升，我们认为这个开始上升的时刻就是应该停止训练的时刻。

数据挖掘中分类技术应用(5).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档