时间序列时序关联规则挖掘研究
关联规则,因而时间序列时序关联规则的“对象或者事件”不是单个数据。时间序列的局部变化趋势勾画出了时间序列的大致轮廓,比如局部增减趋势。人们更加注重时间序列的这些局部变化趋势而非单个数据,因而本文以时间序列的局部变化趋势作为时序关联规则的“对象或者事件”。
时间序列时序关联规则挖掘是一个系统工程,要经历时间序列预处理、时间序列压缩、时间序列模式相似性度量、时间序列时序关联规则获取、解释和评价时序关联规则等步骤;每个挖掘步骤方法的优劣决定挖掘时序关联规则的可靠性,也就制约时序关联规则的有效性。
目前时间序列时序关联规则挖掘各个挖掘步骤方法具有不完善性,主要体现在时间序列预处理、时间序列的压缩、时间序列模式的相似性度量等几个方面:
(1)时间序列预处理存在不适宜性。时间序列预处理主要是清洗时间序列中的噪声数据。由于孤立点噪声数据的存在对时间序列的压缩具有很大的影响,从而影响到时序关联规则的挖掘结果,其他噪声数据的存在不会产生类似的影响,所以噪声数据的清洗主要集中在时间序列孤立点的识别上。目前基于统计学【31、基于小波变换【4】以及基于似然比的识别方法不太适用于时间序列孤立点的识别。
(2)时间序列压缩结果存在不确定性。在经典时间序列时序关联规则挖掘中,以给定长度和滑动步长的滑动窗口把时间序列离散成模式序列,然后获取频繁模式,最后生成强时序关联规则151。滑动窗口的长度和滑动步长起着决定作用,但是这两者都由人为给定,因此就导致时间压缩结果具有很大的不确定性,也就决定着时序关联规则的不一致性。
(3)时间序列模式相似性的度量存在不可测性。时间序列模式相似性的度量是获取模式序列中频繁模式的基础,在时序关联规则获取中显得尤为重要。在已有的模式相似性度量方法中,元模式的增减变化趋势就是用单一的.1、0和1表示【61,忽略了时间序列元模式增减的快慢程度以及增减的时间长短,这就使得元模式相似性的度量方法有一定的不合理性,并且现有时间序列模式度量方法只能度量两个相同长度的序列模式的相似性。
由于时间序列时序关联规则具有很强的实用性,同时挖掘方法具不完善性,所以本文以时间序列时序关联规则挖掘作为研究内容,通过理论推导、2