CN114139624A

CN114139624A - 一种基于集成模型挖掘时间序列数据相似性信息的方法

Info

Publication number: CN114139624A
Application number: CN202111438131.4A
Authority: CN
Inventors: 杨旭; 王淼; 雷云霖; 蔡建
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-04

Abstract

一种基于集成模型的用于挖掘时间序列数据相似性信息的方法，其中包括了隐马尔可夫模型以及基于Wasserstein距离的条件变分自编码器模型。该方法建立输入层，对输入的时间序列进行初步处理；随后由隐马尔可夫分类层和条件变分编码器层分别进行对输入数据进行学习并分类；学习结束后，通过进一步优化，将两层将两个分类模型通过Stacking算法融合，可以并行训练。同时创新型地使用Wasserstein距离取代KL散度来度量两个时间序列的距离，让分类器具有更广泛的应用。本发明不仅可以更好地开展从时间序列隐藏状态和分布上的相似信息挖掘，还能将挖掘到的所有信息融合，这使得模型的学习更有效，运行效率更高且具有更广泛的应用性。

Description

一种基于集成模型挖掘时间序列数据相似性信息的方法

技术领域

本发明属于数据挖掘、机器学习技术领域，特别涉及一种基于集成模型挖掘时间序列数据相似性信息的方法。

背景技术

在时间序列数据挖掘中，相似性信息是比较关键的信息，也是数据挖掘的出发点之一。但是现在对于时间序列数据的挖掘中，很多算法都丢失了数据分布的相似性信息，只是从数据的角度进行相似性计算。这种仅仅依靠数据角度的相似性挖掘是一种信息损失，这种损失会导致一些隐式包含在时间序列数据的特征被丢失，会影响学习的效果，导致学习到的分布和真实分布差距较大。目前缺乏利用时间序列分布信息的算法，分布相似性是统计学中重点研究的问题之一，但在挖掘时间序列数据信息中，挖掘分布相似性还没有被广泛地讨论。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于集成模型挖掘时间序列数据相似性信息的方法，基于集成模型，集成了用于挖掘时间序列数据隐信息的隐马尔可夫分类器和用于挖掘时间序列数据分布相似信息的基于Wasserstein距离的条件变分自编码分类器，利用集成模型学习挖掘时间序列数据信息，将时间序列数据分类。本发明不仅可以有效地分类时间序列数据，还可以集成时间序列数据的离散性信息和连续性信息，使得学习更有效，可以并行，运行效率更高。

为了实现上述目的，本发明采用的技术方案是：

一种由隐马尔可夫模型和基于Wasserstein距离的条件变分自编码器集成的用于挖掘时间序列分布相似性信息的方法，包括如下步骤：

步骤1：对原始的时间序列数据进行处理，得到处理后的时间序列数据。原始的时间序列数据是指直接采集到的未分类的时间序列数据，原始的时间序列数据可以被分成一个或者多个类别，具体包括如下步骤：

步骤1.1：将原始的时间序列数据进行分类，使用杰卡德距离度量原始的时间序列，将距离相近的时间序列数据聚类，得到分类的时间序列数据；

步骤1.2：对步骤1.1中得到的分类的时间序列数据的某一类中某一个时间序列数据A使用最小哈希函数转化成签名向量sig(A)；

步骤1.3：在得到步骤1.2的sig(A)后，将sig(A)分成不同的段，每个段上都有一个段位标记。

步骤1.4：对步骤1.1中的所有分类的时间序列数据重复步骤1.1到步骤1.3，这样得到了所有分类的时间序列数据的段位标记，根据相同的段位标记确定分类的时间序列数据的相似性，将段位标记不同的数据删除，完成数据预处理，得到处理后的时间序列数据。

步骤2：建立基础分类层，将处理后的时间序列数据输入到基础分类层中的若干个弱分类器进行初步分类；基础分类层包括两个模型，分别是利用隐马尔可夫模型得到的隐马尔可夫弱分类器和利用基于Wasserstein距离的条件变分自编码器得到的条件变分自编码器弱分类器；基础分类层输出一个与输入数据大小相同的新数据集，具体包括如下步骤：

步骤2.1：将步骤1得到的处理后的时间序列数据输入到基础分类层的隐马尔可夫分类模型中，使用前向-后向算法、鲍姆-韦尔奇算法求解参数，使用维特比算法进行解码，得到隐马尔可夫弱分类器，求解参数具体包括如下步骤：

步骤2.1.1：对一个处理后的时间序列数据O＝{o₁，o₂，o₃…，o_T}使用前向-后向算法，计算得到处理后的时间序列数据在隐马尔可夫分类器λ＝(A,B,π)时的出现概率P(O|λ)。其中o₁，o₂，o₃…，o_T表示从时刻1到时刻T的处理后的时间序列数据的数值，A表示隐藏状态转移概率矩阵，B表示观测状态生成概率矩阵，观测状态即指处理后的时间序列数据数值，π表示隐藏状态的初始概率分布；

步骤2.1.2：对D个处理后的时间序列数据{(O₁)，(O₂)，...，(O_D)}使用鲍姆-韦尔奇算法计算得到隐马尔可夫分类器λ的参数A,B,π。其中，(O_i)，i＝1,2,…D表示第i个处理后的时间序列数据；

步骤2.1.3：对隐马尔可夫分类器λ＝(A，B，Π)使用维特比算法，计算得到处理后的时间序列O＝{o₁，o₂，o₃…，o_T}最有可能的隐藏状态序列

其中

表示处理后的时间序列数据O在时刻i的数值o_i的隐藏状态。

步骤2.2：将步骤1得到的处理后的时间序列数据输入到基础分类层的条件变分自编码器，使用Sinkhorn近似算法计算时间序列数据的Wasserstein距离，得到条件变分自编码器弱分类器，构建条件变分自编码器弱分类器包括如下步骤：

步骤2.2.1：对处理后的时间序列数据中的某一类数据进行抽样，得到一个时间序列数据样本O，通过神经网络编码器输出正态分布的统计量μ,σ²，其中μ表示正态分布的均值，σ²表示正态分布的方差；

步骤2.2.2：对标准正态分布N(0,1)进行抽样，得到一个样本∈。对步骤2.2.1神经网络编码器输出的μ,σ²和样本∈进行公式1的运算得到

其中，

服从正态分布N(μ,σ²)；

步骤2.2.3：

经过神经网络解码器输出和处理后的时间序列数据相同维度的数据

步骤2.2.4：使用Wasserstein距离测量处理后的时间序列数据样本O和神经网络解码器输出数据

的距离作为优化目标误差ε的一部分。多次迭代让优化目标达到最优，得到训练好的神经网络解码器，计算Wasserstein距离包括如下步骤：

步骤2.2.4.1：通过引入熵正则项对处理后的时间序列数据样本O和神经网络解码器输出数据

进行降维平滑处理，熵正则函数为：

其中，p(x)表示处理后的时间序列数据分布函数，p(x_k)表示时刻k时处理后的时间序列数据为x_k的概率；

步骤2.2.4.2：使用Sinkhorn近似算法计算Wasserstein距离来简化计算量。结合步骤2.2.4.1的熵正则函数得到Wasserstein距离的计算公式为公式2：

其中，

表示处理后的时间序列数据O和神经网络解码器输出数据

的Wasserstein距离，

表示在时刻n时，从

转移到o_n的代价函数；

步骤2.2.4.3：把Wasserstein距离整合到优化目标误差ε中，得到优化目标的表达是为公式3；

其中，

表示由

重建O的重建误差，计算方式为公式4。

其中，

表示重建O的结果是

的概率；

步骤2.2.5：将处理后的时间序列数据输入到步骤2.2.4中的神经网络编码器和训练好的神经网络解码器中，输出得到和处理后的时间序列数据分布接近一致的生成时间序列数据。

步骤3：建立集成融合层，利用基础分类层的输出作为集成融合层的输入，通过融合基础分类层中的若干个弱分类器进行集成学习训练出次级学习器，得到最后的集成模型，具体包括如下步骤；

步骤3.1：将处理后的时间序列数据输入到基础分类层中的两个弱分类器，收集输出数据作为集成训练数据集，集成训练数据集的数据类别个数和处理后的时间序列数据的数据类别个数一致。

步骤3.2：构建次级学习器，将步骤3.1中收集的集成训练数据集作为次级学习器的训练数据，使次级学习器学习基础分类层的输出，构建次级学习器的过程包括如下步骤：

步骤3.2.1：使用支持向量机分类器作为次级学习器，在任意两类样本之间构建一个支持向量机来进行分类。因此，如果集成训练数据集的数据类别个数为k，那么就需要构建

个支持向量机分类器；

步骤3.2.2：将集成训练数据集输入

个支持向量机分类器进行训练，训练结束后，对于未知类别的样本，统计每个支持向量机分类器的分类类别，得票最多的类别为该未知类别样本的类别，并将类别作为输出；

步骤3.3：将次级学习器的输出作为集成融合层的最终输出。

步骤4：利用得到的集成模型挖掘时间序列数据的相似性信息。

与现有技术相比，本发明的有益效果是：

1)、本发明可以基于隐变量对时间序列数据的相似性特征进行提取，可以集成时间序列的离散信息和连续信息并用于数据挖掘，补充现在时间序列数据挖掘方法的空白。

2)、本发明引入了基于Wasserstein距离的条件变分自编码器，将原模型中用于度量的KL散度改为Wasserstein距离，并利用Sinkhorn算法进行近似计算，使得隐变量对更广泛的数据分布进行拟合，节省计算资源。

3)、本发明引入了集成学习，利用Stacking融合模型优化算法将挖掘时间序列隐藏状态信息的隐马尔可夫模型和把时间序列相似性信息数字化的基于Wasserstein距离的条件变分自编码器模型集成融合，降低冗余性，使得基学习器能相互取长补短，提到分类的准确性和运行效率。

4)、本发明可以用于时间序列数据异常检测和交通流数据预测，对于时间序列数据异常检测，可将正常情况的时间序列作为训练数据输入集成模型中学习，随后将需要检测的数据输入到模型中进行分类，得到待检测数据是否为异常数据，本方法可以实时处理，能够及时预警。对于交通流数据预测来说，先将一致的交通流数据进行标记处理，输入到集成模型中学习，学习结束后将待检测数据输入，判断此时的交通流是否有拥堵的可能性，可以改进其他方法对突发情况的预测不及时的缺陷，增加模型的鲁棒性。

附图说明

图1是本发明整体结构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，一种基于集成模型的用于挖掘时间序列数据相似性信息的方法，构建输入层、基础分类层和集成融合层。原始数据输入到输入层后经过数据预处理后得到样本数据。基础分类层包括两个弱分类器，分别是隐马尔可夫弱分类器和基于Wasserstein距离的条件变分自编码弱分类器。将处理后的时间序列数据并行输入到两个弱分类器中进行学习分类，输入到隐马尔可夫弱分类器后，针对每一类数据分别训练学习n个隐马尔可夫弱分类器λ₁，λ₂，…，λ_n，将处理后的时间序列数据输入到所有的分类器中得到n个概率p₁，p₂，…，p_n，取所有结果中的最大值所在的类别标签作为隐马尔可夫弱分类器的最终分类结果。在使用隐马尔可夫弱分类器的同时，把处理后的时间序列数据输入到基于Wasserstein距离的条件变分自编码器弱分类器中学习训练，在输入中抽样得到样本x，x经过神经网络编码器得到正态分布N(μ,σ²)的充分统计量：均值μ以及方差σ²；随后由N(μ,σ²)抽样得到z，z经过神经网络解码器输出

这样就利用学习训练好的神经网络解码器由已知样本x生成了同分布下的新样本

最后将两个弱分类器的输出作为集成融合层的输入。这种集成算法可以在数据挖掘时结合两个方向的信息，使模型挖掘的信息更多，学习能力更强；同时，基学习器可以并行训练，运行效率更高。

参考图1，以挖掘时间序列数据为例，本发明包括如下步骤：

步骤1：对原始的时间序列数据进行预处理，得到处理后的时间序列数据。原始的时间序列数据是指直接采集到的未分类的时间序列数据，原始的时间序列数据可以被分成一个或者多个类别，具体包括如下步骤：

其中

表示处理后的时间序列数据O在时刻i的数值o_i的隐藏状态。

其中，

服从正态分布N(μ,σ²)；

步骤2.2.3：

进行降维平滑处理，熵正则函数为：

其中，

表示处理后的时间序列数据O和神经网络解码器输出数据

的Wasserstein距离，

表示在时刻n时，从

转移到o_n的代价函数；

其中，

表示由

重建O的重建误差，计算方式为公式4。

其中，

表示重建O的结果是

的概率；

个支持向量机分类器；

步骤3.2.2：将集成训练数据集输入

步骤3.3：将次级学习器的输出作为集成融合层的最终输出。

以下是本发明在网站识别中的一个具体应用案例。以五个网站流量的时间序列数据为实验数据，通过集成模型挖掘时间序列数据的相似性进行网络识别，确认未知类别的网站流量时间序列数据的所属类别。

在该例中，原始时间序列数据为长度为2525，宽度为1024的时间序列，长度表示本例的时间序列数据包含的采集时刻数量，宽度表示每个采集时刻对应的网站流量，原始时间序列数据中包含了5个网站的流量时间序列数据。首先，对原始时间序列数据进行数据预处理，在该例中选择局部敏感哈希算法删除部分数据，所以在最小哈希处理数据的基础上，将每个签名向量分为六段，将相似度尽可能高的数据保留，相似度较低的数据删除，降低噪声的干扰。随后，对每一类网站的时间序列数据中选择200个作为原始时间序列数据得到处理后的时间序列数据。下一步，对处理后的时间序列数据按照类别依次输入到本发明所述的步骤2构建基础分类层。下一步，将处理后的时间序列数据输入本发明所述的步骤2.1的隐马尔可夫弱分类器中进行隐信息挖掘，本例中输入的大小是1024*1。同时，将处理后的时间序列数据并行输入本发明所述的步骤2.2的基于Wasserstein距离的条件变分自编码器弱分类器中学习输入时间序列数据的分布，本例中输入数据的大小是1024*1。值得注意的是，如步骤2.2.1所述，在抽样时需要保证抽得的样本分布均匀，因此对每一类的处理后的时间序列数据的采集个数是相同的。然后按照本发明所述的步骤2.2.2到步骤2.2.5对抽样的时间序列数据进行学习。学习结束后，将基础分类层的输出作为集成融合层的输入，按照本发明的步骤3对输入进行学习，等待集成融合层学习结束后，集成融合层就可以用来进行网站识别。将未知网站的流量时间序列数据输入到集成融合层中，得到的输出分类就是该未知网站的类别。

本发明还可以用于其他工业场景，比如交通流的预测。需要注意的是，交通流预测是一个回归问题而不是分类问题，因此需要对集成模型的输出稍作修改，依靠基于Wasserstein距离的条件变分自编码器来学习交通流数据的分布，输出对某一时刻的预测流量。具体步骤为：首先，原始的时间序列数据为某地的交通流量时间序列数据，原始的时间序列数据长度表示该时间序列包含的时刻数量，宽度表示某时刻的交通流量。其次，将原始时间序列数据进行预处理，得到处理后的时间序列数据。下一步，将处理后的时间序列数据输入到基础分类层进行类别信息挖掘，得到输出数据。下一步，将基础分类层输出的时刻作为集成融合层中的次级学习器的输入来学习基础分类层输出的交通流量，次级学习器的输出是交通流量，并将次级学习器的输出作为集成融合层的输出。最后，将需要预测的时刻输入到集成融合层中，得到的输出就是预测的交通流量。这样就通过挖掘交通流量时间序列数据的相似性信息来进行预测。

同时，本发明还可以用于其他维度的时间序列数据，比如识别语音来源，语音时间序列数据包含了发音时刻、发音时长、发音间隔三个维度，比上述案例中的网站流量时间序列数据和交通流量时间序列数据多了一个维度。可以直接将语音时间序列数据输入到基础分类层中进行分类学习，随后将基础分类层的输出作为集成融合层的输入进行分类学习，最后将未知类别的语音时间序列数据作为集成融合层的输入，输出的类别为未知类别的语音时间序列数据的类别。这样就可以利用同来源的语音时间序列数据的相似性来识别语音来源。

Claims

1.一种基于集成模型挖掘时间序列数据相似性信息的方法，其特征在于，包括如下步骤：

步骤1：对原始的时间序列数据进行处理，将其分成一个或者多个类别，所述原始的时间序列数据是指直接采集到的未分类的时间序列数据；

步骤2：建立基础分类层，将处理后的时间序列数据输入到基础分类层中的若干个弱分类器进行初步分类；基础分类层包括两个模型，分别是利用隐马尔可夫模型得到的隐马尔可夫弱分类器和利用基于Wasserstein距离的条件变分自编码器得到的条件变分自编码器弱分类器；基础分类层输出一个与输入数据大小相同的新数据集；

步骤3：建立集成融合层，利用基础分类层的输出作为集成融合层的输入，通过融合基础分类层中的若干个弱分类器进行集成学习训练出次级学习器，得到最后的集成模型；

2.根据权利要求1所述基于集成模型挖掘时间序列数据相似性信息的方法，其特征在于，所述步骤1具体包括以下步骤：

步骤1.2：对分类的时间序列数据的某一类中某一个时间序列数据A使用最小哈希函数转化成签名向量sig(A)；

步骤1.3：将sig(A)分成不同的段，每个段上都有一个段位标记；

步骤1.4：对所有分类的时间序列数据重复步骤1.2到步骤1.4，得到了所有分类的时间序列数据的段位标记，根据相同的段位标记确定分类的时间序列数据的相似性，将段位标记不同的数据删除，完成数据处理。

3.根据权利要求1所述基于集成模型挖掘时间序列数据相似性信息的方法，其特征在于，所述步骤2建立基础分类层具体包括以下步骤：

步骤2.1：将处理后的时间序列数据输入到基础分类层的隐马尔可夫分类模型中，使用前向-后向算法、鲍姆-韦尔奇算法求解参数，使用维特比算法进行解码，得到隐马尔可夫弱分类器；

步骤2.2：将处理后的时间序列数据输入到基础分类层的条件变分自编码器，使用Sinkhorn近似算法计算时间序列数据的Wasserstein距离，得到条件变分自编码器弱分类器。

4.根据权利要求3所述基于集成模型挖掘时间序列数据相似性信息的方法，其特征在于，所述步骤2.1构建隐马尔可夫弱分类器具体包括以下步骤：

步骤2.1.1：对一个处理后的时间序列数据O＝{o₁，o₂，o₃…，o_T}使用前向-后向算法，计算得到处理后的时间序列数据在隐马尔可夫分类器λ＝(A,B,π)时的出现概率P(O|λ)；其中o₁，o₂，o₃…，o_T表示从时刻1到时刻T的处理后的时间序列数据的数值，A表示隐藏状态转移概率矩阵，B表示观测状态生成概率矩阵，观测状态即指处理后的时间序列数据数值，π表示隐藏状态的初始概率分布；

步骤2.1.2：对D个处理后的时间序列数据{(O₁)，(O₂)，...，(O_D)}使用鲍姆-韦尔奇算法计算得到隐马尔可夫分类器λ的参数A,B,π；其中，(O_i)，i＝1,2,…D表示第i个处理后的时间序列数据；