CN115514376A

CN115514376A - 基于改进符号聚合近似的高频时序数据压缩方法及装置

Info

Publication number: CN115514376A
Application number: CN202211043071.0A
Authority: CN
Inventors: 石振锋; 牛晓东; 肖红彬; 崔鲲
Original assignee: Beijing Thinking Shichuang Technology Co ltd
Current assignee: Beijing Thinking Shichuang Technology Co ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-12-23

Abstract

本发明公开了一种基于改进符号聚合近似的高频时序数据压缩方法及装置，属于时间序列压缩技术领域，其中，该方法包括：使用基于改进象群优化算法的高斯分割模型对时间序列进行划分，得到多个分割点和多个时间序列片段；使用基于改进峰值密度初始化的高斯混合模型对多个时间序列片段进行聚类，得到多个聚类中心、分模块方差和聚类标签；根据分模块方差所占比例对每个聚类中心再次进行等距分割；利用SAX方法将每个类中心的每段均值转化为符号表示，每类第一个字符为大写字母；对同一类的相同的符号表示进行剪切，保留第一个大写字母，最终得到时间序列值压缩数据。该方法采用时序片段的高斯聚类实现了对SAX方法的特征提取和降维。

Description

基于改进符号聚合近似的高频时序数据压缩方法及装置

技术领域

本发明涉及时间序列压缩技术领域，特别涉及一种基于改进符号聚合近似的高频时序数据压缩方法。

背景技术

时间序列压缩是时间序列相关研究中的一项重要研究。由于科技发展迅速，智能化渗入到生产、制造、监测等工作的方方面面，一个公司、一个平台或一个***每时每刻都需要产生数据，产生的这些数据不仅所需要的数据采集装置基数大，而且采集的频率高，数据类型复杂多样，数据前后还具有一定的相关性。因此需要高效的压缩方法来实现对于时间序列数据的存储。

时间序列的压缩方法有相对成熟的研究成果，也有在不断更新的研究成果。包括无损的压缩模型以及有损的压缩模型。大多数时间序列的压缩方法都集中在有损压缩方面。其中，序列的表示方法是主要手段，包括离散傅立叶变换、离散小波变换、奇异值分解、分段线性表示和符号化方法等。

Keogh等人为解决大的时间序列数据库的相似性搜索问题，引入了一种新的降维技术，即分段累积近似法(PiecewiseAffregateApproximation，PAA)。在此基础上又产生了很多发展和改进，包括适应性分段常数近似法(AdaptivePiecewiseConstantApproximation，APCA) 值得一提的是符号聚合近似(Symbolic Aggregate Approximation，SAX)方法，该方法在PAA 方法的基础上，引入了高斯分布的等概率区间的划分以及符号转化，这种离散化方法为数据表示以及压缩提供了新的方向。SAX属于符号化方法的范畴，具有简单、快速、应用范围广等特点，但是也存在着一定的缺陷；并且，也很少有以时间序列前后存在的相关性为切入点来建立压缩模型的方法。因此，将这两者结合起来以实现对时间序列数据的压缩是一个值得探讨的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于改进符号聚合近似的高频时序数据压缩方法，该方法可以得到更低的压缩率以及更好的数据还原能力。

本发明的第二个目的在于提出一种基于改进符号聚合近似的高频时序数据压缩装置。

本发明的第三个目的在于提出一种基于改进符号聚合近似的高频时序数据解压缩方法。

本发明的第四个目的在于提出一种基于改进符号聚合近似的高频时序数据解压缩装置。

为达到上述目的，本发明第一方面实施例提出了基于改进符号聚合近似的高频时序数据压缩方法，包括以下步骤：步骤S101，使用基于改进象群优化算法的高斯分割模型对时间序列进行划分，得到多个分割点和多个时间序列片段；步骤S102，使用基于改进峰值密度初始化的高斯混合模型对所述多个时间序列片段进行聚类，得到多个聚类中心、分模块方差和聚类标签；步骤S103，根据所述分模块方差所占比例对每个聚类中心再次进行等距分割；步骤S104，利用SAX方法将每个类中心的每段均值转化为符号表示，每类第一个字符为大写字母；步骤S105，对同一类的相同的符号表示进行剪切，保留第一个大写字母，最终得到时间序列值压缩数据。

本发明实施例的基于改进符号聚合近似的高频时序数据压缩方法，通过用分段高斯模型对时间序列分割，改进SAX方法随意分割的特点；用时序片段的高斯聚类实现对SAX方法的特征提取和降维，得到更低的压缩率以及更好的数据还原能力。

另外，根据本发明上述实施例的基于改进符号聚合近似的高频时序数据压缩方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述步骤S101中的基于改进象群优化算法的高斯分割模型为：

对初始象群优化算法的部落更新算子加入扰动性，得到：

其中，x_i，j表示i部落的j大象的位置，

表示所有大象中适应度函数值最优的大象位置，称为长老；

表示部落i的族长对大象个体的影响，α表示影响参数；

表示群体最优的长老对大象个体的影响，1-α表示影响参数；Levy(λ)表示变异机制；round表示对括号内的值进行四舍五入的运算；

对初始象群优化算法的部落分类算子进行调整，得到：

其中，

为i部落差的大象的更新位置，x_min为大象可选位置的最小值，x_max为大象可选位置的最大值，round为四舍五入运算，T为时间序列长度，rand为随机数。

进一步地，在本发明的一个实施例中，所述步骤S101具体包括：初始化基于改进象群优化算法的参数和种群；采用分段高斯模块计算所述时间序列中所有时间序列片段的适应度值，开始迭代，直至到达预设最大迭代次数，输出最优位置和适应度值，反之则对所述所有时间序列片段的适应度值进行排序，保留若干好的时间序列片段；执行所述基于改进象群优化算法的部落更新算子，更新所有时间序列片段位置和族长位置，直至所有部落中的时间序列片段更新完位置；执行所述基于改进象群优化算法的部落分离算子，更新若干差的时间序列片段位置和适应度值，直至所有部落中的分离完差的时间序列片段；对所有时间序列片段的适应度值进行排序，得到若干差的需要分离的时间序列片段，将保留的时间序列片段位置更新给需要分离的时间序列片段，并计算适应度值，以更新最优长老位置，即所有时间序列片段中最优的分割点。

进一步地，在本发明的一个实施例中，所述步骤S102具体包括：对基于改进峰值密度聚类算法进行初始化，得到时间序列高斯混合模型均值

的初始化值、每个分模型系数

的初始化值和每个分模型方差

初始化值；

输入预设最大迭代次数、预设阈值、所述多个分割点和所述多个时间序列片段；

迭代执行EM算法的E步计算时间序列片段S_k属于第m个分模型的概率

迭代执行EM算法的M步，以计算每个聚类的更新均值

更新方差

更新系数

判断前后两次对数似然函数值的差是否小于所述预设阈值，或者高斯混合模型的分模型的方差是否为0，若是则结束迭代，输出最优聚类对应的参数均值

方差

系数

以及概率

反之，则判断是否小于所述预设最大迭代次数，若是则继续迭代，若不是则结束迭代，输出最优聚类对应的参数均值

方差

系数

以及概率

进一步地，在本发明的一个实施例中，对基于改进峰值密度聚类算法进行初始化的具体过程为：根据所有的时间序列片段调整局部密度公式，以计算局部密度；计算没有最大的局部密度ρ(S_j)的时间序列片段的相对距离，计算具有最大的局部密度ρ(S_j)的时间序列片段的相对距离；对所述局部密度和所述相对距离进行归一化处理，并计算所述局部密度和所述相对距离的乘积作为聚类评判标准，以进行降序排列；选择出远离零值的时间序列片段，并将其均值作为所述时间序列高斯混合模型均值

的初始化值，并将序列数作为聚类数；根据所述聚类数计算所述每个分模型系数

的初始值，并将所述每个分模型方差

初始化为单位矩阵。

进一步地，在本发明的一个实施例中，迭代执行EM算法中具体求解公式为：

其中，

为第m个分模型的概率，α_m为分模型系数，x_t为时间序列，S_k为某个时间序列片段，φ为每一段时间序列简化的对数似然函数，θ_m为模型参数，

为每个聚类的更新均值，

为每个聚类的更新方差，μ_m为每个聚类的原均值，

为每个聚类的更新系数。

进一步地，在本发明的一个实施例中，所述步骤S103具体为：

当预设分段数w，按照每个类的方差所占比例对其进行分配，确定每个类的分割数，公式为：

其中，M为聚类个数，c_j为分模型j的方差，v_j是类j的分割数；

根据所述分割数对每个类的聚类中心进行等距分割。

为达到上述目的，本发明第二方面实施例提出了基于改进符号聚合近似的高频时序数据压缩装置，包括：包括：划分模块，用于使用基于改进象群优化算法的高斯分割模型对时间序列进行划分，得到多个分割点和多个时间序列片段；聚类模块，用于使用基于改进峰值密度初始化的高斯混合模型对所述多个时间序列片段进行聚类，得到多个聚类中心、分模块方差和聚类标签；等距分割模块，用于根据所述分模块方差所占比例对每个聚类中心再次进行等距分割；转化模块，用于利用SAX方法将每个类中心的每段均值转化为符号表示，每类第一个字符为大写字母；剪切模块，用于对同一类的相同的符号表示进行剪切，保留第一个大写字母，最终得到时间序列值压缩数据。

本发明实施例的基于改进符号聚合近似的高频时序数据压缩装置，通过用分段高斯模型对时间序列分割，改进SAX方法随意分割的特点；用时序片段的高斯聚类实现对SAX方法的特征提取和降维，得到更低的压缩率以及更好的数据还原能力。

为达到上述目的，本发明第三方面实施例提出了基于改进符号聚合近似的高频时序数据解压缩方法，包括以下步骤：步骤S201，扫描时间序列值压缩数据，识别大写字符，得到每一个聚类中心的符号表示；步骤S202，计算所述每一个聚类中心的序列片段长度，确定分割点；步骤S203，根据所述分割点还原每段序列片段符号化表示，进而得到整个时间序列的符号表示；步骤S204，对每个符号进行SAX方法进行逆变换，获得时间序列。

本发明实施例的基于改进符号聚合近似的高频时序数据解压缩方法，通过用分段高斯模型对时间序列分割，改进SAX方法随意分割的特点；用时序片段的高斯聚类实现对SAX 方法的特征提取和降维，得到更低的压缩率以及更好的数据还原能力。

为达到上述目的，本发明第四方面实施例提出了基于改进符号聚合近似的高频时序数据解压缩装置，包括：扫描和识别模块，用于扫描时间序列值压缩数据，识别大写字符，得到每一个聚类中心的符号表示；确定分割点模块，用于计算所述每一个聚类中心的序列片段长度，确定分割点；还原符号化模块，用于根据所述分割点还原每段序列片段符号化表示，进而得到整个时间序列的符号表示；逆变换模块，用于对每个符号进行SAX方法进行逆变换，获得时间序列。

本发明实施例的基于改进符号聚合近似的高频时序数据解压缩装置，通过用分段高斯模型对时间序列分割，改进SAX方法随意分割的特点；用时序片段的高斯聚类实现对SAX 方法的特征提取和降维，得到更低的压缩率以及更好的数据还原能力。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于改进符号聚合近似的高频时序数据压缩方法的流程图；

图2是本发明一个实施例的基于改进象群优化算法的时间序列高斯分割的流程框图；

图3是本发明一个实施例的基于改进峰值密度初始化的高斯混合模型时间序列片段聚类的流程框图；

图4是本发明一个实施例的基于改进符号聚合近似的高频时序数据压缩的流程框图；

图5是本发明一个实施例的基于改进符号聚合近似的高频时序数据压缩装置的结构示意图；

图6是本发明一个实施例的基于改进符号聚合近似的高频时序数据解压缩方法的流程图；

图7是本发明一个实施例的基于改进符号聚合近似的时间序列值的解压流程框图；

图8是本发明一个实施例的基于改进符号聚合近似的高频时序数据解压缩装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，SAX方法对于时间序列压缩具有很好的数据表达以及压缩的效果，但也存在着较大的缺陷，该方法虽然可以将时间序列划分为不同的段数，以得到不同的压缩率，但是等分序列不能够保证分割得到的序列具有类似的特点，如果数据变化幅度很大，该段序列的均值不足以描述该段的特征，并且，即使数据的压缩率较低，但是解压后的误差较大。故而SAX方法在时间序列表示以及压缩方面需要进一步的改进，本发明提出了一种基于改进符号聚合近似的高频时序数据压缩方法及装置、以及基于改进符号聚合近似的高频时序数据解压缩方法及装置。

下面参照附图描述根据本发明实施例提出的基于改进符号聚合近似的高频时序数据压缩方法及装置、以及基于改进符号聚合近似的高频时序数据解压缩方法及装置，首先将参照附图描述根据本发明实施例提出的基于改进符号聚合近似的高频时序数据压缩方法。

图1是本发明一个实施例的基于改进符号聚合近似的高频时序数据压缩方法的流程图。

如图1所示，该基于改进符号聚合近似的高频时序数据压缩方法包括以下步骤：

在步骤S101中，使用基于改进象群优化算法的高斯分割模型对时间序列进行划分，得到多个分割点和多个时间序列片段。

也就是说，使用基于改进象群算法的分段高斯模型对时间序列划分，确保得到的序列片段具有一定的特征。

具体地，先对分段高斯模型的求解即对式(1)求解：

其中，

为简化的对数似然函数，K+1表示分段数，|S_k|表示片段S_k的序列长度，即序列值个数，∑_k为协方差，λ为正则化系数，

为取迹运算。这是一个优化问题，故使用改进象群算法对其寻优。

进一步地，对于个体的更新，由于象群优化算法中的部落更新算子只考虑了该部落族长对其内部大象的影响，而忽略了群体中最好的大象对个体的影响，并且搜索能力还有待提高，因此，本发明实施例对部落更新算子进行如下的改进：

对初始象群优化算法的部落更新算子加入扰动性，得到：

其中，x_i，j表示i部落的j大象的位置，

表示所有大象中适应度函数值最优的大象位置，称为长老；

表示部落i的族长对大象个体的影响，并加入了一定的扰动性；

表示群体最优的长老对大象个体的影响，也加入了一定的扰动性，并且大象个体受到影响最主要是来源于族长(族长分别是时间序列中各自部落中最优的分割点)和长老(时间序列中所有部落中最优的分割点)，因此影响参数分为α和1-α表示影响参数；考虑到其他的一些突发因素，因此加入Levy(λ)表示变异机制，使算法更容易跳出局部极值点；round表示对括号内的值进行四舍五入的运算，以可以满足时间序列分割点是整数；

上述部落更新算子改进既考虑到局部最优值的影响，也考虑到了全局最优值的影响，并且充分利用了Levy飞行长短距离雨露均沾的特点，不仅能够让大象个体向最优的方向靠拢，还能扩大寻优范围，易跳出局部极值，加快收敛。

需要说明的是，对于族长的更新，表示如下：

其中

其中，n_i表示部落i中大象的个数，包括族长；

表示部落i的中心位置或者是均值位置；

部落i中最好大象的更新位置，也就是部落i族长的新位置；β∈[0，1]表示表示族长新位置

受部落i的中心位置的影响程度，和α一样，也是一个影响参数。

然后，为适用于对整数位置的寻优操作，对初始象群优化算法的部落分类算子进行了如下调整：

其中，

由于分段高斯模型的分割点是左闭右开型的，故长度为T的时间序列其内部分割点T是可以取到的，即从2，…，T之间选择整数位置。

再然后，为了加快算法向着最优解靠拢，除了对每个部落中适应度函数值最差的个体进行分离操作更新位置以外，还可以在进行完部落更新算子和部落分离算子的操作之后，对大象整个群体进行排序，选择出一定数量的适应度函数值最差的个体进行分离，并将其更新为上一次迭代所保留的优秀个体的位置，最终得到改进象群优化算法。

如图2所示和如下表1所示，最后将改进象群算法应用于分段高斯模型，得到基于改进象群算法的时间序列高斯分割的基本步骤：

初始化基于改进象群优化算法的参数和种群；

采用分段高斯模块计算时间序列中所有时间序列片段的适应度值，开始迭代，直至到达预设最大迭代次数，输出最优位置和适应度值，反之则对所有时间序列片段的适应度值进行排序，保留若干好的时间序列片段；

执行基于改进象群优化算法的部落更新算子，更新所有时间序列片段位置和族长位置，直至所有部落中的时间序列片段更新完位置；

执行基于改进象群优化算法的部落分离算子，更新若干差的时间序列片段位置和适应度值，直至所有部落中的分离完差的时间序列片段；

对所有时间序列片段的适应度值进行排序，得到若干差的需要分离的时间序列片段，将保留的时间序列片段位置更新给需要分离的时间序列片段，并计算适应度值，以更新最优长老位置，即所有时间序列片段中最优的分割点。

表1基于改进象群优化算法的时间序列高斯分割的基本流程

在步骤S102中，使用基于改进峰值密度初始化的高斯混合模型对多个时间序列片段进行聚类，得到多个聚类中心、分模块方差和聚类标签。

也就是说，以切分得到的子序列为对象，使用基于改进峰值密度初始化的时间序列片段高斯聚类模型对子序列进行聚类。

具体地，时间序列片段的高斯聚类假设由高斯分割得到的时间序列片段S₁，S₂，…，S_K+1里的时序变量是相互独立的，分别服从各自的高斯分布，相似片段聚类得到的新类服从一个大范围的高斯分布。故本发明实施例使用高斯混合模型对于所有的时间片段进行描述，有如下的表述形式：

其中，α_m≥0表示分模型的系数，且有

M表示聚类个数；θ＝(α_m；θ_m)＝(α_m；μ_m，∑_m|m＝1，2，…，M)表示模型(6)的参数；P(S|θ)表示时间序列片段 S₁，S₂，…，S_K+1的概率分布；φ(S|θ_m)表示在参数θ_m＝(μ_m，∑_m)下，时间序列片段的高斯分布，也是模型(6)的第m个分模型，有如下的表达形式：

该时间序列的高斯混合模型存在隐变量，其定义如下：

k＝1，2，…·，K+1；m＝1，2，…，M

然后，使用EM算法对时间序列片段的高斯混合模型参数进行估计，经过推导得到：

其中，

为每个聚类的更新均值，

为每个聚类的更新方差，μ_m为每个聚类的原均值，

为每个聚类的更新系数。

EM算法对初值敏感，一旦陷入局部极值可能无法跳出。对于时间序列的高斯聚类而言，需要对均值

方差

以及系数

进行初始化。分模型系数

的初始化对时间序列高斯混合模型的聚类结果没啥影响，因此本发明实施例采用均匀分布进行初始化，如下式所示：

其中，M表示聚类个数。

为了减弱方差对聚类的影响，采用单位矩阵对其初始化。而最主要的是对均值的初始化，对峰值密度聚类算法改进并让其初始化均值。

对于时间序列片段S_j和S_k，定义其巴氏距离为

巴氏距离D_B(S_j，S_k)越小，说明时间序列片段S_j和S_k越相似。时间序列片段S_j和所有的时间片段的巴氏距离为

巴氏距离D_B(S_j，S)越小，说明序列片段S_j与大部分的时序片段都很相似，适合作为聚类的中心。但是局部密度越大的数据点更适合作为聚类中心，因此D_B(S_j，S)不适合直接作为数据点的局部密度，故如下定义局部密度：

时间序列片段S_j的相对距离δ(S_j)就可以表示为

其中，式(13)用来计算没有最大的局部密度ρ(S_j)的时间序列片段S_j的相对距离；式 (14)计算具有最大的局部密度ρ(S_j)的时间序列片段S_j的相对距离；d_ji表示时间序列片段S_j与S_i所服从的高斯分布均值的欧氏距离。

采用最大值最小值的归一化处理，并计算局部密度与相对距离的乘积作为聚类的评判准则，如下所示：

η′(S_j)＝ρ′(S_j)×δ′(S_j)，j＝1，2，…，K+1 (16)

根据计算出来的η′(S_j)的值，对其进行降序排列，并画出其变化图，选择远离0值的若干时间序列片段S_m(m＝1，2，…，M)。假设选择出M个，则这些片段被聚为M类。

基于高斯混合模型的时间序列片段聚类过程得到每个类的聚类中心、高斯混合模型分模型的方差以及序列片段归属于哪一类的标签。该聚类标签需要额外存储，在对整个时间序列进行表示时以及解压缩时具有重要的作用。由于仅用聚类中心表示对应的子序列，因此压缩时只需要保留聚类中心的数据。

如图3所示和如下表2所示，基于高斯混合模型的时间序列片段聚类的基本流程为：

对基于改进峰值密度聚类算法进行初始化，得到时间序列高斯混合模型均值

的初始化值、每个分模型系数

的初始化值和每个分模型方差

初始化值；

输入预设最大迭代次数、预设阈值、多个分割点和多个时间序列片段；

迭代执行EM算法的M步，以计算每个聚类的更新均值

更新方差

更新系数

判断前后两次对数似然函数值的差是否小于预设阈值，或者高斯混合模型的分模型的方差是否为0，若是则结束迭代，输出最优聚类对应的参数均值

方差

系数

以及概率

反之，则判断是否小于预设最大迭代次数，若是则继续迭代，若不是则结束迭代，输出最优聚类对应的参数均值

方差

系数

以及概率

表2基于高斯混合模型的时间序列片段聚类的基本流程

在步骤S103中，根据分模块方差所占比例对每个聚类中心再次进行等距分割。

具体地，根据每个聚类的方差来判断该类的聚集情况，方差越大，说明波动越强，应该分配的分割数较大，当预设分段数w，按照每个类的方差所占比例对其进行分配，确定每个类的分割数，公式为：

根据分割数对每个类的聚类中心进行等距分割，如下所示：

其中，

表示类j的中心在v_j段上的均值。

在步骤S104中，利用SAX方法将每个类中心的每段均值转化为符号表示，每类第一个字符为大写字母。

具体地，由于每个类的符号表示连在一起，为了区分这是属于不同的类，将每个类中心的第一个符号表示转化为大写字母的形式。由于常用的高斯分布等概率区间的划分个数一般为3-8，因此使用小写字母来进行SAX方法的符号表示是够用的，故而本发明实施例使用大写字母来区分一个聚类中心的开始是合适的。

在步骤S105中，对同一类的相同的符号表示进行剪切，保留第一个大写字母，最终得到时间序列值压缩数据。

具体地，由于对每个类中心进行了细分，当数据变化很缓慢时，转化为SAX的符号表示时很可能落入同一区间之内，因此，需要剪切。在此情况下，仅保留该类的第一个大写字母的符号表示。

因此，如图4所示和如下表3所示，基于改进符号聚合近似的高频时序数据压缩的基本流程。

表3基于改进符号聚合近似的高频时序数据压缩的基本流程

另外，本发明实施例根据基于改进符号聚合近似的高频时序数据压缩方法提出了一种基于改进符号聚合近似的高频时序数据解压缩方法，具体如图5、6所示和如下表4所示，包括以下步骤：步骤S201，扫描时间序列值压缩数据，识别大写字符，得到每一个聚类中心的符号表示；步骤S202，计算每一个聚类中心的序列片段长度，确定分割点；步骤S203，根据分割点还原每段序列片段符号化表示，进而得到整个时间序列的符号表示；步骤S204，对每个符号进行SAX方法进行逆变换，获得时间序列。

表4基于改进符号聚合近似的高频时序数据解压缩的基本流程

以上步骤就可以实现对于整个时间序列的解压缩过程。需要说明的是，Step1和Step2 没有先后关系，可以同时进行，也可以一先一后。在Step3.3中，利用当前片段长度和聚类中心符号表示的个数，假设分别表示为l和n，可以得到每个符号是在多少长度下进行的均值计算，即l/n的长度，然后可以将每个符号扩展为连续的l/n个符号，这样就可以实现每一段序列的完整符号表示。

下面对本发明实施例提出的基于改进符号聚合近似的高频时序数据压缩方法进行实验仿真与结果分析。

(一)首先确定评估指标进行时间序列的压缩实验，为说明压缩效果，采用指标压缩率、均方误差、均方根误差和平均绝对误差，其中压缩率评价压缩效果，其余三个评价解压效果。表达形式分别如下所示：

其中，CR是压缩后大小

与压缩前大小w之比。压缩率越小，说明原本占据空间较大的数据压缩后所占空间大大减小，压缩的效果越好。

其中，MSE表示均方误差，x_t表示真实的时间序列数据，

表示解压缩的数据，T表示当前时间序列的序列值个数。均方误差是描述拟合效果的指标，该指标越小，说明解压后的数据还原能力越强，压缩效果越好。

其中，RMSE表示均方根误差，是对均方误差MSE进行求根运算，因此，该指标越小，说明对数据的压缩效果越好。

其中，MAE表示平均绝对误差，同样，该指标描述解压缩后的数据与原始数据之间的差异，值越小，说明解压缩后的数据与原始数据的差异越小，压缩效果越好。

(二)为了比较压缩模块的实用型，选择3个比较模型：SAX方法、SAX+分割方法和SAX+分割+聚类方法，其中，

SAX方法，由于本发明实施例提出的模型是针对SAX方法存在的无法识别数据特征、随意分割导致解压效果很差的缺陷进行的改进，因此，使用SAX方法作对比能够看出改进的效果，进而说明本发明实施例提出的方法的适用性。

SAX+分割方法，基于本发明实施例提出的改进象群优化算法的高斯分割对时间序列进行分割，确实可以提取数据的一些特征，通过和该方法进行比较来说明本发明实施例提出的方法能否达到一个更好的压缩效果。

SAX+分割+聚类方法，同样地，在分割的基础上进行了聚类，以每个类的聚类中心作为该类内每一序列片段的表示，相比SAX+分割方法使用分割后序列片段本身的均值表示，在理论上SAX+分割+聚类方法具有更小的压缩率且在解压缩后会产生更大的误差。因此，需要这种方法来说明本发明实施例的基础上进行的聚类中心再分割和剪切操作对于压缩效果所产生的作用。

(三)使用Gesture数据集的验证与分析

使用长度为400和1300的Gesture数据集的第一维数据来说明提出的压缩策略。

SAX方法与分段数以及α值有关，不同的分段数和不同的α值组合会产生不同的压缩效果以及解压结果，为了说明本发明实施例提出的方法的压缩效果，对于不同长度的数据会选择不同的分段数，共选择3个分段数，其中一个分段数是基于时间序列的高斯分割得到的分段数，另外两个选择大于和小于高斯分割得到的分段数的值。因此，对于长度400 的Gesture数据集的第一维数据，分段数选择5、20和3，对于长度1300的长时间序列数据，分段数选择15、50和10；α值选择常用的范围内的3个值3、5和8。

表5到表8是对长度400的Gesture第一维数据的时间序列值的压缩评价与解压缩评价，其中表5到表7分别表示在分割段数为5、20和3时本发明实施例提出的方法与SAX方法的压缩与解压缩评价结果。表9到表12是对长度1300的Gesture第一维数据的时间序列值的压缩评价与解压缩评价，其中表9到表11分别表示在分割段数为15、50和10时本发明实施例提出的方法与SAX方法的压缩与解压缩评价结果。表8和表12表示在SAX+分割方法和SAX+分割+聚类方法下的评价结果，并且这两种方法不受分段数的影响，而与α值有关。这8个表都显示了α值分别为3、5和8时的压缩与解压缩效果。

表5长度400的Gesture第一维数据时间序列值在分段数为5时的压缩结果

表6长度400的Gesture第一维数据时间序列值在分段数为20时的压缩结果

表7长度400的Gesture第一维数据时间序列值在分段数为3时的压缩结果

表8长度400的Gesture第一维数据时间序列值的压缩结果

对于短序列，无论分段数为5、20还是3、α值为3、5还是8，如表6到表7所示，本发明实施例提出的方法在保持和SAX方法相同压缩率的同时，能够在解压缩后具有更小的MSE值、RMSE值和MAE值，这说明本发明实施例提出的方法在解压缩后能够实现更高的拟合，更大程度的实现对原始数据的还原；对于长序列，无论分段数为15、50还是 10，α值为3、5还是8，如表9到表11所示，本发明实施例提出的方法不仅具有比SAX 方法更低的压缩率，还能够在解压缩后具有更小的MSE、RMSE和MAE指标评价值，这说明本发明实施例提出的方法既能够实现更大程度的压缩，也能够更大程度的对原始数据还原，因此，本发明实施例提出的方法比SAX方法的压缩效果更好。

对比SAX+分割方法和SAX+分割+聚类方法，由于前者是根据时间序列分割片段来进行压缩的，后者是在前者的基础上有进行了聚类，因此后者具有更低的压缩率，如表8和表12所示。对于短序列而言，在α＝3时，SAX+分割方法和SAX+分割+聚类方法解压缩后具有相同的评价指标值，而在α＝5和8时，SAX+分割方法的三项指标值要更小一点；对于长序列，3个α值下SAX+分割方法的MSE、RMSE和MAE指标值均比SAX+分割+聚类方法的要小一些。这说明无论是短序列还是长序列，SAX+分割+聚类方法通过牺牲数据的还原能力来实现更高的压缩，而该方法能否达到和SAX+分割方法一样的还原能力，和数据本身以及α值有关。故两种方法的侧重点不同。但是这两种方法的压缩率都是固定不变的。

将本发明实施例提出的方法与SAX+分割方法进行比较。对于短序列，具有相同压缩率的情况下，如表6和表8所示，本发明实施例提出的方法具有更小的MSE值、RMSE值和MAE值，说明它能更好的拟合原来的时间序列数据，压缩效果更好。此外，在分段数为3时，本发明实施例提出的方法压缩率更低了，而且在α＝3时3项指标值能够和SAX+ 分割方法的达到相同的水平，虽然很遗憾在α＝5和8时3项指标值比后者要大一些，但是能够达到在具有相同压缩率时拟合的更好、具有更低压缩率时在部分α值下达到相同的拟合效果的水平，已经足够说明本发明实施例提出的方法要强于SAX+分割方法，是值得使用的。

对于长时间序列，如表9到12所示，当分段数同为15，在α＝5时本发明实施例提出方法的压缩率和3项评价指标都比SAX+分割方法的要低，在α＝3和8时指标值要高一些，但是压缩率更低；当分段数为50，在α＝3时本发明实施例提出方法的4项指标的值均高于 SAX+分割方法的指标值，在α＝5和8时，虽然压缩率高一些，但是其他3项指标值低于后者的指标值。在分段数为10时，提出方法的MSE、RMSE和MAE指标值均比后者的要大一些，但是压缩率更低。

综上，本本发明实施例提出的方法和SAX+分割方法相比，能够在保证较好的数据还原能力的同时具有更低的压缩率。

将本发明实施例提出的方法与SAX+分割+聚类方法进行比较。对于短序列，在压缩率相同时，如表8和表9，两种方法的其他3项指标值是一样的；在具有更高压缩率时，本发明实施例提出的方法的其他3项指标值更低。对于长序列，当分段数为15且α＝3时，以及当分段数为10且α＝3和5时，两种方法具有相同的指标值。而其他分段数以及α下，本发明实施例提出的方法具有较高的压缩率和更低的其他3项指标值。因此，和SAX+分割+ 聚类方法相比，本发明实施例提出的方法能够在较低压缩率的同时具有更好的数据还原能力。

表9长度1300的Gesture第一维数据时间序列值在分段数为15时的压缩结果

表10长度1300的Gesture第一维数据时间序列值在分段数为50时的压缩结果

表11长度1300的Gesture第一维数据时间序列值在分段数为10时的压缩结果

表12长度1300的Gesture第一维数据时间序列值的压缩结果

另外，相比这两种方法压缩率固定的特点，本发明实施例提出的方法可以调节压缩率，对于短序列，当分段数为20和3时，得到的压缩率与分段数为5时得到的压缩率是不一样的，对长序列也具有同样的效果。分段数越大，压缩率越高，分段数越小，压缩率越低，并且拟合误差都比较小，在可承受的拟合误差下，可以选择具有更高的压缩比的策略。

综上所述，总的来说本发明实施例提出的方法对Gesture数据进行压缩是比较适合的，它既拥有SAX+分割方法的高数据还原能力，也有SAX+分割+聚类方法的低压缩率，并且，如果想要实现最低压缩率，只要让分段数为聚类数即可，因此具有一定的自适应性。因此具有一定的适用性。

(四)PSCADA数据集的验证与分析

使用PASCADA数据集中的la数据，分别采用长度为100以及1500的数据。

同样，由于SAX方法与分段数以及α值有关，因此，为了说明本发明实施例提出的方法对于具有一定周期性数据的压缩效果，对于不同长度的数据选择了3个分段数。对于长度为100的短时间序列，其中一个分段数是基于第二章得到的分段数6，另外两个选择分段数6两侧的值10和4；对于长时间序列，选择109、50和150作为分段数，其中109是第三章得到的分段数；α值选择常用的范围内的3个值3、5和8。

表13到表15是对长度100的la数据的时间序列值的压缩评价与解压缩评价，表16到表18是对长度1500的la数据的时间序列值的压缩评价与解压缩评价，这6个表分别展示了在不同分段数、不同α值以及不同方法下的评价结果。本发明实施例提出的方法使得短序列在分段数为6、4和10时具有相同的压缩效果，长序列在分段数为109、50和150时具有相同的压缩效果，因此只在表13和表16分别进行了展示，同样，SAX+分割方法和 SAX+分割+聚类方法不受分段数的影响，而与α值有关，如表15和表18所示。

表13长度100的la数据时间序列值在提出方法和SAX方法下的压缩结果

表14长度100的la数据时间序列值在SAX方法下的压缩结果

表15长度100的la数据时间序列值的压缩结果

对于短序列，当分段数为6时，无论α值为3、5还是8，如表13所示，本发明实施例提出的方法在保持和SAX方法相同MSE值、RMSE值和MAE值的同时，能够实现更小的压缩率，这说明该方法能够以更小的空间存储数据。此外，在分段数为10和4时，本发明实施例提出的方法比SAX方法在对应α值下的压缩率更低，MSE、RMSE和MAE指标值更小，这能够显著说明本发明实施例提出的方法比SAX方法的压缩效果更好。SAX 方法在分段数为6时的压缩率较低且其它评价值最小，是因为长度100的la数据具有一定的周期性，此时的分段数正好将该数据的周期性划分出来了，其他两个分段数破坏了数据本身的特点，故而压缩效果较差。

对于长序列而言，无论分段数为109、0还是150，α值为3、5还是8，本发明实施例提出的方法得到的压缩率以及MSE、RMSE和MAE指标值都比SAX方法的要低，说明对于较长的la数据，本发明实施例提出的方法依旧能够得到较低的压缩率和更高的数据还原能力。而SAX方法之所以在最佳分段数109时，未能够拥有自己的最低压缩率以及最好的其他3项指标值，是因为此时的时间序列虽然具有一定的周期性，但是周期性并不是那么的强，周期之间可能存在着一些周期外的数据，从而导致该方法均分序列片段时将不同周期内的数据划分到同一片段之内，故而数据还原能力变差，但是本发明实施例提出的方法很大程度上减弱了这种弊端，使得压缩效果更好。

综上所述，SAX方法的压缩率以及解压效果和分段数、α值以及数据本身的特点有很大的关系，而本发明实施例提出的方法能够较好的将数据的特点提取出来，并利用特点进行数据的压缩，故而可以得到很好的压缩效果。

表16长度1500的la数据时间序列值在提出方法和SAX方法下的压缩结果

表17长度1500的la数据时间序列值在SAX方法下的压缩结果

表18长度1500的la数据时间序列值的压缩结果

对比SAX+分割方法和SAX+分割+聚类方法，前者的压缩率要高于后者，与理论相符，如表15和表18所示。对于短序列，在α＝3和5时，两种方法的3项指标值是一样的，而在α＝8时，SAX+分割方法的三项指标值要更小一点；对于长序列，在3个α值下MSE、 RMSE和MAE值都是一样的。基于以上表现，说明SAX+分割方法更侧重于数据的还原能力，SAX+分割+聚类方法更侧重拥有更低的压缩率，且与数据本身的特点有关，当数据较平稳时，SAX+分割+聚类方法比SAX+分割方法更优。

将这本发明实施例提出的方法与SAX+分割方法进行比较。对于短序列，如表13和表 15所示，在α＝3和5时，本发明实施例提出的方法能够达到和后者相同的MSE、RMSE 和MAE指标评价值，但是压缩率要更小；而在α＝8时，虽然这三项指标评价值比后者的稍大一些，但是压缩率要低得多。对于长序列，如表16和表18所示，本发明实施例提出的方法和后者具有相同的MSE、RMSE和MAE指标评价值，但是压缩率要更小。因此，本发明实施例提出的方法能够达到在具有相同数据还原能力的同时压缩率更低、具有稍差数据还原能力的同时压缩率仍旧很低的效果。

将这本发明实施例提出的方法与SAX+分割+聚类方法进行比较。无论是短序列还是长序列，两种方法得到的压缩率以及3项指标值都是一样的。这是由于数据基本没有什么变化的缘故。

基于上述可知，本发明实施例提出的方法结合了SAX+分割方法数据还原能力高的特点以及SAX+分割+聚类方法压缩率低的优势。

综上，根据本发明实施例提出的基于改进符号聚合近似的高频时序数据压缩方法，通过分割可以很好的将时间序列本身具有的特征切分出来，而聚类可以将具有类似特征的时间序列片段划分为一类，从而实现对时间序列数据的降维和压缩，而将分割和聚类与SAX方法结合能够再次实现对数据的压缩；且实验表明，本发明实施例提出的方法能够同时达到较低压缩率和较高数据还原能力的水平，或者是达到其中之一的水平。

其次参照附图描述根据本发明实施例提出的基于改进符号聚合近似的高频时序数据压缩装置。

图7是本发明一个实施例的基于改进符号聚合近似的高频时序数据压缩装置。

如图7所示，该装置10包括：划分模块101、聚类模块102、等距分割模块103、转化模块104和剪切模块105。

其中，划分模块101用于使用基于改进象群优化算法的高斯分割模型对时间序列进行划分，得到多个分割点和多个时间序列片段。聚类模块102用于使用基于改进峰值密度初始化的高斯混合模型对多个时间序列片段进行聚类，得到多个聚类中心、分模块方差和聚类标签。等距分割模块103用于根据分模块方差所占比例对每个聚类中心再次进行等距分割。转化模块104用于利用SAX方法将每个类中心的每段均值转化为符号表示，每类第一个字符为大写字母。剪切模块105用于对同一类的相同的符号表示进行剪切，保留第一个大写字母，最终得到时间序列值压缩数据。

需要说明的是，前述对基于改进符号聚合近似的高频时序数据压缩方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于改进符号聚合近似的高频时序数据压缩装置，通过分割可以很好的将时间序列本身具有的特征切分出来，而聚类可以将具有类似特征的时间序列片段划分为一类，从而实现对时间序列数据的降维和压缩，而将分割和聚类与 SAX方法结合能够再次实现对数据的压缩；且实验表明，本发明实施例提出的方法能够同时达到较低压缩率和较高数据还原能力的水平，或者是达到其中之一的水平。

还参照附图描述根据本发明实施例提出的基于改进符号聚合近似的高频时序数据解压缩装置。

如图8所示，该装置20包括：扫描和识别模块201、确定分割点模块202、还原符号化模块203和逆变换模块204。

扫描和识别模块201用于扫描时间序列值压缩数据，识别大写字符，得到每一个聚类中心的符号表示。确定分割点模块202用于计算每一个聚类中心的序列片段长度，确定分割点。还原符号化模块203用于根据分割点还原每段序列片段符号化表示，进而得到整个时间序列的符号表示。逆变换模块204用于对每个符号进行SAX方法进行逆变换，获得时间序列。

需要说明的是，前述对基于改进符号聚合近似的高频时序数据解压缩方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于改进符号聚合近似的高频时序数据解压缩装置，通过通过分割可以很好的将时间序列本身具有的特征切分出来，而聚类可以将具有类似特征的时间序列片段划分为一类，从而实现对时间序列数据的降维和压缩，而将分割和聚类与SAX方法结合能够再次实现对数据的压缩；且实验表明，本发明实施例提出的方法能够同时达到较低压缩率和较高数据还原能力的水平，或者是达到其中之一的水平。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于改进符号聚合近似的高频时序数据压缩方法，其特征在于，包括以下步骤：

步骤S101，使用基于改进象群优化算法的高斯分割模型对时间序列进行划分，得到多个分割点和多个时间序列片段；

步骤S102，使用基于改进峰值密度初始化的高斯混合模型对所述多个时间序列片段进行聚类，得到多个聚类中心、分模块方差和聚类标签；

步骤S103，根据所述分模块方差所占比例对每个聚类中心再次进行等距分割；

步骤S104，利用SAX方法将每个类中心的每段均值转化为符号表示，每类第一个字符为大写字母；

步骤S105，对同一类的相同的符号表示进行剪切，保留第一个大写字母，最终得到时间序列值压缩数据。

2.根据权利要求1所述的基于改进符号聚合近似的高频时序数据压缩方法，其特征在于，所述步骤S101中的基于改进象群优化算法的高斯分割模型为：

对初始象群优化算法的部落更新算子加入扰动性，得到：

其中，x_i，j表示i部落的j大象的位置，

表示所有大象中适应度函数值最优的大象位置，称为长老；

表示部落i的族长对大象个体的影响，α表示影响参数；

对初始象群优化算法的部落分类算子进行调整，得到：

其中，

3.根据权利要求1所述的基于改进符号聚合近似的高频时序数据压缩方法，其特征在于，所述步骤S101具体包括：

初始化基于改进象群优化算法的参数和种群；

采用分段高斯模块计算所述时间序列中所有时间序列片段的适应度值，开始迭代，直至到达预设最大迭代次数，输出最优位置和适应度值，反之则对所述所有时间序列片段的适应度值进行排序，保留若干好的时间序列片段；

执行所述基于改进象群优化算法的部落更新算子，更新所有时间序列片段位置和族长位置，直至所有部落中的时间序列片段更新完位置；

执行所述基于改进象群优化算法的部落分离算子，更新若干差的时间序列片段位置和适应度值，直至所有部落中的分离完差的时间序列片段；

4.根据权利要求1所述的基于改进符号聚合近似的高频时序数据压缩方法，其特征在于，所述步骤S102具体包括：

的初始化值、每个分模型系数

的初始化值和每个分模型方差

初始化值；

迭代执行EM算法的M步，以计算每个聚类的更新均值

更新方差

更新系数

方差

系数

以及概率

方差

系数

以及概率

5.根据权利要求4所述的基于改进符号聚合近似的高频时序数据压缩方法，其特征在于，对基于改进峰值密度聚类算法进行初始化的具体过程为：

根据所有的时间序列片段调整局部密度公式，以计算局部密度；

计算没有最大的局部密度ρ(S_j)的时间序列片段的相对距离，计算具有最大的局部密度ρ(S_j)的时间序列片段的相对距离；

对所述局部密度和所述相对距离进行归一化处理，并计算所述局部密度和所述相对距离的乘积作为聚类评判标准，以进行降序排列；

选择出远离零值的时间序列片段，并将其均值作为所述时间序列高斯混合模型均值

的初始化值，并将序列数作为聚类数；

根据所述聚类数计算所述每个分模型系数

的初始值，并将所述每个分模型方差

初始化为单位矩阵。

6.根据权利要求4所述的基于改进符号聚合近似的高频时序数据压缩方法，其特征在于，迭代执行EM算法中具体求解公式为：

其中，

为每个聚类的更新均值，

为每个聚类的更新方差，μ_m为每个聚类的原均值，

为每个聚类的更新系数。

7.根据权利要求1所述的基于改进符号聚合近似的高频时序数据压缩方法，其特征在于，所述步骤S103具体为：

根据所述分割数对每个类的聚类中心进行等距分割。

8.一种基于改进符号聚合近似的高频时序数据压缩装置，其特征在于，包括：

划分模块，用于使用基于改进象群优化算法的高斯分割模型对时间序列进行划分，得到多个分割点和多个时间序列片段；

聚类模块，用于使用基于改进峰值密度初始化的高斯混合模型对所述多个时间序列片段进行聚类，得到多个聚类中心、分模块方差和聚类标签；

等距分割模块，用于根据所述分模块方差所占比例对每个聚类中心再次进行等距分割；

转化模块，用于利用SAX方法将每个类中心的每段均值转化为符号表示，每类第一个字符为大写字母；

剪切模块，用于对同一类的相同的符号表示进行剪切，保留第一个大写字母，最终得到时间序列值压缩数据。

9.一种基于改进符号聚合近似的高频时序数据解压缩方法，其特征在于，包括以下步骤：

步骤S201，扫描时间序列值压缩数据，识别大写字符，得到每一个聚类中心的符号表示；

步骤S202，计算所述每一个聚类中心的序列片段长度，确定分割点；

步骤S203，根据所述分割点还原每段序列片段符号化表示，进而得到整个时间序列的符号表示；

步骤S204，对每个符号进行SAX方法进行逆变换，获得时间序列。

10.一种基于改进符号聚合近似的高频时序数据解压缩装置，其特征在于，包括：

扫描和识别模块，用于扫描时间序列值压缩数据，识别大写字符，得到每一个聚类中心的符号表示；

确定分割点模块，用于计算所述每一个聚类中心的序列片段长度，确定分割点；

还原符号化模块，用于根据所述分割点还原每段序列片段符号化表示，进而得到整个时间序列的符号表示；

逆变换模块，用于对每个符号进行SAX方法进行逆变换，获得时间序列。