CN114970630B

CN114970630B - 一种时序数据多尺度分段的模型训练方法

Info

Publication number: CN114970630B
Application number: CN202210621829.8A
Authority: CN
Inventors: 李静; 王迪; 肖锋; 杨浩然; 蒲元; 王金霞; 马国忠; 胡清忠; 许秀清; 黄富强
Original assignee: 63796 FORCES PLA
Current assignee: 63796 FORCES PLA
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2024-04-19
Anticipated expiration: 2042-06-01
Also published as: CN114970630A

Abstract

本发明涉及一种时序数据多尺度分段的模型训练方法，属于故障监测领域。本发明从同一参数的多个时序数据样本中提取公共趋势特征,同时对趋势和波动特征进行了量化，量化后的信息用于数据故障诊断和参数关联性挖掘。本发明通过数据分段的方法对时序数据的特征进行了提取，从多尺度分层的维度对多样本的分段信息进行了融合。本发明增加了对时序数据局部振荡特性的容忍度，尤其是对多值振荡型数据的容忍度；采用数据分段降低了数据维度，减少了使用这些特征进行故障诊断和关联挖掘时的性能开销；能够准确描述同一类型参数在多历史样本数据中的共有趋势特征，有助于提升基于趋势的数据故障诊断准确率。

Description

一种时序数据多尺度分段的模型训练方法

技术领域

本发明属于故障监测领域，具体涉及一种时序数据多尺度分段的模型训练方法。

背景技术

现有技术对趋势转折点的识别的方法包括三角形中线法、拟合法、斜率法、三点模式法以及局部极值法等，与本方案最为接近的技术为三点模式法。

现有技术用于多样本相似特征识别的方法包括拟合法、距离相似度分析法、动态时间弯曲、主成分分析法、Kmeans方法等，与本方案最为接近的技术为拟合法。

现有技术对时间序列分段特征的识别多是基于时间序列分段线性表示方法，并在此基础上提出某种分段衡量指标，用以作为分段点的选择依据。在完成分段选点后，用分段点构成的序列特征作为为原时间序列特征的近似。这种方法多用于对单一时间序列特征的分析，比如，三点模式法、三角形中线法、局部极值法、斜率法等。

现有技术对多样本时间序列相似度的分析多涉及故障检测领域的应用，且大部分分析都是针对整个时间序列样本进行的。在假设每次任务都具有高度重复性和相似性的前下，分析多个历史任务数据的相似性并从中提取共有规律，以作为新任务检测的依据。基本思路描述为，通过在多样本时间序列上进行相同时间点采样，获取多样本时间序列矩阵；然后通过相应的分析方法法来获取共有规律，这里的方法包括，主成分分析法、Kmeans法、距离相似度分析法、动态时间弯曲方法等。

现有趋势转折点的识别技术对数据特征的要求非常高，通常要求数据序列具有良好局部单调特性，因此，现有技术不适用于数据中存在大量振荡区域的数据。如果逐点进行趋势转折点的检测，则会出现大量密集的趋势转折点，会严重影响对数据序列分段的判断效果，并且运算时间开销也较高。

现有基于时间序列整体的故障检测分析技术，不能够提供时间序列故障段的精准定位，并且基于相似度所构造的故障判读指标难以直观的提供故障类型的判断。另外，近年流行的动态时间弯曲方法虽然可以通过适当平移、拉伸或压缩两个不同样本序列的局部特征,以达到同步两个不同长度甚至不同形状的时间序列的目的，但是,对原始数据轨迹的处理会在一定程度上掩盖异常工况的数据特征,从而降低故障的可检测性。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种时序数据多尺度分段的模型训练方法，以解决现有趋势转折点识别技术对数据特征的要求非常高，运算时间开销高，现有基于时间序列整体的故障检测分析技术，不能够提供时间序列故障段的精准定位，动态时间弯曲方法会而降低故障可检测性的问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种时序数据多尺度分段的模型训练方法，该方法包括：

针对传感器获得的时序数据，通过设置固定步长以降采样方式提取patch作为局部的数据点，在时序数据D_i(t)＝{v₁,v₂,v₃,…}上定义一个patch集合P_i＝{P_i,1,P_i,2,…,P_i,n}，P_i,l表示一个patch中的时序数据集，其中n表示patch的个数，对每个P_i,l计算中位数median(P_i,l)，用以表示对应patch的特征值；在patch特征序列的基础上，根据以下公式(1)得到趋势转折点；

{(v_j≥v_j-1)∪(v_j>v_j+1)}∩{(v_j>v_j-1)∪(v_j≥v_j+1)}|

{(v_j≤v_j-1)∪(v_j<v_j+1)}∩{(v_j<v_j-1)∪(v_j≤v_j+1)} (1)

其中，v_j-1,v_j,v_j+1表示三个相邻的时间序列数据；当公式(1)的结果为0时，v_j不是转折点，当公式(1)的结果为1时，v_j是转折点；

根据趋势转折点序列得到若干个分段，依据各个分段内的patch特征序列，计算得到对应段内的分段特征，包括单调性、分段起点和终点的索引信息，将其简记为：S_i＝{S_i,1,S_i,2,…,S_i,Ki}，其中K_i为时序数据D_i(t)的分段数，S_i,l为每个段内的特征；基于连续单调性特征完成相邻分段间的单调性特征融合，得到时间数据序列的整体单调性特征分段描述信息，通过取补集的方式，得到振荡分段信息；

其中，通过对传感器获得的时序数据复杂度的判断，提前设置数据分段识别的尺度，尺度包括多个层级，设置各个层级下的patch长度值作为所述固定步长；

将传感器时序数据的多样本的分段特征进行融合：基于多个单样本分段的信息，分别完成同类型单调区间与单调区间的融合，以及非单调区间与非单调区间之间的融合，并将融合后信息保存进入融合特征库。

进一步地，降采样通过移动滑窗取中位数的方式进行。

进一步地，通过计算相邻patch序列的斜率值，patch序列的单调性特征分为水平、单调上升和单调下降三种特征。

进一步地，单调性特征融合是指合并相邻相同的单调序列，从整体时间序列中，去除单调性特征段的部分，剩余分段区间被标记为振荡分段区间。

进一步地，尺度包括三个层级，分别称之为长阶、中阶和短阶，设置各个层级下的patch长度值作为所述固定步长，短阶的patch长度值最小，长阶的patch长度值最大。

进一步地，使用长阶下的patch长度值，得到数据序列的长阶对应的单调和振荡分段信息，并计算出段内数据的统计特征信息；

在此基础上，对长阶下的振荡分段进一步结合中阶下的patch长度值，得到长阶下的振荡分段中的中阶对应的单调和振荡分段信息，以此作为中阶分段信息；

最后，对中阶下的振荡分段结合短阶下的patch长度值，得到中阶下的振荡分段中的短阶对应的单调和振荡分段信息，以此作为短阶分段信息。

进一步地，采用包络算法获取振荡分段的数据特征，包括单调性、分段起点和终点的索引信息。

进一步地，将传感器时序数据的多样本的分段特征进行融合包括如下步骤：

当第一个时序数据样本输入时，其分段信息直接存入融合特征库；

当后续样本依次传入时，每个数据序列的分段区域从左到右依次融入融合特征库；如果样本的某一分段完全包含在融合特征库的对应分段中，则融合特征库保留原分段信息，并计算相应的融合后分段起点start_delta值和融合后分段终点的end_delta值，以增加数据判读时的容忍度；

如果样本的某一分段与融合特征库的多个分段相交，则选择与融合特征库重合度最高的区间进行特征融入，根据融合后特征调整对应分段信息，即，融合后分段起点为融合前分段起点与样本分段起点的最小值，融合后delta值为融合前delta值加上max(0,start-merge_start-merge_delta,merge_start-start),其中start为新加入样本分段的起点，merge_start为融合特征库在融入前对应融入段的起点，merge_delta为融入段在融入前的起点取值delta；融合后分段终点为融合前分段终点与样本分段终点的最小值，融合后delta值为融合前delta值加上max(0,end-merge_end-merge_delta,merge_end-end),其中end为新加入样本分段的起点，merge_end为融合特征库在融入前对应融入段的终点，merge_delta为融入段在融入前的终点取值delta。

进一步地，如果样本的某一分段完全包含在融合特征库的对应分段中，则融合后分段起点和终点采用如下方式获得：

x_delta＝abs(x_in-x_merged),其中,x＝{start,end}，x_in表示新进入融合特征库的分段点信息，x_merged表示已经在融合特征库中的分段点信息，x_delta则表示融入x_in的信息后，特征库中记录的可容忍的分段点索引的取值浮动范围，abs(.)表示计算绝对值。

进一步地，如果样本的单调分段区域不存在与之匹配且有重合的单调融合分段区域，则将该样本融入对应的振荡区域；如果融合特征库同时存在单调和振荡分段区域，而融入样本只有振荡区域，则融合特征库也会将所有分段调整为振荡；如果融合特征库中的某一分段的起点加上其对应的delta值大于了分段终点,则将该融合段调整为振荡。

(三)有益效果

本发明提出一种时序数据多尺度分段的模型训练方法，本发明增加了对时序数据局部振荡特性的容忍度，尤其是对多值振荡型数据的容忍度；采用数据分段降低了数据维度，减少了使用这些特征进行故障诊断和关联挖掘时的性能开销；能够准确描述同一类型参数在多历史样本数据中的共有趋势特征，有助于提升基于趋势的数据故障诊断准确率。

附图说明

图1为本发明离散提取Patch点和趋势特征点示意图；

图2为本发明多级分段示意图；

图3为本发明多样本分段融合示意图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明实现从同一参数的多个时序数据样本中提取“公共趋势特征”的技术,这里的“公共趋势特征”是指多个历史样本在相同或相近时间段内共有的或类似的趋势和波动的特征，同时对这些趋势和波动特征进行了量化，这些量化后的信息可以用于数据故障诊断和参数关联性挖掘。本发明通过数据分段的方法对时序数据的特征进行了提取，还从多尺度分层维度对多样本的分段信息进行了融合。

本发明主要有以下三个创新：

(1)时序数据趋势特征提取和描述

传感器获得的时序数据降采样后趋势特征提取(降采样，指在最大程度保留原数据形态特征的基础上，降低数据的采样频率，增加数据的时间粒度，在一定程度也具有过滤数据局部噪声的作用。在技术上，降采样常通过移动滑窗取中位数的方式进行)。针对传感器获得的时序数据，通过设置固定步长以降采样方式提取patch作为局部的数据点，在时序数据D_i(t)＝{v₁,v₂,v₃,…}上定义一个patch集合P_i＝{P_i,1,P_i,2,…,P_i,n}，P_i,l表示一个patch中的时序数据集，其中n表示patch的个数，对每个P_i,l计算中位数median(P_i,l)，用以表示对应patch的特征值。在patch特征序列的基础上，根据以下公式(1)可以得到趋势转折点。

{(v_j≥v_j-1)∪(v_j>v_j+1)}∩{(v_j>v_j-1)∪(v_j≥v_j+1)}|

{(v_j≤v_j-1)∪(v_j<v_j+1)}∩{(v_j<v_j-1)∪(v_j≤v_j+1)} (1)

其中，v_j-1,v_j,v_j+1表示三个相邻的时间序列数据。当公式(1)的结果为0时，v_j不是转折点，当公式(1)的结果为1时，v_j是转折点。

如图1所示，根据趋势转折点序列得到若干个分段。依据各个分段内的patch特征序列，可以计算得到对应段内的分段特征，包括单调性、分段起点和终点的索引等信息，将其简记为：其中K_i为时序数据D_i(t)的分段数，S_i,l为每个段内的特征。这里的段内特征信息的描述主要基于patch序列展开。通过计算相邻patch序列的斜率值，patch序列的单调性特征可以分为水平、单调上升和单调下降三种特征。进一步地，基于连续单调性特征完成相邻分段间的单调性特征融合(即，合并相邻相同的单调序列)，由此得到时间数据序列的整体单调性特征分段描述信息。最后通过取补集的方式，计算得到振荡分段信息(即，从整体时间序列中，去除单调性特征段的部分，剩余分段区间被标记为振荡分段区间)。

(2)多尺度的数据分段技术

多尺度的数据分段，可以通过对传感器获得的时序数据复杂度的判断，提前设置数据分段识别的尺度。其中，数据复杂度的判断，取决于对数据分析的需求。如果分析人员更加关注数据的局部特征，则分段识别的尺度就越高；如果分析人员更加关注数据的整体趋势特征，则分段识别的尺度就越低。

以三个层级尺度的分段为例，分别称之为长阶、中阶和短阶，且设置各个层级下的patch长度值作为创新点(1)用到的固定步长，patch长度值随层级越高(短阶>中阶>长阶)，取值就越小，特征识别也更加精细。

多尺度分段的具体实现方式依托于创新(1)中的技术。通过创新(1)中的技术，并结合长阶下的patch长度值，可以得到数据序列在长阶下的分段信息特征；其中通过创新技术(1)，可以得到长阶对应的单调和振荡区间的分段索引信息，并计算出段内数据的统计特征信息。

在此基础上，对长阶分段信息下的振荡分段进一步应用创新(1)中的技术，并结合中阶下的patch长度值，可以得到长阶下振荡分段中的单调和振荡区间分段信息；其中，中阶下的分段信息，是基于长阶下的振荡分段序列得到的，即，对长阶下的振荡分段进一步应用创新技术(1)，然后得到长阶振荡分段下的单调和振荡区间，以此作为中阶分段信息。

最后，对中阶下的振荡分段应用创新(1)中的技术，并结合短阶下的patch长度值，可以最终得到中阶下的振荡分段中的短阶对应的单调和振荡分段信息及特征；其中，短阶下的分段信息，是基于中阶下的振荡分段序列得到的，即，对中阶下的振荡分段进一步应用创新技术(1)，然后得到中阶振荡分段下的单调和振荡区间，以此作为短阶分段信息。

具体多级分段效果如图2所示。在最高阶(如，短阶)尺度下，通常可以采用包络算法获取振荡分段的数据特征，包括单调性、分段起点和终点的索引等信息。总体而言，以上方法是一种基于数据分析需求和专业判断而执行的逐级分段特征识别技术。

在实际应用中，数据尺度的选择可以结合数据分析需求以及专业性的判断。所选尺度层级越高，最终得到的数据特征描述粒度越细。

(3)多样本数据形态的分段特征融合技术

多样本数据形态的分段特征融合技术，基于多个单样本分段的信息，分别完成同类型单调区间与单调区间的融合，以及非单调区间与非单调区间之间的融合，并将融合后信息保存进入融合特征库。将传感器时序数据的多样本的分段特征进行融合的具体融合方式为：

当后续样本依次传入时，每个数据序列的分段区域从左到右依次融入融合特征库。如果样本的某一分段完全包含在融合特征库的对应分段中，则融合特征库保留原分段信息，并计算相应的融合后分段起点start_delta值和融合后分段终点的end_delta值，以增加数据判读时的容忍度；

其中，x_delta＝abs(x_in-x_merged),其中,x＝{start,end}，x_in表示新进入融合特征库的分段点信息(起点或终点)，x_merged表示已经在融合特征库中的分段点信息(起点或终点)，x_delta则表示融入x_in的信息后，特征库中记录的可容忍的该分段点索引的取值浮动范围，abs(.)表示计算绝对值。start_delta即为图中的start_delta，end_delta即为图中的end_delta。

如果样本的某一分段与融合特征库的多个分段相交，则选择与融合特征库重合度最高的区间进行特征融入，此时，根据融合后特征调整对应分段信息，即，融合后分段起点为融合前分段起点与样本分段起点的最小值，融合后delta值为融合前delta值加上max(0,start-merge_start-merge_delta,merge_start-start),其中start为新加入样本分段的起点，merge_start为融合特征库在融入前对应融入段的起点，merge_delta为融入段在融入前的起点取值delta。融合后分段终点为融合前分段终点与样本分段终点的最小值，融合后delta值为融合前delta值加上max(0,end-merge_end-merge_delta,merge_end-end),其中end为新加入样本分段的起点，merge_end为融合特征库在融入前对应融入段的终点，merge_delta为融入段在融入前的终点取值delta。

此外，如果样本的单调分段区域不存在与之匹配且有重合的单调融合分段区域，则将该样本融入对应的振荡区域(对应振荡(非单调)区域的识别方法，如前所述，即，如果样本的振荡区间与融合特征库的中的振荡区间相交，则将该振荡分段与融合特征库中对应的振荡分段信息进行特征融合)；如果融合特征库同时存在单调和振荡分段区域，而融入样本只有振荡区域，则融合特征库也会将所有分段调整为振荡；如果融合特征库中的某一分段的起点加上其对应的delta值大于了分段终点,则将该融合段调整为振荡。

图3展示了三个样本在给定振荡区域的特征融合示意图。如图3中公式所示，融合后特征库中的分段i的索引起点start_i为所有样本在该段内起点的最小索引值start₂，起点delta为所有样本在该段的起点最大值与最小值的差值(start₁-start₂)；类似地，融合后分段索引终点end_i为所有样本在该段内终点的最小索引值end₃，终点delta为所有样本在该段的终点最大值与最小值的差值(end₁-end₃)。

以上多样本分段融合的方式既可以记录多样本分段特征完全匹配的区域，同时，delta特征增加了单样本数据判读时的容忍度。

本发明增加了对时序数据局部振荡特性的容忍度，尤其是对多值振荡型数据的容忍度；采用数据分段降低了数据维度，减少了使用这些特征进行故障诊断和关联挖掘时的性能开销；能够准确描述同一类型参数在多历史样本数据中的共有趋势特征，有助于提升基于趋势的数据故障诊断准确率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种时序数据多尺度分段的模型训练方法，该方法包括：

针对传感器获得的时序数据，通过设置固定步长以降采样方式提取patch作为局部的数据点，在时序数据D_i(t)＝{v₁，v₂，v₃，…}上定义一个patch集合P_i＝{P_i，1，P_i，2，...，P_i，n}，P_i，l表示一个patch中的时序数据集，其中n表示patch的个数，对每个P_i，l计算中位数median(P_i，l)，用以表示对应patch的特征值；在patch特征序列的基础上，根据以下公式(1)得到趋势转折点；

{(v_j≥v_j-1)∪(v_j＞v_j+1)}∩{(v_j＞v_j-1)∪(v_j≥v_j+1)}|

{(v_j≤v_j-1)∪(v_j＜v_j+1)}∩{(v_j＜v_j-1)∪(v_j≤v_j+1)} (1)

其中，v_j-1，v_j，v_j+1表示三个相邻的时间序列数据；当公式(1)的结果为0时，v_j不是转折点，当公式(1)的结果为1时，v_j是转折点；

根据趋势转折点序列得到若干个分段，依据各个分段内的patch特征序列，计算得到对应段内的分段特征，包括单调性、分段起点和终点的索引信息，将其简记为：其中K_i为时序数据D_i(t)的分段数，S_i，l为每个段内的特征；基于连续单调性特征完成相邻分段间的单调性特征融合，得到时间数据序列的整体单调性特征分段描述信息，通过取补集的方式，得到振荡分段信息；

将传感器时序数据的多样本的分段特征进行融合：基于多个单样本分段的信息，分别完成同类型单调区间与单调区间的融合，以及非单调区间与非单调区间之间的融合，并将融合后信息保存进入融合特征库；

其中，

将传感器时序数据的多样本的分段特征进行融合包括如下步骤：

如果样本的某一分段与融合特征库的多个分段相交，则选择与融合特征库重合度最高的区间进行特征融入，根据融合后特征调整对应分段信息，即，融合后分段起点为融合前分段起点与样本分段起点的最小值，融合后delta值为融合前delta值加上max(0，start-merge_start-merge_delta，merge_start-start)，其中start为新加入样本分段的起点，merge_start为融合特征库在融入前对应融入段的起点，merge_delta为融入段在融入前的起点取值delta；融合后分段终点为融合前分段终点与样本分段终点的最小值，融合后delta值为融合前delta值加上max(0，end-merge_end-merge_delta，merge_end-end)，其中end为新加入样本分段的起点，merge_end为融合特征库在融入前对应融入段的终点，merge_delta为融入段在融入前的终点取值delta。

2.如权利要求1所述的时序数据多尺度分段的模型训练方法，其特征在于，降采样通过移动滑窗取中位数的方式进行。

3.如权利要求1所述的时序数据多尺度分段的模型训练方法，其特征在于，通过计算相邻patch序列的斜率值，patch序列的单调性特征分为水平、单调上升和单调下降三种特征。

4.如权利要求1所述的时序数据多尺度分段的模型训练方法，其特征在于，单调性特征融合是指合并相邻相同的单调序列，从整体时间序列中，去除单调性特征段的部分，剩余分段区间被标记为振荡分段区间。

5.如权利要求1-4任一项所述的时序数据多尺度分段的模型训练方法，其特征在于，尺度包括三个层级，分别称之为长阶、中阶和短阶，设置各个层级下的patch长度值作为所述固定步长，短阶的patch长度值最小，长阶的patch长度值最大。

6.如权利要求5所述的时序数据多尺度分段的模型训练方法，其特征在于，

使用长阶下的patch长度值，得到数据序列的长阶对应的单调和振荡分段信息，并计算出段内数据的统计特征信息；

7.如权利要求6所述的时序数据多尺度分段的模型训练方法，其特征在于，采用包络算法获取振荡分段的数据特征，包括单调性、分段起点和终点的索引信息。

8.如权利要求1所述的时序数据多尺度分段的模型训练方法，其特征在于，如果样本的某一分段完全包含在融合特征库的对应分段中，则融合后分段起点和终点采用如下方式获得：

x_delta＝abs(x_in-x_merged)，其中，x＝{start，end}，x_in表示新进入融合特征库的分段点信息，x_merged表示已经在融合特征库中的分段点信息，x_delta则表示融入x_in的信息后，特征库中记录的可容忍的分段点索引的取值浮动范围，abs(.)表示计算绝对值。

9.如权利要求1所述的时序数据多尺度分段的模型训练方法，其特征在于，如果样本的单调分段区域不存在与之匹配且有重合的单调融合分段区域，则将该样本融入对应的振荡区域；如果融合特征库同时存在单调和振荡分段区域，而融入样本只有振荡区域，则融合特征库也会将所有分段调整为振荡；如果融合特征库中的某一分段的起点加上其对应的delta值大于了分段终点，则将该分段调整为振荡。