CN112101468B

CN112101468B - 一种在序列组合中判定异常序列的方法

Info

Publication number: CN112101468B
Application number: CN202010983843.3A
Authority: CN
Inventors: 刘吉耘
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2024-04-16
Anticipated expiration: 2040-09-18
Also published as: CN112101468A

Abstract

本发明公开了一种序列组合中判定异常序列的方法，涉及大数据中异常数据分析技术领域，其主要包括以下步骤：预先获取待判定的多个序列的组合A、将该序列组合A建立二维网格模型、按照纵向提取对应列数据的方式重新组合获得多个序列的组合T；对T中每个序列进行递增或递减排序，获得多个序列的组合S；对S中每个序列中的数据进行计算分析，获得参考值R，根据参考值再对序列组合A中各个序列的对应数据进行误差分析，误差占比过大则判断该序列为异常序列。本发明能够在满足大部分场景下，从一组大部分正常、少部分异常的近似序列中识别异常序列，从数列组合本身出发进行分析，不仅判定方式简单有效，且判定灵敏度较高。

Description

一种在序列组合中判定异常序列的方法

技术领域

本发明涉及大数据中异常数据分析技术领域，具体而言，涉及一种在序列组合中判定异常序列的方法。

背景技术

在大数据领域，经常需要从一组大部分正常、少部分异常的近似序列中寻找异常序列，而如何识别异常序列一直是一个难点，也是大数据领域研究的热点之一，有相当多的研究结果。但这些研究成果都存在一个共性，即在一定的应用场景下效果比较好，而更换至另一个场景，识别效果就不尽人意，甚至得出的结果基本不能采用。

如利用序列之间的余弦夹角进行文本相似度判定，然后将判定结果用于全文检索排序，该方法虽然目前已是搜索引擎的常用方法之一，但余弦相似度存在角度判定相同但是距离判定可能差距很大的问题，即判定距离相关的问题时，就会有较多误判；又比如基于PLR算法进行序列的波形相似度判定，虽然判定效果较为可靠，但其存在处理复杂且受限场景较多的缺点；再比如利用序列间的欧式距离进行序列的距离相似度判定，也只是在特定场景下的判定效果不错。

综上所述，现有的方法不能简单有效且满足大多数场景下灵敏识别序列组合中的异常序列。

发明内容

本发明的目的在于提供一种在序列组合中判定异常序列的方法，该方法能够在满足大部分场景下，从一组大部分正常、少部分异常的近似序列中识别异常序列，从数列组合本身出发进行分析，不仅判定方式简单有效，且判定灵敏度较高。

本发明的实施例是这样实现的：一种在序列组合中判定异常序列的方法，包括如下步骤：

建立m组序列A(组合)的二维网格模型，按照纵向提取的方式分别对m组序列A中的数据进行一维序列排列，获得n组序列T；其中，m和n均为大于1的自然数。预先获取待判定序列组合，尤其是数字序列组合，即获取一组数字序列，构建该序列组合的二维网格模型，即按照二维坐标系排列，将对应同一次序坐标的点对应成列，然后按照纵向提取数据的方式分别对m组序列A中的数据进行一维序列排列即能获得n组序列T。

需要说明的是，每组序列A中各个序列的长度可以不相等，在不等的情况下各个序列中缺失的点的坐标也是可以任意的，只需要保证按照某种特征(比如：同一时刻纵向坐标相同)进行对齐即可。在不等的情况下，n组序列T的长度也不相等，在后续计算参考值时，网格中缺失的点值不进行处理，计算占比时，缺失的点值也不纳入计算。为了后续描述方便，取m组序列A组合时可以将组序列A中所有序列的长度设定为相等。

对每组序列T中的数据进行递增或递减排序，获得n组序列S。对S中每个序列S_i中的数据进行逐差分析，基于相邻数据之间的差值与预设阈值的比较结果来判断该相邻数据中是否存在跳变点，基于跳变点进行分段，将S_i中分段后的最长数据段作为参考正常数据点，如果分段后长度最大的数据段有多段且为奇数，取最中间一段为参考正常数据点，如果为偶数，则取中间两段中的任意一段为参考正常数据点，基于参考正常数据点通过预设算法并获得该序列S_i的参考值R_i。其中的预设阈值可根据领域内操作人员的经验或者仪器精度要求来预先拟定，根据该预设阈值即可判断出序列S_i存在多少跳变点。

根据参考值R_i分别对序列A_j中的数据P_ji进行误差比对，并判定数据P_ji是否属于异常点；根据序列A_j中异常点的占比大小判断该序列是否属于异常序列。找到合理的参考值R_i即可对原序列A_j中对应点位的数据进行误差比对，找出偏离度较大的异常点，再根据结果的灵敏度要求来确定序列A_j中异常点的占比值为多少即属于异常序列。整个判定过程除了依靠找出参考值的方法的可靠性，还依靠结果灵敏度的要求来判定异常点占比多少才是异常序列，使得整个处理方式灵活可靠，灵敏度较高。

进一步地，判断跳变数据点的步骤包括：设定一个分段门限值K1；然后将序列S_i中，相邻数据之间的差值与分段门限值K1比较大小；如该相邻数据之间的差值大于分段门限值K1，则认定该相邻数据中的一者为跳变数据点。该分段门限值K1可根据仪器精度范围或经验值等进行设定，逐差分析后的差值与该K1相互比较，则根据比较结果来确定序列S_i某相邻数据之间是否存在跳变。将序列S_i中跳变数据点作为分段点，拟设序列S_i中跳变数据点数量为k，则该序列S_i中的数据被分为k+1段子序列F_ij，取其中包含数据最多的一段子序列F_i,max，该子序列F_i,max中的数据则作为参考正常数据点。

进一步地，采用参考正常数据点确定参考值R_i的步骤包括：取序列S_i分段后包含数据最多的子序列F_i,max的数据作为参考正常数据点，并求平均值，即作为参考值R_i。平均值法作为简单合理的求值算法，可以较为可靠地在多个参考正常数据点中确定一个合理的数值。当然，也不限于采用平均值法确定参考值，只要符合在一组数据中算得集中趋势数据的现有算法均可，此处采用平均值算法是为了追求简单有效。

当序列S_i分段后包含数据最多的子序列F_i,max的数量为多组且奇数组时，取F_i,max最中间组的子序列中的参考正常数据点来计算参考值R_i；当序列S_i分段后包含数据最多的子序列F_i,max的数量为多组且偶数组时，取F_i,max最中间两组中任一组的子序列中的参考正常数据点来计算参考值R_i。

进一步地，基于参考值R_i判断异常点的步骤包括：分别设定上偏离度门限值K2和下偏离度门限值K3；如序列A_j中的数据P_ji的数值范围位于参考值R_i与上偏离度门限值K2之和以及参考值R_i与下偏离度门限值K3之差的数值范围之外，则认定该数据P_ji为异常点。同样地，K2和K3的数值可根据领域内操作人员的经验或者仪器精度要求来预先拟定，体现了整个判定过程的灵活性或灵敏性。

进一步地，判断异常序列的步骤包括：设定一个结果判断门限值K，如序列A_j中异常点占比的数值范围大于结果判断门限值K，则判定序列A_j为异常序列。结果判断门限值K的设定决定了异常序列选定的精度，再一次体现了整个判定方式的高灵敏性。

本发明实施例的有益效果是：

总体而言，本发明实施例提供的异常序列判定方法从数列组合本身出发，不用预先拟定标准模型或参考模型，即决定该方法能够满足大部分的场景进行使用，从而在一组大部分正常、少部分异常的近似序列中识别出异常序列；该从数列组合本身出发进行分析的特点，不仅避免了使用场景的限制，而且整个判定方式简单有效，且判定灵敏度较高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的序列组合A的代值二维网格模型图；

图2为本发明实施例提供的序列组合T的代值二维网格模型图；

图3为本发明实施例提供的序列组合S的代值二维网格模型图；

图4为本发明实施例提供的差值D的代值二维网格模型图；

图5为图4所示差值D中表示分段点的代值二维网格模型图；

图6为图3所示序列组合S各序列分段后的代值二维网格模型图；

图7为本发明实施例提供的S₂的分段子序列表示图；

图8为本发明实施例提供的序列组合S分段状态的结果示意图；

图9为本发明实施例提供的S₂的子序列F₂₂的代值示意图；

图10为图3所示序列组合S分段后并配有参考值的代值二维网格模型图；

图11为本发明实施例提供的参考值R的代值一维网格模型图；

图12为本发明实施例提供的序列组合A中表示异常序列的代值二维网格模型图。

具体实施方式

下面将结合本发明的实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

实施例

本实施例提供的一种序列组合中判定异常序列的方法主要包括以下步骤：预先获取待判定的序列的组合A、将A建立二维网格模型、按照纵向提取对应列数据的方式重新组合获得多组序列T；此后对每组序列T中进行递增或递减排序，获得多组序列S；对S中每个序列中的数据进行计算分析，获得参考值R，其中的计算分析方法包括逐差对比、与预设阈值相比判断大小并找出跳变数据点、基于跳变数据点对S中该序列进行分段，基于分段结果获取S中该序列中的长度最大的中间数据段作为参考正常数据点，对参考正常数据点进行均值计算获得参考值；根据参考值再与原序列A中各个序列的对应数据进行误差分析，误差占比过大则判断该序列为异常序列。

其中，预先获取待判定序列的组合A，获取的方式有多种，如在对一待测物件用同类型多个测量仪器进行同时测量，对于每一个仪器不同时刻的测量结果即获得单个序列A_i，然后将多组A_i进行组合即可得到一个序列组合A。构建该序列组合的二维网格模型，该二维网格模型即表示如图1所示的标准的二维网格模型，每一组序列的同时刻测量的点位对应成纵向排列，将对应的纵向排列的数据提取出来构建为一维网格模型，如图9所示为数列的一维网格模型，即每个一维网格模型对应为每一组序列T，通过这种提取方式才能保证后续数据提取后获得的参考值具有计算意义，当然，整个序列排列的二维网格模型不一定如图1所示的二维网格如此标准，就算初始获得的序列组合A中的各个序列A_i不是等长度的模型，依然能够采用本算法进行计算。比如某个测量仪器某段时间正在检修，没有测量结果，也仍然可以用本算法进行计算，只需要在计算对应时刻的参考值的时候，该测量仪器没有结果的时间段不参与计算，统计该测量仪器的异常占比的时候，也不统计该测量仪器没有结果的时间段即可。

整个判定方法基于序列组合本身出发，大大增加了该方法的应用场景。

下面将结合计算式与代入数值说明的方式来进一步阐述本实施例的技术方案。需要说明的是，原始序列组合A即待判定序列组合获取的方式多种多样，并且A中序列的组数不限定，A中每组序列的长度不限定，而下面将要阐述的数据模型是直接采用特定长度的序列来说明，这种方式更能进行直观理解。

具体地，以原始序列组合A由m组长度均为n的序列构成(其中，m和n均为大于1的自然数)，原始序列组合A的表达式(1)为：

按照纵向提取的方式来获取数据并进行一维序列排列，获得n组序列T，T的表达式(2)为：

对式(2)的n组序列T₁,T₂,…,T_n分别进行递增排序，得到n组排序后的数据序列S，其表达式(2)为：

其中S₁是数据T₁的递增排序结果，其中S₂是数据T₂的递增排序结果，以此类推，其中S_n是数据T_n的递增排序结果。由此可得出：对于任意的i(i＝1,2,…,n)，满足S_i1<＝S_i2<＝…<＝S_im。

然后设定一个分段门限值K1，基于K1，对式(3)中的序列S_i＝(S_i1,S_i2,…,S_im)，求参考值R_i，R_i的计算方法如下：

1.逐差分析：计算D_j＝S_i(j+1)-S_ij；其中，j＝1,2,…,m-1；

2.基于D_j对S_i进行分段，分段方法如下，如果D_j>K1，则S_ij和S_i(j+1)之间就是一个分段点；如果在序列D_j中有k个值大于K1，那么S_i＝(S_i1,S_i2,…,S_im)就会被分为k+1段子序列；如果k＝0，则S_i就是它自身，即段数为1；

3.如果上一步得到的分段数是k，每一段的长度值依次分别表达为：L_t(t＝1,2,…,k)，那么即存在m＝L₁+L₂+…+L_k；S_i分段后结果如下所示：

分别记为表达式(4)：

求长度序列L_t(t＝1,2,…,k)的最大值，即：M＝max(L₁,L₂,…,L_k)

4.设序列L_t(t＝1,2,…,k)中值为M的个数为z，z为大于或等于1的自然数；对应的下标升序排列依次为M_h(h＝1,2,…,z)，即：且1≤M₁<M₂<…<M_z≤k；相应地，子序列F_it(t＝1,2,…,k)中长度等于M的子序列为表达式(5)：

注：为了便于统一用公式表达，如果式(5)中出现了L₀，则L₀＝0，下同。

如果z是奇数，取mid＝(z+1)/2；如果z是偶数，取mid＝z/2或者(z+1)/2，然后在式(5)中取序列：

5.计算F_iMmid的平均值可得R_i，即：

6.对i遍取(1,2,…,n)，重复上述步骤1～5，则可以求得一个参考值R_i(i＝1,2,…,n)序列：R＝(R₁,R₂,…,R_n)。

最后设定上下偏离度门限值K2和K3，基于K2和K3以及参考值序列R＝(R₁,R₂,…,R_n)，分别计算A_j＝(P_j1,P_j2,…,P_jn,)(j＝1,2,…,m)，都得到一个正常点数normal_j以及异常点数abnormal_j，计算方法如下：

对于每一个j(j＝1,2,…,m)，将normal_j和abnormal_j初始化为0；

对于任意i(i＝1,2,…,n)，如果R_i-K3≤P_ji≤R_i+K2，则正常点数加1，否则异常点数加1。

由此，对于每一个A_j＝(P_j1,P_j2,…,P_jn,)(j＝1,2,…,m)，都得到一个正常点数normal_j以及异常点数abnormal_j。

对于每一个j(j＝1,2,…,m)，计算异常点数额占比：

k_j＝abnormal_j/(abnormal_j+normal_j)

最后设定结果判定门限值K，对于每一个j(j＝1,2,…,m)，如果k_j<K，就可以判定序列A_j是异常的，否则判定为A_j是正常的。

以上为整个异常序列判定的计算或演算过程，需要说明的是，其中出现的指代字母或指代标记均是为了本领域普通技术人员的理解而拟设或创设，其主要作用在于指代说明，不应理解为对整个判定实现过程的限制；此外，说明书中出现的指代字母或指代标记可能与权利要求书中的出现的指代字母或指代标记不统一或不相对应，本领域普通技术人员应该分别基于各自的判定过程来理解。

接下来将结合具体数值带入计算来推演整个判定过程，可具备更强的说理性，让本领域普通技术人员更能直观本申请的创新要点。

上述式(1)中，取m为12，n为20，请参照图1，为序列组合A的二维网格模型。

按纵向提取的方式分别对12组所述序列组合A中的数据进行一维序列排列，获得20组序列T，请参阅图2，为将20组序列T排列为网格模型。

对20组数据序列T₁,T₂,…,T₂₀分别进行递增排序，得到20组排序后的数据序列S_i(i＝1,2,…,20)，请参阅图3；

设定分段门限值K1＝0.3，基于K1，对序列S_i(i＝1,2,…,20)，求参考值R_i：

1.计算D_j＝S_i(j+1)-S_ij；其中，j＝1,2,…,11，计算结果如图4所示。

2.基于D_j和K1＝0.3，确定S_i(i＝1,2,…,20)的分段点，请参阅图5，粗体形式的数值则为分段点。

3.对S_i(i＝1,2,…,20)进行分段，分段详细结果如图6所示，不同灰度表示不同段，其中：

段数为1的序列为：S₃、S₅、S₆、S₈、S₁₀、S₁₂、S₂₀；

段数为2的序列为：S₄、S₇、S₉、S₁₁、S₁₃、S₁₅、S₁₆、S₁₈；

段数为3的序列为：S₁、S₂、S₁₇、S₁₉；

段数为1的序列为：S₁₄；

以S₂为例，可得：

即如图7所示，相应的长度值(L₁,L₂,L₃)＝(4,4,4)；最大长度值为：M＝max(L₁,L₂,L₃)＝max(4,4,4)＝4；

类似地，每一段长度、长度最大值、总段数及长度等于最大值的段数如图8所示。

4.继续以S₂为例，S₂中长度等于最大值M＝4的段数z＝3，对应的下标(M₁,M₂,M₃)＝(1,2,3)，长度为最大值的子序列依次为：

因为z＝3是奇数，取mid＝(3+1)/2＝2，由此得：F_2Mmid＝F₂₂＝(S₂₅,S₂₆,S₂₇,S₂₈)，即如图9所示结果。

计算F₂₂的平均值R₂，即：

5.同理，可以逐行计算选取段的平均值，计算结果如图10所示，

6.由此得到参考值的序列R＝(R₁,R₂,…,R₂₀)，如图11所示。

最后设定上下偏离度门限值K2＝0.3、K3＝0.3，基于K2和K3和R，计算A_i(i＝1,2,…,12)中的正常和异常点数，请参阅图12，图中所示，值为0是异常点，值为1是正常点。

计算A_i(i＝1,2,…,12)中异常点数的占比，结果如图12所示。

最后设定结果判定门限值K＝0.5，找出A_i(i＝1,2,…,12)中异常占比小于0.5的值，请再次参阅图12，最右侧深灰度表示的数值为小于0.5的值，则表示其为异常序列，反之则为正常序列。

由此，可以判定A_i(i＝1,2,…,12)中A₁、A₄、A₅、A₉、A₁₁是异常序列，则表明基于本实施例的判定方法能够从一组近似的数据序列中识别异常序列，整个判定方式简单有效，判定灵敏度较高，其能够应用于大多数场景进行判定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在序列组合中判定异常序列的方法，其特征在于，包括如下步骤：

建立m组序列A的二维网格模型，按照纵向提取的方式分别对m组所述序列A中的数据进行一维序列排列，获得n组序列T；其中，m和n均为大于1的自然数；

对每组所述序列T中的数据进行递增或递减排序，获得n组序列S；

对所述序列组S中的每个序列S_i(i＝1,2,…,n)中的数据进行逐差分析，基于相邻数据之间的差值与预设阈值的比较结果来判断该相邻数据中是否存在跳变数据点，判断跳变数据点的步骤包括：设定一个分段门限值K1；然后将所述序列S_i中，相邻数据之间的差值与所述分段门限值K1比较大小；如该相邻数据之间的差值大于所述分段门限值K1，则认定该相邻数据中的一者为跳变数据点，如存在跳变数据点，则将该所述序列S_i中跳变数据点作为分段点，拟设该所述序列S_i中跳变数据点数量为k，则该序列S_i中的数据被分为k+1段子序列F_ij，其中，j＝1,2,…,k+1；取其中包含数据个数最多的一段子序列F_i,max，将该子序列F_i,max中的数据作为参考正常数据点；如不存在跳变数据点，则将该所述序列S_i中的所有数据作为参考正常数据点；基于参考正常数据点通过预设算法获得该序列S_i的参考值R_i，参考值R_i是取序列Si分段后包含数据最多的子序列F_i,max的数据作为参考正常数据点，并求平均值；

根据所述参考值R_i(i＝1,2,…,n)分别对所述序列A_j(j＝1,2,…,m)中的数据P_ji进行误差比对，并判定数据P_ji是否属于异常点；根据所述序列A_j中异常点的占比大小判断A_j是否属于异常序列。

2.根据权利要求1所述的在序列组合中判定异常序列的方法，其特征在于，当序列S_i分段后包含数据最多的子序列F_i,max的数量为多组且为奇数组时，取F_i,max最中间组的子序列中的数据作为参考正常数据点来计算所述参考值；当序列S_i分段后包含数据最多的子序列F_i,max的数量为多组且为偶数组时，取F_i,max最中间两组中任一组的子序列中的数据作为参考正常数据点来计算所述参考值R_i。

3.根据权利要求1所述的在序列组合中判定异常序列的方法，其特征在于，基于所述参考值判断所述异常点的步骤包括：分别设定上偏离度门限值K2和下偏离度门限值K3；如每个所述序列A_j中的数据P_ji的数值范围位于所述参考值R_i与上偏离度门限值K2之和以及所述参考值R_i与下偏离度门限值K3之差的数值范围之外，则认定该数据P_ji为异常点。

4.根据权利要求1所述的在序列组合中判定异常序列的方法，其特征在于，判断异常序列的步骤包括：设定一个结果判断门限值K，如序列A_j中异常点占比的数值范围大于结果判断门限值K，则判定序列A_j为异常序列。

5.根据权利要求1所述的在序列组合中判定异常序列的方法，其特征在于，m组序列A的各个序列长度可以相等，也可以不等；无论各个序列长度相等还是不等，只需要保证A中各个序列构建的二维网格模型中，纵向坐标按照特定属性对齐即可；在各个序列长度不等的情况下，序列中缺失的数据点不参与参考值的计算和结果占比的计算即可。