CN114020811A

CN114020811A - 数据异常检测方法及其装置、电子设备

Info

Publication number: CN114020811A
Application number: CN202111321740.1A
Authority: CN
Inventors: 张为欢; 王培君; 管虹翔; 梁广会
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-08

Abstract

本发明公开了一种数据异常检测方法及其装置、电子设备。其中，该检测方法包括：接收产品运行数据，将产品运行数据发送至目标园区，其中，目标园区接入有异常检测***，异常检测***中运行有数据检测模型，数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练样本数据，损失值率用于指示模型分类错误的样本数据量与总数据量的比值，采用异常检测***对产品运行数据进行分析，得到检测结果，将检测结果中的异常数据发送至告警***。本发明解决了相关技术中异常检测***的检测准确率较低的技术问题。

Description

数据异常检测方法及其装置、电子设备

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种数据异常检测方法及其装置、电子设备。

背景技术

在金融科技行业中，大多企业/公司开始搭建基于人工智能算法的告警***，用于识别异常数据，以使得相关人员能够快速处理这些数据。相关技术中，通过引入已成熟的人工智能算法，设计基于历史数据训练得到的模型，用以检测生产中的异常数据，进而发出告警。然而，现有的模型是通过前一个周期的离线数据进行训练以及迭代得到，随着金融业务领域的快速发展，各种训练样本中存在着较多难分正负样本，从而导致现有的模型的实际检测率降低，降低了检测准确率的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据异常检测方法及其装置、电子设备，以至少解决相关技术中异常检测***的检测准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种数据异常检测方法，包括：接收产品运行数据；将所述产品运行数据发送至目标园区，其中，所述目标园区接入有异常检测***，所述异常检测***中运行有数据检测模型，所述数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练所述样本数据，所述损失值率用于指示模型分类错误的样本数据量与总数据量的比值；采用所述异常检测***对所述产品运行数据进行分析，得到检测结果；将检测结果中的异常数据发送至告警***。

可选地，在接收产品运行数据之前，所述检测方法还包括：获取历史过程中第一预设时间段内的产品运行数据，得到历史样本数据；接收外部终端设备输入的产品运行数据的产品错分数据，其中，所述产品错分数据指示在模型训练过程中导致损失值率大于预设概率阈值的样本数据；将所述历史样本数据和所述产品错分数据输入至数据检测模型，以对所述数据检测模型进行迭代训练。

可选地，将所述历史样本数据和所述产品错分数据输入至数据检测模型，以对所述数据检测模型进行迭代训练的步骤，包括：采用预设正态分布算法对所述历史样本数据进行异常检测，得到负样本集合和正样本集合；采用局部异常因子算法对所述正样本集合中的样本数据进行分析，以确定所述正样本集合中的错分数据，完成模型训练。

可选地，采用预设正态分布算法对所述历史样本数据进行异常检测，得到负样本集合和正样本集合的步骤，包括：以每个待检测指标为基准，提取所述历史样本数据中对应于每个所述待检测指标的样本数据；对提取出的所有样本数据进行样本均值计算，得到指标检测均值；对提取出的所有样本数据进行样本方差计算，得到指标检测方差值；基于所述指标检测均值和所述指标检测方差值，计算正态分布区域；将处于正态分布区域所述历史样本数据分类至正样本集合，将未落于正态分布区域的所述历史样本数据分类至所述负样本集合。

可选地，采用局部异常因子算法对所述正样本集合中的样本数据进行分析，以确定所述正样本集合中的错分数据的步骤，包括：将所述历史样本数据中，与每个待检测指标对应的指标数据和对应的数据时间进行组合，得到多个时序数据；以每个所述时序数据为中心，确定处于目标时序数据的周围邻域点，得到邻域集合；计算所述邻域集合中其它邻域点的可达距离以及所述目标时序数据的局部可达密度；计算所述邻域集合内所有其它邻域点的局部可达密度的密度均值，并计算所述密度均值与所述目标时序数据的局部可达密度之间的密度比值；若所述密度比值大于预设比值阈值，则确定所述目标时序数据为所述正样本集合中的错分数据。

可选地，以每个所述时序数据为中心，确定处于目标时序数据的周围邻域点，得到邻域集合的步骤，包括：获取所述目标时序数据与其它时序数据之间的向量距离值；对所有的向量距离值进行排序，得到排序结果；基于所述排序结果，将向量距离值小于等于预设距离阈值的时序数据分类至所述邻域集合中。

可选地，计算所述邻域集合中其它邻域点的可达距离以及所述目标时序数据的局部可达密度的步骤，包括：若所述邻域集合中其它邻域点到所述目标时序数据的实际距离小于等于k距离点，则确定所述其它邻域点与所述目标时序数据的可达距离为预设距离阈值；若所述邻域集合中其它邻域点与所述目标时序数据之间的实际距离大于k距离点，则确定所述其它邻域点与所述目标时序数据的可达距离为所述实际距离；计算所述目标时序数据与所述邻域集合中其它邻域点的可达距离的倒数，得到所述目标时序数据的局部可达密度。

可选地，在将检测结果中的异常数据发送至告警***之后，所述检测方法还包括：接收告警***反馈的数据确认结果；若所述数据确认结果指示所述检测结果为真实，则将所述异常数据分类至正样本库；若所述数据确认结果指示所述检测结果为虚假，则将所述异常数据分类至负样本库。

根据本发明实施例的另一方面，还提供了一种数据异常检测装置，包括：接收单元，用于接收产品运行数据；第一发送单元，用于将所述产品运行数据发送至目标园区，其中，所述目标园区接入有异常检测***，所述异常检测***中运行有数据检测模型，所述数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练所述样本数据，所述损失值率用于指示模型分类错误的样本数据量与总数据量的比值；分析单元，用于采用所述异常检测***对所述产品运行数据进行分析，得到检测结果；第二发送单元，用于将检测结果中的异常数据发送至告警***。

可选地，所述检测装置还包括：第一获取模块，用于在接收产品运行数据之前，获取历史过程中第一预设时间段内的产品运行数据，得到历史样本数据；第一接收模块，用于接收外部终端设备输入的产品运行数据的产品错分数据，其中，所述产品错分数据指示在模型训练过程中导致损失值率大于预设概率阈值的样本数据；第一训练模块，用于将所述历史样本数据和所述产品错分数据输入至数据检测模型，以对所述数据检测模型进行迭代训练。

可选地，所述第一训练模块包括：第一检测子模块，用于采用预设正态分布算法对所述历史样本数据进行异常检测，得到负样本集合和正样本集合；第一分析子模块，用于采用局部异常因子算法对所述正样本集合中的样本数据进行分析，以确定所述正样本集合中的错分数据，完成模型训练。

可选地，所述第一检测子模块包括：第一提取子模块，用于以每个待检测指标为基准，提取所述历史样本数据中对应于每个所述待检测指标的样本数据；第一计算子模块，用于对提取出的所有样本数据进行样本均值计算，得到指标检测均值；第二计算子模块，用于对提取出的所有样本数据进行样本方差计算，得到指标检测方差值；第三计算子模块，用于基于所述指标检测均值和所述指标检测方差值，计算正态分布区域；第一分类子模块，用于将处于正态分布区域所述历史样本数据分类至正样本集合，将未落于正态分布区域的所述历史样本数据分类至所述负样本集合。

可选地，所述第一分析子模块包括：第一组合子模块，用于将所述历史样本数据中，与每个待检测指标对应的指标数据和对应的数据时间进行组合，得到多个时序数据；第一确定子模块，用于以每个所述时序数据为中心，确定处于目标时序数据的周围邻域点，得到邻域集合；第四计算子模块，用于计算所述邻域集合中其它邻域点的可达距离以及所述目标时序数据的局部可达密度；第五计算子模块，用于计算所述邻域集合内所有其它邻域点的局部可达密度的密度均值，并计算所述密度均值与所述目标时序数据的局部可达密度之间的密度比值；第二确定子模块，用于若所述密度比值大于预设比值阈值，则确定所述目标时序数据为所述正样本集合中的错分数据。

可选地，所述第一确定子模块包括：第一获取子模块，用于获取所述目标时序数据与其它时序数据之间的向量距离值；第一排序子模块，用于对所有的向量距离值进行排序，得到排序结果；第二分类子模块，用于基于所述排序结果，将向量距离值小于等于预设距离阈值的时序数据分类至所述邻域集合中。

可选地，所述第四计算子模块包括：第三确定子模块，用于若所述邻域集合中其它邻域点到所述目标时序数据的实际距离小于等于k距离点，则确定所述其它邻域点与所述目标时序数据的可达距离为预设距离阈值；第四确定子模块，用于若所述邻域集合中其它邻域点与所述目标时序数据之间的实际距离大于k距离点，则确定所述其它邻域点与所述目标时序数据的可达距离为所述实际距离；第六计算子模块，用于计算所述目标时序数据与所述邻域集合中其它邻域点的可达距离的倒数，得到所述目标时序数据的局部可达密度。

可选地，所述检测装置还包括：在将检测结果中的异常数据发送至告警***之后，第二接收模块，用于接收告警***反馈的数据确认结果；第一分类模块，用于若所述数据确认结果指示所述检测结果为真实，则将所述异常数据分类至正样本库；第二分类模块，用于若所述数据确认结果指示所述检测结果为虚假，则将所述异常数据分类至负样本库。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据异常检测方法。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的数据异常检测方法。

在本公开中，接收产品运行数据，将产品运行数据发送至目标园区，其中，目标园区接入有异常检测***，异常检测***中运行有数据检测模型，数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练样本数据，损失值率用于指示模型分类错误的样本数据量与总数据量的比值，采用异常检测***对产品运行数据进行分析，得到检测结果，将检测结果中的异常数据发送至告警***。在本申请中，通过对实时产品运行数据进行难例挖掘(即挖掘对模型训练过程中导致损失值很大的一些样本数据)，并对这些数据重新训练，能够提高异常检测***的检测率，使其能更加准确地、实时地发现异常数据，进而解决了相关技术中异常检测***的检测准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的数据异常检测方法的流程图；

图2是根据本发明实施例的一种可选的提高人工智能告警***准确率方法的示意图；

图3是根据本发明实施例的一种可选的难例挖掘的流程图；

图4是根据本发明实施例的一种可选的数据异常检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于本领域技术人员理解本发明，下面对本发明各实施例中涉及的部分术语或名词做出解释：

难例挖掘：是指挖掘在模型训练过程中导致损失值率很大的一些样本数据(即，使模型在很大概率上分类错误的样本数据)，并重新训练这些样本数据。

难分正(负)样本：错分成负(正)样本的正(负)样本，训练过程中损失最高的正(负)样本。

LOF算法：Local Outlier Factor，局部异常因子算法，通过比较给定数据点和其邻域点的局部密度，当其局部密度明显低于邻域点的局部密度时，这些数据点样本则被认为是异常数据样本。

本发明下述各实施例可应用于各种用于检测异常数据的***、应用或需要检测异常数据的场景中，涉及的数据可以为实际生产中运行的数据，例如，关于各种金融产品(例如，基金产品的数据、关于债券产品的数据)的数据等，本发明通过将历史上的样本数据以及在生产中对实时数据进行难例挖掘得到的难分样本数据同时输入模型进行迭代训练，克服了基于传统方式的人工智能模型更新迭代的不足，能够得到一种实现简单，实施成本低，并且可以有效地提升基于人工智能告警***准确率的方法，可以更加准确、实时地发现生产异常数据。

实施例一

根据本发明实施例，提供了一种数据异常检测方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的数据异常检测方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，接收产品运行数据。

步骤S104，将产品运行数据发送至目标园区，其中，目标园区接入有异常检测***，异常检测***中运行有数据检测模型，数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练样本数据，损失值率用于指示模型分类错误的样本数据量与总数据量的比值。

步骤S106，采用异常检测***对产品运行数据进行分析，得到检测结果。

步骤S108，将检测结果中的异常数据发送至告警***。

通过上述步骤，可以接收产品运行数据，将产品运行数据发送至目标园区，其中，目标园区接入有异常检测***，异常检测***中运行有数据检测模型，数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练样本数据，损失值率用于指示模型分类错误的样本数据量与总数据量的比值，采用异常检测***对产品运行数据进行分析，得到检测结果，将检测结果中的异常数据发送至告警***。在本发明实施例中，通过对实时产品运行数据进行难例挖掘(采用异常检测***中运行的数据检测模型进行异常检测，挖掘出模型训练过程中导致损失值很大的一些样本数据)，并对这些数据重新训练，能够提高异常检测***的检测率，使其能更加准确地、实时地发现异常数据，进而解决了相关技术中异常检测***的检测准确率较低的技术问题。

下面结合上述各步骤对本发明实施例进行详细说明。

在本发明实施例中，在接收产品运行数据之前，检测方法还包括：获取历史过程中第一预设时间段内的产品运行数据，得到历史样本数据；接收外部终端设备输入的产品运行数据的产品错分数据，其中，产品错分数据指示在模型训练过程中导致损失值率大于预设概率阈值的样本数据；将历史样本数据和产品错分数据输入至数据检测模型，以对数据检测模型进行迭代训练。

在本发明实施例中，可以通过将历史上的样本数据(即历史过程中第一预设时间段内的产品运行数据)以及在生产中对实时数据进行难例挖掘得到的难分样本数据(即产品错分数据，是指在模型训练过程中导致损失值率大于预设概率阈值(例如，百分之六十，该预设概率阈值有实际情况确定，在此不做限制)的样本数据)，同时输入至模型(即数据检测模型)进行迭代训练。

可选的，将历史样本数据和产品错分数据输入至数据检测模型，以对数据检测模型进行迭代训练的步骤，包括：采用预设正态分布算法对历史样本数据进行异常检测，得到负样本集合和正样本集合；采用局部异常因子算法对正样本集合中的样本数据进行分析，以确定正样本集合中的错分数据，完成模型训练。

在本发明实施例中，可以对历史样本数据经过两次算法进行挖掘，以确定产品错分数据，完成模型训练，可以首先通过3-sigma算法(即预设正态分布算法)对历史样本数据(要求历史样本数据符合正态分布，如果该样本数据不符合正态分布可以使用对数log计算将其转换为正态分布)进行异常检测，得到负样本集合和正样本集合，然后使用LOF算法(即局部异常因子算法)对正样本集合中的样本数据进行检测，以确定错分数据，完成模型训练。

可选的，采用预设正态分布算法对历史样本数据进行异常检测，得到负样本集合和正样本集合的步骤，包括：以每个待检测指标为基准，提取历史样本数据中对应于每个待检测指标的样本数据；对提取出的所有样本数据进行样本均值计算，得到指标检测均值；对提取出的所有样本数据进行样本方差计算，得到指标检测方差值；基于指标检测均值和指标检测方差值，计算正态分布区域；将处于正态分布区域历史样本数据分类至正样本集合，将未落于正态分布区域的历史样本数据分类至负样本集合。

在本发明实施例中，通过3-sigma算法(即预设正态分布算法)对历史样本数据进行异常检测，可以对要检测的指标(即待检测指标，例如，成功率、交易耗时等)的样本数据进行样本均值计算，得到指标检测均值μ，之后进行样本方差计算，得到指标检测方差值σ，将不在3-sigma范围内(即未处于正态分布区域的范围，例如(μ-3σ,μ+3σ))确认为负样本集合，将位于3-sigma范围内(即正态分布区域，例如(μ-3σ,μ+3σ))确认为正样本集合。

可选的，采用局部异常因子算法对正样本集合中的样本数据进行分析，以确定正样本集合中的错分数据的步骤，包括：将历史样本数据中，与每个待检测指标对应的指标数据和对应的数据时间进行组合，得到多个时序数据；以每个时序数据为中心，确定处于目标时序数据的周围邻域点，得到邻域集合；计算邻域集合中其它邻域点的可达距离以及目标时序数据的局部可达密度；计算邻域集合内所有其它邻域点的局部可达密度的密度均值，并计算密度均值与目标时序数据的局部可达密度之间的密度比值；若密度比值大于预设比值阈值，则确定目标时序数据为正样本集合中的错分数据。

在本发明实施例中，可使用LOF算法对正样本集合中的样本数据进行检测，在此需要使用二维数据(即时序数据)，可将每个待检测指标对应的指标数据(例如，成功率)和对应的数据时间进行组合(例如，将成功率、交易耗时发生的时间点组合成为时序的二维数据)，得到时序数据，以每个时序数据为中心，确定处于目标时序数据(可设为点P)的周围邻域点(例如，设置点O为邻域内点)，得到邻域集合(可记为N_k(P)，表示第K距离邻域，即到点P的距离小于等于k距离的所有点)，之后计算邻域集合中其它邻域点的可达距离(例如，点O到点P的第K可达距离，为点O的第K距离，或者点O、点P之间的实际距离)以及目标时序数据的局部可达密度(即点P与其它邻域点的可达距离的倒数)，计算邻域集合内所有其它邻域点的局部可达密度的密度均值与目标时序数据的局部可达密度之间的密度比值(即通过如下公式，即邻域内点的局部可达密度的均值除以点P的局部可达密度得到)。

其中，ρ_k(O)表示点O的局部可达密度，ρ_k(P)表示点P的局部可达密度，|N_k(P)|表示邻域内的点数，LOF_k(P)表示密度比值。

若密度比值大于预设比值阈值(例如，1)，确定目标时序数据为正样本集合中的错分数据，若密度比值与预设比值阈值相近，则表示点P的邻域点密度差不多，点P可能和邻域为同一簇，若密度比值小于预设比值阈值，则表示点P的密度高于其邻域点密度，表明点P为密集点。

可选的，以每个时序数据为中心，确定处于目标时序数据的周围邻域点，得到邻域集合的步骤，包括：获取目标时序数据与其它时序数据之间的向量距离值；对所有的向量距离值进行排序，得到排序结果；基于排序结果，将向量距离值小于等于预设距离阈值的时序数据分类至邻域集合中。

在本发明实施例中，可以计算目标时序数据与其它时序数据之间的向量距离值，将向量距离值进行排序，得到排序结果，例如，计算目标时序数据(例如，点P)的第k距离，对于点P，将其与其他的点(即其它时序数据)之间的距离进行从小到大的排序，第k个即为k距离，之后将向量距离值小于等于预设距离阈值(若计算k距离邻域，其预设距离阈值为第K距离)的时序数据分类至邻域集合中，例如，计算k距离邻域，即到点P的距离小于等于k距离的所有点组成的邻域集合，记为N_k(P)。

可选的，计算邻域集合中其它邻域点的可达距离以及目标时序数据的局部可达密度的步骤，包括：若邻域集合中其它邻域点到目标时序数据的实际距离小于等于k距离点，则确定其它邻域点与目标时序数据的可达距离为预设距离阈值；若邻域集合中其它邻域点与目标时序数据之间的实际距离大于k距离点，则确定其它邻域点与目标时序数据的可达距离为实际距离；计算目标时序数据与邻域集合中其它邻域点的可达距离的倒数，得到目标时序数据的局部可达密度。

在本发明实施例中，可通过如下公式计算可达距离，其中，点P表示目标时序数据，点O表示邻域集合中其它邻域点，d_k(O)表示点O的第K距离，d(P,O)表示点O与点P之间的实际距离，d_k(P,O)即为可达距离。

d_k(P,O)＝max{d_k(O),d(P,O)}；

即若到点P的距离小于等于k距离点(即若邻域集合中其它邻域点到目标时序数据的实际距离小于等于k距离点)，则可达距离为k距离(即预设距离阈值)，反之，可达距离为实际距离(即若邻域集合中其它邻域点与目标时序数据之间的实际距离大于k距离点，则确定其它邻域点与目标时序数据的可达距离为实际距离)。

之后，可通过如下公式计算局部可达密度，其中，点O表示邻域内的点，点P目标时序数据，通过点P与其它邻域点的可达距离的倒数计算得到点P的局部可达密度。

在训练模型后，并对训练模型进行迭代更新后，可以直接使用该模型进行异常数据的检测。对实时数据进行难例挖掘并进行模型迭代，可更准确、实时的发现生产异常。

步骤S102，接收产品运行数据。

在本发明实施例中，产品运行数据为生产中的实时生产数据，例如，关于基金的数据、关于债券的数据等。

在本发明实施例中，通过将生产中存量的历史样本数据用于基础模型训练得到初始模型(即数据检测模型)后，可以将该数据检测模型投入生产搭建的异常检测***，其中，该数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值(例如，百分之六十)的样本数据进行挖掘，并且重新训练样本数据，损失值率用于指示模型分类错误的样本数据量与总数据量的比值，其异常检测***可以分为不同园区(例如，A、B园区)，不同园区可以执行不同的功能，即可设置***双园区双活，以减轻单园区***压力，如此，可以根据产品运行数据的类型发送至相应的目标园区。

在本发明实施例中，每个园区可以对应一个异常检测***，这些园区可以并行运行，即不仅可以双园区双活，也可以三园区三活，使多园区并行运行的好处为：能够减轻***压力，提高处理数据的速度，并且，若其中一个园区发生故障时，可以通过多活(例如，双活)功能改变异常检测***(即选择另一园区对应的异常检测***)，继续处理数据。

在本发明实施例中，可以通过异常检测***对产品运行数据进行检测，根据检测结果，初步确定该数据是否异常，并且将数据存入样本库。

步骤S108，将检测结果中的异常数据发送至告警***。

可选的，在将检测结果中的异常数据发送至告警***之后，检测方法还包括：接收告警***反馈的数据确认结果；若数据确认结果指示检测结果为真实，则将异常数据分类至正样本库；若数据确认结果指示检测结果为虚假，则将异常数据分类至负样本库。

在本发明实施例中，异常告警***实时检测是否有新的疑似异常，并且将异常展现出来并通知相关人员，相关人员接到通知以后(即接收告警***反馈的数据确认结果)，根据实际情况确认该疑似异常是否为真正的异常，并在异常告警***进行确认，确认完以后，是异常的数据进入正样本库(即若数据确认结果指示检测结果为真实，则将异常数据分类至正样本库)，不是异常的数据进入负样本库(即若数据确认结果指示检测结果为虚假，则将异常数据分类至负样本库)，告警通知***抓取正样本的库中的内容，并将真正告警数据实时快速的发送到相关人员。

本发明实施例，提供了一种提升人工智能告警***准确率的方法，不仅解决了生产上人工智能模型基于传统的方法进行更新训练导致的检测准确率降低的问题，而且通过对实时数据进行难例挖掘并进行模型迭代，可以更准确、实时地发现生产异常，同时，对提高生产上基于人工智能模型告警***准确率较为适用，且对各种人工智能算法都可兼容，可扩展性能较好。

实施例二

图2是根据本发明实施例的一种可选的提高人工智能告警***准确率方法的示意图，包括如下步骤：

步骤1：确认好训练的模型，将生产上存量的历史样本数据用于基础模型训练得到初始模型，并且将该模型投入生产搭建异常检测***(其中，异常检测***可以分为不同园区(例如，A、B园区)，不同园区可以执行不同的功能，即可设置***双园区双活，以减轻单园区***压力)。

步骤2：生产数据实时接入对应园区，经过异常检测***，初始模型对该数据进行检测，根据模型输出训练后的结果，初步确定该数据是否异常，并且将数据存入样本库。

步骤3：告警检测，异常告警***实时检测是否有新的疑似异常，并且将异常展现出来，通知到开发运维人员，待开发运维人员确认是否为真正异常。

步骤4：人工确认，开发以及运维人员接到通知以后，根据实际情况确认该疑似异常是否为真正的异常，并在异常告警***进行确认，确认完以后，是异常的数据进入正样本库，不是异常的数据进入负样本库。

告警通知***抓取正样本的库中的内容，并将真正告警数据实时快速的发送到相关人员。

步骤5：模型更新迭代，通过将历史的样本数据(即从样本库中获取)以及生产实时数据的难例挖掘的难分样本同时输入模型进行迭代训练，以更新模型。

图3是根据本发明实施例的一种可选的难例挖掘的流程图，如图3所示，为提升难例挖掘准确性，本发明实施例可以经过两次算法进行挖掘。首先，可以通过3-sigma算法对实时数据(其中，要求实时数据符合正态分布，如果该实时数据不符合正态分布可以使用对数log计算将其转换为正态分布)进行异常检测，可以对要检测的指标(例如，成功率、交易耗时等)的样本数据进行样本均值计算，得到指标检测均值μ，之后进行样本方差计算，得到指标检测方差值σ，将不在3-sigma范围内(例如μ-3σ,μ+3σ)确认为难分负样本集合，将位于3-sigma范围内(例如μ-3σ,μ+3σ)确认为正样本集合。

若3-Sigma检测为难分负样本集合(即实时数据异常)，则将该实时数据存入难例样本库，若3-Sigma检测为正样本集合(即实时数据正常)，则继续使用LOF算法进行检测(其中，LOF算法需要二维数据，即可以将指标值，例如，成功率、交易耗时发生的时间点组合成为时序的二维数据)。

第一步，计算第k距离，对于点P(即选定的目标实时数据点)，将其与其他的点之间的距离进行从小到大的排序，第k个即为k距离；第二步，计算k距离邻域集合：到点P的距离小于等于k距离的所有点，共k个，记为N_k(P)；第三步，计算可达距离，若到点P的距离小于等于k距离点，则为k距离，反之为实际距离，如下公式所示：

d_k(P,O)＝max{d_k(O),d(P,O)}；

第四步，计算局部可达密度为(其中，设邻域内的点为点O)：通过如下公式进行计算，即计算点P与其它邻域点的可达距离的倒数。

第五步，计算局部离群因子，通过如下公式进行计算，即邻域内点的局部可达密度的均值除以P点的局部可达密度。

LOF_k(P)表示P的邻域N_k(P)内其他点的局部可达密度与P的局部可达密度值比的平均数，如果这个值越接近1，说明P的邻域点密度差不多，P可能和邻域为同一簇，如果这个比值小于1，说明P的密度高于其邻域点密度，P为密集点，如果这个比值大于1，说明P的密度小于其邻域点密度，P为异常点，即比值大于1的实时数据进入难例负样本库。

本发明实施例，具有以下有益效果：

(1)通过对实时数据进行难例挖掘并进行模型迭代，可以更准确、实时地发现生产异常；

(2)本申请所训练的人工智能模型，能够适用于各种产品生产告警***，且对各种人工智能算法都可兼容，可扩展性能较好。

实施例三

本实施例中提供的一种数据异常检测装置包含了多个实施单元，每个实施单元对应于上述实施例一中的各个实施步骤。

图4是根据本发明实施例的一种可选的数据异常检测装置的示意图，如图4所示，该检测装置可以包括：接收单元40，第一发送单元42，分析单元44，第二发送单元46，其中，

接收单元40，用于接收产品运行数据；

第一发送单元42，用于将产品运行数据发送至目标园区，其中，目标园区接入有异常检测***，异常检测***中运行有数据检测模型，数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练样本数据，损失值率用于指示模型分类错误的样本数据量与总数据量的比值；

分析单元44，用于采用异常检测***对产品运行数据进行分析，得到检测结果；

第二发送单元46，用于将检测结果中的异常数据发送至告警***。

上述检测装置，可以通过接收单元40接收产品运行数据，通过第一发送单元42将产品运行数据发送至目标园区，其中，目标园区接入有异常检测***，异常检测***中运行有数据检测模型，数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练样本数据，损失值率用于指示模型分类错误的样本数据量与总数据量的比值，通过分析单元44采用异常检测***对产品运行数据进行分析，得到检测结果，通过第二发送单元46将检测结果中的异常数据发送至告警***。在本发明实施例中，通过对实时产品运行数据进行难例挖掘，并对这些数据重新训练，能够提高异常检测***的检测率，使其能更加准确地、实时地发现异常数据，进而解决了相关技术中异常检测***的检测准确率较低的技术问题。

可选的，检测装置还包括：第一获取模块，用于在接收产品运行数据之前，获取历史过程中第一预设时间段内的产品运行数据，得到历史样本数据；第一接收模块，用于接收外部终端设备输入的产品运行数据的产品错分数据，其中，产品错分数据指示在模型训练过程中导致损失值率大于预设概率阈值的样本数据；第一训练模块，用于将历史样本数据和产品错分数据输入至数据检测模型，以对数据检测模型进行迭代训练。

可选的，第一训练模块包括：第一检测子模块，用于采用预设正态分布算法对历史样本数据进行异常检测，得到负样本集合和正样本集合；第一分析子模块，用于采用局部异常因子算法对正样本集合中的样本数据进行分析，以确定正样本集合中的错分数据，完成模型训练。

可选的，第一检测子模块包括：第一提取子模块，用于以每个待检测指标为基准，提取历史样本数据中对应于每个待检测指标的样本数据；第一计算子模块，用于对提取出的所有样本数据进行样本均值计算，得到指标检测均值；第二计算子模块，用于对提取出的所有样本数据进行样本方差计算，得到指标检测方差值；第三计算子模块，用于基于指标检测均值和指标检测方差值，计算正态分布区域；第一分类子模块，用于将处于正态分布区域历史样本数据分类至正样本集合，将未落于正态分布区域的历史样本数据分类至负样本集合。

可选的，第一分析子模块包括：第一组合子模块，用于将历史样本数据中，与每个待检测指标对应的指标数据和对应的数据时间进行组合，得到多个时序数据；第一确定子模块，用于以每个时序数据为中心，确定处于目标时序数据的周围邻域点，得到邻域集合；第四计算子模块，用于计算邻域集合中其它邻域点的可达距离以及目标时序数据的局部可达密度；第五计算子模块，用于计算邻域集合内所有其它邻域点的局部可达密度的密度均值，并计算密度均值与目标时序数据的局部可达密度之间的密度比值；第二确定子模块，用于若密度比值大于预设比值阈值，则确定目标时序数据为正样本集合中的错分数据。

可选的，第一确定子模块包括：第一获取子模块，用于获取目标时序数据与其它时序数据之间的向量距离值；第一排序子模块，用于对所有的向量距离值进行排序，得到排序结果；第二分类子模块，用于基于排序结果，将向量距离值小于等于预设距离阈值的时序数据分类至邻域集合中。

可选的，第四计算子模块包括：第三确定子模块，用于若邻域集合中其它邻域点到目标时序数据的实际距离小于等于k距离点，则确定其它邻域点与目标时序数据的可达距离为预设距离阈值；第四确定子模块，用于若邻域集合中其它邻域点与目标时序数据之间的实际距离大于k距离点，则确定其它邻域点与目标时序数据的可达距离为实际距离；第六计算子模块，用于计算目标时序数据与邻域集合中其它邻域点的可达距离的倒数，得到目标时序数据的局部可达密度。

可选的，检测装置还包括：在将检测结果中的异常数据发送至告警***之后，第二接收模块，用于接收告警***反馈的数据确认结果；第一分类模块，用于若数据确认结果指示检测结果为真实，则将异常数据分类至正样本库；第二分类模块，用于若数据确认结果指示检测结果为虚假，则将异常数据分类至负样本库。

上述的检测装置还可以包括处理器和存储器，上述接收单元40，第一发送单元42，分析单元44，第二发送单元46等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数将检测结果中的异常数据发送至告警***。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：接收产品运行数据，将产品运行数据发送至目标园区，其中，目标园区接入有异常检测***，异常检测***中运行有数据检测模型，数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练样本数据，损失值率用于指示模型分类错误的样本数据量与总数据量的比值，采用异常检测***对产品运行数据进行分析，得到检测结果，将检测结果中的异常数据发送至告警***。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的数据异常检测方法。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的数据异常检测方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据异常检测方法，其特征在于，包括：

接收产品运行数据；

将所述产品运行数据发送至目标园区，其中，所述目标园区接入有异常检测***，所述异常检测***中运行有数据检测模型，所述数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练所述样本数据，所述损失值率用于指示模型分类错误的样本数据量与总数据量的比值；

采用所述异常检测***对所述产品运行数据进行分析，得到检测结果；

将检测结果中的异常数据发送至告警***。

2.根据权利要求1所述的检测方法，其特征在于，在接收产品运行数据之前，所述检测方法还包括：

获取历史过程中第一预设时间段内的产品运行数据，得到历史样本数据；

接收外部终端设备输入的产品运行数据的产品错分数据，其中，所述产品错分数据指示在模型训练过程中导致损失值率大于预设概率阈值的样本数据；

将所述历史样本数据和所述产品错分数据输入至数据检测模型，以对所述数据检测模型进行迭代训练。

3.根据权利要求2所述的检测方法，其特征在于，将所述历史样本数据和所述产品错分数据输入至数据检测模型，以对所述数据检测模型进行迭代训练的步骤，包括：

采用预设正态分布算法对所述历史样本数据进行异常检测，得到负样本集合和正样本集合；

采用局部异常因子算法对所述正样本集合中的样本数据进行分析，以确定所述正样本集合中的错分数据，完成模型训练。

4.根据权利要求3所述的检测方法，其特征在于，采用预设正态分布算法对所述历史样本数据进行异常检测，得到负样本集合和正样本集合的步骤，包括：

以每个待检测指标为基准，提取所述历史样本数据中对应于每个所述待检测指标的样本数据；

对提取出的所有样本数据进行样本均值计算，得到指标检测均值；

对提取出的所有样本数据进行样本方差计算，得到指标检测方差值；

基于所述指标检测均值和所述指标检测方差值，计算正态分布区域；

将处于正态分布区域所述历史样本数据分类至正样本集合，将未落于正态分布区域的所述历史样本数据分类至所述负样本集合。

5.根据权利要求3所述的检测方法，其特征在于，采用局部异常因子算法对所述正样本集合中的样本数据进行分析，以确定所述正样本集合中的错分数据的步骤，包括：

将所述历史样本数据中，与每个待检测指标对应的指标数据和对应的数据时间进行组合，得到多个时序数据；

以每个所述时序数据为中心，确定处于目标时序数据的周围邻域点，得到邻域集合；

计算所述邻域集合中其它邻域点的可达距离以及所述目标时序数据的局部可达密度；

计算所述邻域集合内所有其它邻域点的局部可达密度的密度均值，并计算所述密度均值与所述目标时序数据的局部可达密度之间的密度比值；

若所述密度比值大于预设比值阈值，则确定所述目标时序数据为所述正样本集合中的错分数据。

6.根据权利要求5所述的检测方法，其特征在于，以每个所述时序数据为中心，确定处于目标时序数据的周围邻域点，得到邻域集合的步骤，包括：

获取所述目标时序数据与其它时序数据之间的向量距离值；

对所有的向量距离值进行排序，得到排序结果；

基于所述排序结果，将向量距离值小于等于预设距离阈值的时序数据分类至所述邻域集合中。

7.根据权利要求5所述的检测方法，其特征在于，计算所述邻域集合中其它邻域点的可达距离以及所述目标时序数据的局部可达密度的步骤，包括：

若所述邻域集合中其它邻域点到所述目标时序数据的实际距离小于等于k距离点，则确定所述其它邻域点与所述目标时序数据的可达距离为预设距离阈值；

若所述邻域集合中其它邻域点与所述目标时序数据之间的实际距离大于k距离点，则确定所述其它邻域点与所述目标时序数据的可达距离为所述实际距离；

计算所述目标时序数据与所述邻域集合中其它邻域点的可达距离的倒数，得到所述目标时序数据的局部可达密度。

8.根据权利要求1所述的检测方法，其特征在于，在将检测结果中的异常数据发送至告警***之后，所述检测方法还包括：

接收告警***反馈的数据确认结果；

若所述数据确认结果指示所述检测结果为真实，则将所述异常数据分类至正样本库；

若所述数据确认结果指示所述检测结果为虚假，则将所述异常数据分类至负样本库。

9.一种数据异常检测装置，其特征在于，包括：

接收单元，用于接收产品运行数据；

第一发送单元，用于将所述产品运行数据发送至目标园区，其中，所述目标园区接入有异常检测***，所述异常检测***中运行有数据检测模型，所述数据检测模型在模型训练过程中对导致损失值率大于预设概率阈值的样本数据进行挖掘，并且重新训练所述样本数据，所述损失值率用于指示模型分类错误的样本数据量与总数据量的比值；

分析单元，用于采用所述异常检测***对所述产品运行数据进行分析，得到检测结果；

第二发送单元，用于将检测结果中的异常数据发送至告警***。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任意一项所述的数据异常检测方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的数据异常检测方法。