WO2021184727A1 - 数据异常检测方法、装置、电子设备及存储介质 - Google Patents

数据异常检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
WO2021184727A1
WO2021184727A1 PCT/CN2020/119060 CN2020119060W WO2021184727A1 WO 2021184727 A1 WO2021184727 A1 WO 2021184727A1 CN 2020119060 W CN2020119060 W CN 2020119060W WO 2021184727 A1 WO2021184727 A1 WO 2021184727A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
point coordinate
abnormal data
dimensional point
abnormal
Prior art date
Application number
PCT/CN2020/119060
Other languages
English (en)
French (fr)
Inventor
徐锐杰
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021184727A1 publication Critical patent/WO2021184727A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Definitions

  • This application relates to the technical field of abnormality detection, and in particular to a method, device, electronic equipment and storage medium for data abnormality detection.
  • the first aspect of the present application provides a data anomaly detection method, the method includes:
  • the trained abnormal data detection model is used to perform abnormality detection on the second abnormal data and the discrete abnormal data to obtain the detection result, wherein the abnormality detection
  • the sample data used in model training is the data screened by an unsupervised learning algorithm.
  • a second aspect of the present application provides a data abnormality detection device, the device includes:
  • the acquisition module is used to acquire the equipment index data that needs to be detected for anomaly, and to acquire the data filtering interval;
  • a filtering module configured to filter the device index data according to the data filtering interval to obtain first filtering data
  • a judging module for judging whether there is first abnormal data in the first filtered data according to the Laida criterion, Gaussian model and exponentially weighted moving average method;
  • An extraction module configured to extract three-dimensional point coordinate features of the first abnormal data if there is first abnormal data in the first filtered data
  • the adding module is used to add the three-dimensional point coordinate feature of the first abnormal data to the coordinate feature set;
  • the judgment module is further configured to use a density-based clustering algorithm to perform cluster analysis on the features in the coordinate feature set, to obtain at least one category corresponding to each of the three-dimensional point coordinate features, and to perform cluster analysis on each of the three-dimensional point coordinate features. At least one category corresponding to the three-dimensional point coordinate feature, determining whether there is a discrete point coordinate feature in the three-dimensional point coordinate feature;
  • the determining module is configured to determine discrete abnormal data corresponding to the discrete point coordinate feature if there is a discrete point coordinate feature in the three-dimensional point coordinate feature;
  • the judgment module is further configured to use a principal component analysis algorithm to judge whether there is second abnormal data in the first abnormal data;
  • the detection module is configured to, if the second abnormal data exists in the first abnormal data, use the trained abnormal data detection model to perform abnormality detection on the second abnormal data and the discrete abnormal data to obtain the detection result, wherein
  • the sample data used in the training of the anomaly detection model is data screened by an unsupervised learning algorithm.
  • a third aspect of the present application provides an electronic device including a processor and a memory, and the processor is configured to execute the computer program stored in the memory to implement the following steps:
  • the trained abnormal data detection model is used to perform abnormality detection on the second abnormal data and the discrete abnormal data to obtain the detection result, wherein the abnormality detection
  • the sample data used in model training is the data screened by an unsupervised learning algorithm.
  • the fourth aspect of the present application provides a computer-readable storage medium having a computer program stored on the computer-readable storage medium, and when the computer program is executed by a processor, the following steps are implemented:
  • the trained abnormal data detection model is used to perform abnormality detection on the second abnormal data and the discrete abnormal data to obtain the detection result, wherein the abnormality detection
  • the sample data used in model training is the data screened by an unsupervised learning algorithm.
  • Fig. 1 is a flowchart of a preferred embodiment of a method for detecting data anomaly disclosed in the present application.
  • Fig. 2 is a functional module diagram of a preferred embodiment of a data anomaly detection device disclosed in the present application.
  • FIG. 3 is a schematic structural diagram of an electronic device implementing a preferred embodiment of the data abnormality detection method according to the present application.
  • the data abnormality detection method of the embodiment of the present application is applied to an electronic device, and can also be applied to a hardware environment composed of an electronic device and a server connected to the electronic device through a network, and is executed by the server and the electronic device.
  • Networks include, but are not limited to: wide area networks, metropolitan area networks, or local area networks.
  • the electronic device is a device that can automatically perform numerical calculation and/or information processing in accordance with pre-set or stored instructions.
  • Its hardware includes, but is not limited to, a microprocessor, an application specific integrated circuit (ASIC), and a field programmable gate. Array (FPGA), digital processor (DSP), embedded device, etc.
  • the electronic equipment may also include network equipment and/or user equipment.
  • the network device includes, but is not limited to, a single network device, a server group composed of multiple network devices, or a cloud composed of a large number of hosts or network devices based on Cloud Computing, where cloud computing is distributed computing One type, a super virtual computer composed of a group of loosely coupled computer sets.
  • the user equipment includes, but is not limited to, any electronic product that can interact with the user through a keyboard, a mouse, a remote control, a touch panel, or a voice control device, for example, a personal computer, a tablet computer, a smart phone, and a personal digital device. Assistant PDA, etc.
  • FIG. 1 is a flowchart of a preferred embodiment of a data anomaly detection method disclosed in the present application. Among them, according to different needs, the order of the steps in the flowchart can be changed, and some steps can be omitted.
  • the electronic device obtains device index data that needs to be detected for anomaly, and obtains the data filtering interval.
  • the device index data may be CPU usage, memory usage, hard disk storage space, network switch request quantity, network exit access quantity, etc.
  • the obtaining data filtering interval includes:
  • the user can preset a data filtering interval according to the actual situation, for example, set the memory usage filtering interval to [10%, 100%]. If the real-time memory usage does not reach 10%, there is no need Anomaly detection is performed on the data at this time, saving computer resources. If the user does not set the data filtering interval in advance, he can count the historical data of one month, obtain historical statistical data, and then obtain the percentile 0.01 and the percentile 0.99 of the historical statistical data, and the percentile 0.01 and the percentile The digit 0.99 determines the filtering interval of the digit data. For example, the percentile of historical statistics of memory usage is 0.01 is 10%, and the percentile of historical statistics of memory usage is 0.99 to 88%, then the memory usage is The data filtering interval is determined as [10%, 88%].
  • the method further includes:
  • the unsupervised learning algorithm may be based on Laida criterion, Gaussian model, exponentially weighted moving average method, density-based clustering algorithm, principal component analysis algorithm, etc.
  • the device is in a normal operating state most of the time, most of the device index data obtained is normal data, and the first sample data used for training is also through the statistical device
  • the indicator data comes from, therefore, the proportion of abnormal data in the first sample data is extremely low, which leads to the low accuracy of the anomaly detection model trained using the first sample data.
  • the first sample data can be filtered through an unsupervised learning algorithm, that is, most normal data is filtered out, so as to increase the proportion of abnormal data.
  • the electronic device filters the device index data according to the data filtering interval to obtain first filtered data.
  • the method further includes:
  • the first filtered data belongs to the first preset data interval, determine whether the density estimation value corresponding to the first filtered data is less than the preset density estimation threshold according to the Gaussian distribution model;
  • the density estimation value corresponding to the first filtered data is greater than or equal to the preset density estimation threshold, use an exponential weighted moving average method to determine whether the exponential weighted average corresponding to the first filtered data belongs to the second preset data interval;
  • the exponential weighted average corresponding to the first filtered data belongs to the second preset data interval, it is determined that the first filtered data does not contain first abnormal data.
  • the Laida criterion refers to the assumption that a set of detected data contains only random errors, and the standard deviation is calculated and processed, and an interval is determined according to a certain probability. It is considered that any error that exceeds this interval is not random. The error is a gross error, and the data containing the error should be eliminated.
  • the Gaussian model uses Gaussian probability density function (normal distribution curve) to accurately quantify things, and decomposes one thing into several models based on Gaussian probability density function (normal distribution curve).
  • the Exponentially Weighted Moving-Average (EWMA) method is to give different weights to the observed values, and calculate the moving average according to the different weights, and use the final moving average as the basis.
  • the weighting coefficient of each value decreases exponentially with time. The closer the value is to the current moment, the larger the weighting coefficient.
  • the data within the range of ⁇ 3 ⁇ is normal data.
  • the electronic device extracts the three-dimensional point coordinate feature of the first abnormal data.
  • the extraction of the three-dimensional characteristic coordinate signs of the first abnormal data includes:
  • the difference value, the current value, and the target difference value are determined as the three-dimensional point coordinate feature of the first abnormal data.
  • the difference value may refer to the difference between the data at the current time point and the data at the previous time point.
  • the difference value, current value, and exponentially weighted moving average of the first abnormal data may be used as the coordinate values of the X-axis, Y-axis, and Z-axis of the first abnormal data (ie Three-dimensional point coordinates).
  • a three-dimensional point coordinate feature can represent a point of a first anomaly number in the three-dimensional map.
  • the method further includes:
  • the coordinate feature set saves the three-dimensional point coordinate feature of the abnormal data extracted in the past time.
  • the density-based clustering algorithm can divide regions with sufficiently high density into clusters, and can find clusters of arbitrary shapes in the noise spatial database.
  • the density-based clustering algorithm can cluster the points in the three-dimensional map (space). If the density of the area in which a point is located is higher, the point belongs to more categories.
  • the algorithm can determine the number of categories corresponding to each point, and find points with a small number of corresponding categories, that is, discrete points (the coordinates of the discrete points are the characteristics of the discrete point coordinates).
  • the electronic device determines discrete abnormal data corresponding to the discrete point coordinate feature.
  • the points represented by the discrete point coordinate feature are discrete points, and the discrete points are very likely to be abnormal points, that is, the discrete abnormal data corresponding to the discrete point coordinate features are likely to be true abnormal data.
  • the method further includes:
  • the difference between the restored data and the first abnormal data is less than or equal to a preset difference threshold, it is determined that there is no second abnormal data in the first abnormal data.
  • the principal component analysis algorithm can map data to a low-dimensional feature space, and then remap the low-dimensional feature space back to the original space, try to reconstruct the original data with low-dimensional features, see reconstruction The size of the error. If a piece of data is not easy to be reconstructed, that is, the difference between the target data obtained by reconstruction (reverse calculation) and the corresponding first abnormal data is greater than the preset difference threshold, indicating that the characteristics of the first abnormal data and the overall data The characteristics of is inconsistent, and the first abnormal data is considered to be true abnormal data.
  • PCA Principal Component Analysis
  • the electronic device uses the trained abnormal data detection model to perform abnormality detection on the second abnormal data and the discrete abnormal data to obtain detection results, wherein:
  • the sample data used in the training of the anomaly detection model is data screened by an unsupervised learning algorithm.
  • the detection result can be normal or abnormal
  • a number 0 can be output to indicate that the detection result is normal
  • a number 1 can be output to indicate that the detection result is abnormal.
  • an abnormality detection model can be used to perform abnormalities on the second abnormal data and the discrete abnormal data. Detection, because the second anomaly data and the discrete anomaly data are screened by a two-layer unsupervised learning algorithm (one-layer unsupervised learning algorithm refers to the Laida criterion, Gaussian model, and exponentially weighted moving average method) , Another level of unsupervised learning algorithm refers to a density-based clustering algorithm and a principal component analysis algorithm), the second anomaly data and the discrete anomaly data have much less data than the equipment index data, At this time, the anomaly detection model is used to perform anomaly detection on a small amount of data, which can save computer resources and, at the same time, can improve the accuracy of anomaly detection.
  • simple unsupervised learning algorithms such as Laida criterion, exponential weighted moving average method, and Gaussian model can be used to make preliminary judgments on the equipment index data to obtain the first abnormal data.
  • the relatively advanced unsupervised learning algorithms such as density-based clustering algorithm and principal component analysis algorithm can be used to further determine the first abnormal data to obtain the second abnormal data.
  • there are still false normal data in the second abnormal data and the number of second abnormal data obtained through two judgments is already very small.
  • the unsupervised learning algorithm (such as Laida criterion, Gaussian model, exponentially weighted moving average method, density clustering algorithm, etc.) is relatively simple, consumes less computer resources, and the anomaly detection model only needs to detect a small amount of data, which also saves the computer Resources.
  • the training samples of the anomaly detection model are samples screened by an unsupervised learning algorithm. There will be no problem of too few abnormal data samples in the training samples, thereby improving the accuracy of the anomaly detection model.
  • FIG. 2 is a functional module diagram of a preferred embodiment of a data anomaly detection device disclosed in the present application.
  • the data anomaly detection device runs in an electronic device.
  • the data abnormality detection device may include a plurality of functional modules composed of program code segments.
  • the program code of each program segment in the data anomaly detection device may be stored in a memory and executed by at least one processor to execute part or all of the steps in the data anomaly detection method described in FIG. 1.
  • the data abnormality detection device can be divided into multiple functional modules according to the functions it performs.
  • the functional modules may include: an acquisition module 201, a filtering module 202, an extraction module 203, a determination module 204, and a detection module 205.
  • the module referred to in this application refers to a series of computer program segments that can be executed by at least one processor and can complete fixed functions, and are stored in a memory.
  • the obtaining module 201 is used to obtain equipment index data that needs to be detected for anomaly and obtain a data filtering interval.
  • the filtering module 202 is configured to filter the device index data according to the data filtering interval to obtain first filtering data.
  • the extraction module 203 is configured to extract the three-dimensional point coordinate feature of the first abnormal data if the first abnormal data exists in the first filtered data.
  • the determining module 204 is configured to determine discrete abnormal data corresponding to the discrete point coordinate feature if there is a discrete point coordinate feature in the three-dimensional point coordinate feature.
  • the detection module 205 is configured to, if there is second abnormal data in the first abnormal data, use the trained abnormal data detection model to perform abnormality detection on the second abnormal data and the discrete abnormal data to obtain the detection result,
  • the sample data used in the training of the anomaly detection model is data screened by an unsupervised learning algorithm.
  • the method for the acquiring module 201 to acquire the data filtering interval is specifically as follows:
  • the data anomaly detection may also include
  • the first judgment module is used for the filtering module 202 to filter the device index data according to the data filtering interval, and after obtaining the first filtering data, for each of the first filtering data, according to the Laida criterion , Determine whether the first filtered data belongs to the first preset data interval;
  • the first judgment module is further configured to judge whether the density estimation value corresponding to the first filtering data is less than a preset density estimation threshold according to a Gaussian distribution model if the first filtering data belongs to a first preset data interval;
  • the first judgment module is further configured to: if the density estimation value corresponding to the first filtered data is greater than or equal to a preset density estimation threshold, use an exponentially weighted moving average method to determine the exponentially weighted average corresponding to the first filtered data Whether the value belongs to the second preset data interval;
  • the determining module 204 is further configured to determine that there is first abnormal data in the first filtered data if the exponential weighted average corresponding to the first filtered data does not belong to the second preset data interval; or
  • the determining module 204 is further configured to determine that if the exponential weighted average corresponding to the first filtered data belongs to a second preset data interval, determine that the first filtered data does not have first abnormal data.
  • the data abnormality detection device may further include:
  • the adding module is configured to add the three-dimensional point coordinate feature of the first abnormal data to the coordinate feature set after the extraction module 203 extracts the three-dimensional point coordinate feature of the first abnormal data;
  • the analysis module is configured to use a density-based clustering algorithm to perform cluster analysis on the features in the coordinate feature set to obtain at least one category corresponding to each of the three-dimensional point coordinate features;
  • a statistics module configured to count the number of categories corresponding to each of the three-dimensional point coordinate features according to at least one category corresponding to each of the three-dimensional point coordinate features
  • the second judging module is used to judge whether there are three-dimensional point coordinate features whose category number is less than a preset category number threshold among all the three-dimensional point coordinate features;
  • the determining module 204 is further configured to, if there are three-dimensional point coordinate features whose number of categories is greater than or equal to a preset threshold value of the number of categories in the three-dimensional point coordinate features, determine the three-dimensional point coordinate feature whose number of categories is less than the threshold of the preset number of categories as Discrete point coordinate feature; or
  • the determining module 204 is further configured to determine that there is no discrete point coordinate feature in the three-dimensional point coordinate feature if there is no three-dimensional point coordinate feature whose number of categories is less than a preset threshold number of categories in the three-dimensional point coordinate feature.
  • the data abnormality detection device may further include:
  • the dimensionality reduction module is configured to, after the determining module 204 determines the discrete abnormal data corresponding to the discrete point coordinate feature, use a principal component analysis algorithm to perform dimensionality reduction on the first abnormal data to obtain dimensionality reduction data;
  • the calculation module is used to perform reverse calculation on the dimensionality reduction data to obtain target data
  • the third judgment module is used to judge whether the difference between the target data and the first abnormal data is greater than a preset difference threshold
  • the determining module 204 is further configured to determine that there is second abnormal data in the first abnormal data if the difference between the restored data and the first abnormal data is greater than a preset difference threshold; or
  • the determining module 204 is further configured to determine that there is no second abnormal data in the first abnormal data if the difference between the restored data and the first abnormal data is less than or equal to a preset difference threshold.
  • the method for the extraction module 203 to extract the three-dimensional feature of the first abnormal data is specifically as follows:
  • the difference value, the current value, and the target difference value are determined as the three-dimensional point coordinate feature of the first abnormal data.
  • the acquiring module 201 is further configured to acquire first sample data used for training
  • the data abnormality detection device may further include:
  • the screening module is used to screen the first sample data using an unsupervised learning algorithm to obtain the second sample data;
  • the training module is used for training using the second sample data to obtain a trained anomaly detection model.
  • simple unsupervised learning algorithms such as Laida criterion, exponential weighted moving average method and Gaussian model can be used to make preliminary judgments on the equipment index data to obtain the first abnormal data.
  • the relatively advanced unsupervised learning algorithms such as density-based clustering algorithm and principal component analysis algorithm can be used to further determine the first abnormal data to obtain the second abnormal data.
  • Abnormal data Among them, there are still false normal data in the second abnormal data. The number of second abnormal data obtained through two judgments is already very small.
  • unsupervised learning is used in the whole process Algorithms (such as Laida criterion, Gaussian model, exponential weighted moving average method, density clustering algorithm, etc.) are relatively simple, consume less computer resources, and the anomaly detection model only needs to detect a small amount of data, which is also saving
  • the training samples of the anomaly detection model are samples screened by an unsupervised learning algorithm. There will be no problem of too few abnormal data samples in the training samples, thereby improving the accuracy of the anomaly detection model.
  • FIG. 3 is a schematic structural diagram of an electronic device implementing a preferred embodiment of the data abnormality detection method according to the present application.
  • the electronic device 3 includes a memory 31, at least one processor 32, a computer program 33 stored in the memory 31 and running on the at least one processor 32, and at least one communication bus 34.
  • FIG. 3 is only an example of the electronic device 3, and does not constitute a limitation on the electronic device 3. It may include more or less components than those shown in the figure, or a combination. Certain components, or different components, for example, the electronic device 3 may also include input and output devices, network access devices, and so on.
  • the at least one processor 32 may be a central processing unit (Central Processing Unit, CPU), or other general-purpose processors, digital signal processors (Digital Signal Processors, DSPs), and application specific integrated circuits (ASICs). ), Field-Programmable Gate Array (FPGA) or other programmable logic devices, transistor logic devices, discrete hardware components, etc.
  • the processor 32 can be a microprocessor, or the processor 32 can also be any conventional processor, etc.
  • the processor 32 is the control center of the electronic device 3, and connects the entire electronic device 3 through various interfaces and lines. Parts.
  • the memory 31 may be used to store the computer program 33 and/or modules/units.
  • the processor 32 runs or executes the computer programs and/or modules/units stored in the memory 31, and calls the computer programs and/or modules/units stored in the memory 31.
  • the data in 31 realizes various functions of the electronic device 3.
  • the memory 31 may mainly include a storage program area and a storage data area.
  • the storage program area may store an operating system, an application program required by at least one function (such as a sound playback function, an image playback function, etc.), etc.; the storage data area may Data (such as audio data, etc.) created according to the use of the electronic device 3 and the like are stored.
  • the memory 31 may include non-volatile memory, such as a hard disk, a memory, a plug-in hard disk, a smart memory card (Smart Media Card, SMC), a Secure Digital (SD) card, a flash memory card (Flash Card), At least one disk storage device, flash memory device, etc.
  • non-volatile memory such as a hard disk, a memory, a plug-in hard disk, a smart memory card (Smart Media Card, SMC), a Secure Digital (SD) card, a flash memory card (Flash Card), At least one disk storage device, flash memory device, etc.
  • the memory 31 in the electronic device 3 stores multiple instructions to implement a data abnormality detection method, and the processor 32 can execute the multiple instructions to achieve:
  • the trained abnormal data detection model is used to perform abnormality detection on the second abnormal data and the discrete abnormal data to obtain the detection result, wherein the abnormality detection
  • the sample data used in model training is the data screened by an unsupervised learning algorithm.
  • simple unsupervised learning algorithms such as Laida criterion, exponential weighted moving average method, and Gaussian model can be used to make preliminary judgments on the device index data to obtain the first abnormal data, where There are a lot of false positive normal data in the first abnormal data.
  • the relatively advanced unsupervised learning algorithms such as density-based clustering algorithm and principal component analysis algorithm can be used to further determine the first abnormal data to obtain the second abnormality. Data. Among them, there are still false normal data in the second abnormal data, and the number of second abnormal data obtained through two judgments is already very small.
  • the unsupervised learning algorithm used in the whole process (Such as Laida criterion, Gaussian model, exponential weighted moving average method, density clustering algorithm, etc.) is relatively simple, consumes less computer resources, and the anomaly detection model only needs to detect a small amount of data, which also saves Computer resources, in addition, the training samples of the anomaly detection model are samples screened by an unsupervised learning algorithm. There will be no problem of too few abnormal data samples in the training samples, thereby improving the accuracy of the anomaly detection model.
  • the integrated module/unit of the electronic device 3 is implemented in the form of a software functional unit and sold or used as an independent product, it can be stored in a computer readable storage medium.
  • this application implements all or part of the processes in the above-mentioned embodiments and methods, and can also be completed by instructing relevant hardware through a computer program.
  • the computer program can be stored in a computer-readable storage medium.
  • the computer-readable storage medium may be volatile or non-volatile, and when the computer program is executed by the processor, the steps of the foregoing method embodiments may be implemented.
  • the computer program includes computer program code, and the computer program code may be in the form of source code, object code, executable file, or some intermediate forms.
  • the computer-readable medium may include: any entity or device capable of carrying the computer program code, recording medium, U disk, mobile hard disk, magnetic disk, optical disk, computer memory, read-only memory (ROM, Read-Only Memory) .
  • modules described as separate components may or may not be physically separated, and the components displayed as modules may or may not be physical units, that is, they may be located in one place, or they may be distributed on multiple network units. Some or all of the modules can be selected according to actual needs to achieve the objectives of the solutions of the embodiments.
  • the functional modules in the various embodiments of the present application may be integrated into one processing unit, or each unit may exist alone physically, or two or more units may be integrated into one unit.
  • the above-mentioned integrated unit may be implemented in the form of hardware, or may be implemented in the form of hardware plus software functional modules.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据异常检测方法、装置、电子设备及存储介质,能提高异常检测的准确率以及减少计算机资源的消耗。所述方法包括:获取需要进行异常检测的设备指标数据,以及获取数据过滤区间(S11);根据数据过滤区间,对设备指标数据进行过滤,获得第一过滤数据(S12);若第一过滤数据中存在第一异常数据,提取第一异常数据的三维点坐标特征(S13);若三维点坐标特征中存在离散点坐标特征,确定离散点坐标特征对应的离散异常数据(S14);若第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对第二异常数据和离散异常数据进行异常检测,获得检测结果(S15)。

Description

数据异常检测方法、装置、电子设备及存储介质
本申请要求于2020年3月19日提交中国专利局、申请号为CN202010195664.3、名称为“数据异常检测方法、装置、电子设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及异常检测技术领域,尤其涉及一种数据异常检测方法、装置、电子设备及存储介质。
背景技术
目前,随着计算机技术的发展,由大量主机以及网络交换机等设备组成的云平台得到大规模的应用。为了确保云平台可以稳定地提供服务,需要对云平台的设备的一些指标数据进行实时监控,发明人意识到,使用无监督的学习算法进行异常检测,容易出现误告警问题,异常检测的准确率不高,而使用基于神经网络算法的模型进行异常检测,需要消耗的计算机资源太多。
因此,如何提高异常检测的准确率以及减少计算机资源的消耗是一个亟需解决的技术问题。
发明内容
本申请的第一方面提供一种数据异常检测方法,所述方法包括:
获取需要进行异常检测的设备指标数据,以及获取数据过滤区间;
根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据;
若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征;
若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散异常数据;
若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
本申请的第二方面提供一种数据异常检测装置,所述装置包括:
获取模块,用于获取需要进行异常检测的设备指标数据,以及获取数据过滤区间;
过滤模块,用于根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据;
判断模块,用于根据拉依达准则、高斯模型以及指数加权移动平均法,判断所述第一过滤数据中是否存在第一异常数据;
提取模块,用于若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征;
添加模块,用于将所述第一异常数据的三维点坐标特征添加至坐标特征集合中;
所述判断模块,还用于使用基于密度的聚类算法,对所述坐标特征集合中的特征进行聚类分析,获得每个所述三维点坐标特征对应的至少一个类别,并根据所述每个所述三维点坐标特征对应的至少一个类别,判断所述三维点坐标特征中是否存在离散点坐标特征;
确定模块,用于若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散异常数据;
所述判断模块,还用于使用主成分分析算法,判断所述第一异常数据中是否存在第二异常数据;
检测模块,用于若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检 测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
本申请的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如下步骤:
获取需要进行异常检测的设备指标数据,以及获取数据过滤区间;
根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据;
若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征;
若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散异常数据;
若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取需要进行异常检测的设备指标数据,以及获取数据过滤区间;
根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据;
若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征;
若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散异常数据;
若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
附图说明
图1是本申请公开的一种数据异常检测方法的较佳实施例的流程图。
图2是本申请公开的一种数据异常检测装置的较佳实施例的功能模块图。
图3是本申请实现数据异常检测方法的较佳实施例的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本申请实施例的数据异常检测方法应用在电子设备中,也可以应用在电子设备和通过网络与所述电子设备进行连接的服务器所构成的硬件环境中,由服务器和电子设备共同执行。网络包括但不限于:广域网、城域网或局域网。
所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络设备、多个网络设备组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络设备构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产 品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
请参见图1,图1是本申请公开的一种数据异常检测方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、电子设备获取需要进行异常检测的设备指标数据,以及获取数据过滤区间。
其中,所述设备指标数据可以为CPU使用量、内存使用量、硬盘存储空间、网络交换机请求数量以及网络出口访问量等。
具体的,所述获取数据过滤区间包括:
获取用户设置的数据过滤区间;或
获取历史统计数据,并根据所述历史统计数据,确定数据过滤区间。
在该可选的实施方式中,用户可以根据实际情况预先设置一个数据过滤区间,比如设置内存使用率过滤区间为[10%,100%],如果内存的实时使用率没有达到10%,则无需对这时的数据进行异常检测,节省计算机资源。若用户没有预先设置数据过滤区间,则可以统计一个月的历史数据,获得历史统计数据,然后获取历史统计数据的百分位数0.01与百分位数0.99,将百分位数0.01与百分位数0.99确定位数据过滤区间,比如,内存使用率的历史统计数据的百分位数0.01是10%,内存使用率的历史统计数据的百分位数0.99为88%,则将内存使用率的数据过滤区间确定为[10%,88%]。
作为一种可选的实施方式,在步骤S11之前,所述方法还包括:
获取用于训练的第一样本数据;
使用无监督的学习算法对所述第一样本数据进行筛选,获得第二样本数据;
使用所述第二样本数据进行训练,获得训练好的异常检测模型。
其中,所述无监督的学***均法、基于密度的聚类算法以及主成分分析算法等。
在该可选的实施方式中,因为设备在大多数时间都是处于正常运行状态,所以获取的大部分的设备指标数据都为正常数据,而用于训练的第一样本数据也是通过统计设备指标数据来的,因此,第一样本数据中的异常数据所占的比例极低,从而导致使用第一样本数据训练出来的异常检测模型的准确度较低。可以通过无监督的学习算法,对所述第一样本数据进行筛选,即过滤掉大部分正常数据,以提高异常数据所占的比例。通过筛选获得第二样本数据,然后使用第二样本数据进行训练,可以获得准确度较高的异常检测模型。
可选的,可以获取当前点的前三小时的数据,昨天同一时刻前后三小时的数据,前天同一时刻前后三个小时的数据,7天前同一时刻的前后三个小时的数据,以及14天前前后三个小时的数据共五个片段。分别提取上述五个片段的最大值、最小值、均值、中值、偏度、峰度、差分等统计特征,使用DNN(Deep Neural Networks,深度神经网络)神经网络算法进行分类训练,假设每个片段提取上述7个特征,则5个片段共提取35个特征点(x 1,x 2,x 3,...,x 35),因此输入的向量X为[x 1,x 2,x 3,...,x 35],假设输出的检测结果Y的值如果为0则代表正常、为1则代表异常。可以通过梯度下降算法训练出模型的参数W、b,假设σ为一个激活函数,则模型公式如下:
Y=σ(WX+b);
假设L为损失函数,y为异常检测模型的检测结果,
Figure PCTCN2020119060-appb-000001
为人工为样本标记的结果,则损失函数的公式如下:
Figure PCTCN2020119060-appb-000002
S12、电子设备根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据。
本申请实施例中,通过确定数据过滤区间,可以过滤不需要进行监控的数据,节省了计算机资源。
作为一种可选的实施方式,所述步骤S12之后,所述方法还包括:
针对每个所述第一过滤数据,根据拉依达准则,判断所述第一过滤数据是否属于第一预设数据区间;
若所述第一过滤数据属于第一预设数据区间,根据高斯分布模型,判断所述第一过滤数据对应的密度估计值是否小于预设密度估计阈值;
若所述第一过滤数据对应的密度估计值大于或等于预设密度估计阈值,使用指数加权移动平均法,判断所述第一过滤数据对应的指数加权平均值是否属于第二预设数据区间;
若所述第一过滤数据对应的指数加权平均值不属于第二预设数据区间,确定所述第一过滤数据中存在第一异常数据;或
若所述第一过滤数据对应的指数加权平均值属于第二预设数据区间,确定所述第一过滤数据未存在第一异常数据。
其中,所述拉依达准则(3sigma)指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
其中,所述高斯模型是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
其中,所述指数加权移动平均法(EWMA,Exponentially Weighted Moving-Average)是是对观察值分别给予不同的权数,按不同权数求得移动平均值,并以最后的移动平均值为基础,确定预测值的方法,各数值的加权系数随时间呈指数式递减,越靠近当前时刻的数值加权系数就越大。
在该可选的实施方式中,假设均值为μ,标准差为σ,基于拉依达准则,则在μ±3σ范围内的数据为正常数据,基于高斯模型,可以设定一个密度估计阈值,若数据的密度估计值小于这个密度估计阈值,则该数据为异常数据,其中,计算所述密度估计值p(x)的公式为:p(x)=∏p(x;u;σ 2)。基于指数加权移动平均法,假设权重为α,指数加权移动平均值m i=αm i-1+(1-α)x i。若指数加权移动平均值在μ±3σ的范围内,则认为数据正常。
S13、若所述第一过滤数据中存在第一异常数据,电子设备提取所述第一异常数据的三维点坐标特征。
具体的,所述提取所述第一异常数据的三维特点坐标征包括:
获取所述第一异常数据的差分值、当前值以及指数加权移动平均值;
计算所述当前值与所述指数加权移动平均值的目标差值;
将所述差分值、所述当前值以及所述目标差值确定为所述第一异常数据的三维点坐标特征。
其中,所述差分值可以指当前时间点的数据与上一个时间点的数据的差值。
在该可选的实施方式中,可以将所述第一异常数据的差分值、当前值以及指数加权移动平均值作为所述第一异常数据的X轴、Y轴以及Z轴的坐标值(即三维点坐标)。一个三维点坐标特征可以表示一个第一异常数在三维图中的一个点。
作为一种可选的实施方式,所述提取所述第一异常数据的三维点坐标特征之后,所述方法还包括:
将所述第一异常数据的三维点坐标特征添加至坐标特征集合中;
使用基于密度的聚类算法,对所述坐标特征集合中的特征进行聚类分析,获得每个所述三维点坐标特征对应的至少一个类别;
根据每个所述三维点坐标特征对应的至少一个类别,统计每个所述三维点坐标特征对应的类别数量;
判断所有所述三维点坐标特征中是否存在类别数量小于预设类别数量阈值的三维点坐标特征;
若所述三维点坐标特征中存在类别数量小于预设类别数量阈值的三维点坐标特征,将类别数量小于预设类别数量阈值的三维点坐标特征确定为离散点坐标特征;或
若所述三维点坐标特征中未存在类别数量大于或等于预设类别数量阈值的三维点坐标特征,确定所述三维点坐标特征中未存在离散点坐标特征。
其中,所述坐标特征集合保存着在以往时间提取的异常数据的三维点坐标特征。
其中,所述基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。所述基于密度的聚类算法可以将三维图(空间)中的点进行聚类,如果一个点所处区域的密度越高,则该点属于的类别越多,通过所述基于密度的聚类算法,可以确定每个点对应的类别数量,找出对应的类别数量少的点,即离散的点(该离散的点的坐标就是离散点坐标特征)。
S14、若所述三维点坐标特征中存在离散点坐标特征,电子设备确定所述离散点坐标特征对应的离散异常数据。
其中,所述离散点坐标特征所述表示的点是离散的点,离散的点很大概率是异常的点,即所述离散点坐标特征对应的离散异常数据很可能是真的异常数据。
作为一种可选的实施方式,所述确定所述离散点坐标特征对应的离散异常数据之后,所述方法还包括:
使用主成分分析算法,对所述第一异常数据进行降维,获得降维数据;
对所述降维数据进行逆向计算,获得目标数据;
判断所述目标数据与所述第一异常数据的差值是否大于预设差值阈值;
若所述还原数据与所述第一异常数据的差值大于预设差值阈值,确定所述第一异常数据中存在第二异常数据;或
若所述还原数据与所述第一异常数据的差值小于或等于预设差值阈值,确定所述第一异常数据中未存在第二异常数据。
其中,所述主成分分析算法(Principle Component Analysis,PCA)可以将数据映射到低维特征空间,然后由低维特征空间重新映射回原空间,尝试用低维特征重构原始数据,看重构误差的大小。如果一个数据不容易被重构出来,即重构(逆向计算)获得的所述目标数据和对应第一异常数据的差值大于预设差值阈值,表示该第一异常数据的特征跟整体数据的特征不一致,该第一异常数据被认为是真的异常数据。
S15、若所述第一异常数据中存在第二异常数据,电子设备使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
其中,所述检测结果可以是正常,可以是异常,可以输出数字0表示所述检测结果为正常,可以输出数字1表示所述检测结果为异常。
本申请实施例中,因为,所述第二异常数据以及所述离散异常数据中还存在部分误报的正常数据,可以用异常检测模型对所述第二异常数据以及所述离散异常数据进行异常检测,因为所述第二异常数据以及所述离散异常数据是经过了两层无监督的学***均法,另一层无监督的学习算法是指基于密度的聚类算法以及主成分分析算法),所述第二异常数据以及所述离散异常数据相较于所述设备指标数据,数据量少很多,这时再用异常检测模型对少量的数据进行异常检测,可以节省计算机资源,同时,可以提高异常检测的准确率。
在图1所描述的方法流程中,可以通过拉依达准则、指数加权移动平均法以及高斯模型这些简单的无监督的学***均法、密度的聚类算法等)比较简单,所消耗的计算机资源较少,而且异常检测模型只需要对少量的数据进行检测,也节约了计算机资源,另外,异常检测模型的训练样本是通过无监督的学习算法筛选的样本,在训练样本中不会出现异常数据样本的数量过少的问题,从而提高了异常检测模型的准确率。
以上所述,仅是本申请的具体实施方式,但本申请的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本申请创造构思的前提下,还可以做出改进,但这些均属于本申请的保护范围。
请参见图2,图2是本申请公开的一种数据异常检测装置的较佳实施例的功能模块图。
在一些实施例中,所述数据异常检测装置运行于电子设备中。所述数据异常检测装置可以包括多个由程序代码段所组成的功能模块。所述数据异常检测装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的数据异常检测方法中的部分或全部步骤。
本实施例中,所述数据异常检测装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、过滤模块202、提取模块203、确定模块204及检测模块205。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
获取模块201,用于获取需要进行异常检测的设备指标数据,以及获取数据过滤区间。
过滤模块202,用于根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据。
提取模块203,用于若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征。
确定模块204,用于若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散异常数据。
检测模块205,用于若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
作为一种可选的实施方式,所述获取模块201获取数据过滤区间的方式具体为:
获取用户设置的数据过滤区间;或
获取历史统计数据,并根据所述历史统计数据,确定数据过滤区间。
作为一种可选的实施方式,所述数据异常检测还可以包括
第一判断模块,用于所述过滤模块202根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据之后,针对每个所述第一过滤数据,根据拉依达准则,判断所述第一过滤数据是否属于第一预设数据区间;
所述第一判断模块,还用于若所述第一过滤数据属于第一预设数据区间,根据高斯分布模型,判断所述第一过滤数据对应的密度估计值是否小于预设密度估计阈值;
所述第一判断模块,还用于若所述第一过滤数据对应的密度估计值大于或等于预 设密度估计阈值,使用指数加权移动平均法,判断所述第一过滤数据对应的指数加权平均值是否属于第二预设数据区间;
所述确定模块204,还用于若所述第一过滤数据对应的指数加权平均值不属于第二预设数据区间,确定所述第一过滤数据中存在第一异常数据;或
所述确定模块204,还用于若所述第一过滤数据对应的指数加权平均值属于第二预设数据区间,确定所述第一过滤数据未存在第一异常数据。
作为一种可选的实施方式,所述数据异常检测装置还可以包括:
添加模块,用于所述提取模块203提取所述第一异常数据的三维点坐标特征之后,将所述第一异常数据的三维点坐标特征添加至坐标特征集合中;
分析模块,用于使用基于密度的聚类算法,对所述坐标特征集合中的特征进行聚类分析,获得每个所述三维点坐标特征对应的至少一个类别;
统计模块,用于根据每个所述三维点坐标特征对应的至少一个类别,统计每个所述三维点坐标特征对应的类别数量;
第二判断模块,用于判断所有所述三维点坐标特征中是否存在类别数量小于预设类别数量阈值的三维点坐标特征;
所述确定模块204,还用于若所述三维点坐标特征中存在类别数量大于或等于预设类别数量阈值的三维点坐标特征,将类别数量小于预设类别数量阈值的三维点坐标特征确定为离散点坐标特征;或
所述确定模块204,还用于若所述三维点坐标特征中未存在类别数量小于预设类别数量阈值的三维点坐标特征,确定所述三维点坐标特征中未存在离散点坐标特征。
作为一种可选的实施方式,所述数据异常检测装置还可以包括:
降维模块,用于所述确定模块204确定所述离散点坐标特征对应的离散异常数据之后,使用主成分分析算法,对所述第一异常数据进行降维,获得降维数据;
计算模块,用于对所述降维数据进行逆向计算,获得目标数据;
第三判断模块,用于判断所述目标数据与所述第一异常数据的差值是否大于预设差值阈值;
所述确定模块204,还用于若所述还原数据与所述第一异常数据的差值大于预设差值阈值,确定所述第一异常数据中存在第二异常数据;或
所述确定模块204,还用于若所述还原数据与所述第一异常数据的差值小于或等于预设差值阈值,确定所述第一异常数据中未存在第二异常数据。
作为一种可选的实施方式,所述提取模块203提取所述第一异常数据的三维特征的方式具体为:
获取所述第一异常数据的差分值、当前值以及指数加权移动平均值;
计算所述当前值与所述指数加权移动平均值的目标差值;
将所述差分值、所述当前值以及所述目标差值确定为所述第一异常数据的三维点坐标特征。
作为一种可选的实施方式,所述获取模块201,还用于获取用于训练的第一样本数据;
所述数据异常检测装置还可以包括:
筛选模块,用于使用无监督的学习算法对所述第一样本数据进行筛选,获得第二样本数据;
训练模块,用于使用所述第二样本数据进行训练,获得训练好的异常检测模型。
在图2所描述的数据异常检测装置中,可以通过拉依达准则、指数加权移动平均法以及高斯模型这些简单的无监督的学***均法、密度的聚类算法等)比较简单,所消耗的计算机资源较少,而且异常检测模型只需要对少量的数据进行检测,也节约了计算机资源,另外,异常检测模型的训练样本是通过无监督的学习算法筛选的样本,在训练样本中不会出现异常数据样本的数量过少的问题,从而提高了异常检测模型的准确率。
如图3所示,图3是本申请实现数据异常检测方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。
本领域技术人员可以理解,图3所示的示意图仅仅是所述电子设备3的示例,并不构成对所述电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据等)等。此外,存储器31可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件等。
结合图1,所述电子设备3中的所述存储器31存储多个指令以实现一种数据异常检测方法,所述处理器32可执行所述多个指令从而实现:
获取需要进行异常检测的设备指标数据,以及获取数据过滤区间;
根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据;
若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征;
若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散异常数据;
若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图3所描述的电子设备3中,可以通过拉依达准则、指数加权移动平均法以及高斯模型这些简单的无监督的学***均法、密度的聚类算法等)比较简单,所消耗的计算机资源较少,而且异常检测模型只需要对少量的数据进行检测,也节约了计算机资源,另外,异常检测模型的训练样本是通过无监督的学习算法筛选的样本,在训练样本中不会出现异常数据样本的数量过少的问题,从而提高了异常检测模型的准确率。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机可读存储介质可以是易失性,也可以是非易失性,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (20)

  1. 一种数据异常检测方法,其中,所述方法包括:
    获取需要进行异常检测的设备指标数据,以及获取数据过滤区间;
    根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据;
    若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征;
    若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散异常数据;
    若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
  2. 根据权利要求1所述的方法,其中,所述获取数据过滤区间包括:
    获取用户设置的数据过滤区间;或
    获取历史统计数据,并根据所述历史统计数据,确定数据过滤区间。
  3. 根据权利要求1所述的方法,其中,所述根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据之后,所述方法还包括:
    针对每个所述第一过滤数据,根据拉依达准则,判断所述第一过滤数据是否属于第一预设数据区间;
    若所述第一过滤数据属于第一预设数据区间,根据高斯分布模型,判断所述第一过滤数据对应的密度估计值是否小于预设密度估计阈值;
    若所述第一过滤数据对应的密度估计值大于或等于预设密度估计阈值,使用指数加权移动平均法,判断所述第一过滤数据对应的指数加权平均值是否属于第二预设数据区间;
    若所述第一过滤数据对应的指数加权平均值不属于第二预设数据区间,确定所述第一过滤数据中存在第一异常数据;或
    若所述第一过滤数据对应的指数加权平均值属于第二预设数据区间,确定所述第一过滤数据未存在第一异常数据。
  4. 根据权利要求1所述的方法,其中,所述提取所述第一异常数据的三维点坐标特征之后,所述方法还包括:
    将所述第一异常数据的三维点坐标特征添加至坐标特征集合中;
    使用基于密度的聚类算法,对所述坐标特征集合中的特征进行聚类分析,获得每个所述三维点坐标特征对应的至少一个类别;
    根据每个所述三维点坐标特征对应的至少一个类别,统计每个所述三维点坐标特征对应的类别数量;
    判断所有所述三维点坐标特征中是否存在类别数量小于预设类别数量阈值的三维点坐标特征;
    若所述三维点坐标特征中存在类别数量大于或等于预设类别数量阈值的三维点坐标特征,将类别数量小于预设类别数量阈值的三维点坐标特征确定为离散点坐标特征;或
    若所述三维点坐标特征中未存在类别数量小于预设类别数量阈值的三维点坐标特征,确定所述三维点坐标特征中未存在离散点坐标特征。
  5. 根据权利要求1至4中任一项所述的方法,其中,所述确定所述离散点坐标特征对应的离散异常数据之后,所述方法还包括:
    使用主成分分析算法,对所述第一异常数据进行降维,获得降维数据;
    对所述降维数据进行逆向计算,获得目标数据;
    判断所述目标数据与所述第一异常数据的差值是否大于预设差值阈值;
    若所述还原数据与所述第一异常数据的差值大于预设差值阈值,确定所述第一异常数 据中存在第二异常数据;或
    若所述还原数据与所述第一异常数据的差值小于或等于预设差值阈值,确定所述第一异常数据中未存在第二异常数据。
  6. 根据权利要求1至4中任一项所述的方法,其中,所述提取所述第一异常数据的三维特征包括:
    获取所述第一异常数据的差分值、当前值以及指数加权移动平均值;
    计算所述当前值与所述指数加权移动平均值的目标差值;
    将所述差分值、所述当前值以及所述目标差值确定为所述第一异常数据的三维点坐标特征。
  7. 根据权利要求1至4中任一项所述的方法,其中,所述获取需要进行异常检测的设备指标数据之前,所述方法还包括:
    获取用于训练的第一样本数据;
    使用无监督的学习算法对所述第一样本数据进行筛选,获得第二样本数据;使用所述第二样本数据进行训练,获得训练好的异常检测模型。
  8. 一种数据异常检测装置,其中,所述数据异常检测装置包括:
    获取模块,用于获取需要进行异常检测的设备指标数据,以及获取数据过滤区间;
    过滤模块,用于根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据;
    提取模块,用于若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征;
    确定模块,用于若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散异常数据;
    检测模块,用于若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
  9. 一种电子设备,其中,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如下步骤:
    获取需要进行异常检测的设备指标数据,以及获取数据过滤区间;
    根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据;
    若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征;
    若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散异常数据;
    若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
  10. 根据权利要求9所述的电子设备,其中,所述获取数据过滤区间包括:
    获取用户设置的数据过滤区间;或
    获取历史统计数据,并根据所述历史统计数据,确定数据过滤区间。
  11. 根据权利要求9所述的电子设备,其中,所述根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据之后,所述处理器执行所述计算机程序时还实现如下步骤:
    针对每个所述第一过滤数据,根据拉依达准则,判断所述第一过滤数据是否属于第一预设数据区间;
    若所述第一过滤数据属于第一预设数据区间,根据高斯分布模型,判断所述第一过滤数据对应的密度估计值是否小于预设密度估计阈值;
    若所述第一过滤数据对应的密度估计值大于或等于预设密度估计阈值,使用指数加权移动平均法,判断所述第一过滤数据对应的指数加权平均值是否属于第二预设数据区间;
    若所述第一过滤数据对应的指数加权平均值不属于第二预设数据区间,确定所述第一过滤数据中存在第一异常数据;或
    若所述第一过滤数据对应的指数加权平均值属于第二预设数据区间,确定所述第一过滤数据未存在第一异常数据。
  12. 根据权利要求9所述的电子设备,其中,所述提取所述第一异常数据的三维点坐标特征之后,所述处理器执行所述计算机程序时还实现如下步骤:
    将所述第一异常数据的三维点坐标特征添加至坐标特征集合中;
    使用基于密度的聚类算法,对所述坐标特征集合中的特征进行聚类分析,获得每个所述三维点坐标特征对应的至少一个类别;
    根据每个所述三维点坐标特征对应的至少一个类别,统计每个所述三维点坐标特征对应的类别数量;
    判断所有所述三维点坐标特征中是否存在类别数量小于预设类别数量阈值的三维点坐标特征;
    若所述三维点坐标特征中存在类别数量大于或等于预设类别数量阈值的三维点坐标特征,将类别数量小于预设类别数量阈值的三维点坐标特征确定为离散点坐标特征;或
    若所述三维点坐标特征中未存在类别数量小于预设类别数量阈值的三维点坐标特征,确定所述三维点坐标特征中未存在离散点坐标特征。
  13. 根据权利要求9至12中任一项所述的电子设备,其中,所述确定所述离散点坐标特征对应的离散异常数据之后,所述处理器执行所述计算机程序时还实现如下步骤:
    使用主成分分析算法,对所述第一异常数据进行降维,获得降维数据;
    对所述降维数据进行逆向计算,获得目标数据;
    判断所述目标数据与所述第一异常数据的差值是否大于预设差值阈值;
    若所述还原数据与所述第一异常数据的差值大于预设差值阈值,确定所述第一异常数据中存在第二异常数据;或
    若所述还原数据与所述第一异常数据的差值小于或等于预设差值阈值,确定所述第一异常数据中未存在第二异常数据。
  14. 根据权利要求9至12中任一项所述的电子设备,其中,所述提取所述第一异常数据的三维特征包括:
    获取所述第一异常数据的差分值、当前值以及指数加权移动平均值;
    计算所述当前值与所述指数加权移动平均值的目标差值;
    将所述差分值、所述当前值以及所述目标差值确定为所述第一异常数据的三维点坐标特征。
  15. 根据权利要求9至12中任一项所述的电子设备,其中,所述获取需要进行异常检测的设备指标数据之前,所述处理器执行所述计算机程序时还实现如下步骤:
    获取用于训练的第一样本数据;
    使用无监督的学习算法对所述第一样本数据进行筛选,获得第二样本数据;使用所述第二样本数据进行训练,获得训练好的异常检测模型。
  16. 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如下步骤:
    获取需要进行异常检测的设备指标数据,以及获取数据过滤区间;
    根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据;
    若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标特征;
    若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的离散 异常数据;
    若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。
  17. 根据权利要求16所述的计算机可读存储介质,其中,所述获取数据过滤区间包括:
    获取用户设置的数据过滤区间;或
    获取历史统计数据,并根据所述历史统计数据,确定数据过滤区间。
  18. 根据权利要求16所述的计算机可读存储介质,其中,所述根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据之后,所述至少一个指令被处理器执行时还实现如下步骤:
    针对每个所述第一过滤数据,根据拉依达准则,判断所述第一过滤数据是否属于第一预设数据区间;
    若所述第一过滤数据属于第一预设数据区间,根据高斯分布模型,判断所述第一过滤数据对应的密度估计值是否小于预设密度估计阈值;
    若所述第一过滤数据对应的密度估计值大于或等于预设密度估计阈值,使用指数加权移动平均法,判断所述第一过滤数据对应的指数加权平均值是否属于第二预设数据区间;
    若所述第一过滤数据对应的指数加权平均值不属于第二预设数据区间,确定所述第一过滤数据中存在第一异常数据;或
    若所述第一过滤数据对应的指数加权平均值属于第二预设数据区间,确定所述第一过滤数据未存在第一异常数据。
  19. 根据权利要求16所述的计算机可读存储介质,其中,所述提取所述第一异常数据的三维点坐标特征之后,所述至少一个指令被处理器执行时还实现如下步骤:
    将所述第一异常数据的三维点坐标特征添加至坐标特征集合中;
    使用基于密度的聚类算法,对所述坐标特征集合中的特征进行聚类分析,获得每个所述三维点坐标特征对应的至少一个类别;
    根据每个所述三维点坐标特征对应的至少一个类别,统计每个所述三维点坐标特征对应的类别数量;
    判断所有所述三维点坐标特征中是否存在类别数量小于预设类别数量阈值的三维点坐标特征;
    若所述三维点坐标特征中存在类别数量大于或等于预设类别数量阈值的三维点坐标特征,将类别数量小于预设类别数量阈值的三维点坐标特征确定为离散点坐标特征;或
    若所述三维点坐标特征中未存在类别数量小于预设类别数量阈值的三维点坐标特征,确定所述三维点坐标特征中未存在离散点坐标特征。
  20. 根据权利要求16至19中任一项所述的计算机可读存储介质,其中,所述确定所述离散点坐标特征对应的离散异常数据之后,所述至少一个指令被处理器执行时还实现如下步骤:
    使用主成分分析算法,对所述第一异常数据进行降维,获得降维数据;
    对所述降维数据进行逆向计算,获得目标数据;
    判断所述目标数据与所述第一异常数据的差值是否大于预设差值阈值;
    若所述还原数据与所述第一异常数据的差值大于预设差值阈值,确定所述第一异常数据中存在第二异常数据;或
    若所述还原数据与所述第一异常数据的差值小于或等于预设差值阈值,确定所述第一异常数据中未存在第二异常数据。
PCT/CN2020/119060 2020-03-19 2020-09-29 数据异常检测方法、装置、电子设备及存储介质 WO2021184727A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010195664.3A CN111581046A (zh) 2020-03-19 2020-03-19 数据异常检测方法、装置、电子设备及存储介质
CN202010195664.3 2020-03-19

Publications (1)

Publication Number Publication Date
WO2021184727A1 true WO2021184727A1 (zh) 2021-09-23

Family

ID=72112993

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/119060 WO2021184727A1 (zh) 2020-03-19 2020-09-29 数据异常检测方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN111581046A (zh)
WO (1) WO2021184727A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113804965A (zh) * 2021-09-28 2021-12-17 北京来也网络科技有限公司 基于rpa和ai的异常计量点识别方法和装置
CN113901043A (zh) * 2021-12-13 2022-01-07 西安中电环通数字科技有限公司 污染源智能监管和数据融合分析方法和***
CN114235652A (zh) * 2021-11-30 2022-03-25 国网北京市电力公司 烟尘颗粒浓度异常识别方法、装置、存储介质及设备
CN114511563A (zh) * 2022-04-19 2022-05-17 江苏智云天工科技有限公司 工业质检中异常图片的检测方法及装置
CN114579827A (zh) * 2022-05-06 2022-06-03 昆仑智汇数据科技(北京)有限公司 一种工业设备数据性能曲线的处理方法、装置及设备
CN114692749A (zh) * 2022-03-28 2022-07-01 中山大学 一种机动车尾气遥感检测数据的处理与分析方法
CN116628428A (zh) * 2023-07-24 2023-08-22 华能信息技术有限公司 一种数据加工方法及***
CN117335409A (zh) * 2023-10-26 2024-01-02 河北建投电力科技服务有限公司 基于人工智能的电力用户负荷预测***
CN117593367A (zh) * 2023-10-24 2024-02-23 北京城建集团有限责任公司 一种电气设备支架定位***

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581046A (zh) * 2020-03-19 2020-08-25 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质
CN112241351B (zh) * 2020-09-30 2023-12-22 ***股份有限公司 数据处理方法、装置、设备和介质
CN112288016B (zh) * 2020-10-30 2023-10-31 上海淇玥信息技术有限公司 基于主成分分析算法的渠道反作弊方法、装置和电子设备
US11210155B1 (en) * 2021-06-09 2021-12-28 International Business Machines Corporation Performance data analysis to reduce false alerts in a hybrid cloud environment
CN113486302A (zh) * 2021-07-12 2021-10-08 浙江网商银行股份有限公司 数据处理方法及装置
CN113572757B (zh) * 2021-07-21 2022-10-11 中国工商银行股份有限公司 服务器访问风险监测方法及装置
CN113900035B (zh) * 2021-09-28 2024-04-16 深圳市科陆电子科技股份有限公司 电池检测方法、装置、设备及存储介质
CN113887926A (zh) * 2021-09-28 2022-01-04 国家电网有限公司华东分部 电网审计***及方法
CN114601478B (zh) * 2022-05-11 2022-09-02 西南交通大学 一种提高司机警觉度的方法、装置、设备及可读存储介质
CN115512503B (zh) * 2022-08-01 2023-07-11 四川通信科研规划设计有限责任公司 一种高铁线路的周界入侵行为预警方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041575A1 (en) * 2009-02-17 2012-02-16 Hitachi, Ltd. Anomaly Detection Method and Anomaly Detection System
US20140379301A1 (en) * 2013-06-24 2014-12-25 Infosys Limited Systems and methods for data-driven anomaly detection
CN107977301A (zh) * 2017-11-21 2018-05-01 东软集团股份有限公司 设备异常的检测方法、装置、存储介质及电子设备
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN111581046A (zh) * 2020-03-19 2020-08-25 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041575A1 (en) * 2009-02-17 2012-02-16 Hitachi, Ltd. Anomaly Detection Method and Anomaly Detection System
US20140379301A1 (en) * 2013-06-24 2014-12-25 Infosys Limited Systems and methods for data-driven anomaly detection
CN107977301A (zh) * 2017-11-21 2018-05-01 东软集团股份有限公司 设备异常的检测方法、装置、存储介质及电子设备
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN111581046A (zh) * 2020-03-19 2020-08-25 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113804965B (zh) * 2021-09-28 2024-05-31 北京来也网络科技有限公司 基于rpa和ai的异常计量点识别方法和装置
CN113804965A (zh) * 2021-09-28 2021-12-17 北京来也网络科技有限公司 基于rpa和ai的异常计量点识别方法和装置
CN114235652A (zh) * 2021-11-30 2022-03-25 国网北京市电力公司 烟尘颗粒浓度异常识别方法、装置、存储介质及设备
CN113901043A (zh) * 2021-12-13 2022-01-07 西安中电环通数字科技有限公司 污染源智能监管和数据融合分析方法和***
CN113901043B (zh) * 2021-12-13 2022-03-29 西安中电环通数字科技有限公司 污染源智能监管和数据融合分析方法和***
CN114692749B (zh) * 2022-03-28 2024-04-19 中山大学 一种机动车尾气遥感检测数据的处理与分析方法
CN114692749A (zh) * 2022-03-28 2022-07-01 中山大学 一种机动车尾气遥感检测数据的处理与分析方法
CN114511563A (zh) * 2022-04-19 2022-05-17 江苏智云天工科技有限公司 工业质检中异常图片的检测方法及装置
CN114511563B (zh) * 2022-04-19 2022-08-05 江苏智云天工科技有限公司 工业质检中异常图片的检测方法及装置
CN114579827B (zh) * 2022-05-06 2022-08-05 昆仑智汇数据科技(北京)有限公司 一种工业设备数据性能曲线的处理方法、装置及设备
CN114579827A (zh) * 2022-05-06 2022-06-03 昆仑智汇数据科技(北京)有限公司 一种工业设备数据性能曲线的处理方法、装置及设备
CN116628428B (zh) * 2023-07-24 2023-10-31 华能信息技术有限公司 一种数据加工方法及***
CN116628428A (zh) * 2023-07-24 2023-08-22 华能信息技术有限公司 一种数据加工方法及***
CN117593367A (zh) * 2023-10-24 2024-02-23 北京城建集团有限责任公司 一种电气设备支架定位***
CN117335409A (zh) * 2023-10-26 2024-01-02 河北建投电力科技服务有限公司 基于人工智能的电力用户负荷预测***
CN117335409B (zh) * 2023-10-26 2024-04-19 河北建投电力科技服务有限公司 基于人工智能的电力用户负荷预测***

Also Published As

Publication number Publication date
CN111581046A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
WO2021184727A1 (zh) 数据异常检测方法、装置、电子设备及存储介质
WO2021184554A1 (zh) 数据库异常监测方法、装置、计算机装置及存储介质
WO2022213465A1 (zh) 基于神经网络的图像识别方法、装置、电子设备及介质
CN113205037B (zh) 事件检测的方法、装置、电子设备以及可读存储介质
WO2020220758A1 (zh) 一种异常交易节点的检测方法及装置
CN110738235B (zh) 肺结核判定方法、装置、计算机设备及存储介质
CN111814910B (zh) 异常检测方法、装置、电子设备及存储介质
CN113127305B (zh) 异常检测方法及装置
CN112926541B (zh) 一种睡岗检测方法、装置及相关设备
CN113360580B (zh) 基于知识图谱的异常事件检测方法、装置、设备及介质
CN111612038A (zh) 异常用户检测方法及装置、存储介质、电子设备
CN110672323A (zh) 一种基于神经网络的轴承健康状态评估方法及装置
CN113379469A (zh) 一种异常流量检测方法、装置、设备及存储介质
CN110084232B (zh) 车牌中汉字字符的识别方法、装置及终端设备
CN112686312A (zh) 一种数据分类方法、装置及***
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN112994960A (zh) 业务数据异常检测方法、装置及计算设备
CN117593115A (zh) 信贷风险评估模型的特征值确定方法、装置、设备和介质
WO2019196502A1 (zh) 营销活动质量评估方法、服务器及计算机可读存储介质
CN111079560A (zh) 一种摔倒监测方法、装置及终端设备
CN115509853A (zh) 一种集群数据异常检测方法及电子设备
CN112395179B (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备
CN109614854B (zh) 视频数据处理方法及装置、计算机装置及可读存储介质
WO2021184588A1 (zh) 集群优化方法、装置、服务器及介质
CN110717503A (zh) 一种分类方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20925269

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20925269

Country of ref document: EP

Kind code of ref document: A1