CN108268467B - 一种基于属性的异常数据检测方法和装置 - Google Patents

一种基于属性的异常数据检测方法和装置 Download PDF

Info

Publication number
CN108268467B
CN108268467B CN201611254436.9A CN201611254436A CN108268467B CN 108268467 B CN108268467 B CN 108268467B CN 201611254436 A CN201611254436 A CN 201611254436A CN 108268467 B CN108268467 B CN 108268467B
Authority
CN
China
Prior art keywords
data
abnormal
attribute
abnormal data
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611254436.9A
Other languages
English (en)
Other versions
CN108268467A (zh
Inventor
潘宇翔
李青海
黄超
王平
张晓亭
杨婉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Kingpoint Data Science And Technology Co ltd
Original Assignee
Guangdong Kingpoint Data Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Kingpoint Data Science And Technology Co ltd filed Critical Guangdong Kingpoint Data Science And Technology Co ltd
Priority to CN201611254436.9A priority Critical patent/CN108268467B/zh
Publication of CN108268467A publication Critical patent/CN108268467A/zh
Application granted granted Critical
Publication of CN108268467B publication Critical patent/CN108268467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于属性的异常数据检测方法和装置,该方法包括步骤S1:数据属性的预处理;步骤S2:分析数据对象的各种属性,对数据进行异常检测;步骤S3:利用异常标记数组对数据集进行分离,将异常数据从原始数据集中移动到异常数据集中,并输出。与现有技术相比:本发明提供了一种基于属性的异常数据检测方法和装置,融合了基于距离的异常数据检测方法和基于密度的异常数据检测方法,适用于复杂数据的检测,提高了检测的效率,简化了参数的设置,避免了基于密度的异常数据的检测方法的只能检测局部异常数据的局限性,保证了异常数据检测的准确率,方便了用户的使用。

Description

一种基于属性的异常数据检测方法和装置
技术领域
本发明涉及数据质量监控技术领域,具体涉及一种基于属性的异常数据检测方法和装置。
背景技术
在一些应用领域中,异常数据是许多工作的基础和前提,可以给我们带来新的视角。异常数据的挖掘有着广泛的应用,如欺诈检测、预测市场动向等,又如将异常检测应用到文本编辑器可以有效地减少文字输入错误,将异常检测应用到医疗领域中可以发现多种治疗方式的不同反应等。虽然许多数据挖掘算法试图将异常点的影响减小,但这样可能导致重要的隐藏信息的丢失。
目前应用比较广泛的异常数据的检测方法有:基于统计的方法、基于距离的方法、基于偏离的方法、基于密度的方法和高维数据的异常检测。但是,基于统计的方法难以处理高维的数据,并且统计学方法要求数据分布等知识,当没有特定的分布检验时不能确保所有的异常数据被发现;基于距离的方法难以调参;基于偏离的方法对于异常数据的存在的假设太过理想化,对现实复杂数据的效果不太理想;基于密度的方法只能检测局部的异常数据,较难检测全部的异常数据;基于高维数据的异常检测方法中,寻找异常模式非常困难,效率低下。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种基于属性的异常数据检测方法,该方法包括以下步骤:
步骤S1:数据属性的预处理;
步骤S2:分析数据对象的各种属性,对数据进行异常检测;
步骤S3:利用异常标记数组对数据集进行分离,将异常数据从原始数据集中移动到异常数据集中,并输出。
较佳的,所述步骤S1中数据属性的预处理为填写数据中空缺的值,识别异常数据和噪声数据,并纠正不一致数据。
较佳的,所述步骤S2具体包括:
步骤S21:对异常标记数组和异常数据计数变量进行初始化;
步骤S22:数据对象的属性循环,遍历数据对象的属性;
步骤S23:遍历数据对象,对数据集中对象在指定属性上的异常情况进行检测,即对数据进行异常检测。
较佳的,所述异常检测包括基于连续型属性的异常数据检测和基于离散型属性的异常数据检测,所述异常检测对所述两种属性的数据分别进行处理。
较佳的,所述步骤S3具体包括:
步骤S31:对于检测到的异常数据,使用不同的变量值来标记异常数据和非异常数据;
步骤S32:分离异常数据;
步骤S33:输出异常数据。
一种基于属性的异常数据检测装置,其包括:
数据预处理模块,用于处理数据中空缺的属性;
基于连续性属性的异常数据检测模块,用于对基于连续性的属性的异常数据进行检测;
基于离散型属性的异常数据检测模块,用于对基于离散型的属性的异常数据进行检测;
异常数据输出模块,用于通过异常标记数组输出异常数据。
与现有技术相比,本发明的有益效果在于:本发明提供了一种基于属性的异常数据检测方法和装置,融合了基于距离的异常数据检测方法和基于密度的异常数据检测方法,适用于复杂数据的检测,提高了检测的效率,简化了参数的设置,避免了基于密度的异常数据的检测方法的只能检测局部异常数据的局限性,保证了异常数据检测的准确率,方便了用户的使用。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明的一种基于属性的异常数据检测方法的流程示意图;
图2为步骤S2的流程示意图;
图3为步骤S3的流程示意图;
图4为本发明的一种基于属性的异常数据检测装置示意图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
如图1所示,为本发明提供的一种基于聚类的近似重复记录的检测方法的流程示意图,本方法包括以下步骤:
步骤S1:数据属性的预处理。
数据属性预处理的是填写数据中空缺的值,识别异常数据和噪声数据,并纠正不一致数据。
在步骤S1中,数据属性的预处理为填充空缺的数据属性,对于double型和integer型属性使用属性的平均值进行填充;对于string型属性使用一个全局常量字符进行填充。
步骤S2:分析数据对象的各种属性,对数据进行异常检测。
如图2所示,为本发明步骤S2的流程示意图,步骤S2具体包括:
步骤S21:对异常标记数组和异常数据计数变量进行初始化;
步骤S22:数据对象的属性循环,遍历数据对象的属性;
步骤S23:遍历数据对象,对数据集中对象在指定属性上的异常情况进行检测,即对数据进行异常检测。
在步骤S23中,对数据进行异常检测包括基于连续型属性的异常数据检测和基于离散型属性的异常数据检测。
对于这两种类型属性的一般处理方法是先将连续型数据转化成离散型数据,然后再对数据进行处理。在本发明的方法中,对这两种类型属性的数据分别进行处理,这样可以提高检测的准确率和效率。
基于连续型属性的异常数据检测的方法是:通过判断某一对象o的i属性的di邻域所包含的数据对象数目是否大于异常属性参数k,若大于k时,则认为o的i属性是非异常属性。由于不同的数据对象的属性值有一定的差别,所以在基于连续型属性的异常数据检测前先将属性值标准化处理,采用标准化公式来标准化属性值,第i个属性Xi的标准化公式为:
Figure BDA0001198504510000041
基于离散型属性的异常数据检测的方法是:判断某一值属性的对象的总数,当该总数少于异常属性参数k时,就认为该对象的此属性为异常属性。
所述异常数据的定义是:以数据集T,N为数据对象的数目,以数据对象o为邻域中心,以d为邻域半径的邻域包含的数据对象最大个数是k,k<<N,其中,k为异常数据参数,d为半径参数。包含在邻域d内的数据对象q满足:
q∈T,F(o,q)<=d
其中,F(o,q)为对象o和q的距离函数,其可以用欧氏距离,o表示异常数据点。
所述异常属性的定义是:以数据集T,N为数据对象的数目,L为对象的所包含的数据对象最大个数k,k<<N,且k为输入的异常属性参数。当o的i属性的di邻域包含的数据对象个数大于k时,o的i属性为非异常属性。其中,包含在di邻域内的数据对象q满足:
q∈T,Fi(o,q)<=d
其中,Fi(o,q)为对象q的i属性和对象o的i属性的距离函数,di表示T中除去数据对象o的所有数据对象的i属性值的平均值。
步骤S3:利用异常标记数组对数据集进行分离,将异常数据从原始数据集中移动到异常数据集中,并输出。
如图3所示,为步骤S3的流程示意图,步骤S3具体包括:
步骤S31:对于检测到的异常数据,使用不同的变量值来标记异常数据和非异常数据。
首先定义一个大小为数据集中对象总数的数组,初始时每个数组元素的值设置为0,当检测到异常数据时,就将相应的数组下标元素设置为1。对于异常标记数组,为每个元素设置一个标记。
步骤S32:分离异常数据。
步骤S33:输出异常数据。
通过异常标记数组来输出异常数据,通过循环找出异常数据。对于异常标记数组元素值为1的对象,将其从原始数据集中移动到异常数据集中,并进行输出;对于其他数组元素对应的对象则不做处理。
本发明的一种基于属性的异常数据检测方法,按照数据对象属性逐个判断数据点是否为异常数据点,根据输入的预期异常点的数目,利用距离函数F计算数据对象之间的属性距离d,再根据异常属性的定义检测并标记数据对象的异常属性,最后根据数据对象属性的异常标记分离并输出异常数据。
本发明的一种基于属性的异常数据检测方法融合了基于距离的异常数据检测方法和基于密度的异常数据检测方法,既避免了基于距离的异常数据检测方法难于设置参数的缺陷,又避免了基于密度的异常数据的检测方法的只能检测局部异常数据的局限性,提高了异常数据的检测效果,有效地保证异常数据的检测的准确率。
如图4所示,为本发明的一种基于属性的异常数据检测装置,其包括:
数据预处理模块,用于处理数据中空缺的属性;
基于连续性属性的异常数据检测模块,用于对基于连续性的属性的异常数据进行检测;
基于离散型属性的异常数据检测模块,用于对基于离散型的属性的异常数据进行检测;
异常数据输出模块,用于通过异常标记数组输出异常数据。
在异常数据输出模块中,通过循环来找出异常数据,对于标记数组元素值为1的对象,将其从原数据集中移动到异常数据集中,进行输出;对于其他数组元素对应的对象不作处理。
本发明提供了一种基于属性的异常数据检测方法和装置,融合了基于距离的异常数据检测方法和基于密度的异常数据检测方法,适用于复杂数据的检测,提高了检测的效率,简化了参数的设置,避免了基于密度的异常数据的检测方法的只能检测局部异常数据的局限性,保证了异常数据检测的准确率,方便了用户的使用。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于属性的异常数据检测方法,其特征在于,该方法包括以下步骤:
步骤S1:数据属性的预处理,其中,所述数据包括文本编辑器的输入数据;
步骤S2:分析数据对象的各种属性,对数据进行异常检测,其中,所述异常检测包括基于连续型属性的异常数据检测和基于离散型属性的异常数据检测,所述异常检测对两种属性的数据分别进行处理;
基于连续型属性的异常数据检测包括:通过判断某一对象o的i属性的di邻域所包含的数据对象数目是否大于异常属性参数k,若大于k时,则对象o的i属性是非异常属性,其中,k表示di邻域所包含的数据对象的最大个数;
基于离散型属性的异常数据检测包括:判断某一个属性所对应的对象的总数,当该总数少于异常属性参数k时,则该对象的此属性为异常属性,其中,k表示对象所包含的数据对象的最大个数;
步骤S3:利用异常标记数组对数据集进行分离,将异常数据从原始数据集中移动到异常数据集中,并输出。
2.根据权利要求1所述的一种基于属性的异常数据检测方法,其特征在于,所述数据属性的预处理为填写数据中空缺的值,识别异常数据和噪声数据,并纠正不一致数据。
3.根据权利要求1所述的一种基于属性的异常数据检测方法,其特征在于,所述步骤S2具体包括:
步骤S21:对异常标记数组和异常数据计数变量进行初始化;
步骤S22:数据对象的属性循环,遍历数据对象的属性;
步骤S23:遍历数据对象,对数据集中对象在指定属性上的异常情况进行检测,即对数据进行异常检测。
4.根据权利要求1所述的一种基于属性的异常数据检测方法,其特征在于,所述步骤S3具体包括:
步骤S31:对于检测到的异常数据,使用不同的变量值来标记异常数据和非异常数据;
步骤S32:分离异常数据;
步骤S33:输出异常数据。
5.一种基于属性的异常数据检测装置,其特征在于,其包括:
数据预处理模块,用于处理数据中空缺的属性,其中,所述数据包括文本编辑器的输入数据;
基于连续性属性的异常数据检测模块,用于对基于连续性的属性的异常数据进行检测,其中,所述异常检测包括基于连续型属性的异常数据检测和基于离散型属性的异常数据检测,所述异常检测对两种属性的数据分别进行处理;
基于连续型属性的异常数据检测包括:通过判断某一对象o的i属性的di邻域所包含的数据对象数目是否大于异常属性参数k,若大于k时,则对象o的i属性是非异常属性,其中,k表示di邻域所包含的数据对象的最大个数;
基于离散型属性的异常数据检测包括:判断某一个属性所对应的对象的总数,当该总数少于异常属性参数k时,则该对象的此属性为异常属性,其中,k表示对象所包含的数据对象的最大个数;
基于离散型属性的异常数据检测模块,用于对基于离散型的属性的异常数据进行检测;
异常数据输出模块,用于通过异常标记数组输出异常数据。
CN201611254436.9A 2016-12-30 2016-12-30 一种基于属性的异常数据检测方法和装置 Active CN108268467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254436.9A CN108268467B (zh) 2016-12-30 2016-12-30 一种基于属性的异常数据检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254436.9A CN108268467B (zh) 2016-12-30 2016-12-30 一种基于属性的异常数据检测方法和装置

Publications (2)

Publication Number Publication Date
CN108268467A CN108268467A (zh) 2018-07-10
CN108268467B true CN108268467B (zh) 2021-08-06

Family

ID=62754389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254436.9A Active CN108268467B (zh) 2016-12-30 2016-12-30 一种基于属性的异常数据检测方法和装置

Country Status (1)

Country Link
CN (1) CN108268467B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325061A (zh) * 2018-08-24 2019-02-12 北京天元创新科技有限公司 一种基于概率分布的异常数据处理方法及装置
CN115620802B (zh) * 2022-09-02 2023-12-05 蔓之研(上海)生物科技有限公司 一种基因数据的处理方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316172A (zh) * 2008-05-12 2008-12-03 中国联合通信有限公司 一种异常邮件检测***及方法
CN102928655A (zh) * 2012-11-26 2013-02-13 慈溪市供电局 一种电力异常数据检测方法
CN104376078A (zh) * 2014-11-14 2015-02-25 南京大学 一种基于知识熵的异常数据检测方法
CN104462184A (zh) * 2014-10-13 2015-03-25 北京***工程研究所 一种基于双向抽样组合的大规模数据异常识别方法
CN104517052A (zh) * 2014-12-09 2015-04-15 中国科学院深圳先进技术研究院 一种入侵检测方法及装置
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CN105577679A (zh) * 2016-01-14 2016-05-11 华东师范大学 一种基于特征选择与密度峰值聚类的异常流量检测方法
CN106230613A (zh) * 2016-07-17 2016-12-14 合肥赑歌数据科技有限公司 一种基于异类挖掘的故障预警算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316172A (zh) * 2008-05-12 2008-12-03 中国联合通信有限公司 一种异常邮件检测***及方法
CN102928655A (zh) * 2012-11-26 2013-02-13 慈溪市供电局 一种电力异常数据检测方法
CN104462184A (zh) * 2014-10-13 2015-03-25 北京***工程研究所 一种基于双向抽样组合的大规模数据异常识别方法
CN104376078A (zh) * 2014-11-14 2015-02-25 南京大学 一种基于知识熵的异常数据检测方法
CN104517052A (zh) * 2014-12-09 2015-04-15 中国科学院深圳先进技术研究院 一种入侵检测方法及装置
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CN105577679A (zh) * 2016-01-14 2016-05-11 华东师范大学 一种基于特征选择与密度峰值聚类的异常流量检测方法
CN106230613A (zh) * 2016-07-17 2016-12-14 合肥赑歌数据科技有限公司 一种基于异类挖掘的故障预警算法

Also Published As

Publication number Publication date
CN108268467A (zh) 2018-07-10

Similar Documents

Publication Publication Date Title
JP6121425B2 (ja) ラスタ画像のエッジ検出によるベルト摩耗の測定
US9715723B2 (en) Optimization of unknown defect rejection for automatic defect classification
US9146800B2 (en) Method for detecting anomalies in a time series data with trajectory and stochastic components
EP3885989A1 (en) Anomaly detection based on an autoencoder and clustering
US20130279794A1 (en) Integration of automatic and manual defect classification
US20060074828A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
US20130101221A1 (en) Anomaly detection in images and videos
TW201715320A (zh) 使用空間歪曲類似性進行工具失效分析
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
Zhou et al. Unsupervised fabric defect segmentation using local patch approximation
CN109359138A (zh) 一种基于核密度估计的异常检测方法及装置
JP2020198092A (ja) 教師なし異常検出及び高次元センサデータの多数決投票による原因説明のための方法及びシステム
CN108268467B (zh) 一种基于属性的异常数据检测方法和装置
US20060074823A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
CN116610938B (zh) 曲线模式分段的半导体制造无监督异常检测方法及设备
TW202211341A (zh) 從處理追蹤預測裝備故障模式
CN112597831A (zh) 一种基于变分自编码器和对抗网络的信号异常检测方法
CN108268901A (zh) 一种基于动态时间弯曲距离发现环境监测异常数据的算法
KR20220073307A (ko) 데이터 경계 도출 시스템 및 방법
He et al. A control scheme for autocorrelated bivariate binomial data
Jin et al. Changepoint-based anomaly detection for prognostic diagnosis in a core router system
CN110770753B (zh) 高维数据实时分析的装置和方法
WO2017118189A1 (zh) 信号处理方法、信号处理装置及信号处理***
US20060074826A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
US12019433B2 (en) Periodicity analysis apparatus, method and program recording medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant