CN107122475A - 大数据异常点检测方法及其*** - Google Patents

大数据异常点检测方法及其*** Download PDF

Info

Publication number
CN107122475A
CN107122475A CN201710302132.3A CN201710302132A CN107122475A CN 107122475 A CN107122475 A CN 107122475A CN 201710302132 A CN201710302132 A CN 201710302132A CN 107122475 A CN107122475 A CN 107122475A
Authority
CN
China
Prior art keywords
mrow
msub
data
dimensional
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710302132.3A
Other languages
English (en)
Inventor
江有归
封雷
刘东升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU ADTIME TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU ADTIME TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU ADTIME TECHNOLOGY Co Ltd filed Critical HANGZHOU ADTIME TECHNOLOGY Co Ltd
Priority to CN201710302132.3A priority Critical patent/CN107122475A/zh
Publication of CN107122475A publication Critical patent/CN107122475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据异常点检测方法。所述方法包括计算高维数据的维度属性权重,所述高维数据具有若干维度属性;移除所述维度属性权重低于第一预定阈值的维度属性;在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果;将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块;在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块;计算不属于所述正常区块的高维数据的角度方差因子;在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。本发明还公开了一种大数据异常点检测***。解决了现有技术中数据异常点检测效果不佳的问题。

Description

大数据异常点检测方法及其***
技术领域
本发明涉及数据处理技术领域,尤其涉及一种大数据异常点检测方法及其***。
背景技术
在大数据时代,数据的质量直接影响大数据分析处理方法的效果,也影响决策过程。通过分析海量数据,可以从中发现数据集中隐含的模式和规律。但数据集中的异常数据会对分析过程产生重大干扰,因此通过数据挖掘方法对大数据进行利用的研究领域中,数据异常检测已成为热门研究。
在大数据中的异常数据存在如下特点:1.与正常数据的表现有明显的差异;2.其产生机制与正常数据不同,可能为未知方式;3.数据维度较高,异常数据与正常数据一样,都是高维数据。
由于高维数据集中的数据点在高维空间内的分布有着稀疏性。因此,传统方法无法处理大数据中的异常数据检测问题。在现有高维异常数据检测方法中,通常可以采用数据点间的欧氏空间距离作为指标来判断数据的异常性,是否属于异常数据。
但由于高维数据在高维空间上的距离无法作为有效指标来进行衡量。进一步的,有些方案则引入余弦角度来代替欧氏距离作为指标,但这个方法的时间复杂度随着数据集的增大,急剧增大,同时通常的角度对比方法在非圆的数据集上不能很好地工作。
因此,现有技术还有待发展。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供大数据异常点检测方法及其***,旨在解决现有技术中数据异常点检测效果不佳的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种大数据异常点检测方法,其中,所述方法包括:
计算高维数据的维度属性权重,所述高维数据具有若干维度属性;
移除所述维度属性权重低于第一预定阈值的维度属性;
在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果;
将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块;
在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块;
计算不属于所述正常区块的高维数据的角度方差因子;
在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。
所述的方法,其中,所述第二预定阈值为所有二维平面区块的数据密度的平均值。
所述的方法,其中,所述方法还包括:
确定所述数据集在各维度属性上的数据密集区间;
根据所述数据密集区间获得所述数据集的若干个数据密集;
将所述数据密集中体积最小的超矩形作为所述标准切块。
所述的方法,其中,所述计算高维数据的维度属性权重,具体包括:
使用如下算式计算所述维度属性权重:
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性,ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重;rc(pi,pj)为第i个和第j个维度属性的联合权重。
所述的方法,其中,使用如下算式计算所述独立权重:
其中,Ei为pi的熵值, 为维度属性pi的第j个属性值;并且,
使用如下算式计算所述联合权重:
其中,xi∈pi表示xi是维度属性pi的其中一个值;q(xi)为xi的概率密度,q(xi,xj)为xi和xj的联合概率密度。
一种大数据异常点检测***,其中,包括:
约简降维模块,用于计算高维数据的维度属性权重,所述高维数据具有若干维度属性;以及移除所述维度属性权重低于第一预定阈值的维度属性;
数据集切分模块,用于在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果;将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块;以及在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块;
异常数据判断模块,用于计算不属于所述正常区块的高维数据的角度方差因子;以及在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。
所述的***,其中,所述第二预定阈值为所有二维平面区块的数据密度的平均值。
所述的***,其中,所述数据集切分模块还用于:确定所述数据集在各维度属性上的数据密集区间;根据所述数据密集区间获得所述数据集的若干个数据密集;以及将所述数据密集中体积最小的超矩形作为所述标准切块。
所述的***,其中,所述约简降维模块具体用于:使用如下算式计算所述维度属性权重:
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性,ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重;rc(pi,pj)为第i个和第j个维度属性的联合权重。
所述的***,其中,所述约简降维模块具体用于:使用如下算式计算所述独立权重:
其中,Ei为pi的熵值, 为维度属性pi的第j个属性值;并且,
使用如下算式计算所述联合权重:
其中,xi∈pi表示xi是维度属性pi的其中一个值;q(xi)为xi的概率密度,q(xi,xj)为xi和xj的联合概率密度。
有益效果:本发明提供的大数据异常点检测方法及其***,基于数据区域切分和约简降维的思想,有效克服了现有异常数据检测方法,在处理大规模高维数据时,时间复杂度过高及效果不理想的弊端,处理大规模高维数据集中的异常点检测这样的复杂问题具有较好的效果。
附图说明
图1为本发明实施例提供的大数据异常点检测方法的方法流程图;
图2为本发明实施例提供的二维平面区块图;
图3为本发明实施例提供的相邻数据区块图;
图4为本发明实施例提供的大数据异常点检测***的功能框图。
具体实施方式
本发明提供大数据异常点检测方法及其***。为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明实施例提供的一种大数据异常点检测方法的方法流程图。所述方法包括如下步骤:
100、计算高维数据的维度属性权重,所述高维数据具有若干维度属性。
200、移除所述维度属性权重低于第一预定阈值的维度属性。
步骤100和200属于预处理的过程,大数据通常包含高维数据,其特性是维度属性较多。令pi表示第i维上的属性,根据分析需要的不同,各维度属性的重要性也不相同。因此,在进行异常点检测前,可以首先根据属性的权重来去除一些冗余属性,进行约简降维。
基于在高维数据中,维度属性间存在着一定的相关关系,不同维度属性之间的权重会受其它属性的影响的考虑,在本发明实施例中,具体可以采用如下方法计算维度属性权重:
设对于高维数据集D,P={p1,p2,…,pi,…,pn}为其维度属性集合,n为长度,对于维度属性集合中的某个维度属性pi的权重r(pi)可以通过算式(1)计算获得:
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性。ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重,rc(pi,pj)为第i个和第j个维度属性的联合权重。
对于独立权重,可以使用算式(2)计算获得:
其中,Ei为pi的熵值, 为维度属性pi的第j个属性值。
对于联合权重,可以使用算式(3)计算获得:
其中,xi∈pi表示xi是维度属性pi的其中一个值;q(xi)为xi的概率密度,q(xi,xj)为xi和xj的联合概率密度。
在计算获得所述维度属性权重后,可以根据实际情况的需要,设置合适的阈值用以筛选或者移除一些维度属性,实现约简降维。对于小于阈值的维度属性,将其移出集合,降低后续操作的开销。较佳的,第一预定阈值η设置为η∈[0.2,0.25]时,具有较为理想的筛选效果。
300、在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果。
进一步的,对于该数据集D,各个维度属性上均会存在有数据相对集中的区间可以令整个数据集D的数据密集,在一些实施例中,可以选择R中体积最小的超矩形作为标准切块,按照标准切块各个维度的长度li对于数据集D进行划分。
400、将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块。在划分后,可以通过将数据投射到二维平面的方法,获得对应的二维平面区块reci
500、在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块。
图2为本发明实施例提供的二维平面区块的示意图。如图2所示,不同的二维平面区块的数据密度情况有异。可以通过算式(4)计算某个二维平面区块的数据密度:
其中,count(reci),acr(reci)分别为reci包含的数据点数量和区块面积。当数据密度大于一定阈值时,将该区块标记为正常区块。在一些实施例中,所述阈值可以取所有区块的平均数据密度。
在获得至少一个正常区块后,可以使用一定的策略完成对于数据集区块的判断(即扩展正常区块)。例如,如图3所示,若正常区块的相邻区块密度也满足上述条件,则可以将其加入到连续的正常区块队列中。
600、计算不属于所述正常区块的高维数据的角度方差因子。
在步骤500的正常区块划分完成后,在数据集D中可以得到多个连续的正常数据区块。确定不在这些正常数据区块内的数据点并回到高维空间,计算这些数据点的角度方差因子。
在一些实施例中,可以通过算式(5)计算所述角度方差因子:
其中,xixk为数据点xi和xk的向量差,xi和xj落在正常数据区块RECi内,xk落在正常数据区块外。
700、在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。计算获得角度方差因子后,同样也可以通过设置第三预定阈值,确定是否属于异常数据。
本发明实施例还提供了一种大数据异常点检测***。如图4所示,所述***包括:约简降维模块100,用于计算高维数据的维度属性权重,所述高维数据具有若干维度属性;以及移除所述维度属性权重低于第一预定阈值的维度属性。数据集切分模块200,用于在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果;将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块;以及在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块。异常数据判断模块300,用于计算不属于所述正常区块的高维数据的角度方差因子;以及在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。
具体的,所述第二预定阈值为所有二维平面区块的数据密度的平均值。
在本发明另一些实施例中,所述数据集切分模块200还用于:确定所述数据集在各维度属性上的数据密集区间;根据所述数据密集区间获得所述数据集的若干个数据密集;以及将所述数据密集中体积最小的超矩形作为所述标准切块。
所述约简降维模块100具体用于:使用如下算式计算所述维度属性权重:
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性,ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重;rc(pi,pj)为第i个和第j个维度属性的联合权重。
可选地,使用如下算式计算所述独立权重:
其中,Ei为pi的熵值, 为维度属性pi的第j个属性值;并且,
使用如下算式计算所述联合权重:
其中,xi∈pi表示xi是维度属性pi的其中一个值;q(xi)为xi的概率密度,q(xi,xj)为xi和xj的联合概率密度。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及本发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种大数据异常点检测方法,其特征在于,所述方法包括:
计算高维数据的维度属性权重,所述高维数据具有若干维度属性;
移除所述维度属性权重低于第一预定阈值的维度属性;
在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果;
将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块;
在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块;
计算不属于所述正常区块的高维数据的角度方差因子;
在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。
2.根据权利要求1所述的方法,其特征在于,所述第二预定阈值为所有二维平面区块的数据密度的平均值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述数据集在各维度属性上的数据密集区间;
根据所述数据密集区间获得所述数据集的若干个数据密集;
将所述数据密集中体积最小的超矩形作为所述标准切块。
4.根据权利要求1所述的方法,其特征在于,所述计算高维数据的维度属性权重,具体包括:
使用如下算式计算所述维度属性权重:
<mrow> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <msub> <mi>r</mi> <mi>u</mi> </msub> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>-</mo> <mfrac> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>&amp;NotEqual;</mo> <mi>i</mi> </mrow> <mi>n</mi> </munderover> <mo>&amp;lsqb;</mo> <msub> <mi>r</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>r</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mrow> <mn>2</mn> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow>
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性,ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重;rc(pi,pj)为第i个和第j个维度属性的联合权重。
5.根据权利要求4所述的方法,其特征在于,使用如下算式计算所述独立权重:
<mrow> <msub> <mi>r</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>E</mi> <mi>i</mi> </msub> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,Ei为pi的熵值, 为维度属性pi的第j个属性值;并且,
使用如下算式计算所述联合权重:
<mrow> <msub> <mi>r</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>P</mi> </mrow> </munder> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,xi∈pi表示xi是维度属性pi的其中一个值;q(xi)为xi的概率密度,q(xi,xj)为xi和xj的联合概率密度。
6.一种大数据异常点检测***,其特征在于,包括:
约简降维模块,用于计算高维数据的维度属性权重,所述高维数据具有若干维度属性;以及移除所述维度属性权重低于第一预定阈值的维度属性;
数据集切分模块,用于在所述高维数据组成的数据集中,使用标准切块划分所述数据集,获得与数据分布相关的划分结果;将所述高维数据投射到二维平面,获得与所述划分结果对应的二维平面区块;以及在所述二维平面区块的数据密度大于第二预定阈值时,确定为正常区块;
异常数据判断模块,用于计算不属于所述正常区块的高维数据的角度方差因子;以及在所述角度方差因子大于第三预定阈值时,标记所述高维数据为异常数据。
7.根据权利要求6所述的***,其特征在于,所述第二预定阈值为所有二维平面区块的数据密度的平均值。
8.根据权利要求6所述的***,其特征在于,所述数据集切分模块还用于:确定所述数据集在各维度属性上的数据密集区间;根据所述数据密集区间获得所述数据集的若干个数据密集;以及将所述数据密集中体积最小的超矩形作为所述标准切块。
9.根据权利要求6所述的***,其特征在于,所述约简降维模块具体用于:使用如下算式计算所述维度属性权重:
<mrow> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <msub> <mi>r</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>&amp;NotEqual;</mo> <mi>i</mi> </mrow> <mi>n</mi> </munderover> <mo>&amp;lsqb;</mo> <msub> <mi>r</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>r</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mrow> <mn>2</mn> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow>
其中,r(pi)为所述维度属性权重,pi,pi分别第i个和第j个维度属性,ru(pi)为第i个维度属性在不考虑与其它维度属性相关关系时的独立权重;rc(pi,pj)为第i个和第j个维度属性的联合权重。
10.根据权利要求9所述的***,其特征在于,所述约简降维模块具体用于:使用如下算式计算所述独立权重:
<mrow> <msub> <mi>r</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>E</mi> <mi>i</mi> </msub> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,Ei为pi的熵值, 为维度属性pi的第j个属性值;并且,
使用如下算式计算所述联合权重:
<mrow> <msub> <mi>r</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>P</mi> </mrow> </munder> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,xi∈pi表示xi是维度属性pi的其中一个值;q(xi)为xi的概率密度,q(xi,xj)为xi和xj的联合概率密度。
CN201710302132.3A 2017-05-02 2017-05-02 大数据异常点检测方法及其*** Pending CN107122475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710302132.3A CN107122475A (zh) 2017-05-02 2017-05-02 大数据异常点检测方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710302132.3A CN107122475A (zh) 2017-05-02 2017-05-02 大数据异常点检测方法及其***

Publications (1)

Publication Number Publication Date
CN107122475A true CN107122475A (zh) 2017-09-01

Family

ID=59726642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710302132.3A Pending CN107122475A (zh) 2017-05-02 2017-05-02 大数据异常点检测方法及其***

Country Status (1)

Country Link
CN (1) CN107122475A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536777A (zh) * 2018-03-28 2018-09-14 联想(北京)有限公司 一种数据处理方法、服务器集群及数据处理装置
CN110826904A (zh) * 2019-11-01 2020-02-21 三一重能有限公司 风机的数据处理方法、装置、处理设备及可读存储介质
CN112015723A (zh) * 2019-05-28 2020-12-01 顺丰科技有限公司 数据等级划分方法、装置、计算机设备和存储介质
CN115389624A (zh) * 2022-10-27 2022-11-25 智能网联汽车(山东)协同创新研究院有限公司 一种加工用声波测试***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536777A (zh) * 2018-03-28 2018-09-14 联想(北京)有限公司 一种数据处理方法、服务器集群及数据处理装置
CN108536777B (zh) * 2018-03-28 2022-03-25 联想(北京)有限公司 一种数据处理方法、服务器集群及数据处理装置
CN112015723A (zh) * 2019-05-28 2020-12-01 顺丰科技有限公司 数据等级划分方法、装置、计算机设备和存储介质
CN110826904A (zh) * 2019-11-01 2020-02-21 三一重能有限公司 风机的数据处理方法、装置、处理设备及可读存储介质
CN115389624A (zh) * 2022-10-27 2022-11-25 智能网联汽车(山东)协同创新研究院有限公司 一种加工用声波测试***
CN115389624B (zh) * 2022-10-27 2023-02-10 智能网联汽车(山东)协同创新研究院有限公司 一种加工用声波测试***

Similar Documents

Publication Publication Date Title
US11581130B2 (en) Internal thermal fault diagnosis method of oil-immersed transformer based on deep convolutional neural network and image segmentation
CN107122475A (zh) 大数据异常点检测方法及其***
CN101464964B (zh) 一种设备故障诊断的支持向量机模式识别方法
EP4009590A1 (en) Traffic abnormality detection method, and model training method and apparatus
CN107103332A (zh) 一种面向大规模数据集的相关向量机分类方法
CN105678813A (zh) 一种肤色检测方法及装置
CN110533022B (zh) 一种目标检测方法、***、装置及存储介质
CN104992403B (zh) 一种基于视觉相似度度量的混合操作算子图像重定向方法
CN107679089A (zh) 一种用于电力传感数据的清洗方法、装置和***
US20210065021A1 (en) Working condition state modeling and model correcting method
CN106709816A (zh) 基于非参数回归分析的电力负荷异常数据识别与修正方法
CN101251896B (zh) 一种基于多分类器的物体检测***及方法
CN110995153A (zh) 一种光伏电站的异常数据检测方法、装置及电子设备
CN110991527B (zh) 一种考虑电压曲线平均波动率的相似度阈值确定方法
CN108924148A (zh) 一种多源信号协同压缩感知数据恢复方法
CN108830006B (zh) 基于线性评价因子的线性-非线性工业过程故障检测方法
CN106991049A (zh) 一种软件缺陷预测方法及预测***
CN111476307A (zh) 一种基于深度领域适应的锂电池表面缺陷检测方法
CN105469118A (zh) 基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法
CN116071352A (zh) 一种电力安全工器具表面缺陷图像的生成方法
CN117592656A (zh) 基于碳数据核算的碳足迹监控方法及***
CN109783481A (zh) 数据处理方法和装置
CN106970779A (zh) 一种面向内存计算的流式平衡图划分方法
JP7043320B2 (ja) 状態分析装置および状態分析方法
CN113610350B (zh) 复杂工况故障诊断方法、设备、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170901