CN111475680A - 检测异常高密子图的方法、装置、设备及存储介质 - Google Patents
检测异常高密子图的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111475680A CN111475680A CN202010226309.8A CN202010226309A CN111475680A CN 111475680 A CN111475680 A CN 111475680A CN 202010226309 A CN202010226309 A CN 202010226309A CN 111475680 A CN111475680 A CN 111475680A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- density subgraph
- data
- density
- subgraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000003860 storage Methods 0.000 title claims abstract description 31
- 230000003068 static effect Effects 0.000 claims abstract description 113
- 230000008859 change Effects 0.000 claims abstract description 110
- 238000001514 detection method Methods 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000005070 sampling Methods 0.000 claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000013179 statistical model Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims description 36
- 238000011161 development Methods 0.000 claims description 8
- 230000018109 developmental process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及大数据领域,公开了一种检测异常高密子图的方法、装置、设备及存储介质,能够提高检测高密子图是否异常的准确性。本发明方法包括:通过预置算法对获取待分析的复杂关系网络进行实时的图分割处理,得到高密子图;按照第一预设时间间隔对高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据;获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对静态特征数据进行统计与计算,得到置信区间;将动态特征变化数据根据置信区间内和置信区间外划分为非异常特征和异常特征,将非异常特征和异常特征作为目标衍生特征;通过异常检测模型结合目标衍生特征对高密子图进行异常检测,得到目标异常高密子图。
Description
技术领域
本发明涉及风险管控领域,尤其涉及检测异常高密子图的方法、装置、设备及存储介质。
背景技术
复杂关系网络在风控领域和反欺诈领域有着举足轻重的作用,特别是对于恶意团伙识别和欺诈风险群防群控等领域有着非常显著的作用。目前基于复杂高密子图的分析方法都是一种静态分析方法,即在某个时刻对高密子图中的整体内容进行分析,得到预先定义的各种指标,进而对该高密子图的性质进行划分,从而对欺诈团体进行识别。然而,随着黑产能力的提升,仅从静态角度去分析一个高密子图,很难对一个欺诈团体(即异常高密子图)进行很好的识别,进而导致检测高密子图是否异常的准确性降低。
发明内容
本发明提供了一种检测异常高密子图的方法、装置、设备及存储介质,旨在提高检测高密子图是否异常的准确性。
本发明实施例的第一方面提供一种检测异常高密子图的方法,包括:
获取待分析的复杂关系网络,并通过预置算法对所述复杂关系网络进行实时的图分割处理,得到高密子图,所述高密子图用于指示社区以及社区之间的关联关系;
按照第一预设时间间隔对所述高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,所述动态特征变化数据用于指示所述高密子图随着时间变化而发生动态变化的网络拓扑结构特征数据;
获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对所述静态特征数据进行统计与计算,得到置信区间,所述历史复杂关系网络用于指示在所述复杂关系网络之前生成或存储的复杂关系网络,所述置信区间用于指示每个时间段之间的静态特征数据的平均变化范围值;
将所述动态特征变化数据根据所述置信区间内和所述置信区间外划分为非异常特征和异常特征,将所述非异常特征和所述异常特征作为目标衍生特征;
通过异常检测模型结合所述目标衍生特征对所述高密子图进行异常检测,得到目标异常高密子图。
可选的,在本发明实施例第一方面的第一种实现方式中,所述获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对所述静态特征数据进行统计与计算,得到置信区间,包括:
获取历史复杂关系网络,并对所述历史复杂关系网络的网络拓扑结构特征进行选择和提取,得到静态特征数据;
将所述静态特征数据作为节点,获取将所述历史复杂关系网络中所述静态特征数据之间的关联关系,将所述关联关系作为划分条件,根据所述节点和所述划分条件生成静态高密子图;
获取所述静态高密子图中的时序数据,并按照第二预设时间间隔对所述时序数据进行采样处理,得到静态特征变化数据;
按照第三预设时间间隔,对所述静态特征变化数据进行统计,获得与每个时间间隔对应的统计数据,所述与每个时间间隔对应的统计数据包括所述静态高密子图的数量、以及所述静态特征变化数据在所述第三预设时间间隔内的均值和方差;
通过预置公式对所述与每个时间间隔对应的统计数据进行计算,获得第一置信度阈值和第二置信度阈值,并根据所述第一置信度阈值和所述第二置信度阈值生成置信区间。
可选的,在本发明实施例第一方面的第二种实现方式中,所述将所述动态特征变化数据根据所述置信区间内和所述置信区间外划分为非异常特征和异常特征,将所述非异常特征和所述异常特征作为目标衍生特征,包括:
对所述动态特征变化数据进行时间连续性分析,获得时间连续的第一特征数据和第二特征数据,所述时间连续用于指示所述第一特征数据的末端时间点与所述第二特征数据的始端时间点相同或连接;
计算所述第一特征数据和所述第二特征数据之间的特征差异值;
判断所述特征差异值是否在所述置信区间外;
若所述特征差异值不在所述置信区间外,则将所述特征差异值置零,并将所述特征差异值对应的第一特征数据和第二特征数据作为非异常特征;
若所述特征差异值在所述置信区间外,则将所述特征差异值置1,并将所述特征差异值对应的第一特征数据和第二特征数据作为异常特征;
将所述非异常特征和所述异常特征作为目标衍生特征。
可选的,在本发明实施例第一方面的第三种实现方式中,所述通过异常检测模型结合所述目标衍生特征对所述高密子图进行异常检测,得到异常高密子图,包括:
通过异常检测模型,创建并标记所述目标衍生特征和所述高密子图的对应关系,得到标记后的高密子图;
通过孤立森林算法对所述标记后的高密子图进行异常检测,得到初始异常高密子图;
通过基于聚类的子空间异常检测算法对所述初始异常高密子图进行异常检测,得到目标异常高密子图。
可选的,在本发明实施例第一方面的第四种实现方式中,所述获取待分析的复杂关系网络,并通过预置算法对所述复杂关系网络进行实时的图分割处理,得到高密子图,包括:
获取待分析的复杂关系网络,将所述复杂关系网络的各节点初始化为不同的第一社区,并计算所述第一社区的第一模块化度量值;
将所述各节点分别划分在所述各节点的邻近节点所在的第二社区中,并计算所述第二社区的第二模块化度量值;
计算每个节点的所述第一模块化度量值和所述第二模块化度量值之间的差值;
分析所述差值是否为正数,若所述差值不为正数,继续对各节点进行社区划分处理,直到所述差值为正数,得到划分社区,所述社区划分处理用于指示将各节点初始化为不同的第一社区和将所述各节点分别划分在所述各节点的邻近节点所在的第二社区;
获取并分析所述划分社区中的各社区之间的连接边权重,将所述连接边权重均大于预设阈值的划分社区所构成的图作为高密子图。
可选的,在本发明实施例第一方面的第五种实现方式中,所述按照第一预设时间间隔对所述高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,包括:
对所述高密子图进行实时的网络拓扑结构特征提取,得到动态特征数据;
按照第一预设时间间隔对所述动态特征数据进行抓取,获得候选动态特征变化数据;
对所述候选动态特征变化数据进行性能分析和可靠性分析,得到动态特征变化数据。
可选的,在本发明实施例第一方面的第六种实现方式中,所述通过异常检测模型结合所述目标衍生特征对所述高密子图进行异常检测,得到目标异常高密子图之后,所述检测异常高密子图的方法还包括:
对所述目标异常高密子图进行异常程度分类处理、异常发展预测处理和同类型异常分析处理,获得最终的目标异常高密子图。
本发明实施例的第二方面提供一种用于检测异常高密子图的装置,具有实现对应于上述第一方面提供的检测异常高密子图的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述单元可以是软件和/或硬件。
所述检测异常高密子图的装置包括:
分割处理模块,用于获取待分析的复杂关系网络,并通过预置算法对所述复杂关系网络进行实时的图分割处理,得到高密子图,所述高密子图用于指示社区以及社区之间的关联关系;
采样处理模块,用于按照第一预设时间间隔对所述高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,所述动态特征变化数据用于指示所述高密子图随着时间变化而发生动态变化的网络拓扑结构特征数据;
统计计算模块,用于获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对所述静态特征数据进行统计与计算,得到置信区间,所述历史复杂关系网络用于指示在所述复杂关系网络之前生成或存储的复杂关系网络,所述置信区间用于指示每个时间段之间的静态特征数据的平均变化范围值;
判断分析模块,用于将所述动态特征变化数据根据所述置信区间内和所述置信区间外划分为非异常特征和异常特征,将所述非异常特征和所述异常特征作为目标衍生特征;
异常检测模块,用于通过异常检测模型结合所述目标衍生特征对所述高密子图进行异常检测,得到目标异常高密子图。
可选的,在本发明实施例第二方面的第一种实现方式中,所述统计计算模块具体用于:
获取历史复杂关系网络,并对所述历史复杂关系网络的网络拓扑结构特征进行选择和提取,得到静态特征数据;
将所述静态特征数据作为节点,获取将所述历史复杂关系网络中所述静态特征数据之间的关联关系,将所述关联关系作为划分条件,根据所述节点和所述划分条件生成静态高密子图;
获取所述静态高密子图中的时序数据,并按照第二预设时间间隔对所述时序数据进行采样处理,得到静态特征变化数据;
按照第三预设时间间隔,对所述静态特征变化数据进行统计,获得与每个时间间隔对应的统计数据,所述与每个时间间隔对应的统计数据包括所述静态高密子图的数量、以及所述静态特征变化数据在所述第三预设时间间隔内的均值和方差;
通过预置公式对所述与每个时间间隔对应的统计数据进行计算,获得第一置信度阈值和第二置信度阈值,并根据所述第一置信度阈值和所述第二置信度阈值生成置信区间。
可选的,在本发明实施例第二方面的第二种实现方式中,所述判断分析模块具体用于:
对所述动态特征变化数据进行时间连续性分析,获得时间连续的第一特征数据和第二特征数据,所述时间连续用于指示所述第一特征数据的末端时间点与所述第二特征数据的始端时间点相同或连接;
计算所述第一特征数据和所述第二特征数据之间的特征差异值;
判断所述特征差异值是否在所述置信区间外;
若所述特征差异值不在所述置信区间外,则将所述特征差异值置零,并将所述特征差异值对应的第一特征数据和第二特征数据作为非异常特征;
若所述特征差异值在所述置信区间外,则将所述特征差异值置1,并将所述特征差异值对应的第一特征数据和第二特征数据作为异常特征;
将所述非异常特征和所述异常特征作为目标衍生特征。
可选的,在本发明实施例第二方面的第三种实现方式中,所述异常检测模块具体用于:
通过异常检测模型,创建并标记所述目标衍生特征和所述高密子图的对应关系,得到标记后的高密子图;
通过孤立森林算法对所述标记后的高密子图进行异常检测,得到初始异常高密子图;
通过基于聚类的子空间异常检测算法对所述初始异常高密子图进行异常检测,得到目标异常高密子图。
可选的,在本发明实施例第二方面的第四种实现方式中,所述分割处理模块具体用于:
获取待分析的复杂关系网络,将所述复杂关系网络的各节点初始化为不同的第一社区,并计算所述第一社区的第一模块化度量值;
将所述各节点分别划分在所述各节点的邻近节点所在的第二社区中,并计算所述第二社区的第二模块化度量值;
计算每个节点的所述第一模块化度量值和所述第二模块化度量值之间的差值;
分析所述差值是否为正数,若所述差值不为正数,继续对各节点进行社区划分处理,直到所述差值为正数,得到划分社区,所述社区划分处理用于指示将各节点初始化为不同的第一社区和将所述各节点分别划分在所述各节点的邻近节点所在的第二社区;
获取并分析所述划分社区中的各社区之间的连接边权重,将所述连接边权重均大于预设阈值的划分社区所构成的图作为高密子图。
可选的,在本发明实施例第二方面的第五种实现方式中,所述采样处理模块具体用于:
对所述高密子图进行实时的网络拓扑结构特征提取,得到动态特征数据;
按照第一预设时间间隔对所述动态特征数据进行抓取,获得候选动态特征变化数据;
对所述候选动态特征变化数据进行性能分析和可靠性分析,得到动态特征变化数据。
可选的,在本发明实施例第二方面的第六种实现方式中,所述检测异常高密子图的装置还包括:
处理模块,用于对所述目标异常高密子图进行异常程度分类处理、异常发展预测处理和同类型异常分析处理,获得最终的目标异常高密子图。
本发明实施例的第三方面提供了一种检测异常高密子图的设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施方式所述检测异常高密子图的方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行上述任一实施方式所述的检测异常高密子图的方法。
相较于现有技术,本发明实施例提供的技术方案中,通过预置算法对获取待分析的复杂关系网络进行实时的图分割处理,得到高密子图;按照第一预设时间间隔对高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据;获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对静态特征数据进行统计与计算,得到置信区间;将动态特征变化数据根据置信区间内和置信区间外划分为非异常特征和异常特征,将非异常特征和异常特征作为目标衍生特征;通过异常检测模型结合目标衍生特征对高密子图进行异常检测,得到目标异常高密子图。本发明实施例,通过结合高密子图的静态指标与动态演化过程中的动态指标来分析高密子图的风险能力,提高检测高密子图是否异常的准确性。
附图说明
图1为本发明实施例中检测异常高密子图的方法的一个实施例示意图;
图2为本发明实施例中检测异常高密子图的方法的另一个实施例示意图;
图3为本发明实施例中检测异常高密子图的装置的一个实施例示意图;
图4为本发明实施例中检测异常高密子图的装置的另一个实施例示意图;
图5为本发明实施例中检测异常高密子图的设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种检测异常高密子图的方法、装置、设备及存储介质,用于结合高密子图的静态指标与动态演化过程中的动态指标来分析高密子图的风险能力,提高检测高密子图是否异常的准确性。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本发明中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个***中,或一些特征可以忽略,或不执行。
请参阅图1,本发明实施例提供的一种检测异常高密子图的方法的流程图,以下对本发明提供一种检测异常高密子图的方法进行举例说明,该方法由计算机设备执行,计算机设备可为服务器或者终端,本发明不对执行主体的类型作限制,具体包括:
101、获取待分析的复杂关系网络,并通过预置算法对复杂关系网络进行实时的图分割处理,得到高密子图,高密子图用于指示社区以及社区之间的关联关系。
复杂关系网络由业务内容和业务内容之间的联系所构成,例如:某园区的人对于某平台的使用、对于某平台的使用程度、使用某平台的公司之间是什么关系等。由于复杂关系网络随着业务和时间的变化而时刻在产生变化,因而,服务器在接收到终端或用户端所发送的指令时,通过预置算法对当前时刻的复杂关系网络进行实时的图分割和社区规划,得到关系关联度更高和关系更密切的高密子图,在生成高密子图的同时触动数据采集指令。
具体地,该步骤101可以包括:获取待分析的复杂关系网络,将复杂关系网络的各节点初始化为不同的第一社区,并计算第一社区的第一模块化度量值;将各节点分别划分在各节点的邻近节点所在的第二社区中,并计算第二社区的第二模块化度量值;计算每个节点的第一模块化度量值和第二模块化度量值之间的差值;分析差值是否为正数,若差值不为正数,继续对各节点进行社区划分处理,直到差值为正数,得到划分社区,社区划分处理用于指示将各节点初始化为不同的第一社区和将各节点分别划分在各节点的邻近节点所在的第二社区;获取并分析划分社区中的各社区之间的连接边权重,将连接边权重均大于预设阈值的划分社区所构成的图作为高密子图。
例如:服务器在接收到终端或用户端所发送的指令时,读取数据库中存储的复杂关系网络,以复杂关系网络中的两个节点甲节点和乙节点作为说明,甲节点和乙节点相邻,将甲节点和乙节点分别划分为一个单独的社区,即甲节点对应甲1社区,乙节点对应乙1社区,计算甲1社区的第一模块化度量值,以及乙1社区的第一模块化度量值,分别将甲节点划分在乙节点所在的社区,得到甲2社区,将乙节点划分在甲节点所在的社区,得到乙2社区,计算甲2社区的第二模块化度量值,以及乙2社区的第二模块化度量值,通过计算第一模块化度量值与第二模块化度量值的差异来衡量甲1社区和甲2社区(或:乙1社区和乙2社区)的网络社区结构强度。连接边权重大说明关系复杂度和关系关联度大,因而,将连接边权重均大于预设阈值的划分社区所得的图作为高密子图,以提高生成的高密子图的质量。
102、按照第一预设时间间隔对高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,动态特征变化数据用于指示高密子图随着时间变化而发生动态变化的网络拓扑结构特征数据。
动态特征变化数据为随着时间变化而产生动态变化的顶点个数、度数、平均度数和平均关联系数等各种网络拓扑结构特征。数据采集指令启动相关的数据采集工具每隔一定的时间抓取高密子图在第一预设时间间隔的特征,得到连续的等时间片内的动态特征变化数据,其中,可对每个等时间片内的动态特征变化数据进行均值计算或者加权平均值计算,得到可代表该时间片内综合变化的动态特征变化数据。
具体地,该步骤102可以包括:对高密子图进行实时的网络拓扑结构特征提取,得到动态特征数据;按照第一预设时间间隔对动态特征数据进行抓取,获得候选动态特征变化数据;对候选动态特征变化数据进行性能分析和可靠性分析,得到动态特征变化数据。
服务器通过对高密子图中每一维的网络拓扑结构特征赋予权重,按照权重值从大到小对特征进行排序,对特定顺序的网络拓扑结构特征进行特征选择,得到指定网络拓扑结构特征,通过特征值分解对指定网络拓扑结构特征进行提取,得到动态特征数据,再结合采集工具Fluentd的具有灵活的插件***、所需的资源较少和支持基于内存和文件的缓冲以防止节点间数据丢失的特性在第一预设时间间隔对动态特征变化数据进行抓取得到候选动态特征变化数据,对候选动态特征变化数据进行性能分析和可靠性分析,获得性能保证和性能可靠的动态特征变化数据。
103、获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对静态特征数据进行统计与计算,得到置信区间,历史复杂关系网络用于指示在复杂关系网络之前生成或存储的复杂关系网络,置信区间用于指示每个时间段之间的静态特征数据的平均变化范围值。
静态特征变化数据为历史复杂关系网络中在特定时刻时对应的顶点个数、度数、平均度数和平均关联系数等各种网络拓扑结构特征。采用等时间间隔的方式(具体时间间隔多长,也取决于不同的业务场景,一般为1小时,要求比较高的场景,可以以分钟为单位)对于历史复杂关系网络中的静态特征数据进行统计与计算,统计其每个时间片的静态特征变化数据(如顶点个数,度数,平均度数,平均关联系数等)的总体情况,并计算每个时间片之间的各静态特征变化数据的平均变化范围值(即置信区间),以这些静态特征变化数据的平均变化范围值(即置信区间)作为动态特征变化数据判断的基准。
具体地,该步骤103可以包括:获取历史复杂关系网络,并对历史复杂关系网络的特征进行选择和提取,得到静态特征数据;将静态特征数据作为节点,获取历史复杂关系网络中静态特征数据之间的关联关系,将关联关系作为划分条件,根据节点和划分条件生成静态高密子图;获取静态高密子图的时序数据,并按照第二预设时间间隔对时序数据进行采样处理,得到静态特征变化数据;按照第三预设时间间隔,对静态特征变化数据进行预设时间间隔的统计,获得与每个时间间隔对应的统计数据,与每个时间间隔对应的统计数据包括静态高密子图的数量、以及静态特征变化数据在第三预设时间间隔内的均值和方差;通过预置公式对与每个时间间隔对应的统计数据进行计算,获得第一置信度阈值和第二置信度阈值,并根据第一置信度阈值和第二置信度阈值生成置信区间。
服务器通过对历史复杂关系网络中每一维的静态特征赋予权重,按照权重值从大到小对静态特征进行排序,对特定顺序的静态特征进行特征选择,得到指定静态特征,通过特征值分解对指定静态特征进行提取,得到静态特征数据。以静态特征数据作为节点,以历史复杂关系网络中静态特征数据之间的关联关系作为划分条件,对历史复杂关系网络进行高密子图划分,得到静态高密子图,例如:静态特征数据为甲(顶点个数:5、平均度数:25度和平均关联系数:4.5)、乙(顶点个数5、平均度数:30度和平均关联系数:5)和丙(顶点个数:6、平均度数:35度和平均关联系数:5.5),其中,甲、乙和丙对应的历史复杂关系网络所在区域之间相隔非常远,甲与乙的关联关系为相似度非常高与关联度非常高,甲和丙的关联关系为相似度较低与关联度较低,乙和丙的关联关系为相似度较高与关联度较高,则将甲、乙和丙对应的历史复杂关系网络划分为同一区域,并将甲和乙对应的历史复杂关系网络组合连接,将乙和丙对应的历史复杂关系网络组合连接,即在静态高密子图上,甲与乙分别对应的网络拓扑结构邻近,乙与丙分别对应的网络拓扑结构邻近;回溯每个静态高密子图从产生时刻开始,等时间片Δt间隔的静态特征变化数据,针对每个静态高密子图,可算得对应的静态特征变化数据,如:表示t0时刻高密子图中节点的数目;
……
针对每个单独的静态特征变化数据,计算得到每个静态特征变化数据在每个时刻的变化:
统计所有的静态高密子图,计算上述静态特征变化数据在每个时间片Δt间隔中变化的均值(即在第三预设时间间隔内的均值)和置信区间。可通过预置公式对与每个时间间隔对应的统计数据进行计算,分别得到第一置信度阈值和第二置信度阈值,第二置信度阈值大于第一置信度阈值,根据第一置信度阈值和第二置信度阈值得到置信区间[第一置信度阈值,第二置信度阈值],其中,为静态特征变化数据在第三预设时间间隔内的均值,σ为静态特征变化数据在第三预设时间间隔内的方差,n为历史高密子图的数量,为查询预置的百分率置信区间表所得的对应值。
104、将动态特征变化数据根据置信区间内和置信区间外划分为非异常特征和异常特征,将非异常特征和异常特征作为目标衍生特征。
服务器可通过预置统计分析工具以统计分析图直观明了地显示动态特征变化数据在置信区间内的是否异常的情况。将动态特征变化数据在置信区间内的判断(定义)为非异常特征,将动态特征变化数据在置信区间外的判断(定义)为异常特征,非异常特征和异常特征为目标衍生特征,除此之外,还对高密子图的ID进行标记,通过对初始衍生特征进行标记和对高密子图的ID的标记,以便于对于衍生特征对应的高密子图进行实时的动态变化跟踪。
具体地,该步骤104可以包括:对动态特征变化数据进行时间连续性分析,获得时间连续的第一特征数据和第二特征数据,时间连续用于指示第一特征数据的末端时间点与第二特征数据的始端时间点相同或连接;计算第一特征数据和第二特征数据之间的特征差异值;判断特征差异值是否在置信区间外;若特征差异值不在置信区间外,则将特征差异值置零,并将特征差异值对应的第一特征数据和第二特征数据作为非异常特征;若特征差异值在置信区间外,则将特征差异值置1,并将特征差异值对应的第一特征数据和第二特征数据为异常特征;将非异常特征和异常特征作为目标衍生特征。
服务器针对生成的高密子图,每隔等时间片Δt计算指定的特征变化数据(即第一特征数据和第二特征数据),通过统计分析图分析第一特征数据和第二特征数据之间的差异值(即特征差异值)将生成折线图、直方图或其他统计图以分析特征差异值在当前时刻是否落在置信区间内,将其落在置信区间外的特征差异值对应的第一特征数据和第二特征数据作为异常特征,以及将其落在置信区间内的特征差异值对应的第一特征数据和第二特征数据作为非异常特征,得到目标衍生特征。这样可每个时可得到每个高密子图的所有动态特征变化数据(即目标衍生特征)和异常特征。其中,特征差异值:指标变化为t0~t1:衍生特征为t0~t1:(0,0,1,……)。
105、通过异常检测模型结合目标衍生特征对高密子图进行异常检测,得到目标异常高密子图。
服务器通过构建异常检测模型,该异常检测模型为综合多种性能模型的组合模型,通过专家规则对异常检测模型中的样本数据(具有衍生特征的样本数据)进行筛选,得到初始样本数据,对初始样本数据进行风险预测,得到风险值,判断风险值是否大于预设值,获取风险值大于预设值的初始样本数据,得到候选样本数据,通过无监督学习算法中的基于高斯(正态)分布的异常检测算法中对候选样本数据进行正态分布分析,从而得到目标衍生特征中异常对应的目标异常高密子图,以完成对目标异常检测模型的训练,得到最终的目标异常检测模型,通过异常检测模型结合目标衍生特征对高密子图进行异常检测。对高密子图的动态演化异常检测,能很好地应对短时间内大量黑产或欺诈涌入的情况,即在整个高密子图的静态特征还未恶化时,通过各静态特征的演化趋势及时遏制整个高密子图的恶化。
具体地,该步骤105可以包括:通过异常检测模型,创建并标记目标衍生特征和高密子图的对应关系,得到标记后的高密子图;通过孤立森林算法对标记后的高密子图进行异常检测,得到初始异常高密子图;通过基于聚类的子空间异常检测算法对初始异常高密子图进行异常检测,得到目标异常高密子图。
服务器通过异常检测模型创建并标记目标衍生特征和目标衍生特征对应的高密子图的对应关系,得到标记后的高密子图,以便于通过对目标衍生特征进行分析时能直观和便捷地对高密子图进行异常检测和显示。通过孤立森林算法对标记高密子图进行异常检测,得到初始异常高密子图,例如:当前时刻有五个高密子图A、B、C、D和E,在上一个时间间隔内的衍生特征分别是A(0,0,0,0,1),B(0,0,0,0,0),C(0,0,0,0,1),D(0,0,0,0,0),E(0,1,1,0,1),通过异常检测模型的孤立森林算法进行分析,可得到当前时刻高密子图E为目标异常高密子图。由于衍生特征可能为高维数据,而孤立森林算法对于高维数据的分析的准确度受到影响,因而,对通过孤立森林算法进行异常检测所得的初始异常高密子图进行基于聚类的子空间异常检测算法的异常检测,提高其异常检测的准确度,进而保证目标异常高密子图的质量和准确性。
本发明实施例,通过结合高密子图的静态指标与动态演化过程中的动态指标来分析高密子图的风险能力,提高检测高密子图是否异常的准确性。
请参阅图2,本发明实施例中检测异常高密子图的方法的另一个实施例包括:
201、获取待分析的复杂关系网络,并通过预置算法对复杂关系网络进行实时的图分割处理,得到高密子图,高密子图用于指示社区以及社区之间的关联关系。
202、按照第一预设时间间隔对高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,动态特征变化数据用于指示高密子图随着时间变化而发生动态变化的网络拓扑结构特征数据。
203、获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对静态特征数据进行统计与计算,得到置信区间,历史复杂关系网络用于指示在复杂关系网络之前生成或存储的复杂关系网络,置信区间用于指示每个时间段之间的静态特征数据的平均变化范围值。
204、将动态特征变化数据根据置信区间内和置信区间外划分为非异常特征和异常特征,将非异常特征和异常特征作为目标衍生特征。
205、通过异常检测模型结合目标衍生特征对高密子图进行异常检测,得到目标异常高密子图。
本发明实施例中,201至205的方法可参见101至105,此处不再赘述。
206、对目标异常高密子图进行异常程度分类处理、异常发展预测处理和同类型异常分析处理,获得最终的目标异常高密子图。
服务器通过k-近邻算法对目标异常高密子图进行异常程度分类,获得不同异常程度的分类信息;通过时间序列预测算法对目标异常高密子图进行异常发展预测,获得能预测的在未来时段的异常变化的异常信息;通过聚类算法对目标异常高密子图进行同类型异常分析,获得与目标异常高密子图同类异常的聚类信息;将分类信息、异常信息和聚类信息进行预设权重的分值评估,获得分值,并将分值按照值从大到小的顺序对目标异常高密子图进行排序,获得最终的目标异常高密子图。通过综合评估,提高目标异常高密子图的获取准确度和质量。
本发明实施例,通过结合高密子图的静态指标与动态演化过程中的动态指标来分析高密子图的风险能力,提高检测高密子图是否异常的准确性,并通过对目标异常高密子图进行异常程度分类处理、异常发展预测处理和同类型异常分析处理,提高目标异常高密子图的获取准确度和质量。
上面对本发明实施例中检测异常高密子图的方法进行了描述,下面对本发明实施例中检测异常高密子图的装置进行描述,请参阅图3,本发明实施例中检测异常高密子图的装置的一个实施例包括:
分割处理模块301,用于获取待分析的复杂关系网络,并通过预置算法对复杂关系网络进行实时的图分割处理,得到高密子图,高密子图用于指示社区以及社区之间的关联关系;
采样处理模块302,用于按照第一预设时间间隔对高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,动态特征变化数据用于指示高密子图随着时间变化而发生动态变化的网络拓扑结构特征数据;
统计计算模块303,用于获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对静态特征数据进行统计与计算,得到置信区间,历史复杂关系网络用于指示在复杂关系网络之前生成或存储的复杂关系网络,置信区间用于指示每个时间段之间的静态特征数据的平均变化范围值;
判断分析模块304,用于将动态特征变化数据根据置信区间内和置信区间外划分为非异常特征和异常特征,将非异常特征和异常特征作为目标衍生特征;
异常检测模块305,用于通过异常检测模型结合目标衍生特征对高密子图进行异常检测,得到目标异常高密子图。
上述检测异常高密子图的装置中各个模块的功能实现与上述检测异常高密子图的方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例,通过结合高密子图的静态指标与动态演化过程中的动态指标来分析高密子图的风险能力,提高检测高密子图是否异常的准确性。
请参阅图4,本发明实施例中检测异常高密子图的装置的另一个实施例包括:
分割处理模块301,用于获取待分析的复杂关系网络,并通过预置算法对复杂关系网络进行实时的图分割处理,得到高密子图,高密子图用于指示社区以及社区之间的关联关系;
采样处理模块302,用于按照第一预设时间间隔对高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,动态特征变化数据用于指示高密子图随着时间变化而发生动态变化的网络拓扑结构特征数据;
统计计算模块303,用于获取历史复杂关系网络中的静态特征数据,并通过预置的统计模型对静态特征数据进行统计与计算,得到置信区间,历史复杂关系网络用于指示在复杂关系网络之前生成或存储的复杂关系网络,置信区间用于指示每个时间段之间的静态特征数据的平均变化范围值;
判断分析模块304,用于将动态特征变化数据根据置信区间内和置信区间外划分为非异常特征和异常特征,将非异常特征和异常特征作为衍生特征;
异常检测模块305,用于通过异常检测模型结合目标衍生特征对高密子图进行异常检测,得到目标异常高密子图;
处理模块306,用于对目标异常高密子图进行异常程度分类处理、异常发展预测处理和同类型异常分析处理,获得最终的目标异常高密子图。
可选的,分割处理模块301具体用于:获取待分析的复杂关系网络,将复杂关系网络的各节点初始化为不同的第一社区,并计算第一社区的第一模块化度量值;
将各节点分别划分在各节点的邻近节点所在的第二社区中,并计算第二社区的第二模块化度量值;
计算每个节点的第一模块化度量值和第二模块化度量值之间的差值;
分析差值是否为正数,若差值不为正数,继续对各节点进行社区划分处理,直到差值为正数,得到划分社区,社区划分处理用于指示将各节点初始化为不同的第一社区和将各节点分别划分在各节点的邻近节点所在的第二社区;
获取并分析划分社区中的各社区之间的连接边权重,将连接边权重均大于预设阈值的划分社区所构成的图作为高密子图。
可选的,采样处理模块302具体用于:对高密子图进行特征提取,得到动态特征数据;
对高密子图进行实时的网络拓扑结构特征提取,得到动态特征数据;
按照第一预设时间间隔对动态特征数据进行抓取,获得候选动态特征变化数据;
对候选动态特征变化数据进行性能分析和可靠性分析,得到动态特征变化数据。
可选的,统计计算模块303具体用于:获取历史复杂关系网络,并对历史复杂关系网络的网络拓扑结构特征进行选择和提取,得到静态特征数据;
将静态特征数据作为节点,获取历史复杂关系网络中静态特征数据之间的关联关系,将关联关系作为划分条件,根据节点和划分条件生成静态高密子图;
获取静态高密子图中的时序数据,并按照第二预设时间间隔对时序数据进行采样处理,得到静态特征变化数据;
按照第三预设时间间隔,对静态特征变化数据进行统计,获得与每个时间间隔对应的统计数据,与每个时间间隔对应的统计数据包括静态高密子图的数量、以及静态特征变化数据在第三预设时间间隔内的均值和方差;
通过预置公式对与每个时间间隔对应的统计数据进行计算,获得第一置信度阈值和第二置信度阈值,并根据第一置信度阈值和第二置信度阈值生成置信区间。
可选的,判断分析模块304具体用于:对动态特征变化数据进行时间连续性分析,获得时间连续的第一特征数据和第二特征数据,时间连续用于指示第一特征数据的末端时间点与第二特征数据的始端时间点相同或连接;
计算第一特征数据和第二特征数据之间的特征差异值;
判断特征差异值是否在置信区间外;
若特征差异值不在置信区间外,则将特征差异值置零,并将特征差异值对应的第一特征数据和第二特征数据作为非异常特征;
若特征差异值在置信区间外,则将特征差异值置1,并将特征差异值对应的第一特征数据和第二特征数据作为异常特征;
将非异常特征和异常特征作为目标衍生特征。
可选的,异常检测模块305具体用于:通过异常检测模型,创建并标记目标衍生特征和高密子图之间的对应关系,得到标记后的高密子图;
通过孤立森林算法对标记后的高密子图进行异常检测,得到初始异常高密子图;
通过基于聚类的子空间异常检测算法对初始异常高密子图进行异常检测,得到目标异常高密子图。
上述检测异常高密子图的装置中各个模块的功能实现与上述检测异常高密子图的方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例,通过结合高密子图的静态指标与动态演化过程中的动态指标来分析高密子图的风险能力,提高检测高密子图是否异常的准确性,并通过对目标异常高密子图进行异常程度分类处理、异常发展预测处理和同类型异常分析处理,提高目标异常高密子图的获取准确度和质量。
上面图3至图4从模块化功能实体的角度对本发明实施例中的检测异常高密子图的装置进行详细描述,下面从硬件处理的角度对本发明实施例中检测异常高密子图的设备进行详细描述。
图5是本发明实施例提供的一种检测异常高密子图的设备的结构示意图,该检测异常高密子图的设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)501(例如,一个或一个以上处理器)和存储器509,一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储装置)。其中,存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对签到管理设备中的一系列指令操作。更进一步地,处理器501可以设置为与存储介质508通信,在检测异常高密子图的设备500上执行存储介质508中的一系列指令操作。
检测异常高密子图的设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作***505,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5中示出的检测异常高密子图的设备结构并不构成对检测异常高密子图的设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。处理器501可以执行上述实施例中分割处理模块301、采样处理模块302、统计计算模块303、判断分析模块304、异常检测模块305和处理模块306的功能。
下面结合图5对检测异常高密子图的设备的各个构成部件进行具体的介绍:
处理器501是检测异常高密子图的设备的控制中心,可以按照检测异常高密子图的方法进行处理。处理器501利用各种接口和线路连接整个检测异常高密子图的设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,执行检测异常高密子图的设备的各种功能和处理数据,从而实现提高检测高密子图是否异常的准确性的功能。存储介质508和存储器509都是存储数据的载体,本发明实施例中,存储介质508可以是指储存容量较小,但速度快的内存储器,而存储器509可以是储存容量大,但储存速度慢的外存储器。
存储器509可用于存储软件程序以及模块,处理器501通过运行存储在存储器509的软件程序以及模块,从而执行检测异常高密子图的设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(获取待分析的复杂关系网络,并通过预置算法对复杂关系网络进行实时的图分割处理,得到高密子图等)等;存储数据区可存储根据签到管理设备的使用所创建的数据(按照第一预设时间间隔对高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据等)等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本发明实施例中提供的检测异常高密子图的方法程序和接收到的数据流存储在存储器中,当需要使用时,处理器501从存储器509中调用。
在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,光盘)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种检测异常高密子图的方法,其特征在于,包括:
获取待分析的复杂关系网络,并通过预置算法对所述复杂关系网络进行实时的图分割处理,得到高密子图,所述高密子图用于指示社区以及社区之间的关联关系;
按照第一预设时间间隔对所述高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,所述动态特征变化数据用于指示所述高密子图随着时间变化而发生动态变化的网络拓扑结构特征数据;
获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对所述静态特征数据进行统计与计算,得到置信区间,所述历史复杂关系网络用于指示在所述复杂关系网络之前生成或存储的复杂关系网络,所述置信区间用于指示每个时间段之间的静态特征数据的平均变化范围值;
将所述动态特征变化数据根据所述置信区间内和所述置信区间外划分为非异常特征和异常特征,将所述非异常特征和所述异常特征作为目标衍生特征;
通过异常检测模型结合所述目标衍生特征对所述高密子图进行异常检测,得到目标异常高密子图。
2.根据权利要求1所述的检测异常高密子图的方法,其特征在于,所述获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对所述静态特征数据进行统计与计算,得到置信区间,包括:
获取历史复杂关系网络,并对所述历史复杂关系网络的网络拓扑结构特征进行选择和提取,得到静态特征数据;
将所述静态特征数据作为节点,获取所述历史复杂关系网络中所述静态特征数据之间的关联关系,将所述关联关系作为划分条件,根据所述节点和所述划分条件生成静态高密子图;
获取所述静态高密子图中的时序数据,并按照第二预设时间间隔对所述时序数据进行采样处理,得到静态特征变化数据;
按照第三预设时间间隔,对所述静态特征变化数据进行统计,获得与每个时间间隔对应的统计数据,所述与每个时间间隔对应的统计数据包括所述静态高密子图的数量、以及所述静态特征变化数据在所述第三预设时间间隔内的均值和方差;
通过预置公式对所述与每个时间间隔对应的统计数据进行计算,获得第一置信度阈值和第二置信度阈值,并根据所述第一置信度阈值和所述第二置信度阈值生成置信区间。
3.根据权利要求2所述的检测异常高密子图的方法,其特征在于,所述将所述动态特征变化数据根据所述置信区间内和所述置信区间外划分为非异常特征和异常特征,将所述非异常特征和所述异常特征作为目标衍生特征,包括:
对所述动态特征变化数据进行时间连续性分析,获得时间连续的第一特征数据和第二特征数据,所述时间连续用于指示所述第一特征数据的末端时间点与所述第二特征数据的始端时间点相同或连接;
计算所述第一特征数据和所述第二特征数据之间的特征差异值;
判断所述特征差异值是否在所述置信区间外;
若所述特征差异值不在所述置信区间外,则将所述特征差异值置零,并将所述特征差异值对应的第一特征数据和第二特征数据作为非异常特征;
若所述特征差异值在所述置信区间外,则将所述特征差异值置1,并将所述特征差异值对应的第一特征数据和第二特征数据作为异常特征;
将所述非异常特征和所述异常特征作为目标衍生特征。
4.根据权利要求3所述的检测异常高密子图的方法,其特征在于,所述通过异常检测模型结合所述目标衍生特征对所述高密子图进行异常检测,得到目标异常高密子图,包括:
通过异常检测模型,创建并标记所述目标衍生特征和所述高密子图之间的对应关系,得到标记后的高密子图;
通过孤立森林算法对所述标记后的高密子图进行异常检测,得到初始异常高密子图;
通过基于聚类的子空间异常检测算法对所述初始异常高密子图进行异常检测,得到目标异常高密子图。
5.根据权利要求1所述的检测异常高密子图的方法,其特征在于,所述获取待分析的复杂关系网络,并通过预置算法对所述复杂关系网络进行实时的图分割处理,得到高密子图,包括:
获取待分析的复杂关系网络,将所述复杂关系网络的各节点初始化为不同的第一社区,并计算所述第一社区的第一模块化度量值;
将所述各节点分别划分在所述各节点的邻近节点所在的第二社区中,并计算所述第二社区的第二模块化度量值;
计算每个节点的所述第一模块化度量值和所述第二模块化度量值之间的差值;
分析所述差值是否为正数,若所述差值不为正数,继续对各节点进行社区划分处理,直到所述差值为正数,得到划分社区,所述社区划分处理用于指示将各节点初始化为不同的第一社区和将所述各节点分别划分在所述各节点的邻近节点所在的第二社区;
获取并分析所述划分社区中的各社区之间的连接边权重,将所述连接边权重均大于预设阈值的划分社区所构成的图作为高密子图。
6.根据权利要求5所述的检测异常高密子图的方法,其特征在于,所述按照第一预设时间间隔对所述高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,包括:
对所述高密子图进行实时的网络拓扑结构特征提取,得到动态特征数据;
按照第一预设时间间隔对所述动态特征数据进行抓取,获得候选动态特征变化数据;
对所述候选动态特征变化数据进行性能分析和可靠性分析,得到动态特征变化数据。
7.根据权利要求1-6任意一项所述的检测异常高密子图的方法,其特征在于,所述通过异常检测模型结合所述目标衍生特征对所述高密子图进行异常检测,得到目标异常高密子图之后,所述检测异常高密子图的方法还包括:
对所述目标异常高密子图进行异常程度分类处理、异常发展预测处理和同类型异常分析处理,获得最终的目标异常高密子图。
8.一种检测异常高密子图的装置,其特征在于,所述装置包括:
分割处理模块,用于获取待分析的复杂关系网络,并通过预置算法对所述复杂关系网络进行实时的图分割处理,得到高密子图,所述高密子图用于指示社区以及社区之间的关联关系;
采样处理模块,用于按照第一预设时间间隔对所述高密子图的网络拓扑结构特征进行采样处理,得到动态特征变化数据,所述动态特征变化数据用于指示所述高密子图随着时间变化而发生动态变化的网络拓扑结构特征数据;
统计计算模块,用于获取历史复杂关系网络中的静态特征数据,通过预置的统计模型对所述静态特征数据进行统计与计算,得到置信区间,所述历史复杂关系网络用于指示在所述复杂关系网络之前生成或存储的复杂关系网络,所述置信区间用于指示每个时间段之间的静态特征数据的平均变化范围值;
判断分析模块,用于将所述动态特征变化数据根据所述置信区间内和所述置信区间外划分为非异常特征和异常特征,将所述非异常特征和所述异常特征作为目标衍生特征;
异常检测模块,用于通过异常检测模型结合所述目标衍生特征对所述高密子图进行异常检测,得到目标异常高密子图。
9.一种检测异常高密子图的设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的检测异常高密子图的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-7中任意一项所述的检测异常高密子图的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226309.8A CN111475680A (zh) | 2020-03-27 | 2020-03-27 | 检测异常高密子图的方法、装置、设备及存储介质 |
PCT/CN2020/103200 WO2021189730A1 (zh) | 2020-03-27 | 2020-07-21 | 检测异常高密子图的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226309.8A CN111475680A (zh) | 2020-03-27 | 2020-03-27 | 检测异常高密子图的方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111475680A true CN111475680A (zh) | 2020-07-31 |
Family
ID=71750252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010226309.8A Pending CN111475680A (zh) | 2020-03-27 | 2020-03-27 | 检测异常高密子图的方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111475680A (zh) |
WO (1) | WO2021189730A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112134862A (zh) * | 2020-09-11 | 2020-12-25 | 国网电力科学研究院有限公司 | 基于机器学习的粗细粒度混合网络异常检测方法及装置 |
CN112669299A (zh) * | 2020-12-31 | 2021-04-16 | 上海智臻智能网络科技股份有限公司 | 瑕疵检测方法及装置、计算机设备和存储介质 |
WO2022116689A1 (zh) * | 2020-12-03 | 2022-06-09 | 腾讯科技(深圳)有限公司 | 图数据处理方法、装置、计算机设备和存储介质 |
CN115134246A (zh) * | 2021-03-22 | 2022-09-30 | ***通信集团河南有限公司 | 网络性能指标监控方法、装置、设备和存储介质 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837874B (zh) * | 2021-11-22 | 2022-04-12 | 北京芯盾时代科技有限公司 | 一种数据的识别方法、装置、存储介质及电子设备 |
CN114201535A (zh) * | 2021-12-14 | 2022-03-18 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备及存储介质 |
CN114257493B (zh) * | 2021-12-17 | 2024-04-23 | 中国电信股份有限公司 | 网络节点的故障预警方法、装置、介质及电子设备 |
CN116055385B (zh) * | 2022-12-30 | 2024-06-18 | 中国联合网络通信集团有限公司 | 路由方法、管理节点、路由节点及介质 |
CN115912359B (zh) * | 2023-02-23 | 2023-07-25 | 豪派(陕西)电子科技有限公司 | 基于大数据的数字化安全隐患识别排查治理方法 |
CN116151511B (zh) * | 2023-03-01 | 2023-10-20 | 国网山东省电力公司菏泽供电公司 | 一种基于数据处理的配电馈线和台区智能诊断管理方法及*** |
CN116204690B (zh) * | 2023-04-28 | 2023-07-18 | 泰力基业股份有限公司 | 一种具有自动灭火功能的配电箱数据传输*** |
CN116844684B (zh) * | 2023-05-18 | 2024-04-02 | 首都医科大学附属北京朝阳医院 | 一种医学检验结果的质控处理方法、装置、设备及介质 |
CN116269738B (zh) * | 2023-05-25 | 2023-08-01 | 深圳市科医仁科技发展有限公司 | 射频治疗仪的智能控制方法、装置、设备及存储介质 |
CN116628554B (zh) * | 2023-05-31 | 2023-11-03 | 烟台大学 | 一种工业互联网数据异常的检测方法、***和设备 |
CN117282261B (zh) * | 2023-11-23 | 2024-02-23 | 天津恩纳社环保有限公司 | 一种微生物废气处理*** |
CN117436006B (zh) * | 2023-12-22 | 2024-03-15 | 圣道天德电气(山东)有限公司 | 一种智慧环网柜故障实时监测方法及*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018203956A1 (en) * | 2017-05-02 | 2018-11-08 | Google Llc | Systems and methods to detect clusters in graphs |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
CN109711746A (zh) * | 2019-01-02 | 2019-05-03 | 中国联合网络通信集团有限公司 | 一种基于复杂网络的信用评估方法和*** |
CN109788001B (zh) * | 2019-03-07 | 2021-06-25 | 武汉极意网络科技有限公司 | 可疑互联网协议地址发现方法、用户设备、存储介质及装置 |
-
2020
- 2020-03-27 CN CN202010226309.8A patent/CN111475680A/zh active Pending
- 2020-07-21 WO PCT/CN2020/103200 patent/WO2021189730A1/zh active Application Filing
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112134862A (zh) * | 2020-09-11 | 2020-12-25 | 国网电力科学研究院有限公司 | 基于机器学习的粗细粒度混合网络异常检测方法及装置 |
CN112134862B (zh) * | 2020-09-11 | 2023-09-08 | 国网电力科学研究院有限公司 | 基于机器学习的粗细粒度混合网络异常检测方法及装置 |
WO2022116689A1 (zh) * | 2020-12-03 | 2022-06-09 | 腾讯科技(深圳)有限公司 | 图数据处理方法、装置、计算机设备和存储介质 |
US11935049B2 (en) | 2020-12-03 | 2024-03-19 | Tencent Technology (Shenzhen) Company Limited | Graph data processing method and apparatus, computer device, and storage medium |
CN112669299A (zh) * | 2020-12-31 | 2021-04-16 | 上海智臻智能网络科技股份有限公司 | 瑕疵检测方法及装置、计算机设备和存储介质 |
CN112669299B (zh) * | 2020-12-31 | 2023-04-07 | 上海智臻智能网络科技股份有限公司 | 瑕疵检测方法及装置、计算机设备和存储介质 |
CN115134246A (zh) * | 2021-03-22 | 2022-09-30 | ***通信集团河南有限公司 | 网络性能指标监控方法、装置、设备和存储介质 |
CN115134246B (zh) * | 2021-03-22 | 2023-07-21 | ***通信集团河南有限公司 | 网络性能指标监控方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021189730A1 (zh) | 2021-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475680A (zh) | 检测异常高密子图的方法、装置、设备及存储介质 | |
CN109088869B (zh) | Apt攻击检测方法及装置 | |
CN109818961B (zh) | 一种网络入侵检测方法、装置和设备 | |
CN112118141A (zh) | 面向通信网络的告警事件关联压缩方法及装置 | |
CN110162970A (zh) | 一种程序处理方法、装置以及相关设备 | |
Bai et al. | Entropic dynamic time warping kernels for co-evolving financial time series analysis | |
CN111651767A (zh) | 一种异常行为检测方法、装置、设备及存储介质 | |
CN109257383B (zh) | 一种bgp异常检测方法及*** | |
CN110245687B (zh) | 用户分类方法以及装置 | |
CN114742477B (zh) | 企业订单数据处理方法、装置、设备及存储介质 | |
CN112134862B (zh) | 基于机器学习的粗细粒度混合网络异常检测方法及装置 | |
CN114386538B (zh) | 一种标记监测指标的kpi曲线的波段特征的方法 | |
CN113125903A (zh) | 线损异常检测方法、装置、设备及计算机可读存储介质 | |
CN116662817B (zh) | 物联网设备的资产识别方法及*** | |
CN115484112B (zh) | 支付大数据安全防护方法、***及云平台 | |
CN113259176A (zh) | 一种告警事件分析方法和装置 | |
CN112463848A (zh) | 检测用户异常行为的检测方法、***、装置和存储介质 | |
CN103530312A (zh) | 使用多方面足迹的用户标识的方法和*** | |
CN117041017A (zh) | 数据中心的智能运维管理方法及*** | |
CN112202718A (zh) | 一种基于XGBoost算法的操作***识别方法、存储介质及设备 | |
CN107274025B (zh) | 一种实现用电模式智能识别与管理的***和方法 | |
CN112953948A (zh) | 一种实时网络横向蠕虫攻击流量检测方法及装置 | |
CN114978878B (zh) | 定位方法、装置、电子设备及计算机可读存储介质 | |
CN112465073B (zh) | 一种基于距离的数值分布异常检测方法及检测*** | |
CN111835541B (zh) | 一种流量识别模型老化检测方法、装置、设备及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |