CN109040143B - 一种bgp异常事件的检测方法和装置 - Google Patents
一种bgp异常事件的检测方法和装置 Download PDFInfo
- Publication number
- CN109040143B CN109040143B CN201811217657.8A CN201811217657A CN109040143B CN 109040143 B CN109040143 B CN 109040143B CN 201811217657 A CN201811217657 A CN 201811217657A CN 109040143 B CN109040143 B CN 109040143B
- Authority
- CN
- China
- Prior art keywords
- logarithmic probability
- bgp
- probability
- logarithmic
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 207
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000001514 detection method Methods 0.000 claims abstract description 135
- 238000004891 communication Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 106
- 238000012545 processing Methods 0.000 claims description 58
- 238000006243 chemical reaction Methods 0.000 claims description 44
- 230000005856 abnormality Effects 0.000 claims 2
- 238000012549 training Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 27
- 230000006870 function Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 13
- 238000013499 data model Methods 0.000 description 9
- 238000007477 logistic regression Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000013077 scoring method Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000001159 Fisher's combined probability test Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明的实施例提供了一种BGP异常事件的检测方法和装置,涉及通信技术领域,解决了判断引起BGP网络的异常事件的原因的问题。该方法包括,获取BGP异常数据;根据预设异常检测模型以及BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果;其中,检测结果至少包括路由劫持、路由泄露和无异常中的任一项。本发明实施例用于确定引起BGP异常事件的原因。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种BGP异常事件的检测方法和装置。
背景技术
边界网关协议(英文全称:Border Gateway Protocol,简称:BGP)是一种跨自治域***的路由协议。BGP协议的主要功能是保证BGP网络内信息的可到达性,可到达性指BGP网络内每个应用服务器(英文全称:Application Server,简称:AS)之间应相互可到达。BGP协议使得所有AS构建成一张连通的图,每个AS可以配置属于自己的转发策略。BGP采用了无类域间路由(英文全称:Classless Inter-Domain Routing,简称:BGP)聚合机制,该机制将网络之间互连的协议(英文全称:Internet Protocol,简称:IP)划分若干IP前缀,每一个IP前缀便是一段IP地址。BGP协议将此机制用于聚合IP前缀的路由转发,在AS-PATH路径的时候,会以聚合IP前缀作为标识。
BGP网络最常见两种异常事件分别是主动发起的BGP网络攻击事件和由于配置失误造成的被动异常事件。前者最具代表性的异常事件被称作路由劫持,后者最常见的异常是路由泄露;这两类异常的共性是异常都影响到特定的IP前缀,导致BGP网络内的AS之间相互传输的信息无法正常传输;如果可以根据BGP网络的异常事件及时判断出引起该异常事件的原因,则可以及时的排除该异常保证BGP网络运行的稳定性。
因此,如何判断引起BGP网络的异常事件的原因成为了一个亟待解决问题。
发明内容
本发明的实施例提供一种BGP异常事件的检测方法和装置,解决了判断引起BGP网络的异常事件的原因的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面、本发明的实施例提供一种BGP异常事件的检测方法,包括:获取BGP异常数据;根据预设异常检测模型以及BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果;其中,检测结果至少包括路由劫持、路由泄露和无异常中的任一项。
由上述方案可知,通过预设异常检测模型中的第一模型或者第二模型对BGP异常数据进行处理后,可以获得正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,进而根据第一对数概率f1、第二对数概率f2以及第三对数概率f3,确定该BGP异常数据的检测结果,从而用户可以该检测结果对BGP网络进行相应的维护保证BGP网络的正常运行;解决了判断引起BGP网络的异常事件的原因的问题。
可选的,预设异常检测模型包括第一模型,第一模型包括GBDT算法模型和LR算法模型;根据预设异常检测模型以及BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,包括:根据GBDT算法模型对BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;根据LR算法模型和特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;或者,预设异常检测模型包括第二模型,第二模型包括GBDT算法模型和FM算法模型;根据预设异常检测模型以及BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,包括:根据GBDT算法模型对BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;根据FM算法模型和特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3。
可选的,根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果,包括:当第一对数概率f1大于第二对数概率f2,并且第一对数概率f1大于第三对数概率f3时,确定BGP异常数据的检测结果为路由劫持。
可选的,根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果,包括:当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露;当第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露;当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露。
可选的,根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果,包括:当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常;当第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常;当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常。
第二方面、本发明的实施例提供一种BGP异常事件的检测装置,包括:获取单元,用于获取BGP异常数据;处理单元,用于根据预设异常检测模型以及获取单元获取的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;处理单元,还用于根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果;其中,检测结果至少包括路由劫持、路由泄露和无异常中的任一项。
可选的,预设异常检测模型包括第一模型,第一模型包括GBDT算法模型和LR算法模型;处理单元,具体用于根据GBDT算法模型对获取单元获取的BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;处理单元,具体用于根据LR算法模型和特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;或者,预设异常检测模型包括第二模型,第二模型包括GBDT算法模型和FM算法模型;处理单元,具体用于根据GBDT算法模型对获取单元获取的BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;处理单元,具体用于根据FM算法模型和特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3。
可选的,处理单元,具体用于当第一对数概率f1大于第二对数概率f2,并且第一对数概率f1大于第三对数概率f3时,确定BGP异常数据的检测结果为路由劫持。
可选的,处理单元,具体用于当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露;处理单元,具体用于当第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露;处理单元,具体用于当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露。
可选的,处理单元,具体用于当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常;处理单元,具体用于当第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常;处理单元,具体用于当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常。
第三方面、本发明的实施例提供一种计算机存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述第一方面提供的任一项所述的BGP异常事件的检测方法。
第四方面、本发明的实施例提供一种BGP异常事件的检测装置,包括:通信接口、处理器、存储器、总线;存储器用于存储计算机执行指令,处理器与存储器通过总线连接,当BGP异常事件的检测装置运行时,处理器执行存储器存储的计算机执行指令,以使BGP异常事件的检测装置执行如上述第一方面提供的任一项所述的BGP异常事件的检测方法。
可以理解地,上述提供的任一种BGP异常事件的检测装置用于执行上文所提供的第一方面对应的方法,因此,其所能达到的有益效果可参考上文第一方面的方法以及下文具体实施方式中对应的方案的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例提供的一种BGP异常事件的检测方法的流程示意图之一;
图2为本发明的实施例提供的一种BGP异常事件的检测方法的流程示意图之二;
图3为本发明的实施例提供的一种BGP异常事件的检测方法中的组合模型的BGP异常事件的检测方法的逻辑示意图;
图4为本发明的实施例提供的一种BGP异常事件的检测方法中的梯度提升算法的逻辑示意图;
图5为本发明的实施例提供的一种BGP异常事件的检测方法的GBDT特征转化结果的示意图;
图6为本发明的实施例提供的一种BGP异常事件的检测装置的结构示意图之一;
图7为本发明的实施例提供的一种BGP异常事件的检测装置的结构示意图之二。
附图标记:
BGP异常事件的检测装置;
获取单元-101;处理单元-102。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本发明实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个网络是指两个或两个以上的网络。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本发明的实施例提供的BGP异常事件的检测方法,采用梯度提升决策回归树(英文全称:Gradient Boosting Decision Tree,简称:GBDT)来处理特征数据(BGP异常数据),将GBDT的每一个叶子节点作为新的特征重新编码,然后通过逻辑回归(英文全称:LogisticRegression,简称:LR)或者因子分解机(英文全称:Factorization Machines,简称:FM)对经过GBDT处理后的特征数据进行异常的检测分类,从而可以判断出引起BGP网络的异常事件的原因,具体的实现方式如下:
实施例一
本发明的实施例提供一种BGP异常事件的检测方法,如图1所示包括:
S101、获取BGP异常数据。
S102、根据预设异常检测模型以及BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3。
可选的,预设异常检测模型包括第一模型,第一模型包括GBDT算法模型和LR算法模型;根据预设异常检测模型以及BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,包括:
S1020、根据GBDT算法模型对BGP异常数据进行特征转换,得到特征转换后的BGP异常数据。
S1021、根据LR算法模型和特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3。
或者,
预设异常检测模型包括第二模型,第二模型包括GBDT算法模型和FM算法模型;根据预设异常检测模型以及BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,包括:
S1022、根据GBDT算法模型对BGP异常数据进行特征转换,得到特征转换后的BGP异常数据。
S1023、根据FM算法模型和特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3。
需要说明的是,在实际的应用中,当一个网络之间互连的协议(英文全称:Internet Protocol,简称:IP)前缀发生异常时,BGP路由器会为失败的路由重新进行路由选择算法。在路由重新选择的过程中,BGP路由器会发布路由宣告和撤回UPDATE消息。示例性的,本发明以BGP异常数据为BGP路由器会发布路由宣告和撤回的UPDATE消息为例,通过GBDT算法模型对采集的BGP异常数据进行处理,并根据处理后的BGP异常数据,利用LR算法模型或者FM算法模型计算该处理后的BGP异常数据的正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,从而确定该BGP异常数据的检测结果,具体的实现方式如下:
第一步、获取BGP异常数据时,本发明基于分布式***进行BGP异常数据的特征采集,包括确定宣告/撤回的数量、确定重复宣告/隐式撤回的数量、AS源的数量、路径长度和路径编辑距离,具体实现方式如下:
确定宣告/撤回的数量包括:BGP路由异常事件发生时,其不稳定性会表现在UPDATE报文中的宣告和撤回数量上。所以本发明将宣告和撤回数量分别作为异常特征,具体数值定义为:异常事件发生当天其IP前缀在所有UPDATE中宣告/撤回的数量,公式1和公式2所示:
AVi=∑{Xi=<xi(1),xi(2),......,xi(288)>},i∈[1,2,......,ENUM],公式1;
WVi=∑{Yi=<yi(1),yi(2),......,yi(288)>},i∈[1,2,......,ENUM],公式2;
其中,AVi和WVi表示事件集合中编号为i的事件宣告/撤回数量;由于RIPE中的22个无线资源控制(英文全称:Radio Resource Control,简称:RRC)每五分钟对外发布一次UPDATE报文文件,因此每个RRC每天生成288个报文文件;Xi和Yi代表着一个报文文件中的宣告/撤回数量序列;ENUM表示BGP异常事件集合中的事件数量。
将异常事件按照发生日期进行分组,对每一天发生的一组异常事件按照Spark链式RDD操作流程计算宣告/撤回数量的过程如下:
输入:事件发生当天所有UPDATE文件、一组异常IP前缀。
输出:异常事件宣告/撤回数量。
在计算机中实现上述步骤时,需要按照如下步骤进行操作:
步骤1、textFile:从HDFS(英文全称:Hadoop Distributed File System,是Hadoop框架使用的分布式存储集群,集群由负责管理文件***元数据的NameNode和存储实际数据的DataNode组成)读取文件。
步骤2、map:竖线分隔UPDATE。
步骤3、filter:过滤筛选出等于IP前缀的UPDATE。
步骤4、filter:过滤筛选出类型等于宣告(撤回)的UPDATE。
步骤5、map:映射UPDATE->(IP前缀,1)。
步骤6、reduce By Key:按照键对值做累加。
确定重复宣告/隐式撤回的数量,包括:BGP UPDATE宣告的类型可以分为三种:如果一条宣告声明了一个原来不可达的IP地址前缀,那么这条宣告被称作新的宣告;如果一条宣告声明了一个可到达的IP地址前缀,并且具有相同的路由,即UPDATE中PREFIX域和AS-PATH域相同,那么这条宣告被称作重复宣告;如果一条路由替换了当前的路由,即PREFIX域和AS-PATH的源相同,但是AS-PATH发生了变化,那么这条宣告被称为隐式撤回。
关于重复宣告和隐式撤回的定义,两者的区别在于重复宣告没有对UPDATE按照时间排序,而隐式撤回考虑到了UPDATE的到达先后顺序。当BGP路由异常发生时,路由处于不稳定的状态,有时会伴随重复宣告和隐式撤回。IP前缀的重复宣告计算公式如公式3所示:
其中,DAVi表示事件i的重复宣告数量,PATHi是事件i所有UPADTE中的所有AS-PATH。AVi的计算方法已经在确定宣告/撤回的数量中给出,使用Spark计算路径集合大小count(distinct(PATHi))的过程如下:
输入:事件发生当天所有UPDATE文件、一组异常IP前缀。
输出:异常事件重复宣告数量。
在计算机中实现上述步骤时,需要按照如下步骤进行操作:
步骤1、textFile:从HDFS读取文件。
步骤2、map:竖线分隔UPDATE。
步骤3、filter:过滤筛选出等于IP前缀的UPDATE。
步骤4、filter:过滤筛选出类型等于宣告的UPDATE。
步骤5、map:映射UPDATE->(IP前缀,AS-PATH),1)。
步骤6、reduceByKey:按照键对值做累加。
步骤7、map:映射((IP前缀,AS-PATH),count)->(IP前缀,count-1)。
步骤8、reduceByKey:按照键对值做累加。
隐式撤回IWVi的计算,需要基于路由表的状态,可以根据BGP UPDATE来维护路由表状态。使用Spark计算隐式撤回的过程如下:
输入:事件发生当天所有UPDATE文件、一组异常IP前缀。
输出:异常事件隐式撤回数量。
在计算机中实现上述步骤时,需要按照如下步骤进行操作:
步骤1、textFile:从HDFS读取文件。
步骤2、map:竖线分隔UPDATE。
步骤3、filter:过滤筛选出等于IP前缀的UPDATE。
步骤4、filter:过滤筛选出类型等于宣告的UPDATE。
步骤5、map:映射UPDATE->((IP前缀,采集点,源),(时间,AS-PATH))。
步骤6、group By Key,map:按照键聚合后对(时间,AS-PATH)序列如下算法:
步骤6-1、对元组序列按照时间升序排序。
步骤6-2、pre_path用于记录分组路由,implicate_num用于记录分组隐式撤回数量。
具体的,在计算机中实现上述步骤时,需要按照如下步骤进行操作:
pre_path=null,implicate_num=0。
FOR tupleIN list:
IF path==pre_path:
CONTINUE。
ELSE:
implicate_num=implicate_num+1。
pre_path=path。
RETURN implicate_num。
步骤7、map:映射((IP前缀,采集点,源),implicate_num)->(IP前缀,implicate_num)。
步骤8、reduceByKey:按照键对值做累加。
确定AS源的数量包括,IP前缀的AS源数量是一个判定BGP路由是否异常的重要指标。当一个特定的IP地址前缀被超过一个AS自治域宣告为源,便发生了多源自治域***冲突。IP地址前缀的源可以从UPDATE的AS-PATH域获得,AS-PATH从左往右的最后一个节点为前缀的源。AS源数量指标是计算时间窗口内(一天),事件前缀不重复的源个数。一个IP前缀的AS源的数量计算公式如公式4所示:
MUASi=distinct(pathi(-1)),公式4;
其中,MUASi为事件i的AS源的数量,pathi(-1)表示事件i所有的UPDATE中AS-PATH域路径从左往右第一个AS的集合。使用Spark计算AS源的计算过程如下:
输入:事件发生当天所有UPDATE文件、一组异常IP前缀。
输出:异常事件AS源数量。
在计算机中实现上述步骤时,需要按照如下步骤进行操作:
步骤1、textFile:从HDFS读取文件。
步骤2、map:竖线分隔UPDATE。
步骤3、filter:过滤筛选出等于IP前缀的UPDATE。
步骤4、filter:过滤筛选出类型等于宣告的UPDATE。
步骤5、map:映射UPDATE->(IP前缀,AS-PATH[-1])。
步骤6、distinct,map:映射(IP前缀,AS-PATH[-1])->(IP前缀,1)。
步骤7、reduceByKey:按照键对值做累加。
确定路径长度包括:当BGP重新选择路由时,路径长度有很大概率会发生改变。尤其当发生路由劫持或者路由泄露时,路径长度的变化会更加明显。路由劫持发生时,原有的路由线路不再可用,BGP路由器会尝试新的替代线路。路由泄露发生时,虽然IP地址前缀所属的AS没有发生变化,但是由于路径中间AS的转发策略配置不当,往往会导致路径长度变得更长。IP前缀的路径长度特征计算公式如公式5所示:
其中,PLij表示标号为i的异常事件,路径长度为j的数量,M为自然数。同样xij表示一组报文数量的序列。MPL表示最大路径长度(即max PLij)。使用Spark计算AS源的计算过程如下:
输入:事件发生当天所有UPDATE文件、一组异常IP前缀。
输出:异常事件每一路径长度的UPDATE数量。
在计算机中实现上述步骤时,需要按照如下步骤进行操作:
步骤1、textFile:从HDFS读取文件。
步骤2、map:竖线分隔UPDATE。
步骤3、filter:过滤筛选出等于IP前缀的UPDATE。
步骤4、filter:过滤筛选出类型等于宣告的UPDATE。
步骤5、map:映射UPDATE->((IP前缀,len(AS-PATH),1)。
步骤6、reduce By Key:按照键对值做累加。
确定路径编辑距离包括:当BGP路由异常发生时,路由处于不稳定的状态,采集点会检测到大量来自同一源AS但路径却不相同的宣告。编辑距离是一种反应两条路径差异程度的量化特征指标,量化方法是一条路径经过至少多少次操作可以变成另一条路径。操作方式包括添加一个AS节点、删除一个AS节点,替换一个AS节点。例如路径[1,3,2,5,4]和路径[1,3,6,4]的编辑距离为2,前者通过将2替换成6,删除5,两次操作可以得到后者。两条路径的编辑距离求解有基于动态规划的多项式时间复杂度求解算法,状态转移方程如公式6所示:
其中,d(i,j)表示长度为i的一条路径(记为p1)与长度为j的一条路径(记为p2)的编辑距离。如果p1(i)=p2(j),则不需要任何操作,状态转移到(i-1,j-1)。如果p1(i)≠p2(j),则需要或删除p1(i)或删除p2(j)或p1(i)替换成p2(j),状态转移到(d(i-1,j),d(i,j-1),d(i-1,j-1))中的最优值。算法时间复杂度ο(l1,l2)。
基于路径编辑距离求解算法,我们定义IP前缀的最大路径编辑距离特征如公式7所示:
其中,PDLi表示编号为i的事件的最大编辑距离。对于同一IP地址前缀,采集点编号为j,宣告源编号为k。按照(i,j,k)对宣告进行分组,D表示组内最大编辑距离。p,q表示组内两条宣告路径,d表示两条路径的编辑距离。使用Spark计算IP前缀的路径编辑距离的计算过程如下:
输入:事件发生当天所有UPDATE文件、一组异常IP前缀。
输出:异常事件编辑距离。
在计算机中实现上述步骤时,需要按照如下步骤进行操作:
步骤1、text File:从HDFS读取文件。
步骤2、map:竖线分隔UPDATE。
步骤3、filter:过滤筛选出等于IP前缀的UPDATE。
步骤4、filter:过滤筛选出类型等于宣告的UPDATE。
步骤5、map:映射UPDATE->(IP前缀,AS-PATH)。
步骤6、map:映射(IP前缀,AS-PATH)->((IP前缀,AS-PATH[0],AS-PATH[-1]),AS-PATH)。
步骤7、group By Key,map:聚合后,映射((IP前缀,AS-PATH[0],AS-PATH[-1]),AS-PATH)->(IP前缀,max Edit Distance(AS-PATH))。
步骤8、reduceByKey:取相同键下最大值。
第二步、通过GBDT算法模型对采集的BGP异常数据进行处理包括:由第一步可得到若干用于检测BGP异常事件的特征,然而在训练数据中,这些特征中可能存在冗余和无关特征,需要用量化方法判断特征对检测分类的重要程度,将不必要的特征去除,提高检测算法的鲁棒性,避免计算资源的浪费。特征处理的指标有很多,示例性的以使用Fisher评分法和mRMR]评分法来进行特征处理为例进行说明,具体的实现过程如下:
Fisher算法是一种过滤式特征处理算法,关键思想是从特征中找出一些特征,使得这些特征在样本数据中,不同类别的数据点之间的距离尽可能大,而同一类的数据间的分数尽可能小。同一类别的数据的距离用类别方差和来描述,方差和越小说明对于该特征类别内数据越一致。不同类距离用特征均方和描述,均方和越大说明类别间区分度越好。Fisher分数实际就是前者与后者的比值。特征向量F={X1,X2,......Xm},对于第r个特征,其Fisher分数的计算公式如公式8所示:
计算每个特征的Fisher分数后,将特征按照分数排序,设定阈值选择排名靠前的特征。Fisher评分法的优势是通过启发式的算法快速找到重要特征,但是缺陷是这种算法忽略了一种情况,即可能一种特征单独研究时分数不高,然而和其他特征组合在一起便对分类有着重要的作用。
mRMR(Max-Relevance and Min-Redundancy)是一种包裹式特征处理算法,其关键思想是最大化特征与目标类的相关性,同时最小化特征之间的冗余。mRMR算法基于互信息公式,对于两个变量X和Y,其概率密度及联合概率密度为p(X)、p(Y)和p(X,Y)。对于本发明宣告数量等连续型BGP异常特征,可以使用Parzen窗口函数进行概率密度估计。互信息的计算公式如公式9所示:
其中,互信息值越大说明X和Y的相关性越强,如果I(X,Y)等于0则说明相关性为0,特征Xi与异常类别c则可表示为I(Xi,c)。本发明涉及到两类BGP异常事件,但是在此处进行特征处理时不做特殊分类,即将路由劫持和路由泄露统一视为异常。如果要找到与类别最相关的t个异常,需要将所有I(Xi,c)计算后降序排列后取前t个特征即可。如果要考虑特征集合S相关性(用记号D表示),则可使用集合特征互信息的平均值,如公式10所示:
其中,D(S)越大说明特征集合S与异常事件类别C相关性越高,对检测越有帮助。
具有强相关性的特征之间可能也存在着较强的冗余性,集合S的冗余性可以用集合内特征的互信息平均值来表示(用记号R表示)。集合特征数量为|S|,特征两两组合计算|S|2个互信息量,如公式11所示:
其中,R(S)越小说明特征集合S与异常事件类别C冗余性越低,对检测越有帮助。综合考虑相关性和冗余性,D(S)对检测的帮助正相关,R(S)对检测的帮助负相关,可以用两者之间的差(MID)作为综合评价指标,如公式12所示:
MID(S)=D(S)-R(S),公式12;
其中,对于在M个特征集合F中搜索特定大小为m的特征子集合S,符合要求的集合数多达个,若穷举每一个集合,计算成本太高。本发明采用贪婪策略搜索mRMR最优特征子集合,假设现在已经搜索到了m-1个特征集合的最优解opt(Sm-1),那么现在需要从集合{F-Sm-1}中找到新的一个特征加入Sm-1对于MID有递推式,如公式13所示:
其中,起始条件为MID(S0)=0。公式13等号右侧第三项搜索复杂度为ο(|S|),所以整个贪婪算法时间复杂度为ο(|S|*m),与枚举所有集合的做法相比极大地降低了时间复杂度。
Fisher算法的特点是计算特征本身的显著性,mRMR算法的特点是计算特征之间的相关和冗余,两种算法各有所长。所以需要综合这两种算法处理特征。有两种结构可以综合这两个评价指标,一种是分级式结构,先使用一种算法处理特征,然后将该算法的输出作为第二种特征处理算法的输入。第二种是并列式结构,同时用两种算法处理特征,然后用一种算法将两者结果结合。分级式结构隐含着两类算法重要性不对等,本发明在研究BGP特征重要性时,假设特征自身性质与特征相互性质的重要性相同。所以本发明采用并列式结构综合这两种算法。
通过分别使用Fisher算法和mRMR算法以及保留的特征数量,可以各自去除掉其余特征。对于特征的去除应该基于保守的原则,所以本发明剔除同时被两种算法选中的特征。假定最后需要剔除t个特征,t作为一个算法输入参数,那么需要求解k,k为两种算法去除的特征数量,要使得两种算法去除特征的交集大小为t。Fisher算法和mRMR算法处理特征均满足以下性质:
2)如果k不满足两种算法去除特征交集大小大于t,那么对于所有k'<k,也均同不满足要求。
结合以上两条性质,可以使用二分法求解,综合Fisher算法和mRMR算法剔除的t个特征,具体计算过程如下:
输入:训练集特征矩阵Xn*m,分类结果Y,剔除特征个数t。
输出:被剔除特征集合。
步骤1、对训练集应用Fisher算法,按照分数对特征降序排序,得到序列F1。
步骤2、对训练集应用子集大小等于特征数量的mRMR算法,得到序列F2。
步骤3、二分法求解k。
具体的,使用二分法求解k的计算过程如下:
序列左下标low=0,右下标high=length(Feature)-1。
WHILE low<high:
中点mid=(low+high)/2。
交集大小num=|F1[:mid]∩F2[:mid]|。
IF num>=t:
high=mid-1。
k=mid。
ELSE:
low=mid+1。
returnF1[:mid]∩F2[:mid]。
本发明提出的BGP网络异常事件的检测方法是一种组合式机器学习检测算法。该算法将非线性模型与线性模型组合,即先使用非线性模型训练BGP事件数据,然后将非线性模型的结果进行特征转化并作为线性模型的输入特征进行训练,最终得到完整的检测模型。BGP异常检测问题中同时存在着线性规律和非线性规律,单一的模型很难同时兼顾这两种规律,而基于组合模型的算法会有更好的表现。第三步、根据处理后的BGP异常数据,利用LR算法模型或者FM算法模型计算该处理后的BGP异常数据的正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,包括:
本发明设计了非线性的GBDT与线性的LR与FM相结合的BGP异常事件检测模型。将GBDT模型用于特征转化,然后分别编码输入LR与FM数据模型进行检测,在此基础上设计适用多分类的算法,从而完整解决BGP网络异常检测问题。如图3所示,组合模型的BGP异常事件的检测方法的流程可以分为四个步骤:分类拆分、特征转化、异常检测、判断类别,如图3所示:
其中,分类拆分包括:本发明研究的BGP网络异常分为路由劫持和路由泄露,加上正常类别组成了一个三分类问题。一般的基于机器学习的分类模型是二分类模型,假设将三组类型标号成1、2、3,那么集合{1,2,3}可以拆解成{{1,2},{3}}、{{1,3},{2}}、{{2,3},{1}}三个二分类集合,训练出三个检测模型,最后综合判断属于哪一个类型。
1)特征转换
本发明使用GBDT对特征进行转化。首先用BGP数据训练GBDT模型,得到一组决策回归树,以样本落在的每一棵决策回归树的叶子节点位置作为新的特征输出。
2)异常检测
本发明分别尝试两种线性的检测模型,分别是LR逻辑回归和FM隐因子分解对BGP异常进行检测。将GBDT转换后的输出特征输入线性检测模型进行训练,得到最终的检测模型。
3)判断类别
对于{{1,2},{3}}这个拆分后的训练集,本发明将{3}作为正例,{1,2}作为反例,其余两个训练集类似。对于基于LR和FM数据模型的算法,其输出为样本属于某一类别的概率,本发明正例概率最大的那个类别作为最终检测类别。
整个算法流程中,GBDT特征转换和LR、FM异常检测是模型的重点,具体实现过程如下:
基于GBDT的特征转化算法包括:GBDT梯度提升决策树是Jerome提出一种树模型,用于回归预测。GBDT包含了两个概念组成,分别是梯度提升(Gradient Boosting)、决策回归树(Regression Decision Tree)。
梯度提升算法包括:梯度提升算法是一个模型框架,最初被设计用于解决分类问题,后来经过扩展也可以解决回归问题。梯度提升算法的原理是将一些性能“较弱”的分类器按照顺序应用训练模型,组合成一个高性能的分类器。梯度提升算法使用的这组弱分类器记为Gm(x)。
如图4所示,将使用弱分类器训练集数据,得到模型G1(x),将训练集数据迭代再次训练,得到模型G2(x),以此类推,最终预测值等于各个模型预测值相加。梯度体现在训练Gm(x)前,首先计算模型∑Gm-1(x)损失函数L的负梯度,对于每一个训练样本得到一组新的特征,形成新的特征矩阵,用负梯度特征矩阵作为输入训练Gm(x)。具体梯度提升算法实现过程如下:
输入:训练集特征矩阵Xn*m,分类结果Y,弱分类器个数M。
在计算机中实现上述步骤时,需要按照如下步骤进行操作:
步骤2、、For m=1to M:
(a)For i=1to N,计算负梯度公式为:
(b)输入rim,使用弱分类训练模型,对于第j个弱分类器,该分类器的特征区间集合Rjm,j=1,2,......,Jm。
(c)F or j=1 to Jm,线性搜索最优迭代步长矩阵为:
针对GBDT模型,梯度提升算法使用的弱分类器为决策回归树,Rjm便表示第m棵树Jm个叶子节点组成的集合。I(x∈Rjm)表示如果括号内条件满足,则函数值等于叶子节点分数值,最终一共生成M个决策回归子树。
决策回归树包括:GBDT中的DT实际是决策回归树,其特点是非叶子结点的判断规则与决策树相同,每一个叶子节点包含一个分数作为预测值。模型的训练是一个递归的过程,具体实现过程如下:
输入:训练集特征矩阵Xn*m,分类结果Y,阈值。
输出:决策回归树。
在计算机中实现上述步骤时,需要按照如下步骤进行操作:
步骤1、创建根节点R。
步骤2、如果当前训练集数据一致,则标定R的值为预测值返回。
步骤3、对R进行卡方检验,如果小于阈值,则不再分解,返回R中数据平均值。
步骤4、如果R深度大于设定深度d,同样不再分解,返回R中数据平均值。
步骤5、从特征列表中选择最大的信息增益点,将特征分成左右两部分。
步骤6、如果左部分或右部分为空,同样不再分解,返回R中数据平均值。否则,递归左右两部分,递归结束后将左右两节点添加的R下。
步骤7、返回R。
将决策回归树模型作为一种弱分类器代入到Gradient Boosting框架,就行组成了完整的GBDT算法模型。本发明使用GBDT对处理过后的BGP异常特征再次进行转化,输入训练集进行训练,将模型的叶子节点作为新的特征输出。使用GBDT对BGP异常特征进行特征转换有以下优点:
BGP异常检测分类问题存在着非线性规律,非线性规律的研究往往具有技巧性。例如若将SVM模型拓展包含非线性,则需设计特殊的核函数,核函数的选取作为超参数对最后的结果影响巨大。使用GBDT处理异常检测中的非线性因素,则不需要针对模型本身做修改。
梯度提升算法整个过程,实际上是通过不断构造回归决策树迭代,不断逼近与最优化损失函数的最小值。第一棵回归决策树包含了最主要预测信息,然后以此递减,此模型因此具有很好的可解释性。
在本发明选取采集的BGP异常特征中有一些是连续型特征,这类特征在实际中数值最高可达上万,如宣告/撤回数量、重复宣告、隐式撤回、路径长度等,也有离散型变量,如AS源数量、路径编辑距离,这类特征取值最大不超过50。由于量纲的不同,若采用一般的方法,在训练模型前,需对特征数据进行标准化处理。若使用GBDT对BGP异常进行转化,则不必考虑数据标准化这一过程。
具体的,基于GBDT+LR的BGP异常事件的检测方法,包括:线性回归是一种预测模型,本发明使用基于线性回归的LR逻辑回归(Logistic Regression,LR)模型梳理BGP异常检测分类问题。公式14为线性回归的预测函数:
f(x)=ωTx+b,公式14;
逻辑回归模型对线性模型进行改进,公式15为预测函数为:
这里的g(x)是一种sigmoid函数,sigmoid函数是一个类s形的曲线,它的预测值在区间[0,1]之间,在x大于0的区间快速趋向于1,在x小于0的区间快速趋向于0。对于模型中参数ω和b,统计学中常用的一种方法是最大似然估计,即找到一组参数,使得在这组参数下,最大化训练集数据的似然度(概率)。在逻辑回归模型中,似然度可表示为公式16所示:
L(ω,b)=P(D|θ)=∏g(ωTx+b)y(1-g(ωTx+b))1-y,公式16;
取对数可以得到对数似然度,将ωTx+b记为θTx+b,得到公式17:
l(θ)=∑ylog(θT)+(1-y)log(1-g(θT x)),公式17;
取整个数据集上的平均log损失,可以得到公式18:
在逻辑回归模型中,最大化似然函数和最小化log损失函数实际上是等价的。求J(θ)的最小值同样采用梯度下降法求解。
针对已经经过GBDT转换后的特征,本发明使用LR数据模型进行BGP网络异常事件检测,有如下优点:
GDBT在特征转换过程中已经蕴含了非线性规律,LR数据模型主要处理线性规律,在线性模型中,LR训练计算效率快,在模型训练完成后,在o(1)时间复杂度内就可以对测试集数据进行检测与分类。
LR数据模型具有良好的可解释性。模型可以理解为正例与反例相对可能性比值的对数,参数可以理解为特征的权重。
LR不仅仅是预测测试集类别,而且给出了属于某一类别的概率,BGP网络异常检测问题是一个多分类问题。基于LR二分类给出了概率,对于辅助解决本发明多分类问题具有帮助。
具体的,基于GBDT+FM的BGP异常事件的检测方法,包括:经过GBDT特征转换后的BGP异常特征矩阵如图5所示,特征矩阵按列分成了M个部分对应了GBDT构造个M个决策回归树,最终每个训练样本在每一棵树都只落在一个叶子节点上。特征矩阵被转化为一个高维稀疏矩阵,如图5所示。
隐因子分解(英文全称:Factorization Machines,简称:FM)的主要思想是将模型多项式参数分解成向量乘积,旨在解决稀疏数据下的特征组合以及特征维数较高的问题。一个二项式模型决策函数如公式19所示:
上式将BGP异常特征两两相乘,构造了新的组合特征,新的特征数量为n(n-1)/2个。其中ωij为组合特征系数,组合特征系数两两之间均为独立。然而由于GBDT特征转换,特征数据非常稀疏,直接训练二次项系数ωij很难达到好的检测效果。原因是参数的训练需要大量非零的样本,然而由于转换后放入BGP特征矩阵的稀疏性,对于某些特征满足非零的样本将会非常少。训练样本的不足,很容易导致模型出现过拟合或欠拟合现象,最终严重影响检测的效果。
对于二次项系数ωij的训练问题,FM的解决方法是:将二项式参数矩阵分解成两个矩阵乘积的形式。FM数据模型决策函数为公式20和公式21所示:
二次项的参数由n2数量减少为k*n个(其中k隐向量的长度),远少于原来多项式模型的参数数量。对于单个测试样本,分类时间复杂度为ο(n+kn2),但是通过等式变形可以证明下公式22,将时间复杂度降到ο(n+kn):
FM数据模型将参数因子化使得二项式参数之间不再是相互独立的,所以我们可以在特征矩阵稀疏的情况下相对合理地训练二次项参数。为了使得FM数据模型扩展成可以适应二分类问题,类似于LR逻辑回归的做法,对f(x)取sigmoid映射,使之快速趋向于1或0。
模型求解同样采用梯度下降法,最小化损失函数L(Zi,Z(f(xi);θ)),解得参数θ最优值,模型参数梯度如公式23所示:
Z(y)为sigmoid函数,其中有:
针对于BGP异常检测问题,FM数据模型有以下优点:虽然小范围的BGP异常时有发生,但是总体样本数量还是不够大,本发明采集的样本数量约800,对于这种样本数量不够多的情况,FM相对有较好表现。
经过GBDT特征转换,如果构造了M个决策回归树,那么转换后的特征只有M列为1,其余列为0,而特征数量是原始特征数十倍,形成了一个高维稀疏矩阵,FM的特点之一是能够比较好的拟合高维稀疏矩阵,而不产生过拟合的情况。
S103、根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果;其中,检测结果至少包括路由劫持、路由泄露和无异常中的任一项。
需要说明的是,在实际的应用中需要将样本分类成路由劫持、路由泄露或无异常,对于多分类问题,一般的做法有一对多法(one-versus-rest)或一对一法(one-versus-one)。
一对多法是依次将训练集中每一类别单独作为正例,其余类别作为反例。如果训练集中有k个类别,那么经过一对多法处理后产生了k个训练集,在模型训练时也要对应训练相同数量的模型。样本经过模型分类最后得到k个结果,结果是一个对数概率值,取概率值最大的类别作为最终分类类别。
一对一法是两两组合训练的集中的类别。k个类别的训练集经过一对一法后产生k*(k-1)/2个训练集,最后采用投票法选出最终分类类别。
两种方法各有优缺点,一对多法的优点是更好的利用的逻辑回归模型预测值的实际含义,缺点是训练集划分方式可能导致正例与反例样本数量不均衡。一对一法正反例划分更加合理,对于一些样本可能无法做出判断。例如三分类问题中若A>B,B>C,C>A,此时A、B、C各得一分,一对一法无法做出样本分类判断。同时当类别数量k变大时,一对一法计算开销急剧增大。
对于本发明为k=3的情况,两种方法的需要训练的模型数量是相同的。本发明希望对所有样本都能做出一个明确的分类,同时在类别数量不多的情况下,正反例不均衡的情况尚可容忍,所以使用一对多法处理多分类问题。
可选的,如图2所示根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果,包括:
S1030、当第一对数概率f1大于第二对数概率f2,并且第一对数概率f1大于第三对数概率f3时,确定BGP异常数据的检测结果为路由劫持。
可选的,如图2所示根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果,包括:
S1031、当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露。
需要说明的是,第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3是指,f1≤f2同时f1>f3同时f2>f3。
S1032、当第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露。
需要说明的是,第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3是指,f1>f2同时f1≤f3同时f2>f3。
S1033、当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露。
需要说明的是,第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3是指,f1≤f2同时f1≤f3同时f2>f3。
可选的,如图2所示根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果,包括:
S1034、当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常。
需要说明的是,第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3是指,f1≤f2同时f1>f3同时f2≤f3。
S1035、当第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常。
需要说明的是,第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3是指,f1>f2同时f1≤f3同时f2≤f3。
S1036、当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常。
需要说明的是,第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3是指,f1≤f2同时f1≤f3同时f2≤f3。
由上述方案可知,通过预设异常检测模型中的第一模型或者第二模型对BGP异常数据进行处理后,可以获得正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,进而根据第一对数概率f1、第二对数概率f2以及第三对数概率f3,确定该BGP异常数据的检测结果,从而用户可以该检测结果对BGP网络进行相应的维护保证BGP网络的正常运行;解决了判断引起BGP网络的异常事件的原因的问题。
实施例二、本发明的实施例提供一种BGP异常事件的检测装置10,如图6所示包括:
获取单元101,用于获取BGP异常数据。
处理单元102,用于根据预设异常检测模型以及获取单元101获取的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3。
处理单元102,还用于根据第一对数概率f1、第二对数概率f2和第三对数概率f3的大小关系,确定BGP异常数据的检测结果;其中,检测结果至少包括路由劫持、路由泄露和无异常中的任一项。
可选的,预设异常检测模型包括第一模型,第一模型包括GBDT算法模型和LR算法模型;处理单元102,具体用于根据GBDT算法模型对获取单元101获取的BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;处理单元102,具体用于根据LR算法模型和特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;或者,预设异常检测模型包括第二模型,第二模型包括GBDT算法模型和FM算法模型;处理单元102,具体用于根据GBDT算法模型对获取单元101获取的BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;处理单元102,具体用于根据FM算法模型和特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3。
可选的,处理单元102,具体用于当第一对数概率f1大于第二对数概率f2,并且第一对数概率f1大于第三对数概率f3时,确定BGP异常数据的检测结果为路由劫持。
可选的,处理单元102,具体用于当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露;处理单元102,具体用于当第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露;处理单元102,具体用于当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2大于第三对数概率f3时,确定BGP异常数据的检测结果为路由泄露。
可选的,处理单元102,具体用于当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1大于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常;处理单元102,具体用于当第一对数概率f1大于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常;处理单元102,具体用于当第一对数概率f1小于或等于第二对数概率f2、第一对数概率f1小于或等于第三对数概率f3,并且第二对数概率f2小于或等于第三对数概率f3时,确定BGP异常数据的检测结果为无异常。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
在采用集成的模块的情况下,BGP异常事件的检测装置包括:获取单元、处理单元以及存储单元。处理单元用于对BGP异常事件的检测装置的动作进行控制管理,例如,处理单元用于支持BGP异常事件的检测装置执行图1中的过程S101、S102和S103;获取单元用于支持BGP异常事件的检测装置与其他设备的信息交互。存储单元,用于存储BGP异常事件的检测装置的程序代码和数据。
其中,以处理单元为处理器,存储单元为存储器,获取单元为通信接口为例。其中,BGP异常事件的检测装置参照图7中所示,包括通信接口501、处理器502、存储器503和总线504,通信接口501、处理器502通过总线504与存储器503相连。
处理器502可以是一个通用中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
存储器503可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器503用于存储执行本申请方案的应用程序代码,并由处理器502来控制执行。通讯接口501用于与其他设备进行信息交互,例如与遥控器的信息交互。处理器502用于执行存储器503中存储的应用程序代码,从而实现本申请实施例中所述的方法。
此外,还提供一种计算存储媒体(或介质),包括在被执行时进行上述实施例中的BGP异常事件的检测装置执行的方法操作的指令。另外,还提供一种计算机程序产品,包括上述计算存储媒体(或介质)。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:read-only memory,英文简称:ROM)、随机存取存储器(英文全称:random access memory,英文简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解地,上述提供的任一种BGP异常事件的检测装置用于执行上文所提供的实施例一对应的方法,因此,其所能达到的有益效果可参考上文实施例一的方法以及下文具体实施方式中对应的方案的有益效果,此处不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (6)
1.一种BGP异常事件的检测方法,其特征在于,包括:
获取BGP异常数据;
根据预设异常检测模型以及所述BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;
根据所述第一对数概率f1、所述第二对数概率f2和所述第三对数概率f3的大小关系,确定所述BGP异常数据的检测结果;其中,所述检测结果至少包括路由劫持、路由泄露和无异常中的任一项;
当所述第一对数概率f1大于所述第二对数概率f2,并且所述第一对数概率f1大于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为路由劫持;
当所述第一对数概率f1小于或等于所述第二对数概率f2、所述第一对数概率f1大于所述第三对数概率f3,并且所述第二对数概率f2大于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为路由泄露;
当所述第一对数概率f1大于所述第二对数概率f2、所述第一对数概率f1小于或等于所述第三对数概率f3,并且所述第二对数概率f2大于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为路由泄露;
当所述第一对数概率f1小于或等于所述第二对数概率f2、所述第一对数概率f1小于或等于所述第三对数概率f3,并且所述第二对数概率f2大于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为路由泄露;
当所述第一对数概率f1小于或等于所述第二对数概率f2、所述第一对数概率f1大于所述第三对数概率f3,并且所述第二对数概率f2小于或等于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为无异常;
当所述第一对数概率f1大于所述第二对数概率f2、所述第一对数概率f1小于或等于所述第三对数概率f3,并且所述第二对数概率f2小于或等于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为无异常;
当所述第一对数概率f1小于或等于所述第二对数概率f2、所述第一对数概率f1小于或等于所述第三对数概率f3,并且所述第二对数概率f2小于或等于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为无异常。
2.根据权利要求1所述的BGP异常事件的检测方法,其特征在于,所述预设异常检测模型包括第一模型,所述第一模型包括GBDT算法模型和LR算法模型;
根据预设异常检测模型以及所述BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,包括:
根据GBDT算法模型对所述BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;
根据LR算法模型和所述特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;
或者,
所述预设异常检测模型包括第二模型,所述第二模型包括GBDT算法模型和FM算法模型;
根据预设异常检测模型以及所述BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3,包括:
根据GBDT算法模型对所述BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;
根据FM算法模型和所述特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3。
3.一种BGP异常事件的检测装置,其特征在于,包括:
获取单元,用于获取BGP异常数据;
处理单元,用于根据预设异常检测模型以及所述获取单元获取的所述BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;
所述处理单元,还用于根据所述第一对数概率f1、所述第二对数概率f2和所述第三对数概率f3的大小关系,确定所述BGP异常数据的检测结果;其中,所述检测结果至少包括路由劫持、路由泄露和无异常中的任一项;
所述处理单元,具体用于当所述第一对数概率f1大于所述第二对数概率f2,并且所述第一对数概率f1大于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为路由劫持;
所述处理单元,具体用于当所述第一对数概率f1小于或等于所述第二对数概率f2、所述第一对数概率f1大于所述第三对数概率f3,并且所述第二对数概率f2大于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为路由泄露;
所述处理单元,具体用于当所述第一对数概率f1大于所述第二对数概率f2、所述第一对数概率f1小于或等于所述第三对数概率f3,并且所述第二对数概率f2大于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为路由泄露;
所述处理单元,具体用于当所述第一对数概率f1小于或等于所述第二对数概率f2、所述第一对数概率f1小于或等于所述第三对数概率f3,并且所述第二对数概率f2大于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为路由泄露;
所述处理单元,具体用于当所述第一对数概率f1小于或等于所述第二对数概率f2、所述第一对数概率f1大于所述第三对数概率f3,并且所述第二对数概率f2小于或等于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为无异常;
所述处理单元,具体用于当所述第一对数概率f1大于所述第二对数概率f2、所述第一对数概率f1小于或等于所述第三对数概率f3,并且所述第二对数概率f2小于或等于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为无异常;
所述处理单元,具体用于当所述第一对数概率f1小于或等于所述第二对数概率f2、所述第一对数概率f1小于或等于所述第三对数概率f3,并且所述第二对数概率f2小于或等于所述第三对数概率f3时,确定所述BGP异常数据的检测结果为无异常。
4.根据权利要求3所述的BGP异常事件的检测装置,其特征在于,所述预设异常检测模型包括第一模型,所述第一模型包括GBDT算法模型和LR算法模型;
所述处理单元,具体用于根据GBDT算法模型对所述获取单元获取的所述BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;
所述处理单元,具体用于根据LR算法模型和所述特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3;
或者,
所述预设异常检测模型包括第二模型,所述第二模型包括GBDT算法模型和FM算法模型;
所述处理单元,具体用于根据GBDT算法模型对所述获取单元获取的所述BGP异常数据进行特征转换,得到特征转换后的BGP异常数据;
所述处理单元,具体用于根据FM算法模型和所述特征转换后的BGP异常数据,确定正例为路由劫持的第一对数概率f1、正例为路由泄露的第二对数概率f2以及正例为无异常的第三对数概率f3。
5.一种计算机存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述权利要求1-2任一项所述的BGP异常事件的检测方法。
6.一种BGP异常事件的检测装置,包括:通信接口、处理器、存储器、总线;存储器用于存储计算机执行指令,处理器与存储器通过总线连接,当BGP异常事件的检测装置运行时,处理器执行存储器存储的计算机执行指令,以使BGP异常事件的检测装置执行如上述权利要求1-2任一项所述的BGP异常事件的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811217657.8A CN109040143B (zh) | 2018-10-18 | 2018-10-18 | 一种bgp异常事件的检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811217657.8A CN109040143B (zh) | 2018-10-18 | 2018-10-18 | 一种bgp异常事件的检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109040143A CN109040143A (zh) | 2018-12-18 |
CN109040143B true CN109040143B (zh) | 2020-12-29 |
Family
ID=64613524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811217657.8A Active CN109040143B (zh) | 2018-10-18 | 2018-10-18 | 一种bgp异常事件的检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109040143B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112702221B (zh) * | 2019-10-23 | 2022-12-27 | 中国电信股份有限公司 | Bgp异常路由监测方法和装置 |
CN110969304A (zh) * | 2019-12-04 | 2020-04-07 | 汇鼎数据科技(上海)有限公司 | 数字工厂生产产能预测方法、***、装置 |
CN110995587B (zh) * | 2019-12-10 | 2020-12-25 | 北京邮电大学 | 一种路由不稳定事件源定位方法及装置 |
CN111242441B (zh) * | 2020-01-06 | 2023-06-30 | 上海孚厘科技有限公司 | 一种适用于小微企业风险控制模型的自适应参数拟合方法 |
CN112737885B (zh) * | 2020-12-28 | 2022-05-03 | 鹏城实验室 | 一种自治域内自管理的bgp异常检测方法 |
CN113518034B (zh) * | 2021-05-07 | 2023-08-15 | ***通信集团陕西有限公司 | 路由检测的方法、装置、设备及存储介质 |
CN114884704B (zh) * | 2022-04-21 | 2023-03-10 | 中国科学院信息工程研究所 | 一种基于对合和投票的网络流量异常行为检测方法和*** |
CN115296834B (zh) * | 2022-06-16 | 2024-03-01 | 上海电信工程有限公司 | 一种用于识别边界网关协议劫持的方法和*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7823202B1 (en) * | 2007-03-21 | 2010-10-26 | Narus, Inc. | Method for detecting internet border gateway protocol prefix hijacking attacks |
CN101872418A (zh) * | 2010-05-28 | 2010-10-27 | 电子科技大学 | 基于群体环境异常行为的检测方法 |
CN106656792A (zh) * | 2016-11-30 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种基于sdn架构的bgp路由可信验证方法 |
CN108200034A (zh) * | 2017-12-27 | 2018-06-22 | 新华三信息安全技术有限公司 | 一种识别域名的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9392463B2 (en) * | 2012-12-20 | 2016-07-12 | Tarun Anand | System and method for detecting anomaly in a handheld device |
CN104506482B (zh) * | 2014-10-10 | 2018-09-11 | 香港理工大学 | 网络攻击检测方法及装置 |
-
2018
- 2018-10-18 CN CN201811217657.8A patent/CN109040143B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7823202B1 (en) * | 2007-03-21 | 2010-10-26 | Narus, Inc. | Method for detecting internet border gateway protocol prefix hijacking attacks |
CN101872418A (zh) * | 2010-05-28 | 2010-10-27 | 电子科技大学 | 基于群体环境异常行为的检测方法 |
CN106656792A (zh) * | 2016-11-30 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种基于sdn架构的bgp路由可信验证方法 |
CN108200034A (zh) * | 2017-12-27 | 2018-06-22 | 新华三信息安全技术有限公司 | 一种识别域名的方法及装置 |
Non-Patent Citations (3)
Title |
---|
基于机器学习的异常流量检测***的设计与实现;何珊珊;《中国硕士学位论文全文数据库信息科技辑》;20180315(第3期);全文 * |
李嘉伟.多维自适应Web异常检测***研究与实现.《中国优秀硕士学位论文全文数据库信息科技辑》.2018,(第3期),全文. * |
网络路由异常监测***的设计与实现;孙兆杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20180315(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109040143A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109040143B (zh) | 一种bgp异常事件的检测方法和装置 | |
CN110609759B (zh) | 一种故障根因分析的方法及装置 | |
US8756207B2 (en) | Systems and methods for identifying potential duplicate entries in a database | |
US9633002B1 (en) | Systems and methods for coreference resolution using selective feature activation | |
US8732173B2 (en) | Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program | |
JP2019505912A (ja) | ストリーミングデータのアウトライア検出 | |
Hariharakrishnan et al. | Survey of pre-processing techniques for mining big data | |
JP2007034777A (ja) | データ検索装置及び方法、並びにコンピュータ・プログラム | |
US9009029B1 (en) | Semantic hashing in entity resolution | |
WO2013138441A1 (en) | Systems, methods, and software for computing reachability in large graphs | |
CN112463774B (zh) | 文本数据的去重方法、设备及存储介质 | |
CN112667860A (zh) | 一种子图匹配方法、装置、设备及存储介质 | |
O’Hare et al. | A review of unsupervised and semi-supervised blocking methods for record linkage | |
WO2021021614A1 (en) | Techniques for database entries de-duplication | |
CN112200293A (zh) | 基于cart-amv改进的随机森林算法 | |
Mohammed et al. | Feature reduction based on hybrid efficient weighted gene genetic algorithms with artificial neural network for machine learning problems in the big data | |
US20170220665A1 (en) | Systems and methods for merging electronic data collections | |
WO2016093839A1 (en) | Structuring of semi-structured log messages | |
CN116821053B (zh) | 数据上报方法、装置、计算机设备和存储介质 | |
CN116821133A (zh) | 一种数据处理方法和装置 | |
Ediger et al. | Computational graph analytics for massive streaming data | |
Platero-Rochart et al. | RCDPeaks: memory-efficient density peaks clustering of long molecular dynamics | |
CN114238576A (zh) | 数据匹配方法、装置、计算机设备和存储介质 | |
CN114036345A (zh) | 一种轨迹数据的处理方法、设备及存储介质 | |
Kancharla | Feature selection in big data using filter based techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |