CN113691525A - 一种流量数据处理方法、装置、设备及存储介质 - Google Patents

一种流量数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113691525A
CN113691525A CN202110967208.0A CN202110967208A CN113691525A CN 113691525 A CN113691525 A CN 113691525A CN 202110967208 A CN202110967208 A CN 202110967208A CN 113691525 A CN113691525 A CN 113691525A
Authority
CN
China
Prior art keywords
threat
data
target
intelligence data
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110967208.0A
Other languages
English (en)
Inventor
杭家囡
范渊
黄进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202110967208.0A priority Critical patent/CN113691525A/zh
Publication of CN113691525A publication Critical patent/CN113691525A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种流量数据处理方法、装置、设备及存储介质;在本方案中,需要训练生成威胁概率表,该威胁概率表中记载了每个威胁特征分别在非威胁情报数据及威胁情报数据中的条件概率值;并且,本方案在对待分析的目标流量数据进行处理时,会从目标流量数据中识别目标威胁特征,并结合威胁概率表及贝叶斯分类算法,计算出目标流量数据为威胁流量数据的概率值;若概率值大于第一威胁阈值,则判定目标流量数据为威胁流量数据。可见,本方案在对流量数据的处理时,可通过将目标流量数据中的目标威胁特征与贝叶斯分类算法、威胁概率表相结合的方式,快速准确的对威胁流量数据进行识别,提高流量的安全性。

Description

一种流量数据处理方法、装置、设备及存储介质
技术领域
本发明涉及网络安全技术领域,更具体地说,涉及一种流量数据处理方法、装置、设备及存储介质。
背景技术
随着我国信息技术的不断进步,计算机信息领域涉及的犯罪越来越多,对国家和个人的影响也越来越大。实时、快速地对威胁流量进行识别,并获取攻击源已成为一个关键点。然而,大量的威胁情报数据很难在短时间内找到攻击源。在传统方案中,需要通过人工经验筛选,如:根据以往的经验进行全网接入和本地操作筛选,浪费了大量的人力物力,无法应对复杂混乱的攻击手段。
发明内容
本发明的目的在于提供一种流量数据处理方法、装置、设备及存储介质,以实现快速、准确的对威胁流量数据进行识别。
为实现上述目的,本发明提供一种流量数据处理方法,包括:
获取待分析的目标流量数据;
从所述目标流量数据中识别目标威胁特征;
根据所述目标威胁特征、威胁概率表及贝叶斯分类算法,计算所述目标流量数据为威胁流量数据的概率值;所述威胁概率表中记载了每个威胁特征分别在非威胁情报数据及威胁情报数据中的条件概率值;
若所述概率值大于第一威胁阈值,则判定所述目标流量数据为威胁流量数据。
其中,所述流量数据处理方法还包括:
从路由器及网关中收集非威胁情报数据及威胁情报数据;
提取所述非威胁情报数据及威胁情报数据的威胁特征;
利用每个威胁特征分别在所述非威胁情报数据及所述威胁情报数据的出现次数,训练生成所述威胁概率表。
其中,所述利用每个威胁特征分别在所述非威胁情报数据及所述威胁情报数据的出现次数,训练生成所述威胁概率表,包括:
利用每个威胁特征分别在所述非威胁情报数据及所述威胁情报数据的出现次数,生成非威胁情报数据哈希表及威胁情报数据哈希表;
根据所述非威胁情报数据哈希表,计算每个威胁特征在所述非威胁情报数据的出现次数,与所有威胁特征在所述非威胁情报数据的总出现次数的比值,作为每个威胁特征在非威胁情报数据中的条件概率值,并根据每个威胁特征在非威胁情报数据的条件概率值生成非威胁情报数据的威胁概率表;
根据所述威胁情报数据哈希表,计算每个威胁特征在所述威胁情报数据的出现次数,与所有威胁特征在所述威胁情报数据的总出现次数的比值,作为每个威胁特征在威胁情报数据中的条件概率值,并根据每个威胁特征在威胁情报数据中的条件概率值生成威胁情报数据的威胁概率表。
其中,所述提取所述非威胁情报数据及威胁情报数据的威胁特征,包括:
从所述非威胁情报数据及威胁情报数据中提取:访问接口信息、主机受访资产信息、端口信息和访问操作信息中的至少一者作为威胁特征。
其中,所述流量数据处理方法还包括:
若所述概率值不大于第一威胁阈值,则判断所述概率值是否大于第二威胁阈值;所述第二威胁阈值小于所述第一威胁阈值;
若是,则判定所述目标流量数据为可疑流量数据,并存储所述可疑流量数据,以便定期通过人工方式识别存储的可疑流量数据是否为威胁流量数据;
若否,则判定所述目标流量数据为安全流量数据。
其中,判定所述目标流量数据为威胁流量数据之后,还包括:
从每个目标威胁特征的威胁概率值中,查找威胁概率值最大的威胁特征作为最终概率特征;其中,每个目标威胁特征的威胁概率值为:每个目标威胁特征的在威胁情报数据中的条件概率值,与所有目标威胁特征在威胁情报数据中的条件概率值之和的比值;
根据所述最终概率特征确定所述目标流量数据的攻击方式及攻击源。
其中,所述根据所述最终概率特征确定所述目标流量数据的攻击方式及攻击源之后,还包括:
生成与所述目标流量数据的告警信息;其中,所述告警信息中包括所述目标流量数据的攻击方式及攻击源。
为实现上述目的,本发明提供一种流量数据处理装置,包括:
获取模块,用于获取待分析的目标流量数据;
识别模块,用于从所述目标流量数据中识别目标威胁特征;
计算模块,用于根据所述目标威胁特征、威胁概率表及贝叶斯分类算法,计算所述目标流量数据为威胁流量数据的概率值;所述威胁概率表中记载了每个威胁特征分别在非威胁情报数据及威胁情报数据中的条件概率值;
第一判定模块,用于在所述概率值大于第一威胁阈值时,则判定所述目标流量数据为威胁流量数据。
为实现上述目的,本发明提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述流量数据处理方法的步骤。
为实现上述目的,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述流量数据处理方法的步骤。
通过以上方案可知,本发明实施例提供的一种流量数据处理方法、装置、设备及存储介质;在本方案中,需要训练生成威胁概率表,该威胁概率表中记载了每个威胁特征分别在非威胁情报数据及威胁情报数据中的条件概率值;并且,本方案在对待分析的目标流量数据进行处理时,会从目标流量数据中识别目标威胁特征,并结合威胁概率表及贝叶斯分类算法,计算目标流量数据为威胁流量数据的概率值;若概率值大于第一威胁阈值,则判定目标流量数据为威胁流量数据。可见,本方案在对流量数据的处理时,可通过将目标流量数据中的目标威胁特征与贝叶斯分类算法、威胁概率表相结合的方式,快速准确的对威胁流量数据进行识别,提高流量的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种流量数据处理方法流程示意图;
图2为本发明实施例公开的一种流量数据处理装置结构示意图;
图3为本发明实施例公开的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种流量数据处理方法、装置、设备及存储介质,以利用先进的计算机信息安全技术进行实时、快速、准确的对威胁流量数据进行识别。
参见图1,本发明实施例提供的一种流量数据处理方法流程示意图,包括:
S101、获取待分析的目标流量数据;
具体来说,本实施例在对流量数据进行处理时,可实时对新获取的流量数据进行处理,从而提高威胁流量数据的识别速度。
S102、从目标流量数据中识别目标威胁特征;
在本实施例中,目标威胁特征可以为访问接口信息、主机受访资产信息、端口信息和访问操作信息等等中的至少一者,在此并不进行限定,只要获取的特征能够用来进行威胁流量的分析即可。
S103、根据目标威胁特征、威胁概率表及贝叶斯分类算法,计算目标流量数据为威胁流量数据的概率值;该威胁概率表中记载了每个威胁特征分别在非威胁情报数据及威胁情报数据中的条件概率值;
需要说明的是,在本实施例中,威胁概率表为经过训练生成的,该威胁概率表中记载了每个威胁特征分别在非威胁情报数据及威胁情报数据中的条件概率值,在本实施例中,威胁概率表的生成过程具体包括:从路由器及网关中收集非威胁情报数据及威胁情报数据;提取非威胁情报数据及威胁情报数据的威胁特征;利用每个威胁特征分别在非威胁情报数据及威胁情报数据的出现次数,训练生成威胁概率表。
具体来说,本方案从路由器及网关中收集非威胁情报数据及威胁情报数据时,具体是通过部署在路由器及网关的硬探针和软探针收集数据,这些探测器可以获取实时流量信息,如接口变化、主机资产变化、端口访问和访问信息等等,然后对收集的数据进行筛选,从而生成非威胁情报数据及威胁情报数据。然后提取并统计非威胁情报数据及威胁情报数据中的威胁特征,如:访问接口信息、主机受访资产信息、端口信息和访问操作信息中的至少一者作为威胁特征,这样即可利用每个威胁特征分别在非威胁情报数据及威胁情报数据的出现次数,生成非威胁情报数据哈希表及威胁情报数据哈希表。
进一步,本方案还需要根据非威胁情报数据哈希表,计算每个威胁特征在非威胁情报数据的出现次数,与威胁特征在非威胁情报数据的总出现次数的比值,作为每个威胁特征在非威胁情报数据中的条件概率值,并根据每个威胁特征在非威胁情报数据的条件概率值生成非威胁情报数据的威胁概率表;根据威胁情报数据哈希表,计算每个威胁特征在威胁情报数据的出现次数,与所有威胁特征在威胁情报数据的总出现次数的比值,作为每个威胁特征在威胁情报数据中的条件概率值,并根据每个威胁特征在威胁情报数据中的条件概率值生成威胁情报数据的威胁概率表。
在本实施例中,对于威胁特征A来说,其在非威胁情报数据的威胁概率表中的条件概率值为G(A),其在威胁情报数据的威胁概率表中的条件概率值为N(A),G(A)及N(A)的数值为该威胁特征A在总体威胁/非威胁数据中出现的概率。参见表1,为非威胁情报数据的威胁概率表,参见表2,为威胁情报数据的威胁概率表:
表1
Figure BDA0003224365700000051
Figure BDA0003224365700000061
表2
威胁特征 特征类型 条件概率
Post 访问类型 0.71
80 访问端口 0.43
text/html;charset=utf-8 流量数据类型 0.67
mysql_select_db Sql攻击常用语句 0.94
………… ………… …………
需要说明的是,贝叶斯分类公式是根据朴素贝叶斯算法转化而来的一种分类模型,朴素贝叶斯算法如下:设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1,x2,…,xn},假定有m个类,分别用C1,C2,…,Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是P(Ci|X)>P(Cj|X)1≤j≤m,j≠i。根据贝叶斯定理,由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样先验概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以从训练数据集求得。根据此方法,对一个未知类别的样本X,可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci),然后选择其中概率最大的类别作为其类别。朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高,否则可能较低。另外,该算法没有分类规则输出。
在本实施例中,用来计算概率值的贝叶斯分类算法为:
Figure BDA0003224365700000071
其中,A1,A2,A3...An均为目标威胁特征,n为目标威胁特征的总数量,p(T|A1,A2,A3...An)表示目标流量数据中含有A1,A2,A3...An时,目标流量数据为威胁流量数据的概率值;p(A1,A2,A3...An|T)为威胁情报数据中含有特征A1至An的概率,p(T)为威胁情报数据在整体数据中的占比,p(A1,A2,A3...An)为含有威胁特征A1,A2,A3...An的概率。通过贝叶斯分类算法、目标威胁特征、威胁概率表得出概率值的过程为:
Figure BDA0003224365700000072
其中,
Figure BDA0003224365700000073
N(A1)、N(A2)......N(An)为目标威胁特征A1,A2,A3...An在非威胁情报数据的威胁概率表中的条件概率值,G(A1)、G(A2)......G(An)为目标威胁特征A1,A2,A3...An在威胁情报数据的威胁概率表中的条件概率值。
p(A1|T)、p(A2|T)、......p(An|T)可表示为p(A|T),为目标威胁特征A的威胁概率值,如:目标威胁特征A1的威胁概率值为p(A1|T),目标威胁特征A2的威胁概率值为p(A2|T),以此类推。
在本实施例中,p(A|T)的计算方式为:
Figure BDA0003224365700000081
也就是说,每个目标威胁特征的威胁概率值为:每个目标威胁特征的在威胁情报数据中的条件概率值,与所有目标威胁特征在威胁情报数据中的条件概率值之和的比值,如:
Figure BDA0003224365700000082
其中,p(A1)、p(A2)、......p(An)可表示为p(A),即:含有威胁特征A的概率,其计算方式为:
Figure BDA0003224365700000083
含有威胁特征A的概率为:
Figure BDA0003224365700000084
因此,在本实施例中,确定目标威胁特征后,即可从威胁概率表中查找相关条件概率值,然后通过贝叶斯分类算法即可计算出目标流量数据为威胁流量数据的概率值。
S104、判断概率值是否大于第一威胁阈值;
若是,则执行S105;若否,则执行S106;
S105、判定目标流量数据为威胁流量数据;
S106、判断概率值是否大于第二威胁阈值;其中,第二威胁阈值小于第一威胁阈值;若是,则执行S107;若否,则执行S108;
S107、判定目标流量数据为可疑流量数据,并存储可疑流量数据,以便定期通过人工方式识别存储的可疑流量数据是否为威胁流量数据;
S108、判定目标流量数据为安全流量数据。
在本实施例中,通过计算p(T|A1,A2,A3...An)即可得出当前的目标流量数据为威胁流量数据的概率。在本实施例中,第一威胁阈值和第二威胁阈值可根据实际情况进行自定义设定。在本实施例中,可将第一威胁阈值设定为83%,将第二威胁阈值设定为52%,因此,在本实施例中,若计算出的概率值大于83%,则判定为威胁流量数据,此时需要立即进行拦截;若计算出的概率值大于52%且小于83%,则判定为可疑流量数据,此时并不需要拦截该可疑流量数据,但是需要存储该可疑流量数据,以便定期通过人工方式识别存储的可疑流量数据是否为威胁流量数据,并作为新的非威胁情报数据/威胁情报数据对威胁概率表进行训练更新;若计算出的概率值小于52%,则直接判定为安全流量数据,流量并不需要拦截。
需要说明的是,在本实施例中,可通过不断投入新的非威胁情报数据及威胁情报数据来重新训练。获取到新的非威胁情报数据及威胁情报数据后,需要将数据投入模型训练,重新生成非威胁情报数据及威胁情报数据的威胁概率表。并且,在本实施例中,判定目标流量数据为威胁流量数据之后,还可以从每个目标威胁特征的威胁概率值中,查找威胁概率值最大的威胁特征作为最终概率特征;根据最终概率特征确定目标流量数据的攻击方式及攻击源。其中,每个目标威胁特征的威胁概率值p(A|T)为:每个目标威胁特征的在威胁情报数据中的条件概率值,与所有目标威胁特征在威胁情报数据中的条件概率值之和的比值,如:目标威胁特征A1的威胁概率值为p(A1|T),目标威胁特征A2的威胁概率值为p(A2|T),以此类推。并且,本方案确定威胁概率值最大的最终概率特征后,可根据威胁概率表中记载的最终概率特征的特征类型,确定目标流量数据的攻击方式,并根据目标流量数据中的IP(Internet Protocol,网际互连协议)地址识别出攻击源。
进一步,在本实施例中,根据最终概率特征确定目标流量数据的攻击方式及攻击源之后,还可以生成与目标流量数据的告警信息;其中,告警信息中包括所述目标流量数据的攻击方式及攻击源。通过该方式,可以让管理人员及时获取威胁流量数据,并了解其攻击方式及攻击源。
综上可以看出,在本方案中,提出了一种基于贝叶斯分类算法的威胁情报感知方法,通过硬探测和软探测技术,获取非威胁情报数据及威胁情报数据,并基于存在的威胁特征(访问端口行为、访问路径、攻击频率等)生成威胁概率表,当流量数据访问时,通过贝叶斯分类公式及威胁概率表判断是否为威胁流量。并且,本方案中的威胁概率表还能实时扩充新的威胁特征,重新训练,得出新的威胁概率表,并通过威胁概率表上概率分析出威胁情报的攻击方式,甚至是攻击来源。本方案通过贝叶斯分类算法,还可在面对复杂或者带有混淆攻击手段的威胁情报时,提升侦测能力。
下面对本发明实施例提供的处理装置、设备及存储介质进行介绍,下文描述的处理装置、设备及存储介质与上文描述的处理方法可以相互参照。
参见图2,本发明实施例提供的一种流量数据处理装置结构示意图,包括:
获取模块11,用于获取待分析的目标流量数据;
识别模块12,用于从所述目标流量数据中识别目标威胁特征;
计算模块13,用于根据所述目标威胁特征、威胁概率表及贝叶斯分类算法,计算所述目标流量数据为威胁流量数据的概率值;所述威胁概率表中记载了每个威胁特征分别在非威胁情报数据及威胁情报数据中的条件概率值;
第一判定模块14,用于在所述概率值大于第一威胁阈值时,则判定所述目标流量数据为威胁流量数据。
其中,所述装置还包括:
收集模块,用于从路由器及网关中收集非威胁情报数据及威胁情报数据;
提取模块,用于提取所述非威胁情报数据及威胁情报数据的威胁特征;
训练模块,用于利用每个威胁特征分别在所述非威胁情报数据及所述威胁情报数据的出现次数,训练生成所述威胁概率表。
其中,所述训练模块包括:
第一生成单元,用于利用每个威胁特征分别在所述非威胁情报数据及所述威胁情报数据的出现次数,生成非威胁情报数据哈希表及威胁情报数据哈希表;
第二生成单元,用于根据所述非威胁情报数据哈希表,计算每个威胁特征在所述非威胁情报数据的出现次数,与所有威胁特征在所述非威胁情报数据的总出现次数的比值,作为每个威胁特征在非威胁情报数据中的条件概率值,并根据每个威胁特征在非威胁情报数据的条件概率值生成非威胁情报数据的威胁概率表;
第三生成单元,用于根据所述威胁情报数据哈希表,计算每个威胁特征在所述威胁情报数据的出现次数,与所有威胁特征在所述威胁情报数据的总出现次数的比值,作为每个威胁特征在威胁情报数据中的条件概率值,并根据每个威胁特征在威胁情报数据中的条件概率值生成威胁情报数据的威胁概率表。
其中,所述提取模块具体用于:从所述非威胁情报数据及威胁情报数据中提取:访问接口信息、主机受访资产信息、端口信息和访问操作信息中的至少一者作为威胁特征。
其中,所述装置还包括:
判断模块,用于在所述概率值不大于第一威胁阈值时,判断所述概率值是否大于第二威胁阈值;所述第二威胁阈值小于所述第一威胁阈值;
第二判定模块,用于在所述概率值大于第二威胁阈值时,判定所述目标流量数据为可疑流量数据,并存储所述可疑流量数据,以便定期通过人工方式识别存储的可疑流量数据是否为威胁流量数据;
第三判定模块,用于在所述概率值不大于第二威胁阈值时,判定所述目标流量数据为安全流量数据。
其中,所述装置还包括:
查找模块,用于从每个目标威胁特征的威胁概率值中,查找威胁概率值最大的威胁特征作为最终概率特征;其中,每个目标威胁特征的威胁概率值为:每个目标威胁特征的在威胁情报数据中的条件概率值,与所有目标威胁特征在威胁情报数据中的条件概率值之和的比值;
确定模块,用于根据所述最终概率特征确定所述目标流量数据的攻击方式及攻击源。
其中,所述装置还包括:
生成模块,用于生成与所述目标流量数据的告警信息;其中,所述告警信息中包括所述目标流量数据的攻击方式及攻击源。
参见图3,本发明实施例还公开了一种电子设备结构示意图,包括:
存储器21,用于存储计算机程序;
处理器22,用于执行所述计算机程序时实现上述方法实施例所述的流量数据处理方法的步骤。
在本实施例中,设备可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。
该设备可以包括存储器21、处理器22和总线23。
其中,存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器21在一些实施例中可以是设备的内部存储单元,例如该设备的硬盘。存储器21在另一些实施例中也可以是设备的外部存储设备,例如设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器21还可以既包括设备的内部存储单元也包括外部存储设备。存储器21不仅可以用于存储安装于设备的应用软件及各类数据,例如执行处理方法的程序代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器22在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器21中存储的程序代码或处理数据,例如执行处理方法的程序代码等。
该总线23可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口24,网络接口24可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备与其他电子设备之间建立通信连接。
可选地,该设备还可以包括用户接口25,用户接口25可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口25还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在设备中处理的信息以及用于显示可视化的用户界面。
图3仅示出了具有组件21-25的设备,本领域技术人员可以理解的是,图3示出的结构并不构成对设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法实施例所述的流量数据处理方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
综上可以看出,本方案可在拥有获取流量数据设备平台的基础上,提取出告警数据的关键词,如访问端口行为、访问路径、攻击频率等。然后通过贝叶斯分类算法的概率统计知识,训练出威胁智能感知数据模型,如:本方案训练生成的威胁概率表,在接收到新流量数据后,即可通过数据模型检测流量是否为威胁流量,并确定攻击源的位置,该方法打破了传统的人工干预寻找攻击源的方法,可通过模型自动找出主要攻击手段和攻击源。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种流量数据处理方法,其特征在于,包括:
获取待分析的目标流量数据;
从所述目标流量数据中识别目标威胁特征;
根据所述目标威胁特征、威胁概率表及贝叶斯分类算法,计算所述目标流量数据为威胁流量数据的概率值;所述威胁概率表中记载了每个威胁特征分别在非威胁情报数据及威胁情报数据中的条件概率值;
若所述概率值大于第一威胁阈值,则判定所述目标流量数据为威胁流量数据。
2.根据权利要求1所述的流量数据处理方法,其特征在于,还包括:
从路由器及网关中收集非威胁情报数据及威胁情报数据;
提取所述非威胁情报数据及威胁情报数据的威胁特征;
利用每个威胁特征分别在所述非威胁情报数据及所述威胁情报数据的出现次数,训练生成所述威胁概率表。
3.根据权利要求2所述的流量数据处理方法,其特征在于,所述利用每个威胁特征分别在所述非威胁情报数据及所述威胁情报数据的出现次数,训练生成所述威胁概率表,包括:
利用每个威胁特征分别在所述非威胁情报数据及所述威胁情报数据的出现次数,生成非威胁情报数据哈希表及威胁情报数据哈希表;
根据所述非威胁情报数据哈希表,计算每个威胁特征在所述非威胁情报数据的出现次数,与所有威胁特征在所述非威胁情报数据的总出现次数的比值,作为每个威胁特征在非威胁情报数据中的条件概率值,并根据每个威胁特征在非威胁情报数据的条件概率值生成非威胁情报数据的威胁概率表;
根据所述威胁情报数据哈希表,计算每个威胁特征在所述威胁情报数据的出现次数,与所有威胁特征在所述威胁情报数据的总出现次数的比值,作为每个威胁特征在威胁情报数据中的条件概率值,并根据每个威胁特征在威胁情报数据中的条件概率值生成威胁情报数据的威胁概率表。
4.根据权利要求2所述的流量数据处理方法,其特征在于,所述提取所述非威胁情报数据及威胁情报数据的威胁特征,包括:
从所述非威胁情报数据及威胁情报数据中提取:访问接口信息、主机受访资产信息、端口信息和访问操作信息中的至少一者作为威胁特征。
5.根据权利要求1所述的流量数据处理方法,其特征在于,还包括:
若所述概率值不大于第一威胁阈值,则判断所述概率值是否大于第二威胁阈值;所述第二威胁阈值小于所述第一威胁阈值;
若是,则判定所述目标流量数据为可疑流量数据,并存储所述可疑流量数据,以便定期通过人工方式识别存储的可疑流量数据是否为威胁流量数据;
若否,则判定所述目标流量数据为安全流量数据。
6.根据权利要求1至5中任意一项所述的流量数据处理方法,其特征在于,判定所述目标流量数据为威胁流量数据之后,还包括:
从每个目标威胁特征的威胁概率值中,查找威胁概率值最大的威胁特征作为最终概率特征;其中,每个目标威胁特征的威胁概率值为:每个目标威胁特征的在威胁情报数据中的条件概率值,与所有目标威胁特征在威胁情报数据中的条件概率值之和的比值;
根据所述最终概率特征确定所述目标流量数据的攻击方式及攻击源。
7.根据权利要求6所述的流量数据处理方法,其特征在于,所述根据所述最终概率特征确定所述目标流量数据的攻击方式及攻击源之后,还包括:
生成与所述目标流量数据的告警信息;其中,所述告警信息中包括所述目标流量数据的攻击方式及攻击源。
8.一种流量数据处理装置,其特征在于,包括:
获取模块,用于获取待分析的目标流量数据;
识别模块,用于从所述目标流量数据中识别目标威胁特征;
计算模块,用于根据所述目标威胁特征、威胁概率表及贝叶斯分类算法,计算所述目标流量数据为威胁流量数据的概率值;所述威胁概率表中记载了每个威胁特征分别在非威胁情报数据及威胁情报数据中的条件概率值;
第一判定模块,用于在所述概率值大于第一威胁阈值时,则判定所述目标流量数据为威胁流量数据。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的流量数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的流量数据处理方法的步骤。
CN202110967208.0A 2021-08-23 2021-08-23 一种流量数据处理方法、装置、设备及存储介质 Withdrawn CN113691525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110967208.0A CN113691525A (zh) 2021-08-23 2021-08-23 一种流量数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110967208.0A CN113691525A (zh) 2021-08-23 2021-08-23 一种流量数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113691525A true CN113691525A (zh) 2021-11-23

Family

ID=78581437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110967208.0A Withdrawn CN113691525A (zh) 2021-08-23 2021-08-23 一种流量数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113691525A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218992A (zh) * 2021-12-29 2022-03-22 重庆紫光华山智安科技有限公司 异常对象的检测方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102957579A (zh) * 2012-09-29 2013-03-06 北京邮电大学 一种网络异常流量监测方法及装置
CN111125694A (zh) * 2019-12-20 2020-05-08 杭州安恒信息技术股份有限公司 基于蚁群算法的威胁情报分析方法及***
WO2021017614A1 (zh) * 2019-07-31 2021-02-04 平安科技(深圳)有限公司 威胁情报数据采集处理方法、***、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102957579A (zh) * 2012-09-29 2013-03-06 北京邮电大学 一种网络异常流量监测方法及装置
WO2021017614A1 (zh) * 2019-07-31 2021-02-04 平安科技(深圳)有限公司 威胁情报数据采集处理方法、***、装置及存储介质
CN111125694A (zh) * 2019-12-20 2020-05-08 杭州安恒信息技术股份有限公司 基于蚁群算法的威胁情报分析方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴凡: "基于机器学习的异常数据流量分类", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218992A (zh) * 2021-12-29 2022-03-22 重庆紫光华山智安科技有限公司 异常对象的检测方法及相关装置
CN114218992B (zh) * 2021-12-29 2023-09-08 重庆紫光华山智安科技有限公司 异常对象的检测方法及相关装置

Similar Documents

Publication Publication Date Title
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN107992746B (zh) 恶意行为挖掘方法及装置
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN110163647B (zh) 一种数据处理方法及装置
CN111818198B (zh) 域名检测方法、域名检测装置和设备以及介质
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
CN109165529B (zh) 一种暗链篡改检测方法、装置和计算机可读存储介质
CN111813960B (zh) 基于知识图谱的数据安全审计模型装置、方法及终端设备
CN111581956B (zh) 基于bert模型和k近邻的敏感信息识别方法及***
CN112765003B (zh) 一种基于app行为日志的风险预测方法
WO2019196259A1 (zh) 一种虚假消息的识别方法及其设备
CN112492606B (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN111400448A (zh) 对象的关联关系分析方法及装置
CN114692593B (zh) 一种网络信息安全监测预警方法
CN112883730A (zh) 相似文本匹配方法、装置、电子设备及存储介质
WO2023035362A1 (zh) 用于模型训练的污染样本数据的检测方法及装置
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN110019763B (zh) 文本过滤方法、***、设备及计算机可读存储介质
CN113691525A (zh) 一种流量数据处理方法、装置、设备及存储介质
CN110674288A (zh) 一种应用于网络安全领域的用户画像方法
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211123