CN110650156B - 网络实体的关系聚类方法、装置及网络事件的识别方法 - Google Patents

网络实体的关系聚类方法、装置及网络事件的识别方法 Download PDF

Info

Publication number
CN110650156B
CN110650156B CN201911012162.6A CN201911012162A CN110650156B CN 110650156 B CN110650156 B CN 110650156B CN 201911012162 A CN201911012162 A CN 201911012162A CN 110650156 B CN110650156 B CN 110650156B
Authority
CN
China
Prior art keywords
entities
node
relationship
similarity
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911012162.6A
Other languages
English (en)
Other versions
CN110650156A (zh
Inventor
鲍青波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN201911012162.6A priority Critical patent/CN110650156B/zh
Publication of CN110650156A publication Critical patent/CN110650156A/zh
Application granted granted Critical
Publication of CN110650156B publication Critical patent/CN110650156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种网络实体的关系聚类方法、装置及网络事件的识别方法,该关系聚类方法包括:抽取安全事件数据中的所有实体;抽取安全事件数据中任意两个实体之间的关系;基于实体和实体之间的关系,确定具有关系的任意两个实体之间的相似度;基于所有具有关系的任意两个实体之间的相似度,对实体和实体之间的关系进行聚类。本发明通过对各种安全事件数据进行实体抽取和关系抽取,基于实体之间的相似程度,通过分布式的聚类方式,实现了大规模安全数据集下实体和实体之间的关系快速且准确的识别聚类。

Description

网络实体的关系聚类方法、装置及网络事件的识别方法
技术领域
本发明涉及网络安全领域,特别涉及一种网络实体的关系聚类方法、装置及网络事件的识别方法。
背景技术
当前国内外网络安全形势复杂,各种攻防黑客技术层出不穷,为应对复杂多样的网络攻击,网络溯源成为当前维护网络安全的主要研究方向,也一直是网络安全行业备受关注的热点问题,而其中针对攻击者的溯源分析是要解决的关键问题。
通常意义上的攻击者是一个黑客或其所属组织团伙,往往定位一个真实的攻击者是非常困难的,因为其攻击流经的路径非常复杂,使用到多种恶意IP、域名、肉鸡、木马病毒样本等攻击资源,且具有团伙化、组织化分工的特点,要定位攻击者首先要确定攻击者的关联特征,找到一个可具象化分析研究的对象集合。
在具体表现形式上可以将攻击者定义为一系列攻击资源的聚合,现有技术中对攻击资源进行聚类的方法,主要为快速贪婪模块性最大化算法或谱聚类算法,但快速贪婪模块性最大化算法需要反复迭代技术模块性的变化,计算量巨大,难以在短时间内实现最佳的聚类效果;谱聚类算法实用性和准确度较差,难以在在网络安全攻击者聚类中进行广泛应用。
发明内容
本发明实施例的目的在于提供一种网络实体的关系聚类方法、装置及网络事件的识别方法,以解决现有技术中的聚类方法聚类效果不佳、聚类效率、适用性以及准确性差的问题。
为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种网络实体的关系聚类方法,包括:抽取安全事件数据中的所有实体;抽取所述安全事件数据中任意两个所述实体之间的关系;基于所述实体和所述实体之间的关系,确定具有所述关系的任意两个实体之间的相似度;基于所有所述具有所述关系的任意两个实体之间的相似度,对所述实体和所述实体之间的关系进行聚类。
进一步,所述任意两个所述实体之间的关系至少包括以下一种:攻击关系、域名解析与IP反解析关系、共现关系、相似度匹配关系。
进一步,所述基于所述实体和所述实体之间的关系,确定具有所述关系的任意两个实体之间的相似度,包括:构建实体的关系拓扑图,其中,所述实体作为所述关系拓扑图中的节点,所述实体之间的关系作为所述关系拓扑图中所述实体对应的节点之间的边;根据所述关系对应的预设权重值,确定具有所述关系的任意两个实体之间的相似度。
进一步,所述根据所述关系对应的预设权重值,确定具有所述关系的任意两个实体之间的相似度,包括:分别确定第一节点和第二节点的邻居节点,其中,所述第一节点和所述第二节点为具有所述关系的任意两个实体;确定所述第一节点的邻居节点和所述第二节点的邻居节点之间的交集;根据如下公式确定所述第一节点和所述第二节点之间的相似度:
Figure BDA0002244520640000021
E(V)=∑V,Vi∈L(V)WVVi (2)
其中,V1代表第一节点,V2代表第二节点,S(V1,V2)代表所述第一节点和所述第二节点之间的相似度,E(V)代表任意节点与其所有邻居节点之间的预设权重值之和,W代表预设权重值,L(V)代表节点V的所有邻居节点的集合,Vi为节点V的任意一个邻居节点。
进一步,所述基于所有所述具有所述关系的任意两个实体之间的相似度,对所述实体和所述实体之间的关系进行聚类,包括:检测所述具有所述关系的任意两个实体之间的相似度是否大于或等于预设阈值;在所述相似度小于所述预设阈值的情况下,从所述关系拓扑图中删除所述相似度小于所述预设阈值的两个实体之间的边;删除所有所述相似度小于所述预设阈值的两个实体之间的边后,得到至少一个连通分量,确定所述每个连通分量为所述实体和所述实体之间的关系的聚类结果。
本发明实施例还公开了一种网络实体的关系聚类装置,包括:实体抽取模块,用于抽取安全事件数据中的所有实体;关系抽取模块,用于抽取所述安全事件数据中任意两个所述实体之间的关系;计算模块,用于基于所述实体和所述实体之间的关系,确定具有所述关系的任意两个实体之间的相似度;聚类模块,用于基于所有所述具有所述关系的任意两个实体之间的相似度,对所述实体和所述实体之间的关系进行聚类。
进一步,所述计算模块,具体用于:构建实体的关系拓扑图,其中,所述实体作为所述关系拓扑图中的节点,所述实体之间的关系作为所述关系拓扑图中所述实体对应的节点之间的边;根据所述关系对应的预设权重值,确定具有所述关系的任意两个实体之间的相似度。
进一步,所述计算模块,具体用于:分别确定第一节点和第二节点的邻居节点,其中,所述第一节点和所述第二节点为具有所述关系的任意两个实体;确定所述第一节点的邻居节点和所述第二节点的邻居节点之间的交集;根据如下公式确定所述第一节点和所述第二节点之间的相似度:
Figure BDA0002244520640000031
E(V)=∑V,Vi∈L(V)WVVi (2)
其中,V1代表第一节点,V2代表第二节点,S(V1,V2)代表所述第一节点和所述第二节点之间的相似度,E(V)代表任意节点与其所有邻居节点之间的预设权重值之和,W代表预设权重值,L(V)代表节点V的所有邻居节点的集合,Vi为节点V的任意一个邻居节点。
进一步,所述聚类模块,具体用于:检测所述具有所述关系的任意两个实体之间的相似度是否大于或等于预设阈值;在所述相似度小于所述预设阈值的情况下,从所述关系拓扑图中删除所述相似度小于所述预设阈值的两个实体之间的边;删除所有所述相似度小于所述预设阈值的两个实体之间的边后,得到至少一个连通分量,确定所述每个连通分量为所述实体和所述实体之间的关系的聚类结果。
本发明实施例还公开了一种网络事件的识别方法,基于上述的关系聚类方法,对网络事件进行识别,获取:对于所述网络事件的识别结果,和/或,对于所述网络事件的网络实体的识别结果。
本发明实施例的有益效果在于:通过对各种安全事件数据进行实体抽取和关系抽取,基于实体之间的相似程度,通过分布式的聚类方式,实现了大规模安全数据集下实体和实体之间的关系快速且准确的识别聚类。
附图说明
图1为本发明第一实施例的网络实体的关系聚类方法的流程图;
图2为本发明第一实施例的关系拓扑示意图;
图3为本发明第一实施例的连通分量示意图;
图4为本发明第二实施例的网络实体的关系聚类装置的结构示意图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本发明的第一实施例提供了一种网络实体的关系聚类方法,适用于大规模网络安全环境下,对各类安全事件数据进行分析识别,其流程图如图1所示,主要包括步骤S101至S104:
S101,抽取安全事件数据中的所有实体。
安全事件数据为包括以下各类安全事件所对应的数据:钓鱼事件、远控木马、恶意软件、漏洞利用、网站后门、分布式拒绝服务攻击数据(DDOS,Distributed denial ofservice attack)等,通过字段匹配等方式,从上述各类安全事件数据中抽取出互联网协议地址(IP,Internet Protocol)、域名、统一资源定位符(URL,Uniform Resource Locator)、注册名、邮箱地址、样本哈希(hash)等实体。
S102,抽取安全事件数据中任意两个实体之间的关系。
在上述安全事件数据以及已经抽取出的实体的基础上,结合域名查询协议(whois)数据、威胁情报数据、域名解析数据等其他安全事件数据,从中抽取出任意两个实体之间可能存在的攻击关系、域名解析与IP反解析关系、共现关系、相似度匹配关系等具体关系。
具体地,抽取实体间关系的方式及其对应可抽取的关系类型主要分为以下几种:静态抽取,即对静态关系进行抽取,例如通过whois信息,将域名对应的邮箱地址和/或注册名进行抽取;动态抽取,即对随时间动态变化的关系进行抽取,如攻击源IP与被攻击IP的攻击关系、域名与IP的解析与反解析关系、IP与域名的访问关系、肉鸡控制关系、同C段IP关系、域名与所链接的样本、邮箱地址登录的IP地址、邮件发件人与收件人(即不同邮箱地址)之间的发送/接收关系、域名与邮件服务器邮件交换(MX,Mail Exchanger)记录、域名及其子域名的关系等;深度分析抽取,即需要经过深度分析挖掘的关系,如共现关系,即利用DDOS攻击肉鸡的伴随关系对控制端IP是否同时发起过攻击的关系抽取,还有通过模型匹配将注册邮箱和注册名通过相似度连接产生的关系等。
S103,基于实体和实体之间的关系,确定具有关系的任意两个实体之间的相似度。
S104,基于所有具有关系的任意两个实体之间的相似度,对实体和实体之间的关系进行聚类。
由于对各类安全事件数据进行实体和关系抽取后,当前存在大量的实体以及实体间关系需要进行聚类,以从庞大的数据中将归属于同一攻击者或攻击团伙所关联的攻击资源进行聚合。对于同一攻击者或攻击团伙来说,其攻击手段虽然种类繁多,但其攻击目标可能一致,或在攻击目标较多的情况下,反复使用同一种攻击手段进行攻击,因此本实施例中主要通过确定具有关系的两个实体之间的相似度来判定当前两个实体之间是否可能归属于同一攻击者,并根据抽取的所有具有关系的两个实体之间的相似程度,即可对实体和实体之间的关系进行识别区分,以实现对同一攻击者或攻击团伙的所有攻击数据进行聚合。
本实施例通过对各种安全事件数据进行实体抽取和关系抽取,基于实体之间的相似程度,通过分布式的聚类方式,实现了大规模安全数据集下实体和实体之间的关系快速且准确的识别聚类。
具体地,本实施例中可以基于抽取的实体及关系,为每类关系基于其重要程度设置不同的预设权重值,预设权重值反应了各类关系间的相对重要程度,通常设置为1至100以内的任意数值,数值越大则反应此类关系越重要,在后续进行相似度计算时可以得到更高的相似度。在实际运用时,关系的预设权重值可以根据实际业务效果进行调整,具体的调整程度以当前各类关系的重要程度为准。
在确定具有关系的任意两个实体之间的相似度时,首先构建实体的关系拓扑图,将所有抽取出的实体作为关系拓扑图的节点(也可称作顶点),所有有关系的实体之间进行连线,作为节点之间的边,并根据关系的具体指向,为节点之间的边赋予方向,即关系拓扑图为一个有向图。图2示出了一个关系拓扑图的示意,每个圆圈代表一个实体,圆圈之间的连线对应实体之间的关系,不同类型的关系可以使用不同类型的线表示。应当注意的是,两个实体之间的关系可能存在多种,在构建关系拓扑图时,根据实体之间存在的关系数量对应构建相同数量的边即可。
基于关系拓扑图和各个关系对应的预设权重值,对应确定具有关系的任意两个实体之间的相似度。在关系拓扑图中,若节点A与节点B之间存在一条边,且该条边的方向为由节点A指向节点B,则节点B为节点A的邻居节点,但节点A无法称作节点B的邻居节点。在本实施例中,若第一节点V1和第二节点V2具有关系,则在确定第一节点和第二节点之间的相似度时,首先分别确定第一节点的邻居节点和第二节点的邻居节点,再根据第一节点的邻居节点和第二节点的邻居节点,确定第一节点的邻居节点和第二节点的邻居节点之间的交集(V1∩V2),再计算其所有邻居节点与V1或V2构成关系的所有权重和,基于如下公式计算第一节点V1和第二节点V2之间的相似度:
Figure BDA0002244520640000071
E(V)=∑V,Vi∈L(V)WVVi (2)
其中,V1代表第一节点,V2代表第二节点,S(V1,V2)代表第一节点和第二节点之间的相似度,E(V)代表任意节点与其所有邻居节点之间的预设权重值之和,W代表预设权重值,L(V)代表节点V的所有邻居节点的集合,这里的V可以为V1或V2,Vi为节点V的任意一个邻居节点。
应当了解的是,第一节点和第二节点指代的是关系拓扑图中任意一对具有关系的节点,在实际进行相似度计算时,应当遍历计算出关系拓扑图中所有具有关系的两个实体间的相似度,并基于所有具有关系的两个实体间的相似度,对关系拓扑图进行裁剪。具体地,在对关系拓扑图进行裁剪时,本实施例通过预先设置的阈值作为实体与关系是否归属于同一攻击者的判断依据,即检测具有关系的任意两个实体之间的相似度是否大于或等于预设阈值,若相似度大于或等于预设阈值,则证明实体间较为相似,可能为同一攻击者针对同一攻击目标所执行的不同攻击手段,或使用同一攻击手段攻击的不用攻击目标;若相似度小于预设阈值,则证明实体间关联性较差,此时删除相似度小于预设阈值的两个实体之间的边,认为二者之间不归属同一攻击者,不需要将二者进行聚类;遍历计算并删除所有所述相似度小于所述预设阈值的两个实体之间的边后,即可得到至少一个连通分量,如图3所示,每个连通分量(每个虚线框内为一个连通分量)均为关系拓扑图的一个子图,其中任意连个节点之间都有直接或间接的关系连接,并且与其他连通分量不存在关系连接,每个连通分量即为一个聚类,可以认为该连通分量中所出现的实体和关系即为同一个攻击者的攻击数据,将所有连通分量进行输出即可得出网络实体的关系聚类结果。
在实际使用时,可以通过Spark graphX图计算的分布式算法对关系拓扑图进行分布式的关系裁剪,具体过程如下:
(1)在Map阶段,对于一个节点V,形成以输出节点V及其邻居节点分别形成的节点对为key,以节点V的邻居节点为Value的键值对;
(2)在Reduce阶段,通过公式(1)和公式(2),计算同一个key的两个节点的相似度,其中Value取在Map阶段传递的邻居节点;
(3)利用Spark GraphX图过滤算法将相似度低于设定预设阈值的节点对之间的边进行去除,达到裁剪的目的。
(4)将关系裁剪后得到所有连通分量进行输出即最终的攻击者全关联识别结果。
本实施例通过分布式算法,实现了适用于大规模安全数据集下的关系聚类方法,并基于对每类抽取出的关系设置不同的权重值,衡量了不同安全业务属性的重要程度,使两安全实体间相似度计算效果得到提升,从而提高了攻击者全关联识别的效果。
本发明的第二实施例提供了一种网络实体的关系聚类装置,其结构示意图如图4所示,主要包括依次耦合的如下模块:实体抽取模块10,用于抽取安全事件数据中的所有实体;关系抽取模块20,用于抽取安全事件数据中任意两个实体之间的关系;计算模块30,用于基于实体和实体之间的关系,确定具有关系的任意两个实体之间的相似度;聚类模块40,用于基于所有具有关系的任意两个实体之间的相似度,对实体和实体之间的关系进行聚类。
安全事件数据为包括以下各类安全事件所对应的数据:钓鱼事件、远控木马、恶意软件、漏洞利用、网站后门、分布式拒绝服务攻击数据(DDOS,Distributed denial ofservice attack)等,实体抽取模块10通过字段匹配等方式,从上述各类安全事件数据中抽取出IP地址、域名、URL、注册名、邮箱地址、样本hash等实体。
在上述安全事件数据以及已经抽取出的实体的基础上,关系抽取模块20结合域名查询协议(whois)数据、威胁情报数据、域名解析数据等其他安全事件数据,从中抽取出任意两个实体之间可能存在的攻击关系、域名解析与IP反解析关系、共现关系、相似度匹配关系等具体关系。
具体地,关系抽取模块20抽取实体间关系的方式及其对应可抽取的关系类型主要分为以下几种:静态抽取,即对静态关系进行抽取,例如通过whois信息,将域名对应的邮箱地址和/或注册名进行抽取;动态抽取,即对随时间动态变化的关系进行抽取,如攻击源IP与被攻击IP的攻击关系、域名与IP的解析与反解析关系、IP与域名的访问关系、肉鸡控制关系、同C段IP关系、域名与所链接的样本、邮箱地址登录的IP地址、邮件发件人与收件人(即不同邮箱地址)之间的发送/接收关系、域名与邮件服务器邮件交换(MX,Mail Exchanger)记录、域名及其子域名的关系等;深度分析抽取,即需要经过深度分析挖掘的关系,如共现关系,即利用DDOS攻击肉鸡的伴随关系对控制端IP是否同时发起过攻击的关系抽取,还有通过模型匹配将注册邮箱和注册名通过相似度连接产生的关系等。
由于对各类安全事件数据进行实体和关系抽取后,当前存在大量的实体以及实体间关系需要进行聚类,以从庞大的数据中将归属于同一攻击者或攻击团伙所关联的攻击资源进行聚合。对于同一攻击者或攻击团伙来说,其攻击手段虽然种类繁多,但其攻击目标可能一致,或在攻击目标较多的情况下,反复使用同一种攻击手段进行攻击,因此本实施例中聚类模块40主要通过确定具有关系的两个实体之间的相似度来判定当前两个实体之间是否可能归属于同一攻击者,并根据计算模块30确定的所有具有关系的两个实体之间的相似程度,即可对实体和实体之间的关系进行识别区分,以实现对同一攻击者或攻击团伙的所有攻击数据进行聚合。
本实施例通过对各种安全事件数据进行实体抽取和关系抽取,基于实体之间的相似程度,通过分布式的聚类方式,实现了大规模安全数据集下实体和实体之间的关系快速且准确的识别聚类。
具体地,本实施例中可以基于抽取的实体及关系,为每类关系基于其重要程度设置不同的预设权重值,预设权重值反应了各类关系间的相对重要程度,通常设置为1至100以内的任意数值,数值越大则反应此类关系越重要,在后续进行相似度计算时可以得到更高的相似度。在实际运用时,关系的预设权重值可以根据实际业务效果进行调整,具体的调整程度以当前各类关系的重要程度为准。
在计算模块30确定具有关系的任意两个实体之间的相似度时,首先构建实体的关系拓扑图,将所有抽取出的实体作为关系拓扑图的节点(也可称作顶点),所有有关系的实体之间进行连线,作为节点之间的边,并根据关系的具体指向,为节点之间的边赋予方向,即关系拓扑图为一个有向图。应当注意的是,两个实体之间的关系可能存在多种,在构建关系拓扑图时,根据实体之间存在的关系数量对应构建相同数量的边即可。
计算模块30基于关系拓扑图和各个关系对应的预设权重值,对应确定具有关系的任意两个实体之间的相似度。在关系拓扑图中,若节点A与节点B之间存在一条边,且该条边的方向为由节点A指向节点B,则节点B为节点A的邻居节点,但节点A无法称作节点B的邻居节点。在本实施例中,若第一节点V1和第二节点V2具有关系,则在计算模块30确定第一节点和第二节点之间的相似度时,首先分别确定第一节点的邻居节点和第二节点的邻居节点,再根据第一节点的邻居节点和第二节点的邻居节点,确定第一节点的邻居节点和第二节点的邻居节点之间的交集(V1∩V2),再计算其所有邻居节点与V1或V2构成关系的所有权重和,基于如下公式计算第一节点V1和第二节点V2之间的相似度:
Figure BDA0002244520640000101
E(V)=∑V,Vi∈L(V)WVVi (2)
其中,V1代表第一节点,V2代表第二节点,S(V1,V2)代表第一节点和第二节点之间的相似度,E(V)代表任意节点与其所有邻居节点之间的预设权重值之和,W代表预设权重值,L(V)代表节点V的所有邻居节点的集合,这里的V可以为V1或V2,Vi为节点V的任意一个邻居节点。
应当了解的是,第一节点和第二节点指代的是关系拓扑图中任意一对具有关系的节点,在实际进行相似度计算时,应当遍历计算出关系拓扑图中所有具有关系的两个实体间的相似度,并基于所有具有关系的两个实体间的相似度,对关系拓扑图进行裁剪。具体地,在聚类模块40对关系拓扑图进行裁剪聚类时,通过预先设置的阈值作为实体与关系是否归属于同一攻击者的判断依据,即聚类模块40检测具有关系的任意两个实体之间的相似度是否大于或等于预设阈值,若相似度大于或等于预设阈值,则证明实体间较为相似,可能为同一攻击者针对同一攻击目标所执行的不同攻击手段,或使用同一攻击手段攻击的不用攻击目标;若相似度小于预设阈值,则证明实体间关联性较差,此时聚类模块40删除相似度小于预设阈值的两个实体之间的边,认为二者之间不归属同一攻击者,不需要将二者进行聚类;遍历计算并删除所有所述相似度小于所述预设阈值的两个实体之间的边后,即可得到至少一个连通分量,每个连通分量均为关系拓扑图的一个子图,其中任意连个节点之间都有直接或间接的关系连接,并且与其他连通分量不存在关系连接,每个连通分量即为一个聚类,可以认为该连通分量中所出现的实体和关系即为同一个攻击者的攻击数据,将所有连通分量进行输出即可得出网络实体的关系聚类结果。
本实施例通过分布式算法,实现了适用于大规模安全数据集下的关系聚类方法,并基于对每类抽取出的关系设置不同的权重值,衡量了不同安全业务属性的重要程度,使两安全实体间相似度计算效果得到提升,从而提高了攻击者全关联识别的效果。
本发明的第三实施例提供了一种网络事件的识别方法,其基于本发明第一实施例中所提供的网络实体的关系聚类方法,用于对网络事件进行识别,以获取对于网络事件的识别结果,和/或,对于网络事件的网络实体的识别结果。具体地,网络事件优选为第一实施例中的安全事件,网络事件的网络实体可以对应为第一实施例中的任意一种实体,对网络事件的识别结果,或网络事件的网络实体的识别结果,可以以安全等级或事件类别等方式进行呈现,基于对网络实体的关系进行的聚类后得到的聚类结果,明确了同一攻击者的所有攻击数据和攻击手段,在出现相同或相似事件时,可对应实现快速的攻击识别,并通过安全等级或事件类别的形式表征当前网络事件的严重程度,以提示用户进行相应等级的安全防护或安全处理,进一步提升网络安全。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (6)

1.一种网络实体的关系聚类方法,其特征在于,包括:
抽取安全事件数据中的所有实体;
抽取所述安全事件数据中任意两个所述实体之间的关系;
基于所述实体和所述实体之间的关系,确定具有所述关系的任意两个实体之间的相似度;
基于所有所述具有所述关系的任意两个实体之间的相似度,对所述实体和所述实体之间的关系进行聚类;
其中,所述基于所述实体和所述实体之间的关系,确定具有所述关系的任意两个实体之间的相似度,包括:
构建实体的关系拓扑图,其中,所述实体作为所述关系拓扑图中的节点,所述实体之间的关系作为所述关系拓扑图中所述实体对应的节点之间的边;
分别确定第一节点和第二节点的邻居节点,其中,所述第一节点和所述第二节点为具有所述关系的任意两个实体;
确定所述第一节点的邻居节点和所述第二节点的邻居节点之间的交集;
根据如下公式确定所述第一节点和所述第二节点之间的相似度:
Figure FDA0003312406840000011
E(V)=∑V,Vi∈L(V)WVVi (2)
其中,V1代表第一节点,V2代表第二节点,S(V1,V2)代表所述第一节点和所述第二节点之间的相似度,E(V)代表任意节点与其所有邻居节点之间的预设权重值之和,W代表预设权重值,L(V)代表节点V的所有邻居节点的集合,Vi为节点V的任意一个邻居节点。
2.根据权利要求1所述的关系聚类方法,其特征在于,所述任意两个所述实体之间的关系至少包括以下一种:攻击关系、域名解析与IP反解析关系、共现关系、相似度匹配关系。
3.根据权利要求1所述的关系聚类方法,其特征在于,所述基于所有所述具有所述关系的任意两个实体之间的相似度,对所述实体和所述实体之间的关系进行聚类,包括:
检测所述具有所述关系的任意两个实体之间的相似度是否大于或等于预设阈值;
在所述相似度小于所述预设阈值的情况下,从所述关系拓扑图中删除所述相似度小于所述预设阈值的两个实体之间的边;
删除所有所述相似度小于所述预设阈值的两个实体之间的边后,得到至少一个连通分量,确定所述每个连通分量为所述实体和所述实体之间的关系的聚类结果。
4.一种网络实体的关系聚类装置,其特征在于,包括:
实体抽取模块,用于抽取安全事件数据中的所有实体;
关系抽取模块,用于抽取所述安全事件数据中任意两个所述实体之间的关系;
计算模块,用于基于所述实体和所述实体之间的关系,确定具有所述关系的任意两个实体之间的相似度;
聚类模块,用于基于所有所述具有所述关系的任意两个实体之间的相似度,对所述实体和所述实体之间的关系进行聚类;
其中,所述计算模块,具体用于:
构建实体的关系拓扑图,其中,所述实体作为所述关系拓扑图中的节点,所述实体之间的关系作为所述关系拓扑图中所述实体对应的节点之间的边;
分别确定第一节点和第二节点的邻居节点,其中,所述第一节点和所述第二节点为具有所述关系的任意两个实体;
确定所述第一节点的邻居节点和所述第二节点的邻居节点之间的交集;
根据如下公式确定所述第一节点和所述第二节点之间的相似度:
Figure FDA0003312406840000021
E(V)=∑V,Vi∈L(V)WVVi (2)
其中,V1代表第一节点,V2代表第二节点,S(V1,V2)代表所述第一节点和所述第二节点之间的相似度,E(V)代表任意节点与其所有邻居节点之间的预设权重值之和,W代表预设权重值,L(V)代表节点V的所有邻居节点的集合,Vi为节点V的任意一个邻居节点。
5.根据权利要求4所述的关系聚类装置,其特征在于,所述聚类模块,具体用于:
检测所述具有所述关系的任意两个实体之间的相似度是否大于或等于预设阈值;
在所述相似度小于所述预设阈值的情况下,从所述关系拓扑图中删除所述相似度小于所述预设阈值的两个实体之间的边;
删除所有所述相似度小于所述预设阈值的两个实体之间的边后,得到至少一个连通分量,确定所述每个连通分量为所述实体和所述实体之间的关系的聚类结果。
6.一种网络事件的识别方法,基于根据权利要求1至3中任一项所述的关系聚类方法,对网络事件进行识别,获取:
对于所述网络事件的识别结果,和/或
对于所述网络事件的网络实体的识别结果。
CN201911012162.6A 2019-10-23 2019-10-23 网络实体的关系聚类方法、装置及网络事件的识别方法 Active CN110650156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911012162.6A CN110650156B (zh) 2019-10-23 2019-10-23 网络实体的关系聚类方法、装置及网络事件的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911012162.6A CN110650156B (zh) 2019-10-23 2019-10-23 网络实体的关系聚类方法、装置及网络事件的识别方法

Publications (2)

Publication Number Publication Date
CN110650156A CN110650156A (zh) 2020-01-03
CN110650156B true CN110650156B (zh) 2021-12-31

Family

ID=69013311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911012162.6A Active CN110650156B (zh) 2019-10-23 2019-10-23 网络实体的关系聚类方法、装置及网络事件的识别方法

Country Status (1)

Country Link
CN (1) CN110650156B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563374B (zh) * 2020-03-23 2022-08-19 北京交通大学 一种基于司法裁判文书的人员社交关系抽取方法
CN111563133A (zh) * 2020-05-06 2020-08-21 支付宝(杭州)信息技术有限公司 一种基于实体关系进行数据融合的方法及***
CN114268954B (zh) * 2020-09-25 2023-10-27 ***通信集团河南有限公司 一种物联网设备的安全监测方法、装置、设备及存储介质
CN113162904B (zh) * 2021-02-08 2022-11-08 国网重庆市电力公司电力科学研究院 一种基于概率图模型的电力监控***网络安全告警评估方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761305A (zh) * 2014-01-22 2014-04-30 北京交通大学长三角研究院 一种适合大数据环境具有抗噪声能力的实体解析方法
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN106600430A (zh) * 2016-11-10 2017-04-26 南京财经大学 一种社区网络检测方法及装置
CN108173884A (zh) * 2018-03-20 2018-06-15 国家计算机网络与信息安全管理中心 基于网络攻击伴随行为的DDoS攻击群体分析方法
CN108471382A (zh) * 2018-01-29 2018-08-31 浙江工业大学 一种基于节点度值的复杂网络聚类算法攻击方法
CN109617885A (zh) * 2018-12-20 2019-04-12 北京神州绿盟信息安全科技股份有限公司 攻陷主机自动判定方法、装置、电子设备及存储介质
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9411955B2 (en) * 2012-08-09 2016-08-09 Qualcomm Incorporated Server-side malware detection and classification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN103761305A (zh) * 2014-01-22 2014-04-30 北京交通大学长三角研究院 一种适合大数据环境具有抗噪声能力的实体解析方法
CN106600430A (zh) * 2016-11-10 2017-04-26 南京财经大学 一种社区网络检测方法及装置
CN108471382A (zh) * 2018-01-29 2018-08-31 浙江工业大学 一种基于节点度值的复杂网络聚类算法攻击方法
CN108173884A (zh) * 2018-03-20 2018-06-15 国家计算机网络与信息安全管理中心 基于网络攻击伴随行为的DDoS攻击群体分析方法
CN109617885A (zh) * 2018-12-20 2019-04-12 北京神州绿盟信息安全科技股份有限公司 攻陷主机自动判定方法、装置、电子设备及存储介质
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及***

Also Published As

Publication number Publication date
CN110650156A (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN110650156B (zh) 网络实体的关系聚类方法、装置及网络事件的识别方法
CN112738015B (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
Perdisci et al. Early detection of malicious flux networks via large-scale passive DNS traffic analysis
US8260914B1 (en) Detecting DNS fast-flux anomalies
Yu et al. Modeling malicious activities in cyber space
US20180069883A1 (en) Detection of Known and Unknown Malicious Domains
WO2020133986A1 (zh) 僵尸网络域名家族的检测方法、装置、设备及存储介质
US20140325596A1 (en) Authentication of ip source addresses
CN102685145A (zh) 一种基于dns数据包的僵尸网络域名发现方法
Zhang et al. BotDigger: Detecting DGA Bots in a Single Network.
CN110830490B (zh) 基于带对抗训练深度网络的恶意域名检测方法及***
De Silva et al. Compromised or {Attacker-Owned}: A large scale classification and study of hosting domains of malicious {URLs}
Celik et al. Detection of Fast-Flux Networks using various DNS feature sets
Fraunholz et al. YAAS-On the Attribution of Honeypot Data.
Takeuchi et al. Detection of the DNS water torture attack by analyzing features of the subdomain name
Lei et al. Detecting malicious domains with behavioral modeling and graph embedding
CN110493253B (zh) 一种基于树莓派设计的家用路由器的僵尸网络分析方法
Khade et al. Detection of phishing websites using data mining techniques
Stevanovic et al. Detecting bots using multi-level traffic analysis.
CN110650157B (zh) 基于集成学习的Fast-flux域名检测方法
KR20120092286A (ko) 도메인 이름 서비스 질의 데이터를 이용한 봇넷 탐지 방법 및 시스템
Chen et al. Doctrina: annotated bipartite graph mining for malware-control domain detection
Nie et al. Intrusion detection using a graphical fingerprint model
Hananto et al. Detecting network security threats using domain name system and NetFlow traffic
Bai et al. Defense against DNS man-in-the-middle spoofing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant