CN111224941B - 一种威胁类型识别方法及装置 - Google Patents
一种威胁类型识别方法及装置 Download PDFInfo
- Publication number
- CN111224941B CN111224941B CN201911136708.9A CN201911136708A CN111224941B CN 111224941 B CN111224941 B CN 111224941B CN 201911136708 A CN201911136708 A CN 201911136708A CN 111224941 B CN111224941 B CN 111224941B
- Authority
- CN
- China
- Prior art keywords
- domain name
- matrix
- identified
- threat
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例提供了一种威胁类型识别方法及装置,涉及网络安全技术领域,可以确定未知威胁类型的域名的威胁类型。本发明实施例的方案包括:构建待识别矩阵,待识别矩阵包括属性矩阵和关系矩阵,属性矩阵包括待识别域名的属性信息以及已知威胁类型的目标域名的属性信息,关系矩阵包括待识别域名与目标域名的相似度。然后将待识别矩阵输入威胁类型识别模型,获取威胁类型识别模型输出的待识别域名属于各威胁类型的概率,并将概率最大的威胁类型作为待识别域名的威胁类型,威胁类型识别模型用于根据待识别域名的属性信息、目标域名的属性信息以及待识别域名与目标域名之间的相似度,确定待识别域名属于各威胁类型的概率。
Description
技术领域
本发明涉及网络安全技术领域,特别是涉及一种威胁类型识别方法及装置。
背景技术
网络攻击者通常利用大量的网络基础设施来进行网络攻击,网络攻击一般涉及域名和互联网协议(InternetProtocol,IP)地址。例如,攻击者可以采用各种传播手段,将互联网上大量的主机感染僵尸程序病毒,被感染的主机通过控制信道接收攻击者的指令,从而窃取其他设备的隐私数据、向其他设备发送垃圾邮件等。这些被感染僵尸程序病毒的主机组成的网络称为僵尸网络。
为了应对复杂多变的网络攻击,越来越多的组织开始利用开放的网络共享网络威胁情报。网络威胁情报描述了现存的网络威胁,且描述了面对网络威胁可以采取的应对手段。
但是目前网络中仍存在未知威胁类型的域名的威胁,因此确定未知威胁类型的域名的威胁类型十分重要。
发明内容
本发明实施例的目的在于提供一种威胁类型识别方法及装置,以确定未知威胁类型的域名的威胁类型。具体技术方案如下:
第一方面,本发明实施例提供了一种威胁类型识别方法,所述方法包括:
构建待识别矩阵,所述待识别矩阵包括属性矩阵和关系矩阵,所述属性矩阵包括待识别域名的属性信息以及已知威胁类型的目标域名的属性信息,所述关系矩阵包括所述待识别域名与所述目标域名的相似度,所述待识别域名与所述目标域名之间的相似度基于所述待识别域名与所述目标域名之间的关联关系确定,所述关联关系包括所述待识别域名和所述目标域名与同一个元素或同一个元素图存在关联关系的间接关系,所述元素图中包括的各元素之间存在关联关系,所述元素包括互联网协议IP地址、邮箱地址和/或恶意软件哈希值;
将所述待识别矩阵输入威胁类型识别模型;
获取所述威胁类型识别模型输出的所述待识别域名属于各威胁类型的概率,并将概率最大的威胁类型作为所述待识别域名的威胁类型,所述威胁类型识别模型用于根据所述待识别域名的属性信息、所述目标域名的属性信息以及所述待识别域名与所述目标域名之间的相似度,确定所述待识别域名属于各威胁类型的概率。
可选的,所述威胁类型识别模型通过以下步骤训练获得:
获取样本矩阵以及样本矩阵对应的多个样本域名的实际威胁类型,所述样本矩阵包括由多个样本域名的属性信息构成的属性矩阵以及用于表示所述多个样本域名中每两个样本域名之间的相似度的关系矩阵;
将所述样本矩阵输入神经网络模型,并获取神经网络模型识别的所述多个样本域名属于各威胁类型的概率;
根据神经网络模型识别的所述多个样本域名属于各威胁类型的概率和所述多个样本域名的实际威胁类型,计算损失函数值;
根据所述损失函数值,判断神经网络模型是否收敛;若神经网络模型收敛,则获得所述威胁类型识别模型;若神经网络模型未收敛,则根据所述损失函数值,调整神经网络模型的模型参数,并进行下一次训练。
可选的,所述多个样本域名中每两个样本域名之间的相似度,通过以下公式获得:
其中,Φk为第k种元路径或元图,Φk={Φk|k=1,2,…,n},n为元路径和元图的种类总数,为两个域名在Φk下的路径数量,βk为Φk的权重,并满足βk>0且MIS(vi,vj)为第i个域名与第j个域名之间的相似度。
可选的,神经网络模型通过以下公式识别每个样本域名属于各威胁类型的概率:
其中,Z为该样本域名属于各威胁类型的概率,X为所述属性矩阵,B为所述关系矩阵,表示对xi进行归一化应用在矩阵的行,ReLU(·)=max(0,·),IN为单位矩阵,W(0)和W(1)为神经网络模型的权重。
可选的,所述损失函数值通过以下公式计算:
其中,H为损失函数值,N′为存在对应的威胁类型的域名的数量,K为威胁类型的数量,lk(vi)用于表示第i个节点vi是否属于威胁类型k,Zk(vi)用于表示神经网络模型预测的第i个节点vi属于威胁类型k的概率。
可选的,所述元素还包括域名;在所述构建待识别矩阵之前,所述方法还包括:
从第一数据源中获取不同种类的节点之间的关联关系,并构建威胁情报异质图,所述威胁情报异质图中的每个节点对应一个元素,每个节点所属的种类为该节点对应的元素的种类;
所述构建待识别矩阵,包括:
获取所述待识别域名的属性信息以及所述目标域名的属性信息,并构建所述属性矩阵;
根据所述威胁情报异质图,确定所述待识别域名与所述目标域名的相似度;
根据所述待识别域名与所述目标域名的相似度,构建所述关系矩阵。
可选的,所述构建威胁情报异质图,包括:
从第二数据源中获取同一类型的节点之间的关联关系,并基于不同种类的节点之间的关联关系以及同一类型的节点之间的关联关系,构建威胁情报异质图。
第二方面,本发明实施例提供了一种威胁类型识别装置,所述装置包括:
构建模块,用于构建待识别矩阵,所述待识别矩阵包括属性矩阵和关系矩阵,所述属性矩阵包括待识别域名的属性信息以及已知威胁类型的目标域名的属性信息,所述关系矩阵包括所述待识别域名与所述目标域名的相似度,所述待识别域名与所述目标域名之间的相似度基于所述待识别域名与所述目标域名之间的关联关系确定,所述关联关系包括所述待识别域名和所述目标域名与同一个元素或同一个元素图存在关联关系的间接关系,所述元素图中包括的各元素之间存在关联关系,所述元素包括互联网协议IP地址、邮箱地址和/或恶意软件哈希值;
输入模块,用于将所述构建模块构建的所述待识别矩阵输入威胁类型识别模型;
获取模块,用于获取所述威胁类型识别模型输出的所述待识别域名属于各威胁类型的概率,并将概率最大的威胁类型作为所述待识别域名的威胁类型,所述威胁类型识别模型用于根据所述待识别域名的属性信息、所述目标域名的属性信息以及所述待识别域名与目标域名之间的相似度,确定所述待识别域名属于各威胁类型的概率。
可选的,所述装置还包括训练模块,所述训练模块用于:
获取样本矩阵以及样本矩阵对应的多个样本域名的实际威胁类型,所述样本矩阵包括由多个样本域名的属性信息构成的属性矩阵以及用于表示所述多个样本域名中每两个样本域名之间的相似度的关系矩阵;
将所述样本矩阵输入神经网络模型,并获取神经网络模型识别的所述多个样本域名属于各威胁类型的概率;
根据神经网络模型识别的所述多个样本域名属于各威胁类型的概率和所述多个样本域名的实际威胁类型,计算损失函数值;
根据所述损失函数值,判断神经网络模型是否收敛;若神经网络模型收敛,则获得所述威胁类型识别模型;若神经网络模型未收敛,则根据所述损失函数值,调整神经网络模型的模型参数,并进行下一次训练。
可选的,所述多个样本域名中每两个样本域名之间的相似度,通过以下公式获得:
可选的,神经网络模型通过以下公式识别每个样本域名属于各威胁类型的概率:
其中,Z为该样本域名属于各威胁类型的概率,X为所述属性矩阵,B为所述关系矩阵,表示对xi进行归一化应用在矩阵的行,ReLU(·)=max(0,·),IN为单位矩阵,W(0)和W(1)为神经网络模型的权重。
可选的,所述损失函数值通过以下公式计算:
其中,H为损失函数值,N′为存在对应的威胁类型的域名的数量,K为威胁类型的数量,lk(vi)用于表示第i个节点vi是否属于威胁类型k,Zk(vi)用于表示神经网络模型预测的第i个节点vi属于威胁类型k的概率。
可选的,所述元素还包括域名;所述构建模块,还用于在所述构建待识别矩阵之前,从第一数据源中获取不同种类的节点之间的关联关系,并构建威胁情报异质图,所述威胁情报异质图中的每个节点对应一个元素,每个节点所属的种类为该节点对应的元素的种类;
所述构建模块,具体用于:
获取所述待识别域名的属性信息以及所述目标域名的属性信息,并构建所述属性矩阵;
根据所述威胁情报异质图,确定所述待识别域名与所述目标域名的相似度;
根据所述待识别域名与所述目标域名的相似度,构建所述关系矩阵。
可选的,所述构建模块,具体用于:
从第二数据源中获取同一类型的节点之间的关联关系,并基于不同种类的节点之间的关联关系以及同一类型的节点之间的关联关系,构建威胁情报异质图。
第三方面,本发明实施例提供了一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一威胁类型识别方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一威胁类型识别方法的步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一威胁类型识别方法。
本发明实施例至少包括如下有益效果:由于本发明实施例中的威胁类别识别模型可以基于待识别域名的属性信息、目标域名的属性信息以及待识别域名与目标域名的关联关系,确定待识别域名的威胁类型,其中待识别域名与目标域名的关联关系包括待识别域名与目标域名与同一个元素或同一个元素图存在关联关系的间接关系。所以本发明实施例实现了通过待识别域名和目标域名之间的间接关系,即通过提取待识别域名和目标域名之间的高阶语义,确定待识别域名的威胁类型。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种威胁类型识别方法的流程图;
图2为本发明实施例提供的一种威胁情报异质图示例性示意图;
图3为本发明实施例提供的多种元路径/元图的示例性示意图;
图4为本发明实施例提供的一种威胁类型的层次关系示例性示意图;
图5为本发明实施例提供的一种威胁类型识别装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例了一种威胁类型识别方法,可以应用于电子设备,电子设备可以是手机、计算机、平板电脑等设备,该方法包括如下步骤:
步骤101,构建待识别矩阵。
其中,待识别矩阵包括属性矩阵和关系矩阵,属性矩阵包括待识别域名的属性信息以及已知威胁类型的各目标域名的属性信息,关系矩阵包括待识别域名与各目标域名的相似度,待识别域名与目标域名之间的相似度基于待识别域名与目标域名之间的关联关系确定,关联关系包括待识别域名和目标域名与同一个元素或同一个元素图存在关联关系的间接关系,元素图中包括的各元素之间存在关联关系,元素包括互联网协议(InternetProtocol,IP)地址、邮箱地址和/或恶意软件哈希值。
步骤102,将待识别矩阵输入威胁类型识别模型。
步骤103,获取威胁类型识别模型输出的待识别域名属于各威胁类型的概率,并将概率最大的威胁类型作为待识别域名的威胁类型。
其中,威胁类型识别模型用于根据待识别域名的属性信息、目标域名的属性信息以及待识别域名与目标域名之间的相似度,确定待识别域名属于各威胁类型的概率。
本发明实施例至少包括如下有益效果:由于本发明实施例中的威胁类别识别模型可以基于待识别域名的属性信息、目标域名的属性信息以及待识别域名与目标域名的关联关系,确定待识别域名的威胁类型,其中待识别域名与目标域名的关联关系包括待识别域名与目标域名与同一个元素或同一个元素图存在关联关系的间接关系。所以本发明实施例实现了通过待识别域名和目标域名之间的间接关系,即通过提取待识别域名和目标域名之间的高阶语义,确定待识别域名的威胁类型。
可选的,在上述步骤101之前,还可以构建威胁情报异质图,以使得根据情报异质图,获得各个域名在威胁情报异质图中的路径数量,进而计算域名之间的相似度。
构建威胁情报异质图的方式包括:从第一数据源中获取不同种类的节点之间的关联关系,并构建威胁情报异质图。其中,威胁情报异质图中的每个节点对应一个元素,每个节点所属的种类为该节点对应的元素的种类。
可选的,还可以富化威胁情报异质图,确定威胁情报异质图中同一类型的节点之间的关联关系,包括:从第二数据源中获取同一类型的节点之间的关联关系,并基于不同种类的节点之间的关联关系以及同一类型的节点之间的关联关系,构建威胁情报异质图。
例如,若两个域名存在共同的拥有者(owner)、和/或存在共同的域名***(DomainName System,DNS)位置,则这两个域名节点之间存在关联关系。若两个IP地址存在相同的互联网服务提供商(Internet Service Provider,ISP),则这两个IP地址节点之间存在关联关系。若两个软件利用了相同的漏洞攻击电子设备,则这两个软件哈希值节点之间存在关联关系。
例如,构建的威胁情报异质图如图2所示,图2中的威胁情报异质图包括四种类型的节点,分别为:恶意软件(Malware)哈希值节点(图2中的节点M)、IP地址节点(图2中的节点I)、域名(Domain)节点(图2中的节点D)和邮箱(Email)地址节点(图2中的节点E)。图2中的箭头表示节点之间的关联关系。
威胁情报可以用一组威胁情报异质图中的节点之间的关联关系表示,因此一条威胁情报可以为威胁情报异质图的一个子图。威胁情报异质图中基于节点的类型定义的元路径能够反映元路径中节点之间的关联关系,反映节点之间的相似度。例如:元路径Domain-Malware-Domain可以表示两个域名被同一个恶意软件访问,元路径Domain-Email-Domain可以表示两个域名被同一个邮箱地址注册。
本发明实施例还可以带来以下有益效果:威胁情报异质图能够用不同的语义对存在关联关系的网络攻击进行有效而紧凑的表达,赋予了威胁情报异质图进行知识发现的巨大潜力(例如:捕获不同种类的节点之间的复杂关系,基于网络行为的差异性区分不同的网络攻击,探索攻击者如何组织攻击并调整攻击技术等等)。本发明实施例可以利用威胁情报异质图包括的节点之间的关联关系来更好地挖掘情报,从而大大减少安全分析师的工作量。
可选的,上述步骤101中构建待识别矩阵的方式包括:
步骤一、获取待识别域名的属性信息以及目标域名的属性信息,并构建属性矩阵。
步骤二、根据威胁情报异质图,确定待识别域名与目标域名的相似度。
可以理解的,可以根据威胁情报异质图中待识别域名与目标域名之间的关联关系,获取待识别域名与目标域名在各元路径或元图下的路径数量,进而计算待识别域名与目标域名的相似度。
步骤三、根据待识别域名与所述目标域名的相似度,构建关系矩阵。
可选的,上述步骤101中的属性矩阵中的属性信息可以包括:域名的长度、域名字符分布信息熵、域名存活时间、域名更新频率等属性。
可选的,属性矩阵可以包括N×m个属性,其中,N为域名数量,m为每个域名包括的属性数量。
可选的,基于关系的邻接矩阵包括:矩阵R,矩阵S、矩阵G、矩阵C和矩阵N。其中,矩阵R中的元素rij表示第i个域名是否被解析到第j个IP地址;若是,则rij=1;若否,则rij=0。矩阵S中的元素sij表示第i个域名是否被第j个恶意软件访问;若是,则sij=1;若否,则sij=0。矩阵G中的元素gij表示第i个域名是否被第j个邮箱地址注册;若是,则gij=1;若否,则gij=0。矩阵C中的元素cij表示第i个IP地址是否与第j个恶意软件通信;若是,则cij=1;若否,则cij=0。矩阵N中的元素nij表示第i个IP地址是否与第j个邮箱地址通信;若是,则nij=1;若否,则nij=0。
可选的,上述步骤101中的关系矩阵B中的矩阵元素bij表示第i个域名vi与第j个域名vj之间的相似度。
可选的,vi与vj之间的相似度可以通过以下公式(1)获得:
可以理解的,从公式(1)中可以看出两个域名之间的相似度一方面与两个节点之间的路径数量有关,另一方面与域名自身的路径节点有关。权重向量βk可以通过威胁类型识别模型自动学习获得。
可选的,如图3所示,图3中的D表示域名节点,M表示恶意软件哈希值节点,I表示IP地址节点,E表示邮箱地址节点。本发明实施例定义了7种类型的元路径(meta-path)包括Φ1~Φ7,以及5种类型的元图(meta-graph)包括Φ8~Φ12。
其中,节点vi和节点vj在Φk下的路径数量为:
当Φk=(A1,A2,…Ad+1)为元路径时,域名节点A1和域名节点Ad+1之间的commuting矩阵为:
步骤1,计算其中,P1表示子路径(IP-Email-IP),表示在子路径P1下的两个IP地址节点的commuting矩阵,QIE表示IP地址和邮箱地址之间的commuting矩阵,N矩阵中的元素nij表示第i个IP地址节点是否与第j个邮箱地址节点通信,·T表示矩阵的转置矩阵。
步骤2,计算其中,P2表示子路径(IP-Malware-IP),表示在子路径P2下的两个IP地址节点的commuting矩阵,QIM表示IP地址和恶意软件之间的commuting矩阵,C矩阵中的元素cij表示第i个IP地址是否被第j个恶意软件访问,·T表示矩阵的转置矩阵。
可以理解的,由于不同的元路径以及元图所表示的含义不同,所以不同的元路径及元图所表示的两个域名之间的相似程度也不同,所以为了区分不同的元路径及元图的重要性,可以给各个元路径及元图设置对应的权重βk。
例如,域名D1与域名D1通过相同的邮箱地址E1注册,所以域名D1与域名D2之间存在元路径(Domain1-Email1-Domain2)。域名D1与域名D1都还被恶意软件M1访问过,所以域名D1与域名D2之间存在元路径(Domain1-Malware1-Domain2)。在威胁来源较为重要的情况下,可以设置元路径Domain-Email-Domain对应的权重高于元路径Domain-Malware-Domain对应的权重。在威胁行为较为重要的情况下,可以设置元路径Domain-Malware-Domain对应的权重高于元路径Domain-Email-Domain对应的权重。
可以理解的,为了探索不同的元路径以及元图表示两个域名之间相似程度的互补性,可以基于元路径和元图的加权邻接矩阵来计算两个域名之间的相似度。
可选的,上述图1中的威胁类型识别模型通过以下步骤训练获得:
步骤一、获取样本矩阵以及样本矩阵对应的多个样本域名的实际威胁类型。
其中,样本矩阵包括由多个样本域名的属性信息构成的属性矩阵以及用于表示多个样本域名中每两个样本域名之间的相似度的关系矩阵。
步骤二、将样本矩阵输入神经网络模型,并获取神经网络模型识别的多个样本域名的威胁类型。
一种实施方式中,神经网络模型可以通过以下公式(4)识别每个样本域名属于各威胁类型的概率:
其中,Z为该样本域名属于各威胁类型的概率,X为多个样本域名的属性矩阵,B为多个样本域名的关系矩阵,表示对xi进行归一化应用在矩阵的行;表示在0和中选择数值较大的作为计算结果,IN为单位矩阵;W(0)和W(1)为神经网络模型的权重,W(0)为神经网络模型输入层到隐含层之间的权重矩阵,W(1)为隐含层到输出层之间的权重矩阵。表示矩阵的第i行第j列的元素,表示矩阵的第i行第j列的元素。
可以理解的,神经网络模型可以抽象为包括三个网络层,分别为:输入层、隐含层和输出层,网络层之间存储权重矩阵。
可选的,可以通过随机失活(dropout)的方式,实现训练的随机性。
步骤三、根据神经网络模型识别的多个样本域名的威胁类型和多个样本域名的实际威胁类型,计算损失函数值。
一种实施方式中,可以通过以下公式(5)计算损失函数值:
其中,H为损失函数值,N′为存在对应的威胁类型的域名的数量,K为威胁类型的数量,lk(vi)用于表示第i个节点vi是否属于威胁类型k,Zk(vi)用于表示神经网络模型预测的第i个节点vi属于威胁类型k的概率。
步骤四、根据损失函数值,判断神经网络模型是否收敛。若神经网络模型收敛,则获得威胁类型识别模型;若神经网络模型未收敛,则根据损失函数值,调整神经网络模型的模型参数,并进行下一次训练。
本发明实施例还可以包括如下有益效果:由于本发明实施例可以根据样本域名的实际威胁类型,训练神经网络模型,使得神经网络模型的预测值更接近真实值,所以通过训练完成得到的威胁类型识别模型,确定的待识别域名的威胁类型准确。
可选的,威胁类型之间还可以存在层次关系,如图4所示,图4中的每个节点表示一个威胁类型,一个父类型的威胁类型可以包括一个或多个子类型的威胁类型。例如:图4中的特洛伊木马(父类型的威胁类型)包括后门(子类型的威胁类型)。
可以理解的,引入威胁类型之间的层次化可以提高威胁类型的识别准确度。例如,当训练威胁类型识别模型的样本域名中,包括少量的子类型的威胁类型的样本域名,在模型在识别输入的域名的威胁类型时,可以通过子类型的父类型的威胁类型来正则化。具有层次关系的威胁类型的参数趋于相似。
可选的,可以用L={li|i=1,2,…K}表示威胁类型集合,K为威胁类型的数量。为表现威胁类型之间的层次关系,可以用Ki表示li包括的子类型的威胁类型数量。为威胁类型识别模型的输出层网络参数,其中,表示第i个威胁类型li在威胁类型识别模型输出层的网络参数。
当威胁类型之间存在层次关系时,可以通过公式(6)正则化神经网络模型的输出层的模型参数:
可选的,可以根据损失函数值,通过公式(7)调整神经网络模型的模型参数:
J=H+Cλ(W) (7)
其中,J为调整后的损失函数值,H为损失函数值,C为预设的惩罚参数,λ(W)为输出层的模型参数。
可选的,预设的惩罚参数可以根据经验设置。
本发明实施例还可以包括以下有益效果:由于本发明实施例可以正则化神经网络模型的输出层的模型参数,缓解了神经网络模型过拟合的问题。
对应于上述方法实施例,参见图5,本发明实施例还提供了一种威胁类型识别装置,该装置包括:构建模块501、输入模块502和获取模块503;
构建模块501,用于构建待识别矩阵,所述待识别矩阵包括属性矩阵和关系矩阵,属性矩阵包括待识别域名的属性信息以及已知威胁类型的目标域名的属性信息,关系矩阵包括待识别域名与目标域名的相似度,待识别域名与目标域名之间的相似度基于待识别域名与目标域名之间的关联关系确定,关联关系包括待识别域名和目标域名与同一个元素或同一个元素图存在关联关系的间接关系,元素图中包括的各元素之间存在关联关系,元素包括互联网协议IP地址、邮箱地址和/或恶意软件哈希值;
输入模块502,用于将构建模块501构建的待识别矩阵输入威胁类型识别模型;
获取模块503,用于获取威胁类型识别模型输出的待识别域名属于各威胁类型的概率,并将概率最大的威胁类型作为待识别域名的威胁类型,威胁类型识别模型用于根据待识别域名的属性信息、目标域名的属性信息以及待识别域名与目标域名之间的相似度,确定待识别域名属于各威胁类型的概率。
可选的,装置还可以包括训练模块,训练模块可以用于:
获取样本矩阵以及样本矩阵对应的多个样本域名的实际威胁类型,样本矩阵包括由多个样本域名的属性信息构成的属性矩阵以及用于表示多个样本域名中每两个样本域名之间的相似度的关系矩阵;
将样本矩阵输入神经网络模型,并获取神经网络模型识别的多个样本域名属于各威胁类型的概率;
根据神经网络模型识别的多个样本域名属于各威胁类型的概率和多个样本域名的实际威胁类型,计算损失函数值;
根据损失函数值,判断神经网络模型是否收敛;若神经网络模型收敛,则获得威胁类型识别模型;若神经网络模型未收敛,则根据损失函数值,调整神经网络模型的模型参数,并进行下一次训练。
可选的,多个样本域名中每两个样本域名之间的相似度,可以通过以下公式获得:
可选的,神经网络模型可以通过以下公式识别每个样本域名属于各威胁类型的概率:
可选的,损失函数值可以通过以下公式计算:
其中,H为损失函数值,N′为存在对应的威胁类型的域名的数量,K为威胁类型的数量,lk(vi)用于表示第i个节点vi是否属于威胁类型k,Zk(vi)用于表示神经网络模型预测的第i个节点vi属于威胁类型k的概率。
可选的,元素还可以包括域名;
该构建模块501,还可以用于在构建待识别矩阵之前,从第一数据源中获取不同种类的节点之间的关联关系,并构建威胁情报异质图,威胁情报异质图中的每个节点对应一个元素,每个节点所属的种类为该节点对应的元素的种类;
构建模块501,可以具体用于:
获取待识别域名的属性信息以及所述目标域名的属性信息,并构建属性矩阵;
根据威胁情报异质图,确定待识别域名与目标域名的相似度;
根据待识别域名与目标域名的相似度,构建关系矩阵。
可选的,构建模块501,可以具体用于:
从第二数据源中获取同一类型的节点之间的关联关系,并基于不同种类的节点之间的关联关系以及同一类型的节点之间的关联关系,构建威胁情报异质图。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述方法实施例中由电子设备执行的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一威胁类型识别方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一威胁类型识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (6)
1.一种威胁类型识别方法,其特征在于,所述方法包括:
构建待识别矩阵,所述待识别矩阵包括属性矩阵和关系矩阵,所述属性矩阵包括待识别域名的属性信息以及已知威胁类型的目标域名的属性信息,所述关系矩阵包括所述待识别域名与所述目标域名的相似度,所述待识别域名与所述目标域名之间的相似度基于所述待识别域名与所述目标域名之间的关联关系确定,所述关联关系包括所述待识别域名和所述目标域名与同一个元素或同一个元素图存在关联关系的间接关系,所述元素图中包括的各元素之间存在关联关系,所述元素包括互联网协议IP地址、邮箱地址和/或恶意软件哈希值;
将所述待识别矩阵输入威胁类型识别模型;
获取所述威胁类型识别模型输出的所述待识别域名属于各威胁类型的概率,并将概率最大的威胁类型作为所述待识别域名的威胁类型,所述威胁类型识别模型用于根据所述待识别域名的属性信息、所述目标域名的属性信息以及所述待识别域名与所述目标域名之间的相似度,确定所述待识别域名属于各威胁类型的概率;
所述威胁类型识别模型通过以下步骤训练获得:
获取样本矩阵以及样本矩阵对应的多个样本域名的实际威胁类型,所述样本矩阵包括由多个样本域名的属性信息构成的属性矩阵以及用于表示所述多个样本域名中每两个样本域名之间的相似度的关系矩阵;
将所述样本矩阵输入神经网络模型,并获取神经网络模型识别的所述多个样本域名属于各威胁类型的概率;
根据神经网络模型识别的所述多个样本域名属于各威胁类型的概率和所述多个样本域名的实际威胁类型,计算损失函数值;
根据所述损失函数值,判断神经网络模型是否收敛;若神经网络模型收敛,则获得所述威胁类型识别模型;若神经网络模型未收敛,则根据所述损失函数值,调整神经网络模型的模型参数,并进行下一次训练;
所述元素还包括域名;在所述构建待识别矩阵之前,所述方法还包括:
从第一数据源中获取不同种类的节点之间的关联关系,并构建威胁情报异质图,所述威胁情报异质图中的每个节点对应一个元素,每个节点所属的种类为该节点对应的元素的种类;
所述构建待识别矩阵,包括:
获取所述待识别域名的属性信息以及所述目标域名的属性信息,并构建所述属性矩阵;
根据所述威胁情报异质图,确定所述待识别域名与所述目标域名的相似度;
根据所述待识别域名与所述目标域名的相似度,构建所述关系矩阵;
所述构建威胁情报异质图,包括:
从第二数据源中获取同一类型的节点之间的关联关系,并基于不同种类的节点之间的关联关系以及同一类型的节点之间的关联关系,构建威胁情报异质图。
5.一种威胁类型识别装置,其特征在于,所述装置包括:
构建模块,用于构建待识别矩阵,所述待识别矩阵包括属性矩阵和关系矩阵,所述属性矩阵包括待识别域名的属性信息以及已知威胁类型的目标域名的属性信息,所述关系矩阵包括所述待识别域名与所述目标域名的相似度,所述待识别域名与所述目标域名之间的相似度基于所述待识别域名与所述目标域名之间的关联关系确定,所述关联关系包括所述待识别域名和所述目标域名与同一个元素或同一个元素图存在关联关系的间接关系,所述元素图中包括的各元素之间存在关联关系,所述元素包括互联网协议IP地址、邮箱地址和/或恶意软件哈希值;
输入模块,用于将所述构建模块构建的所述待识别矩阵输入威胁类型识别模型;
获取模块,用于获取所述威胁类型识别模型输出的所述待识别域名属于各威胁类型的概率,并将概率最大的威胁类型作为所述待识别域名的威胁类型,所述威胁类型识别模型用于根据所述待识别域名的属性信息、所述目标域名的属性信息以及所述待识别域名与所述目标域名之间的相似度,确定所述待识别域名属于各威胁类型的概率;
所述装置还包括训练模块,所述训练模块用于:
获取样本矩阵以及样本矩阵对应的多个样本域名的实际威胁类型,所述样本矩阵包括由多个样本域名的属性信息构成的属性矩阵以及用于表示所述多个样本域名中每两个样本域名之间的相似度的关系矩阵;
将所述样本矩阵输入神经网络模型,并获取神经网络模型识别的所述多个样本域名属于各威胁类型的概率;
根据神经网络模型识别的所述多个样本域名属于各威胁类型的概率和所述多个样本域名的实际威胁类型,计算损失函数值;
根据所述损失函数值,判断神经网络模型是否收敛;若神经网络模型收敛,则获得所述威胁类型识别模型;若神经网络模型未收敛,则根据所述损失函数值,调整神经网络模型的模型参数,并进行下一次训练;
所述元素还包括域名;所述构建模块,还用于在所述构建待识别矩阵之前,从第一数据源中获取不同种类的节点之间的关联关系,并构建威胁情报异质图,所述威胁情报异质图中的每个节点对应一个元素,每个节点所属的种类为该节点对应的元素的种类;
所述构建模块,具体用于:
获取所述待识别域名的属性信息以及所述目标域名的属性信息,并构建所述属性矩阵;
根据所述威胁情报异质图,确定所述待识别域名与所述目标域名的相似度;
根据所述待识别域名与所述目标域名的相似度,构建所述关系矩阵;
所述构建模块,具体用于:
从第二数据源中获取同一类型的节点之间的关联关系,并基于不同种类的节点之间的关联关系以及同一类型的节点之间的关联关系,构建威胁情报异质图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911136708.9A CN111224941B (zh) | 2019-11-19 | 2019-11-19 | 一种威胁类型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911136708.9A CN111224941B (zh) | 2019-11-19 | 2019-11-19 | 一种威胁类型识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111224941A CN111224941A (zh) | 2020-06-02 |
CN111224941B true CN111224941B (zh) | 2020-12-04 |
Family
ID=70827679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911136708.9A Active CN111224941B (zh) | 2019-11-19 | 2019-11-19 | 一种威胁类型识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111224941B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112019521B (zh) * | 2020-08-07 | 2023-04-07 | 杭州安恒信息技术股份有限公司 | 一种资产评分方法、装置、计算机设备及存储介质 |
CN112131259B (zh) * | 2020-09-28 | 2024-03-15 | 绿盟科技集团股份有限公司 | 一种相似恶意软件推荐方法、装置、介质和设备 |
CN112257066B (zh) * | 2020-10-30 | 2021-09-07 | 广州大学 | 面向带权异质图的恶意行为识别方法、***和存储介质 |
CN113259199B (zh) * | 2021-05-18 | 2022-08-12 | 中国互联网络信息中心 | 一种域名信用监控方法及装置 |
CN113141378B (zh) * | 2021-05-18 | 2022-12-02 | 中国互联网络信息中心 | 一种不良域名识别方法及装置 |
CN115225308B (zh) * | 2022-05-17 | 2024-03-12 | 国家计算机网络与信息安全管理中心 | 大规模群体攻击流量的攻击团伙识别方法及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108540979A (zh) * | 2018-04-04 | 2018-09-14 | 北京邮电大学 | 基于指纹特征的伪ap检测方法及装置 |
CN108650260A (zh) * | 2018-05-09 | 2018-10-12 | 北京邮电大学 | 一种恶意网站的识别方法和装置 |
CN109241989A (zh) * | 2018-07-17 | 2019-01-18 | 中国电力科学研究院有限公司 | 一种基于时空相似度匹配的智能变电站入侵场景还原的方法及*** |
CN110460605A (zh) * | 2019-08-16 | 2019-11-15 | 南京邮电大学 | 一种基于自动编码的异常网络流量检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10216938B2 (en) * | 2014-12-05 | 2019-02-26 | T-Mobile Usa, Inc. | Recombinant threat modeling |
CN110198292B (zh) * | 2018-03-30 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 域名识别方法和装置、存储介质及电子装置 |
US10931703B2 (en) * | 2018-04-24 | 2021-02-23 | ProSOC, Inc. | Threat coverage score and recommendations |
-
2019
- 2019-11-19 CN CN201911136708.9A patent/CN111224941B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108540979A (zh) * | 2018-04-04 | 2018-09-14 | 北京邮电大学 | 基于指纹特征的伪ap检测方法及装置 |
CN108650260A (zh) * | 2018-05-09 | 2018-10-12 | 北京邮电大学 | 一种恶意网站的识别方法和装置 |
CN109241989A (zh) * | 2018-07-17 | 2019-01-18 | 中国电力科学研究院有限公司 | 一种基于时空相似度匹配的智能变电站入侵场景还原的方法及*** |
CN110460605A (zh) * | 2019-08-16 | 2019-11-15 | 南京邮电大学 | 一种基于自动编码的异常网络流量检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111224941A (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111224941B (zh) | 一种威胁类型识别方法及装置 | |
US11856021B2 (en) | Detecting and mitigating poison attacks using data provenance | |
Aljawarneh et al. | Anomaly-based intrusion detection system through feature selection analysis and building hybrid efficient model | |
US20210019674A1 (en) | Risk profiling and rating of extended relationships using ontological databases | |
Lian et al. | An Intrusion Detection Method Based on Decision Tree‐Recursive Feature Elimination in Ensemble Learning | |
Vinayakumar et al. | Scalable framework for cyber threat situational awareness based on domain name systems data analysis | |
CN112235264B (zh) | 一种基于深度迁移学习的网络流量识别方法及装置 | |
US8438386B2 (en) | System and method for developing a risk profile for an internet service | |
Song et al. | Advanced evasion attacks and mitigations on practical ML‐based phishing website classifiers | |
US9032527B2 (en) | Inferring a state of behavior through marginal probability estimation | |
CN113315742B (zh) | 攻击行为检测方法、装置及攻击检测设备 | |
Biswas et al. | Botnet traffic identification using neural networks | |
CN110602137A (zh) | 恶意ip和恶意url拦截方法、装置、设备及介质 | |
Li et al. | [Retracted] Intelligent Intrusion Detection Method of Industrial Internet of Things Based on CNN‐BiLSTM | |
Fallah et al. | Android malware detection using network traffic based on sequential deep learning models | |
CN113905016A (zh) | 一种dga域名检测方法、检测装置及计算机存储介质 | |
Seth et al. | MIDS: Metaheuristic based intrusion detection system for cloud using k-NN and MGWO | |
Nowroozi et al. | An adversarial attack analysis on malicious advertisement URL detection framework | |
Elekar | Combination of data mining techniques for intrusion detection system | |
Li et al. | Deep learning algorithms for cyber security applications: A survey | |
Aiello et al. | Unsupervised learning and rule extraction for Domain Name Server tunneling detection | |
Niveditha et al. | Detection of Malware attacks in smart phones using Machine Learning | |
Peng et al. | MalShoot: shooting malicious domains through graph embedding on passive DNS data | |
Shahriar et al. | Towards an attack signature generation framework for intrusion detection systems | |
Amar et al. | Weighted LSTM for intrusion detection and data mining to prevent attacks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |