CN106992969A - 基于域名字符串统计特征的dga生成域名的检测方法 - Google Patents

基于域名字符串统计特征的dga生成域名的检测方法 Download PDF

Info

Publication number
CN106992969A
CN106992969A CN201710123327.1A CN201710123327A CN106992969A CN 106992969 A CN106992969 A CN 106992969A CN 201710123327 A CN201710123327 A CN 201710123327A CN 106992969 A CN106992969 A CN 106992969A
Authority
CN
China
Prior art keywords
domain name
character string
dga
character
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710123327.1A
Other languages
English (en)
Inventor
方玮
任梦晨
刘光杰
翟江涛
刘伟伟
戴跃伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201710123327.1A priority Critical patent/CN106992969A/zh
Publication of CN106992969A publication Critical patent/CN106992969A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/144Detection or countermeasures against botnets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于域名字符串统计特征的DGA生成域名的检测方法。该方法提取域名字符串中包含连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率六个维度的统计特征量,并通过包含正常域名和典型DGA算法生成的恶意域名的测试集合训练分类器,通过分类器实现对恶意软件DGA生成域名的检测。本发明采用特征提取和分类器训练分类的模式,且所提六个维度的统计特征量均能敏感地区分正常域名和DGA生成的域名,降低了实施训练和检测的计算复杂度。

Description

基于域名字符串统计特征的DGA生成域名的检测方法
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于域名字符串统计特征的DGA生成域名的检测方法。
背景技术
DNS作为实现域名和IP地址映射的分布式***,是当前互联网中重要的基础设施之一。进行间谍活动、勒索破坏、僵尸网络的恶意软件和C&C进行通信过程中,通常会避免使用确定的IP地址以避免C&C迁移后导致的通信失连。而固定的域名也容易导致形成可察觉的软件指纹。且域名一旦被列人黑名单,软件的远控即失效。在这种背景下Domain-Flux技术(Sharifnya R,Abadi M.DFBotKiller:Domain-flux botnet detection based on thehistory of group activities and failures in DNS traffic[J].DigitalInvestigation,2015,12(12):15-26.)得到了广泛应用,它采用域名生成算法DGA,通过特定的参数(如网络时间,热门话题等)定期自动生成大量的随机域名。实施远控的C&C控制者通过相同的种子获得相同的域名池,并选取其中的一部分域名注册为C&C服务器的域名。恶意程序在域名池中随机挑选域名进行DNS解析,一旦解析成功便可获得C&C服务器的IP地址并与之建立连接。由于其他一些实施APT攻击和Botnet控制的软件也大量使用这一手段。所以针对DGA生成域名的DNS请求的发现,成为一种间接的恶意软件检测方法。当前这方面的主要方法如下:
第一种是随机森林的dga域名检测方法(王红凯,张旭东等.基于随机森林的dga域名检测方法:CN105577660A[P].2015),该方法主要使用了域名长度、域名信息上、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白明代中得分以及域名中N元语言模型在单词字典中的得分。该方法采用的特征数量多,且存在很多区分能力不强的低阶特征,训练的时间长效率低。
第二种基于域名特征的c&c域名识别方法(唐力,岳扶天,周海燕.基于域名特征的c&c域名识别方法,CN105072214A[P].2015),该方法陈述的主要特点是对给定的域名生成用于判定域名类别的量化指标,并简单举例该指标可以报考元音字母占比、域名中的拼音出现次数等。方法的技术特征不明显,其陈述的训练和学习方法为该领域的一般技术,无法精确高效地区分正常域名和DGA生成的域名。
第三种实现恶意域名识别的方法及装置(侯伟,曲武,周涛.一种实现恶意域名识别的方法及装置,CN105024969A[P].2014),该发明主要声明了一种动态特征的恶意域名可信判断模型,这个动态特征集合包括与IP相关的特征、和/或权威服务器主域名一致率。其方法是主要是基于恶意软件的DNS请求的概率,而其中的域名相关的统计特征采用的是比较简单的字符和数字特征,被作为静态特征进行过滤黑名单的设定。该方法由于需要用到DNS请求的通信行为的特征,因此复杂度较高。
发明内容
本发明的目的在于提供一种复杂度低、精度高的基于域名字符串统计特征的DGA生成域名的检测方法。
实现本发明目的的技术解决方案为:一种基于域名字符串统计特征的DGA生成域名的检测方法,包括以下步骤:
步骤1,收集整理并构建正常的标准域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串SNi,i=1,2,…,N;所述域名字符串SNi的集合SDN作为后续特征矢量构造的数据基础;
步骤2,收集整理并构建正常的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串LNj,j=1,2,…,nL的集合LDN;收集整理恶意软件DGA算法生成的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串DNk,k=1,2,…,nD的集合DDN;
步骤3,提取LDN中所有LNj和DDN中所有DNk的统计特征,得到LDN中所有LNj的特征矢量集合LV、DDN中所有DNk的特征矢量集合DV,LV中具有nL个六维的特征矢量,DV中具有nD个六维的特征矢量;
步骤4,对LV中的特征矢量添加标记1,对DV中的特征矢量添加标记-1,分别作为正样本和负样本构成测试集合训练分类器,通过分类器实现对恶意软件DGA生成域名的检测。
进一步地,步骤3所述特征矢量具体如下:
V(X)=[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]
其中,X为LDN中所有LNj或DDN中所有DNk
SDR(X)、SCR(X)、DSIM(X)、TSIM(X)、V2DC(X)、C2DC(X)分别为连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率。
进一步地,步骤3所述连续数字占比SDR(X)=NUM_2DP(X)/LEN(X),其中,NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度,LEN(X)为域名长度;
所述连续二辅字占比SCR(X)=NUM_2CP(X)/LEN(X),其中,NUM_2DP(X)为域名中所有两个或两个以上连续辅音字母的总长度,LEN(X)为域名长度。
进一步地,步骤3所述随机相邻双字平均相似指数DSIM(X)为:
DSIM(X)=1/M×∑Y∈pSDN(|SD(X)∩SD(Y)|/|SD(X)∪SD(Y)|)
其中,pSDN是从SDN集合中随机选择的包含M个域名的子集,函数SD(X/Y)表示将X/Y分成的相邻的双字母组成的集合,|SD(X)∩SD(Y)|是集合SD(X)和集合SD(Y)的交集中元素的个数;|SD(X)∪SD(Y)|是集合SD(X)和集合SD(Y)的并集中元素的个数;
所述随机相邻三字平均相似指数TSIM(X)为:
TSIM(X)=1/M×∑Y∈pSDN(|TD(X)∩TD(Y)|/|TD(x)∪TD(Y)|)
其中,函数TD(X/Y)表示将X/Y分成的相邻的三字母组成的集合,|TD(X)∩TD(Y)|是集合TD(X)和集合TD(Y)的交集中元素的个数;|TD(X)∪TD(Y)|是集合TD(X)和集合TD(Y)的并集中元素的个数。
进一步地,步骤3所述单元音字母到二字符平均转移概率V2DC(X)具体如下:
根据SDN中合法标准域名SN,统计得到单元音字母到任意二字符转移概率P(y,z|x),对域名字符串X,设X具有后续二个字符元音x的集合为VX,VX的元素个数为Mv,且元音x的后续字符分别为y(x)、z(x),则单元音字母到二字符平均转移概率V2DC(X)为:
V2DC(X)=1/Mv×∑Y∈VX P(y(x),z(x)|x)
所述单辅音字母到二字符平均转移概率C2DC(X)具体如下:
根据SDN中合法域名SN,统计得到单辅音字母到任意二字符转移概率P(y,z|x’),对域名字符串X,设X具有后续二个字符辅音x’的集合为CX,CX的元素个数为Mc,且辅音x’的后续字符分别为y(x’),z(x’),则单辅音字母到二字符平均转移概率C2DC(X)为:
C2DC(X)=1/Mc×∑Y∈CX P(y(x’),z(x’)|x’)
本发明与现有技术相比,其显著优点为:(1)采用,特征提取+分类器训练分类的模式,实现了对恶意程序DGA自动生成域名的检测;(2)所用的特征均直接提取自域名字符串的统计量,无须使用DNS请求的相关通信行为方面的特征;(3)所用的连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率特征均能敏感地区分正常域名和DGA生成的域名,所提方案的维度较低,实施训练和检测的计算复杂度低。
附图说明
图1为本发明基于域名字符串统计特征的DGA生成域名的检测方法的流程图。
具体实施方式
下面将结合附图对本方面的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下获得的所有其他实施例,都属于本发明保护的范围。
本发明基于域名字符组合的统计异常性,从域名字符串提取了六种统计量并在此基础上利用统计学习方法训练分类器,来实现对恶意软件DGA动态生成域名的检测,具体步骤如下:
步骤1,收集整理并构建正常的标准域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串SNi,i=1,2,…,N;所述域名字符串SNi的集合SDN作为后续特征矢量构造的数据基础;
步骤2,收集整理并构建正常的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串LNj,j=1,2,…,nL的集合LDN;收集整理恶意软件DGA算法生成的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串DNk,k=1,2,…,nD的集合DDN;
步骤3,提取LDN中所有LNj和DDN中所有DNk的统计特征,得到LDN中所有LNj的特征矢量集合LV、DDN中所有DNk的特征矢量集合DV,LV中具有nL个六维的特征矢量,DV中具有nD个六维的特征矢量;
所述特征矢量具体如下:
V(X)=[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]
其中,X为LDN中所有LNj或DDN中所有DNk
SDR(X)、SCR(X)、DSIM(X)、TSIM(X)、V2DC(X)、C2DC(X)分别为连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率。
(1)所述连续数字占比SDR(X)=NUM_2DP(X)/LEN(X),其中,NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度,LEN(X)为域名长度。
(2)所述连续二辅字占比SCR(X)=NUM_2CP(X)/LEN(X),其中,NUM_2DP(X)为域名中所有两个或两个以上连续辅音字母的总长度,LEN(X)为域名长度。
(3)所述随机相邻双字平均相似指数DSIM(X)为:
DSIM(X)=1/M×∑Y∈pSDN(|SD(X)∩SD(Y)|/|SD(X)∪SD(Y)|)
其中,pSDN是从SDN集合中随机选择的包含M个域名的子集,函数SD(X/Y)表示将X/Y分成的相邻的双字母组成的集合,|SD(X)∩SD(Y)|是集合SD(X)和集合SD(Y)的交集中元素的个数;|SD(X)∪SD(Y)|是集合SD(X)和集合SD(Y)的并集中元素的个数。
(4)所述随机相邻三字平均相似指数TSIM(X)为:
TSIM(X)=1/M×∑Y∈pSDN(|TD(X)∩TD(Y)|/|TD(x)∪TD(Y)|)
其中,函数TD(X/Y)表示将X/Y分成的相邻的三字母组成的集合,|TD(X)∩TD(Y)|是集合TD(X)和集合TD(Y)的交集中元素的个数;|TD(X)∪TD(Y)|是集合TD(X)和集合TD(Y)的并集中元素的个数。
(5)所述单元音字母到二字符平均转移概率V2DC(X)具体如下:
根据SDN中合法标准域名SN,统计得到单元音字母到任意二字符转移概率P(y,z|x),对域名字符串X,设X具有后续二个字符元音x的集合为VX,VX的元素个数为Mv,且元音x的后续字符分别为y(x)、z(x),则单元音字母到二字符平均转移概率V2DC(X)为:
V2DC(X)=1/Mv×∑Y∈VX P(y(x),z(x)|x)
(6)所述单辅音字母到二字符平均转移概率C2DC(X)具体如下:
根据SDN中合法域名SN,统计得到单辅音字母到任意二字符转移概率P(y,z|x’),对域名字符串X,设X具有后续二个字符辅音x’的集合为CX,CX的元素个数为Mc,且辅音x’的后续字符分别为y(x’),z(x’),则单辅音字母到二字符平均转移概率C2DC(X)为:
C2DC(X)=1/Mc×∑Y∈CX P(y(x’),z(x’)|x’)
步骤4,对LV中的特征矢量添加标记1,对DV中的特征矢量添加标记-1,分别作为正样本和负样本构成测试集合训练分类器,通过分类器实现对恶意软件DGA生成域名的检测。
实施例1
图1为本发明的具体检测实施过程,下面分别介绍:
步骤1,从Alexa(www.alexa.com)上收集排名前200k的合法域名,随机选择其中的100k,将其中的其中超过三个字符的二级或者三级域名取出,构成域名中包含字母、数字和连字符组成的域名字符串SNi,i=1,2,…,N,N=105;所述域名字符串SNi的集合SDN作为后续特征矢量构造的数据基础;
步骤2,从Alexa(www.alexa.com)上收集的排名前200k的合法域名中随机选择其中的100k,将其中的其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串LNj,j=1,2,…,nL,nL=105的集合LDN;收集Conficker C、CryptoLocker、Zeus、CoreBot、Matsnu、GameOver Zeus和GameOver Zeus变种New GameOverZeus等七种恶意程序的DGA域名集合,将其中的其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串DNk,k=1,2,…,nD,nD=105的集合DDN。
步骤3,提取LDN中所有LNj和DDN中所有DNk的统计特征,得到LDN中所有LNj的特征矢量集合LV、DDN中所有DNk的特征矢量集合DV,LV中具有nL个六维的特征矢量,DV中具有nD个六维的特征矢量,所述特征矢量具体如下:
V(X)=[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]
其中,X为LDN中所有LNj或DDN中所有DNk
SDR(X)、SCR(X)、DSIM(X)、TSIM(X)、V2DC(X)、C2DC(X)分别为连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率,其中:
1)域名X连续数字占比:
SDR(X)=NUM_2DP(X)/LEN(X)
其中,NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度,LEN(X)为域名长度。
2)连续二辅音字符占比:
SCR(X)=NUM_2CP(X)/LEN(X)
其中,NUM_2DP(X)为域名中所有两个或两个以上连续辅音字母的总长度,LEN(X)为域名长度。
3)随机相邻双字平均相似指数
DSIM(X)=1/M×∑y∈pSDN(|SD(X)∩SD(Y)|/|SD(X)∪SD(Y)|)
其中,pSDN是从SDN集合中随机选择的包含M,M=50000个域名的子集。函数SD(X/Y)表示将X/Y分成的相邻的双字母组成的集合。|SD(X)∩SD(Y)|是集合SD(X)和集合SD(Y)的交集中元素的个数;|SD(X)∪SD(Y)|是集合SD(X)和集合SD(Y)的并集中元素的个数;
4)随机相邻三字平均相似指数
TSIM(X)=1/M×∑Y∈pSDN(|TD(X)∩TD(Y)|/|TD(x)∪TD(Y)|)
其中,其中,函数TD(X/Y)表示将X/Y分成的相邻的三字母组成的集合,|TD(X)∩TD(Y)|是集合TD(X)和集合TD(Y)的交集中元素的个数;|TD(X)∪TD(Y)|是集合TD(X)和集合TD(Y)的并集中元素的个数;
5)单元音字母到二字符平均转移概率
根据SDN中合法标准域名SN,统计得到单元音字母到任意二字符转移概率P(y,z|x),对域名字符串X,设X具有后续二个字符元音x的集合为VX,VX的元素个数为Mv,且元音x的后续字符分别为y(x)、z(x),则单元音字母到二字符平均转移概率V2DC(X)为:
V2DC(X)=1/Mv×∑Y∈VX P(y(x),z(x)|x)
6)单辅音字母到二字符平均转移概率
根据SDN中大量的合法域名SN,统计得到单辅音字母到任意二字符转移概率P(y,z|x’),如果出现转移概率为0的情况,则赋一个很小的值ε.对域名字符串X,设其具有后续二个字符辅音x’集合为CX,CX的元素个数为Mc,且辅音x’的后续字符分别为y(x’),z(x’),则单辅音字母到二字符平均转移概率C2DC(X)为:
C2DC(X)=1/Mc×∑Y∈CX P(y(x’),z(x’)|x’)
步骤4,通过上述计算,我们得到LDN和DDN中LNi和DNi的矢量集合LV和DV,LV中具有nL个六维的矢量,DV中具有nD个六维的矢量。分别为其添加标记1和-1,作为正样本和负样本,利用基于RBF核的SVM分类器采用的进行训练,其中惩罚参数c=128.0,RBF核函数参数gamma=2.0。具体采用Libsvm的相关函数库,通过交叉验证可以训练得到model文件。值得指出的其他的诸如神经网络、决策树、极限学习机和其他学习算法也可以用于本检测方法。
步骤5,利用学习的model文件,可以利用Libsvm的predict函数对需要检测的域名字符串进行检测。如图1所示,检测器支持对在线抓取数据的检测和离线的存储下来的批量的域名字符串的检测。

Claims (5)

1.一种基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,包括以下步骤:
步骤1,收集整理并构建正常的标准域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串SNi,i=1,2,…,N;所述域名字符串SNi的集合SDN作为后续特征矢量构造的数据基础;
步骤2,收集整理并构建正常的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串LNj,j=1,2,…,nL的集合LDN;收集整理恶意软件DGA算法生成的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串DNk,k=1,2,…,nD的集合DDN;
步骤3,提取LDN中所有LNj和DDN中所有DNk的统计特征,得到LDN中所有LNj的特征矢量集合LV、DDN中所有DNk的特征矢量集合DV,LV中具有nL个六维的特征矢量,DV中具有nD个六维的特征矢量;
步骤4,对LV中的特征矢量添加标记1,对DV中的特征矢量添加标记-1,分别作为正样本和负样本构成测试集合训练分类器,通过分类器实现对恶意软件DGA生成域名的检测。
2.如权利要求1所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述特征矢量具体如下:
V(X)=[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]
其中,X为LDN中所有LNj或DDN中所有DNk
SDR(X)、SCR(X)、DSIM(X)、TSIM(X)、V2DC(X)、C2DC(X)分别为连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率。
3.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述连续数字占比SDR(X)=NUM_2DP(X)/LEN(X),其中,NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度,LEN(X)为域名长度;
所述连续二辅字占比SCR(X)=NUM_2CP(X)/LEN(X),其中,NUM_2DP(X)为域名中所有两个或两个以上连续辅音字母的总长度,LEN(X)为域名长度。
4.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述随机相邻双字平均相似指数DSIM(X)为:
DSIM(X)=1/M×∑Y∈pSDN(|SD(X)∩SD(Y)|/|SD(X)∪SD(Y)|)
其中,pSDN是从SDN集合中随机选择的包含M个域名的子集,函数SD(X/Y)表示将X/Y分成的相邻的双字母组成的集合,|SD(X)∩SD(Y)|是集合SD(X)和集合SD(Y)的交集中元素的个数;|SD(X)∪SD(Y)|是集合SD(X)和集合SD(Y)的并集中元素的个数;
所述随机相邻三字平均相似指数TSIM(X)为:
TSIM(X)=1/M×∑Y∈pSDN(|TD(X)∩TD(Y)|/|TD(x)∪TD(Y)|)
其中,函数TD(X/Y)表示将X/Y分成的相邻的三字母组成的集合,|TD(X)∩TD(Y)|是集合TD(X)和集合TD(Y)的交集中元素的个数;|TD(X)∪TD(Y)|是集合TD(X)和集合TD(Y)的并集中元素的个数。
5.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述单元音字母到二字符平均转移概率V2DC(X)具体如下:
根据SDN中合法标准域名SN,统计得到单元音字母到任意二字符转移概率P(y,z|x),对域名字符串X,设X具有后续二个字符元音x的集合为VX,VX的元素个数为Mv,且元音x的后续字符分别为y(x)、z(x),则单元音字母到二字符平均转移概率V2DC(X)为:
V2DC(X)=1/Mv×∑Y∈VX P(y(x),z(x)|x)
所述单辅音字母到二字符平均转移概率C2DC(X)具体如下:
根据SDN中合法域名SN,统计得到单辅音字母到任意二字符转移概率P(y,z|x’),对域名字符串X,设X具有后续二个字符辅音x’的集合为CX,CX的元素个数为Mc,且辅音x’的后续字符分别为y(x’),z(x’),则单辅音字母到二字符平均转移概率C2DC(X)为:
C2DC(X)=1/Mc×∑Y∈CX P(y(x’),z(x’)|x’)。
CN201710123327.1A 2017-03-03 2017-03-03 基于域名字符串统计特征的dga生成域名的检测方法 Pending CN106992969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710123327.1A CN106992969A (zh) 2017-03-03 2017-03-03 基于域名字符串统计特征的dga生成域名的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710123327.1A CN106992969A (zh) 2017-03-03 2017-03-03 基于域名字符串统计特征的dga生成域名的检测方法

Publications (1)

Publication Number Publication Date
CN106992969A true CN106992969A (zh) 2017-07-28

Family

ID=59412610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710123327.1A Pending CN106992969A (zh) 2017-03-03 2017-03-03 基于域名字符串统计特征的dga生成域名的检测方法

Country Status (1)

Country Link
CN (1) CN106992969A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107645503A (zh) * 2017-09-20 2018-01-30 杭州安恒信息技术有限公司 一种基于规则的恶意域名所属dga家族的检测方法
CN108200034A (zh) * 2017-12-27 2018-06-22 新华三信息安全技术有限公司 一种识别域名的方法及装置
CN108768954A (zh) * 2018-05-04 2018-11-06 中国科学院信息工程研究所 一种dga恶意软件识别方法
CN109246083A (zh) * 2018-08-09 2019-01-18 北京奇安信科技有限公司 一种dga域名的检测方法及装置
CN109246074A (zh) * 2018-07-23 2019-01-18 北京奇虎科技有限公司 识别可疑域名的方法、装置、服务器及可读存储介质
CN109450842A (zh) * 2018-09-06 2019-03-08 南京聚铭网络科技有限公司 一种基于神经网络的网络恶意行为识别方法
CN109450845A (zh) * 2018-09-18 2019-03-08 浙江大学 一种基于深度神经网络的算法生成恶意域名检测方法
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN109688110A (zh) * 2018-11-22 2019-04-26 顺丰科技有限公司 Dga域名检测模型构建方法、装置、服务器及存储介质
CN109714356A (zh) * 2019-01-08 2019-05-03 北京奇艺世纪科技有限公司 一种异常域名的识别方法、装置及电子设备
CN110233830A (zh) * 2019-05-20 2019-09-13 中国银行股份有限公司 域名识别和域名识别模型生成方法、装置及存储介质
CN110278212A (zh) * 2019-06-26 2019-09-24 中国工商银行股份有限公司 链接检测方法及装置
CN110535820A (zh) * 2019-04-18 2019-12-03 国家计算机网络与信息安全管理中心 针对恶意域名的分类方法、装置、电子设备及介质
CN111031026A (zh) * 2019-12-09 2020-04-17 杭州安恒信息技术股份有限公司 一种dga恶意软件感染主机检测方法
CN111224998A (zh) * 2020-01-21 2020-06-02 福州大学 一种基于极限学习机的僵尸网络识别方法
CN111756871A (zh) * 2020-06-18 2020-10-09 北京天融信网络安全技术有限公司 一种基于域名服务协议的数据处理方法及电子设备
CN112771523A (zh) * 2018-08-14 2021-05-07 北京嘀嘀无限科技发展有限公司 用于检测生成域的***和方法
CN113098874A (zh) * 2021-04-02 2021-07-09 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113328994A (zh) * 2021-04-30 2021-08-31 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
WO2023185377A1 (zh) * 2022-03-30 2023-10-05 华为云计算技术有限公司 一种多粒度数据模式挖掘方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702660A (zh) * 2009-11-12 2010-05-05 中国科学院计算技术研究所 异常域名检测方法及***
CN105577660A (zh) * 2015-12-22 2016-05-11 国家电网公司 基于随机森林的dga域名检测方法
CN105610830A (zh) * 2015-12-30 2016-05-25 山石网科通信技术有限公司 域名的检测方法及装置
US20160337391A1 (en) * 2015-05-11 2016-11-17 Cisco Technology, Inc. Detecting Domains Generated By A Domain Generation Algorithm

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702660A (zh) * 2009-11-12 2010-05-05 中国科学院计算技术研究所 异常域名检测方法及***
US20160337391A1 (en) * 2015-05-11 2016-11-17 Cisco Technology, Inc. Detecting Domains Generated By A Domain Generation Algorithm
CN105577660A (zh) * 2015-12-22 2016-05-11 国家电网公司 基于随机森林的dga域名检测方法
CN105610830A (zh) * 2015-12-30 2016-05-25 山石网科通信技术有限公司 域名的检测方法及装置

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107645503B (zh) * 2017-09-20 2020-01-24 杭州安恒信息技术股份有限公司 一种基于规则的恶意域名所属dga家族的检测方法
CN107645503A (zh) * 2017-09-20 2018-01-30 杭州安恒信息技术有限公司 一种基于规则的恶意域名所属dga家族的检测方法
CN108200034A (zh) * 2017-12-27 2018-06-22 新华三信息安全技术有限公司 一种识别域名的方法及装置
CN108200034B (zh) * 2017-12-27 2021-01-29 新华三信息安全技术有限公司 一种识别域名的方法及装置
CN108768954A (zh) * 2018-05-04 2018-11-06 中国科学院信息工程研究所 一种dga恶意软件识别方法
CN108768954B (zh) * 2018-05-04 2020-07-10 中国科学院信息工程研究所 一种dga恶意软件识别方法
CN109246074A (zh) * 2018-07-23 2019-01-18 北京奇虎科技有限公司 识别可疑域名的方法、装置、服务器及可读存储介质
CN109246083B (zh) * 2018-08-09 2021-08-03 奇安信科技集团股份有限公司 一种dga域名的检测方法及装置
CN109246083A (zh) * 2018-08-09 2019-01-18 北京奇安信科技有限公司 一种dga域名的检测方法及装置
CN112771523A (zh) * 2018-08-14 2021-05-07 北京嘀嘀无限科技发展有限公司 用于检测生成域的***和方法
CN109450842B (zh) * 2018-09-06 2023-06-13 南京聚铭网络科技有限公司 一种基于神经网络的网络恶意行为识别方法
CN109450842A (zh) * 2018-09-06 2019-03-08 南京聚铭网络科技有限公司 一种基于神经网络的网络恶意行为识别方法
CN109450845A (zh) * 2018-09-18 2019-03-08 浙江大学 一种基于深度神经网络的算法生成恶意域名检测方法
CN109688110A (zh) * 2018-11-22 2019-04-26 顺丰科技有限公司 Dga域名检测模型构建方法、装置、服务器及存储介质
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN109617909B (zh) * 2019-01-07 2021-04-27 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN109714356A (zh) * 2019-01-08 2019-05-03 北京奇艺世纪科技有限公司 一种异常域名的识别方法、装置及电子设备
CN110535820A (zh) * 2019-04-18 2019-12-03 国家计算机网络与信息安全管理中心 针对恶意域名的分类方法、装置、电子设备及介质
CN110233830A (zh) * 2019-05-20 2019-09-13 中国银行股份有限公司 域名识别和域名识别模型生成方法、装置及存储介质
CN110278212A (zh) * 2019-06-26 2019-09-24 中国工商银行股份有限公司 链接检测方法及装置
CN111031026A (zh) * 2019-12-09 2020-04-17 杭州安恒信息技术股份有限公司 一种dga恶意软件感染主机检测方法
CN111224998B (zh) * 2020-01-21 2020-12-25 福州大学 一种基于极限学习机的僵尸网络识别方法
CN111224998A (zh) * 2020-01-21 2020-06-02 福州大学 一种基于极限学习机的僵尸网络识别方法
CN111756871B (zh) * 2020-06-18 2022-04-26 北京天融信网络安全技术有限公司 一种基于域名服务协议的数据处理方法及电子设备
CN111756871A (zh) * 2020-06-18 2020-10-09 北京天融信网络安全技术有限公司 一种基于域名服务协议的数据处理方法及电子设备
CN113098874A (zh) * 2021-04-02 2021-07-09 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113098874B (zh) * 2021-04-02 2022-04-26 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113328994A (zh) * 2021-04-30 2021-08-31 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN113328994B (zh) * 2021-04-30 2022-07-12 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
WO2023185377A1 (zh) * 2022-03-30 2023-10-05 华为云计算技术有限公司 一种多粒度数据模式挖掘方法及相关设备

Similar Documents

Publication Publication Date Title
CN106992969A (zh) 基于域名字符串统计特征的dga生成域名的检测方法
US11695789B2 (en) Detection of algorithmically generated domains based on a dictionary
CN105577660B (zh) 基于随机森林的dga域名检测方法
CN107786575B (zh) 一种基于dns流量的自适应恶意域名检测方法
US10178107B2 (en) Detection of malicious domains using recurring patterns in domain names
Lin et al. Malicious URL filtering—A big data application
CN108737406B (zh) 一种异常流量数据的检测方法及***
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN111147459B (zh) 一种基于dns请求数据的c&c域名检测方法及装置
US11310200B1 (en) Classifying locator generation kits
CN104504151B (zh) 微信舆情监测***
CN110399606B (zh) 一种无监督电力文档主题生成方法及***
US20200220768A1 (en) Method, apparatus and article of manufacture for categorizing computerized messages into categories
CN107180084A (zh) 词库更新方法及装置
CN110830607B (zh) 域名分析方法、装置和电子设备
CN109714356A (zh) 一种异常域名的识别方法、装置及电子设备
CN110324273A (zh) 一种基于dns请求行为与域名构成特征相结合的僵尸网络检测法
Manasrah et al. DGA-based botnets detection using DNS traffic mining
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及***
IL292756A (en) System and method for detecting impersonation attempts - URLs in domain name system (dns) records
CN107562720B (zh) 一种电力信息网络安全联动防御的告警数据匹配方法
CN113965377A (zh) 一种攻击行为检测方法及装置
CN113438209A (zh) 一种基于改进的Stacking策略的钓鱼网站检测方法
CN116684144A (zh) 一种恶意域名检测方法及装置
Zhu et al. Detecting malicious domains using modified SVM model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170728