CN106992969A

CN106992969A - 基于域名字符串统计特征的dga生成域名的检测方法

Info

Publication number: CN106992969A
Application number: CN201710123327.1A
Authority: CN
Inventors: 方玮; 任梦晨; 刘光杰; 翟江涛; 刘伟伟; 戴跃伟
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2017-07-28

Abstract

本发明公开了一种基于域名字符串统计特征的DGA生成域名的检测方法。该方法提取域名字符串中包含连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率六个维度的统计特征量，并通过包含正常域名和典型DGA算法生成的恶意域名的测试集合训练分类器，通过分类器实现对恶意软件DGA生成域名的检测。本发明采用特征提取和分类器训练分类的模式，且所提六个维度的统计特征量均能敏感地区分正常域名和DGA生成的域名，降低了实施训练和检测的计算复杂度。

Description

基于域名字符串统计特征的DGA生成域名的检测方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于域名字符串统计特征的DGA生成域名的检测方法。

背景技术

DNS作为实现域名和IP地址映射的分布式***，是当前互联网中重要的基础设施之一。进行间谍活动、勒索破坏、僵尸网络的恶意软件和C&C进行通信过程中，通常会避免使用确定的IP地址以避免C&C迁移后导致的通信失连。而固定的域名也容易导致形成可察觉的软件指纹。且域名一旦被列人黑名单，软件的远控即失效。在这种背景下Domain-Flux技术(Sharifnya R,Abadi M.DFBotKiller:Domain-flux botnet detection based on thehistory of group activities and failures in DNS traffic[J].DigitalInvestigation,2015,12(12):15-26.)得到了广泛应用，它采用域名生成算法DGA，通过特定的参数(如网络时间，热门话题等)定期自动生成大量的随机域名。实施远控的C&C控制者通过相同的种子获得相同的域名池，并选取其中的一部分域名注册为C&C服务器的域名。恶意程序在域名池中随机挑选域名进行DNS解析，一旦解析成功便可获得C&C服务器的IP地址并与之建立连接。由于其他一些实施APT攻击和Botnet控制的软件也大量使用这一手段。所以针对DGA生成域名的DNS请求的发现，成为一种间接的恶意软件检测方法。当前这方面的主要方法如下：

第一种是随机森林的dga域名检测方法(王红凯,张旭东等.基于随机森林的dga域名检测方法:CN105577660A[P].2015)，该方法主要使用了域名长度、域名信息上、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白明代中得分以及域名中N元语言模型在单词字典中的得分。该方法采用的特征数量多，且存在很多区分能力不强的低阶特征，训练的时间长效率低。

第二种基于域名特征的c&c域名识别方法(唐力,岳扶天,周海燕.基于域名特征的c&c域名识别方法，CN105072214A[P].2015)，该方法陈述的主要特点是对给定的域名生成用于判定域名类别的量化指标，并简单举例该指标可以报考元音字母占比、域名中的拼音出现次数等。方法的技术特征不明显，其陈述的训练和学习方法为该领域的一般技术，无法精确高效地区分正常域名和DGA生成的域名。

第三种实现恶意域名识别的方法及装置(侯伟,曲武,周涛.一种实现恶意域名识别的方法及装置,CN105024969A[P].2014)，该发明主要声明了一种动态特征的恶意域名可信判断模型，这个动态特征集合包括与IP相关的特征、和/或权威服务器主域名一致率。其方法是主要是基于恶意软件的DNS请求的概率，而其中的域名相关的统计特征采用的是比较简单的字符和数字特征，被作为静态特征进行过滤黑名单的设定。该方法由于需要用到DNS请求的通信行为的特征，因此复杂度较高。

发明内容

本发明的目的在于提供一种复杂度低、精度高的基于域名字符串统计特征的DGA生成域名的检测方法。

实现本发明目的的技术解决方案为：一种基于域名字符串统计特征的DGA生成域名的检测方法，包括以下步骤：

步骤1，收集整理并构建正常的标准域名集合，将其中超过三个字符的二级或者三级域名取出，构成由字母、数字和连字符组成的域名字符串SN_i，i＝1,2,…,N；所述域名字符串SN_i的集合SDN作为后续特征矢量构造的数据基础；

步骤2，收集整理并构建正常的域名集合，将其中超过三个字符的二级或者三级域名取出，构成由字母、数字和连字符组成的域名字符串LN_j,j＝1,2,…,n_L的集合LDN；收集整理恶意软件DGA算法生成的域名集合，将其中超过三个字符的二级或者三级域名取出，构成由字母、数字和连字符组成的域名字符串DN_k，k＝1,2,…,n_D的集合DDN；

步骤3，提取LDN中所有LN_j和DDN中所有DN_k的统计特征，得到LDN中所有LN_j的特征矢量集合LV、DDN中所有DN_k的特征矢量集合DV，LV中具有n_L个六维的特征矢量，DV中具有n_D个六维的特征矢量；

步骤4，对LV中的特征矢量添加标记1，对DV中的特征矢量添加标记-1，分别作为正样本和负样本构成测试集合训练分类器，通过分类器实现对恶意软件DGA生成域名的检测。

进一步地，步骤3所述特征矢量具体如下：

V(X)＝[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]

其中，X为LDN中所有LN_j或DDN中所有DN_k；

SDR(X)、SCR(X)、DSIM(X)、TSIM(X)、V2DC(X)、C2DC(X)分别为连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率。

进一步地，步骤3所述连续数字占比SDR(X)＝NUM_2DP(X)/LEN(X)，其中，NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度，LEN(X)为域名长度；

所述连续二辅字占比SCR(X)＝NUM_2CP(X)/LEN(X)，其中，NUM_2DP(X)为域名中所有两个或两个以上连续辅音字母的总长度，LEN(X)为域名长度。

进一步地，步骤3所述随机相邻双字平均相似指数DSIM(X)为：

DSIM(X)＝1/M×∑_Y∈pSDN(|SD(X)∩SD(Y)|/|SD(X)∪SD(Y)|)

其中，pSDN是从SDN集合中随机选择的包含M个域名的子集，函数SD(X/Y)表示将X/Y分成的相邻的双字母组成的集合，|SD(X)∩SD(Y)|是集合SD(X)和集合SD(Y)的交集中元素的个数；|SD(X)∪SD(Y)|是集合SD(X)和集合SD(Y)的并集中元素的个数；

所述随机相邻三字平均相似指数TSIM(X)为：

TSIM(X)＝1/M×∑_Y∈pSDN(|TD(X)∩TD(Y)|/|TD(x)∪TD(Y)|)

其中，函数TD(X/Y)表示将X/Y分成的相邻的三字母组成的集合，|TD(X)∩TD(Y)|是集合TD(X)和集合TD(Y)的交集中元素的个数；|TD(X)∪TD(Y)|是集合TD(X)和集合TD(Y)的并集中元素的个数。

进一步地，步骤3所述单元音字母到二字符平均转移概率V2DC(X)具体如下：

根据SDN中合法标准域名SN，统计得到单元音字母到任意二字符转移概率P(y,z|x)，对域名字符串X,设X具有后续二个字符元音x的集合为VX，VX的元素个数为Mv，且元音x的后续字符分别为y(x)、z(x)，则单元音字母到二字符平均转移概率V2DC(X)为：

V2DC(X)＝1/Mv×∑_Y∈VX P(y(x),z(x)|x)

所述单辅音字母到二字符平均转移概率C2DC(X)具体如下：

根据SDN中合法域名SN，统计得到单辅音字母到任意二字符转移概率P(y,z|x’)，对域名字符串X,设X具有后续二个字符辅音x’的集合为CX，CX的元素个数为Mc，且辅音x’的后续字符分别为y(x’)，z(x’)，则单辅音字母到二字符平均转移概率C2DC(X)为：

C2DC(X)＝1/Mc×∑_Y∈CX P(y(x’),z(x’)|x’)

本发明与现有技术相比，其显著优点为：(1)采用,特征提取+分类器训练分类的模式，实现了对恶意程序DGA自动生成域名的检测；(2)所用的特征均直接提取自域名字符串的统计量，无须使用DNS请求的相关通信行为方面的特征；(3)所用的连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率特征均能敏感地区分正常域名和DGA生成的域名，所提方案的维度较低，实施训练和检测的计算复杂度低。

附图说明

图1为本发明基于域名字符串统计特征的DGA生成域名的检测方法的流程图。

具体实施方式

下面将结合附图对本方面的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下获得的所有其他实施例，都属于本发明保护的范围。

本发明基于域名字符组合的统计异常性，从域名字符串提取了六种统计量并在此基础上利用统计学习方法训练分类器，来实现对恶意软件DGA动态生成域名的检测，具体步骤如下：

所述特征矢量具体如下：

V(X)＝[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]

其中，X为LDN中所有LN_j或DDN中所有DN_k；

(1)所述连续数字占比SDR(X)＝NUM_2DP(X)/LEN(X)，其中，NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度，LEN(X)为域名长度。

(2)所述连续二辅字占比SCR(X)＝NUM_2CP(X)/LEN(X)，其中，NUM_2DP(X)为域名中所有两个或两个以上连续辅音字母的总长度，LEN(X)为域名长度。

(3)所述随机相邻双字平均相似指数DSIM(X)为：

DSIM(X)＝1/M×∑_Y∈pSDN(|SD(X)∩SD(Y)|/|SD(X)∪SD(Y)|)

其中，pSDN是从SDN集合中随机选择的包含M个域名的子集，函数SD(X/Y)表示将X/Y分成的相邻的双字母组成的集合，|SD(X)∩SD(Y)|是集合SD(X)和集合SD(Y)的交集中元素的个数；|SD(X)∪SD(Y)|是集合SD(X)和集合SD(Y)的并集中元素的个数。

(4)所述随机相邻三字平均相似指数TSIM(X)为：

TSIM(X)＝1/M×∑_Y∈pSDN(|TD(X)∩TD(Y)|/|TD(x)∪TD(Y)|)

(5)所述单元音字母到二字符平均转移概率V2DC(X)具体如下：

V2DC(X)＝1/Mv×∑_Y∈VX P(y(x),z(x)|x)

(6)所述单辅音字母到二字符平均转移概率C2DC(X)具体如下：

C2DC(X)＝1/Mc×∑_Y∈CX P(y(x’),z(x’)|x’)

实施例1

图1为本发明的具体检测实施过程，下面分别介绍：

步骤1，从Alexa(www.alexa.com)上收集排名前200k的合法域名，随机选择其中的100k，将其中的其中超过三个字符的二级或者三级域名取出，构成域名中包含字母、数字和连字符组成的域名字符串SN_i，i＝1,2,…,N,N＝10⁵；所述域名字符串SN_i的集合SDN作为后续特征矢量构造的数据基础；

步骤2，从Alexa(www.alexa.com)上收集的排名前200k的合法域名中随机选择其中的100k，将其中的其中超过三个字符的二级或者三级域名取出，构成由字母、数字和连字符组成的域名字符串LN_j,j＝1,2,…,n_L,n_L＝10⁵的集合LDN；收集Conficker C、CryptoLocker、Zeus、CoreBot、Matsnu、GameOver Zeus和GameOver Zeus变种New GameOverZeus等七种恶意程序的DGA域名集合，将其中的其中超过三个字符的二级或者三级域名取出，构成由字母、数字和连字符组成的域名字符串DN_k，k＝1,2,…,n_D,n_D＝10⁵的集合DDN。

步骤3，提取LDN中所有LN_j和DDN中所有DN_k的统计特征，得到LDN中所有LN_j的特征矢量集合LV、DDN中所有DN_k的特征矢量集合DV，LV中具有n_L个六维的特征矢量，DV中具有n_D个六维的特征矢量，所述特征矢量具体如下：

V(X)＝[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]

其中，X为LDN中所有LN_j或DDN中所有DN_k；

SDR(X)、SCR(X)、DSIM(X)、TSIM(X)、V2DC(X)、C2DC(X)分别为连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率，其中：

1)域名X连续数字占比：

SDR(X)＝NUM_2DP(X)/LEN(X)

其中，NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度，LEN(X)为域名长度。

2)连续二辅音字符占比：

SCR(X)＝NUM_2CP(X)/LEN(X)

其中，NUM_2DP(X)为域名中所有两个或两个以上连续辅音字母的总长度，LEN(X)为域名长度。

3)随机相邻双字平均相似指数

DSIM(X)＝1/M×∑_y∈pSDN(|SD(X)∩SD(Y)|/|SD(X)∪SD(Y)|)

其中，pSDN是从SDN集合中随机选择的包含M,M＝50000个域名的子集。函数SD(X/Y)表示将X/Y分成的相邻的双字母组成的集合。|SD(X)∩SD(Y)|是集合SD(X)和集合SD(Y)的交集中元素的个数；|SD(X)∪SD(Y)|是集合SD(X)和集合SD(Y)的并集中元素的个数；

4)随机相邻三字平均相似指数

TSIM(X)＝1/M×∑_Y∈pSDN(|TD(X)∩TD(Y)|/|TD(x)∪TD(Y)|)

其中，其中，函数TD(X/Y)表示将X/Y分成的相邻的三字母组成的集合，|TD(X)∩TD(Y)|是集合TD(X)和集合TD(Y)的交集中元素的个数；|TD(X)∪TD(Y)|是集合TD(X)和集合TD(Y)的并集中元素的个数；

5)单元音字母到二字符平均转移概率

V2DC(X)＝1/Mv×∑_Y∈VX P(y(x),z(x)|x)

6)单辅音字母到二字符平均转移概率

根据SDN中大量的合法域名SN，统计得到单辅音字母到任意二字符转移概率P(y,z|x’)，如果出现转移概率为0的情况，则赋一个很小的值ε.对域名字符串X,设其具有后续二个字符辅音x’集合为CX，CX的元素个数为Mc，且辅音x’的后续字符分别为y(x’)，z(x’)，则单辅音字母到二字符平均转移概率C2DC(X)为：

C2DC(X)＝1/Mc×∑_Y∈CX P(y(x’),z(x’)|x’)

步骤4，通过上述计算，我们得到LDN和DDN中LN_i和DN_i的矢量集合LV和DV，LV中具有n_L个六维的矢量，DV中具有n_D个六维的矢量。分别为其添加标记1和-1，作为正样本和负样本，利用基于RBF核的SVM分类器采用的进行训练，其中惩罚参数c＝128.0，RBF核函数参数gamma＝2.0。具体采用Libsvm的相关函数库，通过交叉验证可以训练得到model文件。值得指出的其他的诸如神经网络、决策树、极限学习机和其他学习算法也可以用于本检测方法。

步骤5，利用学习的model文件，可以利用Libsvm的predict函数对需要检测的域名字符串进行检测。如图1所示，检测器支持对在线抓取数据的检测和离线的存储下来的批量的域名字符串的检测。

Claims

1.一种基于域名字符串统计特征的DGA生成域名的检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于域名字符串统计特征的DGA生成域名的检测方法，其特征在于，步骤3所述特征矢量具体如下：

V(X)＝[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]

其中，X为LDN中所有LN_j或DDN中所有DN_k；

3.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法，其特征在于，步骤3所述连续数字占比SDR(X)＝NUM_2DP(X)/LEN(X)，其中，NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度，LEN(X)为域名长度；

4.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法，其特征在于，步骤3所述随机相邻双字平均相似指数DSIM(X)为：

DSIM(X)＝1/M×∑_Y∈pSDN(|SD(X)∩SD(Y)|/|SD(X)∪SD(Y)|)

所述随机相邻三字平均相似指数TSIM(X)为：

TSIM(X)＝1/M×∑_Y∈pSDN(|TD(X)∩TD(Y)|/|TD(x)∪TD(Y)|)

5.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法，其特征在于，步骤3所述单元音字母到二字符平均转移概率V2DC(X)具体如下：

V2DC(X)＝1/Mv×∑_Y∈VX P(y(x),z(x)|x)

所述单辅音字母到二字符平均转移概率C2DC(X)具体如下：

C2DC(X)＝1/Mc×∑_Y∈CX P(y(x’),z(x’)|x’)。