CN113271292B

CN113271292B - 一种基于词向量的恶意域名集群检测方法及装置

Info

Publication number: CN113271292B
Application number: CN202110371772.6A
Authority: CN
Inventors: 李依馨; 王利明; 杨婧
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-05-10
Anticipated expiration: 2041-04-07
Also published as: CN113271292A

Abstract

本发明公开了一种基于词向量的恶意域名集群检测方法及装置，包括：通过服务器日志中原始数据，生成各客户端的访问序列；对访问序列从时间维度与空间维度上进行聚类，生成域名访问序列；对各域名访问序列进行访问域名去重处理，生成域名集群；生成各访问域名的域名语义向量；通过域名集群与域名语义向量，生成域名语义向量矩阵；依据域名语义向量矩阵对域名集群进行分类，得到恶意域名集群检测结果。本发明可有效识别进行同一恶意活动的域名集群，为分析恶意活动提供更全面的视角，并且使用数据字段少，使用的计算资源少，提高了检测效率，可有效部署在各类企业或服务商网络中，无需安全人员手动调节参数，预训练好的模型可以稳定有效的运行。

Description

一种基于词向量的恶意域名集群检测方法及装置

技术领域

本发明属于计算机网络空间安全领域，尤其涉及一种基于词向量的恶意域名集群检测方法及装置。

背景技术

恶意域名是攻击者进行恶意活动的基础，目前有不少研究从各种角度旨在发现网络中的恶意域名，主要检测方法有两种：1)基于对象的方法；2)基于关联的方法。

(1)基于对象的检测方法：这种方法主要根据先验知识从多种角度提取用于识别域名恶意性的特征，然后构建分类器识别恶意域名。这类方法从多种类型的数据中收集相关信息，如DNS流量，whois信息，passiveDNS信息，地理位置信息等，常用的相关特征有域名解析IP地址，域名字符特征，域名访问特征等。代表工作主要有Notos[1],EXPOSURE[2],Predator[3],Phonenix[4]等。

(2)基于关联的检测方法:这种方法则专注于分析域名之间的关联来识别恶意域名。经常被使用的关联包括重定向(ShadyPath[5],VisHunter[6])、转移共现关系(GMAD[7],CoDetecter[8])、访问客户端关联([9][10])、解析地址关联[11]、域名注册信息和承载文件关联[12]等。

但是，现在攻击者倾向于利用多个恶意域名组成的动态恶意基础设施平台来进行攻击，与单一域名相比，部署多个恶意域名可以使攻击更加有效和隐秘。

无论是基于对象的检测还是基于关联的检测方法，它们最终的目的是都是检测某一恶意域名，即判断某域名是否是恶意的。这些工作专注于单一的恶意域名检测，忽视了协同完成同一恶意活动域名之间的关联，缺乏对协同工作的恶意域名集群的分析，无法提供观察恶意活动的全景视角。此外，一些关注域名关联的工作则需求复杂的数据集，比如重定向链，承载文件，域名注册信息等，数据获取不易，所需资源较多。

发明内容

本发明针对识别协同参与同一恶意活动的恶意域名集群这一空白，研究分析域名之间的行为关联，设计一种基于词向量的恶意域名集群检测方法及装置，利用客户端访问域名的顺序关系，从时间和空间两个维度提取协同作用完成同一活动的域名，并且利用word2vec的词向量表达方法，提取域名的语义特征，结合CNN模型，综合一个集群中所有域名的语义特征提取相应的集群特征，进而对域名集群进行分类，从而从全局视角观察恶意活动，识别恶意域名集群。

为达到上述目的，本发明的技术方案包括：

一种基于词向量的恶意域名集群检测方法，其步骤包括：

1)提取服务器日志中原始数据的有效数据，并根据所述有效数据，生成各客户端的访问序列，其中有效数据包括：时间戳、源IP和访问域名；

2)对每一访问序列从时间维度与空间维度上进行聚类，生成一个域名访问序列；

3)对每一域名访问序列，若该域名访问序列中相邻的访问域名相同，则进行去重，并将去重后包含多个访问域名的域名访问序列，作为一个域名集群；

4)将一个访问域名视为一个单词，将一个域名集群视为一个句子，并依据域名集群计算所有客户端在访问行为上的相似上下文关系，得到每一访问域名的域名语义向量；

5)通过域名集群与域名语义向量，生成域名语义向量矩阵，并依据域名语义向量矩阵对域名集群进行分类，得到恶意域名集群检测结果。

进一步地，生成各客户端的访问序列之前，对有效数据进行预处理；所述预处理包括：删除若干最活跃客户端的有效数据、过滤不符合规则的访问域名和过滤无效访问域名。

进一步地，通过以下步骤对每一访问序列从时间维度上进行聚类：

1)对每一访问序列Ci＝{(s₁，t₁)，...，(s_j，t_j)，...，(s_n，t_n)}，计算两个相邻的访问请求(s_j，t_j)与(s_j+1，t_j+1)的时间间隔ΔT＝t_j+1-t_j，其中i为客户端序号，j为访问序列Ci中访问请求的序号，s为访问域名，t为时间戳中的访问时间；

2)若时间间隔ΔT大于设定阈值τ，则将该访问序列Ci从此切开，得到若干访问子序列Cp，其中p为访问子序列的序号。

进一步地，通过以下步骤对每一访问序列从空间维度上进行聚类：

1)对每一访问子序列Cp＝{(s₁，t₁)，...，(s_q，t_q)，...，(s_m，t_m)}，计算两个相邻的访问请求(s_q，t_q)与(s_q+1，t_q+1)的域名相似度Similarity(s_q，s_q+1)，其中q为访问序列Cp中访问请求的序号；

2)若域名相似度Similarity(s_q，s_q+1)大于设定阈值γ，则将该访问子序列Cp从此切开，得到域名访问序列。

进一步地，域名相似度

其中Client(s_q)为访问了访问域名s_q的客户端集合。

进一步地，得到域名语义向量的方法包括：使用word2vec的CBOW模式。

进一步地，通过基于textCNN的域名集群分类模型，得到恶意域名集群检测结果，其中所述基于textCNN的域名集群分类模型包括：输入层、嵌入层、卷积层、最大池化层和输出层，所述嵌入层将长度为L的域名语义向量序列，转化为L*k的域名语义向量矩阵，k为域名语义向量的维度；所述卷积层根据L*k的域名语义向量矩阵，生成若干特征图；所述输出层依据最大池化层输出的特征图，对域名集群进行分类。

进一步地，输出层使用softmax函数作为激活函数。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

本发明的有益效果：

1)本方法挖掘识别协同工作的恶意域名集群，与传统的单一恶意域名检测相比，可有效识别进行同一恶意活动的域名集群，为分析恶意活动提供更全面的视角；

2)本方法使用数据字段少，使用的计算资源少，提高了检测效率，可有效部署在各类企业或服务商网络中；

3)本方法提取域名的语义向量作为特征，结合CNN分类模型提取集群特征，并对域名集群进行分类，相较传统的机器学习方法，无需安全人员手动调节参数，预训练好的模型可以稳定有效的运行。

附图说明

图1基于词向量的恶意域名集群检测方法框架。

图2基于textCNN的域名集群分类模型。

图3集群生成实例。

图4集群分类实例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于词向量的恶意域名集群检测方法。考虑属于同一恶意活动的恶意域名天然具有集群性，本发明首先从原始DNS日志中挖掘属于同一活动的域名集群。其次，考虑拥有相似上下文关系的域名具有相似的属性这一假设，利用词向量算法将域名向量化，使功能属性类似的域名在向量空间中有相近的位置。最后，根据各个域名的语义向量，提取域名集群的特征，构建深度学习分类模型，对域名集群进行分类，从中识别恶意域名集群。

具体流程如图1所示，包括：

1.数据预处理：处理原始数据，减小待处理的数据量，包括有效字段提取、数据清洗和用户访问序列生成三个部分。

2.域名集群提取：从时间维度和空间维度两个方面对访问域名进行聚类，生成域名集群。

3.恶意域名集群识别：主要包括域名语义特征提取和恶意域名集群识别两个部分。使用域名集群结合word2vec词向量提取算法，生成单个域名的语义特征向量，进一步综合集群中所有域名的特征向量利用深度学习方法进行域名集群分类。

对上述处理流程进行展开说明。

对于前述数据预处理步骤的主要流程为：

1.有效字段提取：关键步骤在于选择原始数据中的时间戳、源IP、访问域名三个关键字段。上述字段为检测所需字段的最小集合，缺一不可。

2.数据清洗：关键步骤在于对数据进行过滤处理，减少待处理数据，提高检测效率。

a)客户端过滤：一些过于活跃的客户端可能发出远超正常请求数目的访问请求，例如该客户端是为许多真实用户转发请求的网关。这些客户端的访问请求行为与正常客户端有巨大的差异，为了提高检测准确率，最活跃的片％的客户端被从原始数据中过滤。

b)域名过滤：

i.不符合规则的域名过滤。过滤原始数据中不符合域名命名规则的域名。

ii.无效域名过滤。过滤原始数据中未被注册在IANA的域名。

c)客户端访问序列生成。根据客户端访问请求的时间关系，生成所有客户端访问序列集合。R＝∪Ci是客户端访问序列的集合，其中Ci＝{(s₁，t₁)，(s₂，t₂)，...(s_n，t_n)}是客户端Ci的时间访问序列，(s₁，t₁)表示客户端Ci在t₁时刻访问了域名s₁。

对于前述域名集群提取步骤的主要流程为：

1.时间维度聚类。客户端的域名访问请求在时间维度上呈现自然的聚类现象，如在打开一个页面时候往往需要访问不同的域名来加载网页内容。对于一个客户端Ci的两个相邻的访问请求(s_j，t_j)和(s_j+1，t_j+1)，计算时间间隔ΔT＝t_j+1-t_j，如果大于某个固定的阈值τ，则将访问序列从此切开，前后属于不同的序列。经过此步骤，客户端Ci的访问序列按照时间聚集性被切割成多个团体。

2.空间维度聚类。对于协同工作的域名，它们协同完成某一网络活动，所以它们拥有相似的客户端群，对于时间维度切割后的访问序列，进一步按照域名的客户端相似性进行切割。对于客户端Ci的两个相邻的访问请求(s_j，t_j)和(s_j+1，t_j+1)，计算域名s_j和s_j+1的客户端相似度，如果相似度小于某一个特定的阈值γ，则将序列从此切开，相似度的计算公式如下，其中Client(s_j)指访问了域名s_j的客户端集合。

3.域名集群生成。对于经过上述步骤切开的域名访问序列(s₁，s₂，...，s_n)，如果相邻的两个访问域名一致，则只保留一个域名。经过处理的包含超过两个域名(含两个)的访问序列就是一个域名集群。

对于前述恶意域名集群识别步骤的主要流程为：

1.域名语义向量提取。这一步的目的是将域名集群中的域名映射到低纬度的特征向量，同时尽可能的保留域名访问的上下文关系。将一个域名视为一个单词，将一个域名集群视为一个句子，则可以利用词向量提取算法将在访问行为上拥有相似上下文关系的域名映射到向量空间中相似的位置，使用word2vec的CBOW模式，将域名集群提取步骤中得到的所有集群结果作为输入，设置上下文窗口参数，输出每个域名对应的k维特征向量，这种向量包含域名的深度语义特征。

2.基于textCNN的域名集群分类。将一个域名视为一个单词，一个域名集群视为一个句子，则集群分类问题等价于文本分类问题。利用textCNN模型，构建包含输入层，嵌入层，卷积层，最大池化层，和输出层的神经网络，如图2所示。

a)输入层。输入层将域名集群生成步骤中得到的域名集群作为输入。

b)嵌入层。假设x_i是域名集群中第i个域名对应的k维特征向量。则一个长度为L的域名集群可以表示为

嵌入层将长度为L的域名集群作为输入，结合域名语义向量提取步骤中得到每个域名对应的k维特征向量，输出形式为L*k的域名语义向量矩阵。

c)卷积层。设置三种不同规格的卷积核，每种规格的卷积核有100个，卷积核的窗口大小分别为3，4，5。特征c_i由一个窗口为h的卷积核生成c_i＝f(w*x_i：i+h-1+b)，f在这里使用ReLU算法，W是h×k维的权重矩阵，b是偏置参数。将一个窗口为h的卷积核应用到一个访问序列中所有可能的窗口{x_1：h，x_2，h+1，...x_n-h+1：n}中，得到对应的特征图c＝[c₁，c₂，...，c_n-h+1]，，对于三百个不同的卷积核，生成对应的300个特征图。

d)最大池化层。对特征图进行最大池化操作，得到

作为一个特征图的最重要的特征。在这步中，获得300个特征。

e)将所有特征输入全连接层并且使用softmax函数作为激活函数，输出对应的预测结果。

本发明包括训练和检测两个模式，在训练模式中，使用有标记的集群作为输入，训练相应的语义向量模型，并在此基础上训练集群分类模型；在检测模式中，将无标记的集群数据作为输入，结合训练好的语义向量模型进行语义向量的增量训练，得到所有域名的语义向量，而后再用训练好的分类模型进行分类，得到检测结果。两个模式的步骤一致，具体实例如下所述。

在数据预处理阶段，以DNS日志为例，原始DNS数据经过有效字段提取和数据清洗之后，得到的数据为<时间戳，源IP，访问域名>三个字段，将获得数据根据源IP聚合，并根据访问时间排序，生成源IP的访问序列。

在域名集群提取阶段，如附图3所示，有两个源IPC1、C2，设置时间切割阈值τ＝5和客户端相似度阈值γ＝0.8，经过时间和空间聚类后的结果进一步去除相邻重复的冗余访问，得到最终的聚类结果作为域名集群。

在恶意域名集群识别阶段，如附图4所示，将集群结果作为句子作为word2vec的CBOW模型输入，设置向量维度为128维，训练得到域名对应的语义向量。而后将集群结果和域名对应的语义向量作为输入，输入基于textCNN的域名集群分类模型中，分类模型预测分类结果，检测恶意集群。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明范围，本发明的保护范围应以权利要求书所述为准。

引用文献：

[1]M.Antonakakis，R.Perdisci，D.Dagon，W.Lee，and N.Feamster，“Building adynamic reputation system for dns.”in USENIX security symposium，2010，pp.273-290.

[2]L.Bilge,E.Kirda,C.Kruegel,and M.Balduzzi,“Exposure:Findingmalicious domains using passive dns analysis.”in Ndss,2011,pp.1–17.

[3] S.Hao,A.Kantchelian,B.Miller,V.Paxson,and N.Feamster,“Preda-tor:proactive recognition and elimination ofdomain abuse at time-of-registration,”in Proceedings ofthe 2016ACM SIGSAC Conference on Computer andCommunications Security.ACM,2016,pp.1568–1579.

[4]S.Schiavoni,F.Maggi,L.Cavallaro,and S.Zanero,“Phoenix:Dga-basedbotnet tracking and intelligence,”in International Conference on DetectionofIntrusions and Malware,andVulnerability Assessment.Springer,2014,pp.192–211.

[5]G.Stringhini,C.Kruegel,and G.Vigna,“Shadypaths:Leveraging surfingcrowds to detect malicious web pages,”in Proceedings ofthe 2013ACM SIGSACconference on Computer&communications security.ACM,2013,pp.133–144.

[6]J.Zhang,X.Hu,J.Jang,T.Wang,G.Gu,and M.Stoecklin,“Hunting forinvisibility:Characterizing and detectingmalicious web infrastructuresthrough servervisibility analysis,”in IEEE INFOCOM 2016-The 35th Annual IEEEInternational Conference on Computer Communications.IEEE,2016,pp.1–9.

[7]J.Lee and H.Lee,“Gmad:Graph-based malware activity detection bydns traffic analysis,”Computer Communications,vol.49,pp.33–47,2014.

[8]彭成维,云晓春,张永铮,等.一种基于域名请求伴随关系的恶意域名检测方法[J].计算机研究与发展,2019,56(6):1263.

[9]Manadhata P K,Yadav S,Rao P,et al."Detectingmalicious domains viagraph inference."European Symposium on Research in ComputerSecurity.Springer,Cham,2014.

[10]Rahbarinia,Babak,Roberto Perdisci,and Manos Antonakakis."Segugio:Efficientbehavior-based trackingofmalware-control domains in large ISPnetworks."201545th Annual IEEE/IFIP International Conference on DependableSystems and Networks.IEEE,2015.

[11]Khalil,Issa,TingYu,and Bei Guan."Discoveringmalicious domainsthrough passive DNS data graph analysis."Proceedings ofthe 11th ACM on AsiaConference on Computer and Communications Security.2016.

[12]J.Zhang,S.Saha,G.Gu,S.-J.Lee,andM.Mellia,“Systematicminingofassociated server herds for malware campaign discovery,”in 2015 IEEE35th International Conference on Distributed ComputingSystems.IEEE,2015,pp.630–641.

Claims

1.一种基于词向量的恶意域名集群检测方法，其步骤包括：

5)将域名集群输入基于textCNN的域名集群分类模型，得到恶意域名集群检测结果；

其中所述基于textCNN的域名集群分类模型包括：

输入层，用以将域名集群作为输入；

嵌入层，用以基于域名集群与每一访问域名的域名语义向量，生成L*k维的域名语义向量矩阵，L为域名集群的长度，k为域名语义向量的维度；

卷积层，用以根据L*k维的域名语义向量矩阵，生成若干特征图；

最大池化层，用以对所述特征图进行最大池化操作，获取特征图的特征；

输出层，用以将所有特征图的特征输入全连接层并且使用softmax函数作为激活函数，输出恶意域名集群检测结果。

2.如权利要求1所述的方法，其特征在于，生成各客户端的访问序列之前，对有效数据进行预处理；所述预处理包括：删除若干最活跃客户端的有效数据、过滤不符合规则的访问域名和过滤无效访问域名。

3.如权利要求1所述的方法，其特征在于，通过以下步骤对每一访问序列从时间维度上进行聚类：

1)对每一访问序列Ci＝{(s₁,t₁),…,(s_j,t_j),…,(s_n,t_n)}，计算两个相邻的访问请求(s_j,t_j)与(s_j+1,t_j+1)的时间间隔ΔT＝t_j+1-t_j，其中i为客户端序号，j为访问序列Ci中访问请求的序号，s为访问域名，t为时间戳中的访问时间；

4.如权利要求3所述的方法，其特征在于，通过以下步骤对每一访问序列从空间维度上进行聚类：

1)对每一访问子序列Cp＝{(s₁,t₁),…,(s_q,t_q),…,(s_m,t_m)}，计算两个相邻的访问请求(s_q,t_q)与(s_q+1,t_q+1)的域名相似度Similarity(s_q,s_q+1)，其中q为访问序列Cp中访问请求的序号；

2)若域名相似度Similarity(s_q,s_q+1)大于设定阈值γ，则将该访问子序列Cp从此切开，得到域名访问序列。

5.如权利要求4所述的方法，其特征在于，域名相似度

其中Client(s_q)为访问了访问域名s_q的客户端集合。

6.如权利要求1所述的方法，其特征在于，得到域名语义向量的方法包括：使用word2vec的CBOW模式。

7.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-6中任一所述方法。

8.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-6中任一所述方法。