CN114095216A

CN114095216A - 一种有限训练样本下基于对比学习的恶意域名检测方法

Info

Publication number: CN114095216A
Application number: CN202111294445.1A
Authority: CN
Inventors: 胡晓艳; 栗淼; 程光; 吴桦; 龚俭
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-25
Anticipated expiration: 2041-11-03
Also published as: CN114095216B

Abstract

本发明提供了一种有限训练样本下基于对比学习的恶意域名检测方法，具体步骤包括：引入对比学习思想设计基于孪生网络的神经特征提取器，构建同类/异类的标签编码域名对，进行训练；将获取的域名神经特征向量集输入到机器学习算法模型中，训练得到域名分类器；将待检测域名依次输入特征提取器和域名分类器，得到判别结果。本发明从数据的角度缓解了样本不足的问题，能够自动化地提取特征，且特征具有高区分度利于进一步检测，以便更有效地检测出恶意域名样本，有利于拦截恶意活动中的通信并避免其进一步传播，从而提高对僵尸网络等常见恶意攻击模式的安全防御和监督能力。

Description

一种有限训练样本下基于对比学习的恶意域名检测方法

技术领域

本发明属于网络空间安全技术领域，涉及一种有限训练样本下基于对比学习的恶意域名检测方法。

背景技术

一些常见的恶意攻击模式如僵尸网络，钓鱼网站，勒索病毒等，对网络活动的正常进行产生了巨大的威胁，并成为安全领域的研究热点。在这些恶意活动中，域名起着举足轻重的作用。攻击者通过使用域名生成算法(Domain Generation Algorithms，DGA)生成大量备选恶意域名(称为Algorithmically-Generated Domains，AGD)并选取少量进行注册。由于这种恶意域名数量大、变化快、生存周期短，传统的黑名单安全检测手段对这些攻击模式失效。僵尸主机便可与远程命令和控制服务器(Command&Control Server，C&CServer)建立连接，顺利进行恶意活动。因此，对恶意域名进行有效检测，有利于阻断恶意活动中的通信、避免其进一步传播从而提高防御***的安全防范和监管能力。

已有DGA不同类别间存在样本数量不平衡的现象，类内数量多达十万，少则一百及以下。一些大型类数据量充足，可满足已有方法需求检测效果较好，同时已被逆向工程等研究分析透彻。但小型类由于有限样本数量过少，已有方法尤其是DL方法检测效果并不好。例如新型DGA变体，鉴于其生成速度和周期，在检测初期难以获取足够的样本数据，近年来也逐渐成为主要关注点。

以往传统的逆向工程等检测分析方法由于周期长和复杂性被作为辅助性工作，传统机器学*** 衡的问题，未能良好适应有限训练样本的情况。本文从有限训练样本量情况下已有方法所暴露出的缺点出发，引入对比学习的思想从数据角度缓解了样本不足的问题，并采用孪生网络框架提出了一种检测方法。

发明内容

针对样本量有限即不充足的情况，本发明阐述了一种有限训练样本下基于对比学习的恶意域名检测方法，旨在及时预防和制止恶意攻击活动以加强安全防护和监管。本发明采用对比学习的思想从数据的角度缓解样本不足的问题，并有效提高信息利用率，同时相对于已有研究使用的百万级别样本数量，仅使用千数量级。它的实现步骤分为三步：首先设计了基于孪生网络的神经特征提取器，用来自动化获取域名的向量化表示；其次基于5种经典的机器学习算法并采用投票集成方法构建域名分类器；依次利用特征提取器和分类器，对待检测域名进行判别，筛选出恶意域名。

为了达到上述目的，本发明提供如下技术方案：

一种有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，包括如下步骤：

(1)采用基于对比学习思想的孪生网络框架设计模型，并使用标签编码形式的有限训练域名样本集构建正/负对进行训练，得到可自动化获取可区分特征的特征提取器。

(2)使用步骤(1)得到的特征提取器，将标签编码形式的有限训练域名样本集转换为唯一对应的神经特征向量集，并与对应良性/恶意属性标签一起作为训练数据，获取5种基分类器，并采用投票集成方法获得域名分类器。

(3)先后利用步骤(1)训练好的特征提取器和步骤(2)训练好的域名分类器，识别待检测域名。

进一步地，所述步骤(1)具体包括如下子步骤：

(1.1)获取有限域名训练样本的标签编码形式，并根据域名的良性/恶意属性两两配对构建正/负域名样本对。

(1.2)设计两个结构相同的子网络，每个子网络采用BiLSTM作为核心结构，输入接受一个编码向量，输出一个神经特征向量。

(1.3)连接两个子网络进而构建伪孪生网络，所述伪孪生网络将步骤(1.1)生成的正/ 负域名样本对作为输入，域名神经特征向量对间的距离视为输出，该伪孪生网络引入对比损失函数来影响向量对间距离，从而学习域名的神经特征向量表示。

(1.4)将步骤(1.1)构建的正/负域名样本对输入到伪孪生网络进行迭代训练，训练完成后将全连接层，即Dense层获得的神经特征向量视为输出，即最终得到两个自动化获取可区分特征的特征提取器。

进一步地，所述步骤(1.1)具体包括如下子步骤：

(1.1.1)获得标签向量形式：对于训练样本中的每个域名，先使用数值向量表示。具体地，域名序列中的每个字符使用数值序号标记。

(1.1.2)配对生成正/负样本：正样本对中的两个域名均为良性/恶意，负样本对中的域名为一个良性和一个恶意。这种操作在一定意义上扩大了数据规模，提高了信息利用率，从而缓解样本不足的问题。

进一步地，所述步骤(1.2)中每个子网络采用嵌入层、Dropout层、双向长短期记忆神经网络层、全连接层的结构；双向长短期记忆神经网络层作为核心层挖掘域名信息，其输出是通过组合前向和后向输出获得的；子网络为输入域名提取k个新特征，子网络的输出神经特征向量H：

H＝[h₁,h₂…,h_k]

其中h₁,h₂…,h_k表示输出神经特征向量H中的每个特征。

进一步地，所述步骤(1.3)具体包括如下子步骤：

(1.3.1)采用欧氏距离计算两个子网络的输出神经特征向量的距离差值，作为伪孪生网络的输出，计算方法为：

其中d(H₁,H₂)表示两个子网络的输出神经特征向量H₁(a₁,a₂…,a_k)和H₂(b₁,b₂…,b_k)之间的距离,||.||₂表示2-范数；

(1.3.2)伪孪生网络的损失函数计算方法为：

其中N是样本对总数，y是代表是正/负样本的1/0标签，d代表成对向量间欧式距离，参数margin用于设置阈值，当负样本对y＝0的d>margin时损失loss视为0；当样本对来自同类时标签y＝1；而来自异类样本时标签y＝0。

进一步地，所述步骤(1.4)具体包括如下子步骤：

(1.4.1)调整子网络和构建的伪孪生网络中的参数，寻找最合适的参数。

(1.4.2)设置好参数后，迭代训练直到收敛，完成学习的孪生网络包含两个子网络，作为两个自动化获取可区分特征的特征提取器。

进一步地，所述步骤(2)具体包括如下子步骤：

(2.1)获取有限域名训练样本的标签编码形式即编码向量集；

(2.2)将步骤(2.1)中编码向量集输入到步骤(1)得到的两个特征提取器，获得两个特征向量集，合并后得到最终唯一对应的训练样本神经特征向量集，合并计算方式如下

V_C＝V₁+V₂

其中域名C利用两个特征提取器分别得到对应向量V₁和V₂，最终唯一对应向量表示为V_C。

(2.3)利用域名训练样本在步骤(2.2)获取的神经特征向量集以及对应属性标签，构建域名分类器模型，先使用K近邻、支持向量机、随机森林、高斯朴素贝叶斯和伯努利朴素贝叶斯算法，获得五种基分类器，再利用投票集成学习获得最终域名分类器，其中良性属性对应1标签，恶意属性对应0标签。

进一步地，所述步骤(3)具体包括如下子步骤：

(3.1)获取待检测域名样本的标签编码形式即编码向量集；

(3.2)将步骤(3.1)中编码向量集输入到特征提取器，按步骤(2.2)合并输出的两个特征向量集，获得待检测域名神经特征向量集；

(3.3)将步骤(3.3)中神经特征向量集输入到域名分类器，预测相应的属性标签，得到向量化表示的域名对应良性/恶意的检测结果。

与现有技术相比，本发明具有如下优点和有益效果：

(1)本发明基于对比学习从数据角度缓解了域名检测中出现的样本量不足的问题，提高了信息利用率，贡献了该研究领域一种自动化提取可区分特征的方法。

(2)本发明能够精准的识别出恶意域名，为网络管理员监管恶意攻击活动提供新的解决方案。现有分类器在数据量充足时效果好，但小样本情况下其效果显著下降。本文方法在样本量较小情况下，有效提升分类效率。

附图说明

图1为本发明提供的有限训练样本下基于对比学习的恶意域名检测方法实现框架。

图2为使用基于孪生网络的特征提取器前后(标签特征向量到神经特征向量)，域名向量对的距离差值。

图3为对检测方法进行10次抽样检测实验的F1分数结果。

图4为对检测方法进行10次抽样检测实验的准确率结果。

图5为生成标签编码的过程示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提出了一种有限训练样本下基于对比学习的恶意域名检测方法，实现步骤如图1 所示，包括三个部分，第一部分为训练基于孪生网络的特征提取器，具体内容为，首先获取标签编码形式的有限域名训练样本集，根据属性进行配对构建正负样本对，其次设计两个结构相同、权重不同的基于BiLSTM的子网络，然后采用孪生网络框架连接两个子网络设计特征提取器，将正负样本对输入到网络中迭代训练，最终得到特征提取器；第二部分为分类器的训练，具体内容为获取标签编码形式的有限域名训练样本集并输入特征提取器，得到唯一对应的训练样本神经特征向量集，基于5种经典机器学习算法并采用投票集成的方法构建域名分类器；第三部分为处理待检测域名集，识别恶意域名，具体为先后使用前两部分产物，筛选出恶意域名。

具体地说，本发明方法有以下步骤：

本步骤的具体过程如下：

(1.1)获取有限域名训练样本的标签编码形式，并根据域名的良性/恶意属性两两配对构建正/负域名样本对，具体过程如下：

(1.1.1)获得标签向量形式：对于训练样本中的每个域名，先使用数值向量表示，具体地，域名序列中的每个字符使用数值序号标记，具体编码过程如图5所示；

(1.1.2)配对生成正/负样本对：正样本对中的两个域名均为良性/恶意，负样本对中的域名为一个良性和一个恶意。这种操作在一定意义上扩大了数据规模，提高了信息利用率，从而缓解样本不足的问题。

(1.2)设计两个结构相同的子网络，每个子网络采用BiLSTM作为核心结构，输入接受一个编码向量，输出一个神经特征向量，具体过程如下：

每个子网络采用嵌入层(Embedding)、Dropout层、双向长短期记忆神经网络层(Bi-directional Long Short-Term Memory，BiLSTM)、全连接层(Dense)的结构。BiLSTM层作为核心层挖掘域名信息，其输出是通过组合前向和后向输出获得的。子网络为输入域名提取k(Dense层Units设定)个新特征，输出神经特征向量H：

H＝[h₁,h₂…,h_k]

其中h₁,h₂…,h_j表示输出神经特征向量H中的每个特征。

(1.3)连接两个子网络进而构建伪孪生网络，所述伪孪生网络将步骤(1.1)生成的正/ 负域名样本对作为输入，域名神经特征向量对间的距离视为输出，该伪孪生网络引入对比损失函数来影响向量对间距离，从而学习域名的神经特征向量表示，具体过程如下：

其中d(H₁,H₂)表示两个子网络的输出神经特征向量H₁(a₁,a₂…,a_k)和H₂(b₁,b₂…,b_k)之间的距离,||.||₂表示2-范数。

(1.3.2)孪生网络的损失函数选用适用于处理成对数据的对比损失，旨在使得同类域名向量间距离小更加紧凑，异类域名向量间距离大从而易于区分，即最终获得区分度更高的特征向量化表达。伪孪生网络的损失函数计算方法为：

其中N是样本对总数，y是代表是正/负样本的1/0标签，d代表成对向量间欧式距离，参数margin用于设置阈值，当负样本对y＝0的d>margin时损失loss视为0；当样本对来自同类时标签y＝1，损失函数学习得到较小的距离表示；而来自异类样本时标签y＝0，损失函数使距离d更大。可以看出，loss可以恰当地表示对的匹配程度。

(1.4)将步骤(1.1)构建的正/负域名样本对输入到伪孪生网络进行迭代训练，训练完成后将全连接层(Dense层)获得的神经特征向量视为输出，即最终得到两个自动化获取可区分特征的特征提取器，具体过程如下：

(1.4.1)调整子网络和构建的伪孪生网络中的参数，寻找最合适的参数。其中子网络具体设置如下表1所示，孪生网络设置如下表2所示：

表1子网络相关设置

表2孪生网络相关设置

在第一部分中，我们完成了有限训练样本下适用于恶意域名检测的特征提取器。该特征提取器不仅利用对比学习的优势缓解了样本不足的问题，而且自动化的提取免去了人工分析特征的复杂性，以及避免了人工特征可被攻击者有意规避的情况。此外，图2中对比了特征提取前后的域名向量表达，可明显看出特征提取后的神经特征向量区分度高，有利于后续分类检测。

本步骤中具体过程如下：

(2.1)获取有限域名训练样本的标签编码形式即编码向量集；

(2.2)将步骤(2.1)中编码向量集输入到步骤(1)得到的两个特征提取器，获得两个特征向量集，合并后得到最终唯一对应的训练样本神经特征向量集，合并计算方式如下：

V_C＝V₁+V₂

(2.3)利用域名训练样本在步骤(2.2)获取的神经特征向量集以及对应属性标签，构建域名分类器模型。先选用五种经典的机器学习分类算法：K近邻(k-NearestNeighbor，KNN)、支持向量机(Support VectorMachine，SVM)、随机森林(Random Forest，RF)、高斯朴素贝叶斯(Gaussian Naive Bayes，GNB)和伯努利朴素贝叶斯(BernoulliNaive Bayes，BNB)算法，构建五个基分类器。再利用投票集成学习获得最终域名分类器。其中良性属性对应1标签，恶意属性对应0标签。

本步骤具体包括以下过程：

(3.1)获取待检测域名样本的标签编码形式即编码向量集；

在评估实验中，所使用的已知和待检测域名集合规模如下表3所示。此外，将本发明和公认的已有方法进行检测效果对比，包含Fanci_SVM、Fanci_RF、LSTM.mi、NYU、ResNet五种方法。以上六种方法在10组实验中的平均检测效果如表4所示，可以看出本发明在三项评估指标上表现最好，优于已有方法。10组抽样实验的F1分数和准确率如图3和图4所示，可以发现在九组实验中本发明均保持最优效果。

表3所用域名集合规模

表4孪生网络相关设置

(4)为考虑本发明在实际应用环境中部署时所具有的效率，分别考虑本发明和已有检测方法在2000样本量上的测试时间，如下表5所示。本发明和其他方法在检测时间上均为毫秒级别。综合以上实验结果分析，本发明在维持同等检测速度情况下，具有最好的检测效果。

表5五种检测方法固定样本量下的测试时间

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，包括如下步骤：

(1)采用基于对比学习思想的孪生网络框架设计模型，并使用标签编码形式的有限训练域名样本集构建正/负对进行训练，得到可自动化获取可区分特征的特征提取器；

(2)使用步骤(1)得到的特征提取器，将标签编码形式的有限训练域名样本集转换为唯一对应的神经特征向量集，并与对应良性/恶意属性标签一起作为训练数据，获取5种基分类器，并采用投票集成方法获得域名分类器；

2.根据权利要求1所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，

所述步骤(1)具体包括如下子步骤：

(1.1)获取有限域名训练样本的标签编码形式，并根据域名的良性/恶意属性两两配对构建正/负域名样本对；

(1.2)设计两个结构相同的子网络，每个子网络采用BiLSTM作为核心结构，输入接受一个编码向量，输出一个神经特征向量；

(1.3)连接两个子网络进而构建伪孪生网络，所述伪孪生网络将步骤(1.1)生成的正/负域名样本对作为输入，域名神经特征向量对间的距离视为输出，该伪孪生网络引入对比损失函数来影响向量对间距离，从而学习域名的神经特征向量表示；

3.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，

所述步骤(1.1)具体包括如下子步骤：

(1.1.1)获得标签向量形式：对于训练样本中的每个域名，先使用数值向量表示，具体地，域名序列中的每个字符使用数值序号标记；

(1.1.2)配对生成正/负样本对：正样本对中的两个域名均为良性/恶意，负样本对中的域名为一个良性和一个恶意。

4.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，

所述步骤(1.2)中每个子网络采用嵌入层、Dropout层、双向长短期记忆神经网络层、全连接层的结构；双向长短期记忆神经网络层作为核心层挖掘域名信息，其输出是通过组合前向和后向输出获得的；子网络为输入域名提取k个新特征，子网络的输出神经特征向量H：

H＝[h₁，h₂…，h_k]

其中h₁，h₂…，h_k表示输出神经特征向量H中的每个特征。

5.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，

所述步骤(1.3)具体包括如下子步骤：

其中d(H₁，H₂)表示两个子网络的输出神经特征向量H₁(a₁，a₂…，a_k)和H₂(b₁，b₂…，b_k)之间的距离，||·||₂表示2-范数；

(1.3.2)伪孪生网络的损失函数计算方法为：

其中N是样本对总数，y是代表是正/负样本的1/0标签，d代表成对向量间欧式距离，参数margin用于设置阈值，当负样本对y＝0的d＞margin时损失loss视为0；当样本对来自同类时标签y＝1；而来自异类样本时标签y＝0。

6.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，

所述步骤(1.4)具体包括如下子步骤：

(1.4.1)调整子网络和构建的伪孪生网络中的参数，寻找最合适的参数；

7.根据权利要求1所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，

所述步骤(2)具体包括如下子步骤：

(2.1)获取有限域名训练样本的标签编码形式即编码向量集；

V_C＝V₁+V₂

8.根据权利要求1所述的有限训练样本下基于对比学习的恶意域名检测方法，其特征在于，

所述步骤(3)具体包括如下子步骤：

(3.1)获取待检测域名样本的标签编码形式即编码向量集；