CN114095216A - 一种有限训练样本下基于对比学习的恶意域名检测方法 - Google Patents

一种有限训练样本下基于对比学习的恶意域名检测方法 Download PDF

Info

Publication number
CN114095216A
CN114095216A CN202111294445.1A CN202111294445A CN114095216A CN 114095216 A CN114095216 A CN 114095216A CN 202111294445 A CN202111294445 A CN 202111294445A CN 114095216 A CN114095216 A CN 114095216A
Authority
CN
China
Prior art keywords
domain name
malicious
neural
sample
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111294445.1A
Other languages
English (en)
Other versions
CN114095216B (zh
Inventor
胡晓艳
栗淼
程光
吴桦
龚俭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111294445.1A priority Critical patent/CN114095216B/zh
Publication of CN114095216A publication Critical patent/CN114095216A/zh
Application granted granted Critical
Publication of CN114095216B publication Critical patent/CN114095216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/144Detection or countermeasures against botnets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/146Tracing the source of attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种有限训练样本下基于对比学习的恶意域名检测方法,具体步骤包括:引入对比学习思想设计基于孪生网络的神经特征提取器,构建同类/异类的标签编码域名对,进行训练;将获取的域名神经特征向量集输入到机器学习算法模型中,训练得到域名分类器;将待检测域名依次输入特征提取器和域名分类器,得到判别结果。本发明从数据的角度缓解了样本不足的问题,能够自动化地提取特征,且特征具有高区分度利于进一步检测,以便更有效地检测出恶意域名样本,有利于拦截恶意活动中的通信并避免其进一步传播,从而提高对僵尸网络等常见恶意攻击模式的安全防御和监督能力。

Description

一种有限训练样本下基于对比学习的恶意域名检测方法
技术领域
本发明属于网络空间安全技术领域,涉及一种有限训练样本下基于对比学习的恶意域名 检测方法。
背景技术
一些常见的恶意攻击模式如僵尸网络,钓鱼网站,勒索病毒等,对网络活动的正常进行 产生了巨大的威胁,并成为安全领域的研究热点。在这些恶意活动中,域名起着举足轻重的 作用。攻击者通过使用域名生成算法(Domain Generation Algorithms,DGA)生成大量备选 恶意域名(称为Algorithmically-Generated Domains,AGD)并选取少量进行注册。由于这种 恶意域名数量大、变化快、生存周期短,传统的黑名单安全检测手段对这些攻击模式失效。 僵尸主机便可与远程命令和控制服务器(Command&Control Server,C&CServer)建立连接, 顺利进行恶意活动。因此,对恶意域名进行有效检测,有利于阻断恶意活动中的通信、避免 其进一步传播从而提高防御***的安全防范和监管能力。
已有DGA不同类别间存在样本数量不平衡的现象,类内数量多达十万,少则一百及以下。 一些大型类数据量充足,可满足已有方法需求检测效果较好,同时已被逆向工程等研究分析 透彻。但小型类由于有限样本数量过少,已有方法尤其是DL方法检测效果并不好。例如新 型DGA变体,鉴于其生成速度和周期,在检测初期难以获取足够的样本数据,近年来也逐 渐成为主要关注点。
以往传统的逆向工程等检测分析方法由于周期长和复杂性被作为辅助性工作,传统机器 学*** 衡的问题,未能良好适应有限训练样本的情况。本文从有限训练样本量情况下已有方法所暴 露出的缺点出发,引入对比学习的思想从数据角度缓解了样本不足的问题,并采用孪生网络 框架提出了一种检测方法。
发明内容
针对样本量有限即不充足的情况,本发明阐述了一种有限训练样本下基于对比学习的恶 意域名检测方法,旨在及时预防和制止恶意攻击活动以加强安全防护和监管。本发明采用对 比学习的思想从数据的角度缓解样本不足的问题,并有效提高信息利用率,同时相对于已有 研究使用的百万级别样本数量,仅使用千数量级。它的实现步骤分为三步:首先设计了基于 孪生网络的神经特征提取器,用来自动化获取域名的向量化表示;其次基于5种经典的机器 学习算法并采用投票集成方法构建域名分类器;依次利用特征提取器和分类器,对待检测域 名进行判别,筛选出恶意域名。
为了达到上述目的,本发明提供如下技术方案:
一种有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,包括如下步骤:
(1)采用基于对比学习思想的孪生网络框架设计模型,并使用标签编码形式的有限训练 域名样本集构建正/负对进行训练,得到可自动化获取可区分特征的特征提取器。
(2)使用步骤(1)得到的特征提取器,将标签编码形式的有限训练域名样本集转换为 唯一对应的神经特征向量集,并与对应良性/恶意属性标签一起作为训练数据,获取5种基分 类器,并采用投票集成方法获得域名分类器。
(3)先后利用步骤(1)训练好的特征提取器和步骤(2)训练好的域名分类器,识别待 检测域名。
进一步地,所述步骤(1)具体包括如下子步骤:
(1.1)获取有限域名训练样本的标签编码形式,并根据域名的良性/恶意属性两两配对构 建正/负域名样本对。
(1.2)设计两个结构相同的子网络,每个子网络采用BiLSTM作为核心结构,输入接受 一个编码向量,输出一个神经特征向量。
(1.3)连接两个子网络进而构建伪孪生网络,所述伪孪生网络将步骤(1.1)生成的正/ 负域名样本对作为输入,域名神经特征向量对间的距离视为输出,该伪孪生网络引入对比损 失函数来影响向量对间距离,从而学习域名的神经特征向量表示。
(1.4)将步骤(1.1)构建的正/负域名样本对输入到伪孪生网络进行迭代训练,训练完 成后将全连接层,即Dense层获得的神经特征向量视为输出,即最终得到两个自动化获取可 区分特征的特征提取器。
进一步地,所述步骤(1.1)具体包括如下子步骤:
(1.1.1)获得标签向量形式:对于训练样本中的每个域名,先使用数值向量表示。具体 地,域名序列中的每个字符使用数值序号标记。
(1.1.2)配对生成正/负样本:正样本对中的两个域名均为良性/恶意,负样本对中的域名 为一个良性和一个恶意。这种操作在一定意义上扩大了数据规模,提高了信息利用率,从而 缓解样本不足的问题。
进一步地,所述步骤(1.2)中每个子网络采用嵌入层、Dropout层、双向长短期记忆神 经网络层、全连接层的结构;双向长短期记忆神经网络层作为核心层挖掘域名信息,其输出 是通过组合前向和后向输出获得的;子网络为输入域名提取k个新特征,子网络的输出神经 特征向量H:
H=[h1,h2…,hk]
其中h1,h2…,hk表示输出神经特征向量H中的每个特征。
进一步地,所述步骤(1.3)具体包括如下子步骤:
(1.3.1)采用欧氏距离计算两个子网络的输出神经特征向量的距离差值,作为伪孪生网 络的输出,计算方法为:
Figure BDA0003336122690000031
其中d(H1,H2)表示两个子网络的输出神经特征向量H1(a1,a2…,ak)和H2(b1,b2…,bk)之 间的距离,||.||2表示2-范数;
(1.3.2)伪孪生网络的损失函数计算方法为:
Figure BDA0003336122690000032
其中N是样本对总数,y是代表是正/负样本的1/0标签,d代表成对向量间欧式距离,参 数margin用于设置阈值,当负样本对y=0的d>margin时损失loss视为0;当样本对来自同类 时标签y=1;而来自异类样本时标签y=0。
进一步地,所述步骤(1.4)具体包括如下子步骤:
(1.4.1)调整子网络和构建的伪孪生网络中的参数,寻找最合适的参数。
(1.4.2)设置好参数后,迭代训练直到收敛,完成学习的孪生网络包含两个子网络,作 为两个自动化获取可区分特征的特征提取器。
进一步地,所述步骤(2)具体包括如下子步骤:
(2.1)获取有限域名训练样本的标签编码形式即编码向量集;
(2.2)将步骤(2.1)中编码向量集输入到步骤(1)得到的两个特征提取器,获得两个 特征向量集,合并后得到最终唯一对应的训练样本神经特征向量集,合并计算方式如下
VC=V1+V2
其中域名C利用两个特征提取器分别得到对应向量V1和V2,最终唯一对应向量表示为VC
(2.3)利用域名训练样本在步骤(2.2)获取的神经特征向量集以及对应属性标签,构建 域名分类器模型,先使用K近邻、支持向量机、随机森林、高斯朴素贝叶斯和伯努利朴素贝 叶斯算法,获得五种基分类器,再利用投票集成学习获得最终域名分类器,其中良性属性对 应1标签,恶意属性对应0标签。
进一步地,所述步骤(3)具体包括如下子步骤:
(3.1)获取待检测域名样本的标签编码形式即编码向量集;
(3.2)将步骤(3.1)中编码向量集输入到特征提取器,按步骤(2.2)合并输出的两个 特征向量集,获得待检测域名神经特征向量集;
(3.3)将步骤(3.3)中神经特征向量集输入到域名分类器,预测相应的属性标签,得到 向量化表示的域名对应良性/恶意的检测结果。
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明基于对比学习从数据角度缓解了域名检测中出现的样本量不足的问题,提高 了信息利用率,贡献了该研究领域一种自动化提取可区分特征的方法。
(2)本发明能够精准的识别出恶意域名,为网络管理员监管恶意攻击活动提供新的解决 方案。现有分类器在数据量充足时效果好,但小样本情况下其效果显著下降。本文方法在样 本量较小情况下,有效提升分类效率。
附图说明
图1为本发明提供的有限训练样本下基于对比学习的恶意域名检测方法实现框架。
图2为使用基于孪生网络的特征提取器前后(标签特征向量到神经特征向量),域名向量 对的距离差值。
图3为对检测方法进行10次抽样检测实验的F1分数结果。
图4为对检测方法进行10次抽样检测实验的准确率结果。
图5为生成标签编码的过程示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方 式仅用于说明本发明而不用于限制本发明的范围。
本发明提出了一种有限训练样本下基于对比学习的恶意域名检测方法,实现步骤如图1 所示,包括三个部分,第一部分为训练基于孪生网络的特征提取器,具体内容为,首先获取 标签编码形式的有限域名训练样本集,根据属性进行配对构建正负样本对,其次设计两个结 构相同、权重不同的基于BiLSTM的子网络,然后采用孪生网络框架连接两个子网络设计特 征提取器,将正负样本对输入到网络中迭代训练,最终得到特征提取器;第二部分为分类器 的训练,具体内容为获取标签编码形式的有限域名训练样本集并输入特征提取器,得到唯一 对应的训练样本神经特征向量集,基于5种经典机器学习算法并采用投票集成的方法构建域 名分类器;第三部分为处理待检测域名集,识别恶意域名,具体为先后使用前两部分产物, 筛选出恶意域名。
具体地说,本发明方法有以下步骤:
(1)采用基于对比学习思想的孪生网络框架设计模型,并使用标签编码形式的有限训练 域名样本集构建正/负对进行训练,得到可自动化获取可区分特征的特征提取器。
本步骤的具体过程如下:
(1.1)获取有限域名训练样本的标签编码形式,并根据域名的良性/恶意属性两两配对构 建正/负域名样本对,具体过程如下:
(1.1.1)获得标签向量形式:对于训练样本中的每个域名,先使用数值向量表示,具体 地,域名序列中的每个字符使用数值序号标记,具体编码过程如图5所示;
(1.1.2)配对生成正/负样本对:正样本对中的两个域名均为良性/恶意,负样本对中的域 名为一个良性和一个恶意。这种操作在一定意义上扩大了数据规模,提高了信息利用率,从 而缓解样本不足的问题。
(1.2)设计两个结构相同的子网络,每个子网络采用BiLSTM作为核心结构,输入接受 一个编码向量,输出一个神经特征向量,具体过程如下:
每个子网络采用嵌入层(Embedding)、Dropout层、双向长短期记忆神经网络层(Bi-directional Long Short-Term Memory,BiLSTM)、全连接层(Dense)的结构。BiLSTM层作为核心层挖掘域名信息,其输出是通过组合前向和后向输出获得的。子网络为输入域名提 取k(Dense层Units设定)个新特征,输出神经特征向量H:
H=[h1,h2…,hk]
其中h1,h2…,hj表示输出神经特征向量H中的每个特征。
(1.3)连接两个子网络进而构建伪孪生网络,所述伪孪生网络将步骤(1.1)生成的正/ 负域名样本对作为输入,域名神经特征向量对间的距离视为输出,该伪孪生网络引入对比损 失函数来影响向量对间距离,从而学习域名的神经特征向量表示,具体过程如下:
(1.3.1)采用欧氏距离计算两个子网络的输出神经特征向量的距离差值,作为伪孪生网 络的输出,计算方法为:
Figure BDA0003336122690000051
其中d(H1,H2)表示两个子网络的输出神经特征向量H1(a1,a2…,ak)和H2(b1,b2…,bk)之 间的距离,||.||2表示2-范数。
(1.3.2)孪生网络的损失函数选用适用于处理成对数据的对比损失,旨在使得同类域名 向量间距离小更加紧凑,异类域名向量间距离大从而易于区分,即最终获得区分度更高的特 征向量化表达。伪孪生网络的损失函数计算方法为:
Figure BDA0003336122690000061
其中N是样本对总数,y是代表是正/负样本的1/0标签,d代表成对向量间欧式距离,参 数margin用于设置阈值,当负样本对y=0的d>margin时损失loss视为0;当样本对来自同类 时标签y=1,损失函数学习得到较小的距离表示;而来自异类样本时标签y=0,损失函数使 距离d更大。可以看出,loss可以恰当地表示对的匹配程度。
(1.4)将步骤(1.1)构建的正/负域名样本对输入到伪孪生网络进行迭代训练,训练完 成后将全连接层(Dense层)获得的神经特征向量视为输出,即最终得到两个自动化获取可 区分特征的特征提取器,具体过程如下:
(1.4.1)调整子网络和构建的伪孪生网络中的参数,寻找最合适的参数。其中子网络具 体设置如下表1所示,孪生网络设置如下表2所示:
表1子网络相关设置
Figure BDA0003336122690000062
表2孪生网络相关设置
Figure BDA0003336122690000063
(1.4.2)设置好参数后,迭代训练直到收敛,完成学习的孪生网络包含两个子网络,作 为两个自动化获取可区分特征的特征提取器。
在第一部分中,我们完成了有限训练样本下适用于恶意域名检测的特征提取器。该特征 提取器不仅利用对比学习的优势缓解了样本不足的问题,而且自动化的提取免去了人工分析 特征的复杂性,以及避免了人工特征可被攻击者有意规避的情况。此外,图2中对比了特征 提取前后的域名向量表达,可明显看出特征提取后的神经特征向量区分度高,有利于后续分 类检测。
(2)使用步骤(1)得到的特征提取器,将标签编码形式的有限训练域名样本集转换为 唯一对应的神经特征向量集,并与对应良性/恶意属性标签一起作为训练数据,获取5种基分 类器,并采用投票集成方法获得域名分类器。
本步骤中具体过程如下:
(2.1)获取有限域名训练样本的标签编码形式即编码向量集;
(2.2)将步骤(2.1)中编码向量集输入到步骤(1)得到的两个特征提取器,获得两个 特征向量集,合并后得到最终唯一对应的训练样本神经特征向量集,合并计算方式如下:
VC=V1+V2
其中域名C利用两个特征提取器分别得到对应向量V1和V2,最终唯一对应向量表示为VC
(2.3)利用域名训练样本在步骤(2.2)获取的神经特征向量集以及对应属性标签,构建 域名分类器模型。先选用五种经典的机器学习分类算法:K近邻(k-NearestNeighbor,KNN)、 支持向量机(Support VectorMachine,SVM)、随机森林(Random Forest,RF)、高斯朴素贝 叶斯(Gaussian Naive Bayes,GNB)和伯努利朴素贝叶斯(BernoulliNaive Bayes,BNB)算 法,构建五个基分类器。再利用投票集成学习获得最终域名分类器。其中良性属性对应1标 签,恶意属性对应0标签。
(3)先后利用步骤(1)训练好的特征提取器和步骤(2)训练好的域名分类器,识别待 检测域名。
本步骤具体包括以下过程:
(3.1)获取待检测域名样本的标签编码形式即编码向量集;
(3.2)将步骤(3.1)中编码向量集输入到特征提取器,按步骤(2.2)合并输出的两个 特征向量集,获得待检测域名神经特征向量集;
(3.3)将步骤(3.3)中神经特征向量集输入到域名分类器,预测相应的属性标签,得到 向量化表示的域名对应良性/恶意的检测结果。
在评估实验中,所使用的已知和待检测域名集合规模如下表3所示。此外,将本发明和 公认的已有方法进行检测效果对比,包含Fanci_SVM、Fanci_RF、LSTM.mi、NYU、ResNet五 种方法。以上六种方法在10组实验中的平均检测效果如表4所示,可以看出本发明在三项评估 指标上表现最好,优于已有方法。10组抽样实验的F1分数和准确率如图3和图4所示,可 以发现在九组实验中本发明均保持最优效果。
表3所用域名集合规模
Figure BDA0003336122690000081
表4孪生网络相关设置
Figure BDA0003336122690000082
(4)为考虑本发明在实际应用环境中部署时所具有的效率,分别考虑本发明和已有检测 方法在2000样本量上的测试时间,如下表5所示。本发明和其他方法在检测时间上均为 毫秒级别。综合以上实验结果分析,本发明在维持同等检测速度情况下,具有最好的检测 效果。
表5五种检测方法固定样本量下的测试时间
Figure BDA0003336122690000083
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上 技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在 不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的 保护范围。

Claims (8)

1.一种有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,包括如下步骤:
(1)采用基于对比学习思想的孪生网络框架设计模型,并使用标签编码形式的有限训练域名样本集构建正/负对进行训练,得到可自动化获取可区分特征的特征提取器;
(2)使用步骤(1)得到的特征提取器,将标签编码形式的有限训练域名样本集转换为唯一对应的神经特征向量集,并与对应良性/恶意属性标签一起作为训练数据,获取5种基分类器,并采用投票集成方法获得域名分类器;
(3)先后利用步骤(1)训练好的特征提取器和步骤(2)训练好的域名分类器,识别待检测域名。
2.根据权利要求1所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,
所述步骤(1)具体包括如下子步骤:
(1.1)获取有限域名训练样本的标签编码形式,并根据域名的良性/恶意属性两两配对构建正/负域名样本对;
(1.2)设计两个结构相同的子网络,每个子网络采用BiLSTM作为核心结构,输入接受一个编码向量,输出一个神经特征向量;
(1.3)连接两个子网络进而构建伪孪生网络,所述伪孪生网络将步骤(1.1)生成的正/负域名样本对作为输入,域名神经特征向量对间的距离视为输出,该伪孪生网络引入对比损失函数来影响向量对间距离,从而学习域名的神经特征向量表示;
(1.4)将步骤(1.1)构建的正/负域名样本对输入到伪孪生网络进行迭代训练,训练完成后将全连接层,即Dense层获得的神经特征向量视为输出,即最终得到两个自动化获取可区分特征的特征提取器。
3.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,
所述步骤(1.1)具体包括如下子步骤:
(1.1.1)获得标签向量形式:对于训练样本中的每个域名,先使用数值向量表示,具体地,域名序列中的每个字符使用数值序号标记;
(1.1.2)配对生成正/负样本对:正样本对中的两个域名均为良性/恶意,负样本对中的域名为一个良性和一个恶意。
4.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,
所述步骤(1.2)中每个子网络采用嵌入层、Dropout层、双向长短期记忆神经网络层、全连接层的结构;双向长短期记忆神经网络层作为核心层挖掘域名信息,其输出是通过组合前向和后向输出获得的;子网络为输入域名提取k个新特征,子网络的输出神经特征向量H:
H=[h1,h2…,hk]
其中h1,h2…,hk表示输出神经特征向量H中的每个特征。
5.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,
所述步骤(1.3)具体包括如下子步骤:
(1.3.1)采用欧氏距离计算两个子网络的输出神经特征向量的距离差值,作为伪孪生网络的输出,计算方法为:
Figure FDA0003336122680000021
其中d(H1,H2)表示两个子网络的输出神经特征向量H1(a1,a2…,ak)和H2(b1,b2…,bk)之间的距离,||·||2表示2-范数;
(1.3.2)伪孪生网络的损失函数计算方法为:
Figure FDA0003336122680000022
其中N是样本对总数,y是代表是正/负样本的1/0标签,d代表成对向量间欧式距离,参数margin用于设置阈值,当负样本对y=0的d>margin时损失loss视为0;当样本对来自同类时标签y=1;而来自异类样本时标签y=0。
6.根据权利要求2所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,
所述步骤(1.4)具体包括如下子步骤:
(1.4.1)调整子网络和构建的伪孪生网络中的参数,寻找最合适的参数;
(1.4.2)设置好参数后,迭代训练直到收敛,完成学习的孪生网络包含两个子网络,作为两个自动化获取可区分特征的特征提取器。
7.根据权利要求1所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,
所述步骤(2)具体包括如下子步骤:
(2.1)获取有限域名训练样本的标签编码形式即编码向量集;
(2.2)将步骤(2.1)中编码向量集输入到步骤(1)得到的两个特征提取器,获得两个特征向量集,合并后得到最终唯一对应的训练样本神经特征向量集,合并计算方式如下:
VC=V1+V2
其中域名C利用两个特征提取器分别得到对应向量V1和V2,最终唯一对应向量表示为VC
(2.3)利用域名训练样本在步骤(2.2)获取的神经特征向量集以及对应属性标签,构建域名分类器模型,先使用K近邻、支持向量机、随机森林、高斯朴素贝叶斯和伯努利朴素贝叶斯算法,获得五种基分类器,再利用投票集成学习获得最终域名分类器,其中良性属性对应1标签,恶意属性对应0标签。
8.根据权利要求1所述的有限训练样本下基于对比学习的恶意域名检测方法,其特征在于,
所述步骤(3)具体包括如下子步骤:
(3.1)获取待检测域名样本的标签编码形式即编码向量集;
(3.2)将步骤(3.1)中编码向量集输入到特征提取器,按步骤(2.2)合并输出的两个特征向量集,获得待检测域名神经特征向量集;
(3.3)将步骤(3.3)中神经特征向量集输入到域名分类器,预测相应的属性标签,得到向量化表示的域名对应良性/恶意的检测结果。
CN202111294445.1A 2021-11-03 2021-11-03 一种有限训练样本下基于对比学习的恶意域名检测方法 Active CN114095216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111294445.1A CN114095216B (zh) 2021-11-03 2021-11-03 一种有限训练样本下基于对比学习的恶意域名检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111294445.1A CN114095216B (zh) 2021-11-03 2021-11-03 一种有限训练样本下基于对比学习的恶意域名检测方法

Publications (2)

Publication Number Publication Date
CN114095216A true CN114095216A (zh) 2022-02-25
CN114095216B CN114095216B (zh) 2023-04-07

Family

ID=80298740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111294445.1A Active CN114095216B (zh) 2021-11-03 2021-11-03 一种有限训练样本下基于对比学习的恶意域名检测方法

Country Status (1)

Country Link
CN (1) CN114095216B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581352A (zh) * 2020-05-03 2020-08-25 南开大学 基于可信度的互联网恶意域名检测方法
CN114648069A (zh) * 2022-03-23 2022-06-21 三六零数字安全科技集团有限公司 域名检测方法和装置、设备及存储介质
CN114826681A (zh) * 2022-03-30 2022-07-29 西安电子科技大学 一种dga域名检测方法、***、介质、设备及终端
CN116318845A (zh) * 2023-02-09 2023-06-23 国家计算机网络与信息安全管理中心甘肃分中心 一种正负样本比例不平衡条件下的dga域名检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170295187A1 (en) * 2016-04-06 2017-10-12 Cisco Technology, Inc. Detection of malicious domains using recurring patterns in domain names
CN109784056A (zh) * 2019-01-02 2019-05-21 大连理工大学 一种基于深度学习的恶意软件检测方法
CN112492059A (zh) * 2020-11-17 2021-03-12 国家计算机网络与信息安全管理中心 Dga域名检测模型训练方法、dga域名检测方法、装置及存储介质
CN112598658A (zh) * 2020-12-29 2021-04-02 哈尔滨工业大学芜湖机器人产业技术研究院 基于轻量级孪生卷积神经网络的病识别方法
CN113328994A (zh) * 2021-04-30 2021-08-31 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN113449837A (zh) * 2020-11-12 2021-09-28 江西理工大学 一种入侵检测方法、***、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170295187A1 (en) * 2016-04-06 2017-10-12 Cisco Technology, Inc. Detection of malicious domains using recurring patterns in domain names
CN109784056A (zh) * 2019-01-02 2019-05-21 大连理工大学 一种基于深度学习的恶意软件检测方法
CN113449837A (zh) * 2020-11-12 2021-09-28 江西理工大学 一种入侵检测方法、***、设备及可读存储介质
CN112492059A (zh) * 2020-11-17 2021-03-12 国家计算机网络与信息安全管理中心 Dga域名检测模型训练方法、dga域名检测方法、装置及存储介质
CN112598658A (zh) * 2020-12-29 2021-04-02 哈尔滨工业大学芜湖机器人产业技术研究院 基于轻量级孪生卷积神经网络的病识别方法
CN113328994A (zh) * 2021-04-30 2021-08-31 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARCOS ROGÉRIO SILVEIRA等: "Detection of Malicious Domains Using Passive DNS with XGBoost", 《2020 IEEE INTERNATIONAL CONFERENCE ON INTELLIGENCE AND SECURITY INFORMATICS (ISI)》 *
臧小东等: "基于AGD的恶意域名检测", 《通信学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581352A (zh) * 2020-05-03 2020-08-25 南开大学 基于可信度的互联网恶意域名检测方法
CN111581352B (zh) * 2020-05-03 2022-05-27 南开大学 基于可信度的互联网恶意域名检测方法
CN114648069A (zh) * 2022-03-23 2022-06-21 三六零数字安全科技集团有限公司 域名检测方法和装置、设备及存储介质
CN114826681A (zh) * 2022-03-30 2022-07-29 西安电子科技大学 一种dga域名检测方法、***、介质、设备及终端
CN116318845A (zh) * 2023-02-09 2023-06-23 国家计算机网络与信息安全管理中心甘肃分中心 一种正负样本比例不平衡条件下的dga域名检测方法

Also Published As

Publication number Publication date
CN114095216B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN114095216B (zh) 一种有限训练样本下基于对比学习的恶意域名检测方法
Shone et al. A deep learning approach to network intrusion detection
Tang et al. Research on deep learning techniques in breaking text-based captchas and designing image-based captcha
Zi et al. An end-to-end attack on text captchas
Anand et al. Phishing URL detection with oversampling based on text generative adversarial networks
CN111163472B (zh) 一种基于生成式对抗网络的信号识别攻击的防御方法
Liu et al. Intrusion detection system after data augmentation schemes based on the VAE and CVAE
Yang et al. A novel solutions for malicious code detection and family clustering based on machine learning
CN109873810B (zh) 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法
Luo et al. Transforming device fingerprinting for wireless security via online multitask metric learning
CN112884204B (zh) 网络安全风险事件预测方法及装置
CN111598179A (zh) 电力监控***用户异常行为分析方法、存储介质和设备
CN112217787A (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及***
Nian et al. A deep learning‐based attack on text CAPTCHAs by using object detection techniques
CN1223941C (zh) 一种基于相关特征聚类的层次入侵检测***
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN109525577A (zh) 基于http行为图的恶意软件检测方法
CN113965393B (zh) 一种基于复杂网络和图神经网络的僵尸网络检测方法
Chen et al. Intrusion detection system based on immune algorithm and support vector machine in wireless sensor network
Ma et al. Network intrusion detection method based on FCWGAN and BiLSTM
Valiyaveedu et al. Survey and analysis on AI based phishing detection techniques
Ding et al. Botnet dga domain name classification using transformer network with hybrid embedding
Zhang A ensemble learning method for domain generation algorithm detection
Wang et al. Open-Set Graph Domain Adaptation via Separate Domain Alignment
Davis et al. Classifying malware traffic using images and deep convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant