CN111371794B

CN111371794B - 阴影域检测模型、检测模型建立方法、检测方法及***

Info

Publication number: CN111371794B
Application number: CN202010156142.2A
Authority: CN
Inventors: 曲武
Original assignee: Beijing Jinjingyunhua Technology Co ltd
Current assignee: Beijing Jinjingyunhua Technology Co ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2022-01-18
Anticipated expiration: 2040-03-09
Also published as: CN111371794A

Abstract

本发明涉及阴影域检测技术领域，特别提供了一种阴影域检测模型、检测模型建立方法、检测方法及***，根据现有样本搜集方法及特征提取方法搜集样本和阴影域特征，将阴影域样本和合法域样本分别加标签后合并，通过两种训练方式，训练得到两个模型，再将两个模型按照平均法，得到最终的检测模型，当某网页正在被访问时，如果该网页是在合法域名下建立的非法子域名，即恶意域名，本检测模型能够迅速进行判断，并且将提示信息同时发给网页所有者和检测模型的用户，使网页所有者尽快对其所拥有的子域名进行排查，避免阴影域造成的攻击。

Description

阴影域检测模型、检测模型建立方法、检测方法及***

技术领域

本发明涉及阴影域检测技术领域，特别提供了一种阴影域检测模型、检测模型建立方法、检测方法及***。

背景技术

域名就是上网单位的名称，是一个通过计算机登上网络的单位在该网中的地址。一个公司如果希望在网络上建立自己的主页，就必须取得一个域名，域名也是由若干部分组成，包括数字和字母。通过该地址，人们可以在网络上找到所需的详细资料。域名是上网单位和个人在网络上的重要标识，起着识别作用，便于他人识别和检索某一企业、组织或个人的信息资源，从而更好地实现网络上的资源共享。除了识别功能外，在虚拟环境下，域名还可以起到引导、宣传、代表等作用。

域名如今经常被人们在非法活动中利用，但是传统的非法活动是通过创建新的域名来实施非法行为，但是，创建的新的域名在实施非法行为时很容易就被识别到，为了逃避检测***的识别，不法分子改变策略，不是创建新的域名，而是通过在合法域名下建立非法的子域名，即阴影域，来实施非法活动，阴影域将帐户流量从消费者流量中转移到现有的、注册的以及其他可信任的Web域中。一旦获得访问权限，不法分子便会注册大量未经授权的子域，这些子域与众所周知的域相关联并且通常不遵循任何可识别的模式，因此难以检测。不仅如此，阴影域不会影响父域或该域上托管的任何内容，从而使其操作更加隐蔽。犯罪者使用这些欺诈性子域进行恶意活动，包括分发恶意软件，注入漏洞利用工具包或将用户静默重定向到承载恶意元素的其他网站。

因为非法的子域名继承了合法域名的信任，所以目前的检测***不能很好的检测出非法的子域名，所以亟需一个新的检测模型，用于检测阴影域。

发明内容

为了解决上述技术问题，本发明提供了一种阴影域检测模型、检测模型建立方法、检测方法及***，能够对在合法域名下建立的阴影域子域名进行检测，填补了阴影域检测的空白。

本发明是这样实现的，提供一种阴影域检测模型建立方法，包括如下步骤：

1)搜集阴影域数据样本和合法域数据样本，提取阴影域特征；

2)对提取的阴影域特征进行Logistic回归建模，选择输出P值小于0.05的特征，构建为F特征集合；

3)对阴影域数据样本提取F特征集合，之后对阴影域数据样本和合法域数据样本分别加标签后合并，再随机划分为两个数据集，即数据集A和数据集B；

4)对数据集A进行三次随机打乱，得到数据集A-1、数据集A-2和数据集A-3，分别对数据集A-1、数据集A-2和数据集A-3通过rbf-svm分类器进行训练，得到三个模型，即modelA-1、modelA-2和modelA-3，对modelA-1、modelA-2和modelA-3采用平均法，得到M1模型；

5)采用stacking模型构建M2，即对数据集B分别采用随机森林、期望最大化算法、梯度提升迭代决策树和XGB模型作为第一层进行预测，分别得到四个预测结果，将四个预测结果作为第二层逻辑回归模型的输入，对四个预测结果进行训练预测，输出结果为M2模型；

6)根据公式M_final＝0.5*M1+0.5*M2，即根据平均法，得到M_final，即得到阴影域检测的模型。

进一步地，步骤1)中，利用人为网上搜索的方式，搜集阴影域数据样本，合法域数据样本包括热门流行域名和分非热门流行域名。

进一步地，提取的阴影域特征分为四类，即子域名用途特征、子域名托管特征、子域名活动特征和子域名名称特征，其中子域名用途特征包括顶点域与第一个非www子域名之间建立的间隔、同一个顶点域下热门子域名的比例、同一IP下共同托管的热门子域名的比例、子域名的网络连通性、同一顶点域下子域名的连通性、同一IP下共同托管的子域名的网络连通性；子域名托管特征包括子域名托管IP的偏差、共同托管在同一IP上的子域的平均IP偏差、共同托管子域名的相关比率、共享顶点数的相关比率；子域名活动特征包括初次出现时间的分布、同一IP的子域之间的分辨率计数分布、同一IP子域之间的分辨率计数的倒数中位数、同一IP的子域之间的活动天数分布、同一IP子域中活动天数的倒数中位数；子域名名称包括域级别的多样性和子域名长度。

进一步地，步骤4)中，使用随机排列函数(shuffle)对所述数据集A进行三次随机打乱。

进一步地，将所述数据集B划分为K折，针对随机森林、期望最大化算法、梯度提升迭代决策树和XGB模型分别进行K次训练，每次训练保留K分之一的样本用作训练时的检验数据，训练完成后利用检验数据进行预测，一个模型会对应输出和5个预测结果，将这5个结果取平均，得到四个模型运行5次之后的平均值，即四个预测结果，利用逻辑回归模型对四个预测结果进行训练预测，输出结果为M2模型。

本发明还提供一种利用上述的阴影域检测模型建立方法建立的阴影域检测模型。

本发明还提供一种利用上述的阴影域检测模型检测阴影域的方法，包括如下步骤：

a)获取正在被访问的网页域名，提取域名特征；

b)将获取到的用域名特征代表的该域名输入到上述建立的模型中，输出结果，检测该域名是合法域还是阴影域；

c)若为阴影域，则将检测结果发送给网页拥有者和检测模型的用户，例如以邮件的形式发送。

本发明还提供一种阴影域检测***，包括如下模块：

域名特征提取模块，用来获取用户正在访问的网页域名，提取域名特征；

域名检测模块，用于将获取到的用域名特征代表的该域名输入到上述建立的模型中，输出结果，检测该域名是合法域还是阴影域；

提示模块，用于则将检测结果发送给网页拥有者和检测模型的用户。

与现有技术相比，本发明的优点在于：

提供一种新的阴影域检测模型的建立方法，一方面根据rbf-svm分类器训练一个模型M1，另一方面根据集成方法训练一个模型M2，将M1和M2利用平均法得到最终的检测模型，首先开创了一种新的阴影域检测模型建立方法，其次是利用两种训练模型的平均得到的最终的检测模型，降低了每个检测模型的检测错报率，即提高了准确率。

另外本发明提供了一个阴影域的检测模型，能够对在合法域名下建立的阴影域子域名进行检测，填补了阴影域检测的空白，即当某网页被访问时，如果该网页是在合法域名下建立的非法子域名，即恶意域名，本检测模型能够迅速进行判断，并且将检测结果同时发送给网页拥有者及检测模型的用户，及早发现阴影域，防止其造成严重的后果。

附图说明

下面结合附图及实施方式对本发明作进一步详细的说明：

图1为本发明提供的检测模型建立流程示意图；

图2为利用本发明建立的检测模型检测阴影域的流程图；

图3为本发明提供的阴影域检测***模块图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

参考图1，本发明提供一种阴影域检测模型建立方法，包括如下步骤：

本发明使用的搜集阴影域数据样本和合法域数据样本的方法，是采用现有技术中的方法，阴影域数据样本的搜集采用人为网上搜索的方式，即在网上以“阴影域”或“域名阴影”为关键字，搜索相关文章，人为浏览之后，下载文章中的恶意域名或IP，共收集20000左右的阴影域数据样本即可达到本方法的要求。

合法域数据样本包括热门流行域名和分非热门流行域名。热门流行的合法域可以选择一些排行榜上排名靠前的域名，热门流行域名通常有很多覆盖范围很大的子域名。单纯依靠热门流行域名不符合样本的随机性，因此还需要选择一部分非热门域名。

提取的阴影域特征分为四类，即子域名用途特征、子域名托管特征、子域名活动特征和子域名名称特征，其中子域名用途特征包括顶点域与第一个非www子域名之间建立的间隔、同一个顶点域下热门子域名的比例、同一IP下共同托管的热门子域名的比例、子域名的网络连通性、同一顶点域下子域名的连通性、同一IP下共同托管的子域名的网络连通性；子域名托管特征包括子域名托管IP的偏差、共同托管在同一IP上的子域的平均IP偏差、共同托管子域名的相关比率、共享顶点数的相关比率；子域名活动特征包括初次出现时间的分布、同一IP的子域之间的分辨率计数分布、同一IP子域之间的分辨率计数的倒数中位数、同一IP的子域之间的活动天数分布、同一IP子域中活动天数的倒数中位数；子域名名称包括域级别的多样性和子域名长度。每个阴影域可以通过一个或多个阴影域特征来表征。

具体的，构建完特征后，使用Logistic回归对构建完的特征数据进行回归建模，目的是为了根据建模后输出的P值对特征进行排序筛选，P值是用来判定假设检验结果的一个参数，也可以根据不同的分布使用分布的拒绝域进行比较。P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，拒绝原假设的理由越充分。总之，P值越小，表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。将步骤1)中的17个特征进行logistic回归建模后的p值按照从小到大排序，并选取P值小于0.05的特征，作为通过筛选后的特征，并将所有P<0.05的特征总和起来，构建成筛选后的特征集合，设置为F特征集合。

对数据样本加标签目的在于在机器学习的训练过程中，使模型记住什么样的样本是黑样本，即在本发明中什么样的样本是阴影域样本，而未加标签的即为白样本，也就是合法域样本。本发明中给数据样本只有两类，阴影域和合法域，因此使用“1、0”的加标签方法即可，即将阴影域的样本均加“1”的标签，而合法域的样本均加“0”的标签。

4)使用随机排列函数，即shuffle函数(对序列中的所有元素随机排序)对数据集A进行三次随机打乱，让数据随机化，第一次随机打乱数据集A得到数据集A-1、第二次随机打乱数据集A得到数据集A-2，第三次随机打乱数据集A得到数据集A-3，分别对数据集A-1、数据集A-2和数据集A-3通过rbf-svm分类器进行训练，得到三个模型，即modelA-1、modelA-2和modelA-3，对modelA-1、modelA-2和modelA-3采用平均法，得到M1模型，平均法可以很好的解决一系列问题，比如二分类与回归问题、AUC、误差平方或对数损失；

5)采用stacking模型构建M2，即对数据集B分别采用随机森林、期望最大化算法、梯度提升迭代决策树和XGB模型进行预测，分别得到四个预测结果，利用逻辑回归模型对四个预测结果进行训练预测，输出结果为M2模型；

Stacking模型是一种分层模型集成框架。以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层的基学习器的输出作为特征加入训练集进行再训练，从而得到完整的stacking模型。

本发明中，第一层采用RF(随机森林模型)、EM(期望最大化算法)、GBDT(梯度提升迭代决策树)、XGB四种模型，分别对训练样本进行预测，然后将预测结果作为下一层的训练样本。

具体的，将所述数据集B划分为K折，针对随机森林、期望最大化算法、梯度提升迭代决策树和XGB模型分别进行K次训练，每次训练保留K分之一的样本用作训练时的检验数据，训练完成后利用检验数据进行预测，一个模型会对应输出和5个预测结果，将这5个结果取平均，得到四个模型运行5次之后的平均值，即四个预测结果，利用逻辑回归模型对四个预测结果进行训练预测，输出结果为M2模型。

第一个模型RF(随机森林模型)训练预测步骤如下：

先将数据集划分成5折：1、2、3、4、5；

保留2、3、4、5作为训练数据，用1做测试数据(查看当前训练的效果，可配合earlystop)，记录下该折测试数据的预测结果，同时预测testing data(此处的testing data就是要最终提交结果的那部分数据)；

保留1、3、4、5作为训练数据，用2做测试数据，并记录下该折测试数据的预测结果，预测testing data；

保留1、2、4、5训练，用3做测试数据，并记录下该折测试数据的预测结果，预测testing data；

保留1、2、3、5训练，用4做测试数据，并记录下该折测试数据的预测结果，预测testing data；

保留1、2、3、4训练，用5做测试数据，并记录下该折测试数据的预测结果，预测testing data；

训练五轮之后得到针对testing data的五个预测值，取平均值，同时拼接每一系列模型对训练数据集的预测结果；

第二个模型EM(期望最大化算法)训练预测步骤如下：

先将数据集划分成5折：1、2、3、4、5；

第三个模型GBDT(梯度提升迭代决策树)训练预测步骤如下：

先将数据集划分成5折：1、2、3、4、5；

第四个模型XGB(XGBoost)训练预测步骤如下：

先将数据集划分成5折：1、2、3、4、5；

在四个模型的训练预测过程中注意保持K折数据的一致，全部训练完成之后，将得到的四个预测结果带入下一层模型预测。

第二层：将上一层的四个结果带入新的模型，使用逻辑回归(LR)进行训练再预测，最后输出为M2建模后的结果。

6)根据公式M_final＝0.5*M1+0.5*M2，得到M_final，即得到阴影域检测的模型。

本发明使用机器学习中的集成方法(stacking)建立检测阴影域的模型，即将两个或多个弱分类器组合为一个新的强分类器。比起相互独立的预测模型，利用集成方法(stacking)建立的模型能够有更强的非线性表述能力，能够降低泛化误差。

参考图2，利用上述方法建立的阴影域检测模型检测阴影域的方法包括如下步骤：

a)获取正在被访问的网页域名，提取域名特征，即当某网页正在被访问时，本发明建立的模型首先获取该域名结构，分析域名组成，按照预先设置好的阴影域特征，提取该正在访问的域名的特征；

b)将获取到的用域名特征代表的该域名输入到上述方法建立的模型中，输出结果，检测该域名是合法域还是阴影域，即通过阴影域特征代表的阴影域输入到模型中，通过输出来判定是合法域还是阴影域；

c)若为阴影域，则可通过邮件的形式同时告知网页拥有者和检测模型的用户，其正在访问的网页域名为恶意域名，存在被攻击的风险等。

参考图3，提供一种阴影域检测***，包括如下模块：

域名特征提取模块，用来获取正在被访问的网页域名，提取域名特征，即当某网页正在被访问时，本***首先获取该域名结构，分析域名组成，按照预先设置好的阴影域特征，提取该正在访问的域名的特征；

域名检测模块，用于将获取到的用域名特征代表的该域名输入到上述方法建立的模型中，输出结果，检测该域名是合法域还是阴影域，即通过阴影域特征代表的阴影域输入到模型中，通过输出来判定是合法域还是阴影域；

提示模块，用于则将检测结果传达给网站拥有者，同时传达给检测模型的用户，比如以邮件的形式发送。

具体的，本阴影域检测***安装在检测模型用户使用的服务器上，当一个正在被浏览的网站是阴影域网站时，本检测***在迅速识别出后，一方面将检测结果传达给网页拥有者，比如通过邮件的形式，另一方面传达给检测模型用户自身的服务器，使网页拥有者能够尽早发现其域名下的阴影域，防止服务器遭到阴影域上的恶意代码等的攻击。

Claims

1.一种阴影域检测模型建立方法，其特征在于，包括如下步骤：

提取的阴影域特征分为四类，即子域名用途特征、子域名托管特征、子域名活动特征和子域名名称特征，其中子域名用途特征包括顶点域与第一个非www子域名之间建立的间隔、同一个顶点域下热门子域名的比例、同一IP下共同托管的热门子域名的比例、子域名的网络连通性、同一顶点域下子域名的连通性、同一IP下共同托管的子域名的网络连通性；子域名托管特征包括子域名托管IP的偏差、共同托管在同一IP上的子域的平均IP偏差、共同托管子域名的相关比率、共享顶点数的相关比率；子域名活动特征包括初次出现时间的分布、同一IP的子域之间的分辨率计数分布、同一IP子域之间的分辨率计数的倒数中位数、同一IP的子域之间的活动天数分布、同一IP子域中活动天数的倒数中位数；子域名名称包括域级别的多样性和子域名长度；

2.按照权利要求1所述的阴影域检测模型建立方法，其特征在于，步骤1)中，利用人为网上搜索的方式，搜集阴影域数据样本，合法域数据样本包括热门流行域名和分非热门流行域名。

3.按照权利要求1所述的阴影域检测模型建立方法，其特征在于，步骤4)中，使用随机排列函数对所述数据集A进行三次随机打乱。

4.按照权利要求1所述的阴影域检测模型建立方法，其特征在于，将所述数据集B划分为K折，针对随机森林、期望最大化算法、梯度提升迭代决策树和XGB模型分别进行K次训练，每次训练保留K分之一的样本用作训练时的检验数据，训练完成后利用检验数据进行预测，一个模型会对应输出和5个预测结果，将这5个结果取平均，得到四个模型运行5次之后的平均值，即四个预测结果，利用逻辑回归模型对四个预测结果进行训练预测，输出结果为M2模型。

5.利用上述权利要求1或2或3或4的阴影域检测模型建立方法建立的阴影域检测模型。

6.一种利用权利要求5所述的阴影域检测模型检测阴影域的方法，其特征在于，包括如下步骤：

a)获取正在被访问的网页域名，提取域名特征；

b)将获取到的用域名特征代表的该域名输入到权利要求5 建立的模型中，输出结果，检测该域名是合法域还是阴影域；

c)若为阴影域，则将检测结果发送给网页拥有者和检测模型的用户。

7.一种阴影域检测***，其特征在于，包括如下模块：

域名特征提取模块，用来获取正在被访问的网页域名，提取域名特征；

域名检测模块，用于将获取到的用域名特征代表的该域名输入到权利要求6建立的模型中，输出结果，检测该域名是合法域还是阴影域；

提示模块，用于将检测结果发送给网页拥有者和检测模型的用户。