CN111756871A

CN111756871A - 一种基于域名服务协议的数据处理方法及电子设备

Info

Publication number: CN111756871A
Application number: CN202010558544.5A
Authority: CN
Inventors: 张新
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-09
Anticipated expiration: 2040-06-18
Also published as: CN111756871B

Abstract

本申请公开了一种基于域名服务协议的数据处理方法及电子设备，其中，该方法包括：在侦测到基于域名服务协议的第一请求的情况下，获取第一请求对应的基于域名服务协议的第一数据；对第一数据进行解析，获取第一数据中特定位置处的第一字符序列，从第一字符序列中基于特定顺序提取具有特定位长的字符片段形成字符片段序列；确定字符片段序列中字符片段的出现概率形成概率信息集，基于概率信息集获取第一特征信息，其中，第一特征信息表征第一字符序列的混乱程度；将第一特征信息输入完成训练的检测模型中，利用检测模型进行计算，获取对第一请求的协议类型的识别结果。该方法可以识别加密的协议类型，且识别结果的准确性较高。

Description

一种基于域名服务协议的数据处理方法及电子设备

技术领域

本申请涉及网络信息领域，特别涉及一种基于域名服务协议的数据处理方法及电子设备。

背景技术

DNS协议(Domain Name System，域名服务协议)是必不可少的网络通信协议之一，为了访问互联网和内网资源，DNS协议提供域名解析服务，将域名和IP地址进行转换。大部分防火墙和入侵检测设备基本不会对DNS进行过滤分析或屏蔽，因此将数据或指令藏匿于DNS协议中进行传输是一种隐蔽且有效的手段。在实际场景中，当攻击者拿下某台服务器权限，或服务器被恶意软件、蠕虫、木马等感染之后，通过建立DNS隧道从而达到敏感信息盗窃、文件传输、回传控制指令等目的。所以，一些非法攻击者可能会利用上述技术原理，通过DNS隧道技术来达到避开防火墙的检测目的，检测网络的数据流量中是否存在DNS隧道技术显得十分必要。

如果检测网络的数据流量中存在DNS隧道技术，则需要对该流量进行调查取证分析，想要进行取证分析则首先需要确定DNS隧道的上层协议类型，之后基于确定的上层协议类型对DNS流量的内容进行识别，进而确定DNS流量中是否存在敏感信息、文件及控制指令等。

通常情况下，检测DNS流量的上层协议类型是通过，将DNS流量中经过编码的协议数据的熵与各种特定协议的流量数据的熵进行比较，基于相似性确定DNS流量的上层协议的类型。但这样的检测方法存在两个缺陷，第一、检测准确率较低；第二、仅能够检测非加密协议的类型，但无法检测加密协议的类型。

发明内容

本申请实施例的目的在于提供一种基于域名服务协议的数据处理方法及电子设备，该方法能够通过训练好的检测模型对网络流量中的数据进行检测，方便而准确的检测出网络请求是否为异常的基于域名服务协议的特定请求，其中包括基于DNS隧道技术的请求。

为了解决上述技术问题，本申请的实施例采用了如下技术方案：

一种基于域名服务协议的数据处理方法，包括：

在侦测到基于域名服务协议的第一请求的情况下，获取所述第一请求对应的基于域名服务协议的第一数据；

对所述第一数据进行解析，获取所述第一数据中特定位置处的第一字符序列，从所述第一字符序列中基于特定顺序提取具有特定位长的字符片段形成字符片段序列；

确定所述字符片段序列中所述字符片段的出现概率形成概率信息集，基于所述概率信息集获取第一特征信息，其中，所述第一特征信息表征所述第一字符序列的混乱程度；

将所述第一特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果。

在一些实施例中，所述方法还包括：

对所述第一字符序列进行累积和检验以获取第二特征信息；

相应的，所述将所述第一特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果，包括：

将所述第一特征信息和所述第二特征信息输入完成训练的所述检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果。

在一些实施例中，所述从所述第一字符序列中基于特定顺序提取具有特定位长的字符片段形成字符片段序列，包括：

从所述第一字符序列中首个字符开始，提取具有特定位长的字符片段，且每向所述第一字符序列中结尾方向错开一个字符，提取一个具有特定位长的字符片段，直至所述第一字符序列的结尾为止，以形成所述字符片段序列。

从所述第一字符序列中基于特定顺序提取具有不同位长的字符片段，以分别形成多个字符片段序列。

在一些实施例中，所述确定所述字符片段序列中所述字符片段的出现概率形成概率信息集，基于所述概率信息集获取第一特征信息，包括：

分别确定各个所述字符片段序列中所述字符片段的出现概率，并分别形成多个相应的概率信息集；

分别基于各个所述概率信息集获取相应的子特征信息。

在一些实施例中，所述将所述第一特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果，包括：

将多个所述子特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果。

在一些实施例中，所述从所述第一字符序列中基于特定顺序提取具有不同位长的字符片段，以分别形成多个字符片段序列，包括：

从所述第一字符序列中基于特定顺序提取具有第一位长的第一字符片段，形成第一字符片段序列；

从所述第一字符序列中基于特定顺序提取具有第二位长的第二字符片段，形成第二字符片段序列；

从所述第一字符序列中基于特定顺序提取具有第三位长的第三字符片段，形成第三字符片段序列。

基于N-Gram模型计算所述字符片段序列中所述字符片段的出现概率，以形成概率信息集；

计算所述概率信息集的熵作为所述第一特征信息。

在一些实施例中，所述检测模型通过对建立的模型架构进行训练形成，其中，所述训练过程包括：

准备训练数据集，所述训练数据集包括第一特征信息集以及对应的识别结果数据集；

以所述第一特征信息集作为输入数据，以所述识别结果数据集作为输出数据训练所述模型架构。

一种电子设备，包括：

获取模块，其用于在侦测到基于域名服务协议的第一请求的情况下，获取所述第一请求对应的基于域名服务协议的第一数据；

解析模块，其用于对所述第一数据进行解析，获取所述第一数据中特定位置处的第一字符序列，从所述第一字符序列中基于特定顺序提取具有特定位长的字符片段形成字符片段序列；

确定模块，其用于确定所述字符片段序列中所述字符片段的出现概率形成概率信息集，基于所述概率信息集获取第一特征信息，其中，所述第一特征信息表征所述第一字符序列的混乱程度；

处理模块，其用于将所述第一特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果。

本申请实施例的基于域名服务协议的数据处理方法，通过计算字符片段序列中各字符片段的出现概率并形成概率信息集，基于概率信息集获取能够表征第一字符序列的混乱程度的第一特征信息，能够很好的刻画第一请求的协议类型，将该第一特征信息作为输入数据输入到完成训练的检测模型中，能够获取到对第一请求的协议类型的识别结果，该方法能够识别加密协议，并且识别结果具有较高的准确性。

附图说明

图1为本申请实施例的基于域名服务协议的数据处理方法的流程图；

图2为本申请实施例的基于域名服务协议的数据处理方法的一种具体实施方式的流程图；

图3为本申请实施例的基于域名服务协议的数据处理方法的另一种具体实施方式的流程图；

图4为本申请实施例的电子设备的结构框图。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

图1为本申请实施例的基于域名服务协议的数据处理方法的流程图，参见图1所示，本申请实施例的基于域名服务协议的数据处理方法具体包括如下步骤：

S100，在侦测到基于域名服务协议的第一请求的情况下，获取所述第一请求对应的基于域名服务协议的第一数据。

其中，所述域名服务协议即为DNS协议(Domain Name System，域名服务协议)，该第一请求可为终端向服务器发送的DNS请求，当然，也可以为其他的请求信息。在具体实施时，可对服务器端进行监测，以在服务器接收到第一请求时能够侦测到该第一请求；也可对终端进行监测，以在终端以服务器为目标向外发送第一请求时侦测到该第一请求。

该第一数据可为第一请求本申请，也可为与第一请求相关的数据。在具体实施时，当侦测到第一请求时，可通过wireshark应用程序或者linux操作***的tcpdump命令抓取DNS数据流量，并保存为.pcap格式。

S200，对所述第一数据进行解析，获取所述第一数据中特定位置处的第一字符序列，从所述第一字符序列中基于特定顺序提取具有特定位长的字符片段形成字符片段序列。

其中，第一字符序列为第一数据中特定位置处的字符序列，以该第一数据为DNS请求为例，该第一字符序列可为DNS请求中任意一部分包含隧道信息的字符序列，例如，该第一字符序列可为查询名(Query Name)。如在获取到DNS请求后，可对该DNS请求进行解析，并提取其中的查询名作为第一字符序列。

在获取到第一字符序列后，可基于特定顺序提取第一字符序列中具有特定位长的字符片段，并通过这些字符片段形成字符片段序列。该特定顺序可为自第一字符序列中首个字符开始至结尾的提取顺序，也可为其他顺序，该特定位长是指字符片段的字符长度，该特定位长可为例如2、3、4、5个字符，甚至更多，在提取到这些字符片段后，可按照该特定顺序形成字符片段序列。在具体实施时，可仅获取单一的字符片段序列，也可获取多个字符片段序列。

S300，确定所述字符片段序列中所述字符片段的出现概率形成概率信息集，基于所述概率信息集获取第一特征信息，其中，所述第一特征信息表征所述第一字符序列的混乱程度。

在一个具体实施例中，可基于N-Gram模型计算所述字符片段序列中所述字符片段的出现概率，以形成概率信息集。以第一字符序列abbcabc为例，提取具有2个字符的字符片段并形成字符片段序列为[ab、bb、bc、ca、ab、bc]，也即2-gram，则该字符片段序列中各个字符片段的出现概率分别为：ab：2/6、bb：1/6、bc：2/6、ca：1/6。

混乱程度可理解为无序程度，即当字符片段分布越无序，则混乱程度越高，当字符片段分布越有序，则混乱程度越低。该混乱程度也可理解为离散随机事件的出现频率，即当出现概率越大时，不确定性越小，则混乱程度越低，当出现概率越小时，不确定性越大，则混乱程度越高。在一个具体实施例中，获取到概率信息集之后，可计算该概率信息集的熵，并将该熵作为第一特征信息。当基于N-Gram模型计算出现概率时，则该熵即为N-Gram熵。N-Gram熵的计算公式如下：

H_(x)＝-∑P_(xi)log(2,P_(xi))(i＝1,2,..n)

其中，H_(x)为N-Gram熵，P_(xi)为字符片段的出现概率。

以上述第一字符序列为例，其2-gram熵的计算式：

2/6*log(2/6)+1/6*log(1/6)+2/6*log(2/6)+1/6*log(1/6)+2/6*log(2/6)+2/6*log(2/6)

S400，将所述第一特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果。

其中，该检测模型为机器学习模型，该检测模型可通过预先构建的模型架构进行训练而成，如图2所示，该预先构建的模型架构可包括一个或多个检测算法，如随机森林算法或梯度下降树算法等。该模型架构构建完成后需要进行训练，以提高其输出的识别结果的准确率。对该模型架构进行训练的训练数据集可包括第一特征信息集，以及对应的识别结果数据集。第一特征信息集中包括若干第一特征信息，而识别结果数据集中包括与第一特征信息相对应的识别结果。训练过程中，将第一特征信息集中的第一特征信息作为输入数据，将识别结果数据集中识别结果作为输出数据对该模型架构进行反复训练，直至在验证过程中确定该模型架构输出的识别结果的准确率达到阈值要求，则确定该检测模型训练完成，可以上线应用。

在训练完成后，将实时获取的第一特征信息输入完成训练的检测模型中，利用该检测模型进行计算，即可获取到能够表征第一请求的协议类型的识别结果。如在具体实施时，可将N-Gram熵输入到该检测模型中，以获取相应的识别结果。

本申请实施例的基于域名服务协议的数据处理方法，通过计算字符片段序列中字符片段的出现概率形成概率信息集，并基于概率信息集获取能够表征字符片段的混乱程度的第一特征信息，能够很好的刻画第一请求的协议类型，将该第一特征信息作为输入数据输入到完成训练的检测模型中，能够获取到对第一请求的协议类型的识别结果，该方法能够识别加密协议，并且识别结果具有较高的准确性。

配合图2所示，在一些实施例中，所述方法还包括：对所述第一字符序列进行累积和检验以获取第二特征信息，其中，第二特征信息也即累积和检验值。累积和检验是一种假设检验，即假设检验对象是随机序列，计算以多大的概率接受该假设，通过计算得出的累积和检验值的范围为(0，1)，接近0表示随机性越大。相应的，所述将所述第一特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果，包括：将所述第一特征信息和所述第二特征信息输入完成训练的所述检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果。累积和检验值能够很好的刻画加密协议的类型，通过增加累积和作为第二特征信息，能够提高检测模型输出的识别结果的准确性。

在具体实施时，可配置一个字符长度为N的滑动窗口，设置该滑动窗口从第一字符序列中首个字符开始向结尾方向滑动，每移动一个字符通过该滑动窗口提取一个字符长度为N的字符片段，直至滑动窗口移动至第一字符序列的结尾为止。其中，N值可以取2、3、4、5等。在另一些实施例中，该滑动窗口每次移动不仅限于一个字符，也可移动多个字符。

在实际应用时，可获取多个字符片段序列，各个字符片段序列中的字符片段可具有不同位长，如图3所示。也即，所述从所述第一字符序列中基于特定顺序提取具有特定位长的字符片段形成字符片段序列，可包括：

如在一个具体实施例中，所述从所述第一字符序列中基于特定顺序提取具有不同位长的字符片段，以分别形成多个字符片段序列，包括：

例如，第一位长可配置为2个字符，第二位长可配置3个字符，第三位长可配置为4个字符。之后，基于第一位长配置第一滑动窗口，设置第一滑动窗口从第一字符序列中首个字符开始向结尾方向滑动，每移动一个字符提取一个字符长度为第一位长的第一字符片段，直至滑动窗口移动至第一字符序列的结尾为止，基于这些第一字符片段形成第一字符片段序列。基于第二位长配置第二滑动窗口，设置第二滑动窗口从第一字符序列中首个字符开始向结尾方向滑动，每移动一个字符提取一个字符长度为第二位长的第二字符片段，直至滑动窗口移动至第一字符序列的结尾为止，基于这些第二字符片段形成第二字符片段序列。再基于第三位长配置第三滑动窗口，设置第三滑动窗口从第一字符序列中首个字符开始向结尾方向滑动，每移动一个字符提取一个字符长度为第三位长的第三字符片段，直至滑动窗口移动至第一字符序列的结尾为止，基于这些第三字符片段形成第三字符片段序列。当然，还可配置例如第四位长、第五位长等等，从而获取其他字符片段序列。

在获取到多个字符片段序列后，可分别确定各个字符片段序列中字符片段出现概率，并分别形成多个相应的概率信息集；再分别基于各个概率信息集获取相应的子特征信息。也即，所述确定所述字符片段序列中所述字符片段的出现概率形成概率信息集，基于所述概率信息集获取第一特征信息，包括：

分别基于各个所述概率信息集获取相应的子特征信息。

具体的，可以确定第一字符片段序列中各个第一字符片段的第一出现概率，形成第一概率信息集；确定第二字符片段序列中各个第二字符片段的第二出现概率，形成第二概率信息集；确定第三字符片段序列中各个第三字符片段的第三出现概率，形成第三概率信息集。之后，再基于第一概率信息集获取第一子特征信息，基于第二概率信息集获取第二子特征信息，基于第三概率信息集获取第三子特征信息。如可分别获取2-Gram熵、3-Gram熵及4-Gram熵等。

继而，可将多个所述子特征信息作为第一特征信息输入完成训练的检测模型中，以获取对第一请求的协议类型的识别结果。也即，所述将所述第一特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果，包括：

具体的，可分别将第一子特征信息、第二子特征信息和第三子特征信息作为第一特征信息输入完成训练的检测模型中，利用检测模型进行计算，获取对第一请求的协议类型的识别结果。如在一个具体实施例中，可将2-Gram熵、3-Gram熵、4-Gram熵及累积和检验值一同输入到完成训练的检测模型中，并获取相应的识别结果。通过多重N-Gram熵分析，能够更加有效的刻画协议类型，提高对第一请求的协议类型的识别结果的准确性。

参见图4所示，本申请实施例还提供了一种电子设备，其包括：

获取模块10，其用于在侦测到基于域名服务协议的第一请求的情况下，获取所述第一请求对应的基于域名服务协议的第一数据；

解析模块20，其用于对所述第一数据进行解析，获取所述第一数据中特定位置处的第一字符序列，从所述第一字符序列中基于特定顺序提取具有特定位长的字符片段形成字符片段序列；

确定模块30，其用于确定所述字符片段序列中所述字符片段的出现概率形成概率信息集，基于所述概率信息集获取第一特征信息，其中，所述第一特征信息表征所述第一字符序列的混乱程度；

处理模块40，其用于将所述第一特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果。

在一些实施例中，所述电子设备还包括：

检验模块，其用于对所述第一字符序列进行累积和检验以获取第二特征信息；

相应的，所述处理模块40具体用于：

在一些实施例中，所述解析模块20具体用于：

在一些实施例中，所述确定模块30具体用于：

分别基于各个所述概率信息集获取相应的子特征信息。

在一些实施例中，所述处理模块40具体用于：

在一些实施例中，所述解析模块20进一步用于：

在一些实施例中，所述确定模块30具体用于

计算所述概率信息集的熵作为所述第一特征信息。

在一些实施例中，所述电子设备还包括：

训练模型，其用于对建立的模型架构进行训练以形成所述检测模型，其中，所述训练过程包括：

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种基于域名服务协议的数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述第一字符序列进行累积和检验以获取第二特征信息；

3.根据权利要求1所述的方法，其特征在于，所述从所述第一字符序列中基于特定顺序提取具有特定位长的字符片段形成字符片段序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述从所述第一字符序列中基于特定顺序提取具有特定位长的字符片段形成字符片段序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定所述字符片段序列中所述字符片段的出现概率形成概率信息集，基于所述概率信息集获取第一特征信息，包括：

分别基于各个所述概率信息集获取相应的子特征信息。

6.根据权利要求5所述的方法，其特征在于，所述将所述第一特征信息输入完成训练的检测模型中，利用所述检测模型进行计算，获取对所述第一请求的协议类型的识别结果，包括：

7.根据权利要求4所述的方法，其特征在于，所述从所述第一字符序列中基于特定顺序提取具有不同位长的字符片段，以分别形成多个字符片段序列，包括：

8.根据权利要求1所述的方法，其特征在于，所述确定所述字符片段序列中所述字符片段的出现概率形成概率信息集，基于所述概率信息集获取第一特征信息，包括：

计算所述概率信息集的熵作为所述第一特征信息。

9.根据权利要求1所述的方法，其特征在于，所述检测模型通过对建立的模型架构进行训练形成，其中，所述训练过程包括：

10.一种电子设备，其特征在于，包括：