CN104468262A

CN104468262A - 一种基于语义敏感的网络协议识别方法及***

Info

Publication number: CN104468262A
Application number: CN201410652834.0A
Authority: CN
Inventors: 云晓春; 张永铮; 王一鹏; 周宇
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2014-11-17
Filing date: 2014-11-17
Publication date: 2015-03-25
Anticipated expiration: 2034-11-17
Also published as: CN104468262B

Abstract

本发明涉及一种基于语义敏感的网络协议识别方法及***。在建模阶段，以特定应用协议的网络数据报文集合作为输入，利用Latent Dirichlet Allocation方法构建所分析协议的关键字模型；在训练阶段，依照协议关键字模型提取数据报文的分类特征信息，以获得的关键字特征向量作为输入，利用有监督机器学习方法对离线训练数据集学习训练，获得所分析协议的分类模型；在分类阶段，依照协议关键字模型提取数据报文的分类特征信息，利用协议分类模型对待测网络数据报文的协议属性做出判别，判断其是否属于目标协议的网络数据报文。本发明能够充分挖掘网络消息报文中潜在的协议语义信息，对多种网络协议进行有效的协议识别。

Description

一种基于语义敏感的网络协议识别方法及***

技术领域

本发明属于网络技术领域，具体涉及一种基于语义敏感的网络协议识别方法及***。

背景技术

协议识别技术，是将网络数据流与具体应用协议相对应的过程，在许多的网络和安全领域中都有着十分重要的应用，例如网络测量、入侵检测与防范和僵尸网络行为检测等。以其在入侵检测和防范***中的应用为例，传统的入侵检测和防范***将每个数据包载荷部分视为一系列的字节序列，并将这些字节的序列信息与恶意程序(malware)的签名(通常是由一组正则表达式来表示)进行匹配操作。这种粗粒度的签名检查机制由于其忽视了数据包载荷部分的应用协议结构从而在可靠性上受到了极大的限制。

现代化的入侵检测和防范***正演变的更加语义敏感。具体地说，其依照应用协议的信息格式来获得所分析应用协议的字段信息从而实现对网络数据包的合理解析。几种类型的应用协议解析工具，如FlowSifter，UltraPAC，binpac，和GAPA，已经在此前的研究工作中提出。所有这些应用协议解析工具都需要所分析协议的协议规范信息，从而产生对应于该协议的解析工具。然而，互联网中许多应用协议是私有协议，并这些协议没有公开可得到的协议指纹规范信息。根据Internet2NetFlow组织对骨干网中流量的统计发现：超过40％的网络数据流属于未识别的应用协议。被恶意程序(malware)和僵尸网络(botnet)所使用的网络通信协议没有来自于其设计者的协议规范信息。为了解析未知应用协议网络数据流，首先需要进行协议推断从而获得协议指纹信息。网络监控工具，例如Wireshark，NetDude，SNORT和BRO等也需要应用协议解析工具来实现他们的功能。

网络协议识别方法根据其研究对象的不同可划分为基于传输层端口、基于数据报文载荷和基于网络数据流统计行为特征三种类别。本发明以网络数据报文的载荷作为基本研究对象。本领域的现有方法大致可划分为两中类别：(1)基于协议解析的方法；(2)基于协议签名的方法。本发明属于第二类，基于协议签名的方法。基于协议签名的方法在分析过程中只依赖于对数据报文载荷的分析，不依赖于应用程序的可执行代码。此前，关于协议签名自动构建的研究工作未使用存在于数据报文中的潜在语义信息，即数据报文中语法元素之前的关联关系。值得注意的是此类研究工作不能达到实现使用更少分类特征且达到更高准确率的研究目标。同时，相较于此前的研究工作，本发明对所分析的网络协议本身作出更少的前提假设。

发明内容

本发明的目的在于设计并实现一种基于语义敏感的网络协议识别方法及***，使得在网络协议识别过程中，充分挖掘网络消息报文中潜在的协议语义信息；在保证较高的识别准确率与召回率的前提下，在实践中同时具有较强的普适性与鲁棒性。

本发明的发明动机来源于持续上升的多种多样的未知网络流量，设计的新颖的协议识别方法及***以最小人力需求为基本前提，实现特定应用协议识别过程的全面自动化。

具体来说，本发明采用如下技术方案：

一种基于语义敏感的网络协议识别方法，包括建模阶段、训练阶段和分类阶段；

在建模阶段，以特定应用协议的网络数据报文集合作为输入，利用Latent DirichletAllocation方法构建所分析协议的关键字模型；

在训练阶段，依照建模阶段得到的协议关键字模型提取数据报文的分类特征信息，以获得的关键字特征向量作为输入，利用有监督机器学习方法对离线训练数据集学习训练，从而获得所分析协议的分类模型；

在分类阶段，依照建模阶段得到的协议关键字模型提取数据报文的分类特征信息，利用训练阶段输出的协议分类模型，对待测网络数据报文的协议属性做出判别，判断其是否属于目标协议的网络数据报文。

进一步地，所述建模阶段的具体步骤包括：

1)采集属于特定应用协议的网络数据报文，从而将网络数据报文划分为两种类别：一类是属于所要分析的应用协议的数据报文集合；另一类是不属于所要分析应用协议的数据报文集；

2)利用n-gram模型将网络数据报文转化为以n-gram元素作为基本单元的网络数据报文；所述n-gram模型是给定序列的n个连续元素的子序列；

3)利用基于Latent Dirichlet Allocation方法构建所要分析协议的协议关键字模型。

进一步地，所述利用Latent Dirichlet Allocation方法构建协议关键字模型的具体步骤包括：

1)为包含有M个数据报文的集合D中的所有n-gram分配一个随机的关键字索引号这里w_(m,i)代表数据报文m中，第i个n-gram，z_(m,i)是该n-gram的关键字索引号，N_m是数据报文m中n-gram元素的个数；

2)用代表除z_(m,i)以外的所有其他n-gram的关键字索引号，在数值保持不变的情况下，根据后验概率分布为n-gramw_(m,i)通过采样的方法产生一个新的关键字索引号数值z_(m,i)；其中α和β是给定的超参数，代表n-gram字典中元素t分配给关键字k的次数，代表消息报文m中关键字k出现的次数，W代表n-gram字典中n-gram元素的个数；

3)根据Gibbs采样方法得到的z_(m,i)数值，对后验概率分布中的过期数值进行更新；

4)对数据集合中的所有的元祖(m,i)都重复上述的采样操作，若达到Gibbs采样收敛条件L，则算法中止，返回最终的关键字索引号否则重复步骤1)至3)；

5)利用通过步骤1)至4)得到的关键字索引号构建协议关键字模型

其中K代表协议关键字的个数，

一种采用上述方法的基于语义敏感的网络协议识别***，其包括：

建模单元，以特定应用协议的网络数据报文集合作为输入，利用Latent Dirichlet Allocation模型构建所分析协议的关键字模型；

训练单元，依照建模单元得到的协议关键字模型提取数据报文的分类特征信息，以获得的关键字特征向量作为输入，利用有监督机器学习方法对离线训练数据集学习训练，从而获得所分析协议的分类模型；

分类单元，依照建模单元得到的协议关键字模型提取数据报文的分类特征信息，利用训练单元输出的协议分类模型，对待测网络数据报文的协议属性做出判别，判断其是否属于目标协议的网络数据报文。

本发明的关键技术点在于：

1)充分利用了协议消息报文中存在的潜在语义信息。本发明能够区分不同消息中相同n-grams元素所表示的不同含义。这些不同消息可能有不同的语义，因此应该被归类为不同的协议关键字。值得注意的是此前基于网络数据流的协议信息格式推断方法不能较好地处理上面所述的问题。因为之前方法大多依赖统计字符串出现的频次，从而忽略了每个字符串出现的上下文环境。

2)此外，本发明可以发现不同n-grams之间的关联性。在协议消息报文中，多个n-grams一起可以形成协议信息格式中的一个元素。例如，在一个SMTP消息报文中，3-grams，“250”和“OK”共同来表征一个可用于确认邮件会话的协议元素。利用协议关键字识别，本发明可以将互相关联的n-grams聚合到一起，进而形成一个协议关键字。

利用本发明的方法能对多种网络协议进行有效的协议识别，与已公开的相关技术相比，具有如下优点：

1.该方法可解决面向连接协议(如TCP)和面向无连接协议(如UDP)的应用协议识别问题；

2.该方法是基于数据报文的载荷统计信息，其不假定协议规范的任何先验知识。因此,可适用于文本，二进制和加密类协议的识别；

3.作为一种基于报文的网络协议识别解决方法，该方法不需要将IP数据报文组装成应用层消息。因此，其适用同时适用于逐包和逐流的协议分类方案。

4.该方法对大长流(如SMTP)和小短流(如FTP)在真实网络环境中都适用。

附图说明

图1是基于语义敏感的网络协议识别方法建模阶段流程图。

图2是基于语义敏感的网络协议识别方法的训练阶段流程图。

图3是基于语义敏感的网络协议识别方法的分类阶段流程图。

图4是基于Latent Dirichlet Allocation方法的协议关键字模型构建流程图。

图5是基于语义敏感的网络协议识别***的架构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

本发明的基于语义敏感的网络协议识别方法，以网络数据流为输入，自动地从混杂网络流量中对所分析协议的网络数据流进行准确识别。该方法只分析IP数据报文的载荷部分，不需要对程序的可执行代码进行逆向分析，也不依赖协议规范中的先验知识。同时，该方法可解决面向连接协议(如TCP)和面向无连接协议(如UDP)的识别问题。该方法由三个主要阶段构成：建模阶段、训练阶段和分类阶段。

建模阶段由数据采集、数据报文n-gram产生、关键字模型构建(关键字识别)三个模块构成。其流程图如图1所示，具体说明如下：

1.数据采集：数据采集模块的作用是采集属于特定应用协议的网络数据报文。从而将网络数据报文划分为两种类别：一类是属于所要分析的应用协议的数据报文集合；另一类是不属于所要分析应用协议的数据报文集合。

2.数据报文n-gram产生：数据包n-gram产生操作利用n-gram模型将网络数据报文转化为以n-gram元素作为基本单元的网络数据报文。本发明所述的n-gram模型是给定序列的(至少为n个元素的序列)n个连续元素的子序列。给定网络数据报文集合，n-gram模型将字节大小为m的网络数据包序列b₁,b₂,…,b_m分解为n-grams(n≤m)序列：b₁,b₂,…,b_n，b₂,b₃,…,b_n+1，…，b_m-n+1,b_m-n+2,…,b_m。在实践过程中，通常只选择统计频率较高的前W个n-gram元素，并形成其n-gram字典。

3.关键字识别：关键字识别模块利用基于Latent Dirichlet Allocation(LDA)方法构建所要分析协议的协议关键字模型。建模阶段的输出结果是所分析网络协议的协议关键字模型。

训练阶段由数据采集、数据报文n-gram产生、特征提取、分类器学习四个模块构成。其流程图如图2所示，具体说明如下：

1.数据采集：同建模阶段步骤1操作。

2.数据报文n-gram产生：同建模阶段步骤2操作。

3.特征提取：对网络数据报文依照建模阶段步骤3得到的协议关键字模型，进行分类特征提取。该步骤计算数据报文中不同关键字出现的概率，并依此从而形成该数据报文的K维度特征向量。

4.分类器学习：利用有监督学习方法，依照步骤3报文特征提取模块得到的分类特征，构建所分析应用协议的二值分类器。

分类阶段由数据报文n-gram产生、特征提取、分类器三个模块构成。其流程图如图3所示，具体说明如下：

1.数据报文n-gram产生：同训练阶段步骤2。

2.特征提取：同训练阶段步骤3。

3.分类器：根据步骤1、步骤2得到的分类特征向量和训练阶段步骤4得到的分类模型对未标识的网络数据报文进行协议类别判定。输出结果为两类：一类是属于目标协议的网络数据报文，另一类是非目标协议的网络数据报文。

而整个方法的创新点在于协议关键字模型的构建过程，它可以分为以下几个步骤，图4给出了基于Latent Dirichlet Allocation(LDA)方法的协议关键字识别以及关键字模型构建的流程图。

协议关键字模型构建过程的输入是属于某种特定应用协议的消息报文集合。L为协议关键字模型构建过程的中止条件。协议关键字模型构建过程的输出结果是所分析网络协议的协议关键字模型。本方法基于Latent Dirichlet Allocation(LDA)方法来构建协议关键字模型，其具体实施步骤如下：

1.首先，为包含有M个数据报文的集合D中的所有n-gram分配一个随机的关键字索引号这里w_(m,i)代表数据报文m中，第i个n-gram，z_(m,i)是该n-gram的关键字索引号，N_m是数据报文m中n-gram元素的个数；

2.接下来，用代表除z_(m,i)以外的所有其他n-gram的关键字索引号。在数值保持不变的情况下，根据后验概率分布为n-gram w_(m,i)通过采样的方法产生一个新的关键字索引号数值z_(m,i)。其中α和β是给定的超参数，代表n-gram字典中元素t分配给关键字k的次数，代表消息报文m中关键字k出现的次数。W代表n-gram字典中n-gram元素的个数。

3.根据Gibbs采样方法得到的z_(m,i)数值，对后验概率分布中的过期数值进行更新；

4.对数据集合中的所有的元祖(m,i)都重复上述的采样操作。若达到Gibbs采样收敛条件L，则算法中止，返回最终的关键字索引号否则重复步骤1-3。

5.利用通过步骤1-4得到的关键字索引号构建协议关键字模型

其中K代表协议关键字的个数，

结合上述基于语义敏感的网络协议识别方法，本发明同时公开了一种基于语义敏感的网络协议识别***。本***主要由建模单元、训练单元和分类单元三个部分构成，分别对应由建模阶段、训练阶段和分类阶段，***图架构如图5所示。

1.建模单元：以特定应用协议的网络数据报文集合作为输入，利用Latent DirichletAllocation模型构建所分析协议的关键字模型。该单元的输出结果是所分析协议的协议关键字模型。

2.训练单元：依照建模单元得到的协议关键字模型提取数据报文的分类特征信息。以特征提取模块获得的关键字特征向量作为输入，利用有监督机器学习方法对离线训练数据集学习训练，从而获得所分析协议的分类模型。

3.分类单元：依照建模单元得到的协议关键字模型提取数据报文的分类特征信息，利用训练单元输出的协议检测模型(即上述分类模型)，对待测网络数据报文的协议属性做出判别。输出结果为两类：一类是属于目标协议的网络数据报文，另一类是非目标协议的网络数据报文。

在验证实验中，本发明对DNS协议和FTP协议在n-gram元素总个数W为不同取值的情况下分别进行实验，对比其在不同有监督学习算法下的准确率，召回率和F测度。给定***要分析的某种应用协议，本发明首先定义以下三种数据集合：

●True Positives(TP):被***识别为某协议的网络数据包，且确实是属于该协议的网络数据包集合。

●False Positives(FP):被***识别为某协议的网络数据包，但并不属于该协议的网络数据包集合。

●False Negatives(FN):被***识别为非某协议的网络数据包，但其实是属于该协议的网络数据包集合。

●True Negatives(TN)：被***识别为非某协议的网络数据包，且确实不属于该协议的网络数据包集合。

基于上述三种数据集合，本发明采用机器学习领域中通常使用的准确率(precision)，召回率(recall)和F测度(F-Measure)三种评价指标来对***的有效性和可靠性进行评价。三种评价指标定义如下：

precision = \frac{TP}{TP + FP}

recall = \frac{TP}{TP + FN}

F - Measure = 2 * \frac{precision * recall}{precision + recall}

由于准确率与召回率分别描述***性能的两个方面，单一使用准确率和召回率作为评价指标具有局限性，因此，本文选用F测度指标将这两个指标进行综合考虑，从而选择最优方案。基于语义敏感的网络协议识别方法在DNS协议和FTP协议的实验结果如下表所示。

表1：DNS协议实验结果

表2：FTP协议实验结果

表1展示了DNS协议的实验结果。本发明注意到DNS协议的准确率数值，在不同参数设定下，其变化范围在94.16％～99.74％。召回率数值，在不同参数设定下，其变化范围在98.21％～99.85％。对于DNS协议而言，本发明发现其达到最好实验结果是C4.5决策树，对应的W数值为1000。

表2展示了FTP协议的实验结果。本发明注意到FTP协议的准确率数值，在不同参数设定下，其变化范围在97.20％～99.56％。召回率数值，在不同参数设定下，其变化范围在87.16％～97.28％。对于FTP协议而言，本发明发现其达到最好的实验结果是使用C4.5决策树，对应的W数值为1500。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于语义敏感的网络协议识别方法，其特征在于，包括建模阶段、训练阶段和分类阶段；

2.如权利要求1所述的方法，其特征在于，所述建模阶段的具体步骤包括：

3.如权利要求2所述的方法，其特征在于，利用Latent Dirichlet Allocation方法构建协议关键字模型的具体步骤包括：

2)用代表除z_(m,i)以外的所有其他n-gram的关键字索引号，在数值保持不变的情况下，根据后验概率分布

p (z_{(m, i)} | {\overset{&RightArrow;}{z}}_{&Not; (m, i)}, \overset{&RightArrow;}{W}) &Proportional; \frac{(n_{k}^{(t)} - 1 + β) (n_{m}^{(k)} - 1 + α)}{(Σ_{t = 1}^{W} n_{k}^{(t)} - 1 + Wβ)},

为n-gramw_(m,i)通过采样的方法产生一个新的关键字索引号数值z_(m,i)；其中α和β是给定的超参数，代表n-gram字典中元素t分配给关键字k的次数，代表消息报文m中关键字k出现的次数，W代表n-gram字典中n-gram元素的个数；

其中K代表协议关键字的个数，

4.如权利要求2或3所述的方法，其特征在于：在产生数据报文n-gram时，只选择统计频率较高的前W个n-gram元素，并形成其n-gram字典。

5.如权利要求2或3所述的方法，其特征在于，所述训练阶段的具体步骤包括：

1)数据采集，同建模阶段步骤1)的操作；

2)数据报文n-gram产生，同建模阶段步骤2)的操作；

3)对网络数据报文依照建模阶段步骤3)得到的协议关键字模型进行分类特征提取；

4)利用有监督学习方法，依照提取得到的分类特征构建所分析应用协议的二值分类器。

6.如权利要求5所述的方法，其特征在于，所述建模阶段的具体步骤包括：

1)数据报文n-gram产生，同训练阶段步骤2)；

2)特征提取，同训练阶段步骤3)；

3)根据步骤1)、步骤2)得到的分类特征向量和训练阶段步骤4)得到的分类模型对未标识的网络数据报文进行协议类别判定。

7.如权利要求1所述的方法，其特征在于，待测的网络协议为面向连接协议和/或面向无连接协议。

8.一种采用权利要求1所述方法的基于语义敏感的网络协议识别***，其特征在于，包括：