CN105656923A

CN105656923A - 一种基于模糊加权的二进制协议格式解析方法

Info

Publication number: CN105656923A
Application number: CN201610091471.7A
Authority: CN
Inventors: 刘渊; 张春瑞; 孟凡治
Original assignee: COMPUTER APPLICATION INST CHINA ENGINEERING PHYSICS ACADEMY
Current assignee: COMPUTER APPLICATION INST CHINA ENGINEERING PHYSICS ACADEMY
Priority date: 2016-02-18
Filing date: 2016-02-18
Publication date: 2016-06-08

Abstract

本发明公开了一种基于模糊加权的二进制协议格式解析方法，它包括如下子步骤：采集单一类型的协议序列；构建模糊加权矩阵；进行两次加权处理的模糊加权的局部序列比对；进行模糊加权的全局序列比对；剔除奇异序列帧；解析报文格式；输出二进制协议与功能信息。该方法为一种通用方法，适用于各种二进制协议的状态分析，具有解析准确、解析率高等特点。

Description

一种基于模糊加权的二进制协议格式解析方法

技术领域

本发明属于融合网络安全技术领域，具体涉及一种基于模糊加权的二进制协议格式解析方法。

背景技术

随着无线网络的快速发展与网络安全形势的日益严峻，针对以无线电磁波为媒介的网络攻击与信息窃取的行为也在不断增加。而在这些特种环境下，未公开标准规范的未知协议通常作为一种通信语言以提高攻击或窃取行为的隐蔽性。从通信数据中挖掘协议格式已成为协议逆向分析的一个重要组成部分。

目前，国内外的研发状态主要呈现以下特点：

1)多数研究成果主要采用的通过监控协议实现软件，跟踪协议软件的执行命令来分析协议的格式，但在难以获取协议实现软件情况下，只能通过获取的通信数据进行协议格式解析的研究成果较少，特别是获取到的二进制数据的协议相应的研究成果更少，且在实际应用中仍有很大的制约与局限。

2)特别是在含有误码的无限通信协议分析方面，一方面获取的信息存在误码，另一方面获取的信息经解调解码后均为二进制格式的协议。绝大多数研究成果针对某一类协议比较适合，但是通用性的分析方法缺乏。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于模糊加权的二进制协议格式解析方法，该方法解析准确，有效提高解析率，本方法为一种通用方法，适用于各种二进制协议的状态分析。

本发明的目的是通过以下技术方案来实现的：

一种基于模糊加权的二进制协议格式解析方法，它包括如下子步骤：

S1：采集单一类型的协议序列；

S2：构建模糊加权矩阵，计算基本比对单元的距离矩阵D，根据实际误码率和***对误码的容忍度，赋予差异度不同的字符之间的比对不同的权值，构建模糊加权矩阵W；

S3：进行两次加权处理的模糊加权的局部序列比对，利用分段函数，对打分规则进行修正，进行两次加权处理的模糊加权的局部序列比对，利用分段函数，对打分规则进行修正，构建协议进化树；

S4：进行模糊加权的全局序列比对，采用全局序列比对算法，全局序列比对的替换矩阵经模糊加权处理后演变成模糊加权的序列比对算法，从而递归完成模糊加权的渐进多序列比对；

S5：剔除奇异序列帧，采用变量SG作为标准衡量奇异序列，变量SG的计算公式如下：

将序列集中SG值显著偏大的序列认定为奇异序列，将奇异序列剔除后进行二次比对；

S6：解析报文格式，模糊加权的多序列比对之后，协议数据帧形成一个二维矩阵，二维矩阵的每一行为***空格的字符序列，每一列是相同字段相同位置的字符，对二维帧矩阵每一列字符数值进行变化率统计，同时进行优势数据统计，综合字符变化率、优势数据统计结果及比对展示结果形成统计特征，结合经验库，通过字符数值的时序特征，判定功能类型；

S7：输出二进制协议与功能信息。

所述的步骤S3中进行两次加权处理，第一次加权利用模糊加权矩阵W，对局部序列比对替换矩阵的分值进行模糊加权处理，使不同字符间能够实现一种近似匹配，第二次加权利用衰减函数提高数据帧头部数据匹配的得分权重。

所述的变化率统计将变化率相同或接近的合并为同一字段；变化率差距较大的分割为不同字段。

所述的优势数据统计为对每一列字符中出现次数最多的几个字符进行统计，计算该字符占所有比对序列的百分比。

本发明的有益效果是：本发明提供了一种基于模糊加权的二进制协议格式解析方法，该方法解析准确，有效提高解析率，本方法为一种通用方法，适用于各种二进制协议的状态分析。

附图说明

图1为本方法流程示意图；

图2为比对单元的距离矩阵D示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于模糊加权的二进制协议格式解析方法，它包括如下子步骤：

S1：采集单一类型的协议序列；

S2：构建模糊加权矩阵，计算基本比对单元的距离矩阵D，由于实际的通信协议运行过程中，常见的误码形式大都为“0”、“1”之间的变换，故在计算距离时不考虑***和删除的情况。距离矩阵每一单元值为比对单元i和j在二进制形式下的差异位数。如在选取基本单元为4Bit数据时，字符“0”与字符“9”的二进制形式分别为“0000”和“1001”，二进制形式下差异的位数为2。选取基本比对单元为3Bit数据时获得的距离矩阵样例如图2所示。

根据实际误码率和***对误码的容忍度，赋予差异度不同的字符之间的比对不同的权值，构建模糊加权矩阵W，当***最大容许nBit的比对单元中包含Error位误码时，模糊加权矩阵每一单元的取值为：

其中为0到1之间的常数。模糊加权矩阵W在精确匹配之外，将字符差异度超过mBit的定义为不匹配，小于的定义为近似匹配，并通过权值提供了近似匹配的得分计算方法。在实际比对过程中，为了平衡误码造差异字符和通信本身传输的差异字符，的取值常常要通过多次实验调整以获得最优效果。

S3：进行两次加权处理的模糊加权的局部序列比对，第一次加权利用模糊加权矩阵W，对局部序列比对替换矩阵的分值进行模糊加权处理，使不同字符间能够实现一种近似匹配，提高算法抗误码性能。

假设有长度为p和q的两个序列P和Q,在精确比对规则下，元素匹配情况得分如下：

μ_{1} (P [i], Q [j]) = \{\begin{matrix} s_{1}, P [i] = Q [j] \\ e_{1}, P [i] &NotEqual; Q [j] \end{matrix}, (0 \leq i, < p, 0 \leq j < q)

上式表示(P的第i个字符与q的第字符比较，字符是由16个bit组成的，P[i]与Q[j]在匹配得分为s1,不匹配得分为e1。那么在引入模糊加权矩阵后，P[i]与Q[j]的情况匹配得分为：

w_{P [i] Q [j]} μ_{1} (P [i], Q [j]) = \{\begin{matrix} s_{1}, d_{P [i] Q [j]} = 0 \\ s_{1} \times q_{P [i] Q [j]}, 0 < d_{P [i] Q [j]} \leq E r r o r \\ e_{1}, d_{P [i] Q [j]} > E r r o r \end{matrix}

第二次加权利用衰减函数提高数据帧头部数据匹配的得分权重，利用分段函数，对打分规则进行修正，减少载荷公共数据对序列相似性的影响。二次加权的权值函数为：

其中a为衰减系数，根据协议类型、帧头特点和训练结果设定，常常选取a＝0，退化为阶跃函数；Hlen为预估的的帧头长度，在实验中作为参数调整。

那么在进行局部序列比对构造得分矩阵时，除第一行第一列为全0填充外，其他矩阵元素分值为：

X (i, j) = m a x \{\begin{matrix} 0 \\ X (i - 1, j - 1) + u_{P [i] Q [j]} w_{P [i] Q [j]} μ_{1} (P [i], Q [j]) \\ X (i, j - 1) + μ_{1} (-, Q [j]) \\ X (i - 1, j) + μ_{1} (P [i], -) \end{matrix}

其中μ₁(-,Q[j])与μ₁(P[i],-)表示与空位实现比对的得分，也即空位罚分。当计算获得的某矩阵元素分值为负时，直接用0代替。完成得分矩阵分值填充后，沿得分最高的路径回溯至0，获得最局部比对序列，进而构建协议进化树。

S4：进行模糊加权的全局序列比对，采用全局序列比对算法，全局序列比对的替换矩阵经模糊加权处理后演变成模糊加权的序列比对算法，从而递归完成模糊加权的渐进多序列比对，利用模糊加权矩阵对字符近似匹配的情况进行打分，降低误码的干扰，减少不必要的空格***。

与局部序列比对得分矩阵计算方法类似，在精确匹配情况下，得分规则为μ₂(P[i],Q[j])时(匹配得分为s2,不匹配得分为e2)时，模糊加权的全局序列比对第一行第一列元素填充数值为：

\{\begin{matrix} X (i, 0) = Σ_{k = 0}^{i} μ_{2} (P [i], -); \\ X (0, j) = Σ_{k = 0}^{j} μ_{2} (-, Q [i]); \end{matrix}, (0 \leq i \leq p - 1, 0 \leq j \leq q - 1)

随着i,j取值递增矩阵中其他单元填充数值计算方法为：

X (i, j) = m a x \{\begin{matrix} X (i - 1, j - 1) + w_{P [i] Q [j]} μ_{2} (P [i], Q [j]) \\ X (i, j - 1) + μ_{2} (-, Q [j]) \\ X (i - 1, j) + μ_{2} (P [i], -) \end{matrix}

其中0＜i＜p,0＜j＜q，μ₂(-,Q[j])与μ₂(P[i],-)表示与空位实现比对的得分。

S5：剔除奇异序列帧，采用变量SG作为标准衡量奇异序列，对于某一制定序列，SG主要用于计算多序列比对结果中因为该序列而引入的空格***计数，变量SG的计算公式如下：

将序列集中SG值显著偏大的序列认定为奇异序列，将奇异序列剔除后进行二次比对，降低奇异序列对多序列比对全局效果的影响；

S6：解析报文格式，模糊加权的多序列比对之后，协议数据帧形成一个二维矩阵，二维矩阵的每一行为***空格的字符序列，每一列是相同字段相同位置的字符，对二维帧矩阵每一列字符数值进行变化率统计，将变化率相同或接近的合并为同一字段；变化率差距较大的分割为不同字段，实现格式的初步划分，在进行变化率统计的同时，进行优势数据统计，即对每一列字符中出现次数最多的几个字符进行统计，计算该字符占所有比对序列的百分比。综合字符变化率、优势数据统计结果及比对展示结果形成统计特征，结合经验库，通过字符数值的时序特征，判定功能类型，经验库是通过对多种协议进行分析与实验，提取不同功能字段的统计特征形成的先验知识。如：某一字段中只出现一种字符即为固定字段，某一字段与相邻字段的字符各出现50％即为交叉变化字段，某一字段字符取值的变化率接近100％，那么该字段可能为校验字段，也可能为序列号。

S7：输出二进制协议与功能信息。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种基于模糊加权的二进制协议格式解析方法，其特征在于：它包括如下子步骤：

S1：采集单一类型的协议序列；

S3：进行两次加权处理的模糊加权的局部序列比对，利用分段函数，对打分规则进行修正，构建协议进化树；

S7：输出二进制协议与功能信息。

2.根据权利要求1所述的一种基于模糊加权的二进制协议格式解析方法，其特征在于：所述的步骤S3中进行两次加权处理，第一次加权利用模糊加权矩阵W，对局部序列比对替换矩阵的分值进行模糊加权处理，使不同字符间能够实现一种近似匹配，第二次加权利用衰减函数提高数据帧头部数据匹配的得分权重。

3.根据权利要求1所述的一种基于模糊加权的二进制协议格式解析方法，其特征在于：所述的变化率统计将变化率相同或接近的合并为同一字段；变化率差距较大的分割为不同字段。

4.根据权利要求1所述的一种基于模糊加权的二进制协议格式解析方法，其特征在于：所述的优势数据统计为对每一列字符中出现次数最多的几个字符进行统计，计算该字符占所有比对序列的百分比。