CN112257076B

CN112257076B - 一种基于随机探测算法和信息聚合的漏洞检测方法

Info

Publication number: CN112257076B
Application number: CN202011254177.6A
Authority: CN
Inventors: 肖清林; 石小川; 张晶; 陈瑜靓; 赵昆杨; 黄靓; 陈鹭菲; 王榕腾; 杜鑫; 杨国林; 杨昆强; 刘健养
Original assignee: Xiamen Useear Information Technology Co ltd
Current assignee: Xiamen Useear Information Technology Co ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2023-12-15
Anticipated expiration: 2040-11-11
Also published as: CN112257076A

Abstract

一种基于随机探测算法和信息聚合的漏洞检测方法，方法包括建立信息合集；反编译；建立二进制训练合集；建立漏洞检测模型；漏洞检测模型判断异常点；漏洞处理。本发明通过信息聚合模块，多次对软件各模块中的网络数据流信息进行采集、筛选、组织和整合，得到纯度高的二进制训练合集，再配合径向基函数神经网络和递归神经网络作用，建立漏洞检测模型，通过机器学习，不断完善模型对二进制软件中可能存在的安全漏洞的检测能力，同时采用随机森林算法，提高了对待检测二进制程序的函数以及对应的特征向量提取的准确性，达到漏洞检测快速、准确的目的。

Description

一种基于随机探测算法和信息聚合的漏洞检测方法

技术领域

本发明涉及漏洞检测领域，尤其涉及一种基于随机探测算法和信息聚合的漏洞检测方法。

背景技术

随着计算机信息技术的飞速发展，网络空间安全日益重要，因为软件漏洞导致的网络事件呈高发趋势，对网络空间安全造成了很大的威肋，漏洞分析技术成为网络安全领域的研究热点。

漏洞检测是漏洞分析技术的一个重要分支，多是从已有漏洞出发，查找与其存在同源关系的相似漏洞甚至根据漏洞代码特征发现未公开的漏洞。然而现有的漏洞检测方法进行特征提取时，样本数量多且杂，造成漏洞检测模型工作效率不高，进而影响漏洞检测的准确性和针对性。

为解决上述问题，本申请中提出一种基于随机探测算法和信息聚合的漏洞检测方法。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于随机探测算法和信息聚合的漏洞检测方法，本发明通过信息聚合模块，多次对软件各模块中的网络数据流信息进行采集、筛选、组织和整合，得到纯度高的二进制训练合集，再配合径向基函数神经网络和递归神经网络作用，建立漏洞检测模型，通过机器学习，不断完善模型对二进制软件中可能存在的安全漏洞的检测能力，同时采用随机森林算法，提高了对待检测二进制程序的函数以及对应的特征向量提取的准确性，达到漏洞检测快速、准确的目的。

(二)技术方案

为解决上述问题，本发明提供了一种基于随机探测算法和信息聚合的漏洞检测方法，方法步骤如下：

S1、建立信息聚合模块，对软件各模块中的网络数据流信息进行采集、筛选、组织和整合，得到java/C++代码构成的信息合集；

S2、将信息合集内以字节码为最小单位进行反编译，得到与其一一对应的操作码；

S3、对操作码的轻量级静态特征进行提取，同时信息聚合模块对提取的所有特征信息再次进行采集、筛选、组织和整合，建立二进制训练合集；

S4、提取二进制训练合集中的函数以及对应的特征向量，并将其和随机算法进行链接、配合，得到漏洞检测模型；

S5、信息聚合模块不断采集新的动态特征和静态特征，对漏洞检测模型进行完善；

S6、漏洞检测模型对二进制程序进行漏洞检测，将提取到的待检测二进制程序的函数以及对应的特征向量输入至漏洞检测模型，将其与已知漏洞的二进制程序的函数以及对应的特征向量进行对比，分析相似性，判断异常点；

S7、将待检测二进制程序的异常点拟合到T颗决策树，计算在每颗决策树上该样本的叶子节点的深度h_t(x)，从而可以计算出平均高度h(x)，得到异常概率，计算公式为:

其中，m为样本个数；

c(m)的表达式为：

ξ为欧拉常数；s(x,m)的取值范围是[0,1],取值越接近于1，则是异常点的概率也越大；

S8、将判断结果发送至漏洞处理模块。

优选的，采用径向基函数神经网络和递归神经网络对漏洞检测模型进行完善。

优选的，径向基函数神经网络设置有第一输入层、隐藏层和第二输出层；第一输入层和第二输出层输层位于隐藏层上端和下端。

优选的，相邻神经元之间权重起始为1，随训练程度变化而改变。

优选的，递归神经网络对训练合集中的时间序列数据切割处理，得到时间序列矩阵，再将时间序列矩阵返回漏洞检测模型。

优选的，在S3中，信息聚合模块除去信息合集中内容重复率高于重复阈值的操作码，并对操作码样本数量进行统计。

优选的，在S3中，采用基尼指数对信息聚合模块的统计结果进行纯化。

优选的，信息聚合模块将信息合集内代码转化为XML文本。

优选的，特征信息采集时以XML文本的每个节点为最小单位，以语法、语义、函数行为为采集目标，分为基本信息特征、二元操作符特征、代码复杂度特征和路径特征。

优选的，设置预处理模块对待检测二进制程序进行预处理，提取代码函数以及对应的特征向量。

优选的，在S8中，设置模拟攻击模块，对检测出的各个漏洞进行攻击模拟，验证漏洞的危险级别。

本发明的上述技术方案具有如下有益的技术效果：

本发明通过信息聚合模块，多次对软件各模块中的网络数据流信息进行采集、筛选、组织和整合，得到纯度高的二进制训练合集，再配合径向基函数神经网络和递归神经网络作用，建立漏洞检测模型，通过机器学习，不断完善模型对二进制软件中可能存在的安全漏洞的检测能力，同时采用随机森林算法，提高了对待检测二进制程序的函数以及对应的特征向量提取的准确性，达到漏洞检测快速、准确的目的。

附图说明

图1为本发明提出的一种基于随机探测算法和信息聚合的漏洞检测方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于随机探测算法和信息聚合的漏洞检测方法，方法步骤如下：

其中，m为样本个数；

c(m)的表达式为：

S8、将判断结果发送至漏洞处理模块。

在一个可选的实施例中，采用径向基函数神经网络和递归神经网络对漏洞检测模型进行完善。

在一个可选的实施例中，径向基函数神经网络设置有第一输入层、隐藏层和第二输出层；第一输入层和第二输出层输层位于隐藏层上端和下端。

在一个可选的实施例中，相邻神经元之间权重起始为1，随训练程度变化而改变。

在一个可选的实施例中，递归神经网络对训练合集中的时间序列数据切割处理，得到时间序列矩阵，再将时间序列矩阵返回漏洞检测模型。

在一个可选的实施例中，在S3中，信息聚合模块除去信息合集中内容重复率高于重复阈值的操作码，并对操作码样本数量进行统计。

在一个可选的实施例中，在S3中，采用基尼指数对信息聚合模块的统计结果进行纯化。

在一个可选的实施例中，信息聚合模块将信息合集内代码转化为XML文本。

在一个可选的实施例中，特征信息采集时以XML文本的每个节点为最小单位，以语法、语义、函数行为为采集目标，分为基本信息特征、二元操作符特征、代码复杂度特征和路径特征。

在一个可选的实施例中，设置预处理模块对待检测二进制程序进行预处理，提取代码函数以及对应的特征向量。

在一个可选的实施例中，在S8中，设置模拟攻击模块，对检测出的各个漏洞进行攻击模拟，验证漏洞的危险级别。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于随机探测算法和信息聚合的漏洞检测方法，其特征在于，方法步骤如下：

S5、信息聚合模块不断采集新的动态特征和静态特征，对漏洞检测模型进行完善；采用径向基函数神经网络和递归神经网络对漏洞检测模型进行完善；径向基函数神经网络设置有第一输入层、隐藏层和第二输出层；第一输入层和第二输出层输层位于隐藏层上端和下端；相邻神经元之间权重起始为1，随训练程度变化而改变；递归神经网络对训练合集中的时间序列数据切割处理，得到时间序列矩阵，再将时间序列矩阵返回漏洞检测模型；

S7、将待检测二进制程序的异常点拟合到T颗决策树，计算在每颗决策树上样本的叶子节点的深度h_t(x)，从而可以计算出平均高度h(x)，得到异常概率，计算公式为:

其中，m为样本个数；

c(m)的表达式为：

S8、将判断结果发送至漏洞处理模块。

2.根据权利要求1所述的一种基于随机探测算法和信息聚合的漏洞检测方法，其特征在于，在S3中，信息聚合模块除去信息合集中内容重复率高于重复阈值的操作码，并对操作码样本数量进行统计。

3.根据权利要求1所述的一种基于随机探测算法和信息聚合的漏洞检测方法，其特征在于，在S3中，采用基尼指数对信息聚合模块的统计结果进行纯化。

4.根据权利要求1所述的一种基于随机探测算法和信息聚合的漏洞检测方法，其特征在于，信息聚合模块将信息合集内代码转化为XML文本。

5.根据权利要求4所述的一种基于随机探测算法和信息聚合的漏洞检测方法，其特征在于，特征信息采集时以XML文本的每个节点为最小单位，以语法、语义、函数行为为采集目标，分为基本信息特征、二元操作符特征、代码复杂度特征和路径特征。

6.根据权利要求1所述的一种基于随机探测算法和信息聚合的漏洞检测方法，其特征在于，设置预处理模块对待检测二进制程序进行预处理，提取代码函数以及对应的特征向量。

7.根据权利要求1所述的一种基于随机探测算法和信息聚合的漏洞检测方法，其特征在于，在S8中，设置模拟攻击模块，对检测出的各个漏洞进行攻击模拟，验证漏洞的危险级别。