CN116401680A

CN116401680A - 基于梯度提升决策树算法的工控漏洞检测方法和***

Info

Publication number: CN116401680A
Application number: CN202310677008.0A
Authority: CN
Inventors: 原树生
Original assignee: Beijing Wangteng Technology Co ltd
Current assignee: Beijing Wangteng Technology Co ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-07-07

Abstract

本申请公开了一种基于梯度提升决策树算法的工控漏洞检测方法和***，包括：获取工控***中的数据包，分析所述数据包，提取数据特征，将所述数据特征划分为训练集和测试集；基于梯度提升决策树算法，以所述训练集训练漏洞检测模型；根据所述测试集评估训练完成的漏洞检测模型；选取并计算所述漏洞检测模型的性能评估指标；根据所述性能评估指标的计算值评估所述漏洞检测模型；通过满足评估标准的漏洞检测模型实现工控***的漏洞检测。本发明对漏洞检测模型不断训练，达到符合预期标准的检测模型，检测准确率高。

Description

基于梯度提升决策树算法的工控漏洞检测方法和***

技术领域

本申请涉及计算机网络安全领域领域，特别涉及一种基于梯度提升决策树算法的工控漏洞检测方法和***。

背景技术

工控***通过传感器、仪表等设备将数据实时传输到工业互联网中，实现对工业设备和工业生产流程的远程控制和监测。近年来，随着物联网技术的快速发展及市场需求的不断推动，工控***正朝着智能化，自动化，高效化的方向不断发展。然而，随着工控***的普及和推广，工控***的网络安全问题越来越受到企业的重视。一旦工控***的网络安全出现问题，将会给企业的工业生产活动和工人的生命财产安全造成无法预估的损失。因此，企业普遍采用工控漏洞检测***对网络安全漏洞进行监测，从而能够及时掌握漏洞信息，采取相应的风险规避措施，以提高工控***的安全性和生产效率，保证工业生产活动的有序进行。

工控漏洞检测***是专门用于对工控***进行安全漏洞扫描和检测的工具，能够帮助企业及时发现工控***中存在的漏洞和安全隐患，提高工控***的安全防护能力。工控漏洞检测***集成了工控***自动识别，针对性漏洞扫描技术，构建漏洞数据库，生成风险评估报告和安全检测报告等多种功能，其核心功能是快速自动检测和分析工控***中的安全漏洞和隐患。

目前，随着信息技术的不断发展和互联网应用的不断普及，工业互联网中的漏洞数量不断增加，漏洞类型呈现出多样化的趋势，漏洞的复杂性也日益增加，传统的工控漏洞检测***已难以满足现代工控***的安全性要求。传统工控漏洞检测***目前主要存在以下几个问题：1）漏洞检测准确性不高：由于现代工控***日趋复杂，漏洞检测的准确性越来越低，经常出现漏检或误检的现象，很大程度上影响工业生产活动的效率；2）资源占用高：漏洞检测需要实时进行，传统的漏洞检测***面对新型的漏洞检测场景时，存在计算复杂度高的问题，占用海量的内存资源，导致整个工控***的性能下降，稳定性减弱；3）专业技术的要求更高：日趋复杂的漏洞检测场景传统工控***无法胜任，需要投入大量的专业安全人员进行人工判别，且对安全员的业务水平也有着很高的要求；4）***兼容性差：现有的工控***有着多种***和协议，传统漏洞检测***无法很好的与之兼容。

发明内容

（一）申请目的

基于此，为了提高漏洞检测的准确率，以及解决工控***发生改变时，漏洞检测***不能兼容的问题，本申请公开了以下技术方案。

（二）技术方案

本申请公开了一种基于梯度提升决策树算法的工控漏洞检测方法，包括：

S1、获取工控***中的数据包，分析所述数据包，提取数据特征，将所述数据特征划分为训练集和测试集；

S11，对所述数据特征动静结合分析，将数据特征构成数字向量；

S12，以数字向量的形式划分数据特征，得到训练集和测试集；

S2、基于梯度提升决策树算法，以所述训练集训练漏洞检测模型；

S3、根据所述测试集评估训练完成的漏洞检测模型；

S31、选取并计算所述漏洞检测模型的性能评估指标；

S32、根据所述性能评估指标的计算值评估所述漏洞检测模型；

S4、通过满足评估标准的漏洞检测模型实现工控***的漏洞检测。

在一种可能的实施方式中，所述数据特征包括静态特征和动态特征，所述静态特征包括注释数量

，变量数量/>

，函数数量/>

，运算符数量/>

，指令序列

，控制流图/>

；所述动态特征包括API调用/>

，函数调用

，输入输出/>

，资源利用/>

和内存映像/>

。

在一种可能的实施方式中，所述数字向量构成公式包括：

。在一种可能的实施方式中，所述漏洞检测模型的训练过程包括：

S21、初始化分类器：将初始分类器设定为训练集中所有样本数据特征的平均值；

其中，

表示当前分类器；/>

表示训练集中的第i个样本的数据特征，n为当前训练集中的样本个数；/>

表示第i个样本的数据特征的实际值；

S22、计算残差：计算每个样本的残差；

其中，

表示第m颗决策树上的样本i的残差，/>

表示当前决策树的预测值；

S23、构建树模型：拟合残差

学习一颗回归树，得到回归树/>

；

S24、增大模型复杂度：将当前决策树加入回归树中，得到更新的决策树；

S25、重复S22~S24：达到拟合效果后，停止迭代，得到最终的提升树；

其中，提升树

为前M颗树的加权和。

在一种可能的实施方式中，所述性能评估指标及评估方法包括：

准确率P：

其中，准确率P是指分类判断正确的代码在所有样本中所占的比例，准确率越高说明漏洞检测的成功率越高，TP表示真良性代码，FP表示假良性代码；

召回率R：

其中，召回率R是指所有实际为良性代码的样本中，被所述漏洞检测模型正确预测为良性代码的样本数量占比，召回率高表示分类器对正样本分类的漏判较少，FN表示假的恶意代码；

F1得分：

其中，F1得分是所述准确率和所述召回率的调和平均，F1值越高，分类器性能越好。

作为本申请的第二方面，本申请还公开了一种基于梯度提升决策树算法的自适应工控漏洞检测***，包括：

获取模块：用于获取工控***中的数据包，分析所述数据包，提取数据特征，将所述数据特征划分为训练集和测试集；

训练模块：用于基于梯度提升决策树算法，以所述训练集训练漏洞检测模型；

评估模块：用于根据所述测试集评估所述漏洞检测模型；

检测模块：用于通过满足评估标准的漏洞检测模型实现工控***的漏洞检测。

在一种可能的实施方式中，所述获取模块包括：

分析子模块：用于对所述数据特征动静结合分析，将数据特征构成数字向量；

划分子模块：用于以数字向量的形式划分数据特征，得到训练集和测试集。

在一种可能的实施方式中，所述评估模块包括：

选取子模块：用于选取并计算所述漏洞检测模型的性能评估指标；

评估子模块：用于根据所述性能评估指标的计算值评估所述漏洞检测模型

作为本申请的第三方面，本申请还公开了一种存储介质，所述存储介质存储有多条指令所述指令适于由处理器加载并执行上述任意一项所述的方法。

作为本申请的第四方面，本申请还公开了一种电子设备，包括：一个或多个处理器和存储器，其特征在于，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任意一项所述的方法。

（三）有益效果

本申请公开的基于梯度提升决策树算法的工控漏洞检测方法和***，基于梯度提升决策树算法，训练漏洞检测模型，通过多维的数字向量对数据特征进行描述，有利于漏洞检测模型对工控***是否出现漏洞进行尽可能的分析，提高检测准确率，降低误警概率，根据性能评估指标对漏洞检测模型的检测性能进行评估，根据性能评估指标的好坏来决定当前模型的整体性能和下一步的优化方向，进一步提高模型漏洞检测的准确率。

附图说明

以下参考附图描述的实施例是示例性的，旨在用于解释和说明本申请，而不能理解为对本申请的保护范围的限制。

图1是本申请公开的基于梯度提升决策树算法的工控漏洞检测方法的流程示意图。

图2是本申请公开的基于梯度提升决策树算法的工控漏洞检测***的框图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

下面参考图1详细描述本申请公开的基于梯度提升决策树算法的工控漏洞检测方法实施例。本实施例公开的方法主要包括有以下步骤。

其中，工控***由不同硬件，软件，操作***，网络协议和网络环境构成，其在交互中产生了大量数据包，在工控***中抓取数据包，并通过人工判别的方式将抓取到的数据包分为不含漏洞的良性数据包和包含漏洞的恶性数据包；

其中，数据特征包括静态特征和动态特征，所述静态特征包括注释数量

，变量数量/>

，函数数量/>

，运算符数量/>

，指令序列/>

，控制流图

；所述动态特征包括API调用/>

，函数调用/>

，输入输出

，资源利用/>

和内存映像/>

。

数字向量构成公式包括：

。

将数据包中的数据特征都以数字向量描述，则每个数据包都由11维数字向量构成。

从良性数据包和恶性数据包中分别选取4/5的数字向量作为训练集，剩下的1/5的数字向量作为测试集。

其中，训练的具体步骤包括：

其中，

表示当前分类器；/>

表示第i个样本的数据特征的实际值；

S22、计算残差：计算每个样本的残差，即预测值与目标变量之差；

其中，

表示第m颗决策树上的样本i的残差，/>

表示当前决策树的预测值；

S23、构建树模型：拟合残差

学习一颗回归树，得到回归树/>

；

其中，提升树

为前M颗树的加权和。

S3、根据所述测试集评估训练完成的漏洞检测模型；

其中，评估步骤包括：

S31、选取并计算所述漏洞检测模型的性能评估指标；

其中，测试的性能评估指标包括准确率，召回率，F1得分。

其中，准确率P：

召回率R：

F1得分：

其中，当测试结果满足准确率高于99%，召回率低于0.05%，F1得分超过0.98，表明为满足评估标准的漏洞检测模型，能够部署和使用，可将工控***应用的数据特征输入到该漏洞检测模型中，以实现漏洞检测。

对于不满足评估标准的漏洞检测模型，需要对训练集中的数据进行扩充，继续S2的训练过程。

下面参考图2详细描述本申请公开的基于梯度提升决策树算法的工控漏洞检测***实施例。本实施例公开的***包括：

其中，获取模块包括：

评估模块：用于根据所述测试集评估所述漏洞检测模型；

其中，选取子模块：用于选取并计算所述漏洞检测模型的性能评估指标；

评估子模块：用于根据所述性能评估指标的计算值评估所述漏洞检测模型。

综上，本发明通过动静结合的数据分析方法，构建了11维的数字向量来对数据特征进行描述，有助于进一步对工况***是否出现漏洞进行尽可能详细的分析，提高检测准确率，降低误警概率。本发明使用准确率，召回率，F1得分三项指标来对模型的漏洞检测性能进行评估。一般来说，当某个分类器的准确率较高时，其召回率往往较低，反之亦然。为了平衡准确率和召回率之间的关系，我们引入F1得分进行综合评估，能够进一步提高模型漏洞检测的准确率。

本发明将梯度提升决策树算法用于工控***的漏洞检测。梯度提升决策树算法具有精度高，鲁棒性强的特点，比传统的漏洞检测***有着更好的漏洞检测性能。在漏洞检测中，需要对漏洞的特征进行全面的解释和分析，以便可以快速定位漏洞，而梯度提升决策树算法恰好具有输出结果解释性强，容易理解的特点，在漏洞检测领域具有巨大的优势。

本发明可以根据不同硬件，软件，操作***，网络协议和网络环境构成的工控***来训练与之相匹配的漏洞检测模型，且在工控***发生改变时，可以快速训练模型，随时更新模型以适应新的***情况，具有传统工控漏洞检测***完全不具备的极强的***兼容性和扩展性。

需要说明的是，上述模块可以运行在计算机终端。

上述基于梯度提升决策树算法的自适应工控漏洞检测***，包括处理器和存储器，上述模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述基于梯度提升决策树算法的自适应工控漏洞检测方法。

本发明实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以上基于梯度提升决策树算法的自适应工控漏洞检测方法。本文中的设备可以是服务器、PC(电脑)、PAD(便携式电脑)、手机等。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在本申请的描述中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。