CN109446635A

CN109446635A - 一种基于机器学习的电力工控攻击分类方法和***

Info

Publication number: CN109446635A
Application number: CN201811237515.8A
Authority: CN
Inventors: 韩丽芳; 朱朝阳; 徐文渊; 应欢; 周亮; 缪思薇; 欧阳轩; 邱意民; 余文豪; 冀晓宇; 庞铖; 程斌
Original assignee: Zhejiang University ZJU; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: Zhejiang University ZJU; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-03-08
Anticipated expiration: 2038-10-23
Also published as: CN109446635B

Abstract

本发明提供一种基于机器学习的电力工控攻击分类方法和***。所述方法和***利用电力工控的历史报文数据，通过对所述数据进行缺省值补全、特征变量提取后，输入随机森林模型进行多折交叉验证，并根据随机森林模型是否发生过拟合和/或欠拟合现象对模型参数进行调整发确定最优随机森林模型来对电力工控攻击进行分类。所述方法和***与现有技术相比，通过采集电力工控历史报文数据进行机器学习，搭建随机森林模型，通过将电力工控***生成的报文导入所述随机森林模型中来实现对电力工控攻击的分类，改善了工控***防御被动的现状，使***在遭受攻击之前即能检测、截获攻击，提高了电力工控***的安全性能。

Description

一种基于机器学习的电力工控攻击分类方法和***

技术领域

本发明涉及智能电网安全领域,并且更具体地，涉及一种基于机器学习的电力工控攻击分类方法和***。

背景技术

在智能电网中，电力工业控制***是支撑发、输、变、配、用以及调度等各环节的电力生产运行控制不可或缺的组成部分，是国家关键基础设施的重要组成部分，不仅涵盖电力监控***(包括调度、电厂、变电站、配电自动化***)，还涉及到用户侧及开放环境中的分布式电源、用电信息采集等***，一旦遭受破坏，会对国家和社会安全造成严重威胁。随着信息技术的深入应用以及国内外安全形式的发展变化，电力工控***面临的安全威胁不容忽视。随着电力***自动化程度的快速提升，针对电力工控***的攻击种类越来越多样，但是目前国内在此领域的研究尚未成熟。

因此，需要一种技术，能够快速对电力工控***的攻击进行分类，以提高电力工控***的安全性能。

发明内容

为了解决现有技术中对电力工控***的攻击进行分类的研究尚未成熟的技术问题，本发明提供一种基于机器学习的电力工控攻击分类方法，所述方法包括：

基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益，并对所有特征变量的信息增益从大到小进行排序，选取信息增益的值在前t位的特征变量作为训练随机森林模型的特征变量，其中，所述第一特征是电力工控报文的TCP连接基本特征，所述第二特征是电力工控报文的TCP连接内容特征，所述第三特征是基于电力工控报文的第一特征和第二特征确定的表征电力工控攻击特点的特征，所述样本集D是电力工控报文数据的集合，所述数据包括预先采集的第一特征和第二特征中每个特征变量的数据，以及根据第一特征和第二特征的特征变量计算确定的第三特征的特征变量的数据；

设置随机森林模型的参数，搭建随机森林模型，其中，所述参数包括森林中树的数量，放回采样，节点***所需的最小样本值，叶子节点最小的样本权重，随机森林划分考虑的最大特征数以及树的深度；

基于样本集D′对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类，其中，所述样本D′是从样本集D中选取的训练随机森林模型的特征变量的数据生成的数据集合，所述模型参数达到最优化是指所述随机森林模型的训练未发生过拟合和/或欠拟合时确定的参数。

进一步地，所述方法在基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益之前还包括：

采集电力工控报文第一特征和第二特征中每个特征变量的数据，生成数据集N，其中，所述数据集N的数据行数为m，数据列数为n，总标签数为l，所述行数是采集的电力工控报文的条数，所述列数是每一条电力工控报文中第一特征和第二特征中每个特征变量的特征值，总标签数是电力工控攻击总的种类数，所述第一特征的特征变量包括源IP地址，目的IP地址，连接持续时间，协议类型，目标主机的服务类型，连接正常或错误的状态，从源主机到目标主机的数据的字节数，从目标主机到源主机的数据的字节数，连接是否来自/送达同一主机/端口的属性值和错误分段的数量，第二特征的特征变量包括访问***敏感文件和目录的次数，登陆尝试失败的次数；登陆是否成功的属性值，登陆是否为guest的属性值；

根据所述数据集N中缺省值的类别，对所述缺省值进行补全，其中，所述缺省值分为属性变量和数值变量；

基于电力工控报文的第一特征和第二特征中的特征变量确定表征电力工控攻击特点的第三特征的特征变量。

进一步地，所述根据所述数据集N中缺省值的类别，对所述缺省值进行补全包括：

当所述缺省值是属性变量时，以数据集N中该缺省值对应的特征变量出现次数最多的属性值进行补全；

当所述缺省值是数值变量且所述缺省值所在的行数不是非数据集N的首末行时，采用线性差值法对该缺省值进行补全，其计算公式为：

式中，y₀和x₀分别为该缺省值对应的特征的前一条记录特征值和特征值所在的行数，y₁和x₁分别为该缺省值对应的特征的后一条记录特征值和特征值所在的行数；

当所述缺省值是数值变量且所述缺省值所在的行数是非数据集N的首末行时，即缺省值无上一条或下一条记录时，以数据集N中该缺省值对应的特征变量出现次数最多的数量值进行补全。

进一步地，所述基于电力工控报文的第一特征和第二特征中的特征变量确定表征电力工控攻击特点的第三特征的特征变量，所述特征变量包括：

固定源IP地址到固定目的IP地址中的报文数量；

固定源IP地址到固定目的IP地址中平均连接持续时间；

固定源IP地址到固定目的IP地址中平均源主机到目标主机的数据字节数；

固定源IP地址到固定目的IP地址中平均目标主机到源主机的数据字节数；

固定协议类型的平均连接时间；

固定源IP地址到固定目的IP地址在不同协议下的报文数量；

固定源IP地址到固定目的IP地址在不同协议下的平均源主机到目标主机的数据字节数；

固定源IP地址到固定目的IP地址在不同协议下的平均目标主机到源主机的数据字节数；

固定源IP地址到固定目的IP地址中错误分段的数量；

固定源IP地址到固定目的IP地址在不同协议下的错误分段数量；

固定源IP地址到固定目的IP地址在不同协议下的错误分段平均数；

固定源IP地址到固定目的IP地址下的平均登陆尝试失败的次数；

固定源IP地址到固定目的IP地址下的非guest用户登录次数；

不同目标主机服务类型下的非guest用户登录次数；

固定源IP地址到固定目的IP地址下不同目标主机服务类型下的用户登录成功次数。

进一步地，所述基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益包括：

计算样本集D的信息熵，记当前样本集合D中第k类样本所占比例为p_k，其中1≤k≤l，l是数据集N中的总标签数，则计算样本集D的信息熵的计算公式为

根据所述样本集D的信息熵计算第一特征、第二特征以及第三特征中每个特征变量的信息增益，记样本集D中的特征变量a有V个可能的取值{a¹,a²,...,a^V}，当使用a来对样本集D进行划分，则会产生V个分支节点，其中第v个分支节点包含了D中所有在特征变量a上取值为a^v的样本，记为D^v，则计算D^v的信息熵H(D^v)；

根据不同分支节点所包含的样本数不同，给分支节点赋予权重|D^v|/|D|，即样本数越多的分支节点的影响越大，计算特征a在样本集中的信息增益Gain(D,a)，其计算公式为：

进一步地，所述设置随机森林模型的参数，搭建随机森林模型包括：

设置森林中树的数量n_estimators＝15；

放回采样bootstrap＝True；

节点***所需的最小样本值min_saples_split＝3；

叶子节点最小的样本权重min_weight_fraction_leaf＝0，其中，所述参数值设置为0表示认为所有特征的权重值相等；

随机森林划分时考虑的最大特征数max_features＝-1，其中，所述参数值设置为-1表示考虑所有的特征数；

树的深度max_depth＝-1，其中，所述参数值设置为-1表示不设置最大深度。

进一步地，基于样本集D′对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类包括：

步骤1、将样本集D′分为等比例的h份，记为样本D₁、样本D₂……样本D_h-1、样本D_h，保证h份样本的分布一致，即样本与样本之间的数学统计量一致，所述数学统计量包括每个特征变量的均值、方差、中位数；

步骤2、基于划分的样本集D′对所述随机森林模型进行多折交叉验证，设置训练集D_tr＝D'\D_i，测试集D_val＝D_i，根据设置的随机森林模型的参数，利用训练集中的h-1份样本训练分类器模型，利用测试集中的样本D_i进行测试，确定输出的随机森林模型为H_i(D_tr,D_val)，其中1≤i≤h，i的初始值为h；

步骤3、令h＝h-1，当h≥1时，跳转至步骤2，当h<1时，跳转到步骤4；

步骤4、根据多折交叉验证完成后，随机森林模型的训练误差和验证误差的变化，确定随机森林模型设置的参数是否达到最优化，当参数未达到最优化时，跳转到步骤5，当模型参数达到最优化时，确定所述输出的随机森林模型为最优随机森林模型，并跳转至步骤6，其中，所述模型参数达到最优化是指所述随机森林模型的训练未发生过拟合和/或欠拟合时的模型参数；

步骤5、当随机森林模型训练误差降低，而验证误差上升，模型训练中发生过拟合现象，则减小n_estimators的值，增大min_samples_split的值，当模型训练误差增大，模型训练中发生欠拟合现象，则增大n_estimators的值，减小min_samples_split的值，并跳转至步骤2；

步骤6、基于多折交叉验证输出的最优随机森林模型确定电力工控攻击报文的攻击种类，其中，设电力工控攻击的报文为Dts，将所述报文中的缺省值补全后，从所述报文中提取训练随机森林模型时的特征变量的特征值，并通过最优随机森林模型输出预测结果M,其表达式为：

M＝{P(Dts|label＝1)，P(Dts|label＝2)，……P(Dts|label＝i)……P(Dts|label＝l)}

式中，所述l是电力工控攻击的总的种类数，所述P(Dts|label＝i)是所述电力工控攻击为第i种攻击时的概率，1≤i≤l，所述M中输出的最大概率的类别即为所述电力工控攻击报文的最终种类。

根据本发明的另一方面，本发明提供一种基于机器学习的电力工控攻击分类***，所述***包括：

特征变量单元，其用于基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益，并对所有特征变量的信息增益从大到小进行排序，选取信息增益的值在前t位的特征变量作为训练随机森林模型的特征变量，其中，所述第一特征是电力工控报文的TCP连接基本特征，所述第二特征是电力工控报文的TCP连接内容特征，所述第三特征是基于电力工控报文的第一特征和第二特征确定的表征电力工控攻击特点的特征，所述样本集D是电力工控报文数据的集合，所述数据包括预先采集的第一特征和第二特征中每个特征变量的数据，以及根据第一特征和第二特征的特征变量计算确定的第三特征的特征变量的数据；

模型设置单元，其用于设置随机森林模型的参数，搭建随机森林模型，其中，所述参数包括森林中树的数量，放回采样，节点***所需的最小样本值，叶子节点最小的样本权重，随机森林划分考虑的最大特征数以及树的深度；

攻击分类单元，其用于基于样本集D′对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类，其中，所述样本D′是从样本集D中选取的训练随机森林模型的特征变量的数据生成的数据集合，所述模型参数达到最优化是指所述随机森林模型的训练未发生过拟合和/或欠拟合时确定的参数。

进一步地，所述***还包括：

数据采集单元，其用于采集电力工控报文第一特征和第二特征中每个特征变量的数据，生成数据集N，其中，所述数据集N的数据行数为m，数据列数为n，总标签数为l，所述行数是采集的电力工控报文的条数，所述列数是每一条电力工控报文中第一特征和第二特征中每个特征变量的特征值，总标签数是电力工控攻击总的种类数，所述第一特征的特征变量包括源IP地址，目的IP地址，连接持续时间，协议类型，目标主机的服务类型，连接正常或错误的状态，从源主机到目标主机的数据的字节数，从目标主机到源主机的数据的字节数，连接是否来自/送达同一主机/端口的属性值和错误分段的数量，第二特征的特征变量包括访问***敏感文件和目录的次数，登陆尝试失败的次数，登陆是否成功的属性值，登陆是否为guest的属性值；

数据补全单元，其用于根据所述数据集N中缺省值的类别，对所述缺省值进行补全，其中，所述缺省值分为属性变量和数值变量；

第三特征单元，其用于基于电力工控报文的第一特征和第二特征中的特征变量确定表征电力工控攻击特点的第三特征的特征变量。

进一步地，所述数据补全单元包括：

第一补全单元，其用于当所述缺省值是属性变量时，以数据集N中该缺省值对应的特征变量出现次数最多的属性值进行补全；

第二补全单元，其用于当所述缺省值是数值变量且所述缺省值所在的行数不是非数据集N的首末行时，采用线性差值法对该缺省值进行补全，其计算公式为：

进一步地，所述第三特征单元的特征变量包括：

固定源IP地址到固定目的IP地址中的报文数量；

固定源IP地址到固定目的IP地址中平均连接持续时间；

固定协议类型的平均连接时间；

固定源IP地址到固定目的IP地址在不同协议下的报文数量；

固定源IP地址到固定目的IP地址中错误分段的数量；

固定源IP地址到固定目的IP地址下的非guest用户登录次数；

不同目标主机服务类型下的非guest用户登录次数；

进一步地，所述特征变量单元基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益包括：

进一步地，所述模型设置单元设置随机森林模型的参数，搭建随机森林模型包括：

设置森林中树的数量n_estimators＝15；

放回采样bootstrap＝True；

节点***所需的最小样本值min_saples_split＝3；

进一步地，所述攻击分类单元基于样本集D′对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类包括：

本发明技术方案提供的基于机器学习的电力工控攻击分类方法和***，其利用电力工控的历史报文数据，通过对所述数据进行缺省值补全、特征变量提取后，输入随机森林模型进行多折交叉验证，并根据随机森林模型是否发生过拟合和/或欠拟合现象对模型参数进行调整发确定最优随机森林模型来对电力工控攻击进行分类。所述基于机器学习的电力工控攻击分类方法和***与现有技术相比，通过采集电力工控历史报文数据进行机器学习，搭建随机森林模型，通过将电力工控***生成的报文导入所述随机森林模型中来实现对电力工控攻击的分类，改善了工控***防御被动的现状，使***在遭受攻击之前即能检测、截获攻击，提高了电力工控***的安全性能。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明优选实施方式的基于机器学习的电力工控攻击分类方法的流程图；

图2为根据本优选实施方式的对随机森林模型进行多折交叉验证确定电力工控攻击的攻击种类的流程图；

图3为根据本发明优选实施方式的基于机器学习的电力工控攻击分类***的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明优选实施方式的基于机器学习的电力工控攻击分类方法的流程图。如图1所示，本优选实施方式所述的基于机器学习的电力工控攻击分类方法100从步骤101开始。

在步骤101，采集电力工控报文第一特征和第二特征中每个特征变量的数据，生成数据集N，其中，所述数据集N的数据行数为m，数据列数为n，总标签数为l，所述行数是采集的电力工控报文的条数，所述列数是每一条电力工控报文中第一特征和第二特征中每个特征变量的特征值，总标签数是电力工控攻击总的种类数，所述第一特征的特征变量包括源IP地址，目的IP地址，连接持续时间，协议类型，目标主机的服务类型，连接正常或错误的状态，从源主机到目标主机的数据的字节数，从目标主机到源主机的数据的字节数，连接是否来自/送达同一主机/端口的属性值和错误分段的数量，第二特征的特征变量包括访问***敏感文件和目录的次数，登陆尝试失败的次数；登陆是否成功的属性值，登陆是否为guest的属性值。

在步骤102，根据所述数据集N中缺省值的类别，对所述缺省值进行补全，其中，所述缺省值分为属性变量和数值变量。

优选地，所述根据所述数据集N中缺省值的类别，对所述缺省值进行补全包括：

在步骤103，基于电力工控报文的第一特征和第二特征中的特征变量确定表征电力工控攻击特点的第三特征的特征变量。

优选地，所述基于电力工控报文的第一特征和第二特征中的特征变量确定表征电力工控攻击特点的第三特征的特征变量，所述特征变量包括：

固定源IP地址到固定目的IP地址中的报文数量；

固定源IP地址到固定目的IP地址中平均连接持续时间；

固定协议类型的平均连接时间；

固定源IP地址到固定目的IP地址在不同协议下的报文数量；

固定源IP地址到固定目的IP地址中错误分段的数量；

固定源IP地址到固定目的IP地址下的非guest用户登录次数；

不同目标主机服务类型下的非guest用户登录次数；

在步骤104，基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益，并对所有特征变量的信息增益从大到小进行排序，选取信息增益的值在前t位的特征变量作为训练随机森林模型的特征变量，其中，所述第一特征是电力工控报文的TCP连接基本特征，所述第二特征是电力工控报文的TCP连接内容特征，所述第三特征是基于电力工控报文的第一特征和第二特征确定的表征电力工控攻击特点的特征，所述样本集D是电力工控报文数据的集合，所述数据包括预先采集的第一特征和第二特征中每个特征变量的数据，以及根据第一特征和第二特征的特征变量计算确定的第三特征的特征变量的数据。

优选地，所述基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益包括：

在步骤105，设置随机森林模型的参数，搭建随机森林模型，其中，所述参数包括森林中树的数量，放回采样，节点***所需的最小样本值，叶子节点最小的样本权重，随机森林划分考虑的最大特征数以及树的深度。

优选地，所述设置随机森林模型的参数，搭建随机森林模型包括：

设置森林中树的数量n_estimators＝15；

放回采样bootstrap＝True；

节点***所需的最小样本值min_saples_split＝3；

在步骤106，基于样本集D′对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森

林模型确定电力工控攻击报文的攻击种类，其中，所述样本D′是从样本集D中选取的训练随机森林模型的特征变量的数据生成的数据集合，所述模型参数达到最优化是指所述随机森林模型的训练未发生过拟合和/或欠拟合时确定的参数。

图2为根据本优选实施方式的对随机森林模型进行多折交叉验证确定电力工控攻击的攻击种类的流程图。如图2所示，本优选实施方式所述的对随机森林模型进行多折交叉验证确定电力工控攻击的攻击种类从步骤201开始。

在步骤201，将样本集D′分为等比例的h份，记为样本D₁、样本D₂……样本D_h-1、样本D_h，保证h份样本的分布一致，即样本与样本之间的数学统计量一致，所述数学统计量包括每个特征变量的均值、方差、中位数；

在步骤202，基于划分的样本集D′对所述随机森林模型进行多折交叉验证，设置训练集D_tr＝D'\D_i，测试集D_val＝D_i，根据设置的随机森林模型的参数，利用训练集中的h-1份样本训练分类器模型，利用测试集中的样本D_i进行测试，确定输出的随机森林模型为H_i(D_tr,D_val)，其中1≤i≤h，i的初始值为h；

在步骤203，令h＝h-1，当h≥1时，跳转至步骤202，当h<1时，跳转到步骤204；

在步骤204，根据多折交叉验证完成后，随机森林模型的训练误差和验证误差的变化，确定随机森林模型设置的参数是否达到最优化，当参数未达到最优化时，跳转到步骤205，当模型参数达到最优化时，确定所述输出的随机森林模型为最优随机森林模型，并跳转至步骤206，其中，所述模型参数达到最优化是指所述随机森林模型的训练未发生过拟合和/或欠拟合时的模型参数；

在步骤205，当随机森林模型训练误差降低，而验证误差上升，模型训练中发生过拟合现象，则减小n_estimators的值，增大min_samples_split的值，当模型训练误差增大，模型训练中发生欠拟合现象，则增大n_estimators的值，减小min_samples_split的值，并跳转至步骤202；

在步骤206，基于多折交叉验证输出的最优随机森林模型确定电力工控攻击报文的攻击种类，其中，设电力工控攻击的报文为Dts，将所述报文中的缺省值补全后，从所述报文中提取训练随机森林模型时的特征变量的特征值，并通过最优随机森林模型输出预测结果M,其表达式为：

图3为根据本发明优选实施方式的基于机器学习的电力工控攻击分类***的结构示意图。如图3所示，本优选实施方式所述的基于机器学习的电力工控攻击分类***300包括：

数据采集单元301，其用于采集电力工控报文第一特征和第二特征中每个特征变量的数据，生成数据集N，其中，所述数据集N的数据行数为m，数据列数为n，总标签数为l，所述行数是采集的电力工控报文的条数，所述列数是每一条电力工控报文中第一特征和第二特征中每个特征变量的特征值，总标签数是电力工控攻击总的种类数，所述第一特征的特征变量包括源IP地址，目的IP地址，连接持续时间，协议类型，目标主机的服务类型，连接正常或错误的状态，从源主机到目标主机的数据的字节数，从目标主机到源主机的数据的字节数，连接是否来自/送达同一主机/端口的属性值和错误分段的数量，第二特征的特征变量包括访问***敏感文件和目录的次数，登陆尝试失败的次数，登陆是否成功的属性值，登陆是否为guest的属性值。

数据补全单元302，其用于根据所述数据集N中缺省值的类别，对所述缺省值进行补全，其中，所述缺省值分为属性变量和数值变量。

第三特征单元303，其用于基于电力工控报文的第一特征和第二特征中的特征变量确定表征电力工控攻击特点的第三特征的特征变量。

特征变量单元304，其用于基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益，并对所有特征变量的信息增益从大到小进行排序，选取信息增益的值在前t位的特征变量作为训练随机森林模型的特征变量，其中，所述第一特征是电力工控报文的TCP连接基本特征，所述第二特征是电力工控报文的TCP连接内容特征，所述第三特征是基于电力工控报文的第一特征和第二特征确定的表征电力工控攻击特点的特征，所述样本集D是电力工控报文数据的集合，所述数据包括预先采集的第一特征和第二特征中每个特征变量的数据，以及根据第一特征和第二特征的特征变量计算确定的第三特征的特征变量的数据；

模型设置单元305，其用于设置随机森林模型的参数，搭建随机森林模型，其中，所述参数包括森林中树的数量，放回采样，节点***所需的最小样本值，叶子节点最小的样本权重，随机森林划分考虑的最大特征数以及树的深度；

攻击分类单元306，其用于基于样本集D′对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类，其中，所述样本D′是从样本集D中选取的训练随机森林模型的特征变量的数据生成的数据集合，所述模型参数达到最优化是指所述随机森林模型的训练未发生过拟合和/或欠拟合时确定的参数。

优选地，所述数据补全单元302包括：

第一补全单元321，其用于当所述缺省值是属性变量时，以数据集N中该缺省值对应的特征变量出现次数最多的属性值进行补全；

第二补全单元322，其用于当所述缺省值是数值变量且所述缺省值所在的行数不是非数据集N的首末行时，采用线性差值法对该缺省值进行补全，其计算公式为：

优选地，所述第三特征单元303的特征变量包括：

固定源IP地址到固定目的IP地址中的报文数量；

固定源IP地址到固定目的IP地址中平均连接持续时间；

固定协议类型的平均连接时间；

固定源IP地址到固定目的IP地址在不同协议下的报文数量；

固定源IP地址到固定目的IP地址中错误分段的数量；

固定源IP地址到固定目的IP地址下的非guest用户登录次数；

不同目标主机服务类型下的非guest用户登录次数；

优选地，所述特征变量单元304基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益包括：

优选地，所述模型设置单元305设置随机森林模型的参数，搭建随机森林模型包括：

设置森林中树的数量n_estimators＝15；

放回采样bootstrap＝True；

节点***所需的最小样本值min_saples_split＝3；

优选地，所述攻击分类单元306基于样本集D′对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类包括：

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种基于机器学习的电力工控攻击分类方法，其特征在于，所述方法包括：

基于样本集D'对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类，其中，所述样本集D'是从样本集D中选取的训练随机森林模型的特征变量的数据生成的数据集合，所述模型参数达到最优化是指所述随机森林模型的训练未发生过拟合和/或欠拟合时确定的参数。

2.根据权利要求1所述的方法，其特征在于，所述方法在基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益之前还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述数据集N中缺省值的类别，对所述缺省值进行补全包括：

4.根据权利要求2所述的方法，其特征在于，所述基于电力工控报文的第一特征和第二特征中的特征变量确定表征电力工控攻击特点的第三特征的特征变量，所述特征变量包括：

固定源IP地址到固定目的IP地址中的报文数量；

固定源IP地址到固定目的IP地址中平均连接持续时间；

固定协议类型的平均连接时间；

固定源IP地址到固定目的IP地址在不同协议下的报文数量；

固定源IP地址到固定目的IP地址中错误分段的数量；

固定源IP地址到固定目的IP地址下的非guest用户登录次数；

不同目标主机服务类型下的非guest用户登录次数；

5.根据权利要求2所述的方法，其特征在于，所述基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益包括：

6.根据权利要求1所述的方法，其特征在于，所述设置随机森林模型的参数，搭建随机森林模型包括：

设置森林中树的数量n_estimators＝15；

放回采样bootstrap＝True；

节点***所需的最小样本值min_saples_split＝3；

7.根据权利要求6所述的方法，其特征在于，基于样本集D'对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类包括：

步骤1、将样本集D'分为等比例的h份，记为样本D₁、样本D₂……样本D_h-1、样本D_h，保证h份样本的分布一致，即样本与样本之间的数学统计量一致，所述数学统计量包括每个特征变量的均值、方差、中位数；

步骤2、基于划分的样本集D'对所述随机森林模型进行多折交叉验证，设置训练集D_tr＝D'\D_i，测试集D_val＝D_i，根据设置的随机森林模型的参数，利用训练集中的h-1份样本训练分类器模型，利用测试集中的样本D_i进行测试，确定输出的随机森林模型为H_i(D_tr,D_val)，其中1≤i≤h，i的初始值为h；

8.一种基于机器学习的电力工控攻击分类***，其特征在于，所述***包括：

攻击分类单元，其用于基于样本集D'对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类，其中，所述样本D'是从样本集D中选取的训练随机森林模型的特征变量的数据生成的数据集合，所述模型参数达到最优化是指所述随机森林模型的训练未发生过拟合和/或欠拟合时确定的参数。

9.根据权利要求8所述的***，其特征在于，所述***还包括：

10.根据权利要求9所述的***，其特征在于，所述数据补全单元包括：

11.根据权利要求9所述的***，其特征在于，所述第三特征单元的特征变量包括：

固定源IP地址到固定目的IP地址中的报文数量；

固定源IP地址到固定目的IP地址中平均连接持续时间；

固定协议类型的平均连接时间；

固定源IP地址到固定目的IP地址在不同协议下的报文数量；

固定源IP地址到固定目的IP地址中错误分段的数量；

固定源IP地址到固定目的IP地址下的非guest用户登录次数；

不同目标主机服务类型下的非guest用户登录次数；

12.根据权利要求9所述的***，其特征在于，所述特征变量单元基于样本集D计算第一特征、第二特征以及第三特征中每个特征变量的信息增益包括：

13.根据权利要求8所述的***，其特征在于，所述模型设置单元设置随机森林模型的参数，搭建随机森林模型包括：

设置森林中树的数量n_estimators＝15；

放回采样bootstrap＝True；

节点***所需的最小样本值min_saples_split＝3；

14.根据权利要求13所述的***，其特征在于，所述攻击分类单元基于样本集D'对所述随机森林模型进行多折交叉验证以确定模型参数达到最优化时的最优随机森林模型，并通过所述最优随机森林模型确定电力工控攻击报文的攻击种类包括：