CN109067778B

CN109067778B - 一种基于蜜网数据的工控扫描器指纹识别方法

Info

Publication number: CN109067778B
Application number: CN201811083267.6A
Authority: CN
Inventors: 姚羽; 盛川; 刘昕蕊; 李东彪; 李桢梓; 王禹博; 金白澈
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2020-07-24
Anticipated expiration: 2038-09-18
Also published as: CN109067778A

Abstract

本发明提出一种基于蜜网数据的工控扫描器指纹识别方法，包括：对工业控制网络中通过蜜罐网络***捕获的扫描数据和已有的工控扫描器进行分析，获得指纹信息并构建基于CART决策树的扫描数据多分类分类器模型。多分类分类器模型能够有效识别发起扫描流量的特定扫描工具，并输出各类扫描器标签的判断概率。之后，多分类分类器模型的输出结果将作为聚类算法的输入数据，聚类算法可以发现不同扫描实体间更深层次的关联关系，形成聚簇。同时，聚类算法还可以有效提取不同聚簇的扫描特征，形成新的扫描器标签，并更新到之前的多分类决策树中，提高了本发明对于新型扫描器数据的判断能力。

Description

一种基于蜜网数据的工控扫描器指纹识别方法

技术领域

本发明属于网络安全技术领域，涉及一种基于蜜网数据的工控扫描器指纹识别方法。

背景技术

最近几年，网络空间安全领域发生了巨大的变化，工业控制***成为了新的网络空间安全主战场之一。两化融合后，IT***的信息安全也被融入了工业控制***安全中。当前，我国关键信息基础设施面临的网络安全形势严峻且复杂。根据东北大学“谛听”网络安全团队的数据显示，全球存在大量暴露在互联网上的工业控制***，其中占比较多的包括电力行业、石油石化行业及先进制造业，这些都与国计民生密切相关，涉及到国家安全。

扫描器识别作为网络安全的一种重要手段已经逐步渗透到工业控制***网络安全中，作为工控安全的中心技术，扫描器的研究与升级十分关键，对于工业控制***的网络安全有着不可忽视的重要性。

传统IT领域有关扫描器识别的研究较少，应用于工控安全领域的更是少之又少。现有的一些技术大多利用蜜罐网络访问流量或时序特性对扫描器进行识别，不能够有效识别新型的扫描活动。同时，蜜罐网络***能够监听黑客对工控设备的扫描器活动还可以过滤掉其他无关流量，更具有针对性，并且蜜罐网络成本低易部署，只需要低配置的服务器或专用硬件即可完成部署，具有多重优点。因而，本发明提出了一种新颖的基于蜜网数据的工控扫描器指纹识别方法。提出的方法能够适应新发现的扫描器和工控协议，且不依赖于具体的网络环境，在实时更新数据和分析结果的准确性等方面都有所提升。

发明内容

本发明的目的在于：基于蜜网***捕获扫描数据，并利用基于CART的多分类决策树和聚类相结合的方式，提供了一种基于蜜网数据的工控扫描器指纹识别方法。

本发明实现方案如下：

对工业控制网络中通过蜜罐网络***捕获的扫描数据和已有的工控扫描器进行分析，获得指纹信息并基于CART决策树构建扫描数据多分类分类器模型。多分类分类器模型能够有效识别发起扫描流量的特定扫描工具，并输出符合各类扫描器标签的判断概率。之后，多分类分类器模型的输出结果将作为聚类算法的输入数据，聚类算法可以发现不同扫描实体间更深层次的关联关系，形成聚簇。同时，聚类算法还可以有效提取不同聚簇的扫描特征，形成新的扫描器标签，并更新到之前的多分类决策树中，提高了本发明对于新型扫描器数据的判断能力。

本发明具体技术方案为：

一种基于蜜网数据的工控扫描器指纹识别方法，包括如下步骤：

a.获得原始训练数据，其中原始训练数据的获得包括两种途径：一种是基于部署在工业控制***中的蜜罐网络捕获扫描器对工控设备的探测行为并与其进行深度交互，获得扫描数据；另一种是结合相关安全服务厂商提供的工控扫描器信息记录，分析得到扫描数据。

b.提取扫描数据指纹内容，建立扫描特征数据集。

c.基于扫描特征数据集，利用能有效处理连续和非连续属性值且具有较高准确性的CART决策树算法构建多分类分类器模型；在模型训练过程中，不断选择当前最优划分属性进行划分，直到所有训练数据都完全拟合；由于模型训练过程中要求拟合所有训练数据，因此很容易出现过拟合现象。因此，采用代价复杂度剪枝算法对训练好的决策树进行剪枝，选择误差最小的子树作为剪枝后的最优决策树，形成标签；同时，为了能够完全保留已有的分类模型并便于更新，采用“一对一”方法构建多分类分类器，并选择概率最大的类别作为分类结果，分类结果以概率的形式输出。

d.以上步骤提到的多分类分类器模型能够准确识别工控扫描器的指纹信息，然而其无法有效识别新出现的扫描工具并发现不同扫描IP地址之间的深层次关联关系。因此，用聚类模型以步骤c输出的分类结果作为输入，对扫描实体进行聚类分析，以发现不同扫描工具和扫描实体IP之间的关联关系；所述关联关系包括确定与特定扫描工具构成一类的扫描实体，确定自成一类的扫描实体并提取出其所属组织；发现不同扫描IP地址之间的关联关系对于发现网络攻击组织，有效阻断潜在的网络攻击具有重大意义。

e.聚类算法结束后将生成多个聚簇，若有含新标签的聚簇出现，该聚簇的新标签将被输入到步骤c中，再次利用基于CART决策树算法更新旧的多分类分类器模型，做到实时更新，不断扩充；若未出现含新标签的聚簇，则分类结果将作为最终的结果输出。

进一步地，上述步骤b所述的扫描数据指纹内容包括：IP地址信息、端口信息、数据包长度、通讯协议和具体通讯数据。

本发明的优势在于：

结合了基于CART决策树和聚类两种方法，利用基于CART决策树构建的多分类器分类模型的输出结果作为聚类算法的输入结果，可以更高精度地识别攻击者身份，判断其类型和彼此间的深层次关联关系。同时，利用最终识别到的结果使工控***本身的蜜罐网络回复更精确，更具有迷惑性。

本发明的有益效果在于：

1)提出了新颖的工控扫描器指纹识别方法，其能够有效识别出攻击工具，对进行更精准的攻击者画像有重要意义。

2)通过准确识别其指纹，提高了蜜罐网络制定更有针对性策略的能力，可以诱导攻击者进行更加深入的交互，以提取其更多的攻击信息。

3)具有自更新功能，当出现新的攻击活动时，本方法能够提前提取其扫描特征，添加标签，并通过聚类算法发现其潜在的攻击组织，这对于工控网络的主动安全防御至关重要。

4)能够通过分析各种扫描器的分析结果结合不同扫描实体的who-is信息发现不同扫描器的同源性。

附图说明

图1是本发明的状态转换图。

图2是本发明的流程图。

具体实施方式

以下结合附图和具体实施方案对本发明作进一步的详细说明，但不作为对本发明技术方案的限定。

近些年，网络空间安全领域发生了巨大的变化，随着两化融合进程的深入，工业控制***已经和互联网密不可分。两化融合后，IT***的信息安全也被融入了工控***安全中。当前，工控扫描器指纹识别***可以对流量进行分析和分类，对于网络攻击者的入侵有着至关重要的作用，工控扫描器指纹识别***可以做到对于***已知的流量进行分类，也可以对于未知的流量进行标记，再根据域名进行判断，进行阻拦或者放行，目前的扫描器大多数不可以进行实时的流量组更新，对于很多新型流量也不能进行有效准确的处理。

图1展示了本发明的工控扫描器指纹识别***在进行流量分类的过程中的状态转换图。

图2展示了本发明的具体流程图，描述了在运行整个***的时候对于流量的分析与分类的详细过程。

如图2所示，本发明将基于CART多分类决策树与聚类算法相结合，对工业控制网络中通过蜜罐网络***捕获的扫描数据和已有的工控扫描器进行分析，获得其指纹信息。首先，利用基于CART决策树构建扫描数据多分类分类器模型，对模型进行充分训练，分类结果以分布概率形式给出。其次，将分类结果作为输入数据输入到聚类算法中，进行聚类后输出多个含有不同标签的聚簇，可以进一步发现扫描实体间的关联关系。最后，如果有未被标识的新聚簇，则将其标签添加到多分类分类器中对模型进行实时更新。

本发明在具体实施过程中，对精确性和适应性进行了测试实验，具体分为分类模型测试、聚类模型测试和整体方法测试三部分。本发明的实验数据集包括扫描器数据集和蜜罐数据集两类。扫描器数据集是由已知即由专业工控网络安全研究机构提供的和开源的两种工控扫描器生成，蜜罐数据集则由我们的工控蜜罐捕获。为了捕获更多的扫描流量，我们将工控蜜罐部署在了云服务、校园网和ISP网络三种不同的网络环境中。

在分类模型测试部分，本发明选用了UCI数据集中的酒类、汽车类和卫星图像类三个数据集进行测试实验并与目前常用的模糊SVM、改进SVM和DAG三种多分类建模方法进行对比。表1展示了三个数据集的基本特性，表2展示了分类模型测试实验的结果，可以看出在酒类和汽车类数据集上，本发明的CART分类模型均优于其他几种方法，在卫星图像类数据集上，本发明的CART分类模型接近于精度最高的改进SVM方法。综合考虑到三个数据集和其他方法的复杂性等特征，本发明选取的分类模型精确性和适应性均优于目前常用的几种方法。

表1

数据集	类别	规模	训练数据	测试数据
					酒	3	13	90	88
汽车	4	6	958	770
					卫星图像	6	36	4435	2000

表2

算法	酒	汽车	卫星图像
				模糊SVM	0.53	0.73	0.60
DAG	0.68	0.79	0.63
				改进SVM	0.84	0.91	0.89
本发明	0.887	0.95	0.854

在聚类模型测试部分，本发明选取了从2017年3月21日到2017年11月30日和2018年4月4日至2018年7月22日内捕获的Modbus数据和从2018年4月4日到2018年7月22日捕获的EtherNet/IP数据作为测试数据集。在这些时间段内，Modbus蜜罐捕获了199个不同的IP地址作为199个扫描实体，EtherNet/IP蜜罐捕获了44个不同的IP地址作为44个扫描实体。同时，也选取了目前常用的K-Means和AGNES两种聚类方法与本发明的聚类方法进行对比，通过比较不同方法的DB指数，分析各自的精确性与适应性。表3展示了聚类模型测试的实验结果，显然，本发明选取的聚类算法得DB指数无论是在Modbus数据集还是EtherNet/IP数据集上，都要远远小于另外两种聚类方法的DB指数，这就意味着本发明聚类模型的精确性和适应性也均优于目前常用的几种方法。

表3

在整体方法测试部分，本发明针对Ethernet/IP数据集，选择了BinaryEdge作为一个新的扫描器标签。因为BinaryEdge有两个实体扫描我们的蜜罐，所以本发明选择其中一个作为训练数据，另一个作为测试数据，并将它们添加到工控扫描器数据集中。实验结果表明，分类模型的新精度为0.985，而且能够识别所有属于BinaryEdge新的扫描流量。同时，利用新扫描标签进行聚类的新精度为0.808。分类模型的精度保持不变的主要原因是原始测试数据量太大，忽略了BinaryEdge的贡献。聚类模型的精度保持不变则是由于BinaryEdge的扫描器独立于其他组织的扫描器，不会对结果造成影响。然而，所有属于BinaryEdge新的扫描流量都能被正确分类，这验证了整体方法具有较为优异的更新能力和适应性。因此，本发明所提出的方法具有优于目前常用方法的精确度性和适应性，且具有良好的分析能力和更新能力，对于工控网络安全有着较为重大的创新意义。

需要特殊说明的是：如上所述是结合具体内容提供的一种实施方式，并不能认定本发明的具体实施只局限于这些说明。凡与本发明的结构、装置相似、雷同，或是对于本发明构思前提下做出若干技术推演或替换，都应当视为本发明的保护范围。

Claims

1.一种基于蜜网数据的工控扫描器指纹识别方法，其特征在于，包括如下步骤：

a.获得原始训练数据，其中原始训练数据的获得包括两种途径：一种是基于部署在工业控制***中的蜜罐网络捕获扫描器对工控设备的探测行为并与其进行深度交互，获得扫描数据；另一种是结合相关安全服务厂商提供的工控扫描器信息记录，分析得到扫描数据；

b.提取扫描数据指纹内容，建立扫描特征数据集；

c.基于扫描特征数据集，利用CART决策树算法构建多分类分类器模型；在模型训练过程中，不断选择当前最优划分属性进行划分，直到所有训练数据都完全拟合；采用代价复杂度剪枝算法对训练好的决策树进行剪枝，选择误差最小的子树作为剪枝后的最优决策树，形成标签；采用“一对一”方法构建多分类分类器，并选择概率最大的类别作为分类结果，分类结果以概率的形式输出；

d.用聚类模型以步骤c输出的分类结果作为输入，对扫描实体进行聚类分析，以发现不同扫描工具和扫描实体IP之间的关联关系；所述聚类模型采用的方法不包括K-Means和AGNES聚类方法；所述关联关系包括确定与特定扫描工具构成一类的扫描实体，确定自成一类的扫描实体并提取出其所属组织；

2.根据权利要求1所述的基于蜜网数据的工控扫描器指纹识别方法，其特征在于，步骤b所述的扫描数据指纹内容包括：IP地址信息、端口信息、数据包长度、通讯协议和具体通讯数据。