CN109067778B - 一种基于蜜网数据的工控扫描器指纹识别方法 - Google Patents

一种基于蜜网数据的工控扫描器指纹识别方法 Download PDF

Info

Publication number
CN109067778B
CN109067778B CN201811083267.6A CN201811083267A CN109067778B CN 109067778 B CN109067778 B CN 109067778B CN 201811083267 A CN201811083267 A CN 201811083267A CN 109067778 B CN109067778 B CN 109067778B
Authority
CN
China
Prior art keywords
scanning
data
industrial control
scanner
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811083267.6A
Other languages
English (en)
Other versions
CN109067778A (zh
Inventor
姚羽
盛川
刘昕蕊
李东彪
李桢梓
王禹博
金白澈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201811083267.6A priority Critical patent/CN109067778B/zh
Publication of CN109067778A publication Critical patent/CN109067778A/zh
Application granted granted Critical
Publication of CN109067778B publication Critical patent/CN109067778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于蜜网数据的工控扫描器指纹识别方法,包括:对工业控制网络中通过蜜罐网络***捕获的扫描数据和已有的工控扫描器进行分析,获得指纹信息并构建基于CART决策树的扫描数据多分类分类器模型。多分类分类器模型能够有效识别发起扫描流量的特定扫描工具,并输出各类扫描器标签的判断概率。之后,多分类分类器模型的输出结果将作为聚类算法的输入数据,聚类算法可以发现不同扫描实体间更深层次的关联关系,形成聚簇。同时,聚类算法还可以有效提取不同聚簇的扫描特征,形成新的扫描器标签,并更新到之前的多分类决策树中,提高了本发明对于新型扫描器数据的判断能力。

Description

一种基于蜜网数据的工控扫描器指纹识别方法
技术领域
本发明属于网络安全技术领域,涉及一种基于蜜网数据的工控扫描器指纹识别方法。
背景技术
最近几年,网络空间安全领域发生了巨大的变化,工业控制***成为了新的网络空间安全主战场之一。两化融合后,IT***的信息安全也被融入了工业控制***安全中。当前,我国关键信息基础设施面临的网络安全形势严峻且复杂。根据东北大学“谛听”网络安全团队的数据显示,全球存在大量暴露在互联网上的工业控制***,其中占比较多的包括电力行业、石油石化行业及先进制造业,这些都与国计民生密切相关,涉及到国家安全。
扫描器识别作为网络安全的一种重要手段已经逐步渗透到工业控制***网络安全中,作为工控安全的中心技术,扫描器的研究与升级十分关键,对于工业控制***的网络安全有着不可忽视的重要性。
传统IT领域有关扫描器识别的研究较少,应用于工控安全领域的更是少之又少。现有的一些技术大多利用蜜罐网络访问流量或时序特性对扫描器进行识别,不能够有效识别新型的扫描活动。同时,蜜罐网络***能够监听黑客对工控设备的扫描器活动还可以过滤掉其他无关流量,更具有针对性,并且蜜罐网络成本低易部署,只需要低配置的服务器或专用硬件即可完成部署,具有多重优点。因而,本发明提出了一种新颖的基于蜜网数据的工控扫描器指纹识别方法。提出的方法能够适应新发现的扫描器和工控协议,且不依赖于具体的网络环境,在实时更新数据和分析结果的准确性等方面都有所提升。
发明内容
本发明的目的在于:基于蜜网***捕获扫描数据,并利用基于CART的多分类决策树和聚类相结合的方式,提供了一种基于蜜网数据的工控扫描器指纹识别方法。
本发明实现方案如下:
对工业控制网络中通过蜜罐网络***捕获的扫描数据和已有的工控扫描器进行分析,获得指纹信息并基于CART决策树构建扫描数据多分类分类器模型。多分类分类器模型能够有效识别发起扫描流量的特定扫描工具,并输出符合各类扫描器标签的判断概率。之后,多分类分类器模型的输出结果将作为聚类算法的输入数据,聚类算法可以发现不同扫描实体间更深层次的关联关系,形成聚簇。同时,聚类算法还可以有效提取不同聚簇的扫描特征,形成新的扫描器标签,并更新到之前的多分类决策树中,提高了本发明对于新型扫描器数据的判断能力。
本发明具体技术方案为:
一种基于蜜网数据的工控扫描器指纹识别方法,包括如下步骤:
a.获得原始训练数据,其中原始训练数据的获得包括两种途径:一种是基于部署在工业控制***中的蜜罐网络捕获扫描器对工控设备的探测行为并与其进行深度交互,获得扫描数据;另一种是结合相关安全服务厂商提供的工控扫描器信息记录,分析得到扫描数据。
b.提取扫描数据指纹内容,建立扫描特征数据集。
c.基于扫描特征数据集,利用能有效处理连续和非连续属性值且具有较高准确性的CART决策树算法构建多分类分类器模型;在模型训练过程中,不断选择当前最优划分属性进行划分,直到所有训练数据都完全拟合;由于模型训练过程中要求拟合所有训练数据,因此很容易出现过拟合现象。因此,采用代价复杂度剪枝算法对训练好的决策树进行剪枝,选择误差最小的子树作为剪枝后的最优决策树,形成标签;同时,为了能够完全保留已有的分类模型并便于更新,采用“一对一”方法构建多分类分类器,并选择概率最大的类别作为分类结果,分类结果以概率的形式输出。
d.以上步骤提到的多分类分类器模型能够准确识别工控扫描器的指纹信息,然而其无法有效识别新出现的扫描工具并发现不同扫描IP地址之间的深层次关联关系。因此,用聚类模型以步骤c输出的分类结果作为输入,对扫描实体进行聚类分析,以发现不同扫描工具和扫描实体IP之间的关联关系;所述关联关系包括确定与特定扫描工具构成一类的扫描实体,确定自成一类的扫描实体并提取出其所属组织;发现不同扫描IP地址之间的关联关系对于发现网络攻击组织,有效阻断潜在的网络攻击具有重大意义。
e.聚类算法结束后将生成多个聚簇,若有含新标签的聚簇出现,该聚簇的新标签将被输入到步骤c中,再次利用基于CART决策树算法更新旧的多分类分类器模型,做到实时更新,不断扩充;若未出现含新标签的聚簇,则分类结果将作为最终的结果输出。
进一步地,上述步骤b所述的扫描数据指纹内容包括:IP地址信息、端口信息、数据包长度、通讯协议和具体通讯数据。
本发明的优势在于:
结合了基于CART决策树和聚类两种方法,利用基于CART决策树构建的多分类器分类模型的输出结果作为聚类算法的输入结果,可以更高精度地识别攻击者身份,判断其类型和彼此间的深层次关联关系。同时,利用最终识别到的结果使工控***本身的蜜罐网络回复更精确,更具有迷惑性。
本发明的有益效果在于:
1)提出了新颖的工控扫描器指纹识别方法,其能够有效识别出攻击工具,对进行更精准的攻击者画像有重要意义。
2)通过准确识别其指纹,提高了蜜罐网络制定更有针对性策略的能力,可以诱导攻击者进行更加深入的交互,以提取其更多的攻击信息。
3)具有自更新功能,当出现新的攻击活动时,本方法能够提前提取其扫描特征,添加标签,并通过聚类算法发现其潜在的攻击组织,这对于工控网络的主动安全防御至关重要。
4)能够通过分析各种扫描器的分析结果结合不同扫描实体的who-is信息发现不同扫描器的同源性。
附图说明
图1是本发明的状态转换图。
图2是本发明的流程图。
具体实施方式
以下结合附图和具体实施方案对本发明作进一步的详细说明,但不作为对本发明技术方案的限定。
近些年,网络空间安全领域发生了巨大的变化,随着两化融合进程的深入,工业控制***已经和互联网密不可分。两化融合后,IT***的信息安全也被融入了工控***安全中。当前,工控扫描器指纹识别***可以对流量进行分析和分类,对于网络攻击者的入侵有着至关重要的作用,工控扫描器指纹识别***可以做到对于***已知的流量进行分类,也可以对于未知的流量进行标记,再根据域名进行判断,进行阻拦或者放行,目前的扫描器大多数不可以进行实时的流量组更新,对于很多新型流量也不能进行有效准确的处理。
图1展示了本发明的工控扫描器指纹识别***在进行流量分类的过程中的状态转换图。
图2展示了本发明的具体流程图,描述了在运行整个***的时候对于流量的分析与分类的详细过程。
如图2所示,本发明将基于CART多分类决策树与聚类算法相结合,对工业控制网络中通过蜜罐网络***捕获的扫描数据和已有的工控扫描器进行分析,获得其指纹信息。首先,利用基于CART决策树构建扫描数据多分类分类器模型,对模型进行充分训练,分类结果以分布概率形式给出。其次,将分类结果作为输入数据输入到聚类算法中,进行聚类后输出多个含有不同标签的聚簇,可以进一步发现扫描实体间的关联关系。最后,如果有未被标识的新聚簇,则将其标签添加到多分类分类器中对模型进行实时更新。
本发明在具体实施过程中,对精确性和适应性进行了测试实验,具体分为分类模型测试、聚类模型测试和整体方法测试三部分。本发明的实验数据集包括扫描器数据集和蜜罐数据集两类。扫描器数据集是由已知即由专业工控网络安全研究机构提供的和开源的两种工控扫描器生成,蜜罐数据集则由我们的工控蜜罐捕获。为了捕获更多的扫描流量,我们将工控蜜罐部署在了云服务、校园网和ISP网络三种不同的网络环境中。
在分类模型测试部分,本发明选用了UCI数据集中的酒类、汽车类和卫星图像类三个数据集进行测试实验并与目前常用的模糊SVM、改进SVM和DAG三种多分类建模方法进行对比。表1展示了三个数据集的基本特性,表2展示了分类模型测试实验的结果,可以看出在酒类和汽车类数据集上,本发明的CART分类模型均优于其他几种方法,在卫星图像类数据集上,本发明的CART分类模型接近于精度最高的改进SVM方法。综合考虑到三个数据集和其他方法的复杂性等特征,本发明选取的分类模型精确性和适应性均优于目前常用的几种方法。
表1
数据集 类别 规模 训练数据 测试数据
3 13 90 88
汽车 4 6 958 770
卫星图像 6 36 4435 2000
表2
算法 汽车 卫星图像
模糊SVM 0.53 0.73 0.60
DAG 0.68 0.79 0.63
改进SVM 0.84 0.91 0.89
本发明 0.887 0.95 0.854
在聚类模型测试部分,本发明选取了从2017年3月21日到2017年11月30日和2018年4月4日至2018年7月22日内捕获的Modbus数据和从2018年4月4日到2018年7月22日捕获的EtherNet/IP数据作为测试数据集。在这些时间段内,Modbus蜜罐捕获了199个不同的IP地址作为199个扫描实体,EtherNet/IP蜜罐捕获了44个不同的IP地址作为44个扫描实体。同时,也选取了目前常用的K-Means和AGNES两种聚类方法与本发明的聚类方法进行对比,通过比较不同方法的DB指数,分析各自的精确性与适应性。表3展示了聚类模型测试的实验结果,显然,本发明选取的聚类算法得DB指数无论是在Modbus数据集还是EtherNet/IP数据集上,都要远远小于另外两种聚类方法的DB指数,这就意味着本发明聚类模型的精确性和适应性也均优于目前常用的几种方法。
表3
Figure BDA0001802508800000051
在整体方法测试部分,本发明针对Ethernet/IP数据集,选择了BinaryEdge作为一个新的扫描器标签。因为BinaryEdge有两个实体扫描我们的蜜罐,所以本发明选择其中一个作为训练数据,另一个作为测试数据,并将它们添加到工控扫描器数据集中。实验结果表明,分类模型的新精度为0.985,而且能够识别所有属于BinaryEdge新的扫描流量。同时,利用新扫描标签进行聚类的新精度为0.808。分类模型的精度保持不变的主要原因是原始测试数据量太大,忽略了BinaryEdge的贡献。聚类模型的精度保持不变则是由于BinaryEdge的扫描器独立于其他组织的扫描器,不会对结果造成影响。然而,所有属于BinaryEdge新的扫描流量都能被正确分类,这验证了整体方法具有较为优异的更新能力和适应性。因此,本发明所提出的方法具有优于目前常用方法的精确度性和适应性,且具有良好的分析能力和更新能力,对于工控网络安全有着较为重大的创新意义。
需要特殊说明的是:如上所述是结合具体内容提供的一种实施方式,并不能认定本发明的具体实施只局限于这些说明。凡与本发明的结构、装置相似、雷同,或是对于本发明构思前提下做出若干技术推演或替换,都应当视为本发明的保护范围。

Claims (2)

1.一种基于蜜网数据的工控扫描器指纹识别方法,其特征在于,包括如下步骤:
a.获得原始训练数据,其中原始训练数据的获得包括两种途径:一种是基于部署在工业控制***中的蜜罐网络捕获扫描器对工控设备的探测行为并与其进行深度交互,获得扫描数据;另一种是结合相关安全服务厂商提供的工控扫描器信息记录,分析得到扫描数据;
b.提取扫描数据指纹内容,建立扫描特征数据集;
c.基于扫描特征数据集,利用CART决策树算法构建多分类分类器模型;在模型训练过程中,不断选择当前最优划分属性进行划分,直到所有训练数据都完全拟合;采用代价复杂度剪枝算法对训练好的决策树进行剪枝,选择误差最小的子树作为剪枝后的最优决策树,形成标签;采用“一对一”方法构建多分类分类器,并选择概率最大的类别作为分类结果,分类结果以概率的形式输出;
d.用聚类模型以步骤c输出的分类结果作为输入,对扫描实体进行聚类分析,以发现不同扫描工具和扫描实体IP之间的关联关系;所述聚类模型采用的方法不包括K-Means和AGNES聚类方法;所述关联关系包括确定与特定扫描工具构成一类的扫描实体,确定自成一类的扫描实体并提取出其所属组织;
e.聚类算法结束后将生成多个聚簇,若有含新标签的聚簇出现,该聚簇的新标签将被输入到步骤c中,再次利用基于CART决策树算法更新旧的多分类分类器模型,做到实时更新,不断扩充;若未出现含新标签的聚簇,则分类结果将作为最终的结果输出。
2.根据权利要求1所述的基于蜜网数据的工控扫描器指纹识别方法,其特征在于,步骤b所述的扫描数据指纹内容包括:IP地址信息、端口信息、数据包长度、通讯协议和具体通讯数据。
CN201811083267.6A 2018-09-18 2018-09-18 一种基于蜜网数据的工控扫描器指纹识别方法 Active CN109067778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811083267.6A CN109067778B (zh) 2018-09-18 2018-09-18 一种基于蜜网数据的工控扫描器指纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811083267.6A CN109067778B (zh) 2018-09-18 2018-09-18 一种基于蜜网数据的工控扫描器指纹识别方法

Publications (2)

Publication Number Publication Date
CN109067778A CN109067778A (zh) 2018-12-21
CN109067778B true CN109067778B (zh) 2020-07-24

Family

ID=64762888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811083267.6A Active CN109067778B (zh) 2018-09-18 2018-09-18 一种基于蜜网数据的工控扫描器指纹识别方法

Country Status (1)

Country Link
CN (1) CN109067778B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126440B (zh) * 2019-11-25 2023-12-22 广州大学 一种基于深度学习的一体化工控蜜罐识别***及方法
CN111641634B (zh) * 2020-05-28 2021-06-15 东北大学 一种基于蜜网的工业控制网络主动防御***及其方法
CN111931874B (zh) * 2020-10-09 2020-12-25 北京元支点信息安全技术有限公司 基于深度学习和数据聚类的伴随式诱饵生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及***
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN108234345A (zh) * 2016-12-21 2018-06-29 ***通信集团湖北有限公司 一种终端网络应用的流量特征识别方法、装置和***
CN108509794A (zh) * 2018-03-09 2018-09-07 中山大学 一种基于分类学习算法的恶意网页防御检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104316786B (zh) * 2014-10-10 2017-03-08 湖南大学 一种混合孤岛检测方法
CN104881706B (zh) * 2014-12-31 2018-05-25 天津弘源慧能科技有限公司 一种基于大数据技术的电力***短期负荷预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及***
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN108234345A (zh) * 2016-12-21 2018-06-29 ***通信集团湖北有限公司 一种终端网络应用的流量特征识别方法、装置和***
CN108509794A (zh) * 2018-03-09 2018-09-07 中山大学 一种基于分类学习算法的恶意网页防御检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于蜜罐技术的工业控制入侵捕获***的设计与实现;胡海龙;《中国优秀硕士学位论文全文数据库》;20171231;20-35 *

Also Published As

Publication number Publication date
CN109067778A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN112738015B (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
Gogoi et al. MLH-IDS: a multi-level hybrid intrusion detection method
CN112910929B (zh) 基于异质图表示学习的恶意域名检测方法及装置
Grimaudo et al. Select: Self-learning classifier for internet traffic
CN111565205A (zh) 网络攻击识别方法、装置、计算机设备和存储介质
CN109067778B (zh) 一种基于蜜网数据的工控扫描器指纹识别方法
CN111641634B (zh) 一种基于蜜网的工业控制网络主动防御***及其方法
CN109274677B (zh) 基于机器学习的ip分类方法及***
CN112115183B (zh) 一种基于图的蜜罐***威胁情报分析方法
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
CN113904795B (zh) 一种基于网络安全探针的流量快速精确检测方法
CN117216660A (zh) 基于时序网络流量集成异常点和异常集群检测方法及装置
CN111935185B (zh) 基于云计算构建大规模诱捕场景的方法及***
CN113328985A (zh) 一种被动物联网设备识别方法、***、介质及设备
CN114172688A (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN110519228B (zh) 一种黑产场景下恶意云机器人的识别方法及***
CN114553496B (zh) 基于半监督学习的恶意域名检测方法及装置
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
CN113872962B (zh) 一种面向高速网络抽样数据采集场景的慢速端口扫描检测方法
Qin et al. MUCM: multilevel user cluster mining based on behavior profiles for network monitoring
CN111901137A (zh) 一种利用蜜罐告警日志挖掘多步攻击场景的方法
Fan et al. Identify OS from encrypted traffic with TCP/IP stack fingerprinting
CN115277178A (zh) 基于企业网网络流量的异常监测方法、装置及存储介质
Salah et al. Desktop and mobile operating system fingerprinting based on IPv6 protocol using machine learning algorithms
Tahir et al. A novel network user behaviors and profile testing based on anomaly detection techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181221

Assignee: Liaoning Hesheng Yida Technology Co.,Ltd.

Assignor: Northeastern University

Contract record no.: X2023210000208

Denomination of invention: A fingerprint recognition method for industrial control scanners based on honeynet data

Granted publication date: 20200724

License type: Common License

Record date: 20231127