WO2018157336A1

WO2018157336A1 - 数据处理装置和方法

Info

Publication number: WO2018157336A1
Application number: PCT/CN2017/075349
Authority: WO
Inventors: 郭代飞; 刘锡峰
Original assignee: 西门子公司; 郭代飞; 刘锡峰
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2018-09-07
Also published as: US20200007505A1; CN110574348A; EP3576365A1; EP3576365A4; CN110574348B; EP3576365B1; US11405358B2; ES2931991T3

Abstract

一种数据处理装置和方法。所述数据处理装置包括：一数据收集单元（100），被构造为收集在网络中传输的数据，并根据预定的特征将收集数据分为已知攻击数据和未知攻击数据；一数据转换单元（300），被构造为根据映射数据库将未知攻击数据中包括的至少一部分内容替换为对应的识别码。因此，可以减小网络中传输的数据的大小。

Description

数据处理装置和方法

技术领域

本发明涉及一种数据处理装置和方法。

背景技术

在中央网络安全监视中，可以在需要保护的对象处布设网络流量收集装置，以收集来自网络的网络流量。例如，网络安全监视器(NSM)可以布设在客户的网络中以获得网络流量。网络安全监视器(NSM)以与入侵检测***(IDS)的工作方式相似的方式工作，其可以监视诸如服务器拒绝(Denial of Service)的安全事件、网络扫描和由恶意软件触发的其他网络或应用的攻击。

在中央网络安全监视中，NSM可以不仅被设置为布设在网络环境中的前端处的检测传感器，也可以被用作原始数据收集器。就此，NSM将可以将网络数据流捕获为诸如pcap文件的无结构文件，并对这些数据文件进行预处理，然后将它们发送到中央网络安全监视中心。如此，可以使用NSM来帮助进行网络安全威胁的相关性分析。

但是，当监视的网络数据流变得很大时，需要很高的带宽来传输诸如pcap类文件。在工业控制网络应用中，为了处理这样的问题，提出了一种在将收集的数据发送到中央网络安全监视中心之前对收集的数据进行基于相关性分析的数据预处理方法。在工业控制网络环境中，与自动化生产工艺的控制和监视相关的网络流量相对固定。因此，需要通过识别出并简化已知数据并仅处理未知的数据，以减小需要发送的数据并缓解带宽的压力。

发明内容

本发明旨在提供一种解决上述和/或其他技术问题的数据处理装置和方法。

在一个实施例中，一种数据处理装置包括：一数据收集单元，被构造为收集在网络中传输的数据，并根据预定的特征将收集数据分为已知攻击数据和未知攻击数据；一数据转换单元，被构造为根据映射数据库将未知攻击数据中包括的至少一部分内容替换为对应的识别码。因此，可以减小将被发送到中央网络安全监视中心的数据。

数据转换单元包括：一数据识别单元，被构造为识别未知攻击数据中包括的内容；一数据分类单元，被构造为根据数据识别单元的识别结果将未知攻击数据中的已被数据识别单元所识别的内容进行分类。因此，可以改善安全分析的速度和准确度。

数据转换单元包括：一数据匹配单元，被构造为确定未知攻击数据中的内容是否与映射数据库中包括的先前在网络中传输的历史数据相同；一数据替换单元，被构造为在确定未知攻击数据中的内容与历史数据相同时，将相同的内容替换为映射数据库中的与历史数据对应的识别码。

映射数据库中包括与历史数据对应的识别码和与历史数据相关的信息，数据匹配单元被构造为根据映射数据库中的与历史数据相关的信息确定未知攻击数据中的内容是否与历史数据相同。与历史数据相关的信息包括历史数据的消息摘要消息摘要，数据匹配单元被构造为得到未知攻击数据中的内容的消息摘要消息摘要，并根据位置攻击数据中的内容的消息摘要是否与历史数据的消息摘要相同来确定未知攻击数据中的内容是否与历史数据相同。与历史数据相关的信息包括历史数据的起始位置和长度，数据匹配单元被构造为根据历史数据的起始位置和长度来在未知攻击数据中选择进行是否相同判断的内容。

数据处理装置还包括：一映射数据库生成单元，被构造为根据先前在网络中传输的历史数据来生成映射数据库。映射数据库生成单元根据将先前在网络中传输的历史数据中出现频率大于预定阈值的历史数据来生成映射数据库。

所述数据处理装置还包括：一通信单元，被构造为将经数据转换单元转换的数据发送到外部。

在另一个实施例中，一种数据处理方法包括：收集在网络中传输的数据，并根据预定的特征将收集数据分为已知攻击数据和未知攻击数据；根据映射数据库将未知攻击数据中包括的至少一部分内容替换为对应的识别码。因此，可以减小将被发送到中央网络安全监视中心的数据。

转换的步骤包括：识别未知攻击数据中包括的内容；根据识别结果将未知攻击数据中的已被数据识别单元所识别的内容进行分类。因此，可以改善安全分析的速度和准确度。

转换的步骤包括：确定未知攻击数据中的内容是否与映射数据库中包括的先前在网络中传输的历史数据相同；在确定未知攻击数据中的内容与历史数据相同时，将相同的内容替换为映射数据库中的与历史数据对应的识别码。映射数据库中包括与历史数据对应的识别码和与历史数据相关的信息，转换的步骤包括：根据映射数据库中的与历史数据相关的信息确定未知攻击数据中的内容是否与历史数据相同。与历史数据相关的信息包括历史数据的消息摘要，转换的步骤包括：得到未知攻击数据中的内容的消息摘要，并根据位置攻击数据中的内容的消息摘要是否与历史数据的消息摘要相同来确定未知攻击数据中的内容是否与历史数据相同。与历史数据相关的信息包括历史数据的起始位置和长度，转换的步骤包括：根据历史数据的起始位置和长度来在未知攻击数据中选择进行是否相同判断的内容。

所述方法还包括：根据先前在网络中传输的历史数据来生成映射数据库。生成映射数据库的步骤包括：根据将先前在网络中传输的历史数据中出现频率大于预定阈值的历史数据来生成映射数据库。

所述方法还包括：将经转换的数据发送到外部。

根据示例性实施例，数据处理装置和方法可以对工业控制网络中传输的数据进行相关性分析，构建映射数据库，并以识别码来代替数据中相同的部分，从而减小将被发送到中央网络安全监视中心的数据。此外，可以对网络中传输的数据进行分类，从而可以改善安全分析的速度和准确度。

附图说明

以下附图仅旨在于对本发明做示意性说明和解释，并不限定本发明的范围。其中，

图1是示出根据示例性实施例的数据处理装置的示意性框图；

图2是示出根据示例性实施例的数据处理装置的示例性应用的示图；

图3是示出根据示例性实施例的数据处理方法的流程图。

附图标记说明：

100数据收集单元 300数据转换单元 500映射数据库生成单元 700通信单元

310数据识别单元 330数据分类单元 350数据匹配单元 370数据替换单元

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

图1是示出根据示例性实施例的数据处理装置的示意性框图，图2是示出根据示例性实施例的数据处理装置的示例性应用的示图。这里，根据示例性实施例的数据处理装置可以收集诸如工业控制网络中的传输的数据，并对数据进行处理，以减小数据的大小，并因此可以通过更小的带宽来传输减小的处理后的数据，从而数据处理装置在下文中也被称为数据收集和预处理单元(Data Collecting and Preprocessing Agent)。

如图1中所示，根据示例性实施例的数据处理装置可以包括数据收集单元100和数据转换单元300。

数据收集单元100可以被布设在诸如工业控制网络的需要保护的网络环境中，以收集需要保护的网络中传输的数据。例如，工业控制网络可以采用Modbus工业控制协议和FTP 协议等。

当收集了需要保护的网络中传输的数据之后，数据收集单元100可以根据预定的特征将收集数据分为已知数据和未知攻击数据。具体地讲，数据收集单元100可以根据预定的特征对收集的数据进行基础的安全性扫描，从而确定收集的数据中的哪些数据是可能威胁需要保护的网络的安全的攻击相对应的数据。这里，数据收集单元100可以基于已知攻击特征库的特征串匹配技术来将收集数据分为与已知的攻击对应的已知攻击数据和与未知的攻击对应的未知攻击数据，这样的方法是已知的，为了避免冗余，在此省略对已知技术的描述。

数据收集单元100可以过滤在网络中传输的已知攻击数据。数据收集单元100可以将确定的未知攻击数据发送到数据转换单元300。数据转换单元(300)可以根据映射数据库将未知攻击数据中包括的内容替换为对应的识别码。

具体地讲，数据转换单元300可以包括数据识别单元310和数据分类单元330。数据识别单元310可以识别未知攻击数据中包括的内容。例如，数据识别单元310可以对未知攻击数据在网络中传输所采用的协议进行分析，以得到未知攻击数据的头数据和负载数据。当例如采用Modbus协议进行数据传输时，可以得到Modbus的协议标签。

然后，数据分类单元330可以根据数据识别单元310的识别结果将未知攻击数据中的已被数据识别单元所识别的内容进行分类。具体地讲，数据分类单元330可以基于类别数据库来将未知攻击数据分类为不同的类别。数据分类数据库可以包括与不同的网络协议相关的类别规则信息，例如，协议类别、应用类别和命令类别。类别数据库可以用于基于应用场景来对数据进行分类。在工业控制网络中，越来越多的应用与诸如HTTP、FTP、Telnet、SSH等的传统的网络协议相结合。例如，在西门子PCS7系列的工业控制网络中，采用了PROFINET、OPC和S7协议。因此，类别数据库可以基于网络中传输的数据和网络的构造来存储工业控制协议类型和的重要的命令。例如，当采用Modbus协议时，类别数据库可以包括Modbus协议的协议标签、命令类别等。

数据转换单元300还可以包括数据匹配单元350和数据替换单元370。数据匹配单元350可以确定未知攻击数据中的被分为不同的类别的内容是否部分或全部与映射数据库中包括的数据相同。具体地讲，映射数据库可以存储有与历史数据相关的信息以及与历史数据对应的识别码，其中，与历史数据相关的信息可以包括数据的消息摘要(message digest)、相关的类别信息、数据的起始位置和长度。这里，历史数据是在先前在网络中传输的数据中的经常出现的那些数据包。消息摘要可以包括历史数据的散列计算结果，例如，MD5、SHA等。

数据匹配单元350可以查询映射数据库中的与历史数据相关的信息，例如，数据的消息摘要(message digest)、相关的类别信息、数据的起始位置和长度等。然后，数据匹配单元350可以进行关联性分析以找到映射数据库中是否具有与未知攻击数据中的内容相同的内容。例如，数据匹配单元350可以通过映射数据库中的数据的起始位置来定位未知攻击数据中的内容，然后确定位置攻击数据中的从起始位置开始的长度与映射数据库中的长度相同的数据段的散列计算结果，从而通过判断确定的散列计算结果是否与映射数据库中的消息摘要相同，来确定位置攻击数据中的内容是否与映射数据库中的内容相同。

此外，对于映射数据库中的具有相同起始位置的内容，数据匹配单元350可以首先计算并比较长度最小的内容的散列计算结果和消息摘要是否相同。当确定相同时，数据匹配单元350可以计算并比较长度第二小的内容是否相同。如此，当数据匹配单元350确定长度相同的内容的消息摘要与散列计算结果不同时，校验数据匹配单元350可以停止运行。这意味着未知攻击数据的后面的内容将与映射数据库中的长度更长的历史数据不同。

然后，当数据匹配单元350确定了未知攻击数据中的与映射数据库中的历史数据相同的内容时，数据匹配单元350可以将相同内容在未知攻击数据中的起始位置和长度信息发送到数据替换单元370。

数据替换单元370可以将相同的内容替换为映射数据库中与相同的内容具有映射关系的识别码。例如，数据替换单元370可以从起始位置开始将相同的内容替换为识别码。如上面所描述，映射数据库中的识别码的大小可以小于与该识别码对应的数据的大小。因此，经数据替换单元370替换处理之后所得的数据可以小于，例如远小于原始的未知攻击数据。

此外，根据示例性实施例的数据处理装置可以包括映射数据库生成单元500。映射数据库生成单元500用于对网络中传输的历史数据进行关联性分析，并可以提取频繁出现的公共或重叠的数据。具体地讲，映射数据库生成单元500可以首先根据诸如协议类别、应用类别、命令类别等的类别信息对历史数据进行统计，从而得到出现频率较高(例如，高于预定阈值)的公共或重叠的数据。然后，映射数据库生成单元500可以为公共或重叠的数据设置识别码，并可以根据识别码和与公共或重叠的数据相关的信息来构建映射数据库。

更具体地讲，映射数据库产生模块500可以基于历史数据进行最大匹配关联扫描。映射数据库产生模块500可以根据预定的阈值T1和T2来确定哪些是网络中频繁出现的数据。如果相同类别的数据出现的次数大于第一阈值T1，则映射数据库产生模块500将对具有相同协议、应用和命令的数据进行匹配计算。映射数据库产生模块500将选择具有相同的协议信息的两个数据，并比较他们之间最长的公共或重叠的部分，然后记录该部分的开始位置和长度。映射数据库产生模块500可以使用该部分与其他数据进行比较，并存储与具有与该部分相同的部分的数据的数量。如果该数量大于第二阈值T2，则映射数据库产生模块500可以以该部分来构建映射数据库。

此外，数据处理装置还可以包括通信单元700。当以较短的识别码替换了未知攻击数据中的内容从而减小了数据大小时，通信单元700可以将处理后的数据发送到外部的中央网络安全监视中心。当接收到处理后的数据时，中央网络安全监视中心可以根据映射数据库对处理后的数据进行处理，以还原未知攻击数据，并对还原的未知攻击数据进行安全分析。

图3是示出根据示例性实施例的数据处理方法的流程图。

如图3中所示，首先，在操作S310，可以收集在网络中传输的数据，并根据预定的特征将收集数据分为已知攻击数据和未知攻击数据。然后，可以根据映射数据库将未知攻击数据中包括的至少一部分内容替换为对应的识别码(S330)。此外，在操作S350，可以将经转换的数据发送到外部。

在一个实施例中，可以识别未知攻击数据中包括的内容，并然后可以根据识别结果将未知攻击数据中的已被数据识别单元所识别的内容进行分类。

在另一个实施例中，可以确定未知攻击数据中的内容是否与映射数据库中包括的先前在网络中传输的历史数据相同，并可以在确定未知攻击数据中的内容与历史数据相同时，将相同的内容替换为映射数据库中的与历史数据对应的识别码。

具体地讲，映射数据库中可以包括与历史数据对应的识别码和与历史数据相关的信息，这样，根据映射数据库中的与历史数据相关的信息确定未知攻击数据中的内容是否与历史数据相同。与历史数据相关的信息包括历史数据的消息摘要。如此，可以得到未知攻击数据中的内容的消息摘要，并根据位置攻击数据中的内容的消息摘要是否与历史数据的消息摘要相同来确定未知攻击数据中的内容是否与历史数据相同。例如，与历史数据相关的信息包括历史数据的起始位置和长度。这里，根据历史数据的起始位置和长度来在未知攻击数据中选择进行是否相同判断的内容。

映射数据库可以根据先前在网络中传输的历史数据来生成。例如，根据将先前在网络中传输的历史数据中出现频率大于预定阈值的历史数据来生成映射数据库。

应当理解，虽然本说明书是按照各个实施例描述的，但并非每个实施例仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

以上所述仅为本发明示意性的具体实施方式，并非用以限定本发明的范围。任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合，均应属于本发明保护的范围。

Claims

数据处理装置，其特征在于，所述数据处理装置包括：

一数据收集单元(100)，被构造为收集在网络中传输的数据，并根据预定的特征将收集数据分为已知攻击数据和未知攻击数据；

一数据转换单元(300)，被构造为根据映射数据库将未知攻击数据中包括的至少一部分内容替换为对应的识别码。
如权利要求1所述的数据处理装置，其特征在于，数据转换单元包括：

一数据识别单元(310)，被构造为识别未知攻击数据中包括的内容；

一数据分类单元(330)，被构造为根据数据识别单元的识别结果将未知攻击数据中的已被数据识别单元所识别的内容进行分类。
如权利要求1所述的数据处理装置，其特征在于，数据转换单元包括：

一数据匹配单元(350)，被构造为确定未知攻击数据中的内容是否与映射数据库中包括的先前在网络中传输的历史数据相同；

一数据替换单元(370)，被构造为在确定未知攻击数据中的内容与历史数据相同时，将相同的内容替换为映射数据库中的与历史数据对应的识别码。
如权利要求3所述的数据处理装置，其特征在于，映射数据库中包括与历史数据对应的识别码和与历史数据相关的信息，数据匹配单元被构造为根据映射数据库中的与历史数据相关的信息确定未知攻击数据中的内容是否与历史数据相同。
如权利要求4所述的数据处理装置，其特征在于，与历史数据相关的信息包括历史数据的消息摘要，数据匹配单元被构造为得到未知攻击数据中的内容的消息摘要，并根据位置攻击数据中的内容的消息摘要是否与历史数据的消息摘要相同来确定未知攻击数据中的内容是否与历史数据相同。
如权利要求5所述的数据处理装置，其特征在于，与历史数据相关的信息包括历史数据的起始位置和长度，数据匹配单元被构造为根据历史数据的起始位置和长度来在未知攻击数据中选择进行是否相同判断的内容。
如权利要求3所述的数据处理装置，其特征在于，数据处理装置还包括：

一映射数据库生成单元(500)，被构造为根据先前在网络中传输的历史数据来生成映射数据库。
如权利要求7所述的数据处理装置，其特征在于，映射数据库生成单元根据将先前在网络中传输的历史数据中出现频率大于预定阈值的历史数据来生成映射数据库。
如权利要求1所述的数据处理装置，其特征在于，所述数据处理装置还包括：

一通信单元(700)，被构造为将经数据转换单元转换的数据发送到外部。
数据处理方法，其特征在于，所述数据处理方法包括：

收集在网络中传输的数据，并根据预定的特征将收集数据分为已知攻击数据和未知攻击数据；

根据映射数据库将未知攻击数据中包括的至少一部分内容替换为对应的识别码。
如权利要求10所述的方法，其特征在于，转换的步骤包括：

识别未知攻击数据中包括的内容；

根据识别结果将未知攻击数据中的已被数据识别单元所识别的内容进行分类。
如权利要求10所述的方法，其特征在于，转换的步骤包括：

确定未知攻击数据中的内容是否与映射数据库中包括的先前在网络中传输的历史数据相同；

在确定未知攻击数据中的内容与历史数据相同时，将相同的内容替换为映射数据库中的与历史数据对应的识别码。
如权利要求12所述的方法，其特征在于，映射数据库中包括与历史数据对应的识别码和与历史数据相关的信息，转换的步骤包括：

根据映射数据库中的与历史数据相关的信息确定未知攻击数据中的内容是否与历史数据相同。
如权利要求13所述的方法，其特征在于，与历史数据相关的信息包括历史数据的消息摘要，转换的步骤包括：

得到未知攻击数据中的内容的消息摘要，并根据位置攻击数据中的内容的消息摘要是否与历史数据的消息摘要相同来确定未知攻击数据中的内容是否与历史数据相同。
如权利要求14所述的方法，其特征在于，与历史数据相关的信息包括历史数据的起始位置和长度，转换的步骤包括：

根据历史数据的起始位置和长度来在未知攻击数据中选择进行是否相同判断的内容。
如权利要求12所述的方法，其特征在于，所述方法还包括：

根据先前在网络中传输的历史数据来生成映射数据库。
如权利要求16所述的方法，其特征在于，生成映射数据库的步骤包括：

根据将先前在网络中传输的历史数据中出现频率大于预定阈值的历史数据来生成映射数据库。
如权利要求10所述的方法，其特征在于，所述方法还包括：将经转换的数据发送到外部。