CN112861364B

CN112861364B - 一种基于状态时延转换图二次标注的工控***设备行为建模实现异常检测的方法

Info

Publication number: CN112861364B
Application number: CN202110201190.3A
Authority: CN
Inventors: 徐丽娟; 王佰玲; 赵大伟; 孙云霄; 张磊
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan; Harbin Institute of Technology Weihai
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan; Harbin Institute of Technology Weihai
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2022-08-26
Anticipated expiration: 2041-02-23
Also published as: CN112861364A

Abstract

本发明涉及一种基于状态时延转换图二次标注的工控***设备行为建模方法及装置，包括：(1)状态数据预处理；对状态数据执行离散变量二元化和连续变量二元化操作，生成多组二元状态集合；(2)状态时延转换图构建；对每个二元状态集合构建与之相对应的状态时延转换图；(3)基于环发现的初级标注；采用状态转换边和环的标注流程，进行初级标注；(4)基于时延特征聚类的二次标注；输出为行为模型中的各参数。本发明实现设备状态转换及相应持续时间的描述，本发明将实时水分配***中过程设备实时产生的状态数据输入行为模型中，可以有效发现过程设备当前状态是否符合行为模型中描述的数据关系及转换关系，实现异常检测。

Description

一种基于状态时延转换图二次标注的工控***设备行为建模实现异常检测的方法

技术领域

本发明涉及一种基于状态时延转换图二次标注的工控***设备行为建模实现异常检测的方法，属于信息安全技术领域。

背景技术

在工业控制***异常检测研究中，一般采用设备正常行为建模方式实现对未知异常状态的检测，行为模型的优劣直接影响着检测结果的精确度。工控***中设备主体类型多样使得设备行为建模方法多样。一般将控制行为操作方式作为建模对象，依据建模方式的不同，研究者从统计学、机器学习、控制学等领域多视角地进行了深入研究：采用无随机成分建立的确定型模型，如与/或图、有限状态自动机、关联性规则；采用概率统计的方法通过计算各个操作出现的频率而建立的概率型模型，如支持向量机、贝叶斯网络、Markov链、概率后缀树、混合马尔科夫树；然而，大多从设备操作行为的角度进行语义描述，将控制设备的行为与现场设备的状态分离开来。然而，影响设备状态异常的因素不仅仅是由中间人攻击、拒绝服务攻击等攻击行为引发的设备操作时序、次序等方面的操作异常，还包括由以控制设备的输入/输出寄存器、控制逻辑程序、固件为攻击目标的攻击行为所引发的现场设备状态异常，仅从操作序列角度进行检测，未能全面覆盖各类攻击行为所引发的设备行为特征变化，这将导致较高的误报率。

基于设备状态的建模方式更能直接体现控制***的操作行为特征，目前的模型有：基于工业控制物理过程的描述型模型，如自回归模型、物理过程模型等。自回归模型在对基于离散类型或者二元变量检测中，存在一定局限性；基于物理过程模型检测实时性强，但要求对物理过程的高细节理解。基于状态规则检测精确度高，但构建方面多需要领域专家人工辅助。

为了解决构建中人工依赖性较强的问题，Almalawi团队采用聚类算法，在对正常状态和临界状态进行有效区分的基础上，基于簇特征抽取临界状态检测规则，推动了临界状态检测方法的发展，但是，其精确率对聚类算法依赖性较强；Xu团队采用Apriori、PrefixSpan等规则挖掘算法和控制设备的控制逻辑程序规约算法自动化构建了控制设备状态规则，并取得了良好的效果；杨安团队结合设备状态信息识别操作间隔中工控设备的异常状态实现异常检测，但是，他们着重检测操作次序和对应的状态变化，而没有考虑状态时延的特征。虽然张仁斌团队考虑了状态时延特征，但其使用均值描述时延特征的方式无法充分表达工业控制***的运行特点。

发明内容

针对现有技术的不足，本发明提供了一种基于状态时延转换图二次标注的工控***设备行为建模实现异常检测的方法。本发明还提供了一种实现上述基于状态时延转换图二次标注的工控***设备行为建模方法的装置。

本发明通过构造状态时延转换图，实现设备状态转换及相应持续时间的描述，并将其中含有的时延特性进行分簇，进一步使用字符标注的方式对设备行为进行描述。

本发明主要解决以下几个问题：

1)现有描述型模型要求对物理过程的高细节理解的问题。

2)现有设备行为建模大多基于网络通讯中控制设备对被控设备的操作序列进行，而对更精准的状态数据建模欠缺的问题。

3)现有基于状态的工控***设备行为建模中，设备状态持续时间，即“时延特征”欠缺问题。

术语解释：

1、K-means聚类算法，K-means聚类算法是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

2、深度优先搜索算法，深度优先搜索算法步骤如下：

(1)首先选定一个未被访问过的顶点V作为起始顶点(或者访问指定的起始顶点V)，并将其标记为已访问过；

(2)搜索与顶点V邻接的所有顶点，判断这些顶点是否被访问过，如果有未被访问过的顶点，则任选一个顶点W进行访问；再选取与顶点W邻接的未被访问过的任一个顶点并进行访问，依次重复进行。当一个顶点的所有的邻接顶点都被访问过时，则依次回退到最近被访问的顶点。若该顶点还有其他邻接顶点未被访问，则从这些未被访问的顶点中取出一个并重复上述过程，直到与起始顶点V相通的所有顶点都被访问过为止。

(3)若此时图中依然有顶点未被访问，则再选取其中一个顶点作为起始顶点并访问之，转(2)。反之，则遍历结束。

3、环集合CYC，环集合是使用深度优先搜索算法对有向图进行遍历，获得的图中存在的“环”所组成的集合。

4、KMeans++算法，k-means算法需要随机地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果，有可能导致算法收敛很慢甚至出现聚类出错的情况。针对这一问题，K-means++算法改进了聚类中心选择方法：(1)从数据集中随机选择一个样本作为初始聚类中心；(2)计算每个样本到最近聚类中心的距离；(3)每个样本都有一个距离，距离最大的样本，被选为下一个聚类中心；(4)重复(2)、(3)，直到得到预设的K个聚类中心。

5、水分配***原始状态数据集，本发明采用的水分配***模拟构建了一个城市水务SCADA(数据采集与监视控制)***，该***的原始状态数据集包括：数据采集时间、水箱1水位、水箱2水位、水箱3水位、水管1开关(打开为1；关闭为0)、水管2开关(打开为1；关闭为0)、阀门1开关(打开为1；关闭为0)、阀门2开关(打开为1；关闭为0)等字段。

本发明的技术方案为：

一种基于状态时延转换图二次标注的工控***设备行为建模实现异常检测的方法，包括步骤如下：

(1)状态数据预处理；

状态数据是指在水分配***处于正常行为下获取的状态数据集合，包括水箱的水位值、阀门的开关状态、水管的开关状态；对状态数据执行离散变量二元化和连续变量二元化操作，生成多组二元状态集合，二元状态集合的数目与原状态节点集合中连续变量的个数相同；

(2)状态时延转换图构建；

对步骤(1)得到的多组二元状态集合中的每个二元状态集合，构建与之相对应的状态时延转换图；

(3)基于环发现的初级标注；

针对步骤(2)构建的每个状态时延转换图，采用状态转换边和环的标注流程，对状态执行序列进行初级标注；

(4)基于时延特征聚类的二次标注；

输出为行为模型中的各参数，包括状态转换边集合、标注完成的状态转换时延序列、标注时产生的符号集、以及标注符号对应的均值、方差、中心点、最大值和最小值，标注时产生的符号集包括符号名称及其对应的边或环。

根据本发明优选的，控制循环***中状态数据类型包括连续型、离散型及二元型。连续型数据空间较大，如果将其取值空间中每个对应的数值作为一个状态点，会引发空间***问题。为了解决空间***问题，采用连续变量和离散变量二元化的方法，将状态数据(包含各种数据类型)表示为二元数据集。

离散变量二元化和连续变量二元化操作的具体步骤为：设连续变量CV的取值范围为[c₀,c₁],采用Kmeans聚类算法，将连续变量CV划分n_c个簇，簇编号分别对应为

连续变量CV对应的离散变量集合为

簇dc₀的取值范围为

簇dc₁的取值范围为

簇

的取值范围为

权重集合

二元状态集合包括连续变量CV对应的离散变量集合和权重集合W_s。

例如，设CV＝c_t，当c_t∈dc₀时，DCV₀＝1，DCV_i＝0,(i∈[1,2,…,n_c])，此时一个连续变量的表示方式由原来的1列，扩展为n_c列。即，连续变量c_t可表示为一组二进制数据(1，0，0，…,0),该二进制数据的长度为n_c，该数据表示c_t的取值在簇dc₀内，因此，对应的dc₀的取值为1，其他编号的簇的取值都是0。

根据本发明优选的，设定状态转换时延图为：SEG＝(Vs,Ds)；

为状态转换时延图中顶点集合，

分别指的是状态数据执行离散变量二元化和连续变量二元化操作之后的所有设备状态的状态，n_v是所有状态的个数；具体解释为：原始状态数据集由二元型、离散型及连续型三种类型组成，将离散型及连续型数据经过二元化后，分别表示为二元型数据，此时，数据类型全部是二元型。举例来说，设***中设备状态数据的个数为k，在某一段时间内，所有状态对应的值为(val₁,val₂,…,val_k)，则(val₁,val₂,…,val_k)∈V_s，是状态转换时延图中的某个顶点。

表示从顶点v_i到v_j的状态转换关系；

Rs表示状态转换集合；

表示

所对应的一组时延序列；

是指从状态v_i到状态v_j的所有转移所对应的时延所组成的集合；举例来说，在整个水分配***运行过程中，状态v_i持续

的时间，转移到状态v_j，***运行一段时间后，***处于状态v_i时，又持续了

的时间，转移到状态v_j，经过多次状态转移后，可得到状态v_i到状态v_j的所有转移所对应的时延所组成的集合。n_t是获得的所有从状态v_i到状态v_j的持续时间的数目；

DTs表示所有状态转换集合Rs所对应的时延集；

如果水分配***运行过程中，有状态转移关系：v₀→v₁，v_i→v_j，v_j→v_j+1，v_j+1→v_j+2,的连续转移，则v₀→v₁→v_i→v_j→v_j+1→v_j+2为水分配***中的状态转移序列，记为状态转换序列SS；

状态时延转换图构建的具体步骤包括：

A、遍历二元状态集合中的每一行状态数据，如果上一状态数据为空，则将上一状态数据设置为当前读取的状态数据内容，并将上一状态数据的延续时间设置为0；否则，判断上一状态数据与当前读取的状态数据内容是否相同，如果上一状态数据与当前读取的状态数据内容相同，则将上一状态数据的延续时间加1；如果上一状态数据与当前读取的状态数据内容不同，则执行以下步骤①至步骤③：

①保存上一状态数据及其对应的延续时间；

②判断当前状态数据是否存在于状态集即顶点集合中，如果不存在，则将当前状态数据添加到状态集中；否则，进行步骤③；

③判断上一状态数据到当前状态数据的转移是否在边集合即状态转移集合中，如果不在边集合中，则将上一状态数据到当前状态数据的转移添加到边集合中，并将上一状态数据对应的延续时间加入到边对应的时延列表即时延集合中；如果存在于边集合中，则将上一状态数据对应的延续时间加入到边对应的时延列表中；

④更新上一状态数据为当前状态数据，并将上一状态数据的延续时间设置为1，返回步骤A。

根据本发明优选的，采用状态转换边和环的标注流程，对状态执行序列进行初级标注，包括步骤如下：

B、采用深度优先搜索算法获取状态转换时延图中存在的环，所有环组成的集合即环集合记为CYC；

C、根据环的长度，对环集合CYC中的环，按照环的长度从长到短进行次序排序，次序排序后的环集合记为sortedCYC；

D、遍历sortedCYC中的每个元素c_v，如果c_v在状态转换序列SS中，则为c_v分配一个符号

将符号

及其对应的环c_v添加到符号集合SIG中，并使用这个符号

替代c_v在SS中的位置，获得新的标识符号序列new_SS；符号集合SIG是指存放符号和与之对应的环或边的集合，初始情况下，该符号集合SIG为空；

E、遍历Rs中的每条边edge_v，如果边edge_v在new_SS中存在，则为边edge_v分配一个新的符号

将符号

及对应的边edge_v添加到符号集合SIG中，并使用这个符号

替代边edge_v在new_SS中的位置，进一步更新标识符号序列new_SS1。

根据本发明优选的，基于时延特征聚类的二次标注，

行为模型表示为BMSLS＝{V_s,R_s,W_s,SIG,MED,ASD,CEN,MAX,MIN}，

W_s是连续变量对应的权重集合；

SIG是已标记的符号及其对应的状态转移；

MED是已标记的符号集合中所对应的边的时延的均值；

ASD是已标记的符号集合中所对应的边的时延的方差；

CEN是已标记的符号集合中所对应的边的时延的中心点；

MAX是已标记的符号集合中所对应的边的时延的最大值；

MIN是已标记的符号集合中所对应的边的时延的最小值。

包括步骤如下：

F、遍历符号集合SIG中的符号sign_i,及其对应的环或边ce_i；

G、根据状态时延转换图中的边集合、状态执行序列集合即状态转换序列SS及边集合中存储的时延信息DTs，解析出ce_i对应的时延矩阵，时延矩阵中的列向量对应环中具体某条边的所有时延；

H、根据环或边所对应的总时延数目即矩阵中的行数Num_m，利用KMeans++算法对步骤G得到的时延矩阵进行聚类，具体是指：当Num_m>α,则聚类个数为α；Num_m≤α时，聚类个数为Num_m；α取值为5；

I、设聚类类别包括{c₁,c₂,…,c_n}，则依据聚类类别对符号集合SIG中的符号sign_i进行二次标注为{sign_ic₁,sign_ic₂,…,sign_ic_n}；

J、上述聚类结束后，每个簇对应的中心点分别为CEN_sn＝{cen₁,cen₂,…,cen_n},则行为模型中环或边对应的中心点为CEN＝{cen₁,cen₂,…,cen_n}，计算该环中每条边对应的时延的均值、方差、最大值和最小值。

进一步优选的，ce_i对应的时延矩阵解析过程包括：

先遍历ce_i中的边e₁,e₂,…,e_m，从时延集DTs中读取边e_l相应的属于环ce_i的时延序列

该时延序列长度为n；再以

为列向量，得到ce_i对应的m列n行的时延矩阵。

进一步优选的，

边e_l对应的时延的均值

边e_l对应的时延的方差

边e_l对应的时延的最大值取值为

中的最大值；

边e_l对应的时延的最小值取值为

中的最小值。

一种实现上述基于状态时延转换图二次标注的工控***设备行为建模方法的装置，包括依次连接的数据预处理模块、状态时延转换图构建模块、基于环发现的初级标注模块、基于时延特征聚类的二次标注模块；所述数据预处理模块用于执行所述步骤(1)；所述状态时延转换图构建模块用于执行所述步骤(2)；所述基于环发现的初级标注模块用于执行所述步骤(3)；所述基于时延特征聚类的二次标注模块用于执行所述步骤(4)。

本发明的有益效果为：

1、本发明通过对状态时延转换图的自动构建及二次标注，不存在对物理过程的高细节理解的要求；从控制设备、现场设备所处状态的角度出发，通过采集工控***正常运行时状态数据集，并直接对状态数据集进行建模，无需基于网络通讯中控制设备对被控设备的操作序列进行，解决对更精准的状态数据建模欠缺的问题。

2、本发明通过对状态时延转换图中的边或者环的时延矩阵进行聚类操作，实现“时延”特征的描述，解决现有基于状态的工控***设备行为建模中，设备状态持续时间，即“时延”特征欠缺问题。

3、本发明通过构造状态时延转换图，实现设备状态转换及相应持续时间的描述，并将其中含有的时延特性进行分簇，进一步使用字符标注的方式对设备行为进行描述，本发明将实时水分配***中过程设备，如水管、水阀、水箱等，实时产生的状态数据输入构建的水分配***设备行为模型中，可以有效发现过程设备当前状态是否符合行为模型中描述的数据关系及转换关系，进一步实现异常检测的功能。本发明用于信息安全事件和各类工业控制网络中的异常检测。

附图说明

图1为本发明基于状态时延转换图二次标注的工控***设备行为建模方法的流程示意图；

图2为本发明基于环发现的初级标注的流程示意图；

图3为本发明基于时延特征聚类的二次标注的流程示意图；

图4(a)为本发明实施例得到的状态时延转换图示例一；

图4(b)为本发明实施例得到的状态时延转换图示例二；

图4(c)为本发明实施例得到的状态时延转换图示例三；

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于状态时延转换图二次标注的工控***设备行为建模实现异常检测的方法，如图1所示，包括步骤如下：

(1)状态数据预处理；

(2)状态时延转换图构建；

(3)基于环发现的初级标注；

(4)基于时延特征聚类的二次标注；

实施例2

根据实施例1所述的一种基于状态时延转换图二次标注的工控***设备行为建模实现异常检测的方法，其区别在于：

控制循环***中状态数据类型包括连续型、离散型及二元型。连续型数据空间较大，如果将其取值空间中每个对应的数值作为一个状态点，会引发空间***问题。为了解决空间***问题，采用连续变量和离散变量二元化的方法，将状态数据(包含各种数据类型)表示为二元数据集。

连续变量CV对应的离散变量集合为

簇dc₀的取值范围为

簇dc₁的取值范围为

簇

的取值范围为

权重集合

实施例3

设定状态转换时延图为：SEG＝(Vs,Ds)；

为状态转换时延图中顶点集合，

表示从顶点v_i到v_j的状态转换关系；

Rs表示状态转换集合；

表示

所对应的一组时延序列；

DTs表示所有状态转换集合Rs所对应的时延集；

状态时延转换图构建的具体步骤包括：

①保存上一状态数据及其对应的延续时间；

图4(a)、图4(b)、图4(c)为本发明得到的状态时延转换图示例。

实施例4

采用状态转换边和环的标注流程，对状态执行序列进行初级标注，如图2所示，包括步骤如下：

将符号

及其对应的环c_v添加到符号集合SIG中，并使用这个符号

将符号

及对应的边edge_v添加到符号集合SIG中，并使用这个符号

实施例5

基于时延特征聚类的二次标注，

行为模型表示为BMSLS＝{V_s,R_s,W_s,SIG,MED,ASD,CEN,MAX,MIN}，

W_s是连续变量对应的权重集合；

SIG是已标记的符号及其对应的状态转移；

MED是已标记的符号集合中所对应的边的时延的均值；

ASD是已标记的符号集合中所对应的边的时延的方差；

CEN是已标记的符号集合中所对应的边的时延的中心点；

MAX是已标记的符号集合中所对应的边的时延的最大值；

MIN是已标记的符号集合中所对应的边的时延的最小值。

如图3所示，包括步骤如下：

F、遍历符号集合SIG中的符号sign_i,及其对应的环或边ce_i；

ce_i对应的时延矩阵解析过程包括：

该时延序列长度为n；再以

为列向量，得到ce_i对应的m列n行的时延矩阵。

边e_l对应的时延的均值

边e_l对应的时延的方差

边e_l对应的时延的最大值取值为

中的最大值；

边e_l对应的时延的最小值取值为

中的最小值。

实施例6

一种实现实施例1-5任一基于状态时延转换图二次标注的工控***设备行为建模方法的装置，包括依次连接的数据预处理模块、状态时延转换图构建模块、基于环发现的初级标注模块、基于时延特征聚类的二次标注模块；所述数据预处理模块用于执行步骤(1)；所述状态时延转换图构建模块用于执行步骤(2)；所述基于环发现的初级标注模块用于执行步骤(3)；所述基于时延特征聚类的二次标注模块用于执行步骤(4)。