CN111274395B

CN111274395B - 基于卷积和长短期记忆网络的电网监控告警事件识别方法

Info

Publication number: CN111274395B
Application number: CN202010058261.4A
Authority: CN
Inventors: 臧海祥; 白子瑜; 程礼临; 孙国强; 卫志农
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2021-11-12
Anticipated expiration: 2040-01-19
Also published as: CN111274395A

Abstract

本发明公开了一种基于卷积和长短期记忆网络的电网监控告警事件识别方法，该方法通过电网监控***中历史监控告警信息及时标生成信息向量，并且从收集的历史监控告警信息中提取事件样本，构建告警事件样本库；其次，建立基于长短期记忆网络和卷积神经网络组合的深度学习识别模型，利用告警事件样本对模型进行训练；最后使用训练好的深度学习模型对监控告警信息进行识别，取概率最大的事件类别作为识别结果输出。本发明结合长短期记忆网络在处理时序问题和卷积神经网络在挖掘短文本局部特征中的优异性能，建立组合模型，可以实现电网告警事件的快速识别，有效减轻监控业务人员的监屏压力，提升日常监视和事故异常处置工作效率。

Description

基于卷积和长短期记忆网络的电网监控告警事件识别方法

技术领域

本发明属于电力***智能告警控制技术，具体涉及一种基于卷积和长短期记忆网络的电网监控告警事件识别方法。

背景技术

随着电网规模不断扩大，对调控人员快速响应电网设备故障、及时恢复电网运行方式提出了更高的要求，因此提升电网设备运行监控的智能化水平，实现对电网告警事件的自主识别，对提升日常监控和事故异常处置的工作效率具有重要意义。

电网监控告警信息作为一种中文文本数据，是调控人员监视电网运行状态的重要数据基础。随着电网设备规模扩大及智能监测水平提升，电力数据出现爆发性增长，监控告警信息的数量呈现几何级增长趋势，集到的信息全部按时间顺序显示，未作任何的推理判断处理。电网调控人员需要对每一条信息逐一进行判别、分析并做出反馈，容易遗漏重要告警信息，无法在短时间内做出准确识别，出现设备故障或异常漏判误判的情况。这种方法已无法适应当前形势下电网监控业务的更高要求。本发明应用深度学习算法中的长短期记忆网络和卷积神经网络，对电网监控告警事件进行识别。

传统的机器学习模型如Logistic回归、支持向量机及随机森林算法等适合处理样本量较少的场景，一般不具有特征处理能力。因此，在应用这些算法时，需要对原始数据进行特征提取，增加了建模过程的复杂度。而深度学习算法采用逐层训练的方式对数据进行处理，能够获得原始输入变量集合的高级特征表示，提高预测和分类准确性，被广泛的应用于特征处理问题及大数据场景。面对海量的电网运行告警信息处理需求，深度学习可以更加充分的学习监控大数据的样本特征。长短期记忆网络具有处理具有时间相关性的序列的强大功能，而电网监控告警事件所触发的监控告警信息是在短时间内连续发生，整个事件的信息按照发生的时间先后排列，具有时序关系，将每一条告警信息作为一个时间步提取整个事件的时序特征。同时从语句表达含义上说，相邻的多条告警信息中包含了告警事件的重要特，CNN具有局部感知的特点并且具有优异的特征提取性能，可以挖掘相邻监控告警信息间的关联性特征。且卷积神经网络采用局部感知和权重共享的方式，大大降低了网络参数量并缓解模型过拟合问题。

发明内容

发明目的：针对现有电网监控告警中人工判断容易漏判和误判，且识别效率不高的问题，本发明提供一种基于卷积和长短期记忆网络的电网监控告警事件识别方法。

技术方案：一种基于卷积和长短期记忆网络的电网监控告警事件识别方法，包括以下步骤：

(1)采集电网监控***中历史监控告警信息及每条告警信息的时标，告警信息中包含的所有变电站和线路名称，构成电网监控告警事件识别模型所需的训练数据集；

(2)对历史监控告警信息进行数据预处理，通过word2vec模型对监控告警信息进行无监督训练，生成包含信号特征的信息向量；

(3)从采集的历史监控告警信息中按照滑动时间窗口提取监控告警信息集合，确定告警信息集合的事件类型和告警事件的标志词，得到各类标签化监控告警事件的样本，构建告警事件样本库；

(4)建立基于长短期记忆网络和卷积神经网络组合的深度学习识别模型，设置各类超参数，建立目标函数并选取优化算法，利用监控告警事件样本库中的样本对模型进行迭代训练，并且通过计算损失函数的梯度逐步迭代更新识别模型的参数；

(5)使用训练好的深度学习模型对监控告警信息进行识别，取概率最大的事件类别作为告警事件识别结果输出。

进一步的，步骤(2)对历史监控告警信息的数据预处理和生向量生成的具体过程如下：

(21)分词和去停用词

(211)更新电力词库，将从历史监控告警信息中导出的变电站名称和线路名称导入电力词库作为分词使用的电力词典；

(212)采用Jieba分词工具的精确模式进行初始分词，生成按时间排序的由一系列中文词语组成的监控告警信息；

(213)建立停用词表，剔除监控告警信息中的已经停用的电力词汇实现数据清洗；

(22)监控告警信息向量化

(221)利用word2vec模型对监控告警信息进行无监督训练，计算生成告警信息中每个词语的分布式词向量表示；

(222)计算告警事件发生时监控告警信息中所有词的向量求平均值，得到与词向量维数相同的监控告警信息的向量表示，计算公式为：

式中：d表示一条监控告警信息；word_num表示d中词语的个数；t表示监控告警信息中的词；word2vec(t)表示t的向量；Word2vec_sum(d)表示一条监控告警信息的分布式向量表示。

步骤(4)中建立基于长短期记忆网络和卷积神经网络组合的深度学习识别模型的具体过程如下：

(41)LSTM层的输入为告警事件样本，将其表示为X＝{x₁,x₂,…,x_n}，其中x_i是监控告警信息的分布式向量表示，i＝1,2,…n；n是告警事件样本包含的监控告警信息的数量；

输入门中当前时刻网络输入中保存到记忆单元中的信息量计算公式如下：

i_t＝σ(w_xix_t+w_hih_t-1+b_i)

式中：i_t是输入门的输出；x_t和h_t-1分别是当前输入和前一个隐含层输出；w_xi和w_hi分别是输入x_t和h_t-1的权重；b_i是输入门的偏置；σ表示sigmoid激活函数。

输入门输出一个临时记忆单元c′_t的计算公式如下：

c′_t＝tanh(w_xcx_t+w_hch_t-1+b_c)

式中：w_xc和w_hc分别是输入x_t和h_t-1的权重；b_c是临时的记忆单元c′_t的偏置；

遗忘门中前一时刻记忆单元保留到当前时刻记忆单元中的信息量计算公式如下：

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f)

式中：f_t是遗忘门的输出；w_xf和w_hf分别是输入x_t和h_t-1的权重；b_f是遗忘门的偏置。第二部分为当前时刻输入作用于输入门得到的临时记忆单元；

当前时刻记忆单元计算公式如下：

c_t＝f_t·c_t-1+i_t·c′_t

式中：c_t-1是前一时刻记忆单元的输出值；

输出门和隐含层的输出表达式如下：

o_t＝σ(w_xox_t+w_hoh_t-1+b_o)

h_t＝o_t·tanh(c_t)

式中：o_t和h_t分别表示输出门和当前隐含层的输出；w_xo，w_ho和b_o分别是x_t的权重，h_t-1的权重和o_t的偏置。

(42)将长短期记忆网络中每个时间步上的隐含层输出矩阵H∈R^n×k输入到卷积层中提取告警信息的局部特征，其中n为告警事件样本的时间序列长度，表示事件包含的监控告警信息数量，k为输出值的向量维度，采用行数为h，列数与输入层矩阵H相同的卷积矩阵W∈R^h×k进行卷积操作，卷积结果表达式如下：

r_i＝W·H_i:i+h-1

式中：H_i:i+h-1表示由矩阵H的第i行至第i+h-1行构成的子矩阵；运算符号“·”是点乘运算，表示将两个矩阵相同位置的元素相乘然后求和；

每次卷积结果经过非线性操作后的结果为：

c_i＝ReLU(r_i+b_i)

式中：b_i为偏置项；ReLU为激活函数，计算公式为：

ReLU＝(0,x)

将所有结果依次排列堆积得到卷积层特征向量c∈R^n-h+1，n-h+1是共进行的卷积操作次数；

(43)池化层通过下采样规则对特征向量进行降维，通过最大池化法，取每个经卷积操作得到的特征向量c中的最大值作为特征值，表示如下：

c_max＝max{c}

将所有不同特征向量经池化操作提取的特征值拼接形成池化层输出向量q∈R^v,其中v＝m·k，m为卷积窗口的类别数，k为每类卷积窗口的数量；

(44)池化层向量q输入到Softmax分类器中输出属于每个告警事件类别的概率，选取概率最大的类别作为该段输入监控告警信息的识别结果，表达式如下：

p＝softmax(W_q·q+b_q)

式中：W_q为与事件q对应的权重；b_q为与事件q对应的偏置项。

更进一步，所述基于长短期记忆网络和卷积神经网络组合的深度学习识别模型训练阶段通过计算损失函数的梯度逐步迭代更新识别模型的参数，损失函数设置为交叉熵损失函数，采用Adam算法进行优化使模型目标函数收敛到最小，得到最优的权重和偏置项，同时采用Dropout策略对模型参数进行约束防止模型的训练中出现过拟合现象。

步骤(42)中包括采用多粒度的卷积窗口提取更多隐藏在局部信息间的关联特征，通过改变卷积矩阵的行数形成不同类别的卷积窗口，每个类别中卷积窗口数量选取充分，避免训练过程中信息特征的丢失。

有益效果：与现有技术相比，本发明提供的基于卷积和长短期记忆网络的电网监控告警事件识别方法可以将监控告警信息转化为信息向量，实现基于文本的电网监控告警事件的识别并推送事件识别结果。能够有效改变现有电网监控业务依赖告警信息逐条响应的监视方式，解决人为处理效率低、误判率高等问题，减轻电网调控人员的监屏压力，提升日常监视和事故异常处置工作效率。

附图说明

图1为基于卷积和长短期记忆神经网络的识别模型结构图；

图2为卷积神经网络结构图；

图3为长短期记忆神经网络结构图。

具体实施方式

为了详细的说明本发明所公开的技术方案，下面结合说明书附图及具体实施例做进一步的阐述。

针对目前近年来接入调控***的告警信息数量持续增加，采集到的信息全部按时间顺序显示，未作任何的推理判断处理，而现有电网监控业务的逐条响应的监控方式容易遗漏重要信息，出现告警事件漏判误判的问题。本发明公开的是一种基于卷积和长短期记忆网络的电网监控告警事件识别方法，能够对输入的告警信息进行识别。

实施例1

参照图1，图2和图3，本发明所述方法按照以下步骤进行：

第一步，采集电网监控***中历史监控告警信息及每条告警信息的时标，告警信息中包含的所有变电站和线路名称，构成电网监控告警事件识别模型所需的训练数据集；

第二步，对历史监控告警信息进行数据预处理，通过word2vec模型对监控告警信息进行无监督训练，生成包含信号特征的信息向量，具体过程为：

(1)分词和去停用词

更新电力词库，并且通过资料查阅收集电力词库并将从历史监控告警信息中导出的变电站名称和线路名称导入词库作为分词使用的电力词典。采用Jieba分词工具的精确模式进行初始分词，生成按时间排序的由一系列中文词语组成的监控告警信息。建立停用词表，剔除告警信息中的无意义词，实现数据清洗以提高后期训练效果。

(2)监控告警信息向量化

利用word2vec模型对监控告警信息进行无监督训练，计算生成告警信息中每个词语的分布式词向量表示，解决了传统模型的高维稀疏特征问题。告警事件发生时，监控告警信息是以语句的形式表现，因此将一条监控告警信息中所有词的向量求平均值，得到与词向量维数相同的监控告警信息的向量表示，计算公式为：

式中：d表示一条监控告警信息；word_num表示d中词语的个数；t表示监控告警信息中的词；word2vec(t)表示t的向量；Word2vec_sum(d)表示一条监控告警信息的分布式向量表示。经过训练和计算，得到告警信息向量维度为300。

第三步，从收集的历史监控告警信息中提取事件样本，构建告警事件样本库，具体实施方式为：

以带有“分闸”关键词的监控告警信息为标志，提取该信息前后15s内相同变电站或线路的离散监控告警信息，形成告警信息集合。调控人员在每次处理告警事件后会编写调度日志来记录发生时间，事件原因，处理流程和事件类型，并且在现行的电力***中也会记录多种触发或故障告警的事件以建立调度日志来提高运营管理。通过对照调度日志确定告警信息集合的事件类型，形成9种类型监控告警事件样本，包括母线故障，瞬时故障(重合成功)，永久故障(重合失败)，永久故障(重合闸未动)，主变电气量故障，主变本体重瓦斯故障，主变调压重瓦斯故障和容抗器故障所变/接地变故障，构建告警事件样本库。

第四步，建立基于长短期记忆网络和卷积神经网络组合的深度学习识别模型对监控告警信息，利用告警事件样本对模型进行训练，具体过程为：

(1)LSTM层的输入为告警事件样本，将其表示为X＝{x₁,x₂,…,x_n}，其中x_i是监控告警信息的分布式向量表示，i＝1,2,…n；n是告警事件样本包含的监控告警信息的数量。因为事件中的监控告警信息是按照时间顺序排列，因此每个向量x_i都代表了一个时间步上LSTM单元的外部输入，提取整个监控告警信息序列的时序特征。

输入门实现对当前时刻输入信息的控制，决定当前时刻网络输入中有多少信息保存到记忆单元中，计算公式为：

i_t＝σ(w_xix_t+w_hih_t-1+b_i)

式中：i_t是输入门的输出；x_t和h_t-1分别是当前输入和前一个隐含层输出；w_xi和w_hi分别是输入x_t和h_t-1的权重；b_i是输入门的偏置。σ表示sigmoid激活函数。

另外，输入门还会输出一个临时记忆单元c′_t，计算公式为：

c′_t＝tanh(w_xcx_t+w_hch_t-1+b_c)

式中：w_xc和w_hc分别是输入x_t和h_t-1的权重；b_c是临时的记忆单元c′_t的偏置

遗忘门实现对前一时刻记忆单元的控制，决定前一时刻记忆单元有多少信息保留到当前时刻记忆单元中，计算公式为：

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f)

式中：f_t是遗忘门的输出；w_xf和w_hf分别是输入x_t和h_t-1的权重；b_f是遗忘门的偏置。第二部分为当前时刻输入作用于输入门得到的临时记忆单元。

当前时刻记忆单元计算公式为：

c_t＝f_t·c_t-1+i_t·c′_t

式中：c_t-1是前一时刻记忆单元的输出值。

输出门由当前时刻输入，当前时刻记忆单元和前一时刻隐含层输出共同确定：

o_t＝σ(w_xox_t+w_hoh_t-1+b_o)

h_t＝o_t·tanh(c_t)

(2)将长短期记忆网络中每个时间步上的隐含层输出矩阵H∈R^n×k输入到卷积层中提取告警信息的局部特征，其中n为告警事件样本的时间序列长度，即事件包含的监控告警信息数量，k为输出值的向量维度。对比输出值的向量维度分别为64，128和256时的识别准确率，发现当长短期记忆网络的输出向量维度为128时，识别准确率最高。采用行数为h，列数与输入层矩阵H相同的卷积矩阵W∈R^h×k进行卷积操作，卷积结果为：

r_i＝W·H_i:i+h-1

式中：H_i:i+h-1表示由矩阵H的第i行至第i+h-1行构成的子矩阵；运算符号“·”是点乘运算，即将两个矩阵相同位置的元素相乘然后求和。每次卷积结果经过非线性操作后的结果为:

c_i＝ReLU(r_i+b_i)

式中：b_i为偏置项；ReLU为激活函数，计算公式为：

ReLU＝(0,x)

将所有结果依次排列堆积得到卷积层特征向量c∈R^n-h+1，n-h+1是共进行的卷积操作次数。

为避免训练过程中信息特征的丢失，采用多粒度的卷积窗口提取更多隐藏在局部信息间的关联特征。通过改变卷积矩阵的行数形成不同类别的卷积窗口，根据对监控告警事件文本的分析，发现一般相邻的2～3条监控告警信息具有一个局部的关联性特征，考虑到其中可能会有干扰性的伴随信息，设置了3种的卷积核，窗口尺寸分别为3，4和5。每个类别中卷积窗口数量选取充分，数量为100。

(3)池化层通过下采样规则对特征向量进行降维，提高了分类器的计算效率，同时实现告警事件特征的进一步提取。采用最大池化法(max-pooling)，取每个经卷积操作得到的特征向量c中的最大值作为特征值：

c_max＝max{c}

将所有不同特征向量经池化操作提取的特征值拼接形成池化层输出向量q∈R^v,其中v＝m·k，m为卷积窗口的类别数，k为每类卷积窗口的数量。

(4)池化层向量q输入到Softmax分类器中输出属于每个告警事件类别的概率，选取概率最大的类别作为该段输入监控告警信息的识别结果：

p＝softmax(W_q·q+b_q)

(5)模型训练阶段采用Adam算法进行训练，即通过不断地迭代使模型目标函数收敛到最小，得到最优的权重和偏置项。此外，为了防止模型的训练中出现过拟合现象，采用了Dropout策略对模型参数进行约束，即在每次更新时都会随机选择一部分训练好的参数进行舍弃，丢弃率为0.5。

第五步，使用训练好的深度学习模型对监控告警信息进行识别，取概率最大的事件类别作为识别结果输出。在应用过程中，模型在部分信息错误或信息缺失情况下仍可以正确识别，具有强鲁棒性和一定的容错能力。同时，深度学习模型具有自我学习能力，随着样本库的不断扩展，对于新定义的事件类型迭代训练，调整完善参数结构，增强自身稳定性和识别准确性。

实施例2

以某市电网公司2016和2017年共1400多万条的历史监控告警信息为原始语料库，从中提取出9类告警事件样本对识别模型进行训练和测试。将每个类型的告警事件样本中的90％作为训练集，10％作为测试集，告警事件类型及每类的样本数量如表1所示。

表1告警事件样本数量

在事件的分类任务中，一般以混淆矩阵来表示识别模型的分类结果，二分类混淆矩阵的含义如表2所示。

表2事件识别中的混淆矩阵

混淆矩阵将所有事件按照其实际归属和识别归属分为四类，定义准确率(Accuracy)以及精确率(Precision)、召回率(Recall)和F1值共四个指标来衡量模型的识别效果，四者的取值范围都为[0,1]，值越接近于1说明模型的识别效果越好。

计算公式分别为：

为了验证提出的LSTM-CNN组合识别模型的分类效果，选取几种单一的深度学习模型和典型的机器学习模型进行对比验证。深度学习模型选取了CNN，LSTM和双向长短期记忆网络(Bidirectional LongShort-term Memory,BiLSTM)，机器学习模型选取支持向量机(Support Vector Machines,SVM)，Logistic回归(Logistic Regression,LR)和随机森林(Random Forest,RF)模型。不同模型的告警事件的识别效果如表3所示。

表3本文模型与其他模型识别结果对比

从表3中可以看出，在四种深度学习模型中CNN准确率最低为92.69％，而三种机器学习模型中随机森林模型准确率最高为91.18％，说明深度学习模型的识别效果要好于机器学习模型。而LSTM-CNN组合识别模型在各项指标上均要好于其他深度学习模型，比单一的LSTM和CNN的准确率分别高1.69％和5.61％。而精确率，召回率和F1值比单一的LSTM分别高1.68％，1.69％和2.05％，比单一的CNN分别高5.58％，5.61％和6％；同时其他模型中识别准确率最高的为BiLSTM，达到96.75％，而LSTM-CNN组合识别模型依旧比其高1.55％。

将LSTM-CNN组合识别模型进行实际应用，以2018年8月17日“温比亚”台风经过某市所截取的一个信息密集时段13:27-13:31内所触发的监控告警事件作为应用对象，从该时段内4146条监控告警信息中提取出6个适用于本文模型的监控告警事件，经模型最终识别全部正确，识别时间为0.5s。

Claims

1.一种基于卷积和长短期记忆网络的电网监控告警事件识别方法，其特征在于，包括以下步骤：

(4)建立基于长短期记忆网络和卷积神经网络组合的深度学习识别模型，设置各类超参数，建立目标函数并选取优化算法，利用监控告警事件样本库中的样本对模型进行迭代训练，并且通过计算损失函数的梯度逐步迭代更新识别模型的参数；所述步骤(4)中建立基于长短期记忆网络和卷积神经网络组合的深度学习识别模型的具体过程如下：

i_t＝σ(w_xix_t+w_hih_t-1+b_i)

式中：i_t是输入门的输出；x_t和h_t-1分别是当前输入和前一个隐含层输出；w_xi和w_hi分别是输入x_t和h_t-1的权重；b_i是输入门的偏置；σ表示sigmoid激活函数；

输入门输出一个临时记忆单元c′_t的计算公式如下：

c′_t＝tanh(w_xcx_t+w_hch_t-1+b_c)

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f)

式中：f_t是遗忘门的输出；w_xf和w_hf分别是输入x_t和h_t-1的权重；b_f是遗忘门的偏置；第二部分为当前时刻输入作用于输入门得到的临时记忆单元；

当前时刻记忆单元计算公式如下：

c_t＝f_t·c_t-1+i_t·c′_t

式中：c_t-1是前一时刻记忆单元的输出值；

输出门和隐含层的输出表达式如下：

o_t＝σ(w_xox_t+w_hoh_t-1+b_o)

h_t＝o_t·tanh(c_t)

式中：o_t和h_t分别表示输出门和当前隐含层的输出；w_xo，w_ho和b_o分别是x_t的权重，h_t-1的权重和o_t的偏置；

(42)将长短期记忆网络中每个时间步上的隐含层输出矩阵H∈R^n×k输入到卷积层中提取告警信息的局部特征，其中n为告警事件样本的时间序列长度，表示事件包含的监控告警信息数量，k为输出值的向量维度，采用行数为h，列数与输入层矩阵H相同的卷积矩阵W∈R^h ^×k进行卷积操作，卷积结果表达式如下：

r_i＝W·H_i:i+h-1

每次卷积结果经过非线性操作后的结果为：

c_i＝ReLU(r_i+b_i)

式中：b_i为偏置项；ReLU为激活函数，计算公式为：

ReLU＝(0,x)

c_max＝max{c}

将所有不同特征向量经过池化操作提取的特征值拼接形成池化层输出向量q∈R^v,其中v＝m·k，m为卷积窗口的类别数，k为每类卷积窗口的数量；

p＝softmax(W_q·q+b_q)

式中：W_q为与事件q对应的权重；b_q为与事件q对应的偏置项；

2.根据权利要求1所述的基于卷积和长短期记忆网络的电网监控告警事件识别方法，其特征在于：步骤(2)对历史监控告警信息的数据预处理和生向量生成的具体过程如下：

(21)分词和去停用词

(212)根据Jieba分词工具的精确模式进行初始分词，生成按时间排序的由一系列中文词语组成的监控告警信息；

(22)监控告警信息向量化

3.根据权利要求1所述的基于卷积和长短期记忆网络的电网监控告警事件识别方法，其特征在于：所述基于长短期记忆网络和卷积神经网络组合的深度学习识别模型训练阶段通过计算损失函数的梯度逐步迭代更新识别模型的参数，损失函数设置为交叉熵损失函数，包括基于Adam算法进行优化使模型目标函数收敛到最小，得到最优的权重和偏置项，同时采用Dropout策略对模型参数进行约束防止模型的训练中出现过拟合现象。

4.根据权利要求1所述的基于卷积和长短期记忆网络的电网监控告警事件识别方法，其特征在于：步骤(42)中包括采用多粒度的卷积窗口提取隐藏在局部信息间的关联特征，通过改变卷积矩阵的行数形成不同类别的卷积窗口，避免训练过程中信息特征的丢失。