CN114881130A

CN114881130A - 一种基于Bagging模型的继电保护缺陷文本定级方法

Info

Publication number: CN114881130A
Application number: CN202210443543.5A
Authority: CN
Inventors: 薛安成; 陶畅; 景子洋; 欧阳明浩; 洪海雁; 王书鸿; 邓雄耀
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-09

Abstract

本发明提供一种基于Bagging模型的继电保护缺陷文本定级方法。首先通过AI技术和人工结合的方式构建继电保护专业词典，主要包括停用词表，同义词表和专业词表的构建。进一步的，利用继电保护专业词典完成对继电保护缺陷文本的预处理工作，对缺陷文本进行数据清洗和分词操作。其次，基于TF‑IDF赋值法将每条缺陷数据做文本向量化表达，引入集成学习Bagging模型，并利用模型对向量化数据训练处理。最后构建出适合实际要求的保护装置缺陷定级分类器。该方法直接从保护缺陷记录文本出发，文本预处理后通过TF‑IDF向量化获取缺陷文本中的特征，采取Bagging模型训练出缺陷定级分类器，基于该方法构建的缺陷文本定级分类器可以为现场运维人员提供辅助决策和缺陷数据分析处理做参考。

Description

一种基于Bagging模型的继电保护缺陷文本定级方法

技术领域

本发明涉及继电保护装置缺陷分析技术领域，尤其涉及一种基于Bagging模型的继电保护缺陷文本定级方法。

背景技术

电网作为现代社会工业生产和国民生活的基础，保障其安全稳定运行的意义越来越重大。近年来，电网规模日趋庞大，继电保护装置数量也发生了跨越式的增长。继电保护***迎来了一场新旧交替的转型期，总体呈现种类繁多、役龄分布不均，型号各异的特点。受设计缺陷、部件老化、外界环境干扰等因素的影响，继电保护装置会发生缺陷威胁电网安全，不同的缺陷等级应对措施有所不同。然而，继电保护装置数量的跨越式增长与继电保护***运行维护人员增长的不平衡导致了“设备多，人员少”的现象，进一步加大了继电保护装置运维工作负担；此外，受个人主观因素的限制，难免出现缺陷定级不准确的现象，影响消缺工作的进展。另一方面，随着人工智能、自然语言等新兴技术与电力***的物理规律、专业知识的融合，“电力人工智能”应运而生，这为开展数据的深入挖掘及应用创造了有利条件。

继电保护装置作为保障电网安全稳定运行的第一道防线，有必要从分析缺陷、消除缺陷的角度出发，结合人工智能领域的新型数据分析模型，探究适用于准确定级继电保护装置缺陷严重程度的方法，提高继电保护的正确动作率，更好的保护电网安全。

发明内容

本发明的目的是提供一种基于Bagging模型的继电保护缺陷文本定级方法，该方法能较好地实现对继电保护缺陷文本的向量化，并可以良好的同前沿的AI领域模型结合，从而构造出适合实际应用和缺陷数据分析的分类器，使保护缺陷数据等级能够快速的被划分，完成定级工作。

本发明的目的是通过以下技术方案实现的：

一种基于Bagging模型的继电保护缺陷文本定级方法。所述方法包括：

步骤1、构建继电保护专业词典；

步骤2、完成对继电保护缺陷文本的预处理工作；

步骤3、缺陷数据的文本向量化表达与特征提取；

步骤4、引入集成学习Bagging模型，构建保护装置缺陷定级分类器。

所述步骤1中，采用机器与人工相结合的方法，从文本中提取停用词并构建停用词表，并构建了继电保护缺陷文本分词词典，实现了缺陷文本中的同义词合并；整合停用词表、分词词典、同义词表各部分，最终构建了适用于保护装置缺陷文本分析的专业词典。

所述步骤2中，剔除文本中的噪音词汇并规范用词，提高缺陷文本质量，利用专业词典对缺陷文本做切词工作。

所述步骤3中，将切词后的缺陷数据利用TF-IDF实现文本向量化提供给模型处理。

所述步骤4中，利用向量化文本结合Bagging模型做训练，构建缺陷定级分类器。

由上述本发明提供的技术方案可以看出，上述方法直接从保护缺陷记录文本出发，文本预处理后通过TF-IDF向量化获取缺陷文本中的特征，采取Bagging模型训练出缺陷定级分类器，基于该方法构建的缺陷文本定级分类器可以为现场运维人员提供辅助决策和缺陷数据分析处理做参考指导。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的Bagging模型的继电保护缺陷文本定级方法总体流程示意图；

图2为本发明实施例继电保护缺陷专业词典形成流程图；

图3为本发明实施例某条缺陷记录经过TF-IDF向量化后结果示意图；

图4为本发明实施Bagging模型原理示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实施例作进一步地详细描述，如图1所示为本发明实施例提供的缺陷定级分类器构造方法总体流程示意图，所述方法包括：

步骤1、构建继电保护专业词典。

首先应用基于正则表达式的停用词识别方法，实现了缺陷文本中无关字词的剔除；采用jieba(结巴)分词与人工相结合的方法，构建了继电保护缺陷文本分词词典；采用潜在语义分析和决策树分类方法，实现了缺陷文本中的同义词合并；整合了停用词表、分词词典、同义词表各部分，最终构建了适用于保护装置缺陷文本分析的专业词典。具体流程见图2。构建的词典部分如表1所示。

表1继电保护缺陷专业词典

步骤2、完成对继电保护缺陷文本的预处理工作。

首先，对缺陷文本数据进行清洗，删除重复缺陷记录、空白缺陷记录等无意义数据；然后，按照缺陷等级将缺陷文本分为危急、严重、一般三部分，利用jieba分词结合专业词典的方法分别进行分词处理。

重复缺陷记录剔除、空白缺陷记录删除及按照缺陷等级的缺陷文本划分通过excel软件筛选完成；之后将三组文本转换为txt格式文档存储以备调用。

步骤3、缺陷数据的文本向量化表达与特征提取。

定义继电保护领域词典中的词汇作为特征项，简称为词项，所有词项的集合称为词表空间，将给定的缺陷文本数据转化为词项的序列，然后基于TF-IDF对词项的权重进行赋值。上述过程被称为词袋模型。

采用TF-IDF方法对词项进行权重赋值的公式为：

tf_i＝N(t_i,d) (1)

tf_idf_i＝tf_i*idf_i (3)

tf表示特征频率，用以表征词项在当前文本出现的次数，特征频率越高代表重要性越大；df表示文档频率，用以表征语料中包含词项的文档的数目，df值越大，所包含的有效信息就越低；idf作为倒文档频率是反应词项在整个语料库重要性的统计特征。tf-idf定义为tf和idf的乘积。

以某区域电网为例，得到的继电保护领域词典共包含了4365个词汇，由此得到4365维的词表空间。根据TF-IDF法我们可以将缺陷文本转化得到4265维的词向量。用文本向量代表该条缺陷数据提供给分类器模型做后续处理计算。以某条缺陷记录为例，经过TF-IDF向量化后结果如图3所示。

步骤4、利用向量化文本结合Bagging模型做训练，构建缺陷定级分类器。

Bagging基于自主采样法，即有放回的从数据集中进行采样。Bagging算法随机采集和训练集样本数m一样个数的样本。其采样集和训练集样本的个数相同，但是样本内容不同。对于一个样本，它在某一次含m个样本的训练集的随机采样中，每次被采集到的概率是

不被采集到的概率为

如果m次采样都没有被采集中的概率是

当m→∞，时，

故在Bagging的每轮随机采样中，训练集中大约有36.8％的数据(被成为袋外数据Out Of Bag,简称OOB)没有被采样。从原始数据集中进行有放回的抽样S次(抽取实例和属性)，得到S个新数据集(数据集中的值可能存在重复)。将这S个数据集分别作为输入，训练同一个分类模型，得到S个分类器。当对新文本类别进行预测时，会得到S个结果，对其进行票数统计，投票结果最多的类别即为该文本最终类别，图4为Bagging原理图。

本专利采取的使决策树模型作为单个分类器，对于单个决策树算法模型的使用思路过程包含以下内容：

决策树的建立过程是一个对数据不断划分的过程，每次划分中，首先要选择用于划分的特征，之后要确定划分的方案(类别/阈值)。节点划分过程中所用的指标主要是信息增益和GINI系数。信息增益衡量的是划分前后信息不确定性程度的减小。信息不确定程度一般使用信息熵来度量。

信息熵:

H(Y)＝-∑p_ilog p_i (4)

其中i表示样本的标签，p_i表示该类样本出现的概率。

当对样本做出划分之后，计算样本的条件熵：

其中x表示用于划分的特征的取值。信息增益定义为信息熵与条件熵的差值:

IG＝H(Y)-H(Y|X) (6)

信息增益IG越大，说明使用该特征划分数据所获得的信息量变化越大，子节点的样本“纯度”越高。

Gini指数衡量数据的不纯度:

当对样本做出划分后的Gini指数：

通过计算不纯度,在选择特征属性时选择Gini指数最小的特征为结点。同样调用sklearn函数包进行实验，参数为默认参数。模型的主要实现流程为：

1)将自主采样法采样获得的数据以及特征集输入，本实验的特征集为TF-IDF赋值法形成所有维度的词汇；

2)选择基尼指数最小的特征和相应切分点作为根节点的特征值和切分标准；

3)若某节点在特征属性下的子节点为一类，则该节点为叶子节点；若子节点并非一类则将子节点作为数据集继续步骤2)；

4)重复步骤输出决策树，并将测试集数据输入以检测该决策树分类效果，输出分类器缺陷定级准确率。

依照以上步骤形成S个决策树模型的基分类器，利用基分类器对每条数据分类投票，划分缺陷等级。本专利采用sklearn函数包的BaggingClassifier，其中除了以下参数设置为n_estimators＝600(分类器个数),max_samples＝0.7(学习率),max_features＝0.1，其余参数均为默认值。

为了全面评估训练模型的准确性，需要通过K折交叉法(K＝10)对原始数据进行交叉验证。将原始数据均分成10组，每个子集数据分别做一次测试集，其余的9组子集数据作为训练集，得到10个模型，分类器的最终性能指标由10个模型准确率的均值确定。基于10折交叉方法，将某区域电网继电保护单年度缺陷文本数据输入上述构造的分类器进行缺陷定级，决策树基分类器和Bagging分类器结果如表2所示。

表2缺陷文本定级分类器的分类准确率对比

从表中看出单个基分类器的缺陷定级准确率只有68.9％，采取bagging模型的缺陷定级模型正确率达到了90.5％。具有良好的定级效果。

综上，本发明所述的基于Bagging模型的继电保护缺陷文本定级方法可行。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围。

Claims

1.一种基于Bagging模型的继电保护缺陷文本定级方法，所述方法包括：

步骤1、构建继电保护专业词典；

步骤2、完成对继电保护缺陷文本的预处理工作；

步骤3、缺陷数据的文本向量化表达与特征提取；

2.根据权利要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法，其特征在于，在所述步骤1中，构建继电保护专业词典包括停用词表，专业词典和同义词表构建三部分：

首先应用基于正则表达式的停用词识别方法，实现了缺陷文本中无关字词的剔除；采用jieba(结巴)分词与人工相结合的方法，构建了继电保护缺陷文本分词词典；采用潜在语义分析和决策树分类方法，实现了缺陷文本中的同义词合并；整合了停用词表、分词词典、同义词表各部分，最终构建了适用于保护装置缺陷文本分析的专业词典。如表3所示。

表3继电保护缺陷专业词典

。

3.根据权利要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法，其特征在于，在所述步骤2中，继电保护缺陷文本的预处理工作包括噪音数据去除、分词处理和数据分类，具体地：

首先，对缺陷文本数据进行清洗，删除重复缺陷记录、空白缺陷记录等无意义数据；然后，按照缺陷等级将缺陷文本分为危急、严重、一般三部分，利用jieba分词结合专业词典的方法分别进行分词处理；

4.根据权利要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法，其特征在于，在所述步骤3中，缺陷数据的文本向量化表达与特征提取，具体如下：

1)定义继电保护领域词典中的词汇作为特征项，简称为词项，所有词项的集合称为词表空间，将给定的缺陷文本数据转化为词项的序列，然后基于TF-IDF对词项的权重进行赋值；上述过程被称为词袋模型；

2)根据TF-IDF赋值法得到的继电保护领域词典共包含了4365个词汇，由此得到4365维的词表空间。根据TF-IDF法我们可以将缺陷文本转化得到4265维的词向量；用文本向量代表该条缺陷数据提供给分类器模型做后续处理计算。

5.根据权利要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法，其特征在于，在所述步骤4中，利用向量化文本结合Bagging模型做训练，构建缺陷定级分类器，具体如下：

1)从训练集中抽取2820条数据(测试集数据条数×学习率)，从数据中通过自主采样法训练基分类模型；

2)重复步骤1)600次形成600个决策树基分类器；

3)利用决策树基分类器对每条测试数据分类投票，划分缺陷等级；

4)采用十折交叉法，评估BaggingClassifier准确率。