CN115357719B

CN115357719B - 基于改进bert模型的电力审计文本分类方法及装置

Info

Publication number: CN115357719B
Application number: CN202211283079.4A
Authority: CN
Inventors: 孟庆霖; 穆健; 戴斐斐; 赵宝国; 王霞; 崔霞; 宋岩; 葛晓舰; 吕元旭; 赵战云; 唐厚燕; 王瑞; 许良; 徐业朝; 徐晓萱; 马剑; ***; 郭保伟; 李婧
Original assignee: Tianjin Chengxi Guangyuan Power Engineering Co ltd; Tianjin Ninghe District Ningdong Shengyuan Power Engineering Co ltd; Tianjin Tianyuan Electric Power Engineering Co ltd; State Grid Tianjin Electric Power Co Training Center; State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: Tianjin Chengxi Guangyuan Power Engineering Co ltd; Tianjin Ninghe District Ningdong Shengyuan Power Engineering Co ltd; Tianjin Tianyuan Electric Power Engineering Co ltd; State Grid Tianjin Electric Power Co Training Center; State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-01-03
Anticipated expiration: 2042-10-20
Also published as: CN115357719A

Abstract

本发明公开一种基于改进BERT模型的电力审计文本分类方法及装置，其中分类方法包括：获取电力文本；构建EPAT‑BERT模型；将电力文本输入EPAT‑BERT模型进行预训练，获得预训练后的EPAT‑BERT模型；其中，预训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练；对预训练后的EPAT‑BERT模型进行微调后开展性能评价，确定文本分类EPAT‑BERT模型；将待分类的电力审计文本输入文本分类EPAT‑BERT模型，输出电力审计文本的类别标签。本发明提出的两种预训练任务，以大规模电力文本作为训练语料，把握电力文本中的词法、语法以及相关知识，实现电力审计文本的高效自动分类。

Description

基于改进BERT模型的电力审计文本分类方法及装置

技术领域

本发明属于自然语言处理(Natural Language Processing，NLP)技术领域，特别涉及一种基于改进BERT模型的电力审计文本分类方法及装置。

背景技术

随着信息技术的发展，word2vec、RNN、LSTM等基于机器学习及神经网络的文本分类技术被先后提出。

近年来，“预训练+微调”范式，逐渐成为文本分类的最新研究方向，相较于之前的全监督神经模型，能够取得更好的效果。然而，现有的预训练模型，都是使用通用语料进行预训练的，并未使用与电力领域、特别是电力审计领域相关的文本进行预训练。

电力企业审计文本都是特定领域的短文本，具有文本相似度高，分类边界模糊等鲜明的行业特征，与通用交流语言存在不同，直接利用现有的文本分类模型无法考虑电力审计文本在领域内的特性，因此，进一步设计模型以适应这些特性，成为需要解决的重要问题。

发明内容

针对上述问题，本发明提供一种基于改进BERT模型的电力审计文本分类方法及装置，具体技术方案如下：

一种基于改进BERT模型的电力审计文本分类方法，包括以下步骤：

获取电力文本；

构建EPAT-BERT模型，其中，EPAT-BERT模型包括字粒度掩码语言模型和实体粒度的掩码语言模型；

将电力文本输入EPAT-BERT模型进行预训练，获得预训练后的EPAT-BERT模型；其中，预训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练；

对预训练后的EPAT-BERT模型进行微调后开展性能评价，确定文本分类EPAT-BERT模型；

将待分类的电力审计文本输入文本分类EPAT-BERT模型，输出电力审计文本的类别标签。

进一步的，获取电力文本具体为：

将电力领域的专业词汇整理为词表V，在Web数据集中搜索包含词表V中词汇的网页，获得集合W；

使用基于正则表达式的抽取算法，抽取集合W中的文本，获得预训练语料库C。

进一步的，进行字粒度掩码语言模型预训练具体如下：

标示预训练语料库C中每个字对应的位置输入向量，获得向量化的输入文本；

通过字粒度码语言模型对向量化的输入文本中的句子前后添加标识符，进行句子分割获得数据集A；

将数据集A按照设定比例划分为预训练数据集和第一验证集；

将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练。

进一步的，进行实体粒度的掩码语言模型预训练具体如下：

引入电力相关的知识图谱标记出预训练数据集和第一验证集中包含的实体；

实体粒度的掩码语言模型将对应实体中的每个字替换为掩码标记，每个掩码标记位置对应一个隐含层向量，通过连接一个全连接层，预测每个掩码标记对应位置的字；

采用损失函数衡量预测值和真实值之间的差异，使用预训练数据集对实体粒度的掩码语言模型预训练达到设定训练轮次后，在第一验证集上计算损失函数值，当损失函数值不再下降时，停止实体粒度的掩码语言模型预训练。

进一步的，对预训练后的EPAT-BERT模型进行微调，具体如下：

抽取一定量电力审计文本形成数据集，采用字的向量表示、字的位置编码以及字的分段标示数据集中的每个字，获得向量化文本T；

采用设定比例将向量化文本T划分为微调数据集、第二验证集和测试集；

EPAT-BERT模型在向量化文本T的开头加入一个特殊标记，将特殊标记输出位置的向量作为整个输入文本的向量表示；

在EAPT-BERT上层添加一个全连接层，添加全连接层后的EPAT-BERT模型在微调数据集的每个训练轮次后在验证集上计算F1值，当验证集上的F1值出现下降时，停止训练，完成EPAT-BERT模型的微调。

进一步的，对微调后的EPAT-BERT模型开展性能评价，确定文本分类EPAT-BERT模型具体如下：

计算微调后的EPAT-BERT模型在测试集下的分类准确度；

比对EPAT-BERT模型和其他预训练语言模型在测试集下的各类评价指标，若比对结果符合设定要求，即确定训练好的EPAT-BERT模型为文本分类EPAT-BERT模型，其中，各类评价指标包括分类准确度。

进一步的，将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练具体如下：

字粒度掩码语言模型将预训练数据集的每个句子中的汉字随机按照设定比例进行掩码，通过掩码位置对应的输出向量预测被掩码的汉字，采用损失函数衡量预测值和真实值之间的差异，使用预训练数据集对字粒度掩码语言模型预训练达到设定训练轮次后，在第一验证集上计算损失函数值，当损失函数值不再下降时，停止字粒度掩码语言模型预训练。

进一步的，标示预训练语料库C中每个字对应的位置输入向量具体如下：

采用字的向量、字的绝对位置编码和分段编码，标示每个字w对应的位置输入向量Vw，具体如下：

式中，W_w表示字的向量，即字的初始词向量，用来区分不同汉字；P_w表示字的位置，使用绝对位置编码，来向输入数据中融入序列位置信息；S_w表示分段编码。

进一步的，还包括以下步骤：对文本分类EPAT-BERT模型进行消融实验，通过各类评价指标评价实验结果确定预训练效果。

进一步的，各类评价指标还包括精准率、召回率和F1值。

进一步的，F1值根据EPAT-BERT模型在验证集上的精准率和召回率确定。

进一步的，实体部分为与电力领域的专业词汇表以及语法分析工具包中相近或相同的词汇、语法。

本发明还提供一种基于改进BERT模型的电力审计文本分类装置，包括：

文本处理模块，用于获取电力文本；

模型构建模块，用于构建EPAT-BERT模型，其中，EPAT-BERT模型包括字粒度掩码语言模型和实体粒度的掩码语言模型；

模型预训练模块，用于将电力文本输入EPAT-BERT模型进行预训练，获得预训练后的EPAT-BERT模型；其中，预训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练；

模型微调模块，用于对预训练后的EPAT-BERT模型进行微调后开展性能评价，确定文本分类EPAT-BERT模型；

文本分类模块，用于将待分类的电力审计文本输入文本分类EPAT-BERT模型，输出电力审计文本的类别标签。

进一步的，文本处理模块具体用于：

进一步的，模型预训练模块用于进行字粒度掩码语言模型预训练具体如下：

将数据集A按照设定比例划分为预训练数据集和第一验证集；

进一步的，模型预训练模块用于进行实体粒度的掩码语言模型预训练具体如下：

进一步的，模型微调模块具体用于：

进一步的，模型微调模块还具体用于：

计算微调后的EPAT-BERT模型在测试集下的分类准确度；

本发明还提供一种计算机设备，包括处理器和存储器；

其中，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现所述基于改进BERT模型的电力审计文本分类方法。

本发明的有益效果：本发明提出两种粒度的电力审计文本预训练任务：字粒度的掩码语言模型和实体粒度的掩码语言模型。这两种预训练任务以大规模电力文本作为训练语料，分别让模型完成字粒度的预测以及实体粒度的预测，从而把握电力文本中的词法、语法以及相关知识，实现电力审计文本的高效自动分类。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据现有技术的BERT模型的预训练阶段流程示意图；

图2示出了根据现有技术的BERT模型的微调阶段流程示意图；

图3示出了根据本发明实施例的字粒度的掩码语言模型预训练流程示意图；

图4示出了根据本发明实施例的实体粒度的掩码语言模型预训练流程示意图；

图5示出了根据本发明实施例的基于改进BERT模型的电力审计文本分类方法流程示意图；

图6示出了根据本发明实施例的基于改进BERT模型的电力审计文本分类装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。

为了便于对本申请实施例的理解，下面先对预训练、微调、自然语言处理模型和电力审计文本分别进行简单介绍：

预训练预训练的含义是，设计一个与下游任务无关的预训练任务，并使用与该任务相关的大量无标注的数据对模型进行训练。

随着自然语言处理模型BERT、计算机视觉模型MAE以及跨模态检索模型CLIP等预训练模型的提出，预训练语言模型（Pre-trained Language Model）以及“微调”（Fine-tuning）已成为自然语言处理的重要研究领域之一。

最早的预训练模型侧重于获取单个单词的语义，并获得单词嵌入。后来，CoVe、ELMo等模型的出现使得提取上下文特征成为可能。随着Transformer网络的出现，BERT，GPT等新兴模型已经使“预训练+微调”成为解决自然语言处理任务的范例。这种模式的一个优点是，由于模型在预训练阶段已经学习了大量词汇和语义信息，微调阶段只需要少量全监督数据即可进行训练，并且能够比非预训练的模型达到更优的效果。

BERT模型是一种典型的预训练模型，其采用Transformer网络的编码器作为基本结构。如图1所示，BERT模型以一句话作为输入，例如“安全工器具均由分包单位提供”，模型会自动在这句话前添加“[CLS]”标识符，表示这句话的开始，并在这句话后添加“[SEP]”标识符，代表这句话的结束。接着，模型将输入转化为id序列，并获取对应词向量的序列，然后将词向量序列进行编码，从而获得每个字对应的上下文相关（Contextual）输出。

如图2所示，微调的含义是使用预训练后的模型对下游任务再次进行训练。虽然预训练任务与下游任务无关，但是预训练模型仍然在预训练阶段能够学习到通用语言结构，例如中文词法和语法等。当模型进一步使用下游任务的数据进行训练时，网络内的参数会在原来的基础上产生微小的变动，该过程称为“微调”。

电力审计文本（Electric Power Audit Text）是电力企业审计人员记录的文本，其对于电力企业完成审计工作具有重要意义。电力审计文本中通常包含了电力审计人员人工记录的审计内容及方法、审计关注事项、审计发现问题、制度依据、审计意见、问题分类等信息。

常见的电力审计文本如表1所示。可以看出，每段审计文本都需要审计人员人工标注四级分类标签，从而实现审计文本分类。然而，通过人工方式大规模地标注四级分类标签耗费人力物力，且效率低下，容易出错。因此，对电力审计文本进行高效自动分类成为亟待解决的问题。

表1 电力审计文本示例

现有的BERT等与文本相关的预训练模型可以进一步微调，从而完成文本分类任务。然而，对于电力审计领域，还未出现合适且通用的预训练语言模型以及预训练任务。这导致电力审计文本分类效果依然有较大上升空间。

电力领域相关的语料与电力审计文本分类任务的语义域更加接近，因此，从预训练理论的角度，领域相关的预训练任务能够增强领域相关的下游任务的性能。基于这个研究现状，本发明一种基于改进BERT（Bidirectional Encoder Representation fromTransformers）模型的电力审计文本分类方法提出两种粒度的电力审计文本预训练任务：字粒度的掩码语言模型和实体粒度的掩码语言模型。这两种预训练任务以大规模电力文本作为训练语料，分别让模型完成字粒度的预测以及实体粒度的预测，从而把握电力文本中的词法、语法以及相关知识。

如图5所示，一种基于改进BERT模型的电力审计文本分类方法，包括以下步骤：

S1、获取电力文本，具体为：首先将电力领域的专业词汇整理为词表V，然后在Yahoo公司提供的Web数据集中搜索包含词表V中词汇的网页，记作集合W。使用基于正则表达式的抽取算法，抽取集合W中的文本，作为本发明预训练语料库，记作C。

本发明实施例从互联网上搜集与电力相关的文本，能够让模型具备与电力相关的更多词法和句法，更加贴近下游的审计文本分类任务。

S2、构建EPAT-BERT（Eletric Power Audit Text-BERT，电力审计文本BERT）模型，其中，EPAT-BERT模型包括字粒度掩码语言模型和实体粒度的掩码语言模型。

需要说明的是，本发明实施例的字粒度掩码语言模型沿用现有的通用语料BERT模型。电力文本相较于通用文本，会出现更多的专业名词，更加注重用词准确性，仅采用字粒度的掩码语言模型存在事实性信息不准确的问题。

电力审计文本（Eletric Power Audit Text-BERT）通常是高度专业的短文本，其中常出现与电力审计行业相关的实体与知识，而这些实体与知识在通用文本中出现的频率并不高。现有研究表明，对于这类文本，其在进行字粒度的掩码语言模型训练时会出现不精确的现象。例如，当预测“中国的第二大城市是[MASK][MASK]”中的掩码时，容易出现预测出不正确的城市，因为这句话中要预测的内容是知识相关的，而字粒度掩码语言模型在预测时更注重词法语法，以及句子的通顺性，有时会忽略这些知识信息。

因此，本发明的EPAT-BERT模型还包括实体粒度的掩码语言模型（Entity-levelMasked Language Model）。

预训练语言模型在预训练时需要预测的内容不仅仅需要符合词法或语法，更要学习到相应事实或知识。这有助于预训练语言模型更进一步理解文本，尤其是对于电力审计文本这类高度融合专业领域知识的文本。

本发明实施例的实体粒度的掩码语言模型（Entity-level Masked LanguageModel），让模型在预训练阶段不仅预测被掩码的字，而是将由多个字组成的实体进行掩码，并让模型预测。该过程可以让模型学习与电力审计相关的知识，而不仅仅局限于词法和句法。

S3、将电力文本输入EPAT-BERT模型进行预训练，获得预训练后的EPAT-BERT模型，其中，预训练具体为：分别将电力文本输入字粒度掩码语言模型和实体粒度的掩码语言模型进行训练。

步骤中，可以先进行字粒度掩码语言模型训练，再进行实体粒度的掩码语言模型训练；也可以先进行实体粒度的掩码语言模型训练，再进行字粒度掩码语言模型训练。

其中，S31、将电力文本输入字粒度掩码语言模型进行预训练具体如下：

S311、标示预训练语料库C中每个字w对应的位置输入向量Vw，获得向量化的输入文本。

式中，W_w表示字的向量，即字的初始词向量，用来区分不同汉字； P_w表示字的位置，使用绝对位置编码，来向输入数据中融入序列位置信息；S_w表示分段编码，当输入包含多个句子或者多个部分时，应当将不同的分段用不同的编码进行表示，而EPAT-BERT的输入仅有一个部分，因此分段表示唯一。

S312、通过字粒度码语言模型对向量化的输入文本中的句子前后添加标识符，进行句子分割获得数据集A。进行句子分割，具体为：在句子前添加“[CLS]”标识符，表示这句话的开始，并在句子后添加“[SEP]”标识符，代表这句话的结束。

S313、将数据集A按照设定比例划分为预训练数据集和第一验证集。

S314、将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练，具体如下：

字粒度掩码语言模型将预训练数据集的每个句子中的汉字随机按照第一设定比例进行掩码，通过掩码位置对应的输出向量预测被掩码的汉字，采用带有L2正则项的交叉熵损失函数衡量预测值和真实值之间的差异，并使用学习率为5e-5的AdamW学习器对损失函数进行优化。

在预训练阶段，使用预训练数据集对模型进行优化，每8000个训练轮次后，在第一验证集上计算损失函数值，当损失函数值不再下降时，停止预训练，从而避免模型过拟合现象的产生。

本步骤中，第一设定比例可以是20%。示例的，如图3所示，字粒度掩码语言模型将一段文本中的汉字随机选取20%进行掩码，然后利用该掩码位置对应的输出向量让模型进行预测该汉字。其中“[M]”代表掩码“[MASK]”。将“安全工器具均由分包单位提供”这句话输入字粒度掩码语言模型进行随机掩码，预测获得“工单”。

由于将预训练语料从通用中文文本换为与电力相关的文本，因此模型在预训练阶段能够学到与电力更相关的词法和语法，从而理论上能够在下游与电力文本相关的任务中达到更佳效果。

S32、将电力文本输入实体粒度的掩码语言模型进行预训练，具体如下：

S321、引入电力相关的知识图谱标记出预训练数据集和第一验证集中包含的实体，例如，电力相关的知识图谱可以是OwnThink知识图谱（www.ownthink.com）。

S322、实体粒度的掩码语言模型将对应实体中的每个字替换为一个特殊的掩码标记[MASK]，每个[MASK]位置会对应一个隐含层向量。通过连接一个全连接层，预测每个[MASK]对应位置的字，采用带有L2正则项的交叉熵损失函数衡量预测值和真实值之间的差异，使用预训练数据集对模型进行优化，每8000个训练轮次后，在第一验证集上计算损失函数值，当损失函数值不再下降时，停止实体粒度的掩码语言模型预训练。

示例的，通过这种实体粒度的掩码方式，例如，如图4所示，将“安全工器具均由分包单位提供”这句话输入实体粒度的掩码语言模型进行随机掩码，预测获得“分包单位”。

模型在预训练时需要预测的内容不仅仅需要符合词法或语法，更要学习到相应事实或知识。通过实体粒度的掩码语言模型的预训练有助于模型更进一步理解文本，尤其是对于电力审计文本这类高度融合专业领域知识的文本。

本发明实施例通过引入实体粒度的掩码语言模型，模型能够在字粒度的语言模型任务基础上学得更多与领域知识相关的内容，从而能够更加准确地理解与电力领域相关的文本，提升下游任务的性能。

需要说明的是，字粒度掩码语言模型和实体粒度的掩码语言模型均采用Transformers和Pytorch库进行搭建。由于EPAT-BERT需要从头开始预训练，因此其模型参数均采用随机初始化。

S4、对预训练后的EPAT-BERT模型进行微调后开展性能评价，确定文本分类EPAT-BERT模型，具体如下：

S41、抽取一定量电力审计文本形成数据集，采用字的向量表示、字的位置编码以及字的分段标示数据集中的每个字，获得向量化文本T，并采用设定比例（例如，8:1:1）将向量化文本T划分为微调数据集、第二验证集和测试集。

例如，可以从现有的电力审计文本中抽取1000条作为数据集。

S42、EPAT-BERT模型在向量化文本T的开头加入一个特殊标记[CLS]，将[CLS]输出位置的向量作为整个输入文本的向量表示，并在EAPT-BERT上层添加一个全连接层，其神经元数量为审计文本的总类别数。至此，整个EPAT-BERT形成了端到端的神经网络。在微调训练时，使用带有L2正则化项的损失函数进行优化。

EPAT-BERT模型在微调数据集的每个训练轮次后在第二验证集上计算F1值（F1-score），当第二验证集上的F1值出现下降时，停止训练，完成EPAT-BERT模型的微调。

本步骤中，微调数据集用于优化模型，F1值根据EPAT-BERT模型在验证集上的精准率（Precision）和召回率（Recall）确定，采用F1作为早期停止的依据是因为该指标是其他指标的综合，具有代表意义。

本发明实施例，将第二验证集输入字粒度掩码语言模型，得到的分类结果包括真正例TP、假正例FP、假反例FN和真反例TN，采用分类准确度（Accuracy）、精准率、召回率和F1值等常用的评价指标，来分别评价模型的性能。

计算EPAT-BERT模型在第二验证集上的精准率P，即计算在模型预测为正的样本中，真正为正的样本所占的百分比，具体如下：

计算EPAT-BERT模型在第二验证集上的召回率R，即计算在实际标签为正的样本中，真正为正的样本所占的百分比，具体如下：

计算EPAT-BERT模型在第二验证集上的F1值（F1-score），即计算精确率与召回率的调和平均值，作为文本分类最重要的评价标准，具体如下：

S43、计算微调后的EPAT-BERT模型在测试集下的分类准确度A，即计算测试集中分类结果正确的样本占测试集所有样本的比例，具体如下：

本发明实施例通过划分为训练集、验证集和测试集，能够保证模型具有最精准的泛化误差，优于仅划分为训练集和测试集的情况。

S44、比对EPAT-BERT模型和其他预训练语言模型在测试集下的各类评价指标，若比对结果符合设定要求，即确定训练好的EPAT-BERT模型为文本分类EPAT-BERT模型。

本步骤中，首先选取两个经典的机器学习模型来进行对比：

1、朴素贝叶斯（Naive Bayes）：将文本表示为词袋模型，并使用朴素贝叶斯算法进行分类。

2、支持向量机（SVM）：将文本表示为词袋模型，并使用支持向量机算法进行分类。

此外，选取两个常用于文本分类的深度学习模型：

3、文本卷积神经网络（TextCNN）：将文本对应的词向量序列看作一个矩阵，并使用卷积神经网络提取该矩阵的特征，并进行端到端学习。

4、长短期记忆网络（LSTM）：将文本对应的词向量序列依次送入LSTM中，并进行端到端学习。

最后，为论证电力文本预训练任务的有效性，选取通用预训练BERT模型进行对比：

5、通用预训练BERT模型：使用字粒度的掩码语言模型和下一句预测两个预训练任务，在通用语料上预训练。

不同模型最终在测试集上计算的评价指标如表2所示。从该实验结果中可以得出以下几点结论：

1、与机器学习模型（Naive Bayes和SVM）相比，基于神经网络的深度学习模型TextCNN和LSTM能够在四个评价指标上均取得更高的效果证明了基于神经网络的模型优于传统的基于统计学习的机器学习模型。

2、与深度学习模型相比，基于预训练的BERT模型在四个评价指标上有了进一步提升。

3、本发明提出的基于电力审计文本分类的模型EPAT-BERT显著优于通用语料预训练模型BERT，从而证实了本发明提出两种粒度预训练任务的有效性，证实了领域相关的预训练对领域下游任务的提升作用。

表2 不同模型在测试集上的评价结果

S45、对文本分类EPAT-BERT模型进行消融实验，通过各类评价指标评价实验结果确定预训练效果。

EPAT-BERT模型的重点在于两个预训练任务：字粒度的掩码语言模型和实体粒度的掩码语言模型。因此，探究这两个预训练任务对实验结果产生的影响至关重要。为了探究两个预训练任务的影响，本发明进一步设计了两组消融实验。

表3 消融实验结果

在第一组实验中，将EPAT-BERT中字粒度和实体粒度的预训练任务分别去除，并分别记为EPAT-BERT w\o.W和EPAT-BERT w\o.E。实验结果表示，当分别去除模型中的两个预训练任务时，模型在分类准确度、精准率、召回率和F1值等四个分类评价指标上均出现下降，由此证明了两个粒度的预训练任务对于进一步提升审计文本分类效果都具有重要作用。

此外，实体粒度的预训练带来的下游任务效果提升比字粒度的预训练更为显著。在第二组实验中，探究EPAT-BERT中的两个预训练任务的训练顺序对实验结果产生的影响。其中“-WE”表示先进行字粒度掩码语言模型训练，后进行实体粒度的掩码语言模型训练；“-EW”反之。实验结果表示，相对于将两个预训练任务分开单独进行，将两个任务融合进行训练的效果更优。而两种任务的先后顺序对结果的影响不显著。

S5、将待分类的电力审计文本输入文本分类EPAT-BERT模型，输出电力审计文本的类别标签，完成电力审计文本分类任务。

如图6所示，基于上述一种基于改进BERT模型的电力审计文本分类方法，本发明实施例还提供一种基于改进BERT模型的电力审计文本分类装置，包括文本处理模块、模型构建模块、模型预训练模块、模型微调模块和文本分类模块。

具体的，文本处理模块，用于获取电力文本；模型构建模块，用于构建EPAT-BERT模型，其中，EPAT-BERT模型包括字粒度掩码语言模型和实体粒度的掩码语言模型；模型预训练模块，用于将电力文本输入EPAT-BERT模型进行预训练，获得预训练后的EPAT-BERT模型；其中，预训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练；模型微调模块，用于对预训练后的EPAT-BERT模型进行微调后开展性能评价，确定文本分类EPAT-BERT模型；文本分类模块，用于将待分类的电力审计文本输入文本分类EPAT-BERT模型，输出电力审计文本的类别标签。

本发明还提供一种计算机设备，包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述基于改进BERT模型的电力审计文本分类方法。

例如计算机设备可以是GPU云服务器，具体配置如下：CPU采用Intel(R) Xeon(R)Silver 4114 CPU 2.20GHz，GPU为四台NVIDIA Titan V，每台显存12GB。计算机设备的内存为256GB，硬盘为2T。

计算机设备所需要的软件包和框架包括pytorch 1.7.1、transformers 4.7.0、scikit-learn 0.24.2、numpy 1.19.5、pandas 1.1.5以及matplotlib 3.3.4。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于改进BERT模型的电力审计文本分类方法，其特征在于，包括以下步骤：

获取电力文本；将电力领域的专业词汇整理为词表V，在Web数据集中搜索包含词表V中词汇的网页，获得集合W；使用基于正则表达式的抽取算法，抽取集合W中的文本，获得预训练语料库C；

将电力文本输入EPAT-BERT模型进行预训练，获得预训练后的EPAT-BERT模型；其中，预训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练；进行字粒度掩码语言模型预训练具体如下：标示预训练语料库C中每个字对应的位置输入向量，获得向量化的输入文本；通过字粒度码语言模型对向量化的输入文本中的句子前后添加标识符，进行句子分割获得数据集A；将数据集A按照设定比例划分为预训练数据集和第一验证集；将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练；进行实体粒度的掩码语言模型预训练具体如下：引入电力相关的知识图谱标记出预训练数据集和第一验证集中包含的实体；实体粒度的掩码语言模型将对应实体中的每个字替换为掩码标记，每个掩码标记位置对应一个隐含层向量，通过连接一个全连接层，预测每个掩码标记对应位置的字；采用损失函数衡量预测值和真实值之间的差异，使用预训练数据集对实体粒度的掩码语言模型预训练达到设定训练轮次后，在第一验证集上计算损失函数值，当损失函数值不再下降时，停止实体粒度的掩码语言模型预训练；

对预训练后的EPAT-BERT模型进行微调后开展性能评价，确定文本分类EPAT-BERT模型；对预训练后的EPAT-BERT模型进行微调，具体如下：抽取一定量电力审计文本形成数据集，采用字的向量表示、字的位置编码以及字的分段标示数据集中的每个字，获得向量化文本T；采用设定比例将向量化文本T划分为微调数据集、第二验证集和测试集；EPAT-BERT模型在向量化文本T的开头加入一个特殊标记，将特殊标记输出位置的向量作为整个输入文本的向量表示；在EPAT-BERT上层添加一个全连接层，添加全连接层后的EPAT-BERT模型在微调数据集的每个训练轮次后在第二验证集上计算F1值，当第二验证集上的F1值出现下降时，停止训练，完成EPAT-BERT模型的微调；

2.根据权利要求1所述的基于改进BERT模型的电力审计文本分类方法，其特征在于，对微调后的EPAT-BERT模型开展性能评价，确定文本分类EPAT-BERT模型具体如下：

计算微调后的EPAT-BERT模型在测试集下的分类准确度；

3.根据权利要求1所述的基于改进BERT模型的电力审计文本分类方法，其特征在于，将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练具体如下：

4.根据权利要求1或3所述的基于改进BERT模型的电力审计文本分类方法，其特征在于，标示预训练语料库C中每个字对应的位置输入向量具体如下：

5.根据权利要求2所述的基于改进BERT模型的电力审计文本分类方法，其特征在于，还包括以下步骤：对文本分类EPAT-BERT模型进行消融实验，通过各类评价指标评价实验结果确定预训练效果。

6.根据权利要求2或5所述的基于改进BERT模型的电力审计文本分类方法，其特征在于，各类评价指标还包括精准率、召回率和F1值。

7.根据权利要求1所述的基于改进BERT模型的电力审计文本分类方法，其特征在于，F1值根据EPAT-BERT模型在验证集上的精准率和召回率确定。

8.根据权利要求1所述的基于改进BERT模型的电力审计文本分类方法，其特征在于，实体部分为与电力领域的专业词汇表以及语法分析工具包中相近或相同的词汇、语法。

9.一种基于改进BERT模型的电力审计文本分类装置，其特征在于，包括：

文本处理模块，用于获取电力文本，具体为：将电力领域的专业词汇整理为词表V，在Yahoo公司提供的Web数据集中搜索包含词表V中词汇的网页，获得集合W；使用基于正则表达式的抽取算法，抽取集合W中的文本，获得预训练语料库C；

模型预训练模块，用于将电力文本输入EPAT-BERT模型进行预训练，获得预训练后的EPAT-BERT模型；其中，预训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练；进行字粒度掩码语言模型预训练具体如下：标示预训练语料库C中每个字对应的位置输入向量，获得向量化的输入文本；通过字粒度码语言模型对向量化的输入文本中的句子前后添加标识符，进行句子分割获得数据集A；将数据集A按照设定比例划分为预训练数据集和第一验证集；将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练；进行实体粒度的掩码语言模型预训练具体如下：引入电力相关的知识图谱标记出预训练数据集和第一验证集中包含的实体；实体粒度的掩码语言模型将对应实体中的每个字替换为掩码标记，每个掩码标记位置对应一个隐含层向量，通过连接一个全连接层，预测每个掩码标记对应位置的字；采用损失函数衡量预测值和真实值之间的差异，使用预训练数据集对实体粒度的掩码语言模型预训练达到设定训练轮次后，在第一验证集上计算损失函数值，当损失函数值不再下降时，停止实体粒度的掩码语言模型预训练；

模型微调模块，用于对预训练后的EPAT-BERT模型进行微调后开展性能评价，确定文本分类EPAT-BERT模型；对预训练后的EPAT-BERT模型进行微调，具体如下：抽取一定量电力审计文本形成数据集，采用字的向量表示、字的位置编码以及字的分段标示数据集中的每个字，获得向量化文本T；采用设定比例将向量化文本T划分为微调数据集、第二验证集和测试集；EPAT-BERT模型在向量化文本T的开头加入一个特殊标记，将特殊标记输出位置的向量作为整个输入文本的向量表示；在EPAT-BERT上层添加一个全连接层，添加全连接层后的EPAT-BERT模型在微调数据集的每个训练轮次后在第二验证集上计算F1值，当第二验证集上的F1值出现下降时，停止训练，完成EPAT-BERT模型的微调；

10.根据权利要求9所述的基于改进BERT模型的电力审计文本分类装置，其特征在于，模型微调模块还具体用于：

计算微调后的EPAT-BERT模型在测试集下的分类准确度；

11.一种计算机设备，其特征在于，包括处理器和存储器；

其中，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现权利要求1-8任一所述的基于改进BERT模型的电力审计文本分类方法。