CN112131390A

CN112131390A - 一种基于深度学习的电力预警信息自动分类方法

Info

Publication number: CN112131390A
Application number: CN202011324574.6A
Authority: CN
Inventors: 徐磊; 王青国; 许斌锋; 徐进; 仲田; 刘侃
Original assignee: Jiangsu Electric Power Information Technology Co Ltd
Current assignee: Jiangsu Electric Power Information Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2020-12-25

Abstract

本发明公开了一种基于深度学***滑技术，实现文本信息的自动分类。本发明可以实现端到端的信息自动分类，与其他现有的模型如TextCNN、Fasttext、CapsuleText等相比，不仅具有更高的准确率，还能够自动识别文本的语法结构信息。

Description

一种基于深度学习的电力预警信息自动分类方法

技术领域

本发明属于深度学习和文本分类领域，尤其涉及一种基于深度学习的电力预警信息自动分类方法。

背景技术

电力预警信息分类本质上属于短文本信息分类。随着信息技术发展应用的深入，电力数据正以前所未有的速度剧增，例如，停电信息数据，投诉工单数据，调度日志，事故案例数据等，数据类型也变得越来越复杂。在此背景下，如何对这些海量电力文本信息进行有效的组织与利用变得尤为重要。通过对电力数据的深度学习与挖掘，识别电力公司日常运营过程中存在的各种隐患对于电力公司的安全隐患管理工作具有重要意义。

文本分类是处理和组织海量文本数据的关键性技术，而基于深度学习的文本分类方法是目前主流的方法。目前基于深度学习的文本分类方法多采用单一的模型进行分类，存在着训练语料要求高和一直扩展性性差，并且由于单一的深度学习模型提取到特征的局限性，导致在分类类别比较多的情况下分类效果比较差。

对于短文本分类问题，基于概率统计的文本自动分类方法最先被使用。S. B. Kim等将朴素贝叶斯(Naïve Bayes, NB)算法应用于文本分类领域，取得了很好的效果，但采用词袋模型来表征文本，一方面特征稀疏且维度高，导致计算较复杂，另一方面忽略了上下文的语义信息；黄章树等根据词频并利用卡方检验来选择文本特征，但短文本相较于长文本词频信息过少，导致分类精度不高。随着神经网络的不断发展，T. Mikolov等利用word2vec模型计算词之间的语义相似性，在降低维度的同时可表征更多语义信息；Y. Kim通过使用静态的文本向量，运用卷积神经网络对短文本进行分类，一方面利用CNN权值共享的特性降低了计算复杂度，另一方面通过卷积核分析上下文的多元语义信息。当下对于文本分类的方法研究大多数止步于单词的语义信息，极少部分考虑文本的语法信息。

发明内容

本发明目的是提供一种基于深度学习的电力预警信息自动分类方法，可以实现端到端的信息自动分类，特别是处理具有短文本结构特征的电力预警信息具有更高的准确度。

本发明目的通过以下技术方案实现：

一种基于深度学习的电力预警信息自动分类方法，具体包括以下步骤：

步骤1，将变长的句子序列通过填零或者末尾截断的方法变为预定长度的句子序列，并将预定长度的句子序列通过Word2vec模型获取单词的词向量；

进一步地，将预定长度的句子序列通过 Word2Vec 模型获取单词的词向量，包括：将预定长度的句子序列

中的每一个单词输入到 word2vec 中获取得到单词的词向量

：

其中，S代表输入的整个句子序列，

代表文本中第

个位置的单词，

代表第

个单词所对应的词向量，

代表了文本中单词的个数，

代表了词向量的维度。

步骤2，将获取的各个单词的词向量通过语义与语序编码层；

进一步地，将获取的各个单词的词向量通过语义与语序编码层，包括：将获取的各个单词的词向量通过 transformer 的 encoder 模型，包括：将各个单词的词向量输入到语义与语序编码层，使得输出的单词向量不仅获取了上下文的语义信息，而且也将其位置特征嵌入到词向量中, 形成所需要的编码向量

。

步骤3，将经过语义与语序编码层得到的编码向量，通过 ON-LSTM 模型；

其中，

表示在不同时刻输入

到ON-LSTM中得到具有语法结构信息的文本特征表达向量，ON-LSTM模型中所有的控制信息转化的矩阵参数的维度为

，偏置参数的维度为

。

步骤4，获取经过 ON-LSTM 模型的最后一步输出向量，将输出的向量通过全连接网络后经过 softmax 分类，同时利用标签平滑技术将one-hot编码的标签转化为新的标签向量。

进一步地，取ON-LSTM最后一次的输出值

, 使其经过全连接神经网络

这里

，其中

表示分类的类别个数,

矩阵的参数维度为

的参数维度为

。

利用标签平滑技术将one-hot编码的标签转化为新的标签向量包括：

其中超参数

是平滑因子，其参数值为0.13，

是one-hot编码的标签，

是利用标签平滑技术生成的新的标签向量。

本发明的有益效果：

本发明可以实现端到端的信息自动分类，特别是处理具有短文本结构特征的电力预警信息，该方法与传统的fasttext，CNNtext，SWEM，LSTM，BI-LSTM模型相比具有更高的准确度，同时具有良好的分类数独，并且能够自动识别文本信息的主谓宾结构信息等优点。

附图说明

图1为本发明的电力预警信息自动分类方法流程图。

具体实施方式

下面结合电力预警信息分类的应用背景对本发明所属方法进一步说明，

如图1所示，一种基于深度学习的电力预警信息自动分类方法，具体实施步骤如下：

步骤一、电力预警信息文本预处理：将变长的句子序列通过填零补充或者末尾截断的方法变为预定长度的句子序列，通过文本预处理，得到

代表了文本S中第

个单词。

步骤二、将单词映射到高维向量空间中:文本中的句子序列通过Word2vec模型训练后，每个单词可转换为计算机理解的稠密向量，Word2vec方法可以很好表征词之间的相似性，具体包含两种训练模式——CBOW模型和Skip-gram模型。将文本

的单词采用其中一种训练模式，一一映射到高维词向量空间，得到：

。

其中，

代表第

个单词所对应的词向量，

代表了文本中单词的个数，

代表了词向量的维度。

步骤三、使单词获得上下文语境义：为了捕获单词与单词之间的关系，而不受距离影响，本发明采用transformer模型的encoder端作为编码层，将X输入模型中，其模型如下的计算流程：

其中

为信息转化矩阵，

是信息转化矩阵，其维度为

为偏置参数，其参数维度为

表示第

个向量和第

个向量之间的语义相关程度，

表示第

个向量和第

个向量之间的语义相关程度，

表示第

个位置的单词在这段语句中所形成的语境义的编码向量，

代表第

个位置的空间位置编码向量，

代表第

个位置的空间位置编码向量，

都是通过随机初始化生成，

表示第

个位置的单词的语义向量与第

个位置的单词的语义向量之间的语义相关性在这段语句中的重要性，

表示第

个向量和第

个向量之间的相对位置关系，

表示第

个向量和第

个向量之间的相对位置关系，

表示在第

个位置单词的位置信息在这段语句中与其他位置单词的相对位置信息形成的位置编码向量，

代表第

个位置的单词的位置向量与第

个位置的单词的位置向量之间的位置相关性在这段语句中的重要性，

分别表示第

个单词对语义信息的重视程度和对位置信息的重视程度。

表示将语义与语序融合的编码向量。

经此模型，得到输出

。

步骤四、捕获文本的结构信息：在获得文本语义信息的基础上，进一步获取文本的语法信息，即本文的结构信息，具体采用ON-LSTM算法。ON-LSTM算法与传统的LSTM算法不同的是采用了新的更新函数。ON-LSTM 采用以下的公式进行信息的遗忘，更新，输入:

其中

代表遗忘门，控制信息的遗忘，

为

函数，

为遗忘门的信息转化矩阵，其矩阵参数维度为

为遗忘门的偏置

代表第t时刻的输入词向量，

代表

时刻的状态值，其维度为

。

表示输入门，控制信息的输入，

为

函数，

为输入门的信息转化矩阵，其矩阵参数维度为

为输入门的偏置，其维度为

代表第t时刻的输入词向量，

代表

时刻的状态值，其维度为

。

表示输出门，控制信息的输出，

为

函数，

为输出门的信息转化矩阵，其矩阵参数维度为

为输出门的偏置，其维度为

，

代表第t时刻的输入词向量，

代表

时刻的状态值，其维度为

。

表示状态门,存储第t时刻模型所具有的状态信息，

为状态门的信息转化矩阵，其矩阵参数维度为

为状态门的偏置，其维度为

，

代表第t时刻的输入词向量，

代表

时刻的状态值，其维度为

。

表示主遗忘门,

表示向右求和，

为主遗忘门的信息转化矩阵，其矩阵参数维度为

为主遗忘门的偏置，其维度为

代表第t 时刻的输入词向量，

代表

时刻的状态值，其维度为

。

表示主输入门，

表示向左求和，

为主遗忘门的信息转化矩阵，其矩阵参数维度为

为主遗忘门的偏置，其维度为

代表第t时刻的输入词向量，

代表

时刻的状态值，其维度为

。

与传统LSTM不同的是，采用如下公式更新状态信息和历史信息

其中

代表主遗忘门和主输入门的重合信息，其维度为

表示下一个时间的状态信息

表示当前获得的状态信息，其维度为

代表第t时刻的历史信息，维度为

表示当前获得的状态信息，

表示上一时刻获得的状态信息。

步骤五、连接神经网络进行训练，通过softmax进行分类：获取经过 ON-LSTM 模型的最后一步输出向量，将输出的向量通过全连接网络后经过 softmax 分类，借助Softmax分类器结合标签平滑技术(Label Smoothing)文本信息的自动分类。包括：取ON-LSTM最后一次的输出值

, 使他经过全连接神经网络

防止数据过度拟合，最后将 one-hot 编码的标签通过标签平滑技术获得标签的向量

。

本发明方法采用的损失函数为：

其中J代表损失值，

是超参数，其值可设为0.02，

代表模型中的所有可训练的参数。

Claims

1.一种基于深度学习的电力预警信息自动分类方法，其特征在于，包括以下步骤：

步骤2，将获取的各个单词的词向量通过语义与语序编码层；

步骤3，将经过语义与语序编码层得到的编码向量，再经过 ON-LSTM 模型；

步骤4，获取经过 ON-LSTM 模型的最后一步输出向量，将输出的向量通过全连接网络后利用Softmax函数分类，同时利用标签平滑技术将one-hot编码的标签转化为新的标签向量。

2.根据权利要求 1 所述的基于深度学习的电力预警信息自动分类方法，其特征在于，步骤1中，将预定长度的句子序列通过 Word2Vec 模型获取单词的词向量，具体是：将预定长度的句子序列

中的每一个单词输入到 word2vec 中获取得到单词的词向量

：

其中，S代表输入的整个句子序列，

代表文本中第

个位置的单词，

代表第

个单词所对应的词向量，

代表了文本中单词的个数，

代表了词向量的维度。

3.根据权利要求 1 所述的基于深度学习的电力预警信息自动分类方法，其特征在于，步骤2中，将获取的各个单词的词向量通过语义与语序编码层，具体是：将获取的各个单词的词向量通过 transformer 的 encoder 模型，包括：将各个单词的词向量输入到语义与语序编码层，使得输出的单词向量不仅获取了上下文的语义信息，而且也将其位置特征嵌入到词向量中, 形成所需要的编码向量