CN113822599A

CN113822599A - 一种基于分类树融合技术的电力行业政策管理方法

Info

Publication number: CN113822599A
Application number: CN202111256627.XA
Authority: CN
Inventors: 朱峰; 左强; 邹云峰; 祝宇楠; 范环宇; 蔡明明; 寇文心
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2021-12-21

Abstract

本申请公开了一种基于分类树融合技术的电力行业政策管理方法，包括：获取电力行业政策文本并进行数据预处理；对数据预处理后的电力行业政策文本信息进行编码；设置电力行业政策文本中不同语句的信息注意力权重；基于电力行业政策文本信息的编码与注意力权重，对电力行业政策文本进行类别划分；对不同类型的电力行业政策文本进行信息抽取；将抽取到的不同类别信息进行融合组装，实现电力行业政策管理。本发明基于分类树融合技术进行电力行业政策管理，可以满足电力行业数字化、智慧化转型与电力行业政策高效统一管理需要，实现对电力行业政策的分类管理，提升电力行业政策的管理效率，支撑电力行业相关业务的提质增效。

Description

一种基于分类树融合技术的电力行业政策管理方法

技术领域

本发明属于电力行业信息感知与识别技术领域，涉及一种基于分类树融合技术的电力行业政策管理方法。

背景技术

电力行业是国民经济的基础产业、支柱产业和战略产业，而发展电力信息化、智能电网及电力物联网等产业是实现我国能源生产、消费、技术和体制革命的重要手段。

电力行业政策与一般政策不同的是，电力行业政策的功能更为复杂，是国民经济体系的重要组成部分，是国家进行经济调整的一个重要手段。电力行业政策的类别多且复杂，例如电价政策是国家进行经济调节的重要手段，不同类别的电价也经常根据不同时期经济政策的变化而调整。因此，电力行业政策执行到位、准确，避免企业正当效益流失，同时确保用电客户的用电准确性，是电力企业的一项重点工作。

当前自然语言处理技术已经逐渐成熟，但是即使在电力行业大力倡导智慧化与数字化转型的背景下，自然语言处理技术在电力行业，尤其是在电力行业政策管理领域的应用依然尚显缺乏。

因此，综合考虑电力行业数字化与智慧化转型需求与电力行业政策统一管理的需要，亟需一种基于自然语言处理的高效管理电力行业政策的技术方法，从而支撑电力行业政策的管理与实施。

发明内容

为解决现有技术中的不足，本申请提供一种基于分类树融合技术的电力行业政策管理方法。

为了实现上述目标，本发明采用如下技术方案：

一种基于分类树融合技术的电力行业政策管理方法，包括以下步骤：

步骤1：获取电力行业政策文本并进行数据预处理；

步骤2：对数据预处理后的电力行业政策文本信息进行编码；

步骤3：设置电力行业政策文本中不同语句的信息注意力权重；

步骤4：基于电力行业政策文本信息的编码与注意力权重，采用分类树融合技术对电力行业政策文本进行类别划分；

步骤5：对不同类型的电力行业政策文本进行三元组信息抽取；

步骤6：基于实体对齐算法，将抽取到的不同类别信息进行融合组装，实现电力行业政策管理。

本发明进一步包括以下优选方案：

优选地，步骤1具体包括：

步骤1.1：获取电力行业政策文本，并使用jieba分词工具对电力行业政策文本进行分词，通过停用词词表删除电力行业政策文本中的停用词；

步骤1.2：经步骤1.1预处理后，语句中的每个词语通过词表获得该词语所在词表中位置并通过词嵌入矩阵将每个词语映射为词嵌入矩阵的中的词语向量；

步骤1.3：基于词语向量，卷积神经网络提取电力行业政策文本中语句的信息表征。

优选地，步骤1.3具体包括：

步骤1.3.1：将电力行业政策文本语句中每个词语的词语向量进行矩阵拼接组合，构建电力行业政策文本语句的句向量矩阵；

步骤1.3.2：针对句向量矩阵，在卷积层中设置多个大小不同的卷积核，来提取不同词语之间共有的信息表征；

步骤1.3.3：通过K-Max池化和Padding的方法，从不同长度的语句提取出固定长度的信息表征。

优选地，步骤2具体为：

将每个语句的信息表征按照电力行业政策文本中语句的顺序依次输入到BiLSTM网络或者GRU网络中，进行电力行业政策文本信息编码。

优选地，步骤3具体为：

使用Attention注意力机制设置电力行业政策文本中不同语句的信息注意力权重，并输出加入注意力权重信息的电力行业政策文本向量编码。

优选地，步骤4具体为：

将加入注意力权重信息的电力行业政策文本向量编码输入到Softmax分类器中，得到电力行业政策文本所属的类别one-hot向量表征，最终实现电力行业政策文本分类。

优选地，步骤5具体包括：

步骤5.1：基于开放域三元组抽取工具Open-IE，对电力行业政策文本进行三元组信息抽取：首先抽取不同类型的电力行业政策所有可能的Subject和Predicate，然后判断Subject和Predicate之间的关联，最后抽取Subject和Predicate对应的Object；

步骤5.2：基于封闭域三元组抽取工具Close-IE，对电力行业政策文本进行三元组信息抽取：先抽取Subject和Object，然后再对Subject和Object之间的关系进行分类。

优选地，步骤5.1具体包括：

步骤5.1.1：编码层Encoder-Layer获取语句的上下文信息；

步骤5.1.2：实体抽取层EntityRelation-Layer抽取所有可能的Subject和Predicate；

步骤5.1.3：MultiHead-Layer找出所有可能存在关系的Subject和Predicate；

步骤5.1.4：Object-Layer根据指定的Subject和Predicate抽取出对应的Object；

步骤5.1.5：Triple-Result依据步骤5.1.1-步骤5.1.4，抽取出语句中最终(Subject,predicate,Object)集合。

优选地，步骤5.1.2中，采用Span的方式，分别抽取Subject和Predicate的开始位置和结束位置，公式如下：

P_i ^start_s＝sigmoid(W_starth_i+b_start)

P_i ^end_s＝sigmoid(W_endh_i+b_end)

P_i ^start_p＝sigmoid(W_starth_i+b_start)

P_i ^end_p＝sigmoid(W_endh_i+b_end)

其中P_i ^start_s表示语句中第i个token是Subject的开始位置的概率，P_i ^end_s表示语句中第i个token是Subject的结束位置的概率，P_i ^start_p表示语句中第i个token是Predicate的开始位置的概率，P_i ^end_p表示语句中第i个token是Predicate的结束位置的概率,h_i表示语句中第i个token通过Bert之后的编码，W_(·)表示模型待训练的权重，b_(·)为偏执；

步骤5.1.3采用的公式如下：

P_i,j＝sigmoid(h_i,h_j)

其中，h_i表示语句中第i个特征的编码，表示为Subject的特征，h_j语句中第j个特征的编码，表示Predicate的特征，P_i,j表示(h_i,h_j)可以构成关系的概率；

步骤5.1.4采用的公式如下：

P_i ^start_o＝sigmoid(W_{start_o}(h_i,V^s,V^p)+b_{start_o})

P_i ^end_o＝sigmoid(W_{end_o}(h_i,V^s,V^p)+b_{end_o})

其中P_i ^start_o表示语句中第i个token是Object的开始位置的概率，P_i ^end_o表示语句中第i个token是Object的结束位置的概率，V^s表示表示Subject的首尾特征之和，V^p表示Predicate的首尾特征之和。

优选地，步骤5.2具体包括：

步骤5.2.1：BERT编码层BERT-Layer获取语句的上下文信息；

步骤5.2.2：实体抽取层Entity-Layer抽取所有可能的Subject和Oubject；

步骤5.2.3：MultiHead-Layer找出语句中所有不同token之间可能存在的关系；

步骤5.2.4：Triple-Result依据步骤5.2.1-步骤5.2.3，抽取出语句中最终(Subject,predicate,Object)集合。

本申请所达到的有益效果：

本发明基于分类树融合技术并提出一种新的开放域三元组信息抽取方式，实现电力行业政策管理，可以满足电力行业数字化、智慧化转型与电力行业政策高效统一管理需要，实现对电力行业政策的分类管理，提升电力行业政策的管理效率，支撑电力行业相关业务的提质增效。

附图说明

图1为本发明一种基于分类树融合技术的电力行业政策管理方法的流程图；

图2为本发明实施例中电力行业政策文本分类器示意图；

图3为本发明实施例中Open-IE开放域信息抽取示意图；

图4为本发明实施例中Close-IE开放域信息抽取示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1所示，本发明的一种基于分类树融合技术的电力行业政策管理方法，包括以下步骤：

步骤1：获取电力行业政策文本并进行数据预处理，具体包括：

步骤1.1：获取电力行业政策文本并进行数据预处理：

获取电力行业政策文本，并使用jieba分词工具对电力行业政策文本进行分词，通过停用词词表删除电力行业政策文本中的停用词；

比如：对于“今年江苏省的火力电价预计将有所调整”这句话，通过分词和去除停用词后将得到“今年”、“江苏省”、“火力”、“电价”、“预计”、“将”、“有所调整”这些词语。

步骤1.2：词嵌入：

如图2中的词嵌入模块所示，将一篇电力行业政策文档中的多个语句依次输入词嵌入层中，语句中的每个词语通过词表获得该词语所在词表中位置并通过词嵌入矩阵将每个词语映射为词嵌入矩阵的中的词语向量；

词表是所有可能的词语集合，可以查找到某个词所在词表的位置，比如“今年”这个词在词表中的位置是156。

词嵌入矩阵是一个维度为[词表大小,词向量长度大小]的二维矩阵，输入词在词表的位置就可以通过词嵌入矩阵得到该词对应的词语向量。

词语向量是一个固定大小的向量，每一个词表中的词都对应不同的词语向量。

步骤1.3：卷积神经网络提取语句表征信息：

如图2中的CNN模块所示，使用卷积神经网络提取电力行业政策文本中语句的信息表征，具体包括：

同样以“今年江苏省的火力电价预计将有所调整”这句话举例。

通过步骤1.2可以得到这句话包含的7个词语的词向量，然后将这7个词向量进行拼接组合，得到这个语句的句向量矩阵。

句向量矩阵是一个维度为[语句长度,词向量维度]的二维矩阵。

步骤1.3.2：在卷积层中设置多个大小不同的卷积核，来提取不同词语之间共有的信息表征；

针对句向量矩阵，设置5种维度大小分别为[1,词向量维度]、[2,词向量维度]、[3,词向量维度]、[4,词向量维度]、[5,词向量维度]的卷积核,且每种卷积核的个数分别为5个。以维度大小为[3,词向量维度]的卷积核为例，该卷积核可以提取3个词语之间的信息表征，因此通过设置多个不同大小的卷积核可以挖掘更多词语之间的信息。

步骤1.3.3：在池化层中通过K-Max池化层和Padding，从不同长度的语句提取出固定长度的信息表征。

比如对于句向量矩阵分别为[7,词向量维度](7为语句切分后的长度)和[18,768](18为语句切分后的长度)的两个语句；

通过K-Max池化和Padding后可以将这两个句向量矩阵压缩为2个维度相同的句向量，比如都压缩成维度为[1,200]的句向量。

步骤2：对数据预处理后的电力行业政策文本信息进行编码，具体为：

BiLSTM网络或者GRU网络进行电力行业政策文本信息编码：

BiLSTM网络或者GRU网络属于序列建模，这里BiLSTM网络的每一个序列单元都输出它的隐藏状态h。

假设对一篇描述火力发电政策文本进信息编码，假设文档中最多有50个语句，每一个语句都通过卷积网络得到该语句的句向量(长度为200)。

然后通过BiLSTM对这50个长度为200的句向量进行序列建模，输出所有序列单元的向量表征。

输出的向量具体维度大小为[50,200]。(其中，50代表BiLSTM网络的序列单元个数，200代表BiLSTM每个序列单元的输出向量长度)

如图2中的BiLSTM网络所示，BiLSTM网络可以有效捕捉较长距离的信息依赖关系，因此从电力行业政策文本中每一个语句提取出该语句固定长度的信息表征后，将每个语句的信息表征按照电力行业政策文本中语句的顺序依次输入到BiLSTM网络中，进行电力行业政策文本信息编码。

BiLSTM网络或者GRU网络不需要预训练，输入表征，即可输出编码。

步骤3：设置电力行业政策文本中不同语句的信息注意力权重，具体为：

如图2中的注意力机制所示，使用Attention注意力机制设置电力行业政策文本中不同语句的信息注意力权重，并输出加入注意力权重信息的电力行业政策文本向量编码。

Attention的输入是BiLSTM网络的输出，在Attention机制中，首先将BiLSTM网络的输出h_i,t输入全连接层得到attention层的隐层表征u_i,t。

然后通过softmax计算得到每句话在文档中对应的信息注意力权重α_i,t。

最后将权重和BiLSTM网络的输出进行加权求和，得到语句加权后的向量表征s_i。

u_i,t＝tanh(W_wh_i,t+b_w)

步骤4：基于电力行业政策文本信息的编码与注意力权重，采用分类树融合技术对电力行业政策文本进行类别划分，具体为：

通过Softmax分类器对电力行业政策文本进行类别划分：

如图2中的softmax分类器模块所示，将加入注意力权重信息的电力行业政策文本向量编码输入到Softmax分类器中，得到电力行业政策文本所属的类别one-hot向量表征，最终实现电力行业政策文本分类。

步骤5：对不同类型的电力行业政策文本进行三元组信息抽取，具体包括：

步骤5.1：基于开放域三元组抽取工具Open-IE，对电力行业政策文本进行三元组信息抽取，具体结构如图3所示；

由于当前缺少针对开放域三元组信息抽取的相关方法。

因此，提出一种新的开放域三元组信息抽取方式。

该方法首先抽取不同类型的电力行业政策所有可能的Subject和Predicate，然后判断Subject和Predicate之间的关联，最后抽取Subject和Predicate对应的Object。

步骤5.1具体包括：

步骤5.1.1：Encoder-Layer:

由于BiLSTM网络在三元组抽取任务上的文本表征能力较弱，整体效果不佳。因此与步骤2选择BiLSTM网络作为编码层不同，三元组抽取任务选择BERT作为编码层，可以更好的获取语句的上下文信息。

在图3的Encoder-Layer层中，为了进一步提高模型性能，采用BERT作为特征提取层，以便更好的获取语句的上下文信息。

步骤5.1.2EntityRelation-Layer:

在图3的实体抽取层SubPre-Layer中，采用Span的方式，分别抽取Subject和Predicate的开始位置和结束位置。计算公式如下：

P_i ^start_s＝sigmoid(W_starth_i+b_start)

P_i ^end_s＝sigmoid(W_endh_i+b_end)

P_i ^start_p＝sigmoid(W_starth_i+b_start)

P_i ^end_p＝sigmoid(W_endh_i+b_end)

其中P_i ^start_s表示语句中第i个token是Subject的开始位置的概率，P_i ^end_s表示语句中第i个token是Subject的结束位置的概率，P_i ^start_p表示语句中第i个token是Predicate的开始位置的概率，P_i ^end_p表示语句中第i个token是Predicate的结束位置的概率,h_i表示语句中第i个token通过Bert之后的编码，W_(·)表示模型待训练的权重，b_(·)为偏执。

步骤5.1.3：MultiHead-Layer:

在图3的MultiHead-Layer中，语句中每个token都有可能和其他token构成关系，该层会找出所有可能存在关系的Subject和Predicate，计算公式如下：

P_i,j＝sigmoid(h_i,h_j)

其中，h_i表示语句中第i个特征的编码，表示为Subject的特征，h_j语句中第j个特征的编码，表示Predicate的特征，P_i,j表示(h_i,h_j)可以构成关系的概率。

步骤5.1.4：Object-Layer:

在图3的Object-Layer中，该层的作用是抽取指定的Object,根据指定的Subject和Predicate抽取出对应的Object，计算公式如下：

P_i ^start_o＝sigmoid(W_{start_o}(h_i,V^s,V^p)+b_{start_o})

P_i ^end_o＝sigmoid(W_{end_o}(h_i,V^s,V^p)+b_{end_o})

其中，P_i ^start_o表示语句中第i个token是Object的开始位置的概率，P_i ^end_o表示语句中第i个token是Object的结束位置的概率，V^s表示表示Subject的首尾特征之和，V^p表示Predicate的首尾特征之和。

步骤5.1.5：Triple-Result:

在图3的Triple-Result层中，Triple-Result层依据前几个步骤，抽取出语句中最终(Subject,predicate,Object)集合。

步骤5.2：基于封闭域三元组抽取工具Close-IE，对电力行业政策文本进行三元组信息抽取，具体结构如图4所示。

步骤5.2先抽取Subject和Object，然后再对Subject和Object之间的关系进行分类，具体包括：

步骤5.2.1：BERT-Layer:

封闭域三元组信息抽取同样因为BiLSTM网络在三元组抽取任务上的文本表征能力较弱，而选择BERT作为编码层。

在图4的编码层BERT Layer层中，采用BERT作为特征提取层，获取语句的上下文信息。

步骤5.2.2：Entity-Layer:

在图4的实体抽取层Entity Layer中，采用Span的方式，分别抽取Subject和Oubject的开始位置和结束位置。计算公式如下：

P_i ^start_s＝sigmoid(W_starth_i+b_start)

P_i ^end_s＝sigmoid(W_endh_i+b_end)

P_i ^start_o＝sigmoid(W_starth_i+b_start)

P_i ^end_o＝sigmoid(W_endh_i+b_end)

其中P_i ^start_s表示语句中第i个token是Subject的开始位置的概率，P_i ^end_s表示语句中第i个token是Subject的结束位置的概率，P_i ^start_o表示语句中第i个token是object的开始位置的概率，P_i ^end_o表示语句中第i个token是object的结束位置的概率,h_i表示语句中第i个token通过Bert之后的编码，W_(·)表示模型待训练的权重，b_(·)为偏执。

步骤5.2.3：MultiHead-Layer:

在图4的MultiHead-Layer中，语句中的每个token都有可能和其他token构成关系，该层会找出所有不同token之间可能存在的关系，计算公式如下：

P_i,j＝sigmoid(h_i,h_j)

其中，h_i表示语句中第i个特征的编码，表示为Subject的特征，h_j语句中第j个特征的编码，表示Object的特征，P_i,j表示(h_i,h_j)可以构成关系的概率。

步骤5.2.4：Triple-Result:

在图4的Triple-Result中，依据前几个步骤，抽取出语句中最终(Subject,predicate,Object)集合。

步骤6：基于实体对齐算法，将抽取到的不同类别信息进行融合组装，实现电力行业政策管理，构成不同分类的电力行业政策树。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

所述方法包括以下步骤：

步骤1：获取电力行业政策文本并进行数据预处理；

步骤2：对数据预处理后的电力行业政策文本信息进行编码；

2.根据权利要求1所述的一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

步骤1具体包括：

3.根据权利要求2所述的一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

步骤1.3具体包括：

4.根据权利要求2所述的一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

步骤2具体为：

5.根据权利要求4所述的一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

步骤3具体为：

6.根据权利要求5所述的一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

步骤4具体为：

7.根据权利要求1所述的一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

步骤5具体包括：

8.根据权利要求7所述的一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

步骤5.1具体包括：

步骤5.1.1：编码层Encoder-Layer获取语句的上下文信息；

9.根据权利要求8所述的一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

步骤5.1.2中，采用Span的方式，分别抽取Subject和Predicate的开始位置和结束位置，公式如下：

P_i ^start_s＝sigmoid(W_starth_i+b_start)

P_i ^end_s＝sigmoid(W_endh_i+b_end)

P_i ^start_p＝sigmoid(W_starth_i+b_start)

P_i ^end_p＝sigmoid(W_endh_i+b_end)

步骤5.1.3采用的公式如下：

P_i,j＝sigmoid(h_i,h_j)

步骤5.1.4采用的公式如下：

P_i ^start_o＝sigmoid(W_{start_o}(h_i,V^s,V^p)+b_{start_o})

P_i ^end_o＝sigmoid(W_{end_o}(h_i,V^s,V^p)+b_{end_o})

10.根据权利要求7所述的一种基于分类树融合技术的电力行业政策管理方法，其特征在于：

步骤5.2具体包括：

步骤5.2.1：BERT编码层BERT-Layer获取语句的上下文信息；