CN112131391B

CN112131391B - 一种基于胶囊网络的供电服务客户诉求文本分类方法

Info

Publication number: CN112131391B
Application number: CN202011332961.4A
Authority: CN
Inventors: 杨志新; 周宇; 王成现; 潘留兴; 洪昕; 丁淙
Original assignee: Jiangsu Electric Power Information Technology Co Ltd
Current assignee: Jiangsu Electric Power Information Technology Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-09-17
Anticipated expiration: 2040-11-25
Also published as: CN112131391A

Abstract

本发明公开了一种基于胶囊网络的供电服务客户诉求文本分类方法，包括：对供电服务客户诉求文本预处理；生成供电服务客户诉求文本词向量，解决一词多义的问题；基于字向量的编码与依赖关系获取，获取字与字之间的依赖关系；基于字与词向量的诉求文本特征融合，得到融合向量；采用自注意力机制获得词向量间的相互依赖关系；采用EM‑Routing动态路由算法聚合诉求文本胶囊，获得词间的语义信息关系；最终采用间隔损失函数计算诉求文本的正类与负类的损失值。本发明提升了文本重要特征提取能力，最终提高了电力客户服务工单中供电诉求文本分类的准确率。

Description

一种基于胶囊网络的供电服务客户诉求文本分类方法

技术领域

本发明涉及电力技术领域，尤其涉及一种基于胶囊网络的供电服务客户诉求文本分类。

背景技术

供电服务质量是衡量电力企业服务水平的重要指标，随着互联网、大数据、社交平台的快速发展，提升供电服务质量势在必行。95598作为电力企业的服务热线，每天都会通过该热线与电力客户进行沟通与交流，从而形成大量的客户诉求文本数据。而提升95598客户服务能力最好的方法就是要清楚了解这些客户诉求文本中所表示的客户服务需求及问题，从而提供精确、主动、差异化的供电服务，提高客户用电满意度，从而提升供电企业的良好形象以及品牌价值，保障用电客户稳固。但是供电服务中电力工单客户诉求文本数据具有信息量大与非结构化的特点，为开展精细化的供电服务带来挑战。

传统的基于卷积神经网络（Convolutional Neural Network，CNN）的文本分类，对空间文本信息进行建模时，训练模型参数过多，降低了模型训练效率，而且在池化层丢失了许多有价值的文本特征信息，特征理解能力不强，而且CNN的空间位置不变性使得文本中的单词位置信息、语法结构、语义信息不能被充分表达出来。基于胶囊网络（CapsuleNetwork，CapsNets）的文本分类是目前比较全新的一个话题，有效地改善了CNN模型训练的缺点。胶囊网络能够全局地兼顾文本的语义和语序信息，提高文本中每个单词的特征表达能力，非常适合分析非结构化的供电服务客户诉求文本。与长短期记忆网络（Long Short-Term Memory，LSTM）网络相比，能够突破文本距离（例如长文本）的局限获得上下文的语义和语序信息。与传统的自注意力机制和CNN的池化操作相比，胶囊网络采用动态路由（Expectation-Maximization Routing，EM-Routing）算法解决采用自下而上和被动的方式进行信息聚合的缺点，引导任务型文本信息主动聚类，挖掘供电服务客户诉求文本的语序和语义信息，提高客户诉求文本的分类准确率。

综上，由于供电服务客户诉求内容主要为文本形式且非结构化、信息量大，存在一词多义的情况，因此，基于传统神经网络的供电服务客户诉求文本分类方法至少存在以下3个问题：（1）CNN池化层丢失了很多有价值信息，被动地进行信息聚合，降低了特征理解能力；（2）CNN的空间关系识别能力不强，不能充分表达供电服务诉求文本中的单词语序与语义信息、语法结构；（3）LSTM不能获得供电服务客户诉求长文本的上下文语义和语序信息。

发明内容

针对CNN和LSTM网络在文本分类中特征表达能力不强、不能突破文本距离的局限获得上下文的语义和语序信息缺陷以及供电服务客户诉求文本数据非结构化、信息量大、一词多义的特点，本发明的目的是提供一种基于胶囊网络的供电服务客户诉求文本分类方法，提升了文本重要特征提取能力，提高了95598电力客户服务工单中供电诉求文本分类的准确率。

本发明是通过以下技术方案具体实现的：

1）供电服务客户诉求文本预处理：主要包括对供电服务客户诉求文本的获取、去除停用词和分词处理，将95598***中的客户诉求内容按文本形式分为举报、建议、表扬、投诉、查询、报修、以往业务、反映类别，一行文本代表一个工单诉求并添加文本类别标签，删除除了字母、数字和汉字以外的所有符号和停用词，使用jieba分词工具对每行的工单诉求文本进行分词。

2）供电服务客户诉求文本词向量生成：将预处理过后的每行供电服务客户诉求文本

输入到bert预训练模型中，解决一词多义的问题，获得基于语义的动态词向量

表示第i个单词对应的维度为D ₁的向量，w _i表示每行供电客户诉求文本中第i个单词，L ₁表示每行供电服务客户诉求文本中的单词个数。

3）基于字向量的编码与依赖关系获取：基于字向量的编码与传统的基于词向量的编码不同，实现了更细粒度的编码，假设每行供电服务客户诉求文本中的字集合

，其中

表示每行工单诉求文本中第i个字，将这些字映射到高维空间，得到字向量

，其中

表示第i个单词对应的维度为D ₂的字向量，L ₂表示每行供电服务客户诉求文本中字的个数。

在句子中，因为每个字之间是相对独立的，因此，采用N-garm卷积操作获取供电客户诉求文本中字之间的相互依赖关系，生成短语特征，然后通过最大池化操作获取重要的语义特征并进行拼接，得到基于字的供电服务客户诉求文本特征向量。

4）基于字与词向量的文本特征融合：将基于字和基于词的供电服务客户诉求文本特征向量进行融合，得到融合向量

表示第i个单词的对应的逻辑向量表示。

5）获得词向量间的相互关系：采用自注意力机制获得每个供电服务客户诉求文本单词间的相互关系。

6）供电客户诉求文本胶囊聚合：采用EM-Routing动态路由算法将单词胶囊聚合成供电服务客户诉求文本胶囊，获得单词间的语义信息关系。

7）计算损失值：采用间隔损失函数计算每行供电服务客户诉求文本的正类与负类之间距离为m的损失值L _i，并将其正类与负类的损失值相加得到总的损失值L。损失函数L越小，则分类准确率越高，最终提高供电服务客户诉求文本的分类准确率。

该方法的优势如下：突破长文本语义获取困难的缺点，通过基于字向量的编码，更细粒度的表达诉求文本全局语义和语序特征，将每个单词聚合成胶囊，更进一步的获得词与词之间的语义信息关系，提升了文本重要特征提取能力，最终提高了客户服务工单中诉求文本分类的准确率。

附图说明

图1为本发明的一种基于胶囊网络的供电服务客户诉求文本分类方法框架图。

图2为本发明采用矩阵胶囊网络实现文本分类的具体流程。

具体实施方式

下面结合附图和具体实施方式对本发明所属方法进一步说明。

一种基于胶囊网络的供电服务客户诉求文本分类方法，图1为本发明的基于胶囊网络的供电服务客户诉求文本分类方法框架图，包括：（1）对大量的供电服务客户诉求文本进行预处理；（2）训练生成客户诉求文本词向量；（3）对字向量进行编码并获得字与字向量之间的相互依赖关系；（4）基于字与词向量的文本特征融合；（5）获得单词与单词向量之间的相互依赖关系；（6）使用EM-Routing算法将单词胶囊聚合成文本胶囊；（7）计算正类与负类的损失值。最终提高供电客户诉求文本的分类准确率。图2为本发明采用矩阵胶囊网络实现文本分类的具体流程。具体实施方式如下：

步骤1、供电服务客户诉求文本预处理

将95598的所有客户诉求内容按文本形式分为举报、建议、表扬、投诉、查询、报修、以往业务、反映类别，一行文本代表一个供电客户诉求文本并添加文本类别标签，使用jieba分词工具对每行的供电客户诉求文本进行分词。

步骤2、供电服务客户诉求文本词向量生成

将预处理过后的每行工单诉求文本

输入到bert预训练模型中，获得基于语义的动态词向量

，则：

其中，

表示第i个单词对应的维度为D ₁的向量，w _i表示每行供电客户诉求文本中第i个单词，L ₁表示每行供电客户诉求文本中的单词个数。

步骤3、基于字向量的编码与依赖关系获取

与传统的基于词向量的编码不同，实现了更细粒度的编码，采用N-garm卷积操作获取供电客户诉求文本中字之间的相互依赖关系。

3.1基于字向量的编码：设每行供电客户诉求文本中的字集合

，其中

表示每行供电客户诉求文本中第i个字，将这些字映射到高维空间，得到字向量

，其中

表示第i个单词对应的维度为D ₂的字向量，L ₂表示每行供电客户诉求文本中字的个数。

3.2基于字的文本特征向量获取

3.2.1生成短语特征：在句子中，因为每个字之间是相对独立的，因此，首先采用N-garm卷积操作获取供电客户诉求文本中字之间的相互依赖关系即客户诉求文本的局部特征，生成短语特征。假设

表示字向量

之间的拼接，字卷积过程为：

，其中

，k表示卷积核的大小，b ₁表示偏置项，

表示生成的局部短语特征，D ₃表示生成的短语个数，f表示ReLU非线性激活函数，在句子的不同位置采用卷积操作，生成的短语特征为

。

3.2.2获得短语特征的语义特征：通过最大池化操作获取重要的语义特征，池化过程为：

，其中

表示第i个卷积核提取的特征经过最大池化操作得到的特征值。

3.2.3特征值拼接：将得到的特征值进行拼接，获得基于字向量生成的诉求文本特征向量

，其中D ₃代表特征值个数，

表示基于字的供电客户诉求文本特征向量。

步骤4、基于字与词向量的诉求文本特征融合

将基于字和基于词的供电客户诉求文本特征向量进行融合，得到融合向量

表示第i个单词对应的逻辑向量表示，则

。

步骤5、获得词向量间的相互依赖关系

采用自注意力机制获得每个供电客户诉求文本单词间的相互依赖关系。

5.1获取词之间的语义向量

：首先计算第i个词与第j个词之间的语义信息向量

，其中

表示信息转化矩阵，

表示融合向量

的Q值向量，

表示融合向量K值向量。

5.2归一化计算：通过归一化操作计算语义信息向量的协同权重

，融合向量

表示第j个单词向量h的值向量，最终得到

。

步骤6、供电服务客户诉求文本胶囊聚合

采用EM-Routing动态路由算法将单词胶囊聚合成供电客户诉求文本胶囊，获得词间的语义信息关系。

6.1计算概率密度

：计算高层胶囊为j时，底层胶囊i在第h个维度上的概率密度

表示

在h维度上的值，

表示高层胶囊j在h维度上的均值

表示高层胶囊j在h维度上的方差σ；

6.2对概率密度取对数

；

6.3将每一个底层胶囊i在h维度上的向量值到高层胶囊j向量值求和

：

其中

表示分配给高层胶囊j的数据总量；

6.4计算高层胶囊j的激活值

，

也表示高层胶囊j存在的概率，

都是超参数。

步骤7、计算损失值

采用间隔损失函数计算每行供电客户诉求文本的正类与负类之间距离为n的损失值

表示正类，

表示负类，然后将损失值相加得到总的损失值

。

Claims

1.一种基于胶囊网络的供电服务客户诉求文本分类方法，其特征在于包括以下步骤：

1)供电服务客户诉求文本预处理：首先获取诉求文本，并添加文本类别标签，删除停用并进行分词；

2)供电服务客户诉求文本词向量生成：将预处理过后的每行诉求文本输入到bert预训练模型中，解决一词多义的问题；

3)基于字向量的编码与依赖关系获取：采用基于字的更细粒度的诉求文本编码方式，采用N-garm卷积操作获取诉求文本中字与字之间的相互依赖关系；

4)基于字与词向量的诉求文本特征融合：将基于字和基于词的诉求文本特征向量进行融合，得到融合向量；

5)获得词向量间的相互依赖关系：采用自注意力机制获得每个诉求文本单词间的相互依赖关系；

6)供电服务客户诉求文本胶囊聚合：采用EM-Routing动态路由算法将单词胶囊聚合成诉求文本胶囊，获得词间的语义信息关系；

7)计算损失值：采用间隔损失函数计算诉求文本正类与负类的损失值；

步骤2)中bert预训练模型过程为：将预处理过后的每行供电服务客户诉求文本

输入到bert预训练模型中；首先获得基于语义的动态词向量

表示第i个单词对应的维度为D₁的向量，w_d表示每行供电客户诉求文本中第d个单词，L₁表示每行供电服务客户诉求文本中的单词个数；

步骤3)中基于字向量的编码方法为：设每行供电客户诉求文本中的字集合

其中c_s表示每行供电客户诉求文本中第s个字，将这些字映射到高维空间，得到字向量

其中e_o表示第o个单词对应的维度为D₂的字向量，L₂表示每行供电客户诉求文本中字的个数；

步骤3)中字与字之间的依赖关系获取，具体如下：

3.1生成短语特征：在句子中，因为每个字之间是相对独立的，因此，首先采用N-garm卷积操作获取供电客户诉求文本中字之间的相互依赖关系即客户诉求文本的局部特征，生成短语特征；假设X_i:j表示词向量x_i,x_i+1,…,x_j之间的拼接，字卷积过程为：

其中

WE_i表示权重矩阵，b_i表示偏置项，K表示卷积核的大小，

表示生成的局部短语特征，D₃表示生成的短语个数，f表示ReLU非线性激活函数，在句子的不同位置采用卷积操作，生成的短语特征为

z_m表示第m个特征短语；

3.2获得短语特征的语义特征：通过最大池化操作获取重要的语义特征，池化过程为：

其中

表示第m个卷积核提取的特征经过最大池化操作得到的特征值；

3.3特征值拼接：将得到的特征值进行拼接，获得基于字向量生成的诉求文本特征向量

表示基于字的供电客户诉求文本特征向量。

2.根据权利要求1所述的基于胶囊网络的供电服务客户诉求文本分类方法，其特征在于：步骤1)中诉求文本预处理过程为：先将所有客户诉求内容按文本形式分为举报、建议、表扬、投诉、查询、报修、以往业务、反映类别，一行文本代表一个客户诉求文本并添加文本类别标签，删除除了字母、数字和汉字以外的所有符号和停用词，使用jieba分词工具对每行的诉求文本进行分词。

3.根据权利要求1所述的一种基于胶囊网络的供电服务客户诉求文本分类方法，其特征在于：步骤4)中基于字与词向量的诉求文本特征融合方法为：将基于字和基于词的供电客户诉求文本特征向量进行融合，得到融合向量g_i，

表示第_i个单词对应的逻辑向量表示，则x_i＝MLP(x_i),

4.根据权利要求1所述的一种基于胶囊网络的供电服务客户诉求文本分类方法，其特征在于：步骤5)获得词向量间的相互依赖关系，具体如下：

5.1获取词之间的语义向量g_ij：首先计算第i个词与第j个词之间的语义信息向量

其中

表示信息转化矩阵，g_iw^Q表示融合向量g_i的Q值向量，g_iw^K表示融合向量g_i的K值向量；

k₁为变量，1≤k₁≤L₁，融合向量

h_jW^C表示第j个单词向量h的C值向量，最终得到语义信息向量

5.根据权利要求1所述的一种基于胶囊网络的供电服务客户诉求文本分类方法，其特征在于：步骤6)供电服务客户诉求文本胶囊聚合，具体如下：

6.1计算概率密度

计算高层胶囊为j时，底层胶囊i在第h个维度上的概率密度

表示g_ij在h维度上的值，

表示高层胶囊j在h维度上的均值μ，

表示高层胶囊j在h维度上的方差σ；

6.2对概率密度取对数

其中∑_ir_ij表示分配给高层胶囊j的数据总量；

6.4计算高层胶囊j的激活值a_j：

a_j也表示高层胶囊j存在的概率，λ、β_a、β_u都是超参数。

6.根据权利要求1所述的一种基于胶囊网络的供电服务客户诉求文本分类方法，其特征在于：步骤7)计算损失值，采用间隔损失函数计算每行供电客户诉求文本的正类与负类之间距离为n的损失值L_v＝(max(0，n-(a_t-a_v)))²，a_t表示正类，a_v表示负类，然后将损失值相加得到总的损失值L＝∑_v≠tL_v。