CN112131391B - 一种基于胶囊网络的供电服务客户诉求文本分类方法 - Google Patents
一种基于胶囊网络的供电服务客户诉求文本分类方法 Download PDFInfo
- Publication number
- CN112131391B CN112131391B CN202011332961.4A CN202011332961A CN112131391B CN 112131391 B CN112131391 B CN 112131391B CN 202011332961 A CN202011332961 A CN 202011332961A CN 112131391 B CN112131391 B CN 112131391B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- vector
- power supply
- appeal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于胶囊网络的供电服务客户诉求文本分类方法,包括:对供电服务客户诉求文本预处理;生成供电服务客户诉求文本词向量,解决一词多义的问题;基于字向量的编码与依赖关系获取,获取字与字之间的依赖关系;基于字与词向量的诉求文本特征融合,得到融合向量;采用自注意力机制获得词向量间的相互依赖关系;采用EM‑Routing动态路由算法聚合诉求文本胶囊,获得词间的语义信息关系;最终采用间隔损失函数计算诉求文本的正类与负类的损失值。本发明提升了文本重要特征提取能力,最终提高了电力客户服务工单中供电诉求文本分类的准确率。
Description
技术领域
本发明涉及电力技术领域,尤其涉及一种基于胶囊网络的供电服务客户诉求文本分类。
背景技术
供电服务质量是衡量电力企业服务水平的重要指标,随着互联网、大数据、社交平台的快速发展,提升供电服务质量势在必行。95598作为电力企业的服务热线,每天都会通过该热线与电力客户进行沟通与交流,从而形成大量的客户诉求文本数据。而提升95598客户服务能力最好的方法就是要清楚了解这些客户诉求文本中所表示的客户服务需求及问题,从而提供精确、主动、差异化的供电服务,提高客户用电满意度,从而提升供电企业的良好形象以及品牌价值,保障用电客户稳固。但是供电服务中电力工单客户诉求文本数据具有信息量大与非结构化的特点,为开展精细化的供电服务带来挑战。
传统的基于卷积神经网络(Convolutional Neural Network,CNN)的文本分类,对空间文本信息进行建模时,训练模型参数过多,降低了模型训练效率,而且在池化层丢失了许多有价值的文本特征信息,特征理解能力不强,而且CNN的空间位置不变性使得文本中的单词位置信息、语法结构、语义信息不能被充分表达出来。基于胶囊网络(CapsuleNetwork,CapsNets)的文本分类是目前比较全新的一个话题,有效地改善了CNN模型训练的缺点。胶囊网络能够全局地兼顾文本的语义和语序信息,提高文本中每个单词的特征表达能力,非常适合分析非结构化的供电服务客户诉求文本。与长短期记忆网络(Long Short-Term Memory,LSTM)网络相比,能够突破文本距离(例如长文本)的局限获得上下文的语义和语序信息。与传统的自注意力机制和CNN的池化操作相比,胶囊网络采用动态路由(Expectation-Maximization Routing,EM-Routing)算法解决采用自下而上和被动的方式进行信息聚合的缺点,引导任务型文本信息主动聚类,挖掘供电服务客户诉求文本的语序和语义信息,提高客户诉求文本的分类准确率。
综上,由于供电服务客户诉求内容主要为文本形式且非结构化、信息量大,存在一词多义的情况,因此,基于传统神经网络的供电服务客户诉求文本分类方法至少存在以下3个问题:(1)CNN池化层丢失了很多有价值信息,被动地进行信息聚合,降低了特征理解能力;(2)CNN的空间关系识别能力不强,不能充分表达供电服务诉求文本中的单词语序与语义信息、语法结构;(3)LSTM不能获得供电服务客户诉求长文本的上下文语义和语序信息。
发明内容
针对CNN和LSTM网络在文本分类中特征表达能力不强、不能突破文本距离的局限获得上下文的语义和语序信息缺陷以及供电服务客户诉求文本数据非结构化、信息量大、一词多义的特点,本发明的目的是提供一种基于胶囊网络的供电服务客户诉求文本分类方法,提升了文本重要特征提取能力,提高了95598电力客户服务工单中供电诉求文本分类的准确率。
本发明是通过以下技术方案具体实现的:
1)供电服务客户诉求文本预处理:主要包括对供电服务客户诉求文本的获取、去除停用词和分词处理,将95598***中的客户诉求内容按文本形式分为举报、建议、表扬、投诉、查询、报修、以往业务、反映类别,一行文本代表一个工单诉求并添加文本类别标签,删除除了字母、数字和汉字以外的所有符号和停用词,使用jieba分词工具对每行的工单诉求文本进行分词。
2)供电服务客户诉求文本词向量生成:将预处理过后的每行供电服务客户诉求文本输入到bert预训练模型中,解决一词多义的问题,获得基于语义的动态词向量表示第i个单词对应的维度为D 1的向量,w i表示每行供电客户诉求文本中第i个单词,L 1表示每行供电服务客户诉求文本中的单词个数。
3)基于字向量的编码与依赖关系获取:基于字向量的编码与传统的基于词向量的编码不同,实现了更细粒度的编码,假设每行供电服务客户诉求文本中的字集合,其中表示每行工单诉求文本中第i个字,将这些字映射到高维空间,得到字向量,其中表示第i个单词对应的维度为D 2的字向量,L 2表示每行供电服务客户诉求文本中字的个数。
在句子中,因为每个字之间是相对独立的,因此,采用N-garm卷积操作获取供电客户诉求文本中字之间的相互依赖关系,生成短语特征,然后通过最大池化操作获取重要的语义特征并进行拼接,得到基于字的供电服务客户诉求文本特征向量。
5)获得词向量间的相互关系:采用自注意力机制获得每个供电服务客户诉求文本单词间的相互关系。
6)供电客户诉求文本胶囊聚合:采用EM-Routing动态路由算法将单词胶囊聚合成供电服务客户诉求文本胶囊,获得单词间的语义信息关系。
7)计算损失值:采用间隔损失函数计算每行供电服务客户诉求文本的正类与负类之间距离为m的损失值L i,并将其正类与负类的损失值相加得到总的损失值L。损失函数L越小,则分类准确率越高,最终提高供电服务客户诉求文本的分类准确率。
该方法的优势如下:突破长文本语义获取困难的缺点,通过基于字向量的编码,更细粒度的表达诉求文本全局语义和语序特征,将每个单词聚合成胶囊,更进一步的获得词与词之间的语义信息关系,提升了文本重要特征提取能力,最终提高了客户服务工单中诉求文本分类的准确率。
附图说明
图1为本发明的一种基于胶囊网络的供电服务客户诉求文本分类方法框架图。
图2为本发明采用矩阵胶囊网络实现文本分类的具体流程。
具体实施方式
下面结合附图和具体实施方式对本发明所属方法进一步说明。
一种基于胶囊网络的供电服务客户诉求文本分类方法,图1为本发明的基于胶囊网络的供电服务客户诉求文本分类方法框架图,包括:(1)对大量的供电服务客户诉求文本进行预处理;(2)训练生成客户诉求文本词向量;(3)对字向量进行编码并获得字与字向量之间的相互依赖关系;(4)基于字与词向量的文本特征融合;(5)获得单词与单词向量之间的相互依赖关系;(6)使用EM-Routing算法将单词胶囊聚合成文本胶囊;(7)计算正类与负类的损失值。最终提高供电客户诉求文本的分类准确率。图2为本发明采用矩阵胶囊网络实现文本分类的具体流程。具体实施方式如下:
步骤1、供电服务客户诉求文本预处理
将95598的所有客户诉求内容按文本形式分为举报、建议、表扬、投诉、查询、报修、以往业务、反映类别,一行文本代表一个供电客户诉求文本并添加文本类别标签,使用jieba分词工具对每行的供电客户诉求文本进行分词。
步骤2、供电服务客户诉求文本词向量生成
步骤3、基于字向量的编码与依赖关系获取
与传统的基于词向量的编码不同,实现了更细粒度的编码,采用N-garm卷积操作获取供电客户诉求文本中字之间的相互依赖关系。
3.1基于字向量的编码:设每行供电客户诉求文本中的字集合,其中表示每行供电客户诉求文本中第i个字,将这些字映射到高维空间,得到字向量,其中 表示第i个单词对应的维度为D 2的字向量,L 2表示每行供电客户诉求文本中字的个数。
3.2基于字的文本特征向量获取
3.2.1生成短语特征:在句子中,因为每个字之间是相对独立的,因此,首先采用N-garm卷积操作获取供电客户诉求文本中字之间的相互依赖关系即客户诉求文本的局部特征,生成短语特征。假设表示字向量之间的拼接,字卷积过程为:,其中,k表示卷积核的大小,b 1表示偏置项,表示生成的局部短语特征,D 3表示生成的短语个数,f表示ReLU非线性激活函数,在句子的不同位置采用卷积操作,生成的短语特征为。
步骤4、基于字与词向量的诉求文本特征融合
步骤5、获得词向量间的相互依赖关系
采用自注意力机制获得每个供电客户诉求文本单词间的相互依赖关系。
步骤6、供电服务客户诉求文本胶囊聚合
采用EM-Routing动态路由算法将单词胶囊聚合成供电客户诉求文本胶囊,获得词间的语义信息关系。
6.2对概率密度取对数
6.4计算高层胶囊j的激活值
步骤7、计算损失值
Claims (6)
1.一种基于胶囊网络的供电服务客户诉求文本分类方法,其特征在于包括以下步骤:
1)供电服务客户诉求文本预处理:首先获取诉求文本,并添加文本类别标签,删除停用并进行分词;
2)供电服务客户诉求文本词向量生成:将预处理过后的每行诉求文本输入到bert预训练模型中,解决一词多义的问题;
3)基于字向量的编码与依赖关系获取:采用基于字的更细粒度的诉求文本编码方式,采用N-garm卷积操作获取诉求文本中字与字之间的相互依赖关系;
4)基于字与词向量的诉求文本特征融合:将基于字和基于词的诉求文本特征向量进行融合,得到融合向量;
5)获得词向量间的相互依赖关系:采用自注意力机制获得每个诉求文本单词间的相互依赖关系;
6)供电服务客户诉求文本胶囊聚合:采用EM-Routing动态路由算法将单词胶囊聚合成诉求文本胶囊,获得词间的语义信息关系;
7)计算损失值:采用间隔损失函数计算诉求文本正类与负类的损失值;
步骤2)中bert预训练模型过程为:将预处理过后的每行供电服务客户诉求文本输入到bert预训练模型中;首先获得基于语义的动态词向量 表示第i个单词对应的维度为D1的向量,wd表示每行供电客户诉求文本中第d个单词,L1表示每行供电服务客户诉求文本中的单词个数;
步骤3)中基于字向量的编码方法为:设每行供电客户诉求文本中的字集合 其中cs表示每行供电客户诉求文本中第s个字,将这些字映射到高维空间,得到字向量其中eo表示第o个单词对应的维度为D2的字向量,L2表示每行供电客户诉求文本中字的个数;
步骤3)中字与字之间的依赖关系获取,具体如下:
3.1生成短语特征:在句子中,因为每个字之间是相对独立的,因此,首先采用N-garm卷积操作获取供电客户诉求文本中字之间的相互依赖关系即客户诉求文本的局部特征,生成短语特征;假设Xi:j表示词向量xi,xi+1,…,xj之间的拼接,字卷积过程为: 其中WEi表示权重矩阵,bi表示偏置项,K表示卷积核的大小,表示生成的局部短语特征,D3表示生成的短语个数,f表示ReLU非线性激活函数,在句子的不同位置采用卷积操作,生成的短语特征为 zm表示第m个特征短语;
2.根据权利要求1所述的基于胶囊网络的供电服务客户诉求文本分类方法,其特征在于:步骤1)中诉求文本预处理过程为:先将所有客户诉求内容按文本形式分为举报、建议、表扬、投诉、查询、报修、以往业务、反映类别,一行文本代表一个客户诉求文本并添加文本类别标签,删除除了字母、数字和汉字以外的所有符号和停用词,使用jieba分词工具对每行的诉求文本进行分词。
6.根据权利要求1所述的一种基于胶囊网络的供电服务客户诉求文本分类方法,其特征在于:步骤7)计算损失值,采用间隔损失函数计算每行供电客户诉求文本的正类与负类之间距离为n的损失值Lv=(max(0,n-(at-av)))2,at表示正类,av表示负类,然后将损失值相加得到总的损失值L=∑v≠tLv。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011332961.4A CN112131391B (zh) | 2020-11-25 | 2020-11-25 | 一种基于胶囊网络的供电服务客户诉求文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011332961.4A CN112131391B (zh) | 2020-11-25 | 2020-11-25 | 一种基于胶囊网络的供电服务客户诉求文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131391A CN112131391A (zh) | 2020-12-25 |
CN112131391B true CN112131391B (zh) | 2021-09-17 |
Family
ID=73852093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011332961.4A Active CN112131391B (zh) | 2020-11-25 | 2020-11-25 | 一种基于胶囊网络的供电服务客户诉求文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131391B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590813A (zh) * | 2021-01-20 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 文本分类方法、推荐方法、装置及电子设备 |
CN112883167A (zh) * | 2021-03-18 | 2021-06-01 | 江西师范大学 | 基于层次化自制力机制胶囊网络的文本情感分类模型 |
CN113158679B (zh) * | 2021-05-20 | 2023-07-04 | 广东工业大学 | 基于多特征叠加胶囊网络的海洋产业实体识别方法及装置 |
CN113657118B (zh) * | 2021-08-16 | 2024-05-14 | 好心情健康产业集团有限公司 | 基于通话文本的语义分析方法、装置和*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN111078833A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
CN111259157A (zh) * | 2020-02-20 | 2020-06-09 | 广东工业大学 | 一种基于混合双向循环胶囊网络模型的中文文本分类方法 |
CN111475622A (zh) * | 2020-04-08 | 2020-07-31 | 广东工业大学 | 一种文本分类方法、装置、终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319666B (zh) * | 2018-01-19 | 2021-09-28 | 国网浙江省电力有限公司营销服务中心 | 一种基于多模态舆情分析的供电服务评估方法 |
-
2020
- 2020-11-25 CN CN202011332961.4A patent/CN112131391B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN111078833A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
CN111259157A (zh) * | 2020-02-20 | 2020-06-09 | 广东工业大学 | 一种基于混合双向循环胶囊网络模型的中文文本分类方法 |
CN111475622A (zh) * | 2020-04-08 | 2020-07-31 | 广东工业大学 | 一种文本分类方法、装置、终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于多头注意力胶囊网络的文本分类模型;贾旭东等;《清华大学学报 (自然科学版)》;20200531;第60卷(第5期);第415-420页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112131391A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131391B (zh) | 一种基于胶囊网络的供电服务客户诉求文本分类方法 | |
CN111783474B (zh) | 一种评论文本观点信息处理方法、装置及存储介质 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN110990525A (zh) | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN111259153B (zh) | 一种完全注意力机制的属性级情感分析方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及*** | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及*** | |
CN112183056A (zh) | 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和*** | |
CN114036955B (zh) | 中心词跨句事件论元检测方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN115098634A (zh) | 一种基于语义依存关系融合特征的舆情文本情感分析方法 | |
CN113408287A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN114722198A (zh) | 产品分类编码确定方法、***及相关装置 | |
TW202034207A (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN112100389A (zh) | 一种长文本分类方法及装置 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、***、介质和计算设备 | |
CN113051396B (zh) | 文档的分类识别方法、装置和电子设备 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN113886530A (zh) | 一种语义短语抽取方法及相关装置 | |
CN113010680A (zh) | 电力工单文本分类方法、装置及终端设备 | |
CN112270185A (zh) | 一种基于主题模型的文本表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |