CN109376241A

CN109376241A - 一种基于DenseNet面向电力领域的电话诉求文本分类算法

Info

Publication number: CN109376241A
Application number: CN201811208673.0A
Authority: CN
Inventors: 王亿; 陆岷; 章晨璐; 汪宇杰; 李豪帅; 吴亦灵; 孔锋峰; 邱海锋; 陈杰; 翁利国; 陈辉
Original assignee: State Grid Corp of China SGCC; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd
Current assignee: State Grid Corp of China SGCC; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-02-22
Anticipated expiration: 2038-10-17
Also published as: CN109376241B

Abstract

本发明公开了一种基于DenseNet面向电力领域的电话诉求文本分类算法，属于文本分类算法技术领域，通过对待分类的文本进行预处理、数据增广、建立词汇字典、词向量id匹配、词向量降维、拼接特征值和随机排列组合拼接后的特征值等操作后获得文本分类器，利用该文本分类器对文本进行分类。本发明提供的基于DenseNet面向电力领域的电话诉求文本分类算法，能有效弥补传统算法的不足，很好的适应电力诉求文本存在的专业性强、长度差异大、文字和数字混杂等特点，能在保证分类准确率的前提下降低模型的复杂度，实现对电力领域的电话诉求文本进行快速、准确的分类，很好的满足分类要求。

Description

一种基于DenseNet面向电力领域的电话诉求文本分类算法

技术领域

本发明涉及文本分类算法技术领域，尤其涉及一种基于DenseNet面向电力领域的电话诉求文本分类算法。

背景技术

随着电网建设的普及和完善，电网用户也越来越多，为了保障电网供电的稳定性、提高用户用电的满意度，电网公司搭建了电话反馈平台，用户可以通过电话反馈平台咨询服务内容、反映用电故障、对电网公司做出评价、向电网公司提出意见或投诉等。为了通过电话反馈平台更好的完善电网公司的建设和服务，需要对电话诉求文本进行分类。现有的分类方法一般是通过卷积神经网络模型对文本进行分类，但是此种分类方法需要较为全面的语料库，而且输出特征单一，利用此种手段对电力领域电话诉求文本这类短文本进行分类存在很大的缺陷。为了改进利用卷积神经网络对电话诉求文本进行分类存在的缺陷，需要通过增加最大池化层和使用不同尺寸的过滤器来增加特征输出，同样，此种改进手段也需要更大的语料库，不同尺寸的过滤器也增加了模型的训练参数量。另外，还需要改变文本特征的流动方式，通过密集连接卷积网络使浅层特征在深层流动，增加特征学习的多样性，提高分类效果。但是，此种手段会加深网络层次，需要训练的参数量巨大，而且对文本特征稀疏性比较敏感，分类速度较慢，不能很好的满足电力领域内对电话诉求文本进行分类的要求。

发明内容

为了解决上述现有技术中存在的缺点和不足，本发明提供了一种模型复杂度低且分类效果好的基于DenseNet面向电力领域的电话诉求文本分类算法。

为了实现上述技术目的，本发明提供的基于DenseNet面向电力领域的电话诉求文本分类算法，包括以下步骤，

S1、获取待分类的电话诉求文本；

S2、对步骤S1中获取的电话诉求文本进行预处理；

S3、根据步骤S2中预处理后的电话诉求文本进行数据增广；

S4、根据步骤S3中增广后的数据建立词汇字典；

S5、根据步骤S4中建立的词汇字典进行词向量id匹配；

S6、对步骤S5中匹配后的词向量进行词向量降维；

S7、采用ResNet和DenseNet-BC对步骤S6中降维后的词向量进行1×1卷积层处理，并对经卷积层处理后得到的相同尺寸的特征值进行拼接；

S8、对步骤S7中拼接后的特征值进行随机排列得到高层次特征；

S9、利用步骤S8中得到的高层次特征对电话诉求文本进行分类，实现分类目的。

优选的，所述步骤S2中对待分类的电话诉求文本进行的预处理包括去重处理、去噪处理、去停用处理和文本分词处理。

优选的，所述步骤S2中采用欧式距离对待分类的电话诉求文本进行去重处理。

优选的，所述步骤S2中采用基于DOM树的哈希值对待分类的电话诉求文本进行去噪处理。

优选的，所述步骤S2中通过新建专用于电力领域的停用词库实现对待分类的电话诉求文本进行去停用处理。

优选的，所述步骤S2中采用jieba语言模型对待分类的电话诉求文本进行切词实现文本分词处理。

优选的，所述步骤S4中采用双数组trie树法建立词汇字典。

优选的，所述步骤S6中对one-hot形式的词向量进行主成分分析降维。

优选的，所述步骤S7中通过公式一对特征值进行拼接，

其中，R_k表示采用ResNet经1×1卷积层处理后得到的特征值，D_k表示采用DenseNet-BC经1×1卷积层处理后得到的特征值，C_k表示拼接后的特征值，x_k+1表示第k+1层的输入，H表示激活函数。

采用上述技术方案后，本发明提供的基于DenseNet面向电力领域的电话诉求文本分类算法具有如下优点：

1、本发明提供的基于DenseNet面向电力领域的电话诉求文本分类算法，能有效弥补传统算法的不足，很好的适应电力诉求文本存在的专业性强、长度差异大、文字和数字混杂等特点，能在保证分类准确率的前提下降低模型的复杂度，实现对电力领域的电话诉求文本进行快速、准确的分类，很好的满足分类要求。

预处理主要包括清理和规范化，目的在于提高文本数据质量，以便在分类时提高执行效率。根据文本进行数据增广能在数据量较少的情况下通过对原始数据进行变换达到增加训练数据量的目的，从而解决电力领域的电话诉求文本存在的特征稀疏的问题。根据增广后的数据建立词汇字典能有效提高空间利用率和效率，有利于缩短训练时间。根据建立的词汇字典进行词向量id匹配即对每个单词匹配一个词向量，避免对词向量的重复训练，从而有效降低网络训练的参数量、复杂度和训练时间。对词向量进行降维能降低词向量的维度，避免因词向量维度过高导致模型参数过多，减少模型对参数的学习，有利于降低模型复杂度。对处理后的两组相同尺寸的特征值进行拼接能实现边缘特征表达和浅层特征流动，还能减少冗余特征的流动，同时减少不必要的特征学习和参数迭代。对拼接后的特征进行随机组合能防止模型过拟合，将得到的高层次特征作为输入能提高模型的分类准确度。利用混合后的高层次特征作为神经网络的输入量实现对电话诉求文本的分类，有效提高分类的速度和准确性。

2、对待分类的电话诉求文本的预处理包括去重处理、去噪处理、去停用处理和文本分词处理，去重处理采用欧氏距离实现，计算各个文本的欧氏距离，且只保留一个距离较近的文本，提高去重的准确度。去噪处理能将文本中与分类无关的部分作为噪声去除，从而有利于提高分类的准确度。将文本中的词与停用词库中的词一一比较，若为停用词则将该词从文本中删除，提高数据质量。采用jieba语言模型对文本进行切词实现文本分词处理，以便后续步骤中能根据分词得到的词语进行合理的数据增广。

3、由于one-hot形式的词向量是有多少单词就有多少词向量，为了避免词向量维度***，需要对此种形式的词向量进行降维。主成分分析降维通过计算词向量协方差矩阵的特征值和特征向量选取最大的若干个特征值作为主成分，然后将原词向量乘以与选取的最大特征值对应的特征向量矩阵得到降维后的词向量，实现降维目的。

附图说明

图1为本发明实施例一基于DenseNet面向电力领域的电话诉求文本分类算法的流程示意图；

图2为本发明实施例中几种模型对EPCT文本进行分类的时间-错误率折线图；

图3为本发明实施例中几种模型对THUCNews文本进行分类的时间-错误率折线图；

图4为本发明实施例中几种模型对EPCT文本进行训练的错误率-训练数据规模的趋势图；

图5为本发明实施例中几种模型对THUCNews文本进行训练的错误率-训练数据规模的趋势图；

图6为本发明实施例中几种模型对EPCT文本进行分类的运算时间柱状图；

图7为本发明实施例中几种模型对THUCNews文本进行分类的运算时间柱状图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。需要理解的是，下述的“上”、“下”、“左”、“右”、“纵向”、“横向”、“内”、“外”、“竖直”、“水平”、“顶”、“底”等指示方位或位置关系的词语仅基于附图所示的方位或位置关系，仅为了便于描述本发明和简化描述，而不是指示或暗示所指的装置/元件必须具有特定的方位或以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一

如图1所示，本发明实施例一提供的一种基于DenseNet面向电力领域的电话诉求文本分类算法，包括以下步骤，

S1、获取待分类的电话诉求文本；

S2、对步骤S1中获取的电话诉求文本进行预处理；

S3、根据步骤S2中预处理后的电话诉求文本进行数据增广；

S4、根据步骤S3中增广后的数据建立词汇字典；

S5、根据步骤S4中建立的词汇字典进行词向量id匹配；

S6、对步骤S5中匹配后的词向量进行词向量降维；

上述步骤S1中，可以通过平台调取等方式获得待分类的电话诉求文本。

上述步骤S2中，对待分类的电话诉求文本进行的预处理包括以下步骤，

步骤S201、去重处理：采用欧式距离对待分类的电话诉求文本进行去重处理，计算各个文本的欧氏距离，只保留一个距离较近的文本，提高去重的准确度；

步骤S202、去噪处理：采用基于DOM树的哈希值对待分类的电话诉求文本进行去噪处理，将文本中与分类无关的部分作为噪声去除；

步骤S203、去停用处理：新建专用于电力领域的停用词库，将文本中的词与停用词库中的词一一比较，若为停用词则将该词从文本中删除，实现去停用处理，提高数据质量；

步骤S204、文本分词处理：采用jieba语言模型对待分类的电话诉求文本进行切词，实现文本分词处理，以便后续步骤S3中能根据分词得到的词语进行合理的数据增广。

上述步骤S3中，通过数据增广添加电力领域的专业词汇，提高模型对数据的泛化能力。

上述步骤S4中，根据增广后的数据采用双数组trie树法建立词汇字典，有效提高空间利用率和效率，同时有利于缩短训练时间。

上述步骤S5中，根据建立的词汇字典进行词向量id匹配，即对每个单词匹配一个词向量，避免对词向量的重复训练，从而有效降低网络训练的参数量、复杂度和训练时间。

上述步骤S6中，由于one-hot形式的词向量是有多少单词就有多少词向量，为了避免词向量维度***，需要对此种形式的词向量进行降维。主成分分析降维通过计算词向量协方差矩阵的特征值和特征向量选取最大的若干个特征值作为主成分，然后将原词向量乘以与选取的最大特征值对应的特征向量矩阵得到降维后的词向量，实现降维目的。通过对词向量进行降维能避免因词向量维度过高导致模型参数过多的情况，减少模型对参数的学习，有利于降低模型复杂度。

上述步骤S7中，通过公式一对特征值进行拼接，

对处理后的两组相同尺寸的特征值进行拼接能实现边缘特征表达和浅层特征流动，还能减少冗余特征的流动，同时减少不必要的特征学习和参数迭代。

上述步骤S8中，对拼接后的特征进行随机组合能防止模型过拟合，将得到的高层次特征作为输入能提高模型的分类准确度。

上述步骤S9中，通过步骤S8得到的高层次特征形成文本分类器，利用混合后的高层次特征作为神经网络的输入量实现对电话诉求文本的分类，有效提高分类的速度和准确性。

为了检验本实施例的分类算法的效果，本实施例还设计了以下实验。

实验环境的硬件配置为4GB RAM、Nvidia Geforce GTX 970M、显存3GB，集成配置为anaconda3(64bit)+python(3.6)+spyder，实验框架为tensorflow(1.1.0)。

实验数据，为了更好的评价模型，本实验选择了领域、数据规模、分类数均不同的数据集，具体特征性信息见表1。其中，THUCNews为标准的新闻文本分类数据集，EPCT(电力诉求文本)包括95598全年的受理文本数据。

表1.数据集特征信息表

名称	分类数	数量	平均文本长度	训练/验证/测试	领域
						THUCNews	20	20000	236	12000/4000/4000	新闻
EPCT	7	5000	93	12000/4000/4000	电力领域的诉求

模型参数配置，由于本发明的分类算法是在特征值的尺寸相同的前提下进行拼接的，因此，在3×3卷积层、2×2平均池化层后添加1×1卷积层来改变特征的映射尺寸，相关的模型参数值设置见表2。

表2.模型的参数值设置

参数名称	参数值
		嵌入层尺寸	64
句长上限	600
		词汇数量	500
隐含层尺寸	128
		批尺寸	64
迭代次数	10

评价指标，选用错误率、F1分数和模型运算时间作为评价指标，对模型进行多角度、全方位的评价。

模型对比，首先从错误率的角度评价One-hot与Word2vec词向量模型以及不同组合模型的表现，错误率的具体对比参加表3。由表3可知，本实施例的分类算法在两种数据集的处理上均获得了优于其他算法的处理效果，尤其是在对EPCT的数据处理上，错误率低至7.63％。

表3.几种模型处理数据集的错误率对比表

算法的模型组合	THUCNews	EPCT
			one-hot+CNN	11.47	9.5
word2vec+CNN	8.46	8.21
			one-hot+Densenet	8.34	7.92
word2vec+Densenet	8.21	7.75
			本实施例的分类算法	8.06	7.63

其次，针对本实施例改进所在的拼接操作对拼接前后选择表现最优的F1分数作为评价结果，具体参见表4。从表4可知，本实施例采用拼接操作的模型在多个类别中都取得了较好的效果。

表4.拼接前后的F1分数对比表

另外，根据图2、图3可知，本实施例分类算法在模型效率方面的改进取得了不错的效果，本实施例分类算法的模型通过训练对EPCT文本进行分类的错误率可低至7.5％，对THUCNews文本进行分类的错误率可低至8.6％。

针对不同规模的训练集，错误率与训练数据规模的走势图如图4、图5所示。由图4、图5可知，本发明提供的模型在两种数据集上的优势都较为明显，尤其是处理EPCT数据集时，在训练数据规模不大的情况下仍能取得较好的效果。

最后，通过模型的运算时间作为指标来评价模型的效率，如图6、图7所示，相比于one-hot+Densenet模型，本实施例分类算法的模型在处理EPCT文本时的运算时间缩短了40％左右，在处理THUCNews文本时的运算时间缩短了35％左右。因此，本实施例的分类算法能快速、准确、高效的对电力领域的电话诉求文本进行分类，更好的满足分类要求。

可以理解的是，本实施例中采用欧氏距离对待分类的电话诉求文本进行去重处理的具体方法可以参考现有技术。

可以理解的是，本实施例中采用基于DOM树的哈希值对待分类的电话诉求文本进行去噪处理的具体方法可以参考现有技术。

可以理解的是，本实施例中采用jieba语言模型对待分类的电话诉求文本进行切词的具体方法可以参考现有技术。

可以理解的是，本实施例中采用双数组trie树法建立词汇字典的具体方法可以参考现有技术。

可以理解的是，本实施例中对one-hot形式的词向量进行主成分分析降维的具体方法可以参考现有技术。

除上述优选实施例外，本发明还有其他的实施方式，本领域技术人员可以根据本发明作出各种改变和变形，只要不脱离本发明的精神，均应属于本发明权利要求书中所定义的范围。

Claims

1.一种基于DenseNet面向电力领域的电话诉求文本分类算法，其特征在于，包括以下步骤，

S1、获取待分类的电话诉求文本；

S2、对步骤S1中获取的电话诉求文本进行预处理；

S3、根据步骤S2中预处理后的电话诉求文本进行数据增广；

S4、根据步骤S3中增广后的数据建立词汇字典；

S5、根据步骤S4中建立的词汇字典进行词向量id匹配；

S6、对步骤S5中匹配后的词向量进行词向量降维；

2.根据权利要求1所述的电话诉求文本分类算法，其特征在于，所述步骤S2中对待分类的电话诉求文本进行的预处理包括去重处理、去噪处理、去停用处理和文本分词处理。

3.根据权利要求2所述的电话诉求文本分类算法，其特征在于，所述步骤S2中采用欧式距离对待分类的电话诉求文本进行去重处理。

4.根据权利要求2所述的电话诉求文本分类算法，其特征在于，所述步骤S2中采用基于DOM树的哈希值对待分类的电话诉求文本进行去噪处理。

5.根据权利要求2所述的电话诉求文本分类算法，其特征在于，所述步骤S2中通过新建专用于电力领域的停用词库实现对待分类的电话诉求文本进行去停用处理。

6.根据权利要求2所述的电话诉求文本分类算法，其特征在于，所述步骤S2中采用jieba语言模型对待分类的电话诉求文本进行切词实现文本分词处理。

7.根据权利要求1所述的电话诉求文本分类算法，其特征在于，所述步骤S4中采用双数组trie树法建立词汇字典。

8.根据权利要求1所述的电话诉求文本分类算法，其特征在于，所述步骤S6中对one-hot形式的词向量进行主成分分析降维。

9.根据权利要求1-8任一项所述的电话诉求文本分类算法，其特征在于，所述步骤S7中通过公式一对特征值进行拼接，