CN113987170A

CN113987170A - 基于卷积神经网络的多标签文本分类方法

Info

Publication number: CN113987170A
Application number: CN202111205909.7A
Authority: CN
Inventors: 徐建; 丁钦峻
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-01-28

Abstract

本发明公开了一种基于卷积神经网络的多标签文本分类方法，包括以下步骤：步骤1，文本文件预处理，训练词嵌入模型；步骤2，训练卷积神经网络模型；步骤3，训练阈值线性分类器；步骤4，预测未知样本关联标签集合。本发明提出的多标签文本分类方法，能够通过训练卷积神经网络模型，并与阈值分类器结合，预测未知样本的关联标签集合；该方法克服了过去卷积神经网络中的缺陷，并继承了其优点，提出新的网络结构，有效提高了多标签文本分类准确度。

Description

基于卷积神经网络的多标签文本分类方法

技术领域

本发明属于多标签文本分类技术领域，特别是一种卷积神经网络的多标签文本分类方法。

背景技术

在传统分类方法中，一个样本只能关联于一个标签，但是真实世界中一个对象通常具有多义性，即通常属于多个类别，这使得传统的单标签学习框架不再适用。而多标签分类在完成训练后，能够自动地为样本分配一个和多个类别标签，能够更好适应。并且相比每个样本仅关联于一个类别标签的单标签学习框架而言，多标签学习框架中的每个样本可以与多个类别标签相关联，其目的是通过学习给定的多标签训练集来有效预测未知样本所属的标签集合。除此之外，多标签分类面临算法复杂度更高、相关标签数目不确定等问题(Zhang Y,Li Y,Zhi C.Correlation-based pruning of dependent binary relevancemodels for Multi-label classification[C].2015IEEE 14th InternationalConference on Cognitive Informatics&Cognitive Computing(ICCICC),2015.)，难度更大。目前，多标签分类方法不仅应用于文本分类，还应用于生物信息学、图像标注以及信息检索等多个领域。因此如何构建具有优秀性能的多标签分类器是目前多标签分类领域的重要研究课题。

在传统机器学习方法中，往往将多标签分类问题转化为多个单标签分类问题，这需要训练多个分类器。当标签空间庞大时，这种方法显然是不适用的。有的方法则是通过对单标签分类方法进行改进得到的，这类方法虽然只需要训练一个分类器就能解决多标签分类问题(Zhang M-L,Zhou Z-H.A review on multi-label learning algorithms[J].IEEEtransactions on knowledge and data engineering,2013,26(8):1819-1837.)，但仍然无法克服传统机器学习中存在的劣势，即特征提取。在传统机器学习方法中，面对不同问题或者不同类型的数据时，研究人员需要人工设计不同的特征提取模型。深度学习(Goodfellow I,Bengio Y,Courville A,et al.Deep learning[M].1.MIT pressCambridge,2016.)方法正好可以克服这一问题。深度学习是机器学习的一种，相较于传统机器学习方法，它的最大优势就是其特征提取并不依靠人工，而是机器自动提取。并且在训练数据充足的情况下，深度学习拥有更好泛化能力和预测精度。

卷积神经网络(CNN)是深度学习中一种典型网络结构。CNN通过卷积核进行特征提取，在特征提取的同时还能够有效压缩特征个数。目前有许多基于卷积神经网络的深度学习方法被用于解决多标签分类问题，并且都取到了不错的效果。但这些方法都有各自的局限性，各自在卷积或者池化部分都还有不足之处。

发明内容

本发明的目的在于提供一种基于卷积神经网络的多标签文本分类方法。

实现本发明目的的技术解决方案为：一种基于卷积神经网络的多标签文本分类方法，包括以下步骤：

步骤1，文本预处理，训练词嵌入模型，过程如下：

给定一个训练样本集合T；对集合中的每个文本去除其中的停止词、数字以及标签符号，得到处理过的训练样本集合T′，使用Word2Vec方法训练得到词嵌入模型；获得词嵌入矩阵M；

步骤2，训练卷积神经网络模型，过程如下：

该网络模型由嵌入层、卷积层、池化层、瓶颈层以及输出层组成；使用词嵌入矩阵M初始化嵌入层参数，根据样本集合T中的样本长度分布情况对每个样本进行截取或填充作为神经网络的输入；通过多轮训练优化网络参数，最后得到卷积神经网络模型Model；

步骤3，训练阈值线性分类器，过程如下：

将每个训练样本重新输入到训练好的模型Model中得到输出向量集合Outputs，结合每个训练样本的真实标签得到阈值集合Thre；再求训练样本的one-hot编码向量集合V，使用Thre和V训练线性分类器S；

步骤4，预测未知样本关联标签集合，过程如下：

求得未知样本的one-hot编码向量作为线性回归分类器S的输入预测出未知样本的阈值；将未知样本作为网络模型Model的输入得到预测向量；结合阈值与预测向量得到未知样本的标签集合。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于卷积神经网络的多标签文本分类方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于卷积神经网络的多标签文本分类方法的步骤。

本发明与现有技术相比，其优点在于：(1)在池化层与输出层之间加入瓶颈层，能有效减少网络参数并得到更准确的文本表示；(2)使用一维卷积核得到包含更多信息的特征图谱；(3)提出一种的新的池化方法——重叠方式的动态均值池化方法。该方法将特征图谱的列向量分为有重叠的段，不仅保留了特征值的位置属性，还考虑到不同段内特征值之间的内在联系，并使用求平均操作而不是求最大值操作保留了更多重要信息。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是卷积神经网络结构图。

具体实施方式

为了克服现存卷积神经网络方法中的缺陷，并保留其优点，本发明提出一种新的基于卷积神经网络的多标签文本分类方法，名为AE-CNN，这种方法通过训练集训练得到卷积神经网络模型后，高效地预测未知样本的关联标签集合。通过对池化操作的创新以及对过去方法优势的综合继承，得到了更高的分类准确率。使用一维卷积核得到包含更多信息的特征图谱，并且提出一种的新的池化方法--重叠方式的动态均值池化方法。该方法将特征图谱的列向量分为有重叠的段，不仅保留了特征值的位置属性，还考虑到不同段内特征值之间的内在联系，并使用求平均操作而不是求最大值操作保留了更多重要信息。

结合图1，基于卷积神经网络的多标签文本分类方法，包括以下步骤：

步骤1，文本预处理，训练词嵌入模型的具体步骤如下：

步骤1.1，给定一个包含多个文本文件训练集合T＝{text₁，text₂，…，text_n}，以及每个文本对应的真实标签集合Y_set＝{Y₁，Y₂，…，Y_n}，Y_i表示text_i的关联标签集合。

步骤1.2，首先删除文本中的换行符、跳格符、回车符。利用token化工具将文本分词，再对单词进行词形还原。借助nltk工具包中的停止词集合，删除文本中的停止词，最后再利用正则表达式去除文本中的标签符号和数字，就得到了处理过的训练集合T′＝{text′₁，text′₂，…，text′_n}。

步骤1.3，将T′作为输入，使用Word2Vec方法训练词嵌入模型emdModel。利用sklearn工具获得T′的词汇表voc，对于voc中的每个单词通过emdModel求得词向量组成词向量矩阵M∈R^v×d，其中v为词汇表大小，d为emdModel输出的词向量长度。

步骤2，训练卷积神经网络模型的具体步骤如下：

步骤2.1，计算T′中文本长度分布情况以及平均文本长度，输入到卷积神经网络的文本长度设置为平均文本长度与分布最密集文本长度的中间值len。然后对T′中长度大于len的文本进行截取，长度小于len的文本进行填充。将进行过长度处理的文本作为神经网络的输入。

步骤2.2，该网络模型由嵌入层、卷积层、池化层、瓶颈层以及输出层组成。使用词嵌入矩阵M初始化嵌入层参数，当输入一个长度为len文本时，嵌入层会输出文本的词向量矩阵M_text∈R^len×d。

步骤2.3，对M_text进行卷积操作，卷积操作使用a个相同尺寸的一维卷积核进行得到a个特征图谱。卷积操作公式为F(M_text，a×filter，step)→a×f_map，其中F代表卷积操作，step代表卷积核移动步长，filter∈R^h×l表示卷积核，f_map∈R^l×d代表得到的特征图谱，h表示池化核的长，l和d分别代表特征图谱的行数和列数。

步骤2.4，采用重叠方式的动态均值池化方法对特征图谱进行池化操作。池化操作仍然采用一维池化核。重叠方式的动态均值池化方法对f_map中的列向量进行分段，并且每段之间有部分重叠，再对每段进行均值操作求得一个特征值。假设t∈R^l是f_map的一个列向量，池化操作的具体公式为：

P_ave(t)＝[Avg(t_1：p)，Avg(t_s+1：p+s)，…，Avg(t_{ηs+1：p+ηs})]^T

其中p+ηs≤x，p为一维池化核的尺寸，η为分段数量，s为池化核移动步数，Avg表示求平均值操作，t_a：b表示向量t中第a到b位置的分量，P_ave(t)表示在列向量t上得到的池化结果。最后池化操作后的特征图谱为a×f_map′∈R^l′×d，其中f_map′表示池化后得到的特征图谱，a表示特征图谱个数，l′代表池化后得到的特征图谱的行数。

步骤2.5，经过卷积池化操作后，将得到的特征图谱抚平并于输入到瓶颈层得到更准确的文本表示，在标签空间庞大的情况下还可以显著减少网络参数。最后得到输出层输出，根据损失函数优化网络参数完成训练，得到网络模型Model。步骤3，训练阈值线性分类器的具体步骤如下：

步骤3.1，将处理过的训练集合T′输入到网络模型中得到输出向量集合Outputs＝{O₁，O₂，…，O_n}。对于输出向量O_i，若O_i第j个分量大于t_i则认为标签j与该样本关联。在这一前提下，结合训练样本的真实标签集合，以得到最大F1指数为目标求得阈值t_i。最后得到阈值集合Thre＝{t₁，t₂，…，t_n}。

步骤3.2，使用训练集训练得到向量生成器vectorizer，vectorizer可以将文本作为输入得到文本的one-hot编码向量。使用向量生成器得到训练集的one-hot编码向量集合，将该集合作为输入，训练样本的阈值集合Thre作为真实结果训练阈值线性分类器S，此处采用的线性分类器为RidgeCV模型，并且使用网格搜索技术寻找最佳参数，以达到更好的线性回归预测效果。

步骤4，预测未知样本关联标签集合的具体步骤如下：

步骤4.1，将待预测的未知样本text_uk按照步骤1.2中的方法进行预处理。并根据步骤2.1中得到的文本长度len对未知样本进行截取或填充得到处理过的未知样本text′_uk。

步骤4.2，将text′_uk作为完成训练的卷积神经网络Model的输入得到输出向量O_uk。使用向量生成器vectorizer生成未知样本的one-hot编码向量，将该向量输入到阈值线性分类器S中预测出阈值t_uk。在O_uk中，若

则第j个标签与该未知样本关联，其中

表示O_uk的第j个分量。这样就可以预测出未知样本的关联标签集合。

利用本发明与三种具有代表性的卷积神经网络方法，Kim-CNN、Lenc-CNN和XML-CNN进行对比。评价指标包括Hamming Loss(hloss)、Micro-averaging和Macro-averaging相关指标、one-error、Coverage、Ranking Loss(rloss)、Average Precision(AP)共十一项。使用的数据集包括Reuters-21578、RCV1-v2、AmazonCat-13K。分类效果对比如表1，2，3所示。

表1 Reuters-21578上的对比试验结果

表2 RCV1-v2上的对比试验结果

表3 AmazonCat-13K上的对比试验结果

实验结果表明，提出的新卷积神经网络多标签分类方法AE-CNN总体上优于其他方法。表格1，2，3中miP、miR、miF、maP、maR、maF六项指标，”mi”、”ma”分别表示Micro-averaging和Macro-averaging，”P”、”R”、”F”分别代表Precision，Recall.F1。

Claims

1.一种基于卷积神经网络的多标签文本分类方法，其特征在于，包括以下步骤：

步骤1，文本预处理，训练词嵌入模型，过程如下：

步骤2，训练卷积神经网络模型，过程如下：

步骤3，训练阈值线性分类器，过程如下：

步骤4，预测未知样本关联标签集合，过程如下：

2.根据权利要求1所述的基于卷积神经网络的多标签文本分类方法，其特征在于步骤1文本预处理，训练词嵌入模型的具体步骤如下：

步骤1.1，给定一个包含多个文本文件训练集合T＝{text₁，text₂，…，text_n}，以及每个文本对应的真实标签集合Y_set＝{Y₁，Y₂，…，Y_n}，Y_i表示text_i的关联标签集合；

步骤1.2，首先删除文本中的换行符、跳格符、回车符；利用token化工具将文本分词，再对单词进行词形还原；借助nltk工具包中的停止词集合，删除文本中的停止词，最后再利用正则表达式去除文本中的标签符号和数字，得到处理过的训练集合T′＝{text′₁，text′₂，…，text′_n}；

步骤1.3，将T′作为输入，使用Word2Vec方法训练词嵌入模型emdModel；利用sklearn工具获得T′的词汇表voc，对于voc中的每个单词通过emdModel求得词向量组成词向量矩阵M∈R^v×d，其中v为词汇表大小，d为emdModel输出的词向量长度。

3.根据权利要求2所述的基于卷积神经网络的多标签文本分类方法，其特征在于步骤2训练卷积神经网络模型的具体步骤如下：

步骤2.1，计算T′中文本长度分布情况以及平均文本长度，输入到卷积神经网络的文本长度设置为平均文本长度与分布最密集文本长度的中间值len；然后对T′中长度大于len的文本进行截取，长度小于len的文本进行填充；将进行过长度处理的文本作为神经网络的输入；

步骤2.2，该网络模型由嵌入层、卷积层、池化层、瓶颈层以及输出层组成；使用词嵌入矩阵M初始化嵌入层参数，当输入一个长度为len文本时，嵌入层会输出文本的词向量矩阵M_text∈R^len×d；

步骤2.3，对M_text进行卷积操作，卷积操作使用a个相同尺寸的一维卷积核进行得到a个特征图谱；卷积操作公式为F(M_text，a×filter，step)→a×f_map，其中F代表卷积操作，step代表卷积核移动步长，filter∈R^h×1表示卷积核，h表示池化核的长，f_map∈R^l×d代表得到的特征图谱，l和d分别代表特征图谱的行数和列数；

步骤2.4，采用重叠方式的动态均值池化方法对特征图谱进行池化操作；池化操作采用一维池化核；重叠方式的动态均值池化方法对f_map中的列向量进行分段，并且每段之间有部分重叠，再对每段进行均值操作求得一个特征值；池化操作后的特征图谱为a×f_map′∈R^l′×d，f_map′表示池化后得到的特征图谱，l′代表池化后得到的特征图谱的行数；

步骤2.5，经过卷积池化操作后，将得到的特征图谱抚平并于输入到瓶颈层得到更准确的文本表示；最后得到输出层输出，根据损失函数优化网络参数完成训练，得到网络模型Model。

4.根据权利要求3所述的基于卷积神经网络的多标签文本分类方法，其特征在于步骤3训练阈值线性分类器，步骤如下：

步骤3.1，将处理过的训练集合T′输入到网络模型中得到输出向量集合Outputs＝{O₁，O₂，…，O_n}；对于输出向量O_i，若O_i第j个分量大于t_i则认为标签j与该样本关联；在这一前提下，结合训练样本的真实标签集合，以得到最大F1指数为目标求得阈值t_i；最后得到阈值集合Thre＝{t₁，t₂，…，t_n}；

步骤3.2，使用训练集训练得到向量生成器vectorizer，vectorizer将文本作为输入得到文本的one-hot编码向量；使用向量生成器得到训练集的one-hot编码向量集合，将该集合作为输入，训练样本的阈值集合Thre作为真实结果训练阈值线性分类器S。

5.根据权利要求4所述的基于卷积神经网络的多标签文本分类方法，其特征在于步骤4预测未知样本关联标签集合，步骤如下：

步骤4.1，将待预测的未知样本text_uk按照步骤1.2中的方法进行预处理；并根据步骤2.1中得到的文本长度len对未知样本进行截取或填充得到处理过的未知样本text′_uk；

步骤4.2，将text′_uk作为完成训练的卷积神经网络Model的输入得到输出向量O_uk；使用向量生成器vectorizer生成未知样本的one-hot编码向量，将该向量输入到阈值线性分类器S中预测出阈值t_uk；在O_uk中，若

则第j个标签与该未知样本关联，其中

表示O_uk的第j个分量；即可预测出未知样本的关联标签集合。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～5中任一项所述基于卷积神经网络的多标签文本分类方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～5中任一项所述基于卷积神经网络的多标签文本分类方法的步骤。