CN116304842A

CN116304842A - 一种基于cfc结构改进的胶囊网络文本分类方法

Info

Publication number: CN116304842A
Application number: CN202310561043.6A
Authority: CN
Inventors: 张剑; 尹春勇
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-06-23

Abstract

本发明公开了一种基于CFC结构改进的胶囊网络文本分类方法，涉及自然语言处理文本分类技术领域，在传统胶囊网络的基础上，首先引入了CFC卷积全连接层作为胶囊的提取机制创建更少的初级胶囊提升分类效率；然后采用一种由反卷积层组成的新的解码器，捕获空间关系并且包含更少的参数；最后在胶囊网络中增加深度胶囊层筛选去除冗余胶囊提升网络的泛化能力，从而一方面提高了实验分类效率和分类准确率，另一方面也更适用于规模较大的数据集。

Description

一种基于CFC结构改进的胶囊网络文本分类方法

技术领域

本发明涉及自然语言处理文本分类技术领域，特别是涉及一种基于CFC结构改进的胶囊网络文本分类方法。

背景技术

现代社会互联网技术发展迅速，网络媒体也在不断地更新进步，人们逐渐愿意通过网络平台进行娱乐和社交。越来越多的用户使用网络平台发表自己的生活和评论，形成了庞大的社交文本数据。这些文本数据涉及新闻资讯、事件讨论、产品反馈、娱乐互动等众多方面，蕴含丰富的数据信息与文本资源，具有巨大的社会价值和商业价值。如何快速准确地挖掘并应用这些文本是当前的重大挑战，而文本分类技术是解决这一难题的思路之一。

文本分类是自然语言处理任务中的基础性工作，旨在整理和归类文本资源，以更好地理解和处理文本信息。文本分类的历史发展过程可以分为三个阶段。在20世纪60年代之前，文本主要通过人工的方法实现简单的类型分类，这种人工分类方法主要是基于常识和经验，随着文本数据量的不断增加，文本分类的效率和准确性越来越受到挑战。1960年代到2010年代是文本分类发展的第二阶段。在这个阶段，基于浅层的传统机器学习算法开始被陆续使用在文本分类任务中。与之前基于人工的方法相比，该类方法能够明显提升分类的效率和精度。但是传统机器学习仍然需要由大量人工干预的特征标注，对于大规模的文本数据集，这种方法的提升效果不大。2010年后文本分类正式步入深度学习阶段。随着深度学习技术的发展，文本分类技术也取得了长足的进步。深度学习模型可以自动从原始文本中学习到有用的特征表示，避免了传统机器学习需要人工干预的繁琐过程。此外，深度学习模型还能够处理非线性数据，适用于文本分类中复杂的关系和结构。相较于传统的机器学习在精确度、适应性、大数据处理效率等方面深度学习的效果更好。

传统的卷积神经网络(CNNs)虽然在文本分类领域有着不俗的表现，同时也存在着很多问题。最大池化层处理数据过程中，只有活跃度最高的神经元被传递到下一层，损失了许多可能对实验结果影响较重的信息。为解决CNN中层与层之间空间信息丢失的问题，2011年Hinton等人首次提出胶囊网络(CapsNet)作为卷积神经网络的替代的构思（Hinton G E,Krizhevsky A, Wang S D. Transforming auto-encoders[C]//Artificial NeuralNetworks and Machine Learning–ICANN 2011: 21stInternational Conference onArtificial Neural Networks, Espoo, Finland, June 14-17, 2011, Proceedings,Part I 21. Springer Berlin Heidelberg, 2011: 44-51.），基本单位使用胶囊取代神经元保留图像信息间的姿态信息和空间关系。而胶囊网络中不使用最大池化层并且通过创建一个基于部分到整体关系的表示来维护特征之间的空间层次结构。胶囊网络由于结构上的不同在短文本分类精度上比传统神经网络更具有优势，但往往需要更多的运行时间并且存在参数和精度滞后的问题。

发明内容

为了解决以上技术问题，本发明提供一种基于CFC结构改进的胶囊网络文本分类方法，包括以下步骤

S1、文本预处理；

S2、准备数据集；

S3、通过多尺度子网络对输入文本进行特征提取，多尺度子网络包括3个不同深度的尺度，每个尺度的深度对应该尺度中使用的卷积层数；

S4、使用不同维数的CFC层将上一步骤中提取到的特征转化为向量；

S5、将上一步骤中的输出向量通过仿射变换矩阵乘法生成大小和方向不同的胶囊，形成胶囊网络，胶囊网路包括初级胶囊层、深度胶囊层、卷积胶囊层以及全连接胶囊层；

S6、通过初级胶囊层的矢量输出胶囊产生实例化参数，通过初级胶囊层将低级特征进行封装，得到一组初级胶囊；

S7、通过深度胶囊层对初级胶囊进行筛选，筛选出最大活跃度的S个初级胶囊输出到卷积胶囊层；

S8、卷积胶囊层将输入的卷积结果压扁成一个胶囊列表，然后将其送入全连接胶囊层进行训练；

S9、全连接胶囊层的输入包括卷积胶囊层的输出和动态路由的输出，从而同时学习局部特征信息和全局特征信息，提取输入数据的特征表示。

本发明进一步限定的技术方案是：

进一步的，步骤S1中，文本预处理包括以下分步骤

S1.1、过滤掉文本中没有具体意义的停用词；

S1.2、过滤掉文本中的符号和特殊字符；

S1.3、使用分词工具对文本进行分词，若文本为英文则省略此步骤；

S1.4、将文本数据中的标签转化为可输入至计算机中的数值型数据。

前所述的一种基于CFC结构改进的胶囊网络文本分类方法，步骤S2中的数据集包括THUCnews数据集、CNH数据集以及TNEWS数据集；

THUCnews数据集为新浪新闻RSS订阅频道社会新闻数据集，通过其2005~2011年历史期间的原始历史数据，过滤生成74万篇短文本新闻文档，本数据集均为UTF-8纯文本数据集；

CNH数据集为中文新闻标题数据集，该数据集提供47952个可供训练的新闻标题，在经过去重处理后，保留了47850个训练集和15950个测试标题；

TNEWS数据集为今日头条新闻数据集，该数据集提取于今日头条新闻模块，其中包括53360个训练集、1000验证集以及1000个测试集。

前所述的一种基于CFC结构改进的胶囊网络文本分类方法，步骤S3中，输入的文本首先经过步长为1，大小为9×9的卷积；再分别通过三个尺度卷积提取特征，分别是1个步长为1，大小为5×5的卷积、2个步长分别为1和2，大小均为3×3的卷积以及一个无卷积过滤器。

前所述的一种基于CFC结构改进的胶囊网络文本分类方法，步骤S5中，将步骤S4中得到的输出向量分别通过尺度为12、4以及8的CFC卷积全连接层，然后通过ReLU激活函数创建胶囊，根据下式将输入激活分割成不同的C_m块，

其中，m表示单词的特征，L表示文本长度，K是CFC层的参数，m∈[1,(w−K+1)2]，F表示特征提取器的输出；F_abc表示F的第c个特征在空间位置x=a，y=b上；N表示卷积核的个数，偏置项h和w通过下式获得，

对不同的块进行扁平化操作，将压扁后的原始胶囊称为C_Fm；不同大小的C_Fm经过权重W、V以及U，分别生成低水平、中等水平以及高水平特性的混合胶囊，创建胶囊过程如下式所示，

其中，

，/>

以及/>

表示为混合胶囊。

前所述的一种基于CFC结构改进的胶囊网络文本分类方法，步骤S6中，通过初级胶囊层的矢量输出胶囊产生实例化参数，初级胶囊层实例化参数维度(L-K_i+1)的集合为p_i：

其中，g()表示非线性压缩函数，W_b为不同的滑动窗口的共享滤波器，胶囊的维度为d，M_i为维度大小B×d的滑动窗口的向量；

对于所有的滤波器C来说，胶囊特征为下式所示，

其中，P表示胶囊特征。

前所述的一种基于CFC结构改进的胶囊网络文本分类方法，步骤S7中，在深度胶囊层中，通过计算每一层的胶囊概率，筛选出最大活跃度的S个初级胶囊与高层胶囊进行连接训练；使用动态路算法修正下层胶囊与上层胶囊之间的参数，参数包括变换矩阵和激活值；

胶囊的重要性通过Squash函数表示，Squash函数为非线性激活函数，选择全部胶囊中S%最活跃的胶囊；将胶囊的激活值除以最大激活值，使得两者之商为(0,1)间的比例数；设a_i表示第i个活跃的胶囊，则胶囊的活跃值为：

由CFC层提取出初级胶囊的矢量输出为r_i，r_i的方向表示实体的状态，r_i的长度表示重要性级别；在路由中将激活值作为胶囊的长度：

胶囊活跃值规范后，根据活跃值对所有初级胶囊进行排序，然后通过设置筛选阈值选取活跃度最高的S%初级胶囊进入卷积胶囊层：

其中，a_S表示最低阈值胶囊。

本发明的有益效果是：

（1）本发明中，一方面通过引入能够创建少量胶囊的CFC胶囊提取机制和参数较少的反卷积解码器，另一方面在此基础上通过深度胶囊层进一步剔除冗余胶囊对实验的影响，极大地提高了实验的效率；胶囊数目的减少会对实验分类效果造成一定影响，而深度胶囊层中筛选去除的胶囊具有低活跃值，对分类结果影响较小，因此改进后的胶囊网络分类效果下降较小，依然具有很高的分类准确率；

（2）在大规模数据集中，本发明通过减少胶囊数和降低网络复杂度来提升实验效率的优势更大；并且通过CFC胶囊提取机制和深度胶囊层减少更多的冗余低活跃胶囊，使得在数据足够大时也能够提升一定的分类效果。

附图说明

图1为本发明方法的整体结构示意图；

图2为本发明中特征提取的结构示意图；

图3为本发明中CFC层的结构示意图；

图4为本发明中深度胶囊层的结构示意图。

具体实施方式

本实施例提供的一种基于CFC结构改进的胶囊网络文本分类方法，如图1所示，包括以下步骤

S1、文本预处理，包括以下分步骤

S1.1、为加快处理速度和提高分类效率，在处理文本之前过滤掉文本中没有具体意义的停用词，例如“啊”、“呀”等；

S1.2、过滤掉文本中的符号和特殊字符，例如“，”、“—”等；

S1.3、使用jieba等分词工具对文本进行分词，若文本为英文则省略此步骤；

S2、准备数据集，数据集包括THUCnews数据集、CNH数据集以及TNEWS数据集；

THUCnews数据集为新浪新闻RSS订阅频道社会新闻数据集，通过其2005~2011年历史期间的原始历史数据，过滤生成74万篇短文本新闻文档，本数据集均为UTF-8纯文本数据集，从而更加便于实验；

S3、通过多尺度子网络对输入文本进行特征提取；

针对短文本特征稀疏的问题，将传统CapsNet中使用的两个卷积层改为使用一个多尺度子网络来提取特征，能够创建更好地表示输入文本，该子网络由三个不同深度的尺度构成，每个尺度的深度对应该尺度中使用的卷积层数，更深的尺度被用来创建一个更高的特征的表示水平，而浅尺度则对应于低层次的特征；

具体的特征提取结构如图2所示，输入的文本首先经过步长为1，大小为9×9的卷积后再分别通过三个尺度卷积提取特征，分别是1个步长为1，大小为5×5的卷积、2个步长分别为1和2，大小均为3×3的卷积以及一个无卷积过滤器；然后再将这三种不同深度的特征表示输入CFC层中转化为向量并生成胶囊。

如图3所示，首先使用不同维数的CFC层将提取到的特征转化为向量，该方法提供了更多的输出，从而得到了更好的表示；然后将改善的输出通过仿射变换矩阵乘法生成不同水平的胶囊；最后通过胶囊脱落防止常见的过拟合；并且通过正则化训练过程，提高了网络泛化。

CFC层经过特征提取层获得特征表示后，首先将步骤S4中得到的输出向量分别通过尺度为12、4以及8的CFC卷积全连接层，然后通过ReLU激活函数创建胶囊，根据下式将输入激活分割成不同的C_m块，

生成胶囊需要将每个块进行扁平化操作，将压扁后的原始胶囊称为C_Fm；不同大小的C_Fm经过权重W、V以及U，分别生成三种不同水平特性的混合胶囊，创建胶囊过程如下式所示，

其中，

，/>

以及/>

表示为混合胶囊。

本步骤通过根据特征提取中的特定尺度的深度修改CFC层的输出维度；对于提取更深特征的尺度，选择CFC层的输出维度更高；为了在总结提取的信息时保留重要信息，使用更多的输出神经元提取更深的尺度；对于浅层尺度，我们创建一个较小的信息摘要，并且输出维度较小；同时本方法应用反卷积解码器减少参数的数量，有助于在分类精度和泛化能力方面创建一个更强大的网络。

通过初级胶囊层的矢量输出胶囊产生实例化参数，初级胶囊层实例化参数维度(L-K_i+1)的集合为p_i：

对于所有的滤波器C来说，胶囊特征为下式所示，

其中，P表示胶囊特征。

胶囊网络输入数据经过初级卷积层提取最初特征，再经过胶囊卷积层得到更全面的高级特征，形成大小和方向不同的胶囊；然而部分初级胶囊具有冗余性，这些杂乱、影响度较低的胶囊，对模型训练和实验结果会产生干扰，因此，本方案设计了深度胶囊层，筛选重要和活跃的胶囊输出到卷积胶囊层，简化胶囊层结构。

如图4所示，在深度胶囊层中，通过计算每一层的胶囊概率，筛选出最大活跃度的S个初级胶囊与高层胶囊进行连接训练；在此过程中使用动态路算法修正下层胶囊与上层胶囊之间的变换矩阵和激活值等参数，形成最优整合结果

胶囊的重要性通过非线性激活函数Squash函数表示，该模型选择全部胶囊中S%最活跃的胶囊；将这些胶囊的激活值除以最大激活值，确保它们是在(0,1)间的比例数；设a_i表示第i个活跃的胶囊，则胶囊的活跃值为：

由CFC机制提取出输出初级胶囊矢量为r_i，r_i的方向表示实体的状态，r_i的长度表示重要性级别；在路由中将激活值作为胶囊的长度，也就是使胶囊通过深度胶囊层的概率：

其中，a_S表示最低阈值胶囊。

通过深度胶囊层得到的索引筛选出S%最活跃的初级胶囊后对其进行重新排序，使抽出的胶囊组成新的胶囊输出数据，然后通过动态路由连接预测高层胶囊；深度胶囊网络不仅对下一层操作前去除冗余胶囊，还能减轻操作中的计算负担，降低实验时间的消耗。

卷积胶囊层中的胶囊维度应该和多标签文本分类的分类数量有关，每个胶囊代表一种类型的概率；并且在多标签分类任务中，卷积胶囊层的胶囊维度应当与标签的数量相对应，以便每个胶囊负责预测一个标签的概率；而CFC层的胶囊维度可以根据具体任务和数据集的特点进行设置，以便更好地捕获输入数据的特征信息。

S9、全连接胶囊层的输入包括卷积胶囊层的输出和动态路由的输出，可以同时学习局部特征信息和全局特征信息，从而更好的提取输入数据的特征表示；在卷积胶囊层中，每个胶囊都负责提取输入数据的局部特征。

本实施例将文本特征提取输出向量设定为200×100，其中维度为200，文本固长为100；并设置CapsNet相关模型隐藏节点为64；损失函数选择交叉熵，优化函数选择Adam。

如表1所示，显示了训练和测试时间在不同胶囊网络中的实验变化，CNN-CapsNet和CapsNet-LSTM与传统CapsNet相比在三种数据集中训练时间分别多了10.36s、5.32s、12.09s和6.49s、9.19s、8.08s，从而表明混合模型在提高传统CapsNet分类精度的同时，也加大了实验成本，极大降低了实验效率。

表1 训练和测试时间在不同胶囊网络中的实验变化数据表

而深度胶囊网络相比传统CapsNet在三种数据集中训练时间减少了2.7s、1.76s和2.41s，测试时间减少了0.49s、0.34s和1.54s，表明深度胶囊网络由于其深度胶囊层去除了一部分冗余胶囊，降低模型的复杂度。

本实施例提出的CFC-CapsNet在三种数据集下训练和测试时间都为最少，其中相比于传统CapsNet在THUCnews上训练时间减少了11.47s，测试时间减少了4.08s；而在CNH和TNEWS中训练时间减少了9.36s和9.8s，测试时间减少了1.81s和2.32s；CFC-CapsNet在大规模数据集THUCnews提升了1/5的实验效率，因此当遇到大规模的文本数据时，选择CFC-CapsNet更加合适。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种基于CFC结构改进的胶囊网络文本分类方法，其特征在于：包括以下步骤

S1、文本预处理；

S2、准备数据集；

2.根据权利要求1所述的一种基于CFC结构改进的胶囊网络文本分类方法，其特征在于：所述步骤S1中，文本预处理包括以下分步骤

S1.1、过滤掉文本中没有具体意义的停用词；

S1.2、过滤掉文本中的符号和特殊字符；

3.根据权利要求1所述的一种基于CFC结构改进的胶囊网络文本分类方法，其特征在于：所述步骤S2中的数据集包括THUCnews数据集、CNH数据集以及TNEWS数据集；

4.根据权利要求1所述的一种基于CFC结构改进的胶囊网络文本分类方法，其特征在于：所述步骤S3中，输入的文本首先经过步长为1，大小为9×9的卷积；再分别通过三个尺度卷积提取特征，分别是1个步长为1，大小为5×5的卷积、2个步长分别为1和2，大小均为3×3的卷积以及一个无卷积过滤器。

5.根据权利要求1所述的一种基于CFC结构改进的胶囊网络文本分类方法，其特征在于：所述步骤S5中，将步骤S4中得到的输出向量分别通过尺度为12、4以及8的CFC卷积全连接层，然后通过ReLU激活函数创建胶囊，根据下式将输入激活分割成不同的C_m块，

其中，m表示单词的特征，K是CFC层的参数，m∈[1,(w−K+1)²]，F表示特征提取器的输出；F_abc表示F的第c个特征在空间位置x=a，y=b上；N表示卷积核的个数，偏置项h和w通过下式获得，

其中，

，/>

以及/>

表示为混合胶囊。

6.根据权利要求1所述的一种基于CFC结构改进的胶囊网络文本分类方法，其特征在于：所述步骤S6中，通过初级胶囊层的矢量输出胶囊产生实例化参数，初级胶囊层实例化参数维度(L-K_i+1)的集合为p_i，L表示文本长度，i表示为N-gram取得的第i个滑动窗口：

对于所有的滤波器C来说，胶囊特征为下式所示，

其中，P表示胶囊特征。

7.根据权利要求1所述的一种基于CFC结构改进的胶囊网络文本分类方法，其特征在于：所述步骤S7中，在深度胶囊层中，通过计算每一层的胶囊概率，筛选出最大活跃度的S个初级胶囊与高层胶囊进行连接训练；使用动态路算法修正下层胶囊与上层胶囊之间的参数，参数包括变换矩阵和激活值；

其中，a_S表示最低阈值胶囊。