CN113569049A

CN113569049A - 一种基于层次Trans-CNN的多标签文本分类算法

Info

Publication number: CN113569049A
Application number: CN202110915378.4A
Authority: CN
Inventors: 宫继兵; 王成龙; 房小涵
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-10-29
Anticipated expiration: 2041-08-10
Also published as: CN113569049B

Abstract

本发明涉及自然语言处理技术领域，具体涉及一种基于层次Trans‑CNN的多标签文本分类算法，包括如下步骤：S1、数据预处理；S2、对单词进行特征提取；S3、对句子进行特征提取；S4、将词特征和句子特征融合；S5、将融合后的特征通过卷积层，提取特征；S6、将得到的卷积特征通过全连接网络，对文本进行分类；本发明解决无法充分捕捉文本语义信息，无法获取到句子与句子之间、段落与段落之间的详细信息，造成语义信息部分缺失的问题。

Description

一种基于层次Trans-CNN的多标签文本分类算法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于层次Trans-CNN的多标签文本分类算法。

背景技术

随着互联网信息技术的飞速发展以及5G时代的到来，海量的数据信息呈***式增长，其中又以文本数据最为丰富。在有限的时间内快速且准确的获得文本信息的核心内容成为一个具有实际意义的挑战。而文本分类就是一个能够有效解决信息过载问题的一个基石，通过对文本内容进行标签分类，能够有效的为文本检索和文本推荐提供基础信息，从而极大的提高人们的检索效率和阅读体验。

文本分类一直是自然语言处理最为基础但又极为重要的研究领域，它的目标是自动的根据文本的内容为其分配一组预定义的标签，从而达到文本分类的目的。文本分类一般会分为单标签文本分类和多标签文本分类。单标签文本分类指的是一个文本只会对应一个标签，比如传统的情感分析，每个文本只会对应消极，积极和中性中的其中一个标签。在多标签文本分类中，一个文本可能会对应一个或多个标签，其中不同标签可能会具有层次性关系，比如一篇新闻可能会属于经济领域下的房地产标签。多标签文本分类比单标签文本分类能够更精细和全面的表示文本内容，更加符合现实世界的实际需求，逐渐成为文本分类的主流研究方向。

传统的多标签文本分类方法，特别是深度学习，取得了显著的效果。然而，这些方法大多使用word2vec技术来表示连续的文本信息，而无法充分捕捉文本语义信息，传统的方法是提取到每个句子直接的详细信息，但无法获取到句子与句子之间、段落与段落之间的详细信息，会造成语义信息的部分缺失。

发明内容

针对上述的不足，本发明目的解决无法充分捕捉文本语义信息，无法获取到句子与句子之间、段落与段落之间的详细信息，造成语义信息部分缺失等问题。

为实现上述目的，本发明提供如下技术方案：

一种基于层次Trans-CNN的多标签文本分类算法，包括如下步骤：

S1、数据预处理；

S2、对单词进行特征提取；

S3、对句子进行特征提取；

S4、将词特征和句子特征融合；

S5、将融合后的特征通过卷积层，提取特征；

S6、将得到的卷积特征通过全连接网络，对文本进行分类。

本发明技术方案的进一步改进在于，S1包括如下步骤：

S11、使用RCV1和AAPD数据集，将文本中的特殊字符去除；

S12、将每个标签种类下的文本中，每个句子的单词少于10的句子去除，句子数目少于40条的文本去除。

本发明技术方案的进一步改进在于，S2包括如下步骤：

S21、根据Transformer中的encoder构建word-encoder神经网络；

S22、将每个标签下的文本中的单词通过word-encoder网络，得到词向量特征。

本发明技术方案的进一步改进在于，S3包括如下步骤：

S31、根据Transformer中的encoder构建sentence-encoder神经网络；

S32、将每个标签下的文本中的句子通过sentence-encoder网络，得到句子向量特征。

本发明技术方案的进一步改进在于，S5包括如下步骤：

S51、将S4得到的融合特征，通过卷积核为1×Ds的卷积神经网络，卷积核数量为n，卷积后得到m×n的向量特征；

其中Ds为句子的嵌入维度，m为句子的个数。

本发明技术方案的进一步改进在于，S6包括如下步骤：

S61、构建全连接神经网络；

S62、将S5得到的特征通过该全连接神经网络后，再使用sigmoid激活函数转换为类别概率。

与现有技术相比，本发明提供一种基于层次Trans-CNN的多标签文本分类算法有益效果如下：

1.本发明提供一种基于层次Trans-CNN的多标签文本分类算法，该算法解决了传统方法中无法充分捕捉文本语义信息，无法获取到句子与句子之间、段落与段落之间的详细信息，造成语义信息部分缺失的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明算法的整体架构图。

图2为本发明词嵌入向量结构图。

图3为本发明句子卷积神经网络模型结构图。

图4为本发明的前馈神经网络模型结构图。

具体实施方式

下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例基于层次Transformer-CNN的多标签文本分类算法，包括如下步骤：

S1、数据预处理；使用两个非常经典的用于多标签分类任务的数据集，ReutersCorpus Volume I(RCV1)和AAPD，前者是新闻领域，是路透社的人工标记新闻数据集，其内容来自1996年至1997年的新闻，后者主要是科技论文领域，是计算机科学领域中的大型数据集，来自知名文献数据库Arxiv；

步骤S1的具体过程为：

S11、对数据处理的好坏程度将直接影响到后续模型的预测能力，我们首先去除数据集中的特殊字符；

S12、去除数据集中的较少语义的数据，将每个标签种类下的文本中，每个句子的单词少于10的句子去除，句子数目少于40条的文本去除；

S2、对单词进行特征提取；单词级别Transformer与传统的Transformer不同之处在于，单词级别Transformer将单词间自注意力的学习范围限制在了句子内部；

步骤S2的具体过程为：

S21、根据Transformer中的encoder构建word-encoder神经网络，如图2所示，多头自注意力的计算公式为下式：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^o

其中，Q，K，V为三个矩阵，每个矩阵的维度为N×D，其中N为每个句子中单词的数目，D为单词的嵌入维度，head_i定义如下：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，W_i ^Q∈R^D×K，W_i ^K∈R^D×K，W_i ^V∈R^D×V，D为单词嵌入维度，K和V为转换后的单词嵌入维度；

S22、将每个标签下的文本中的单词通过word-encoder网络，得到词向量特征；通过单词级别Transformer特征抽取后，可以将每个句子内部的单词嵌入向量进行拼接，这样就可以得到以句子嵌入向量为粒度的文本表示矩阵；

S3、对句子进行特征提取；经过单词级Transformer处理后，每个单词都在句子视野中得到了充分的编码表示，这一步是句子级操作，其处理流程与单词级Transformer类似；

步骤S3的具体过程为：

S31、根据Transformer中的encoder构建sentence-encoder神经网络；

S32、将每个标签下的文本中的句子通过sentence-encoder网络，得到句子向量特征；经过句子级别的Transformer操作后，文本中的句子在全局范围内学习到不同句子的注意力分配，因此每个句子的语义特征更加丰富，有利于模型学习语义特征到类别特征的映射关系；

S4、将词特征和句子特征融合；

S5、将融合后的特征通过卷积层，提取特征；因为文本的所属类别是由文本的语义信息确定的，而文本的语义又是由所包含的句子确定的，所以可以把每个句子视为语义单元，即每个句子对应一种语义特征，所有的句子构成了文本的语义特征。针对这种特性，采用卷积神经网络捕捉每个句子的重点语义；

步骤S5的具体过程为：

S51、构建句子卷积神经网络模型，如图3所示，图中示例是具有7个句子，词嵌入维度为Ds的文本矩阵的一维卷积流程，卷积核大小为1×Ds，卷积核数量为n；

S52、将融合后的特征通过构建好的卷积神经网络，卷积后得到m×n的向量特征，m为句子的个数；经过句子卷积操作后，模型已经充分捕捉到局部语义和全局语义，并建立了从语义特征到类别特征的映射；

S6、将得到的卷积特征通过全连接网络，对文本进行分类；

步骤S6的具体过程为：

S61、构建前馈神经网络模型，如图4所示；

S62、将S5得到的特征通过该前馈神经网络，最后再使用sigmoid激活函数转换为类别概率。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明装置权利要求书确定的保护范围内。

Claims

1.一种基于层次Trans-CNN的多标签文本分类算法，其特征在于，包括如下步骤：

S1、数据预处理；

S2、对单词进行特征提取；

S3、对句子进行特征提取；

S4、将词特征和句子特征融合；

S5、将融合后的特征通过卷积层，提取特征；

S6、将得到的卷积特征通过全连接网络，对文本进行分类。

2.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法，其特征在于，S1包括如下步骤：

S11、使用RCV1和AAPD数据集，将文本中的特殊字符去除；

3.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法，其特征在于，S2包括如下步骤：

S21、根据Transformer中的encoder构建word-encoder神经网络；

4.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法，其特征在于，S3包括如下步骤：

S31、根据Transformer中的encoder构建sentence-encoder神经网络；

5.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法，其特征在于，S5包括如下步骤：

其中Ds为句子的嵌入维度，m为句子的个数。

6.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法，其特征在于，S6包括如下步骤：

S61、构建全连接神经网络；