CN114297379A

CN114297379A - 一种基于Transformer的文本二分类方法

Info

Publication number: CN114297379A
Application number: CN202111539076.8A
Authority: CN
Inventors: 张磊; 康辉; 江珊; 杨经纬; 李鑫; 李春; 高宁
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-04-08

Abstract

本发明公开了一种基于Transformer的文本二分类方法，涉及文本分类技术领域。该文本二分类方法通过将文本序列的长度进行统一后，输入由CNN模块、Transformer模块、LSTM模块、全连接层依次连接的神经网络模型中用于文本序列特征分类。该文本二分类方法通过对无规律文本序列数据的内在规律进行有效筛选，从而实现其高效分类，提高了分类的稳定性。

Description

一种基于Transformer的文本二分类方法

技术领域

本发明涉及文本分类技术领域，具体地，涉及一种基于Transformer的文本二分类方法。

背景技术

传统的神经网络模型主要学习的是数据点（向量）到数据点（向量）变换，而循环神经网络则学习的是数据点序列到数据点序列的变换，近年来比较常用的模型有门控循环单元、长短期记忆以及Transformer模型。其中，Transformer模型在机器翻译、自然语言处理等领域中都取得了很好的效果，成为研究热点。

现实生活中数据是由许多非常长的序列构成的，有的有规律，有的完全无规律，但是此类数据在模式上还是有规律可寻找的。处理此类数据的分类任务是深度学习研究的重要方向。

目前处理序列类数据的深度学习方法中，采用CNN+LSTM模式下的方法为最佳方案，对于规律性的序列进行分类时，效果非常好。相比于RNN神经网络带来的不稳定和训练过度问题，将CNN每一个卷积核进行定制，采用定制的CNN处理由一维数据带来的稳定性至关重要。但是，对于长度不一的无规律文本数据序列的分类问题时，采用CNN+LSTM模式训练无规律序列数据时，当训练轮数达到200-300次时，出现局部最优解，导致性能直线下降，之后虽然能回归正常，但分类结果上会出现非常多的类别，甚至每条无规律序列数据都会作为一个分类新结果，分类效果非常差。

发明内容

针对现有技术中存在的问题，本发明提出了一种基于Transformer的文本二分类方法，该文本二分类方法通过对无规律文本序列数据的内在规律进行有效筛选，从而实现其高效分类，提高了分类的稳定性。

为实现上述技术目的，本发明采用如下技术方案：一种基于Transformer的文本二分类方法，具体包括如下步骤：

（1）对本文序列数据进行预处理，统一所有文本序列的长度；

（2）构建由CNN模块、Transformer模块、LSTM模块、全连接层依次连接的神经网络模型，所述CNN模块对需要提取的特征进行锐化处理；所述Transformer模块用于特征提取，所述LSTM模块用于进一步提升特征效果，所述全连接层用于特征分类；

（3）将预处理的文本序列输入步骤（2）构建的神经网络模型中，输出文本的分类结果。

进一步地，步骤（1）中对文本序列数据进行预处理的过程具体为：以文本序列数据中序列长度最长的文本序列为标准，在其余文本序列的末尾采用“#”进行数据补充，直至所有文本序列的长度相同。

进一步地，步骤（3）包括如下子步骤：

（3.1）将预处理的文本序列依次输入CNN模块中，提取粗模块化特征，通过设置卷积次数，将每条文本序列卷积成长度为50-100的序列段；

（3.2）将提取的粗模块化特征通过Transformer模块中的自注意力机制进行滑窗处理，分成子序列，将子序列输入Transformer模块中的循环神经网络中提取相似度较高的特征，将提取相似度较高的特征再经自注意力机制进行encoding和decoding操作，得到公共程度最高的子序列作为模块化特征；

（3.3）将模块化特征输入LSTM模块中，进一步提升模块化特征，通过全连接层输出特征分类的结果。

进一步地，步骤（3.1）中CNN模块采用1*3的卷积核。

进一步地，步骤（3.2）中滑窗处理的过程中设置滑窗的宽度为序列段长度的30%。

进一步地，步骤（3.2）中相似度较高的特征的提取过程具体为：所述Transformer模块中的循环神经网络对每个子序列进行一次卷积操作，卷积核长度为滑窗的宽度，经卷积操作后子序列变成1个长度，按照滑窗的先后顺序进行排序，得到相似度较高的特征。

与现有技术相比，本发明具有如下有益效果：本发明基于Transformer的文本二分类方法通过Transformer模型中的自注意力机制，实现无规律文本序列数据的内在规律获得，通过内嵌的循环神经网络提取相似度较高的特征，并通过LSTM模块进行特征提升，进而有效的提取出不同无规律文本序列数据之间相同的内在规律和分布，将数据内部的内在规律变化作为分类依据，有效解决了无规律文本序列数据的分类问题。

附图说明

图1是本发明基于Transformer的文本二分类方法的流程图。

具体实施方式

下面将结合附图和实施例，对本发明实施例中的技术方案进行更为清晰地描述。需要强调的是，描述的实施例仅是本发明中的部分实施例，而不是全部实施例。基于本发明中的实施例，本领域的普通技术人员可在不做出创造性劳动的前提下获得的其他实施例，均在本发明保护范围内。

本发明提供了一种基于Transformer的文本二分类方法，具体包括如下步骤：

（1）对本文序列数据进行预处理，以文本序列数据中序列长度最长的文本序列为标准，在其余文本序列的末尾采用“#”进行数据补充，直至所有文本序列的长度相同。

（2）构建由CNN模块、Transformer模块、LSTM模块、全连接层依次连接的神经网络模型，本发明中CNN模块对需要提取的特征进行锐化处理，使其更加突出；Transformer模块用于特征提取，LSTM模块用于进一步提升特征效果，全连接层用于特征分类。

（3）将预处理的文本序列输入步骤（2）构建的神经网络模型中，输出文本的分类结果；具体包括如下子步骤：

（3.1）将预处理的文本序列依次输入CNN模块中，提取粗模块化特征，本发明中CNN模块可以按照之前预先确定的特征模式去对文本序列进行卷积化操作，采用1*3的卷积核，通过设置卷积次数，将每条文本序列卷积成长度为50-100的序列段，若卷积次数过少，会保留更多的特征，从而降低Transformer模块的训练效果；若卷积次数过多，会使得文本序列数据发生严重损失；

（3.2）将提取的粗模块化特征通过Transformer模块中的自注意力机制进行滑窗处理，设置滑窗的宽度为序列段长度的30%，将序列段分成子序列，将子序列输入Transformer模块中的循环神经网络中提取相似度较高的特征，将提取相似度较高的特征再经自注意力机制进行encoding和decoding操作，得到公共程度最高的子序列作为模块化特征。本发明通过Transformer模块中的自注意力机制，对本文序列进行规律探寻和特征转换，将文本序列的特征转换为更加明显的机制，对于文本序列常识化的处理，传统的CNN和LSTM很难以类似于人类的角度去思考，而Transformer模块中的自注意力机制在文本序列处理上与大脑的亲切度更高，能够很大程度上被用于自然语言的处理；同时，通过在Transformer模块内嵌循环神经网络，由于非图像数据，数据量和维度均偏小，设计成双层循环神经网络，平行层上面扩展降低，避免造成大量冗余。

本发明中相似度较高的特征的提取过程具体为：Transformer模块中的循环神经网络对每个子序列进行一次卷积操作，卷积核长度为滑窗的宽度，经卷积操作后子序列变成1个长度，按照滑窗的先后顺序进行排序，得到相似度较高的特征。

（3.3）将模块化特征输入LSTM模块中，进一步提升模块化特征，能够使分类准确率达到最好，通过全连接层输出特征分类的结果。

本发明基于Transformer的文本二分类方法法通过对无规律文本序列数据的内在规律进行有效筛选，从而实现其高效分类，提高了分类的稳定性。

实施例

本实施例中采用26个大写字母组成无序文本序列，其中字母的排列模式均有不同，现在将无序文本序列进行区分，首先将26个字母数字化，“#”采用0代替，将文本序列数据转换为数字化数据用以后期的卷积神经网络计算，同时，通过人工标注的方式对上述序列进行分类。如图1为基于Transformer的文本二分类方法的流程图，该文本二分类方法具体包括如下步骤：

（1）已知该无序文本序列中最大的序列长度k为5700，其余无序文本序列在最后一个元素后面用0进行补充，直至所有的无序文本序列长度均为k，实现对文本序列的预处理。

（2）构建神经网络模型，该神经网络模型包括依次连接的CNN模块、Transformer模块、LSTM模块、全连接层，CNN模块为1*3的卷积核，对数据特征进行初步提取，实现对需要提取的特征进行锐化处理，使其更加突出；Transformer模块用于特征提取，LSTM模块用于进一步提升特征效果，全连接层用于特征分类。

（3.1）本实施例中CNN模块采用四层卷积层，分别为：CONV1D_1层、CONV1D_2层、CONV1D_3层、CONV1D_4层，其中，CONV1D_1层的卷积核为[1,0,1]，CONV1D_2层的卷积核为[1,1,0]，CONV1D_3层的卷积核为[0,1,0]，CONV1D_4层的卷积核为[0,0,1]，通过上述卷积核，将之前预处理的文本序列输入CNN模块中，卷积为长度为70的序列段，此时序列段中集合了不明显的模块化特征；

（3.2）将序列段送入Transformer模块中进行特征提取，通过Transformer模块中的自注意力机制将长度为70的序列段进行滑窗处理，设置滑窗长度为21，依次50个子序列，将50个子序列输入内嵌的循环神经网络中，将这50个子序列用一个1*20的卷积核进行运算，得到50个数字，按顺序将这50个数字组成相似度较高的特征，经过自注意力机制的enconding和decoding操作后，得到公共程度最高的子序列作为模块化特征；

（3.3）将模块化特征输入LSTM模块中，进一步提升模块化特征，通过全连接层输出特征分类的结果。通过本发明基于Transformer的文本二分类方法实现文本无序序列的内在规律性分类，很类似于人类的语言，说的相近语言模式会自动归为同类，不同语言则是根据其内在不同的模式依次进行划分，从而实现模式级别的分类。

传统的深度学习方法有CNN、RNN以及LSTM，仅使用多层的CNN在本文的序列分类任务中仅有78%的准确率，而且伴随着训练轮数的增加，其准确率会在500轮左右出现跌幅，使用RNN很快就会出现此问题；CNN模型结合LSTM模型后其性能得到了增强，其模型准确率在81%，而本发明基于Transformer的文本二分类方法在CNN和LSTM中加入Transformer模块，通过其自注意力机制，将注意力集中于特征上，使模型稳定性大幅增加，其分类准确率稳定在90%以上。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于Transformer的文本二分类方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述基于Transformer的文本二分类方法，其特征在于，步骤（1）中对文本序列数据进行预处理的过程具体为：以文本序列数据中序列长度最长的文本序列为标准，在其余文本序列的末尾采用“#”进行数据补充，直至所有文本序列的长度相同。

3.根据权利要求1所述基于Transformer的文本二分类方法，其特征在于，步骤（3）包括如下子步骤：

4.根据权利要求3所述基于Transformer的文本二分类方法，其特征在于，步骤（3.1）中CNN模块采用1*3的卷积核。

5.根据权利要求3所述基于Transformer的文本二分类方法，其特征在于，步骤（3.2）中滑窗处理的过程中设置滑窗的宽度为序列段长度的30%。

6.根据权利要求3所述基于Transformer的文本二分类方法，其特征在于，步骤（3.2）中相似度较高的特征的提取过程具体为：所述Transformer模块中的循环神经网络对每个子序列进行一次卷积操作，卷积核长度为滑窗的宽度，经卷积操作后子序列变成1个长度，按照滑窗的先后顺序进行排序，得到相似度较高的特征。