CN114297379A - 一种基于Transformer的文本二分类方法 - Google Patents

一种基于Transformer的文本二分类方法 Download PDF

Info

Publication number
CN114297379A
CN114297379A CN202111539076.8A CN202111539076A CN114297379A CN 114297379 A CN114297379 A CN 114297379A CN 202111539076 A CN202111539076 A CN 202111539076A CN 114297379 A CN114297379 A CN 114297379A
Authority
CN
China
Prior art keywords
text
module
features
transformer
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111539076.8A
Other languages
English (en)
Inventor
张磊
康辉
江珊
杨经纬
李鑫
李春
高宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Digital Intelligence Technology Co Ltd
Original Assignee
China Telecom Digital Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Digital Intelligence Technology Co Ltd filed Critical China Telecom Digital Intelligence Technology Co Ltd
Priority to CN202111539076.8A priority Critical patent/CN114297379A/zh
Publication of CN114297379A publication Critical patent/CN114297379A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Transformer的文本二分类方法,涉及文本分类技术领域。该文本二分类方法通过将文本序列的长度进行统一后,输入由CNN模块、Transformer模块、LSTM模块、全连接层依次连接的神经网络模型中用于文本序列特征分类。该文本二分类方法通过对无规律文本序列数据的内在规律进行有效筛选,从而实现其高效分类,提高了分类的稳定性。

Description

一种基于Transformer的文本二分类方法
技术领域
本发明涉及文本分类技术领域,具体地,涉及一种基于Transformer的文本二分类方法。
背景技术
传统的神经网络模型主要学习的是数据点(向量)到数据点(向量)变换,而循环神经网络则学习的是数据点序列到数据点序列的变换,近年来比较常用的模型有门控循环单元、长短期记忆以及Transformer模型。其中,Transformer模型在机器翻译、自然语言处理等领域中都取得了很好的效果,成为研究热点。
现实生活中数据是由许多非常长的序列构成的,有的有规律,有的完全无规律,但是此类数据在模式上还是有规律可寻找的。处理此类数据的分类任务是深度学习研究的重要方向。
目前处理序列类数据的深度学习方法中,采用CNN+LSTM模式下的方法为最佳方案,对于规律性的序列进行分类时,效果非常好。相比于RNN神经网络带来的不稳定和训练过度问题,将CNN每一个卷积核进行定制,采用定制的CNN处理由一维数据带来的稳定性至关重要。但是,对于长度不一的无规律文本数据序列的分类问题时,采用CNN+LSTM模式训练无规律序列数据时,当训练轮数达到200-300次时,出现局部最优解,导致性能直线下降,之后虽然能回归正常,但分类结果上会出现非常多的类别,甚至每条无规律序列数据都会作为一个分类新结果,分类效果非常差。
发明内容
针对现有技术中存在的问题,本发明提出了一种基于Transformer的文本二分类方法,该文本二分类方法通过对无规律文本序列数据的内在规律进行有效筛选,从而实现其高效分类,提高了分类的稳定性。
为实现上述技术目的,本发明采用如下技术方案:一种基于Transformer的文本二分类方法,具体包括如下步骤:
(1)对本文序列数据进行预处理,统一所有文本序列的长度;
(2)构建由CNN模块、Transformer模块、LSTM模块、全连接层依次连接的神经网络模型,所述CNN模块对需要提取的特征进行锐化处理;所述Transformer模块用于特征提取,所述LSTM模块用于进一步提升特征效果,所述全连接层用于特征分类;
(3)将预处理的文本序列输入步骤(2)构建的神经网络模型中,输出文本的分类结果。
进一步地,步骤(1)中对文本序列数据进行预处理的过程具体为:以文本序列数据中序列长度最长的文本序列为标准,在其余文本序列的末尾采用“#”进行数据补充,直至所有文本序列的长度相同。
进一步地,步骤(3)包括如下子步骤:
(3.1)将预处理的文本序列依次输入CNN模块中,提取粗模块化特征,通过设置卷积次数,将每条文本序列卷积成长度为50-100的序列段;
(3.2)将提取的粗模块化特征通过Transformer模块中的自注意力机制进行滑窗处理,分成子序列,将子序列输入Transformer模块中的循环神经网络中提取相似度较高的特征,将提取相似度较高的特征再经自注意力机制进行encoding和decoding操作,得到公共程度最高的子序列作为模块化特征;
(3.3)将模块化特征输入LSTM模块中,进一步提升模块化特征,通过全连接层输出特征分类的结果。
进一步地,步骤(3.1)中CNN模块采用1*3的卷积核。
进一步地,步骤(3.2)中滑窗处理的过程中设置滑窗的宽度为序列段长度的30%。
进一步地,步骤(3.2)中相似度较高的特征的提取过程具体为:所述Transformer模块中的循环神经网络对每个子序列进行一次卷积操作,卷积核长度为滑窗的宽度,经卷积操作后子序列变成1个长度,按照滑窗的先后顺序进行排序,得到相似度较高的特征。
与现有技术相比,本发明具有如下有益效果:本发明基于Transformer的文本二分类方法通过Transformer模型中的自注意力机制,实现无规律文本序列数据的内在规律获得,通过内嵌的循环神经网络提取相似度较高的特征,并通过LSTM模块进行特征提升,进而有效的提取出不同无规律文本序列数据之间相同的内在规律和分布,将数据内部的内在规律变化作为分类依据,有效解决了无规律文本序列数据的分类问题。
附图说明
图1是本发明基于Transformer的文本二分类方法的流程图。
具体实施方式
下面将结合附图和实施例,对本发明实施例中的技术方案进行更为清晰地描述。需要强调的是,描述的实施例仅是本发明中的部分实施例,而不是全部实施例。基于本发明中的实施例,本领域的普通技术人员可在不做出创造性劳动的前提下获得的其他实施例,均在本发明保护范围内。
本发明提供了一种基于Transformer的文本二分类方法,具体包括如下步骤:
(1)对本文序列数据进行预处理,以文本序列数据中序列长度最长的文本序列为标准,在其余文本序列的末尾采用“#”进行数据补充,直至所有文本序列的长度相同。
(2)构建由CNN模块、Transformer模块、LSTM模块、全连接层依次连接的神经网络模型,本发明中CNN模块对需要提取的特征进行锐化处理,使其更加突出;Transformer模块用于特征提取,LSTM模块用于进一步提升特征效果,全连接层用于特征分类。
(3)将预处理的文本序列输入步骤(2)构建的神经网络模型中,输出文本的分类结果;具体包括如下子步骤:
(3.1)将预处理的文本序列依次输入CNN模块中,提取粗模块化特征,本发明中CNN模块可以按照之前预先确定的特征模式去对文本序列进行卷积化操作,采用1*3的卷积核,通过设置卷积次数,将每条文本序列卷积成长度为50-100的序列段,若卷积次数过少,会保留更多的特征,从而降低Transformer模块的训练效果;若卷积次数过多,会使得文本序列数据发生严重损失;
(3.2)将提取的粗模块化特征通过Transformer模块中的自注意力机制进行滑窗处理,设置滑窗的宽度为序列段长度的30%,将序列段分成子序列,将子序列输入Transformer模块中的循环神经网络中提取相似度较高的特征,将提取相似度较高的特征再经自注意力机制进行encoding和decoding操作,得到公共程度最高的子序列作为模块化特征。本发明通过Transformer模块中的自注意力机制,对本文序列进行规律探寻和特征转换,将文本序列的特征转换为更加明显的机制,对于文本序列常识化的处理,传统的CNN和LSTM很难以类似于人类的角度去思考,而Transformer模块中的自注意力机制在文本序列处理上与大脑的亲切度更高,能够很大程度上被用于自然语言的处理;同时,通过在Transformer模块内嵌循环神经网络,由于非图像数据,数据量和维度均偏小,设计成双层循环神经网络,平行层上面扩展降低,避免造成大量冗余。
本发明中相似度较高的特征的提取过程具体为:Transformer模块中的循环神经网络对每个子序列进行一次卷积操作,卷积核长度为滑窗的宽度,经卷积操作后子序列变成1个长度,按照滑窗的先后顺序进行排序,得到相似度较高的特征。
(3.3)将模块化特征输入LSTM模块中,进一步提升模块化特征,能够使分类准确率达到最好,通过全连接层输出特征分类的结果。
本发明基于Transformer的文本二分类方法法通过对无规律文本序列数据的内在规律进行有效筛选,从而实现其高效分类,提高了分类的稳定性。
实施例
本实施例中采用26个大写字母组成无序文本序列,其中字母的排列模式均有不同,现在将无序文本序列进行区分,首先将26个字母数字化,“#”采用0代替,将文本序列数据转换为数字化数据用以后期的卷积神经网络计算,同时,通过人工标注的方式对上述序列进行分类。如图1为基于Transformer的文本二分类方法的流程图,该文本二分类方法具体包括如下步骤:
(1)已知该无序文本序列中最大的序列长度k为5700,其余无序文本序列在最后一个元素后面用0进行补充,直至所有的无序文本序列长度均为k,实现对文本序列的预处理。
(2)构建神经网络模型,该神经网络模型包括依次连接的CNN模块、Transformer模块、LSTM模块、全连接层,CNN模块为1*3的卷积核,对数据特征进行初步提取,实现对需要提取的特征进行锐化处理,使其更加突出;Transformer模块用于特征提取,LSTM模块用于进一步提升特征效果,全连接层用于特征分类。
(3)将预处理的文本序列输入步骤(2)构建的神经网络模型中,输出文本的分类结果;具体包括如下子步骤:
(3.1)本实施例中CNN模块采用四层卷积层,分别为:CONV1D_1层、CONV1D_2层、CONV1D_3层、CONV1D_4层,其中,CONV1D_1层的卷积核为[1,0,1],CONV1D_2层的卷积核为[1,1,0],CONV1D_3层的卷积核为[0,1,0],CONV1D_4层的卷积核为[0,0,1],通过上述卷积核,将之前预处理的文本序列输入CNN模块中,卷积为长度为70的序列段,此时序列段中集合了不明显的模块化特征;
(3.2)将序列段送入Transformer模块中进行特征提取,通过Transformer模块中的自注意力机制将长度为70的序列段进行滑窗处理,设置滑窗长度为21,依次50个子序列,将50个子序列输入内嵌的循环神经网络中,将这50个子序列用一个1*20的卷积核进行运算,得到50个数字,按顺序将这50个数字组成相似度较高的特征,经过自注意力机制的enconding和decoding操作后,得到公共程度最高的子序列作为模块化特征;
(3.3)将模块化特征输入LSTM模块中,进一步提升模块化特征,通过全连接层输出特征分类的结果。通过本发明基于Transformer的文本二分类方法实现文本无序序列的内在规律性分类,很类似于人类的语言,说的相近语言模式会自动归为同类,不同语言则是根据其内在不同的模式依次进行划分,从而实现模式级别的分类。
传统的深度学习方法有CNN、RNN以及LSTM,仅使用多层的CNN在本文的序列分类任务中仅有78%的准确率,而且伴随着训练轮数的增加,其准确率会在500轮左右出现跌幅,使用RNN很快就会出现此问题;CNN模型结合LSTM模型后其性能得到了增强,其模型准确率在81%,而本发明基于Transformer的文本二分类方法在CNN和LSTM中加入Transformer模块,通过其自注意力机制,将注意力集中于特征上,使模型稳定性大幅增加,其分类准确率稳定在90%以上。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (6)

1.一种基于Transformer的文本二分类方法,其特征在于,具体包括如下步骤:
(1)对本文序列数据进行预处理,统一所有文本序列的长度;
(2)构建由CNN模块、Transformer模块、LSTM模块、全连接层依次连接的神经网络模型,所述CNN模块对需要提取的特征进行锐化处理;所述Transformer模块用于特征提取,所述LSTM模块用于进一步提升特征效果,所述全连接层用于特征分类;
(3)将预处理的文本序列输入步骤(2)构建的神经网络模型中,输出文本的分类结果。
2.根据权利要求1所述基于Transformer的文本二分类方法,其特征在于,步骤(1)中对文本序列数据进行预处理的过程具体为:以文本序列数据中序列长度最长的文本序列为标准,在其余文本序列的末尾采用“#”进行数据补充,直至所有文本序列的长度相同。
3.根据权利要求1所述基于Transformer的文本二分类方法,其特征在于,步骤(3)包括如下子步骤:
(3.1)将预处理的文本序列依次输入CNN模块中,提取粗模块化特征,通过设置卷积次数,将每条文本序列卷积成长度为50-100的序列段;
(3.2)将提取的粗模块化特征通过Transformer模块中的自注意力机制进行滑窗处理,分成子序列,将子序列输入Transformer模块中的循环神经网络中提取相似度较高的特征,将提取相似度较高的特征再经自注意力机制进行encoding和decoding操作,得到公共程度最高的子序列作为模块化特征;
(3.3)将模块化特征输入LSTM模块中,进一步提升模块化特征,通过全连接层输出特征分类的结果。
4.根据权利要求3所述基于Transformer的文本二分类方法,其特征在于,步骤(3.1)中CNN模块采用1*3的卷积核。
5.根据权利要求3所述基于Transformer的文本二分类方法,其特征在于,步骤(3.2)中滑窗处理的过程中设置滑窗的宽度为序列段长度的30%。
6.根据权利要求3所述基于Transformer的文本二分类方法,其特征在于,步骤(3.2)中相似度较高的特征的提取过程具体为:所述Transformer模块中的循环神经网络对每个子序列进行一次卷积操作,卷积核长度为滑窗的宽度,经卷积操作后子序列变成1个长度,按照滑窗的先后顺序进行排序,得到相似度较高的特征。
CN202111539076.8A 2021-12-16 2021-12-16 一种基于Transformer的文本二分类方法 Pending CN114297379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111539076.8A CN114297379A (zh) 2021-12-16 2021-12-16 一种基于Transformer的文本二分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111539076.8A CN114297379A (zh) 2021-12-16 2021-12-16 一种基于Transformer的文本二分类方法

Publications (1)

Publication Number Publication Date
CN114297379A true CN114297379A (zh) 2022-04-08

Family

ID=80966929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111539076.8A Pending CN114297379A (zh) 2021-12-16 2021-12-16 一种基于Transformer的文本二分类方法

Country Status (1)

Country Link
CN (1) CN114297379A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858932A (zh) * 2020-07-10 2020-10-30 暨南大学 基于Transformer的多重特征中英文情感分类方法及***
CN111858933A (zh) * 2020-07-10 2020-10-30 暨南大学 基于字符的层次化文本情感分析方法及***
CN112802568A (zh) * 2021-02-03 2021-05-14 紫东信息科技(苏州)有限公司 基于病历文本的多标签胃部疾病分类方法及装置
CN113177633A (zh) * 2021-04-20 2021-07-27 浙江大学 一种深度解耦时间序列预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858932A (zh) * 2020-07-10 2020-10-30 暨南大学 基于Transformer的多重特征中英文情感分类方法及***
CN111858933A (zh) * 2020-07-10 2020-10-30 暨南大学 基于字符的层次化文本情感分析方法及***
CN112802568A (zh) * 2021-02-03 2021-05-14 紫东信息科技(苏州)有限公司 基于病历文本的多标签胃部疾病分类方法及装置
CN113177633A (zh) * 2021-04-20 2021-07-27 浙江大学 一种深度解耦时间序列预测方法

Similar Documents

Publication Publication Date Title
CN105512289B (zh) 基于深度学习和哈希的图像检索方法
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和***
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN108664996A (zh) 一种基于深度学习的古文字识别方法及***
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN113190602B (zh) 融合字词特征与深度学习的事件联合抽取方法
CN112507190B (zh) 一种财经快讯的关键词提取方法和***
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
Chen et al. Extractive text-image summarization using multi-modal RNN
CN114529903A (zh) 文本细化网络
CN110688501B (zh) 一种基于深度学习的全卷积网络的哈希检索方法
CN110704664B (zh) 一种哈希检索方法
CN111026845B (zh) 一种获取多层次上下文语义的文本分类方法
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN110569506A (zh) 一种基于医疗词典的医疗命名实体识别方法
CN113704473A (zh) 基于长文本特征提取优化的媒体假新闻检测方法及***
CN112541082A (zh) 一种文本情感分类方法及***
CN114297379A (zh) 一种基于Transformer的文本二分类方法
CN104331717A (zh) 一种整合特征字典结构与视觉特征编码的图像分类方法
CN114781356B (zh) 一种基于输入共享的文本摘要生成方法
CN114580422A (zh) 一种结合近邻分析的两阶段分类的命名实体识别方法
Tang et al. A word representation method based on glyph of Chinese character
Sun et al. Text sentiment polarity classification method based on word embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220408

RJ01 Rejection of invention patent application after publication