CN110442707B - 一种基于seq2seq的多标签文本分类方法 - Google Patents

一种基于seq2seq的多标签文本分类方法 Download PDF

Info

Publication number
CN110442707B
CN110442707B CN201910544915.1A CN201910544915A CN110442707B CN 110442707 B CN110442707 B CN 110442707B CN 201910544915 A CN201910544915 A CN 201910544915A CN 110442707 B CN110442707 B CN 110442707B
Authority
CN
China
Prior art keywords
label
word
layer
text classification
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910544915.1A
Other languages
English (en)
Other versions
CN110442707A (zh
Inventor
廖伟智
王宇
马攀
阴艳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910544915.1A priority Critical patent/CN110442707B/zh
Publication of CN110442707A publication Critical patent/CN110442707A/zh
Application granted granted Critical
Publication of CN110442707B publication Critical patent/CN110442707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了标签文本分类领域的一种基于seq2seq的多标签文本分类方法,包括步骤:S1:对训练语料进行预处理;S2:建立基于seq2seq的多标签文本分类模型,并训练模型的参数;S3:使用训练好的多标签文本分类模型,对待预测的数据进行文本分类。本发明不需要人工提取特征,可以使用CNN来提取文本的局部语义信息可以提高文本分类的精确度,并使用初始化的全连接层,可以考虑标签之间的相关性,从而提高文本分类的准确度。

Description

一种基于seq2seq的多标签文本分类方法
技术领域
本发明涉及标签文本分类领域,具体涉及一种基于seq2seq的多标签文本分类方法。
背景技术
传统的文本分类技术主要关注单标签分类,即一篇文本只对应一个类别标签。然而,相比单标签分类,多标签文本分类在现实生活中更为常见,同时也更加困难。因为在多标签分类中,标签子集的数量随着标签数目的增多呈指数型增长。假设一个多标签分类问题中标签的个数为K,则理论上总的标签子集的个数为2^k-1,所以从这指数级数量的标签子集中,选择正确的标签子集无疑是一个巨大的挑战。为应对这个挑战,通常需要利用标签间的相关性来促进学习过程。例如:如果一篇新闻被标记为娱乐,那么它就不太可能和政治相关。所以有效地学习和利用标签之间的相关性是提高多标签分类模型性能的关键。目前,多标签文本分类被广泛用于信息检索,推荐***,情感分类等多项应用中。
在现有技术中的多标签文本分类方法中,很少考虑标签之间的相关性,所以文本分类的准确率并不高。目前,常用的多标签文本分类方法有:
1、基于传统机器学习的多标签文本分类方法,例如:二元关联法(Binaryrelevance),分类器链(Classifier chains),ML-DT,Rank-SVM和ML-KNN等。这类方法需要通过人工设计的特征来训练分类器,并且很少考虑标签之间的相关性,所以分类效果受到很大的局限。例如:Binary relevance为每一个类别都训练一个分类器。虽然这种方法很直观高效,但是由于没有考虑标签之间的相关性,算法的泛化性能可能无法达到最优。Classifier chains将多标签分类问题转化为链式的单标签分类问题。但是,如果前面的分类器预测错误,会导致该分类误差随着链往后传播,从而影响分类准确率。
2、基于深度学习的多标签文本分类方法,这类方法将深度学习,例如全连接神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、注意力机制(Attention)等应用到多标签文本分类中。使用神经网络处理文本分类弥补了传统机器学习方法的很多缺陷,比如:不需要通过人工设计特征等,但是最近几年提出来的处理多标签文本分类的神经网络方法很少考虑标签之间的相关性,并且都忽视了局部语义特征的重要性,这很大程度上影响了分类的准确率。
综上所述,基于传统机器学习的多标签文本分类方法需要人工设计特征,非常耗时耗力,并且特征的质量对分类效果的影响很大。同时,这类方法很难有效的考虑标签之间的相关性。而现有的基于深度学习的多标签文本分类方法,虽然能自动提取有效的特征,但是并不能有效的考虑标签之间的相关性,同时忽略了局部特征的重要性。
发明内容
解决的技术问题
针对现有技术中的问题,本发明提出一种基于seq2seq(序列到序列)的多标签文本分类方法,能够有效的提高多标签文本分类的精度。
技术方案
本发明通过以下技术方案予以实现:
一种基于seq2seq的多标签文本分类方法,包括步骤:
S1:对训练语料进行预处理;
S2:建立基于seq2seq的多标签文本分类模型,并训练模型的参数;
S3:使用训练好的多标签文本分类模型,对待预测的数据进行文本分类。
进一步地,所述S1中预处理步骤包括:
1):对训练语料OrgData进行分词并去除停用词,得到处理后的语料NewData并保存;
2):统计NewData中不重复的词,得到词集合WordSet,然后对每个单词进行编号,得到词集合WordSet对应的词编号集合WordID;
3):统计训练语料的标签,得到标签集合LableSet,对每个标签进行编号,得到标签集合LableSet对应的标签编号集合LableID;
4):随机无放回的从训练语料中抽取BatchSize句数据c以及对应的标签y,并将它们通过词编号集合和标签编号集合转换为对应的ID。
进一步地,所述基于seq2seq的多标签文本分类模型包括编码装置(Encoder)和解码装置(Decoder),
所述Encoder包括:
词嵌入层(Embedding Layer):用于将输入的单词转换为对应的词向量;
卷积层(Convolution Layer):使用卷积神经网络提取每个单词对应的局部语义向量;
拼接层(Concatenate Layer):将词向量和与其对应的局部语义向量拼接起来,作为下一层的输入;
LSTM编码层(LSTM Layer):包含若干LSTM单元,用于提取单词间的语义关系;
注意力层(Attention Layer):对LSTM Layer得到的单词语义隐藏状态赋予不同权重,得到不同时刻的文本向量;
所述Decoder主要包括:
LSTM解码层(LSTM Layer):用于对通过Attention Layer得到的文本向量进行解;
初始化全连接层(Initialized Layer):用于捕获标签之间的相关信息;
输出层(Output Layer):用于预测标签。
进一步地,所述Embedding Layer中具体的转换步骤包括:
给定一篇有n个单词的文本x={x1,…,xi,…,xn},其中xi表示文本的第i单词,通过Embedding Layer将单词转换为对应的词向量得到S=[w1,w2,…,wn],其中向量wi为对应单词xi的词向量。
进一步地,所述Convolution Layer中具体的拼接步骤包括:
1)输入Embedding Layer中得到的词向量S=[w1,w2,…,wn],
Figure BDA0002103666000000041
2)令
Figure BDA0002103666000000042
为一个长度为k卷积核,在句子的任何一个单词j处,都有一个窗口大小为k的矩阵:
wj:j+k-1=[wj,wj+1,…,wj+k-1],其中
Figure BDA0002103666000000043
3)卷积核m依次滑过S,得到窗口大小为k的卷积核对应的特征图
Figure BDA0002103666000000044
e中的每一个元素ej计算式如下:
Figure BDA0002103666000000045
其中
Figure BDA0002103666000000046
是元素乘法,b是偏置参数;
4)用m个窗口大小为k的卷积核得到m个相同长度的特征图,将特征图按行拼接后转置得到:
W=[e1,e2,…,em]T,其中ei表示第i个卷积核产生的特征图;
5)用pj表示
Figure BDA0002103666000000047
的第j行,并表示单词xj的局部语义信息,将单词xj的词向量wj和与其对应的局部语义向量pj拼接起来,得到RNN的输入序列S′:
S′=[g1,g2,…,gn];gj=[wj,pj]。
进一步地,利用双向LSTM来对序列S′进行编码,并计算每个单词对应的隐藏状态,即:
Figure BDA0002103666000000048
得到前向和后向的隐藏状态
Figure BDA0002103666000000049
Figure BDA00021036660000000410
后,通过对
Figure BDA00021036660000000411
Figure BDA00021036660000000412
拼接得到最终的隐藏状态
Figure BDA00021036660000000413
进一步地,所述Attention Layer的实施步骤包括:在任意时刻t,通过注意力机制对文本序列不同部分赋予不同的权重αt,j,最终得到t
Figure BDA0002103666000000051
其中Wa,Ua,va是权重参数,ba是偏置参数,st表示解码过程中t时刻的隐藏状态。
进一步地,所述Decode包括步骤:
1)利用单向LSTM对文本向量ct进行解码,其中t时刻的隐藏状态st=LSTM(st-1,[g(yt-1),ct-1]),yt-1表示上一个时刻预测的标签的概率分布,函数g表示取yt-1中概率最大的那个标签对应的标签向量;
2)通过全连接层,得到t时刻标签的分数ot=Wdf(Wost+Uoct+bo),其中
Figure BDA0002103666000000052
Wd、Wo、Uo是权重参数,bo是偏置参数;
3)将ot作为初始化全连接层的输入,得到输出o′t=W′ot,其中
Figure BDA0002103666000000053
是权重参数;
4)通过softmax函数计算得到t时刻预测的标签的概率分布yt=softmax(o′t)。
进一步地,全连接层的初始化步骤包括:
对初始化全连接层的权重参数W′进行初始化,W′是一个L×L的矩阵;其中,W′的第i行,第j列的元素W′i,j表示标签空间中第i个标签和第j个标签的相关性;
W′i,j初始化值的计算方法如下:
Figure BDA0002103666000000054
其中fi,j表示i标签和j标签一起出现在训练样本中的频率,通过统计训练数据集中样本的标签得到;Ai表示i标签和其它所有标签在训练数据集中两两共现总的次数;对角线上的初始化值设为1。
进一步地,将S2中得到的数据c作为多标签文本分类模型的输入数据,并使用交叉熵函数作为损失函数,然后采用梯度下降法(SGD)优化多标签文本分类模型的参数,当多标签文本分类模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止多标签文本分类模型的训练。
有益效果
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
本发明提出了一种基于seq2seq的多标签文本分类方法,不需要人工提取特征,可以使用卷积神经网络(CNN)来提取文本的局部语义信息可以提高文本分类的精确度,并使用初始化的全连接层,可以考虑标签之间的相关性,从而提高文本分类的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图;
图2为本发明的结构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例1,结合图1,一种基于seq2seq的多标签文本分类方法,包括步骤:
S1:对训练语料进行预处理;
S2:建立基于seq2seq的多标签文本分类模型,并训练模型的参数;
S3:使用训练好的多标签文本分类模型,对待预测的数据进行文本分类。
进一步地,参见图2,所述S1中预处理步骤包括:
1):对训练语料OrgData进行分词并去除停用词,得到处理后的语料NewData并保存;停用词指例如“了”、“个”等停用词和特殊符号等无意义字词。
2):统计NewData中不重复的词,得到词集合WordSet,对每个单词进行编号,得到词集合WordSet对应的词编号集合WordID;
3):统计训练语料的标签,得到标签集合LableSet,对每个标签进行编号,得到标签集合LableSet对应的标签编号集合LableID;
4):随机无放回的从训练语料中抽取BatchSize句数据c以及对应的标签y,并将它们通过词编号集合和标签编号集合转换为对应的ID。
进一步地,建立基于seq2seq的多标签文本分类模型,所述基于seq2seq的多标签文本分类模型包括编码装置(Encoder)和解码装置(Decoder),
所述Encoder包括:
词嵌入层(Embedding Layer):用于将输入的单词转换为对应的词向量;
卷积层(Convolution Layer):使用卷积神经网络提取每个单词对应的局部语义向量;
拼接层(Concatenate Layer):将词向量和与其对应的局部语义向量拼接起来,作为下一层的输入;
LSTM编码层(LSTMLayer):包含若干LSTM单元,用于提取单词间的语义关系;
注意力层(Attention Layer):对LSTM Layer得到的单词语义隐藏状态赋予不同权重,得到不同时刻的文本向量;
所述Decoder主要包括:
LSTM解码层(LSTM Layer):用于对通过Attention Layer得到的文本向量进行解;
初始化全连接层(Initialized Layer):用于捕获标签之间的相关信息;
输出层(Output Layer):用于预测标签。
进一步地,所述Embedding Layer中具体的转换步骤包括:
给定一篇有n个单词的文本x={x1,…,xi,…,xn},其中xi表示文本的第i单词,通过Embedding Layer将单词转换为对应的词向量得到S=[w1,w2,…,wn],其中向量wi为对应单词xi的词向量。
进一步地,在Convolution Layer中使用卷积神经网络(CNN)来提取文本中的局部语义信息。在Concatenate Layer将提取到的局部语义信息和词向量拼接起来作为下一层的输入。所述Concatenate Layer中具体的拼接步骤包括:
1)输入Embedding Layer中得到的词向量S=[w1,w2,…,wn],
Figure BDA0002103666000000081
2)令
Figure BDA0002103666000000082
为一个长度为k卷积核,在句子的任何一个单词j处,都有一个窗口大小为k的矩阵:
wj:j+k-1=[wj,wj+1,…,wj+k-1],其中
Figure BDA0002103666000000083
3)卷积核m依次滑过S,得到窗口大小为k的卷积核对应的特征图
Figure BDA0002103666000000084
e中的每一个元素ej计算式如下:
Figure BDA0002103666000000085
其中
Figure BDA0002103666000000086
是元素乘法,b是偏置参数;
4)用m个窗口大小为k的卷积核得到m个相同长度的特征图,将特征图按行拼接后转置得到:
W=[e1,e2,…,em]T,其中ei表示第i个卷积核产生的特征图;
5)用pj表示
Figure BDA0002103666000000091
的第j行,并表示单词xj的局部语义信息,将单词xj的词向量wj和与其对应的局部语义向量pj拼接起来,得到RNN的输入序列S′:
S′=[g1,g2,…,gn];gj=[wj,pj]。
进一步地,利用双向LSTM来对序列S′进行编码,并计算每个单词对应的隐藏状态,即:
Figure BDA0002103666000000092
得到前向和后向的隐藏状态
Figure BDA0002103666000000093
Figure BDA0002103666000000094
后,通过对
Figure BDA0002103666000000095
Figure BDA0002103666000000096
拼接得到最终的隐藏状态
Figure BDA0002103666000000097
进一步地,所述Attention Layer的实施步骤包括:在任意时刻t,通过注意力机制对文本序列不同部分赋予不同的权重αt,j,最终得到t
Figure BDA0002103666000000098
其中Wa,Ua,va是权重参数,ba是偏置参数,st表示解码过程中t时刻的隐藏状态。
进一步地,所述Decode包括步骤:
1)利用单向LSTM对文本向量ct进行解码,其中t时刻的隐藏状态st=LSTM(st-1,[g(yt-1),ct-1]),yt-1表示上一个时刻预测的标签的概率分布,函数g表示取yt-1中概率最大的那个标签对应的标签向量;
2)通过全连接层,得到t时刻标签的分数ot=Wdf(Wost+Uoct+bo),其中
Figure BDA0002103666000000099
Wd、Wo、Uo是权重参数,bo是偏置参数;
3)将ot作为初始化全连接层的输入,得到输出o′t=W′ot,其中
Figure BDA00021036660000000910
是权重参数;
4)通过softmax函数计算得到t时刻预测的标签的概率分布yt=softmax(o′t)。
进一步地,所述全连接层的初始化步骤包括:
对初始化全连接层的权重参数W′进行初始化,W′是一个L×L的矩阵;其中,W′的第i行,第j列的元素W′i,j表示标签空间中第i个标签和第j个标签的相关性;
W′i,j初始化值的计算方法如下:
Figure BDA0002103666000000101
其中fi,j表示i标签和j标签一起出现在训练样本中的频率,通过统计训练数据集中样本的标签得到;Ai表示i标签和其它所有标签在训练数据集中两两共现总的次数;对角线上的初始化值设为1。
进一步地,将S2中得到的数据c作为多标签文本分类模型的输入数据,并使用交叉熵函数作为损失函数,然后采用SGD(梯度下降法,其他优化方法也可以)训练多标签文本分类模型的参数,当多标签文本分类模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止多标签文本分类模型的训练。
将预测数据中的文本进行分词、去除停用词并将其根据S1中得到的词编号集合WordID转换为对应的ID编号,然后将其输入到训练好的模型中,进行文本类别的预测。
本发明不需要人工提取特征,可以使用卷积神经网络来提取文本的局部语义信息可以提高文本分类的精确度,并使用初始化的全连接层,可以考虑标签之间的相关性,从而提高文本分类的准确度。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (2)

1.一种基于seq2seq的多标签文本分类方法,其特征在于:包括步骤:
S1:对训练语料进行预处理;
S2:建立基于seq2seq的多标签文本分类模型,并训练模型的参数;
S3:使用训练好的多标签文本分类模型,对待预测的数据进行文本分类;
所述S1中预处理步骤包括:
1):对训练语料OrgData进行分词并去除停用词,得到处理后的语料NewData并保存;
2):统计NewData中不重复的词,得到词集合WordSet,然后对每个单词进行编号,得到词集合WordSet对应的词编号集合WordID;
3):统计训练语料的标签,得到标签集合LableSet,对每个标签进行编号,得到标签集合LableSet对应的标签编号集合LableID;
4):随机无放回的从训练语料中抽取BatchSize句数据c以及对应的标签y,并将它们通过词编号集合和标签编号集合转换为对应的ID;
所述基于seq2seq的多标签文本分类模型包括编码装置和解码装置,
所述编码装置包括:
词嵌入层:用于将输入的单词转换为对应的词向量;
卷积层:使用卷积神经网络提取每个单词对应的局部语义向量;
拼接层:将词向量和与其对应的局部语义向量拼接起来,作为下一层的输入;
LSTM编码层:包含若干LSTM单元,用于提取单词间的语义关系;
注意力层:对LSTM编码层得到的单词语义隐藏状态赋予不同权重,得到不同时刻的文本向量;
所述解码装置主要包括:
LSTM解码层:用于对通过注意力层得到的文本向量进行解;
初始化全连接层:用于捕获标签之间的相关信息;
输出层:用于预测标签;
所述词嵌入层中具体的转换步骤包括:
给定一篇有n个单词的文本x={x1,...,xi,...,xn},其中xi表示文本的第i单词,通过词嵌入层将单词转换为对应的词向量得到S=[w1,w2,...,wn],其中向量wi为对应单词xi的词向量;
所述拼接层中具体的拼接步骤包括:
1)输入词嵌入层中得到的词向量S=[w1,w2,...,wn],
Figure FDA0003628210500000021
2)令
Figure FDA0003628210500000022
为一个长度为k卷积核,在句子的任何一个单词j处,都有一个窗口大小为k的矩阵:
wj:j+k-1=[wj,wj+1,...,wj+k-1],其中
Figure FDA0003628210500000023
3)卷积核m依次滑过S,得到窗口大小为k的卷积核对应的特征图
Figure FDA0003628210500000024
e中的每一个元素ej计算式如下:
Figure FDA0003628210500000025
其中
Figure FDA0003628210500000026
是元素乘法,b是偏置参数;
4)用m个窗口大小为k的卷积核得到m个相同长度的特征图,将特征图按行拼接后转置得到:
W=[e1,e2,...,em]T,其中ei表示第i个卷积核产生的特征图;
5)用pj表示
Figure FDA0003628210500000027
的第j行,并表示单词xj的局部语义信息,将单词xj的词向量wj和与其对应的局部语义向量pj拼接起来,得到RNN的输入序列S′:
S′=[g1,g2,…,gn];gj=[wj,pj];
利用双向LSTM来对序列S′进行编码,并计算每个单词对应的隐藏状态,即:
Figure FDA0003628210500000031
得到前向和后向的隐藏状态
Figure FDA0003628210500000032
Figure FDA0003628210500000033
后,通过对
Figure FDA0003628210500000034
Figure FDA0003628210500000035
拼接得到最终的隐藏状态
Figure FDA0003628210500000036
所述注意力层的实施步骤包括:在任意时刻t,通过注意力机制对文本序列不同部分赋予不同的权重αt,j,最终得到t时刻的文本向量表示ct
Figure FDA0003628210500000037
Figure FDA0003628210500000038
其中Wa,Ua,va是权重参数,ba是偏置参数,st表示解码过程中t时刻的隐藏状态;
所述解码装置包括解码步骤:
1)利用单向LSTM对文本向量ct进行解码,其中t时刻的隐藏状态st=LSTM(st-1,[g(yt-1),ct-1]),yt-1表示上一个时刻预测的标签的概率分布,函数g表示取yt-1中概率最大的那个标签对应的标签向量;
2)通过全连接层,得到t时刻标签的分数ot=Wdf(Wost+Uoct+bo),其中
Figure FDA0003628210500000039
Wd、Wo、Uo是权重参数,bo是偏置参数;
3)将ot作为初始化全连接层的输入,得到输出o′t=W′ot,其中
Figure FDA00036282105000000310
是权重参数;
4)通过softmax函数计算得到t时刻预测的标签的概率分布yt=softmax(o′t);
全连接层的初始化步骤包括:
对初始化全连接层的权重参数W′进行初始化,W′是一个L×L的矩阵;其中,W′的第i行,第j列的元素W′i,j表示标签空间中第i个标签和第j个标签的相关性;
W′i,j初始化值的计算方法如下:
Figure FDA0003628210500000041
其中fi,j表示i标签和j标签一起出现在训练样本中的频率,通过统计训练数据集中样本的标签得到;Ai表示i标签和其它所有标签在训练数据集中两两共现总的次数;对角线上的初始化值设为1。
2.根据权利要求1所述的一种基于seq2seq的多标签文本分类方法,其特征在于:将S2中得到的数据c作为多标签文本分类模型的输入数据,并使用交叉熵函数作为损失函数,然后采用梯度下降法优化多标签文本分类模型的参数,当多标签文本分类模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止多标签文本分类模型的训练。
CN201910544915.1A 2019-06-21 2019-06-21 一种基于seq2seq的多标签文本分类方法 Active CN110442707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910544915.1A CN110442707B (zh) 2019-06-21 2019-06-21 一种基于seq2seq的多标签文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910544915.1A CN110442707B (zh) 2019-06-21 2019-06-21 一种基于seq2seq的多标签文本分类方法

Publications (2)

Publication Number Publication Date
CN110442707A CN110442707A (zh) 2019-11-12
CN110442707B true CN110442707B (zh) 2022-06-17

Family

ID=68428982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910544915.1A Active CN110442707B (zh) 2019-06-21 2019-06-21 一种基于seq2seq的多标签文本分类方法

Country Status (1)

Country Link
CN (1) CN110442707B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851596B (zh) * 2019-10-11 2023-06-27 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN111128390B (zh) * 2019-12-20 2022-11-04 昆明理工大学 一种基于骨科症状特征选取的文本处理方法
CN111177493B (zh) * 2020-01-03 2023-05-05 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器和存储介质
CN111291183B (zh) * 2020-01-16 2021-08-03 支付宝(杭州)信息技术有限公司 利用文本分类模型进行分类预测的方法及装置
CN111461904B (zh) * 2020-04-17 2022-06-21 支付宝(杭州)信息技术有限公司 对象类别的分析方法及装置
CN111553442B (zh) * 2020-05-12 2024-03-12 国网智能电网研究院有限公司 一种分类器链标签序列的优化方法及***
CN111680156B (zh) * 2020-05-25 2024-02-09 中国工商银行股份有限公司 数据多标签分类方法及***
CN112214599B (zh) * 2020-10-20 2022-06-24 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112668507A (zh) * 2020-12-31 2021-04-16 南京信息工程大学 基于混合神经网络与注意力机制的海杂波预测方法及***
CN112800222B (zh) * 2021-01-26 2022-07-19 天津科技大学 利用共现信息的多任务辅助极限多标签短文本分类方法
CN113449103B (zh) * 2021-01-28 2024-05-10 民生科技有限责任公司 融入标签与文本交互机制的银行交易流水分类方法及***
CN113220874B (zh) * 2021-03-13 2023-04-07 山东师范大学 一种多标签文本分类方法及***
CN113204659B (zh) * 2021-03-26 2024-01-19 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN115146054A (zh) * 2021-03-30 2022-10-04 株式会社理光 多标签分类方法、装置及可读存储介质
CN113420543B (zh) * 2021-05-11 2024-03-22 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
CN113297379A (zh) * 2021-05-25 2021-08-24 善诊(上海)信息技术有限公司 一种文本数据多标签分类方法及装置
CN113704466B (zh) * 2021-07-26 2024-03-12 和美(深圳)信息技术股份有限公司 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113744318B (zh) * 2021-09-15 2024-03-05 浙江工业大学 一种rfid无设备人体追踪***的择优标签方法
CN115713097A (zh) * 2023-01-06 2023-02-24 浙江省科技项目管理服务中心 基于seq2seq算法的电子显微镜机时计算方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN108491372A (zh) * 2018-01-31 2018-09-04 华南理工大学 一种基于seq2seq模型的中文分词方法
CN108897815A (zh) * 2018-06-20 2018-11-27 淮阴工学院 一种基于相似度模型和FastText的多标签文本分类方法
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其***
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和***
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11086918B2 (en) * 2016-12-07 2021-08-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-label classification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN108491372A (zh) * 2018-01-31 2018-09-04 华南理工大学 一种基于seq2seq模型的中文分词方法
CN108897815A (zh) * 2018-06-20 2018-11-27 淮阴工学院 一种基于相似度模型和FastText的多标签文本分类方法
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其***
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An Integrated Neural Model for Sentence Classification;Yanbu Guo et al.;《2018 Chinese Control and Decision Conference》;20180709;6268-6273 *
Large Scale Semantic Indexing with Deep Level-wise Extreme Multi-label Learning;Dingcheng Li et al.;《The World Wide Web Conference》;20190513;950-960 *
基于深度学习的科技资源多标签文本分类方法研究;王宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715(第7期);I138-1458 *
多媒体内容理解的研究现状与展望;彭宇新 等;《计算机研究与发展》;20181221;第56卷(第1期);183-208 *

Also Published As

Publication number Publication date
CN110442707A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110442707B (zh) 一种基于seq2seq的多标签文本分类方法
CN111309971B (zh) 一种基于多级编码的文本到视频的跨模态检索方法
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其***
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
CN111125358B (zh) 一种基于超图的文本分类方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN113220876B (zh) 一种用于英文文本的多标签分类方法及***
CN112163092B (zh) 实体及关系抽取方法及***、装置、介质
CN112507190B (zh) 一种财经快讯的关键词提取方法和***
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN110795935A (zh) 文字词向量模型的训练方法、装置、终端及存储介质
CN112989833A (zh) 一种基于多层lstm的远程监督实体关系联合抽取方法和***
CN111046233B (zh) 一种基于视频评论文本的视频标签确定方法
CN109993109A (zh) 图像文字识别方法
CN114529903A (zh) 文本细化网络
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN107908757B (zh) 网站分类方法及***
CN111026845B (zh) 一种获取多层次上下文语义的文本分类方法
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN113806543A (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN113204640A (zh) 一种基于注意力机制的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant