CN110347839B

CN110347839B - 一种基于生成式多任务学习模型的文本分类方法

Info

Publication number: CN110347839B
Application number: CN201910648695.7A
Authority: CN
Inventors: 谢松县; 高辉; 陈仲生; 彭立宏
Original assignee: Hunan Shuding Intelligent Technology Co ltd
Current assignee: Hunan Shuding Intelligent Technology Co ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-07-16
Anticipated expiration: 2039-07-18
Also published as: CN110347839A

Abstract

本发明构建一种基于生成式多任务学习模型的文本分类方法，通过训练集根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码，解码获得与编码时刻特征向量相关的当前时刻语义特征并进行训练；根据训练结果和真实标签集对多任务分类模型进行优化，获得优化多任务分类模型；将待测集中的数据输入上述优化多任务分类模型，分别获得分类标签从而完成分类；上述模型在训练过程中通过多任务机制构建了多标签分类模型与层次分类模型之间的语义关联性，因此可以增强两个子任务预测结果之间的语义关联，从而达到提升子任务分类性能目的。

Description

一种基于生成式多任务学习模型的文本分类方法

技术领域

本发明属于自然语言处理文本分类技术领域，尤其涉及一种基于生成式多任务学习模型的文本分类方法。

背景技术

文本多标签分类和层次分类是在实际应用中经常需要解决的问题，也是文本分类任务重要的两个分支以及当前的研究热点。在实际应用中许多数据具有多义性，一个实例可能对应标签集中的多个类别标签，文本多标签分类的目的就是为文本到标签集建立起一对多的关联。相对于传统的单标签分类，多标签分类是一种更符合真实应用场景的方法。比如在公安业务场景中，案件的受理过程会产生大量案件的警情文本，一般需要人工来标注标签，以方便理解和检索，从而为后续案件研判和侦破提供数据服务。

实际应用往往需要对一个文本既进行多标签分类，又进行层次分类。与传统的单分类任务相比，多标签分类和层次分类任务更加复杂，现有研究重点关注如何对样本到标签之间的一对多映射进行建模；同时，由于多标签分类任务中的标签往往存在较强的语义关系，而层次分类标签之间存在父子或兄弟关系，可以充分利用标签之间的语义关系来提高分类效果。针对文本多标签分类和层次分类双重任务问题，目前的常规解决方案是分别训练一个多标签分类模型和一个层次分类模型，然后进行独立预测，但这种方案可能导致预测结果之间缺乏必要的语义关联。

发明内容

本发明提出了一种基于生成式多任务学习模型的文本分类方法，用于克服现有技术中多种分类模型中缺乏语义关联导致分类效果难以综合优化的缺陷，本发明利用多任务学习把多标签分类任务和层次分类任务整合到一个多任务分类模型之中，从而达到提升子任务分类性能目的。

为实现上述目的，本发明提供一种基于生成式多任务学习模型的文本分类方法，包括如下步骤：

S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实标签集；

S2.基于多任务学习机制构建多任务分类模型，通过训练集根据共享编码器进行编码，根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签；

S3.根据训练分类标签和真实标签计算损失值，并采用多标签分类任务和层次分类任务交替训练的方法对模型进行优化训练，获得优化分类模型；

S4.将待测试集的各文本语料输入优化模型获得预测分类标签。

采用本发明可以达到以下技术效果：

本发明首先构建训练集，对训练集中的文本语料进行预处理和分类标注，根据多标签分类标准和层次分类标准针对训练集分别构目标建标签集；基于多任务学习机制构建了一个多任务分类模型，通过训练集根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码，解码获得与编码时刻特征向量相关的当前时刻语义特征，用来衡量编码器中第i时刻的特征向量和解码时第t时刻的相关性，并进行训练；根据训练结果和真实标签集对多任务分类模型进行优化，获得优化多任务分类模型；将待测集中的数据(没有标定的文本语料)输入上述优化多任务分类模型，分别获得分类标签；上述模型在训练过程中通过多任务机制构建了多标签分类模型与层次分类模型之间的语义关联性，因此可以增强两个子任务预测结果之间的语义关联，从而达到提升子任务分类性能目的。

附图说明

图1为本发明一种基于生成式多任务学习模型的文本分类方法的工作流程示意图；

图2为本发明一种基于生成式多任务学习模型的文本分类方法的分类流程示意图。

具体实施方式：

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供一种基于生成式多任务学习模型的文本分类方法。

如图1所示，本发明实施的框架包括数据输入及预处理模块、词嵌入模块、编码模块，多标签分类任务和层次分类任务分别拥有独立的注意力机制，并分别包括独立的多标签分类解码模块和层次分类解码模块，最后分别是多标签分类预测输出模块和层次分类预测输出模块，其中多标签分类模块和层次分类模块的解码模块又都包括模型优化模块，其中多标签分类模块的解码模块的优化是通过顺序不敏感的损失函数进行，而层次分类模块的解码模块优化是通过普通损失函数计算交叉熵实现的。

本发明提出一种基于生成式多任务学习模型的文本分类方法，同时实现文本的多标签分类和层次分类。***框架如图2所示，总体框架，整个***由3部分组成：1、共享编码器，对输入的文本进行编码，后续解码器共享此编码器的输出。2、多标签分类解码器，完成多标签分类任务；3、层次分类解码器，完成层次分类任务。其中编码器和解码器都使用了长短记忆模型网络结构，两个解码器分别拥有各自的注意力机制。

本发明包括如下步骤：

首先对待输入文本语料进行预处理，对即将输入的文本语料中的文本数据进行分词、去停用词，构建语料词表；将所述语料词表进行词嵌入处理获得所述文本语料的词嵌入矩阵；

多标签分类任务和层次分类任务对应的完整标签集分别为

和

完整标签集即分类任务对应的全部标签，多标签分类任务和层次分类任务的完整标签集对应标签数量分别为L_M和L_H。待分类文本语料包含n个中文词x₁,x₂,…,x_n，多标签分类任务和层次分类任务是为其指定一个

的子集Y^M和一个

的子集Y^H对应标签个数分别为m_M和m_H。训练集中各文本语料对应的真实标签集是也属于完整标签集的子集。

多任务学习使用共同学习取代常见的独立学习。多任务学习模型提取多个任务之间的关联性，提炼出其中所具有的相同特征，如共享子向量、共享子空间等，各个子任务能够得到额外的有用信息，大部分情况下都能取得比单任务学习更好的效果。在自然语言处理应用中，多任务学习不仅能利用相关任务的相互关联性缓解语料由于规模小带来的训练欠拟合问题，而且还能提升模型的泛化能力。

本发明利用多任务学习模型把多标签分类任务和层次分类任务整合到一个框架之中，从而达到提升子任务分类性能目的，同时将尝试利用多任务学习增强两个子任务预测结果之间的语义关联。

本发明所述S2包括：

S2.1.文本语料经预处理得到词嵌入矩阵，词嵌入矩阵中输入共享编码器，共享编码器利用双向长短记忆模型，根据词嵌入矩阵中对应当前时刻词嵌入向量以及当前时刻词嵌入向量的历史信息和未来信息得到当前时刻对应的特征向量，每一时刻对应的特征向量组成特征向量序列；

共享编码器主要由双向长短记忆模型构成，用来获取警情文本的语义表征。长短记忆模型引入记忆单元，可以保存长距离信息，是循环神经网络结构的一种常用的优化方案。由于加入了门控机制，可以在工作时保留一段时间的信息，并在训练时保持内部梯度不受不利变化的干扰。对包含n个中文词语的序列，输入至共享编码器得到对应输出序列h₁,h₂,…,h_n。第i时刻的特征向量h_i可表示如下：

其中，

和

分别对应于第i时刻长短记忆模型前后两个时刻的隐藏状态。

表示两个向量的连接。

S2.2.将所述特征向量输入多任务分类解码器，根据多标签分类任务和层次分类任务交替解码获得与编码时刻特征向量相关的当前时刻语义特征。

本发明所述S2.2包括：

多任务分类解码器中包括多标签分类注意力机制层和层次分类注意力机制层；

注意力机制通过在每个解码时刻采用不同的c_t来解决该问题。

其中c_t表示t解码时刻的语义特征，a_ti为学习得到的权重，用来衡量编码器中第i时刻的h_i和解码时第t时刻的相关性。

多标签分类注意力机制层解码输出特征向量序列对应的多标签分类任务语义特征序列；

层次分类注意力机制层解码输出特征向量序列对应的层次分类任务语义特征序列；

其中语义特征序列由每一解码时刻按照先后顺序生成的语义特征组成。

S2.3.根据前一时刻语义特征、前一时刻输出对应完整标签集中标签的词嵌入向量以及前一时刻隐藏向量，获得当前时刻隐藏向量；

本发明所述S2.3中当前时刻隐藏向量获得的方法包括：

S2.31，对多任务分类模型初始化，将多任务注意力机制层处理后得到的语义特征赋值给隐藏层的隐藏向量，并输入至多任务分类模型中的多任务分类器，其中多任务分类器包括多标签分类器和层次分类器，多任务分类器计算当前时刻语义特征在完整标签集上的概率分布，并输出概率最大值对应的分类标签；

S2.32，将前一时刻的输出在完整标签集上的概率分布最大的分类标签、前一时刻的语义特征以及前一时刻的隐藏向量输入至多任务分类模型的长短记忆模型层，得到当前时刻的隐藏层对应的隐藏向量。

解码器的长短记忆模型层输出的t时刻的隐藏状态为s_t，计算如下：

向量g(y_t-1)表示t-1时刻输出概率分布y_t-1中最大值对应的标签l的嵌入向量。y_t表示模型t时刻输出的在整个标签空间

上的概率分布。

S2.4.多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征，层次分类任务根据当前时刻隐藏向量、当前时刻语义特征以及层级结构掩码矩阵，分别获得当前时刻在完整标签集上的概率分布，取最大值作为当前时刻的训练分类标签。

本发明所述S2.4中输出当前时刻分类标签的步骤包括：

S2.41，多标签分类任务将当前时刻的语义特征和隐藏向量输入至多标签分类器，多标签分类器计算当前时刻在完整标签集上的概率分布，取最大值作为当前时刻的分类标签输出；

S2.42，层次分类任务将当前时刻隐藏向量、当前时刻语义特征以及前一时刻的分类标签输入至层次分类器，层次分类器根据层级结构掩码矩阵结合前一时刻的分类标签对当前时刻输出分类标签的进行层级约束后，层次分类器计算当前时刻在完整标签集上的概率分布，取最大值作为当前时刻的分类标签输出。

本发明所述步骤S2.42中层级结构掩码矩阵进行层级约束的步骤包括：

S2.42a，层次分类任务对应的完整标签集按照树形结构组织；

S2.42b，当前时刻的分类标签依赖于之前时刻的分类标签信息，层级结构掩码矩阵将当前时刻分类标签的搜索范围约束在前一时刻生成的分类标签的儿子标签上。

本发明所述S3包括：

通过损失函数计算训练分类标签集中训练分类标签与真实标签集中真实标签之间的损失值，对多任务分类模型中的参数进行优化，获得优化多任务分类模型；多任务分类模型中的参数优化包括多标签分类器的参数优化和层次分类器的参数优化。

本发明所述S3中多任务分类模型中的参数优化包括多标签分类器的参数优化和层次分类器的参数优化。

模型t时刻输出的在整个标签空间

上的概率分布y_t的计算方法为：

y_t＝softmax(W₀f(W_ds_t+V_dc_t))

其中，W₀、W_d和V_d为待训练参数。所述参数的优化即对W₀、W_d和V_d的优化。

本发明所述步骤S3中多标签分类器的参数优化的步骤包括：

S3.1a，对于当前解码时刻输出的训练分类标签，根据交叉熵损失函数计算其与真实标签集所有真实标签的交叉熵，获取其中交叉熵最小值，称为第一损失值

S3.2a，对于真实标签集中当前解码时刻对应的真实标签，根据交叉熵函数计算其与所有训练分类标签的交叉熵，获取其中交叉熵最小值，称为第二损失值；

S3.3a，第一损失值与第二损失值之和构成标签顺序不敏感的多标签分类损失；

S3.4a，最后的损失值用于基于反向传播方法的模型参数优化，优化过程中当模型处于收敛时，对应的多标签分类器参数作为优化后的多标签分类器并进行保存。

本发明所述步骤S3中层次分类器的参数优化的步骤包括：

S3.1b，根据交叉熵损失函数每一解码时刻输出的训练分类标签与该解码时刻对应的真实标签集中的真实标签的交叉熵；

S3.2b计算该文本语料所有解码时刻的交叉熵之和作为最后的损失值；

S3.3b最后的损失值用于基于反向传播方法的模型参数优化，优化过程中当模型处于收敛时，对应的层次分类器参数作为优化后的层次分类器并进行保存。

下面给出一个面向公安警情数据和类别识别问题的实施例，采用案件受理过程中产生的警情文本作为实验数据。产生的12万多条警情文本，每条文本都由专业人员进行了警情tag和案件类别的标注。警情tag标注属于多标签分类任务，警情类别预测属于层次分类任务。

针对多标签分类任务和层次分类任务，本文选择了不同的baseline与多任务分类模型进行对比：

CNN多标签分类：利用CNN来捕捉文本特征，最后一层用sigmoid激活函数输出每个标签的概率，将样本标注为概率大于某个阈值的那些标签，该方法未考虑标签之间的关系。

SGM多标签分类：利用带有注意力机制的Seq2Seq模型进行文本多标签分类，同时引入“全局嵌入”的概念，将上一时刻除概率最大标签以及其他标签一同用于本时刻标签的预测。

CNN_Flat层次分类：将7层类别标签平铺为一层包含729个类别的标签集，使用CNN模型进行文本分类。

Top-Down(CNN)层次分类：对于树形层次结构，为每一个非叶节点训练一个CNN文本分类器，用于对所属子类进行预测。

为了验证本发明中各项改进对性能的影响，分别设置了以下几个模型进行对比实验：

GMTC_M：仅用于多标签分类单个任务的序列生成模型，编码器和多标签分类解码器的结构和超参数均与多任务分类模型一致。

GMTC_H：仅用于层次分类单个任务的序列生成模型，编码器和层次分类解码器的结构和超参数均与多任务分类模型一致。

GMTC(common loss)：多任务分类模型中的多标签分类任务采用传统标签生成模型的交叉熵损失函数的情况。

GMTC(without mask)：多任务分类模型中的层次分类解码器未采用层级结构掩码矩阵的情况。

按照8:1:1的比例将上述警情文本划分为训练集、测试集和验证集，作为输入本发明的文本语料。对输入的文本语料进行分词、去停用词，构建语料词表。

对语料词表中的语料词按照完整标签集中多标签映射关系以及层次分类映射关系分别构建目标标签集。警情tag对应目标标签集大小为14。案件类别目标标签集为深度7层的树形层次结构，从第1层到第7层对应的标签数量分别为20、106、55、132、144、210、62。对于案件类别分类，每个实例既可能对应全深度标签又可能对应部分深度标签，即实例分类分到非叶节点就停止，而不是必须分到叶节点。

将将所述语料词表进行词嵌入处理获得所述文本语料的词嵌入矩阵，其中词嵌入维度为128；将输入的文本语料词表数值化表示，并将数值化表示的文本语料词表输入到嵌入层中以得到文本语料词表对应的词嵌入向量序列，所有所述词嵌入向量序列构成词嵌入矩阵。

对所述词嵌入矩阵进行编码获得与每个语料词对应的特征向量；

将所述词嵌入矩阵传输至共享编码层，共享编码层利用双向长短记忆模型获得输入词嵌入向量序列的历史信息和未来信息以及当前时刻输入的文本语料的词嵌入向量得到当前时刻对应的特征向量。

将所述特征向量输入多任务分类模型，根据多标签分类任务和层次分类任务交替解码获得与编码时刻特征向量相关的当前时刻语义特征；

在执行多标签分类任务和层次分类任务时共享编码层输出的特征向量序列；

多标签分类任务的解码是通过注意力机制层输出特征向量序列对应的多标签分类任务语义特征序列；

层次分类任务的解码是通过注意力机制层输出特征向量序列对应的层次分类任务语义特征序列。

其中多标签分类任务和层次分类任务分别拥有独立的注意力机制。

如表4所示，针对同一段警情文本，单任务模型包括多标签分类模型(GMTC_M)和层次分类模型(GMTC_H)，和多任务分类模型在词序列上的注意力机制可视化情况。针对同一段文本语料，对应的警情tag和警情类别真值分别为“涉枪，涉黑恶”和“涉黑恶/涉枪”，多标签分类模型将警情tag错误预测为“伤害”，将较高的注意力权重两次分配给“打”，而对“钢珠”、“***”分配的权重较小，在采用了多任务学习框架的多任务模型模型中，警情tag预测时将较高的注意力权重正确分配给“钢珠”、“***”等词，且与警情类别预测时的注意力权重分配保持了较高的一致性。

根据前一时刻语义特征、前一时刻输出对应完整标签集中标签的嵌入向量以及前一时刻隐藏向量，获得当前时刻隐藏向量；

多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征，层次分类任务根据当前时刻隐藏向量、当前时刻语义特征以及前一时刻的分类标签，获得当前时刻在完整标签集上的概率分布，取最大值作为当前时刻的分类标签；

通过损失函数计算分类标签集中与目标标签集中对应位置标签真值之间的损失值，对多任务分类模型中的参数进行优化，获得优化多任务分类模型；

当前时刻隐藏向量求法具体如下：

对多任务分类模型初始化，将注意力机制层处理后得到的语义特征赋值给隐藏层的隐藏向量，并输入至softmax层进行分类，得出该时刻语义特征对应的分类标签；

将前一时刻的输出在整个标签空间上的概率分布最大的分类标签、前一时刻的语义特征以及前一时刻的隐藏向量输入至长短记忆模型层，得到当前时刻的隐藏层隐藏向量。

输出当前时刻分类标签的方法具体如下：

多标签分类任务将当前时刻的语义特征和隐藏向量输入至softmax层，输出当前时刻的分类标签；

层次分类任务将当前时刻隐藏向量、当前时刻语义特征以及前一时刻的分类标签输入至softmax层，先根据层级结构掩码矩阵结合前一时刻的分类标签增强当前时刻输出分类标签的层级约束。

所述层级结构掩码矩阵工作方式具体为：

类别结构掩码的引入，使得当前时刻标签只能从上一时刻标签在完整标签集层次结构中的子结点集合产生，如表2所示，该项改进使得警情类别预测结果在各个指标都得到了明显提升。本实施例采用的数据集中，各级警情类别数量为729，而包含最多子类的类别为“盗窃”，包含子类数目为15，所有类别包含子类的平均数目为4，可见引入类别结构掩码后可以大大缩小每一时刻标签的搜索范围，从而提高分类性能。

多任务分类模型中的参数优化分为多标签分类模型的参数优化和层次分类模型的标签优化。：

多标签分类模型的优化过程具体如下：

使用标签顺序不敏感的多标签分类损失函数对多标签分类模型进行优化，对于当前时刻输出的分类标签，计算其与目标标签集所有标签的交叉熵，取其中交叉熵最小值参与最后标签顺序不敏感的多标签分类损失函数的计算；

多标签分类任务并不要求生成序列中标签之间保持严格的顺序，针对这一特点，本文提出了标签顺序不敏感的多标签分类损失函数，表1显示当引入标签顺序不敏感的多标签分类损失函数时，预测效果得到小幅度提升。标签顺序不敏感的多标签分类损失函数比通用交叉熵损失函数能得到更快的收敛速度。

对于目标标签集中当前时刻对应的标签，计算其与所有分类标签的交叉熵，取其中交叉熵最小值参与最后标签顺序不敏感的多标签分类损失函数的计算；

分类标签序列和目标标签序列中的结束位置仍然按照普通损失函数计算，最后将两部分损失相加作为最后的损失；

将最后的损失对应的参数作为多标签分类模型的参数，并保存优化后的多标签分类模型。

所述层次分类模型的优化过程具体如下：

层次分类任务使用普通损失函数计算方法对多任务分类模型进行优化，每一时刻输出的分类标签与目标标签之间交叉熵之和最小的分类标签作为最后的损失；

将最后的损失对应的参数作为分类模型的参数，并保存优化后的层次分类模型。

输入待测文本语料，经S1、3、4处理，输入优化多任务分类模型，在执行多标签分类任务得到多标签分类任务语义特征序列，在执行层次分类任务时获得层次分类任务语义特征序列；

当前时刻语义特征结合当前时刻隐藏向量经过多任务分类模型的softmax层进行归一化处理，输出大于预设阈值的解码序列，根据所述解码序列在完整标签集中找出相应的分类标签。

在本实施例中，多任务分类模型在两个任务上比分别单独进行多标签分类模型(GMTC_M)(如表1所示)和层次分类模型(GMTC_H)(如表2所示)均存在优势，证明了多任务学习框架能够同时提高两个任务的学习效果。

在警务实战应用场景中，基于单任务学习的多标签分类模型和层次分类模型，对同一个警情文本在tag和类别的预测结果上缺乏语义关联，比如标签为“双抢”，而类别却为“诈骗类/接触型诈骗”，在具体业务场景中会使人们产生较大困惑。

表1和表2展示了baseline和本文设置的多个模型在警情文本数据集上的实验结果。对于面向警情文本tag预测的多标签分类实验，如表1所示，本文提出的多任务分类模型和SGM性能相当，在Full-Match和Micro-F1比SGM均低0.1个百分点，但在准确率上取得了最好结果，比SGM高出0.5个百分点。本实施例中在提出的标签顺序不敏感的多标签分类损失函数后，多任务分类模型在各个指标上均有提高。

对于面向警情文本层次分类实验，如表2所示，多任务分类模型在各个指标上均取得最高得分，且比效果较好的Top-Down方法高出2到7个百分点。同时，在引入掩码矩阵后，多任务分类模型在各个指标均有明显提高。

表1.警情文本tag预测结果

模型	Acc	Full-Match	Micro-F1
				CNN	0.902	0.873	0.869
SGM	0.954	0.941	0.924
				GMTC_M	0.954	0.933	0.917
GMTC(commonloss)	0.952	0.936	0.916
				GMTC	0.959	0.940	0.923

表2.警情类别层次分类结果

表3 Full-Match2结果

SGM+Top-Down	SGM+GMTC_H	GMTC_M+GMTC_H	GMTC
				0.649	0.682	0.678	0.703

表4注意力机制可视化

深灰和浅灰表示分配的注意力权重a>10^-1和10^-1>a>10^-2。

以上包含了本发明优选实施例的说明，这是为了详细说明本发明的技术特征，并不是想要将发明内容限制在实施例所描述的具体形式中，依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定，而非由实施例的具体描述所界定。

Claims

1.一种基于生成式多任务学习模型的文本分类方法，其特征在于，包括如下步骤：

S2.基于多任务学习机制构建多任务分类模型，通过训练集根据共享编码器进行编码，根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签，包括：

S2.2.将所述特征向量输入多任务分类解码器，根据多标签分类任务和层次分类任务交替解码获得与编码时刻特征向量相关的当前时刻语义特征；

S2.4.多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征，层次分类任务根据当前时刻隐藏向量、当前时刻语义特征以及层级结构掩码矩阵，分别获得当前时刻在完整标签集上的概率分布，取最大值作为当前时刻的训练分类标签；

2.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法，其特征在于，所述S2.2包括：

3.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法，其特征在于，所述S2.3中当前时刻隐藏向量获得的方法包括：

4.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法，其特征在于，所述S2.4中输出当前时刻分类标签的步骤包括：

S2.41，多标签分类任务将当前时刻的语义特征和隐藏向量输入至多标签分类器，多标签分类器计算当前时刻在完整标签集上的概率分布，取最大值作为当前时刻的训练分类标签输出；

S2.42，层次分类任务将当前时刻隐藏向量、当前时刻语义特征以及前一时刻的分类标签输入至层次分类器，层次分类器根据层级结构掩码矩阵结合前一时刻的分类标签对当前时刻输出分类标签的进行层级约束后，层次分类器计算当前时刻在完整标签集上的概率分布，取最大值作为当前时刻的训练分类标签输出。

5.如权利要求4所述的一种基于生成式多任务学习模型的文本分类方法，其特征在于，所述步骤S2.42中层级结构掩码矩阵进行层级约束的步骤包括：

S2.42a，层次分类任务对应的完整标签集按照树形结构组织；

S2.42b，当前时刻的分类标签依赖于之前时刻的训练分类标签信息，层级结构掩码矩阵将当前时刻训练分类标签的搜索范围约束在前一时刻生成的训练分类标签的儿子标签上。

6.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法，其特征在于，所述S3中包括：

7.如权利要求6所述的一种基于生成式多任务学习模型的文本分类方法，其特征在于，所述步骤S3中多标签分类器的参数优化的步骤包括：

8.如权利要求6所述的一种基于生成式多任务学习模型的文本分类方法，其特征在于，所述步骤S3中层次分类器的参数优化的步骤包括：