CN110442723B

CN110442723B - 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法

Info

Publication number: CN110442723B
Application number: CN201910748118.5A
Authority: CN
Inventors: 李玉军; 马浩洋; 马宝森; 李泽强; 邓媛洁
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2020-05-15
Anticipated expiration: 2039-08-14
Also published as: CN110442723A

Abstract

本发明涉及一种基于多步判别的Co‑Attention模型用于多标签文本分类的方法，基于算法改编方法，通过引入原始文本信息与前导标签的互注意力机制，实现了前导标签在文本编码过程中的信息过滤作用，优化了训练过程，原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累积问题。本发明针对多标签文本分类任务的特点，采用特征向量差分融合与级联融合策略。通过差分，凸显了待预测标签所依赖的原始文本信息，优化了标签信息监督作用，获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。

Description

一种基于多步判别的Co-Attention模型用于多标签文本分类的方法

技术领域

本发明涉及一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，属于文本分类的技术领域。

背景技术

随着以深度人工神经网络技术为代表的人工智能技术的发展，传统文本分类技术已经具有非常优秀的性能表现，并获得了广泛的实际应用。为进一步提升文本分类任务的用户体验，多标签文本分类逐渐走进人们的视野，许多研究人员在该领域内进行了广泛与深入的探索研究。

在研究与应用过程中，多标签分类任务与传统的多分类任务相比有着诸多共性，也有本质上的不同。相比于单一标签的文本分类任务，依照文本内容的不同，多标签文本分类的标签之间存在着不同的相关关系可以被挖掘和利用，进而提高模型与算法的效果。例如，在讨论国际事件的新闻报道中，讨论“政治”类话题时，“经济”话题被提及的概率要远高于“娱乐”类话题的可能，即在一定的文本语境下，各标签之间的共现关系具有明显差别。挖掘并利用这种关系，实现文本与标签之间关系的建模、标签与标签之间关系的建模，为提高多标签文本分类任务的准确率和召回率，实现准确且全面的文本分类，提供了可能。如何挖掘并利用多标签文本分类任务中，数据集合所体现出的各类别标签之间的潜在关系，是目前提升多变文本分类任务的主要方法和热点研究方向。

目前基于深度人工神经网络的文本任务已经成为性能表现最好的应用方案。基于这样的基础技术进步，多标签文本分类任务也进入了深度人工神经网络解决方案阶段。在这一发展阶段中，出现了各种各样的多标签文本分类模型与方法，这些方法基本可以归结为以下两大类。

第一类方法称为问题转化方法，包括任务转化与标签转化等。转化方法的基本思想是将多标签文本分类任务转化成为单标签分类任务。任务转换模型的代表性方法是Matthew R.Boutell等人2014年提出的多二分类模型，通过在多个标签上的分别构造二分模型，将多标签分类问题转换为类似于多任务模型的多个单标签二分类预测问题。但是，该方法没有将标签之间的关联信息融入到模型中，导致模型预测召回率较低。

第二类方法是算法改编方法，基于seq2seq框架的序列生成模型及其改进型，seq2seq框架下的多标签分类模型使用标签序列生成的方法实现了多标签预测，重视了标签之间的语意关联，取得了巨大的性能提升。但是，该方法并没有缓解误差累计的问题，即在单次预测错误的情况下，对后期预测也会造成影响。

发明内容

针对现有技术的不足，本发明提供一种基于多步判别的Co-Attention模型用于多标签文本分类的方法。

发明概述：

本发明采用多步判别的互注意力方法来对多标签分类任务建模。基于算法改编方法，通过引入原始文本信息与前导标签的互注意力机制，实现了前导标签在文本编码过程中的信息过滤作用，优化了训练过程，原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累积问题。

本发明针对多标签文本分类任务的特点，采用特征向量差分融合与级联融合策略。通过差分，凸显了待预测标签所依赖的原始文本信息，优化了标签信息监督作用，获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。模型的整体流程包括：1、标签数据预处理；2、训练词向量；3、文本特征提取；4、特征组合；5、分类预测。

术语解释：

1、多步判别：每个样本存在多个标签，我们通过前导标签与原始文本进行融合，对下一个标签进行预测，预测出的标签作为新的前导标签，进行下一轮的预测直到所有标签预测完成。

2、多标签分类：每个样本同时存在多个标签，对此类文本进行分类任务。

3、Co-Attention:互注意力机制。注意力机制最早由机器翻译任务提出，通过计算模型解码器端生成序列的单词对编码器中每个单词的权重分布，得到有权重关联信息的特征向量表示，提高模型翻译效果。互注意力机制则是编码器和解码器中序列相互做注意力计算。

4、LSTM:Long Short-Term Memory，是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

5、AAPD：Arxiv Academic Paper Dataset,是由杨鹏程等人从网络上收集的计算机科学领域论文的摘要和对应科目构成的多标签文本数据集，论文数量为55840篇,标签种类为54类。

6、RCV1-V2：Reuters Corpus Volume Ⅰ,是由Lewis等人提供，包括超过80万篇手工标注的新闻文章，每篇新闻对应多个主题。主题种类为103类。

7、word2vec：是一种文字表征模型，由谷歌公司提出以用于训练词向量，包括skip-gram和CBOW两种模式，本发明中基于skip-gram模式来训练词向量。

8、skip-gram：词向量训练的一种模式，即从目标字词推测出上下文，通过语料中单词之间的共现分布，可以令意思相近的词在向量空间中的位置更接近。

9、双向LSTM：单向LSTM的改进模型，在处理输入序列时，将正向和反向信息同时融入到模型，通过对过去和未来信息同时建模，提高模型的表征能力。

本发明的技术方案为：

一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，包括步骤如下：

(1)标签数据预处理：将标签序列分为前导标签和待预测标签，前导标签是指已经预测出的标签，待预测标签是指未预测的新标签，前导标签和原始文本进行信息融合，使其满足多步判别的多标签分类需求；

(2)训练词向量；通过word2vec中的skip-gram模型进行词向量训练，使原始文本中的每个单词在向量空间有对应的特征表征；再进行模型下游任务；

(3)文本特征提取；将步骤(2)词向量训练后的原始文本输入双向LSTM模型，进行编码操作，进一步提取文本特征，得到双向LSTM模型的隐藏层状态；将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示，使每个标签有对应的向量表征，得到前导标签特征；

(4)特征组合：包括：通过互注意力操作，差分操作、级联操作。

a、通过原始文本在前导标签序列上的注意力操作，前导标签在原始文本中对应的信息，作为冗余信息；

b、通过差分操作删除掉冗余信息，以提高模型预测效果。通过前导标签在原始文本上的注意力操作得到前导标签信息，这一部分作为模型预测新标签的补充信息，将前导标签和待预测标签的逻辑关联纳入到模型中；上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量；输入到模型分类模块进行最后的模型预测。

(5)分类预测：步骤(4)中得到的级联特征向量输入全连接层，维度逐层递减的全连接层，通过增加模型参数，提高模型的训练效果。全连接层得到的向量输入到softmax层，输出在每个标签上的概率分布，即概率值，维度是标签种类个数；选取概率值最大对应的标签作为预测标签，并将此预测标签纳入到前导标签中，重复上述步骤(1)-(5)直到预测出截止标签。代表模型一个标签序列预测任务完成，结束。

根据本发明优选的，所述步骤(4)中，特征组合，包括互注意力操作、差分操作、级联操作；对文本特征提取输出的隐藏层状态向量h_N和输出序列{w₁,w₂,…,w_N}输入到特征融合模块进行互注意力操作，差分操作以及级联操作，输出序列{w₁,w₂,…,w_N}和前导标签特征序列{l₁,l₂,…,l_M}经过互注意力操作，分别得到两个带有权重信息的特征向量A_YS、A_SY；A_YS代表前导标签在原始文本中对应的信息，这一部分信息对预测新标签没有作用所以我们删除掉，即在h_N基础上通过差分操作删除A_YS，h_N为特征提取模型得到原始文本表征，得到h_N-A_YS，表示从原始文本中减去已前导标签的信息，A_SY代表前导标签在原始文本上进行注意力操作得到的向量，这一部分信息将标签之间的逻辑关系考虑进模型中。在此基础上，h_N,h_N-A_YS,A_SY三个向量进行级联得到特征向量A，特征向量A包含预测下一个待预测标签全面且具有区分度的信息，包括步骤如下：

A、输出序列{w₁,w₂,…,w_N}经过前导标签特征序列{l₁,l₂,…,l_M}注意力操作得到特征向量A_YS，求取公式如式(Ⅰ)、(Ⅱ)、(Ⅲ)所示：

式(Ⅰ)、(Ⅱ)、(Ⅲ)中，W_a、U_a分别代表在前导标签对输出序列进行注意力操作中的两个参数不共享的注意力训练矩阵，W_a、U_a分别和l_i、w_j进行矩阵相乘，使l_i和w_j映射到维度大小一致的向量空间；l_i、w_j分别是指前导标签序列特征序列{l₁,l₂,…,l_i…,l_M}中第i个元素和输出序列{w₁,w₂,…,w_j,…,w_N}中第j个元素；

是指上下文向量，用来区分输出序列{w₁,w₂,…,w_N}中每个元素的重要程度；e_i,j是指注意力信息；

B、前导标签序列{l₁,l₂,…,l_M}经过输出序列{w₁,w₂,…,w_N}注意力操作得到特征向量A_SY，求取如式(Ⅳ)、(Ⅴ)、(Ⅵ)所示：

式(Ⅳ)、(Ⅴ)、(Ⅵ)中，W_b、U_b分别代表在输出序列对前导标签对进行注意力操作中的两个参数不共享的注意力训练矩阵，W_b、U_b分别和l_j、w_i进行矩阵相乘，使l_j和w_i映射到维度大小一致的向量空间；

通过(Ⅳ)得到在注意力信息d_i,j，并通过(Ⅴ)式归一化，最后(Ⅵ)通过带权求和得到带有注意力信息的特征向量A_SY。

C、通过差分操作删除A_YS，得到h_N-A_YS；

D、h_N,h_N-A_YS,A_SY三个向量进行级联得到级联特征向量A，求取如式(Ⅶ)所示：

A＝{h_Nh_N-A_YS,A_SY} (Ⅶ)。

根据本发明优选的，所述步骤(1)，标签数据预处理，是指：

因为是多步判别的方法，对多标签文本数据集AAPD和RCV1-V2中的原始标签序列构造前导标签、待预测标签；即：在原始标签序列的前端***前导标签，在原始标签序列的末端***截止标签，原始标签序列中第一个数据作为待预测标签，完成第一轮预测；然后把原始标签序列中第一个数据加入到前导标签，原始标签序列中第二个数据作为待预测标签，完成第二轮预测，重复此过程直到预测截止标签。例如，原始标签序列为{L₁,L₂,L₃},在序列前段和后端加入启动标签和截止标签L_sos，L_eos即{L_sos,L₁,L₂,L₃,L_eos}。令L_sos作为前导标签，L₁作为待预测标签，完成第一轮预测。然后把L₁加入到前导标签即{L_sos,L₁}，L₂作为待预测标签，完成第二轮预测。重复此过程直到预测L_eos，如此一个长度为n的标签序列就分为了n+1步来训练。

前导标签构造完和原始文本同时作为Co-Attention模型输入，待预测标签作为Co-Attention模型的训练标签。

根据本发明优选的，所述步骤(2)中，训练词向量，在处理文本数据时，将文本数据转换成数学向量，是指：

词向量的初始化，利用开源的word2vec工具将每一个单词训练成词向量的形式，训练时采用skip-gram模型，设定词向量的维度是300维，训练结束后，得到一个词向量映射表；根据词向量映射表，输入数据中的每个单词都能对应一个词向量。

为了加快训练速度，本发明将该词典中的词与数据集中出现的词一一对应，只保留数据集中出现的词的词向量，对多余的词向量舍弃。

根据本发明优选的，所述步骤(3)中，文本特征提取，是指：

将步骤(2)词向量训练后的原始文本的嵌入式表示{x₁,x₂,...,x_i,...,x_N}，输入双向LSTM模型，x_i代表第i个单词的词向量；

将前导标签的嵌入式表示{l₁,l₂,...,l_i,...,l_M}输入双向LSTM模型，l_i代表第i个标签的标签向量；由于文本序列具有顺序性，所以采用双向LSTM模块进一步进行编码操作，并给出编码器隐藏层状态向量h_N、输出序列{w₁,w₂,...,w_N}两个原始文本特征。前导标签不具有顺序性，所以我们直接以前导标签的嵌入向量集合作为前导标签特征，即从待训练标签向量矩阵完成映射，从{L₁,L₂,...,L_M}映射为{l₁,l₂,...,l_M}；

A、求取t时刻双向LSTM模型中的输入门的值i_t，如式(Ⅷ)所示：

i_t＝σ(W_ihh_t-1+W_ixx_t+b_i)(Ⅷ)

式(Ⅷ)中，σ表示sigmoid激活函数；W_ih、W_ix分别是输入门中输入项h_t-1、x_t对应的权重矩阵，h_t-1是上一时刻隐藏层的输出，x_t是{x₁,x₂,...,x_i,...,x_N}中在当前时刻的输入，b_i是输入门的偏置项向量；

B、求取t时刻双向LSTM模型中的遗忘门的值f_t，如式(Ⅸ)所示：

f_t＝σ(W_fhh_t-1+W_fxx_t+b_f)(Ⅸ)

式(Ⅸ)中，W_fh、W_fx分别是遗忘门中输入项h_t-1、x_t对应的权重矩阵，b_f是遗忘门的偏置项向量；

C、求取t时刻LSTM单元中的输出门的值o_t，如式(Ⅹ)所示：

o_t＝σ(W_ohh_t-1+W_oxx_t+b_o)(Ⅹ)

式(Ⅹ)中，W_oh、W_ox分别是输出门中输入项h_t-1、x_t对应的权重矩阵，b_o是输出门的偏置项向量；

D、求取当前输入的单元状态g_t，如式(Ⅺ)所示：

g_t＝tanh(W_ghh_t-1+W_gxx_t+b_g)(Ⅺ)

式(Ⅺ)中，W_gh、W_gx分别是单元状态中输入项h_t-1、x_t对应的权重矩阵，b_g是单元状态的偏置项向量，tanh表示双曲正切函数，用作激活函数；

E、求取t时刻的双向LSTM模型的细胞状态c_t，如式(Ⅻ)所示：

c_t＝i_t⊙g_t+f_t⊙c_t-1(Ⅻ)

式(Ⅻ)中，c_t-1是上一时刻的细胞状态，⊙表示按元素乘；

F、求t时刻双向LSTM模型的隐藏层状态h_t，如式(XIII)所示：

h_t＝o_t⊙tanh(c_t)(XIII)

G、求取向隐藏层状态

和后向隐藏层状态

的级联向量，如式(XIV)所示：

式(XIV)中，h_bi代表前向隐藏层状态

和后向隐藏层状态

的级联向量,最后时刻的h_bi即双向LSTM模型的隐藏层状态h_N。

根据本发明优选的，所述步骤(5)中，分类预测，分类预测模块维度逐级递减的全连接神经网络层和softmax层，其输入是步骤(4)得到的级联特征向量，级联特征向量设置为1800维，采用逐级递减的方式提取特征，后面依次是1024维、512维、256维、128维，最后一层网络的维度和标签种类数相等，其输出在输入到softmax层，得到在每一类标签上的概率分布，在训练时，还需要计算出这一概率分布与实际标签之间的交叉熵以衡量预测差距；包括步骤如下：

D、步骤(4)中融合后获得的级联特征向量输入到全连接层，如式(XV)所示：

x＝f(WA) (XV)

式(XV)中，W是指全连接层的待训练矩阵，x为经过全链接层的输出，f代表leaky_relu激活函数；

E、全连接层得到的向量输入到softmax层，如式(XVI)所示：

式(XVI)中，x_i代表全连接层对应第i个标签的输出值，K代表标签数量，p_i指第i个标签对应的概率；

F、在模型训练过程中，我们将模型预测值和真实标签之间的交叉熵损失作为损失函数来训练模型，损失函数如式(XVII)所示：

式(XVII)中，y_i代表真实标签值，p_i代表模型对应第i个标签的预测概率，j(θ)为模型的损失值，θ指模型参数。

本发明的有益效果为：

1、本发明采用多步判别的互信息注意力模型进行多标签分类，弥补了标签之间的信息关联，有效解决了样本标签空间过大的问题。

2、本发明采用一种改进型的多步多分类预测的端到端模型，实现了高性能的多标签文本分类任务。通过引入原始文本信息与前导标签的互注意力机制，实现了前导标签在文本编码过程中的信息过滤作用，优化了训练过程，原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累计问题。

3、本发明针对多标签文本分类任务的特点，采用特征向量差分融合与级联融合策略。通过差分，凸显了待预测标签所依赖的原始文本信息，优化了标签信息监督作用，获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。

附图说明

图1为基于多步判别的Co-Attention模型用于多标签文本分类的方法的流程示意图。

图2为数据解析示意图。

图3为本发明特征提取的示意图。

图4为本发明特征组合的示意图。

图5为本发明分类预测的示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，如图1所示，包括步骤如下：

实施例2

根据实施例1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，其区别在于：步骤(4)中，特征组合，如图4所示，包括互注意力操作、差分操作、级联操作；对文本特征提取输出的隐藏层状态向量h_N和输出序列{w₁,w₂,…,w_N}输入到特征融合模块进行互注意力操作，差分操作以及级联操作，输出序列{w₁,w₂,…,w_N}和前导标签特征序列{l₁,l₂,…,l_M}经过互注意力操作，分别得到两个带有权重信息的特征向量A_YS、A_SY；A_YS代表前导标签在原始文本中对应的信息，这一部分信息对预测新标签没有作用所以我们删除掉，即在h_N基础上通过差分操作删除A_YS，h_N为特征提取模型得到原始文本表征，得到h_N-A_YS，表示从原始文本中减去已前导标签的信息，A_SY代表前导标签在原始文本上进行注意力操作得到的向量，这一部分信息将标签之间的逻辑关系考虑进模型中。在此基础上，h_N,h_N-A_YS,A_SY三个向量进行级联得到特征向量A，特征向量A包含预测下一个待预测标签全面且具有区分度的信息，包括步骤如下：

C、通过差分操作删除A_YS，得到h_N-A_YS；

A＝{h_Nh_N-A_YS,A_SY} (Ⅶ)。

步骤(1)，标签数据预处理，如图2所示，是指：

步骤(2)中，训练词向量，在处理文本数据时，将文本数据转换成数学向量，是指：

步骤(3)中，文本特征提取，如图3所示，是指：

i_t＝σ(W_ihh_t-1+W_ixx_t+b_i)(Ⅷ)

f_t＝σ(W_fhh_t-1+W_fxx_t+b_f)(Ⅸ)

C、求取t时刻LSTM单元中的输出门的值o_t，如式(Ⅹ)所示：

o_t＝σ(W_ohh_t-1+W_oxx_t+b_o)(Ⅹ)

D、求取当前输入的单元状态g_t，如式(Ⅺ)所示：

g_t＝tanh(W_ghh_t-1+W_gxx_t+b_g)(Ⅺ)

E、求取t时刻的双向LSTM模型的细胞状态c_t，如式(Ⅻ)所示：

c_t＝i_t⊙g_t+f_t⊙c_t-1(Ⅻ)

式(Ⅻ)中，c_t-1是上一时刻的细胞状态，⊙表示按元素乘；

F、求t时刻双向LSTM模型的隐藏层状态h_t，如式(XIII)所示：

h_t＝o_t⊙tanh(c_t) (XIII)

G、求取向隐藏层状态

和后向隐藏层状态

的级联向量，如式(XIV)所示：

式(XIV)中，h_bi代表前向隐藏层状态

和后向隐藏层状态

的级联向量,最后时刻的h_bi即双向LSTM模型的隐藏层状态h_N。

步骤(5)中，分类预测，如图5所示，分类预测模块维度逐级递减的全连接神经网络层和softmax层，其输入是步骤(4)得到的级联特征向量，级联特征向量设置为1800维，采用逐级递减的方式提取特征，后面依次是1024维、512维、256维、128维，最后一层网络的维度和标签种类数相等，其输出在输入到softmax层，得到在每一类标签上的概率分布，在训练时，还需要计算出这一概率分布与实际标签之间的交叉熵以衡量预测差距；包括步骤如下：

x＝f(WA) (XV)

E、全连接层得到的向量输入到softmax层，如式(XVI)所示：

本实施例在AAPD和RCV1-V2开源数据集上分别进行了实验，实验结果分别如表1、表2所示：

表1

Model	P	R	F1
				BR	0.644	0.648	0.646
CC	0.657	0.651	0.654
				LP	0.662	0.608	0.634
Seq2Seq+Attention	0.746	0.659	0.699
				SGM+GE	0.748	0.675	0.710
Our Model(MSCoA)	0.802	0.682	0.737

表2

Model	P	R	F1
				BR	0.904	0.816	0.858
CC	0.887	0.828	0.857
				LP	0.896	0.824	0.858
Seq2Seq+Attention	0.887	0.850	0.869
				SGM+GE	0.897	0.860	0.878
Our Model(MSCoA)	0.901	0.883	0.891

表1、表2中，P代表准确率，R代表召回率，F1代表准确率和召回率加权后的指标。

由表1表2中数据显示，基于多步判别的Co-attention模型在多标签文本分类中准确率和召回率都有所提升，表明本发明提出的方法的有效性。

Claims

1.一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，其特征在于，包括步骤如下：

(2)训练词向量；通过word2vec中的skip-gram模型进行词向量训练，使原始文本中的每个单词在向量空间有对应的特征表征；

(4)特征组合：包括：

b、通过差分操作删除掉冗余信息，通过前导标签在原始文本上的注意力操作得到前导标签信息，上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量；

(5)分类预测：步骤(4)中得到的级联特征向量输入全连接层，全连接层得到的向量输入到softmax层，输出在每个标签上的概率分布，即概率值，维度是标签种类个数；选取概率值最大对应的标签作为预测标签，并将此预测标签纳入到前导标签中，重复上述步骤(1)(5)直到预测出截止标签。

2.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，其特征在于，所述步骤(4)中，特征组合，包括互注意力操作、差分操作、级联操作；对文本特征提取输出的隐藏层状态向量h_N和输出序列{w₁，w₂，...，w_N}进行互注意力操作，差分操作以及级联操作，输出序列{w₁，w₂，...，w_N}和前导标签特征序列{l₁，l₂，...，l_M}经过互注意力操作，分别得到两个带有权重信息的特征向量A_YS、A_SY；A_YS代表前导标签在原始文本中对应的信息，即在h_N基础上通过差分操作删除A_YS，得到h_N-A_YS，表示从原始文本中减去已前导标签的信息，A_SY代表前导标签在原始文本上进行注意力操作得到的向量，h_N，h_N-A_YS，A_SY三个向量进行级联得到特征向量A，特征向量A包含预测下一个待预测标签全面且具有区分度的信息，包括步骤如下：

A、输出序列{w₁，w₂，...，w_N}经过前导标签特征序列{l₁，l₂，...，l_M}注意力操作得到特征向量A_YS，求取公式如式(I)、(II)、(III)所示：

式(I)、(II)、(III)中，W_a、U_a分别代表在前导标签对输出序列进行注意力操作中的两个参数不共享的注意力训练矩阵，W_a、U_a分别和l_i、w_j进行矩阵相乘，使l_i和w_j映射到维度大小一致的向量空间；l_i、w_j分别是指前导标签序列特征序列{l₁，l₂，...，l_i...，l_M}中第i个元素和输出序列{w₁，w₂，...，w_j，...，w_N}中第j个元素；

是指上下文向量，用来区分输出序列{w₁，w₂，...，w_N}中每个元素的重要程度；e_i，j是指注意力信息；

B、前导标签序列{l₁，l₂，...，l_M}经过输出序列{w₁，w₂，...，w_N}注意力操作得到特征向量A_SY，求取如式(IV)、(V)、(VI)所示：

式(IV)、(V)、(VI)中，W_b、U_b分别代表在输出序列对前导标签对进行注意力操作中的两个参数不共享的注意力训练矩阵，W_b、U_b分别和l_j、w_i进行矩阵相乘，使l_j和w_i映射到维度大小一致的向量空间；

C、通过差分操作删除A_YS，得到h_N-A_YS；

D、h_N，h_N-A_YS，A_SY三个向量进行级联得到级联特征向量A，求取如式(VII)所示：

A＝{h_Nh_N-A_YS，A_SY} (VII)。

3.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，其特征在于，所述步骤(1)，标签数据预处理，是指：

对多标签文本数据集AAPD和RCV1-V2中的原始标签序列构造前导标签、待预测标签；即：在原始标签序列的前端***前导标签，在原始标签序列的末端***截止标签，原始标签序列中第一个数据作为待预测标签，完成第一轮预测；然后把原始标签序列中第一个数据加入到前导标签，原始标签序列中第二个数据作为待预测标签，完成第二轮预测，重复此过程直到预测截止标签。

4.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，其特征在于，所述步骤(2)中，训练词向量，将文本数据转换成数学向量，是指：

5.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，其特征在于，所述步骤(3)中，文本特征提取，是指：

将步骤(2)词向量训练后的原始文本的嵌入式表示{x₁，x₂，...，x_i，...，x_N}，输入双向LSTM模型，x_i代表第i个单词的词向量；

将前导标签的嵌入式表示{l₁，l₂，...，l_i，...，l_M}输入双向LSTM模型，l_i代表第i个标签的标签向量；

A、求取t时刻双向LSTM模型中的输入门的值i_t，如式(VIII)所示：

i_t＝σ(W_ihh_t-1+W_ixx_t+b_i)(VIII)