CN112800222A

CN112800222A - 利用共现信息的多任务辅助极限多标签短文本分类方法

Info

Publication number: CN112800222A
Application number: CN202110101374.2A
Authority: CN
Inventors: 王嫄; 徐涛; 王世龙; 周宇博; 王欢; 杨巨成; 赵婷婷; 陈亚瑞
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-14
Anticipated expiration: 2041-01-26
Also published as: CN112800222B

Abstract

本发明涉及一种利用共现信息的多任务辅助极限多标签短文本分类方法，其主要技术特点是：构建账号‑特征文件；利用账号‑特征文件为每条微博短文本提供额外的特征信息，并将该特征信息建模为显式的模型输入共现信息；构建与微博短文本相关的多标签文本分类任务和极限多标签文本分类任务；构建多任务学习任务模型；使用大规模微博短文本数据对多任务学习任务模型进行预训练；对多任务学习任务模型进行微调；对神经网络输出进行量化并最终输出多任务预测结果。本发明利用共现信息设计多任务学习架构，实现对大规模短文本的多标签分类,方法可在较低的工业部署成本情况下，对大规模短文本数据集实现稳定精确实时的多标签预测。

Description

利用共现信息的多任务辅助极限多标签短文本分类方法

技术领域

本发明属于信息技术领域，涉及自然语言处理、文本分类方法，尤其是一种利用共现信息的多任务辅助极限多标签短文本分类方法。

背景技术

随着文本数据生产速度日益增长、数据多样性、语义复杂性愈发显现，传统的多标签文本分类方法在准确率和实时性上已难以满足日常工业需求，对大规模标签集场景下的极限多标签文本分类任务需求越来越强烈。

为了解决上述问题，现有技术大多通过嵌入、多分类器、树、深度学习等方法进行解决。其中，嵌入方法时间复杂度高，效果极其依赖预处理过程中的聚类效果；多分类器方法忽略了标签间信息，将标签与标签间视为独立的个体，且由于每一个标签均需要训练一个分类器，部署成本巨大，难以有效应用于现实业务场景；树方法无法解决数据集中的长尾问题，并且规模大、成本高、精度差，难以在工业场景下稳定使用。现有深度学习方法未优化长尾问题，只是简单的增加输出层神经元个数，导致其效果通常并不如其余三种方法。

鉴于此，本发明规避现有方法弊端，利用共现信息设计多任务学习架构，实现对大规模短文本的多标签分类,方法可在较低的工业部署成本情况下，对大规模短文本数据集实现稳定精确实时的多标签预测。

发明内容

本发明的目的在于克服现有技术的不足，提出一种设计合理、预测准确、成本低且易于实现的利用共现信息的多任务辅助极限多标签短文本分类方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种利用共现信息的多任务辅助极限多标签短文本分类方法，包括以下步骤：

步骤1、利用微博发文账号的相关特征信息构建账号-特征文件；

步骤2、利用账号-特征文件为每条微博短文本提供额外的特征信息F，并将该特征信息F建模为显式的模型输入共现信息C；

步骤3、构建与微博短文本相关的多标签文本分类任务t₁；

步骤4、构建大规模微博短文本极限多标签文本分类任务t₂；

步骤5、将多标签文本分类任务t₁与极限多标签文本分类任务t₂联合建模，得到多任务学习任务模型T；

步骤6、使用大规模微博短文本数据对多任务学习任务模型T中的预训练模型M进行预训练；

步骤7、使用小规模精准的已标注的微博短文本数据对多任务学习任务模型T进行微调；

步骤8、对标签文本分类任务t₁与极限多标签文本分类任务t₂最后一层神经网络输出进行量化，并利用各自任务量化后的概率值结果按联合规则构建，最终输出多任务预测结果。

所述步骤1中微博发文账号为发布微博文本的作者账号；所述微博发文账号包括的特征信息为：发文常用标签、发文常在地和发文账号名。在构建账号-特征文件时，考虑到微博发文账号的相关特征信息存在误差，对账号-特征文件进行清洗与更新。

所述步骤2得到的特征信息F为：

其中，F_i为微博发文账号相关特征中的某一特征信息，n为微博发文账号的相关特征数；

所述显式的模型输入共现信息C为：

其中，[SEP]为模型输入文本中的特殊标记符。

所述预训练模型M为共享层，其上层分别实施各自任务。

所述步骤6使用大规模无标注的微博短文本数据对多任务学习任务模型T中的预训练模型M进行预训练，或使用大规模存在误差的已标注的微博短文本数据对多任务学习任务模型T进行预训练。

所述步骤8中对最后一层神经网络输出进行量化是通过SoftMax与归一化操作来实现的。

所述联合规则为：假设多标签文本分类任务t₁与极限多标签文本分类任务t₂存在一定程度的关联性，当多标签文本分类任务t₁最大概率值神经元的概率值大于极限多标签文本分类任务t₂最大概率值的神经元时，认为多标签文本分类任务t₁可靠性更佳，从而以多标签文本分类任务t₁为基准，对极限多标签文本分类任务t₂决策进行调整；否则，认为极限多标签文本分类任务t₂可靠性更佳，从而以极限多标签文本分类任务t₂为基准，对多标签文本分类任务t₁决策进行调整。

本发明的优点和积极效果是：

1、本发明采用共现信息的多任务辅助极限多标签短文本分类方法对大规模标签集进行预测的深度学习，可在较低的工业部署成本的情况下，对大规模标签集进行稳定有效的预测。

2、本发明通过共现信息提升对高频标签与低频标签的预测效果，利用多标签文本分类任务学习到的信息辅助极限多标签文本分类任务的学习；在训练过程中，首先使用大规模未标注数据对方法中的预训练模型进行预训练，或使用大规模含噪声的已标注数据对方法进行预训练，然后使用精准的已标注数据对方法进行微调，这种预训练与微调的方式，增强了方法的鲁棒性。

3、本发明所使用的共现信息不仅在一定程度上辅助标签预测，同时通过维护账号-特征文件，可对误判样本进行正确结果的引导。

4、本发明只需对账号-特征文件进行维护即可实现日常的工业维护，大大降低了维护成本，有效解决了深度学习在工业场景中维护成本高的问题。

附图说明

图1为本发明的整理流程图：

图2为本发明的多任务学习模型结构图。

具体实施方式

以下结合附图对本发明做进一步详述。

本发明的设计思想是：利用共现信息、多任务学习技术，来辅助提升极限多标签文本分类任务的预测效果。受共现信息与标签集内标签的显式关联关系启发，显式关联关系启发本发明利用账号本身的相关特征信息构建共现信息，从而有效提升方法对高频标签与低频标签的预测效果。进一步地，受多任务学习中共享参数启发，共享参数启发本发明在复杂工业环境难以简单通过单一任务解决实际问题的情况下，利用多标签文本分类任务学习到的信息辅助极限多标签文本分类任务的预测。在实际应用过程中，面对深度学习方法难以低成本维护的情况，本发明提出通过维护账号-特征文件，控制账号的相关特征，从而控制方法输入的共现信息以实现对方法的低成本维护。

为了便于说明，现对本发明所使用的的符号进行说明：

基于上述设计合理，本发明提供一种利用共现信息的多任务辅助极限多标签短文本分类方法，如图1所示，包括以下步骤：

步骤1、利用微博发文账号的相关特征信息构建账号-特征文件。

微博发文账号为发布微博文本的作者账号。微博发文账号与目标分类任务存在相关的特征信息，如发文常用标签、发文常在地、发文账号名等。

在本步骤中，利用微博发文账号与其对应的相关特征信息，构建账号-特征文件。考虑到微博发文账号的相关特征信息存在误差，对账号-特征文件进行清洗与更新。

步骤2、利用账号-特征文件为每条微博短文本提供额外的特征信息F，并将该特征信息F建模为显式的模型输入共现信息C。

每条微博短文本存在其发文账号，利用账号-特征文件得到每条微博短文本额外的特征信息

其中，F_i为微博发文账号相关特征中的某一特征信息，n为微博发文账号的相关特征数。利用特征信息F建模得到显式的模型输入共现信息

其中，[SEP]为模型输入文本中的特殊标记符。模型输入文本本质上由目标文本(以微博短文本为例)与和分类任务相关的共现信息组成，具体形式由模型(以预训练模型ERNIE为例)输入所决定。假设微博短文本内容被表示为Content，则模型输入文本可被表示为[CLS]Content C。其中，[CLS]为模型输入文本中的特殊标记符。

步骤3、构建与微博短文本相关的多标签文本分类任务t₁。

构建与目标文本相关的多标签文本分类任务，如与微博短文本相关的情感分类任务t₁。

步骤4、构建大规模微博短文本极限多标签文本分类任务t₂。

构建与目标文本相关的极限多标签文本分类任务，如与微博短文本相关的大规模标签分类任务t₂。

步骤5、将多标签文本分类任务t₁与极限多标签文本分类任务t₂联合建模为多任务学习任务T。

在本步骤中，将t₁与t₂联合建模为多任务学习任务模型T。其中，预训练模型M(以ERNIE为例，但不局限于ERNIE)作为共享层，上层分别实施各自任务。

其中，多任务学习模型T结构如图2所示。[CLS]Content C作为模型输入，预训练模型ERNIE作为模型共享参数层。ERNIE的输出分别经过两个全连接层，左侧全连接层指向t₁；右侧全连接层与ERNIE的输出进行拼接以充分利用多标签文本分类任务学习到的信息，右侧指向t₂。

步骤6、使用大规模无标注的微博短文本数据对多任务学习任务模型T中的预训练模型M进行预训练，或使用大规模存在误差的已标注的微博短文本数据对T进行预训练。

步骤7、使用小规模精准的已标注的微博短文本数据对多任务学习任务模型T进行微调。

步骤8：对标签文本分类任务t₁与极限多标签文本分类任务t₂最后一层神经网络输出进行量化，并利用各自任务量化后的概率值结果按联合规则构建，最终输出多任务预测结果。

在本步骤中，对t₁与t₂任务最后一层神经网络输出进行量化时，可使用SoftMax与归一化操作实现。利用各自任务量化后的概率值结果进行规则设计，最后输出多任务结果。

在本步骤中，规则设计考虑到：工业场景噪声大、需求复杂，不仅模型难以准确判别，人为判断也较为困难。假设t₁与t₂任务存在一定程度的关联性，当t₁任务最大概率值神经元的概率值大于t₂任务最大概率值的神经元时，可认为t₁任务可靠性更佳，从而以t₁任务为基准，对t₂任务决策进行调整。反之亦然。以此规则为基础，可结合业务场景进行进一步复杂规则的设计，以满足业务需求。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种利用共现信息的多任务辅助极限多标签短文本分类方法，其特征在于：包括以下步骤：

步骤3、构建与微博短文本相关的多标签文本分类任务t₁；

步骤7、使用小规模精准的己标注的微博短文本数据对多任务学习任务模型T进行微调；

2.根据权利要求1所述的利用共现信息的多任务辅助极限多标签短文本分类方法，其特征在于：在步骤6中，使用大规模无标注的微博短文本数据对多任务学习任务模型T中的预训练模型M进行预训练，或使用大规模存在误差的已标注的微博短文本数据对多任务学习任务模型T进行预训练。

3.根据权利要求1或2所述的利用共现信息的多任务辅助极限多标签短文本分类方法，其特征在于：所述微博发文账号为发布微博文本的作者账号；所述微博发文账号包括的特征信息为：发文常用标签、发文常在地和发文账号名。

4.根据权利要求1或2所述的利用共现信息的多任务辅助极限多标签短文本分类方法，其特征在于：所述步骤1在构建账号-特征文件时，考虑到微博发文账号的相关特征信息存在误差，对账号-特征文件进行清洗与更新。

5.根据权利要求1或2所述的利用共现信息的多任务辅助极限多标签短文本分类方法，其特征在于：所述步骤2得到的特征信息F为：

所述显式的模型输入共现信息C为：

其中，[SEP]为模型输入文本中的特殊标记符。

6.根据权利要求1或2所述的利用共现信息的多任务辅助极限多标签短文本分类方法，其特征在于：所述预训练模型M为共享层，其上层分别实施各自任务。

7.根据权利要求1或2所述的利用共现信息的多任务辅助极限多标签短文本分类方法，其特征在于：所述步骤8中对最后一层神经网络输出进行量化是通过SoftMax与归一化操作来实现的。

8.根据权利要求7所述的利用共现信息的多任务辅助极限多标签短文本分类方法，其特征在于：所述联合规则为：假设多标签文本分类任务t₁与极限多标签文本分类任务t₂存在一定程度的关联性，当多标签文本分类任务t₁最大概率值神经元的概率值大于极限多标签文本分类任务t₂最大概率值的神经元时，认为多标签文本分类任务t₁可靠性更佳，从而以多标签文本分类任务t₁为基准，对极限多标签文本分类任务t₂决策进行调整；否则，认为极限多标签文本分类任务t₂可靠性更佳，从而以极限多标签文本分类任务t₂为基准，对多标签文本分类任务t₁决策进行调整。