CN112800222A - 利用共现信息的多任务辅助极限多标签短文本分类方法 - Google Patents
利用共现信息的多任务辅助极限多标签短文本分类方法 Download PDFInfo
- Publication number
- CN112800222A CN112800222A CN202110101374.2A CN202110101374A CN112800222A CN 112800222 A CN112800222 A CN 112800222A CN 202110101374 A CN202110101374 A CN 202110101374A CN 112800222 A CN112800222 A CN 112800222A
- Authority
- CN
- China
- Prior art keywords
- task
- label
- microblog
- text classification
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种利用共现信息的多任务辅助极限多标签短文本分类方法,其主要技术特点是:构建账号‑特征文件;利用账号‑特征文件为每条微博短文本提供额外的特征信息,并将该特征信息建模为显式的模型输入共现信息;构建与微博短文本相关的多标签文本分类任务和极限多标签文本分类任务;构建多任务学习任务模型;使用大规模微博短文本数据对多任务学习任务模型进行预训练;对多任务学习任务模型进行微调;对神经网络输出进行量化并最终输出多任务预测结果。本发明利用共现信息设计多任务学习架构,实现对大规模短文本的多标签分类,方法可在较低的工业部署成本情况下,对大规模短文本数据集实现稳定精确实时的多标签预测。
Description
技术领域
本发明属于信息技术领域,涉及自然语言处理、文本分类方法,尤其是一种利用共现信息的多任务辅助极限多标签短文本分类方法。
背景技术
随着文本数据生产速度日益增长、数据多样性、语义复杂性愈发显现,传统的多标签文本分类方法在准确率和实时性上已难以满足日常工业需求,对大规模标签集场景下的极限多标签文本分类任务需求越来越强烈。
为了解决上述问题,现有技术大多通过嵌入、多分类器、树、深度学习等方法进行解决。其中,嵌入方法时间复杂度高,效果极其依赖预处理过程中的聚类效果;多分类器方法忽略了标签间信息,将标签与标签间视为独立的个体,且由于每一个标签均需要训练一个分类器,部署成本巨大,难以有效应用于现实业务场景;树方法无法解决数据集中的长尾问题,并且规模大、成本高、精度差,难以在工业场景下稳定使用。现有深度学习方法未优化长尾问题,只是简单的增加输出层神经元个数,导致其效果通常并不如其余三种方法。
鉴于此,本发明规避现有方法弊端,利用共现信息设计多任务学习架构,实现对大规模短文本的多标签分类,方法可在较低的工业部署成本情况下,对大规模短文本数据集实现稳定精确实时的多标签预测。
发明内容
本发明的目的在于克服现有技术的不足,提出一种设计合理、预测准确、成本低且易于实现的利用共现信息的多任务辅助极限多标签短文本分类方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种利用共现信息的多任务辅助极限多标签短文本分类方法,包括以下步骤:
步骤1、利用微博发文账号的相关特征信息构建账号-特征文件;
步骤2、利用账号-特征文件为每条微博短文本提供额外的特征信息F,并将该特征信息F建模为显式的模型输入共现信息C;
步骤3、构建与微博短文本相关的多标签文本分类任务t1;
步骤4、构建大规模微博短文本极限多标签文本分类任务t2;
步骤5、将多标签文本分类任务t1与极限多标签文本分类任务t2联合建模,得到多任务学习任务模型T;
步骤6、使用大规模微博短文本数据对多任务学习任务模型T中的预训练模型M进行预训练;
步骤7、使用小规模精准的已标注的微博短文本数据对多任务学习任务模型T进行微调;
步骤8、对标签文本分类任务t1与极限多标签文本分类任务t2最后一层神经网络输出进行量化,并利用各自任务量化后的概率值结果按联合规则构建,最终输出多任务预测结果。
所述步骤1中微博发文账号为发布微博文本的作者账号;所述微博发文账号包括的特征信息为:发文常用标签、发文常在地和发文账号名。在构建账号-特征文件时,考虑到微博发文账号的相关特征信息存在误差,对账号-特征文件进行清洗与更新。
所述步骤2得到的特征信息F为:
其中,Fi为微博发文账号相关特征中的某一特征信息,n为微博发文账号的相关特征数;
所述显式的模型输入共现信息C为:
其中,[SEP]为模型输入文本中的特殊标记符。
所述预训练模型M为共享层,其上层分别实施各自任务。
所述步骤6使用大规模无标注的微博短文本数据对多任务学习任务模型T中的预训练模型M进行预训练,或使用大规模存在误差的已标注的微博短文本数据对多任务学习任务模型T进行预训练。
所述步骤8中对最后一层神经网络输出进行量化是通过SoftMax与归一化操作来实现的。
所述联合规则为:假设多标签文本分类任务t1与极限多标签文本分类任务t2存在一定程度的关联性,当多标签文本分类任务t1最大概率值神经元的概率值大于极限多标签文本分类任务t2最大概率值的神经元时,认为多标签文本分类任务t1可靠性更佳,从而以多标签文本分类任务t1为基准,对极限多标签文本分类任务t2决策进行调整;否则,认为极限多标签文本分类任务t2可靠性更佳,从而以极限多标签文本分类任务t2为基准,对多标签文本分类任务t1决策进行调整。
本发明的优点和积极效果是:
1、本发明采用共现信息的多任务辅助极限多标签短文本分类方法对大规模标签集进行预测的深度学习,可在较低的工业部署成本的情况下,对大规模标签集进行稳定有效的预测。
2、本发明通过共现信息提升对高频标签与低频标签的预测效果,利用多标签文本分类任务学习到的信息辅助极限多标签文本分类任务的学习;在训练过程中,首先使用大规模未标注数据对方法中的预训练模型进行预训练,或使用大规模含噪声的已标注数据对方法进行预训练,然后使用精准的已标注数据对方法进行微调,这种预训练与微调的方式,增强了方法的鲁棒性。
3、本发明所使用的共现信息不仅在一定程度上辅助标签预测,同时通过维护账号-特征文件,可对误判样本进行正确结果的引导。
4、本发明只需对账号-特征文件进行维护即可实现日常的工业维护,大大降低了维护成本,有效解决了深度学习在工业场景中维护成本高的问题。
附图说明
图1为本发明的整理流程图:
图2为本发明的多任务学习模型结构图。
具体实施方式
以下结合附图对本发明做进一步详述。
本发明的设计思想是:利用共现信息、多任务学习技术,来辅助提升极限多标签文本分类任务的预测效果。受共现信息与标签集内标签的显式关联关系启发,显式关联关系启发本发明利用账号本身的相关特征信息构建共现信息,从而有效提升方法对高频标签与低频标签的预测效果。进一步地,受多任务学习中共享参数启发,共享参数启发本发明在复杂工业环境难以简单通过单一任务解决实际问题的情况下,利用多标签文本分类任务学习到的信息辅助极限多标签文本分类任务的预测。在实际应用过程中,面对深度学习方法难以低成本维护的情况,本发明提出通过维护账号-特征文件,控制账号的相关特征,从而控制方法输入的共现信息以实现对方法的低成本维护。
为了便于说明,现对本发明所使用的的符号进行说明:
基于上述设计合理,本发明提供一种利用共现信息的多任务辅助极限多标签短文本分类方法,如图1所示,包括以下步骤:
步骤1、利用微博发文账号的相关特征信息构建账号-特征文件。
微博发文账号为发布微博文本的作者账号。微博发文账号与目标分类任务存在相关的特征信息,如发文常用标签、发文常在地、发文账号名等。
在本步骤中,利用微博发文账号与其对应的相关特征信息,构建账号-特征文件。考虑到微博发文账号的相关特征信息存在误差,对账号-特征文件进行清洗与更新。
步骤2、利用账号-特征文件为每条微博短文本提供额外的特征信息F,并将该特征信息F建模为显式的模型输入共现信息C。
每条微博短文本存在其发文账号,利用账号-特征文件得到每条微博短文本额外的特征信息其中,Fi为微博发文账号相关特征中的某一特征信息,n为微博发文账号的相关特征数。利用特征信息F建模得到显式的模型输入共现信息其中,[SEP]为模型输入文本中的特殊标记符。模型输入文本本质上由目标文本(以微博短文本为例)与和分类任务相关的共现信息组成,具体形式由模型(以预训练模型ERNIE为例)输入所决定。假设微博短文本内容被表示为Content,则模型输入文本可被表示为[CLS]Content C。其中,[CLS]为模型输入文本中的特殊标记符。
步骤3、构建与微博短文本相关的多标签文本分类任务t1。
构建与目标文本相关的多标签文本分类任务,如与微博短文本相关的情感分类任务t1。
步骤4、构建大规模微博短文本极限多标签文本分类任务t2。
构建与目标文本相关的极限多标签文本分类任务,如与微博短文本相关的大规模标签分类任务t2。
步骤5、将多标签文本分类任务t1与极限多标签文本分类任务t2联合建模为多任务学习任务T。
在本步骤中,将t1与t2联合建模为多任务学习任务模型T。其中,预训练模型M(以ERNIE为例,但不局限于ERNIE)作为共享层,上层分别实施各自任务。
其中,多任务学习模型T结构如图2所示。[CLS]Content C作为模型输入,预训练模型ERNIE作为模型共享参数层。ERNIE的输出分别经过两个全连接层,左侧全连接层指向t1;右侧全连接层与ERNIE的输出进行拼接以充分利用多标签文本分类任务学习到的信息,右侧指向t2。
步骤6、使用大规模无标注的微博短文本数据对多任务学习任务模型T中的预训练模型M进行预训练,或使用大规模存在误差的已标注的微博短文本数据对T进行预训练。
步骤7、使用小规模精准的已标注的微博短文本数据对多任务学习任务模型T进行微调。
步骤8:对标签文本分类任务t1与极限多标签文本分类任务t2最后一层神经网络输出进行量化,并利用各自任务量化后的概率值结果按联合规则构建,最终输出多任务预测结果。
在本步骤中,对t1与t2任务最后一层神经网络输出进行量化时,可使用SoftMax与归一化操作实现。利用各自任务量化后的概率值结果进行规则设计,最后输出多任务结果。
在本步骤中,规则设计考虑到:工业场景噪声大、需求复杂,不仅模型难以准确判别,人为判断也较为困难。假设t1与t2任务存在一定程度的关联性,当t1任务最大概率值神经元的概率值大于t2任务最大概率值的神经元时,可认为t1任务可靠性更佳,从而以t1任务为基准,对t2任务决策进行调整。反之亦然。以此规则为基础,可结合业务场景进行进一步复杂规则的设计,以满足业务需求。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (8)
1.一种利用共现信息的多任务辅助极限多标签短文本分类方法,其特征在于:包括以下步骤:
步骤1、利用微博发文账号的相关特征信息构建账号-特征文件;
步骤2、利用账号-特征文件为每条微博短文本提供额外的特征信息F,并将该特征信息F建模为显式的模型输入共现信息C;
步骤3、构建与微博短文本相关的多标签文本分类任务t1;
步骤4、构建大规模微博短文本极限多标签文本分类任务t2;
步骤5、将多标签文本分类任务t1与极限多标签文本分类任务t2联合建模,得到多任务学习任务模型T;
步骤6、使用大规模微博短文本数据对多任务学习任务模型T中的预训练模型M进行预训练;
步骤7、使用小规模精准的己标注的微博短文本数据对多任务学习任务模型T进行微调;
步骤8、对标签文本分类任务t1与极限多标签文本分类任务t2最后一层神经网络输出进行量化,并利用各自任务量化后的概率值结果按联合规则构建,最终输出多任务预测结果。
2.根据权利要求1所述的利用共现信息的多任务辅助极限多标签短文本分类方法,其特征在于:在步骤6中,使用大规模无标注的微博短文本数据对多任务学习任务模型T中的预训练模型M进行预训练,或使用大规模存在误差的已标注的微博短文本数据对多任务学习任务模型T进行预训练。
3.根据权利要求1或2所述的利用共现信息的多任务辅助极限多标签短文本分类方法,其特征在于:所述微博发文账号为发布微博文本的作者账号;所述微博发文账号包括的特征信息为:发文常用标签、发文常在地和发文账号名。
4.根据权利要求1或2所述的利用共现信息的多任务辅助极限多标签短文本分类方法,其特征在于:所述步骤1在构建账号-特征文件时,考虑到微博发文账号的相关特征信息存在误差,对账号-特征文件进行清洗与更新。
6.根据权利要求1或2所述的利用共现信息的多任务辅助极限多标签短文本分类方法,其特征在于:所述预训练模型M为共享层,其上层分别实施各自任务。
7.根据权利要求1或2所述的利用共现信息的多任务辅助极限多标签短文本分类方法,其特征在于:所述步骤8中对最后一层神经网络输出进行量化是通过SoftMax与归一化操作来实现的。
8.根据权利要求7所述的利用共现信息的多任务辅助极限多标签短文本分类方法,其特征在于:所述联合规则为:假设多标签文本分类任务t1与极限多标签文本分类任务t2存在一定程度的关联性,当多标签文本分类任务t1最大概率值神经元的概率值大于极限多标签文本分类任务t2最大概率值的神经元时,认为多标签文本分类任务t1可靠性更佳,从而以多标签文本分类任务t1为基准,对极限多标签文本分类任务t2决策进行调整;否则,认为极限多标签文本分类任务t2可靠性更佳,从而以极限多标签文本分类任务t2为基准,对多标签文本分类任务t1决策进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101374.2A CN112800222B (zh) | 2021-01-26 | 2021-01-26 | 利用共现信息的多任务辅助极限多标签短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101374.2A CN112800222B (zh) | 2021-01-26 | 2021-01-26 | 利用共现信息的多任务辅助极限多标签短文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800222A true CN112800222A (zh) | 2021-05-14 |
CN112800222B CN112800222B (zh) | 2022-07-19 |
Family
ID=75811747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110101374.2A Active CN112800222B (zh) | 2021-01-26 | 2021-01-26 | 利用共现信息的多任务辅助极限多标签短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800222B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490951A (zh) * | 2022-04-13 | 2022-05-13 | 长沙市智为信息技术有限公司 | 一种多标签文本分类方法及模型 |
WO2023004572A1 (zh) * | 2021-07-27 | 2023-02-02 | 京东方科技集团股份有限公司 | 模型训练方法、信号识别方法、装置、计算处理设备、计算机程序及计算机可读介质 |
CN117033641A (zh) * | 2023-10-07 | 2023-11-10 | 江苏微皓智能科技有限公司 | 一种大型预训练语言模型的网络结构优化微调方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577405A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 基于兴趣分析的微博博主社区分类方法 |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像***和方法 |
WO2014047727A1 (en) * | 2012-09-28 | 2014-04-03 | Alkis Papadopoullos | A method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model |
CN104881689A (zh) * | 2015-06-17 | 2015-09-02 | 苏州大学张家港工业技术研究院 | 一种多标签主动学习分类方法及*** |
CN110442723A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 |
CN110442707A (zh) * | 2019-06-21 | 2019-11-12 | 电子科技大学 | 一种基于seq2seq的多标签文本分类方法 |
CN111339306A (zh) * | 2018-12-18 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、分类方法及装置、设备和介质 |
CN111553442A (zh) * | 2020-05-12 | 2020-08-18 | 全球能源互联网研究院有限公司 | 一种分类器链标签序列的优化方法及*** |
CN111709475A (zh) * | 2020-06-16 | 2020-09-25 | 全球能源互联网研究院有限公司 | 一种基于N-grams的多标签分类方法及装置 |
CN112199536A (zh) * | 2020-10-15 | 2021-01-08 | 华中科技大学 | 一种基于跨模态的快速多标签图像分类方法和*** |
-
2021
- 2021-01-26 CN CN202110101374.2A patent/CN112800222B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577405A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 基于兴趣分析的微博博主社区分类方法 |
WO2014047727A1 (en) * | 2012-09-28 | 2014-04-03 | Alkis Papadopoullos | A method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像***和方法 |
CN104881689A (zh) * | 2015-06-17 | 2015-09-02 | 苏州大学张家港工业技术研究院 | 一种多标签主动学习分类方法及*** |
CN111339306A (zh) * | 2018-12-18 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、分类方法及装置、设备和介质 |
CN110442707A (zh) * | 2019-06-21 | 2019-11-12 | 电子科技大学 | 一种基于seq2seq的多标签文本分类方法 |
CN110442723A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 |
CN111553442A (zh) * | 2020-05-12 | 2020-08-18 | 全球能源互联网研究院有限公司 | 一种分类器链标签序列的优化方法及*** |
CN111709475A (zh) * | 2020-06-16 | 2020-09-25 | 全球能源互联网研究院有限公司 | 一种基于N-grams的多标签分类方法及装置 |
CN112199536A (zh) * | 2020-10-15 | 2021-01-08 | 华中科技大学 | 一种基于跨模态的快速多标签图像分类方法和*** |
Non-Patent Citations (1)
Title |
---|
钟永健: "《基于标签独立成分的多标签分类算法》", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023004572A1 (zh) * | 2021-07-27 | 2023-02-02 | 京东方科技集团股份有限公司 | 模型训练方法、信号识别方法、装置、计算处理设备、计算机程序及计算机可读介质 |
CN114490951A (zh) * | 2022-04-13 | 2022-05-13 | 长沙市智为信息技术有限公司 | 一种多标签文本分类方法及模型 |
CN117033641A (zh) * | 2023-10-07 | 2023-11-10 | 江苏微皓智能科技有限公司 | 一种大型预训练语言模型的网络结构优化微调方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112800222B (zh) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800222B (zh) | 利用共现信息的多任务辅助极限多标签短文本分类方法 | |
CN113177124B (zh) | 一种垂直领域知识图谱构建方法及*** | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
WO2021057427A1 (zh) | 一种基于PU learning的跨区域企业偷漏税识别方法及*** | |
CN110569508A (zh) | 融合词性和自注意力机制的情感倾向性分类方法及*** | |
CN110807328A (zh) | 面向法律文书多策略融合的命名实体识别方法及*** | |
CN110866542A (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及*** | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112395417A (zh) | 基于深度学习的网络舆情演化仿真方法及*** | |
CN110874411A (zh) | 一种基于注意力机制融合的跨领域情感分类*** | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN113360659B (zh) | 一种基于半监督学习的跨领域情感分类方法及*** | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
US20230289528A1 (en) | Method for constructing sentiment classification model based on metaphor identification | |
CN111581967A (zh) | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN115630156A (zh) | 一种融合Prompt和SRU的蒙古语情感分析方法与*** | |
CN116663540A (zh) | 基于小样本的金融事件抽取方法 | |
CN111813939A (zh) | 一种基于表征增强与融合的文本分类方法 | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN111709231B (zh) | 一种基于自注意变分自编码的类案推荐方法 | |
CN117350286A (zh) | 一种面向意图驱动数据链网络的自然语言意图转译方法 | |
CN112612884A (zh) | 一种基于公共文本的实体标签自动化标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |