CN113987187A - 基于多标签嵌入的舆情文本分类方法、***、终端及介质 - Google Patents

基于多标签嵌入的舆情文本分类方法、***、终端及介质 Download PDF

Info

Publication number
CN113987187A
CN113987187A CN202111321618.4A CN202111321618A CN113987187A CN 113987187 A CN113987187 A CN 113987187A CN 202111321618 A CN202111321618 A CN 202111321618A CN 113987187 A CN113987187 A CN 113987187A
Authority
CN
China
Prior art keywords
label
text
vector
layer
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111321618.4A
Other languages
English (en)
Other versions
CN113987187B (zh
Inventor
王成良
田冲
杨梦宁
马沐晨
邓治城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202111321618.4A priority Critical patent/CN113987187B/zh
Publication of CN113987187A publication Critical patent/CN113987187A/zh
Application granted granted Critical
Publication of CN113987187B publication Critical patent/CN113987187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于多标签嵌入的舆情文本分类方法、***、终端及介质,涉及自然语言处理技术领域,其技术方案要点是:将文本语义信息输入到双向GRU层中提取得到文本特征,以及将标签语义信息输入到双向GRU层中提取得到标签特征;通过注意力机制对文本特征更新后得到最终特征向量;将CLS标记向量和标签特征融合后,通过注意力机制计算得到文本感知标签信息的感知特征向量:通过分类器将最终特征向量和感知特征向量映射到标签维度后计算出每类标签的预测概率,得到舆情文本分类结果。本发明利用标签语义信息来隐式考虑标签之间的关系,同时减轻了多标签分类的标签顺序依赖对分类结果的影响,在减少了参数量的情况下,达了比较好的效果。

Description

基于多标签嵌入的舆情文本分类方法、***、终端及介质
技术领域
本发明涉及自然语言处理技术领域,更具体地说,它涉及基于多标签嵌入的舆情文本分类方法、***、终端及介质。
背景技术
随着互联网技术的快速发展,舆情文本数据量也随之剧增,这些数据本身就富有丰富的价值,挖掘舆情文本的内涵显得尤为必要。往往在挖掘舆情文本的时候,首先第一步就是对文本进行分类处理,继而后续方便归档做其他更深层次的文本挖掘任务。而近几年自然语言处理技术和深度学习在文本分类任务中广泛应用,目前文本分类算法在现实生活中广泛用于情感分析、推荐***、法律罪名预测等任务中。然而传统的文本分类算法是为每个样本分配一个类别标签,但网络舆情文本大量数据是同时属于多个类别,这就需要设计针对一个样本分配多个标签的多标签文本分类算法,不仅如此,舆情文本的标签之间往往还含有一定的关联性,传统的算法往往忽略这一点。
目前,研究者们提出了大量针对多标签文本分类的算法,大致能被分为二类。一类不考虑多标签之间相关性的算法。Taha等人提出的Binary Relevance算法是将多标签问题巧妙的转化成多个单标签分类问题。基于转换问题的思想,Tsoumakas等人提出的LabelPowerst方法将每个标签组合形成新的标记,也就将多标签问题转换成单标签问题。基于机器学习的典型算法有:ML-DT算法、ML-KNN和Rank-SVM算法等,但这些方法的效果都依赖人工的特征选取的有效性。Kim等人提出TextCNN模型,它基于Word2vec词向量使用不同大小的卷积核提取多维的文本特征,首次将CNN模型用于文本分类,但存在固定卷积核大小的缺点,无法建模更长的文本序列。Liu等人提出的XML-CNN改造了TextCNN的网络结构:池化层采用了动态池化和改进了损失函数。整体上说,基于CNN的算法在卷积操作和池化操作本身就可能会造成信息的丢失。Yang等提出的HAN模型,用双向GRU模型分别提取字级和句级别的编码,再分别结合注意力机制来做分类。
然而,以上算法均忽略了文本多标签之间相关性对分类结果的影响。因此,如何研究设计一种能够克服上述缺陷的基于多标签嵌入的舆情文本分类方法、***、终端及介质是我们目前急需解决的问题。
为了进一步探索预训练模型在多标签舆情文本分类的性能,在基于预训练模型和标签信息嵌入的思想上,本文提出了结合预训练模型与多标签嵌入注意力机制的舆情文本分类方法。该方法进一步改进网络结构,微调预训练ALBERT模型,结合了双向循环神经网络GRU模型与自注意力机制,自注意力机制关注文本分类时的重点单词或信息。本文还考虑到文本多标签之间的内在联系,引入标签嵌入注意力机制,分配每个标签对文本语义向量的权重,最后将自注意力机制和标签嵌入注意力机制输出的两个向量通过sigmoid层来做分类任务。
发明内容
本发明的目的是提供基于多标签嵌入的舆情文本分类方法、***、终端及介质,本发明考虑到文本多标签之间的内在联系,引入标签嵌入注意力机制,分配每个标签对文本语义向量的权重,最后将自注意力机制和标签嵌入注意力机制输出的两个向量通过sigmoid层来做分类任务,在减少了参数量的情况下,达到了较好的效果。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,提供了基于多标签嵌入的舆情文本分类方法,包括以下步骤:
通过预训练模型中的ALBERT层对输入文本进行训练,得到文本语义信息和CLS标记向量;
通过预训练模型中的标签嵌入层对标签文本进行处理,得到标签语义信息;
将文本语义信息输入到双向GRU层中提取得到文本特征,以及将标签语义信息输入到双向GRU层中提取得到标签特征;
通过注意力机制计算出相应的注意力权重分布后对文本特征更新后得到最终特征向量;以及,将CLS标记向量和标签特征融合后,通过注意力机制计算相应的注意力权重分布后计算得到文本感知标签信息的感知特征向量:
通过分类器将最终特征向量和感知特征向量映射到标签维度后计算出每类标签的预测概率,得到舆情文本分类结果。
进一步的,所述标签语义信息的获得过程具体为:
通过预训练模型来训练出标签文本中单词级别的词嵌入,得到词向量;
通过计算词向量平均来计算单个标签的向量表示;
将每个标签的向量表示拼接得到标签嵌入编码,以标签嵌入编码表征标签语义信息。
进一步的,所述单个标签的向量表示计算公式具体为:
Figure BDA0003345476590000021
其中,Ej为第j个标签的向量表示;d表示一个标签文本的长度;li表示第i个标签的单词词向量;
所述标签嵌入编码的计算公式为:
Figure BDA0003345476590000031
其中,E为标签嵌入编码;n,k分别为不同类别标签个数和标签嵌入维数。
进一步的,所述最终特征向量的计算公式具体为:
Figure BDA0003345476590000032
Figure BDA0003345476590000033
Figure BDA0003345476590000034
其中,ut为相似度计算的结果;
Figure BDA0003345476590000035
为ut的第i个分量;W1为需要训练学习出的参数矩阵;N为输入到softmax函数的序列元素个数;at为t时刻注意力分布;gatt为每个隐藏状态gt和at的权重和,即基于注意力分布加权后的最终特征向量;G为双向GRU层中以文本语义信息为所对应的两个最终状态值的拼接向量。
进一步的,所述感知特征向量的计算公式具体为:
Figure BDA0003345476590000036
sj=softmax(tclsW2h+b2)
其中,glatt为感知特征向量;n为标签个数;sj为第j个标签的注意力权重分布;hj为双向GRU层中以标签语义信息作为输入在t时刻的输出;tcls为整个文本向量编码;W2为要学习的权重矩阵;h为GRU层各个时刻的隐藏状态;b2为偏置向量。
进一步的,所述预测概率的计算公式具体为:
Figure BDA0003345476590000037
其中,
Figure BDA0003345476590000038
为输出的每类标签的预测概率;W4,W3,b3分别为全连接层需要学习的内部参数;gcom为向量glatt和gatt的拼接向量。
进一步的,所述预训练模型中的损失函数计算公式具体为:
Figure BDA0003345476590000039
其中,l为训练样本标签的类别数;yi为第i个标签的真实值;
Figure BDA0003345476590000041
为i个标签的预测值。
第二方面,提供了基于多标签嵌入的舆情文本分类***,包括预训练模型、双向GRU层、注意力层和分类器,预训练模型通过因式分解分为ALBERT层和标签嵌入层;
ALBERT层,用于对输入文本进行训练,得到文本语义信息和CLS标记向量;
标签嵌入层,用于对标签文本进行处理,得到标签语义信息;
双向GRU层,用于从输入的将文本语义信息提取得到文本特征,以及从输入的标签语义信息中提取得到标签特征;
注意力层,用于通过注意力机制计算出相应的注意力权重分布后对文本特征更新后得到最终特征向量;以及,将CLS标记向量和标签特征融合后,通过注意力机制计算相应的注意力权重分布后计算得到文本感知标签信息的感知特征向量:
分类器,用于将最终特征向量和感知特征向量映射到标签维度后计算出每类标签的预测概率,得到舆情文本分类结果。
第三方面,提供了一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任意一项所述的基于多标签嵌入的舆情文本分类方法。
第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如第一方面中任意一项所述的基于多标签嵌入的舆情文本分类方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明提出的基于多标签嵌入的舆情文本分类方法,首先用轻量级预训练模型ALBERT进行微调学习文本的向量表示和标签集合的嵌入编码,并分别使用双向GRU神经网络进行深层的特征提取,最后分别利用注意力机制关注文本对标签的贡献和文本感知标签的贡献,用来预测多标签的概率;通过2种向量的特征信息的融合能够有效地利用标签语义信息来隐式考虑标签之间的关系,同时减轻了多标签分类的标签顺序依赖对分类结果的影响;在RCV1-V2数据集上进行对比实验,实验结果表明,提出的模型在减少了参数量的情况下,达到了比较好的效果;
2、本方法直接使用预训练ALBERT模型中的CLS标记向量作为整个文本的向量表示和最后一层输出作为Bi-GRU的输入,有效利用和扩展预训练ALBERT文本分类模型框架。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1是本发明实施例中的工作原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1:基于多标签嵌入的舆情文本分类方法,如图1所示,包括以下步骤:
S1:通过预训练模型中的ALBERT层对输入文本进行训练,得到文本语义信息和CLS标记向量;
S2:通过预训练模型中的标签嵌入层对标签文本进行处理,得到标签语义信息;
S3:将文本语义信息输入到双向GRU层中提取得到文本特征,以及将标签语义信息输入到双向GRU层中提取得到标签特征;
S4:通过注意力机制计算出相应的注意力权重分布后对文本特征更新后得到最终特征向量;以及,将CLS标记向量和标签特征融合后,通过注意力机制计算相应的注意力权重分布后计算得到文本感知标签信息的感知特征向量:
S5:通过分类器将最终特征向量和感知特征向量映射到标签维度后计算出每类标签的预测概率,得到舆情文本分类结果。
ALBERT模型是基于BERT模型改进而来,主要是通过参数缩减来减小模型的大小。ALBERT在模型网络架构上和BERT类似,在此不做过多介绍,而在参数缩减上,本实施例中的ALBERT采用嵌入层参数因式分解:通过因式分解将嵌入层大小和隐藏层大小分离开来(BERT模型E=H),假设词表大小为V,原本模型参数由O(V*H)→O(V**E+E*H),当H>>E时,该方法明显能够减少模型参数。此外,采用跨层参数共享:简单来说,多层的Transformer编码器之间共享所有参数。ALBERT的输入包含了词向量信息,段落信息,位置信息,此外分别在文本输入的开头和结尾加入了CLS和SEP标记。对于文本分类任务,其输出的向量tcts一般被认为是整个文本的语义表示,本文将标签语义信息E和tcts通过注意力机制融合,在文本表示中融入了多标签之间相关性信息,为后续分类任务提供更多有效信息。输出的token级别的文本表示T={t1,t2…tl-1,tl}同样包含丰富的文本语义信息,因此本文将输出的最后一层作为双向GRU循环神经网络的输入,充分提取文本的上的特征,最后双向GRU的输出通过注意力机制,捕获每个单词对每个标签的不同贡献,这些内容本文将在后文详细介绍。
为了更好提取文本双向语义之间的关系,本文使用的是双层双向的GRU网络,其输入的是从ALBERT输出的隐藏层T={t1,t2…tl-1,tl},其中
Figure BDA0003345476590000061
l,k分别代表隐藏单元个数和词嵌入维度,GRU内部在t时刻的更新状态如下:
rt=σ(Wtrtt+Ugrgt-1+br)
zt=σ(Wtztt+Ugzgt-1+bz)
Figure BDA0003345476590000062
Figure BDA0003345476590000063
其中,符号o和σ分别表示向量的点乘和sigmoid函数;tt,ht,ht-1分别表示当前时刻输入、当前时刻隐藏层状态和前一个时刻隐藏层状态;rt,zt
Figure BDA0003345476590000064
分别表示GRU内部的更新门、重置门和当前时刻新的记忆单元;Wtr,Wtz
Figure BDA0003345476590000065
分别表示在GRU内部的更新门、重置门和当前时刻新的记忆单元对当前时刻输入tt的权重矩阵;Ugr,Ugz
Figure BDA0003345476590000066
分别表示GRU内部的更新门、重置门和当前时刻新的记忆单元对前一时刻
Figure BDA0003345476590000067
的权重矩阵;br,bz
Figure BDA0003345476590000068
分别表示对应单元的偏置值,这些参数都是可以在模型训练过程中动态的学习更新的。
最后,tanh激活函数的作用是将输入的参数映射到[-1,1]区间内,公式如下:
Figure BDA0003345476590000069
最终把得到t时刻下的各自独立方向的隐藏状态相拼接为:
Figure BDA00033454765900000610
设双向GRU网络中输出的两个最终状态值的拼接向量为G。
标签语义信息的获得过程具体为:通过预训练模型来训练出标签文本中单词级别的词嵌入,得到词向量;通过计算词向量平均来计算单个标签的向量表示;将每个标签的向量表示拼接得到标签嵌入编码,以标签嵌入编码表征标签语义信息。
单个标签的向量表示计算公式具体为:
Figure BDA00033454765900000611
其中,Ej为第j个标签的向量表示;d表示一个标签文本的长度;li表示第i个标签的单词词向量。
所述标签嵌入编码的计算公式为:
Figure BDA0003345476590000071
其中,E为标签嵌入编码;n,k分别为不同类别标签个数和标签嵌入维数。
最终特征向量的计算公式具体为:
Figure BDA0003345476590000072
Figure BDA0003345476590000073
Figure BDA0003345476590000074
其中,ut为相似度计算的结果;
Figure BDA0003345476590000075
为ut的第i个分量;W1为需要训练学习出的参数矩阵;N为输入到softmax函数的序列元素个数;at为t时刻注意力分布;gatt为每个隐藏状态gt和at的权重和,即基于注意力分布加权后的最终特征向量;G为双向GRU层中以文本语义信息为所对应的两个最终状态值的拼接向量。
感知特征向量的计算公式具体为:
Figure BDA0003345476590000076
sj=softmax(tclsW2h+b2)
其中,glatt为感知特征向量;n为标签个数;sj为第j个标签的注意力权重分布;hj为双向GRU层中以标签语义信息作为输入在t时刻的输出;tcls为整个文本向量编码;W2为要学习的权重矩阵;h为GRU层各个时刻的隐藏状态;b2为偏置向量。
在本实施例中,分类器使用sigmoid函数把gcom=[gatt;glatt]映射到标签维度,输出对每类标签的预测概率,概率值在[0,1]之间,预测概率的计算公式具体为:
Figure BDA0003345476590000077
其中,
Figure BDA0003345476590000078
为输出的每类标签的预测概率;W4,W3,b3分别为全连接层需要学习的内部参数;gcom为向量glatt和gatt的拼接向量。
预训练模型中的损失函数计算公式具体为:
Figure BDA0003345476590000081
其中,l为训练样本标签的类别数;yi为第i个标签的真实值;
Figure BDA0003345476590000082
为i个标签的预测值。
实施例2:基于多标签嵌入的舆情文本分类***,如图1所示,包括预训练模型、双向GRU层、注意力层和分类器,预训练模型通过因式分解分为ALBERT层和标签嵌入层。
ALBERT层,用于对输入文本进行训练,得到文本语义信息和CLS标记向量。标签嵌入层,用于对标签文本进行处理,得到标签语义信息。双向GRU层,用于从输入的将文本语义信息提取得到文本特征,以及从输入的标签语义信息中提取得到标签特征。注意力层,用于通过注意力机制计算出相应的注意力权重分布后对文本特征更新后得到最终特征向量;以及,将CLS标记向量和标签特征融合后,通过注意力机制计算相应的注意力权重分布后计算得到文本感知标签信息的感知特征向量。分类器,用于将最终特征向量和感知特征向量映射到标签维度后计算出每类标签的预测概率,得到舆情文本分类结果。
实施例3:实验验证
一、数据集
本实施例使用新闻数据集RCV1-V2,该数据集是由英文新闻组成,每篇新闻对应着几个主题,适合用作多标签舆情文本分类任务,数据集情况如下表所示:
Figure BDA0003345476590000083
二、评估方法
为了保持和先前的论文一样,本文也使用四个评价指标来评价算法的性能效果,分别是汉明损失HL(Hamming Loss)、微精确率(micro-precision)、微召回率(micro-recall)、微F1值(micro-F1)。
汉明损失更关注被预测错误的标签数量的计算得分,其计算公式如下:
Figure BDA0003345476590000084
其中,m代表训练样本数量,n代表训练样本总标签个数,pij是预测的第xi个样本的第j个标签预测值,yij代表真实的标签值,XOR代表异或运算,从上面公式可以看出,汉明损失值越小越好。
微F1值、微精确率、微召回率可由混淆矩阵中的真正例TP,真反例TN,假正例FP,真反例TN计算得到。
三、对比模型
本论文选取经典的多标签分类算法来做对比模型用来验证本论文方法的有效性。
BR:把多标签分类任务转换成了多个二分类任务,然后通过多个二分类器进行分类。
LP:将多标签分类任务转换成多类分类任务,然后训练一个多分类器进行分类。
CC:将多标签分类任务转换成多个二分类器链的形式来考虑标签之间相关性
TextCNN:利用多个不同大小的卷积核提取多维特征,最后训练成多分类器进行标签分类。
CNN-RNN:用CNN和RNN模型结合来提取文本语义特征和标签之间的相关性。
SGM:把多标签任务转换成序列生成任务,隐式考虑了标签之间相关性
LSAN:利用标签语义信息嵌入和自注意力机制来得到包含标签语义信息和文本语义信息,最后通过全连接层预测。
BERT:直接利用重量级的BERT模型微调结合双向GRU模型来做多标签分类,和本文模型做对比实验。
四、模型设置
数据预处理:本文把数据集按比例7:1.5:1.5划分训练集,验证集和测试集,并且对单词数量超过512的文本进行截断,对单词数量小于512的样本在训练阶段使用0来补充。
模型参数设置:对比模型的模型参数均按照了原论文的模型参数设置。本文使用的预训练的是ALBERT-base-v2模型和Bert-base模型(对比模型),在预训练模型的上进行微调。ALBERT-base-v2的transformer层数为12层,隐藏层维数为768,输出的维度为128,双向GRU的层的隐藏层维度为256。标签的词嵌入由GLOVE模型训练得到,其词嵌入维度为256。优化器选择Adam优化器,初始学习率为lr=5e-5,动量参数β1=0.9,β2=0.999,为了防止模型过拟合,采用Dropout=0.5。
五、实验结果和分析
实验结果如下表所示:
Figure BDA0003345476590000091
Figure BDA0003345476590000101
本发明设计了多组对比实验,其中包括机器学习模型BR、LP、CC等方法,机器学习模型依赖于繁琐的特征工程;此外,将TextCNN模型作为基线模型,还包含其他深度学习模型:CNN-RNN、SGM、LSAN、预训练BERT模型。
实验结果如上表所示,和机器学习方法相比,本发明在不依赖于特征工程基础上,取得了较好的结果,其中汉明损失明显减小,虽然在micro-precision上机器学习方法具有优势,但在micro-F1值上本模型取得明显的领先:相比BR和LP方法提升了1.74%。另外,和基线模型TextCNN相比,本方法在大多数指标上均有领先,汉明损失减少10.2%,micro-F1值提升0.81%。此外,本方法比SGM模型在指标上均有稍微领先,但在精准率上本方法优势较大,说明本方法更好地考虑了多标签之间的关联。最后与基于BERT的模型对比,本方法使用的ALBERT预训练模型,在此基础上进行微调融合了标签信息,从指标数可以看出本方法在减少了参数量的情况下,所有指标均有提升,说明了在融合标签信息和减少参数量的情况下,也能更好地提升多标签分类的问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于多标签嵌入的舆情文本分类方法,其特征是,包括以下步骤:
通过预训练模型中的ALBERT层对输入文本进行训练,得到文本语义信息和CLS标记向量;
通过预训练模型中的标签嵌入层对标签文本进行处理,得到标签语义信息;
将文本语义信息输入到双向GRU层中提取得到文本特征,以及将标签语义信息输入到双向GRU层中提取得到标签特征;
通过注意力机制计算出相应的注意力权重分布后对文本特征更新后得到最终特征向量;以及,将CLS标记向量和标签特征融合后,通过注意力机制计算相应的注意力权重分布后计算得到文本感知标签信息的感知特征向量:
通过分类器将最终特征向量和感知特征向量映射到标签维度后计算出每类标签的预测概率,得到舆情文本分类结果。
2.根据权利要求1所述的基于多标签嵌入的舆情文本分类方法,其特征是,所述标签语义信息的获得过程具体为:
通过预训练模型来训练出标签文本中单词级别的词嵌入,得到词向量;
通过计算词向量平均来计算单个标签的向量表示;
将每个标签的向量表示拼接得到标签嵌入编码,以标签嵌入编码表征标签语义信息。
3.根据权利要求1所述的基于多标签嵌入的舆情文本分类方法,其特征是,所述单个标签的向量表示计算公式具体为:
Figure FDA0003345476580000011
其中,Ej为第j个标签的向量表示;d表示一个标签文本的长度;li表示第i个标签的单词词向量;
所述标签嵌入编码的计算公式为:
Figure FDA0003345476580000012
其中,E为标签嵌入编码;n,k分别为不同类别标签个数和标签嵌入维数。
4.根据权利要求1所述的基于多标签嵌入的舆情文本分类方法,其特征是,所述最终特征向量的计算公式具体为:
Figure FDA0003345476580000013
Figure FDA0003345476580000021
Figure FDA0003345476580000022
其中,ut为相似度计算的结果;
Figure FDA0003345476580000023
为ut的第i个分量;W1为需要训练学习出的参数矩阵;N为输入到softmax函数的序列元素个数;at为t时刻注意力分布;gatt为每个隐藏状态gt和at的权重和,即基于注意力分布加权后的最终特征向量;G为双向GRU层中以文本语义信息为所对应的两个最终状态值的拼接向量。
5.根据权利要求1所述的基于多标签嵌入的舆情文本分类方法,其特征是,所述感知特征向量的计算公式具体为:
Figure FDA0003345476580000024
sj=softmax(tclsW2h+b2)
其中,glatt为感知特征向量;n为标签个数;sj为第j个标签的注意力权重分布;hj为双向GRU层中以标签语义信息作为输入在t时刻的输出;tcls为整个文本向量编码;W2为要学习的权重矩阵;h为GRU层各个时刻的隐藏状态;b2为偏置向量。
6.根据权利要求1所述的基于多标签嵌入的舆情文本分类方法,其特征是,所述预测概率的计算公式具体为:
Figure FDA0003345476580000025
其中,
Figure FDA0003345476580000026
为输出的每类标签的预测概率;W4,W3,b3分别为全连接层需要学习的内部参数;gcom为向量glatt和gatt的拼接向量。
7.根据权利要求1所述的基于多标签嵌入的舆情文本分类方法,其特征是,所述预训练模型中的损失函数计算公式具体为:
Figure FDA0003345476580000027
其中,l为训练样本标签的类别数;yi为第i个标签的真实值;
Figure FDA0003345476580000028
为i个标签的预测值。
8.基于多标签嵌入的舆情文本分类***,其特征是,包括预训练模型、双向GRU层、注意力层和分类器,预训练模型通过因式分解分为ALBERT层和标签嵌入层;
ALBERT层,用于对输入文本进行训练,得到文本语义信息和CLS标记向量;
标签嵌入层,用于对标签文本进行处理,得到标签语义信息;
双向GRU层,用于从输入的将文本语义信息提取得到文本特征,以及从输入的标签语义信息中提取得到标签特征;
注意力层,用于通过注意力机制计算出相应的注意力权重分布后对文本特征更新后得到最终特征向量;以及,将CLS标记向量和标签特征融合后,通过注意力机制计算相应的注意力权重分布后计算得到文本感知标签信息的感知特征向量:
分类器,用于将最终特征向量和感知特征向量映射到标签维度后计算出每类标签的预测概率,得到舆情文本分类结果。
9.一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的基于多标签嵌入的舆情文本分类方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征是,所述计算机程序被处理器执行可实现如权利要求1-7中任意一项所述的基于多标签嵌入的舆情文本分类方法。
CN202111321618.4A 2021-11-09 2021-11-09 基于多标签嵌入的舆情文本分类方法、***、终端及介质 Active CN113987187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111321618.4A CN113987187B (zh) 2021-11-09 2021-11-09 基于多标签嵌入的舆情文本分类方法、***、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111321618.4A CN113987187B (zh) 2021-11-09 2021-11-09 基于多标签嵌入的舆情文本分类方法、***、终端及介质

Publications (2)

Publication Number Publication Date
CN113987187A true CN113987187A (zh) 2022-01-28
CN113987187B CN113987187B (zh) 2024-06-28

Family

ID=79747445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111321618.4A Active CN113987187B (zh) 2021-11-09 2021-11-09 基于多标签嵌入的舆情文本分类方法、***、终端及介质

Country Status (1)

Country Link
CN (1) CN113987187B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983270A (zh) * 2022-12-02 2023-04-18 重庆邮电大学 一种电商商品属性智能抽取方法
CN115982369A (zh) * 2023-03-15 2023-04-18 南京邮电大学 一种融入标签语义的文本分类改进方法
CN116304065A (zh) * 2023-05-23 2023-06-23 美云智数科技有限公司 舆情文本分类方法、装置、电子设备及存储介质
CN116432644A (zh) * 2023-06-12 2023-07-14 南京邮电大学 一种基于特征融合和双重分类的新闻文本分类方法
CN117574309A (zh) * 2023-11-28 2024-02-20 东华理工大学南昌校区 融合多标签对比学习和knn的层次文本分类方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334499A (zh) * 2018-02-08 2018-07-27 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备
US10109374B1 (en) * 2013-01-02 2018-10-23 Medivizor International Limited Methods and systems and computer program for providing personalized medical information
CN109471945A (zh) * 2018-11-12 2019-03-15 中山大学 基于深度学习的医疗文本分类方法、装置及存储介质
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置
CN110032646A (zh) * 2019-05-08 2019-07-19 山西财经大学 基于多源领域适应联合学习的跨领域文本情感分类方法
CN110188194A (zh) * 2019-04-26 2019-08-30 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及***
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及***、信息数据处理终端
CN111695052A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 标签分类方法、数据处理设备、可读存储介质
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及***
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
WO2021168014A1 (en) * 2020-02-20 2021-08-26 Illumina, Inc. Knowledge distillation and gradient pruning-based compression of artificial intelligence-based base caller

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10109374B1 (en) * 2013-01-02 2018-10-23 Medivizor International Limited Methods and systems and computer program for providing personalized medical information
CN108334499A (zh) * 2018-02-08 2018-07-27 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备
CN109471945A (zh) * 2018-11-12 2019-03-15 中山大学 基于深度学习的医疗文本分类方法、装置及存储介质
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置
CN110188194A (zh) * 2019-04-26 2019-08-30 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及***
CN110032646A (zh) * 2019-05-08 2019-07-19 山西财经大学 基于多源领域适应联合学习的跨领域文本情感分类方法
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及***、信息数据处理终端
WO2021168014A1 (en) * 2020-02-20 2021-08-26 Illumina, Inc. Knowledge distillation and gradient pruning-based compression of artificial intelligence-based base caller
CN111695052A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 标签分类方法、数据处理设备、可读存储介质
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及***
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MEI CHEN YEH等: "multilabel deep visual-semantic embedding", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 42, no. 6, 14 April 2019 (2019-04-14), pages 1530 - 1536, XP011787048, DOI: 10.1109/TPAMI.2019.2911065 *
唐朝;诺明花;胡岩;: "ResNet结合BiGRU的关系抽取混合模型", 中文信息学报, vol. 34, no. 02, 15 February 2020 (2020-02-15), pages 38 - 45 *
徐凯;王崎;李振彰;康培培;谢峰;刘文印;: "基于结合多头注意力机制BiGRU网络的生物医学命名实体识别", 计算机应用与软件, vol. 37, no. 05, 12 May 2020 (2020-05-12), pages 151 - 155 *
田冲: "涉诉信访处理效果评估与舆情监测***的设计与实现", 万方数据, 31 July 2022 (2022-07-31), pages 1 - 30 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983270A (zh) * 2022-12-02 2023-04-18 重庆邮电大学 一种电商商品属性智能抽取方法
CN115983270B (zh) * 2022-12-02 2024-05-03 芽米科技(广州)有限公司 一种电商商品属性智能抽取方法
CN115982369A (zh) * 2023-03-15 2023-04-18 南京邮电大学 一种融入标签语义的文本分类改进方法
CN115982369B (zh) * 2023-03-15 2023-08-22 南京邮电大学 一种融入标签语义的文本分类改进方法
CN116304065A (zh) * 2023-05-23 2023-06-23 美云智数科技有限公司 舆情文本分类方法、装置、电子设备及存储介质
CN116304065B (zh) * 2023-05-23 2023-09-29 美云智数科技有限公司 舆情文本分类方法、装置、电子设备及存储介质
CN116432644A (zh) * 2023-06-12 2023-07-14 南京邮电大学 一种基于特征融合和双重分类的新闻文本分类方法
CN116432644B (zh) * 2023-06-12 2023-08-15 南京邮电大学 一种基于特征融合和双重分类的新闻文本分类方法
CN117574309A (zh) * 2023-11-28 2024-02-20 东华理工大学南昌校区 融合多标签对比学习和knn的层次文本分类方法

Also Published As

Publication number Publication date
CN113987187B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN112199956B (zh) 一种基于深度表示学习的实体情感分析方法
CN113987187B (zh) 基于多标签嵌入的舆情文本分类方法、***、终端及介质
CN109753566A (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
Gao et al. Convolutional neural network based sentiment analysis using Adaboost combination
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类***
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN108009148A (zh) 基于深度学习的文本情感分类表示方法
CN117453921B (zh) 一种大语言模型的数据信息标签处理方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN111984791B (zh) 一种基于注意力机制的长文分类方法
Liu et al. A multi-label text classification model based on ELMo and attention
Ye et al. A joint-training two-stage method for remote sensing image captioning
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115203338A (zh) 一种标签及标签实例推荐方法
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Tao et al. News text classification based on an improved convolutional neural network
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant