CN112597766A - 一种基于BERT-base网络的带噪半监督文本分类方法 - Google Patents

一种基于BERT-base网络的带噪半监督文本分类方法 Download PDF

Info

Publication number
CN112597766A
CN112597766A CN202011593101.6A CN202011593101A CN112597766A CN 112597766 A CN112597766 A CN 112597766A CN 202011593101 A CN202011593101 A CN 202011593101A CN 112597766 A CN112597766 A CN 112597766A
Authority
CN
China
Prior art keywords
model
label
output
sample
bert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011593101.6A
Other languages
English (en)
Inventor
任子扬
姚英彪
徐欣
李沛
刘兆霆
冯维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011593101.6A priority Critical patent/CN112597766A/zh
Publication of CN112597766A publication Critical patent/CN112597766A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于BERT‑base网络的带噪半监督文本分类方法。本发明步骤:S1、用模型对无标签样本经回译后产生的新样本做出预测并构造预测标签;S2、将带标签和无标签样本再次输入模型后,在BERT中特定Transformer隐藏层做扰动和插值处理,最终得到插值模型输出;S3、构造损失函数loss=ls+lsce,第一项为针对带标签样本的交叉熵,第二项为插值标签
Figure DDA0002869680550000011
与插值模型输出
Figure DDA0002869680550000012
的对称交叉熵;S4、训练更新模型参数;S5、用训练好的模型对新样本进行预测分类。本发明将带噪学习领域的对称交叉熵和插值方法融合,使得带标签和无标签样本协同训练的同时,降低了标签预测过程中模型误判的影响,减少了训练过程中带标签数据的过拟合现象。

Description

一种基于BERT-base网络的带噪半监督文本分类方法
技术领域
本发明应用于自然语言处理(NLP)领域,具体涉及一种基于BERT-base网络的带噪半监督文本分类方法。
背景技术
随着通信、互联网技术的发展,数据已经成为了一种工业原材料,如何挖掘并利用隐藏在数据中的信息已经形成多个产业并且创造了巨大的经济效益。文本数据因为由人的直接表达生成,故产生成本最低,数量最大,包含信息也最为丰富。
在文本数据的众多应用中,分类是一个基础性工作。传统文本分类一般基于带标签数据做监督学习,但在实际的特定工业场景中,数据大多为无标签的原始数据,数据的标注可能需要耗费大量的人力资源,且人工标注的标签质量如何也值得怀疑,实际情况下甚至可能出现“训练数据越多,训练效果越差”的情况。故仅利用少量带标签数据和大量无标签数据的半监督学习方法就成为更加实际且低成本的选择。
目前的半监督学习大多应用于图像分类,近几年的主流方法都利用了一致性正则和最小化熵的思想。一方面,若对数据输入添加噪声,一个鲁棒的模型的输出应该是相似的;另一方面,模型在无标签数据上的熵应该尽可能最小化。无标签数据通过一次或数次增强后输入模型,用模型的较低熵输出作为其预测标签。与此同时,将该无标签数据用另一种方式扰动之后输入模型,此时模型的输出应该和刚刚得到的人工标签存在相似性。衡量“较低熵”的方法一般是看模型输出的概率分布中的最大概率是否超过某个阈值。如何衡量“相似性”则取决于选择何种损失函数,一般的选择有KL散度、交叉熵、L2正则等。但在文本半监督分类中有两方面的问题。一方面,如何将图像半监督分类中的一致性正则和最小化熵的思想应用于文本处理之中。对图像进行旋转、镜像、转换灰度等简单操作就可以在样本标签不变的条件下实现数据增强。然而在NLP中,文本数据具有一定离散特性,很难通过简单的转换来生成大量语义不变的扩充样本。尤其是短文本中,对部分词语的改动很可能直接改变整体语义,故直接在词向量上添加扰动并非最佳选择。另一方面,通过设定概率阈值来判断模型的输出的置信度,这种方法较为简单而直接,但在实际操作中的问题在于:由于阈值的存在,无标签数据可能会在模型训练中期甚至后期才会加入,而此时那些早已参与训练的少量带标签数据可能已经过拟合,用过拟合的模型去预测数据的标签,这种预测势必包含错误判断,且这种错误并非均匀分散的随机噪声,而是模型“死读书”之后产出的***性噪声。故如何处理带标签和无标签数据的协同训练,如何处理模型预测中的噪声也是个问题。
发明内容
本发明提供一种基于BERT-base(BERT是一种基于Transformer架构的双向编码器)的带噪半监督文本分类方法,它对无标签样本通过回译方法产生新样本,然后通过模型预测将置信度较高的预测结果作为该新样本的预测标签;训练过程中,采用插值方法将带标签样本和无标签样本协同训练,并用梯度上升方法对无标签样本在模型中第3隐层的输出向量添加扰动,最后用改进的损失函数提高模型对于其预测标签中噪声的鲁棒性。
为实现上述目的,本发明采用的技术方案步骤如下:
S1、数据初始化阶段。将无标签样本做回译操作并产生新样本,然后将新样本输入模型,最后将其中高置信度的输出向量转化为对应one-hot标签。具体步骤如下:
S11、将无标签样本
Figure BDA0002869680530000021
通过机器翻译工具翻译成其他语言之后再翻译回原语言,以此方式由样本
Figure BDA0002869680530000022
得到样本
Figure BDA0002869680530000023
其中j∈{1,2,…,Nu},Nu为一个批次样本中无标签样本数量。
S12、将样本
Figure BDA0002869680530000024
输入分类模型得到输出向量
Figure BDA0002869680530000025
Figure BDA0002869680530000026
即分类模型以一个高于阈值τ的置信度将该样本做出分类,则赋予
Figure BDA0002869680530000027
一个one-hot预测标签
Figure BDA0002869680530000028
标签
Figure BDA0002869680530000029
同时对应样本
Figure BDA00028696805300000210
和样本
Figure BDA00028696805300000211
θ表示模型参数。
S13、若样本
Figure BDA0002869680530000031
被赋予了one-hot标签,则也将无标签样本
Figure BDA0002869680530000032
输入模型得到输出向量
Figure BDA0002869680530000033
将带标签样本
Figure BDA0002869680530000034
输入模型得到输出向量
Figure BDA0002869680530000035
S2、数据增强阶段。采用FGM(Fast Gradient Method)方法添加扰动并作插值处理,具体步骤如下:
S21、BERT-base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成,这里针对无标签样本
Figure BDA0002869680530000036
在BERT-base第3层隐藏层的输出添加扰动rj=ε·gj/||gj||,其中
Figure BDA0002869680530000037
即向量
Figure BDA0002869680530000038
的L2正则对该隐藏层输出h求梯度,ε为正超参数,||·||表示求向量二范数。设无标签样本
Figure BDA0002869680530000039
的第3层隐藏层的输出为
Figure BDA00028696805300000310
则扰动后结果为
Figure BDA00028696805300000311
S22、在BERT-base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作。设
Figure BDA00028696805300000312
Figure BDA00028696805300000313
分别为样本有标签样本
Figure BDA00028696805300000314
和无标签样本
Figure BDA00028696805300000315
在分类模型隐藏层中第k层的输出(k∈{7,9,12}),对应的真实标签和预测标签分别为
Figure BDA00028696805300000316
Figure BDA00028696805300000317
则插值操作的步骤如下:
S221、利用Beta分布产生一个0~1之间的随机数λ。
S222、取λ1=max{λ,1-λ},λ2=min{λ,1-λ},即λ1>λ2且λ12=1。
S223、计算
Figure BDA00028696805300000318
S224、将
Figure BDA00028696805300000319
输入第k+1层隐藏层,并经后面若干隐藏层的计算得到插值模型输出。将S2步骤整个过程记为f'(·),则插值模型输出记为
Figure BDA00028696805300000320
two-hot形式的插值标签记为
Figure BDA00028696805300000321
S3、损失函数的构造阶段。损失函数loss=ls+lsce,第一项为带标签样本的模型输出
Figure BDA00028696805300000322
与其真实标签
Figure BDA00028696805300000323
求交叉熵,第二项为插值标签
Figure BDA00028696805300000324
与插值模型输出
Figure BDA00028696805300000325
的对称交叉熵。具体如下:
S31、lsce=μ1lce2lrce。对称交叉熵包括两部分,lce为交叉熵,lrce反交叉熵。μ1和μ2是二者的超参数权重。具体公式为:
交叉熵:
Figure BDA00028696805300000326
反交叉熵:
Figure BDA0002869680530000041
其中i∈{1,2,…,Nl},j∈{1,2,…,Nu},因为
Figure BDA0002869680530000042
为two-hot标签向量,标签向量中势必存在0元素,故反交叉熵的计算中存在log0,定义超参数A=log0,A<0,I{·}表示大括号内条件成立则返回1否则返回0。
S32、ls为针对带标签样本的交叉熵。
Figure BDA0002869680530000043
S33、计算最终损失函数loss:loss=ls+lsce=ls1lce2lrce
S4、模型参数更新阶段。
S41更新模型参数θ,即θ←θ-η▽θloss,η为学习率。
S42、在下一批次样本中重复步骤S1-步骤S4,每经过一批次样本的训练后验证模型预测正确率,若更新了当前最高正确率则保存该模型参数。若模型经过10批次训练后预测正确率仍未提高,则结束训练过程。
S5、用训练好的模型做文本的分类应用。
与现有方法相比,本发明有以下优点:
本发明基于如今较为流行的BERT-base模型实现了一种针对文本分类的半监督的带噪学习方法。(1)相比传统半监督学习方法,本发明更为细致地考虑到模型预测标签中的噪声问题,并引入图像带噪学习领域的对称交叉熵,降低了模型误判的影响。(2)再将其和插值方法融合,形成了全新的two-hot模式下的对称交叉熵,提升了模型泛化性能的同时将带标签和无标签样本协同训练,尽量减少了训练过程中在部分数据的过拟合现象。(3)在插值操作中,相比传统做法中将所有样本随机打乱后插值的粗犷做法,本发明较为细致地始终保持无标签样本和带标签样本间的交叉,且在权值的选择上尽量保持损失函数梯度下降时对真实标签的偏向性,这进一步减轻了模型误判带来的影响。(4)相比传统做法中直接在词向量上添加扰动,本发明选择BERT-base隐层输出向量作为扰动对象,从而尽量减少扰动操作对样本语义上的过度修改。
附图说明
图1为模型主要结构图;
图2为本发明中基于BERT-base的半监督带噪学习方法的单轮训练流程图;
图3为本发明中扰动和插值操作示意图;
具体实施方式
下面将结合附图对本发明的具体实施细节做进一步阐述。
一种基于BERT-base的半监督带噪文本分类方法,模型结构如图1所示,它由词向量编码器和12层Transformer架构的隐层构成。BERT-base通过多层运算后,取语句开始标志(CLS)的最终隐层输出向量作为整句话的语义表达向量,然后针对该语义向量用一个两层线性分类器做最终分类。
本方法主要分四个阶段:S1数据初始化阶段、S2数据增强阶段、S3损失函数的构造阶段、S4模型参数更新阶段、S5模型应用阶段。结合图2,本发明的步骤如下:
S1、数据初始化阶段。对无标签样本做回译操作并产生新样本。将新样本输入模型,将其中高置信度的输出向量转化为对应one-hot标签。具体包括:
S11、将无标签样本
Figure BDA0002869680530000051
其中Nu为一批次样本中无标签样本数量)通过机器翻译工具翻译成其他语言之后再翻译回原语言。以此方式由样本
Figure BDA0002869680530000052
得到样本
Figure BDA0002869680530000053
二者的表达方式不同,但语义相同。
S12、将样本
Figure BDA0002869680530000054
输入分类模型得到输出向量
Figure BDA0002869680530000055
Figure BDA0002869680530000056
即分类模型以一个高于阈值τ的置信度将该样本做出分类,则赋予
Figure BDA0002869680530000057
一个one-hot预测标签
Figure BDA0002869680530000058
标签
Figure BDA0002869680530000059
同时对应样本
Figure BDA00028696805300000510
和样本
Figure BDA00028696805300000511
θ表示模型参数。
S13、若样本
Figure BDA0002869680530000061
被赋予了one-hot标签,则也将无标签样本
Figure BDA0002869680530000062
输入模型得到输出向量
Figure BDA0002869680530000063
将带标签样本
Figure BDA0002869680530000064
输入模型得到输出向量
Figure BDA0002869680530000065
S2、数据增强阶段。结合图3所示,采用FGM(Fast Gradient Method)方法添加扰动并作插值处理。由于文本中语义的表达并不连续,对部分关键词的改变可能导致整体语义的过度反差,而研究表明,BERT一些特定隐层输出在句法语义等信息的提取中效果较好,故在BERT中特定Transformer隐层而非词向量编码层做扰动和插值处理。步骤S2具体为:
S21、BERT-base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成,这里针对无标签样本
Figure BDA0002869680530000066
在BERT-base第3层隐藏层的输出添加扰动rj=ε·gj/||gj||,其中
Figure BDA0002869680530000067
即向量
Figure BDA0002869680530000068
的L2正则对该隐藏层输出h求梯度,ε为正超参数,||·||表示求向量二范数。设无标签样本
Figure BDA0002869680530000069
的第3层隐藏层的输出为
Figure BDA00028696805300000610
则扰动后结果为
Figure BDA00028696805300000611
S22、在BERT-base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作。设
Figure BDA00028696805300000612
Figure BDA00028696805300000613
分别为样本有标签样本
Figure BDA00028696805300000614
和无标签样本
Figure BDA00028696805300000615
在分类模型隐藏层中第k层的输出(k∈{7,9,12}),对应的真实标签和预测标签分别为
Figure BDA00028696805300000616
Figure BDA00028696805300000617
则插值操作的步骤如下:
S221、利用Beta分布产生一个一个0-1之间的随机数λ。
S222、取λ1=max{λ,1-λ},λ2=min{λ,1-λ},即λ1>λ2且λ12=1
S223、计算
Figure BDA00028696805300000618
S224、将
Figure BDA00028696805300000619
输入第k+1层隐层,并经后面若干层的计算得到插值模型输出。将S2整个过程记为f'(·),则插值模型输出为
Figure BDA00028696805300000620
two-hot形式的插值标签记为
Figure BDA00028696805300000621
S3、损失函数的构造阶段。损失函数loss=ls+lsce,第一项为对带标签样本的模型输出
Figure BDA00028696805300000622
和其真实标签
Figure BDA00028696805300000623
求交叉熵,第二项为插值标签
Figure BDA00028696805300000624
与插值模型输出
Figure BDA00028696805300000625
的对称交叉熵。在训练过程中,对称交叉熵会使真实标签位置的概率增长比预测标签位置更快,而近似two-hot标签中其他错误的位置上的概率分布会随着两个正确位置上概率的增加而更快速的下降,这也符合对称交叉熵原本的思路。具体过程如下:
S31、lsce=μ1lce2lrce。对称交叉熵包括两部分,lce为传统交叉熵,lrce反交叉熵。μ1和μ2是二者的超参数权重。具体公式为:
交叉熵:
Figure BDA0002869680530000071
反交叉熵:
Figure BDA0002869680530000072
i∈{1,2,…,Nl},j∈{1,2,…,Nu},因为
Figure BDA0002869680530000073
为two-hot标签向量,标签向量中势必存在0元素,故反交叉熵的计算中存在log0,定义超参数A=log0,A<0,I{·}表示大括号内条件成立则返回1,否则返回0。
以下为本发明中构造的two-hot模式反交叉熵的有效性的解释,以单个带标签样本和单个无标签样本为例:
lrce=-pilogλ1-pjlogλ2-(1-pi-pj)A
Figure BDA0002869680530000074
Figure BDA0002869680530000075
Figure BDA0002869680530000076
其中,zi和zj分别表示正确标签和预测标签所属类别处模型softmax前的输出,zc表示错误类别处模型softmax前的输出。pi和pj分别表示正确标签和预测标签所属类别处模型的最终输出,pc表示错误类别处模型的最终输出。
因为0<λ12<1,A<0,two-hot模式下pi和pj基本在0~0.5范围内,故:
Figure BDA0002869680530000077
即lrce的下降会使得正确类别处的输出zi和zj上升,错误类别处的输出zc下降,符合损失函数基本目的,lrce可加速loss的梯度下降。
Figure BDA0002869680530000081
Figure BDA0002869680530000082
的大小主要取决于其中的一次项,即
Figure BDA0002869680530000083
Figure BDA0002869680530000084
中的pi和pj,又因为0<λ2<λ1<1,-(A-logλ1)>-(A-logλ2)>0,pipj>0,
Figure BDA0002869680530000085
故大部分情况下
Figure BDA0002869680530000086
成立,即反交叉熵总体更偏向于真实标签。
研究表明,误判情况的偶发性导致模型对于错误标签的预测置信度不会很高,所以若pj对应的预测标签属于误判,则较小的一次项可对
Figure BDA0002869680530000087
起到限制的作用。这也符合对称交叉熵原本的思想。
S32、ls为针对带标签样本的交叉熵。
Figure BDA0002869680530000088
S33、计算最终损失函数:loss=ls+lsce=ls1lce2lrce
S4、模型参数更新阶段。
S41、更新模型参数θ,即θ←θ-η▽θloss,η为学习率。
S42、在下一批次样本中重复步骤S1-步骤S4,每经过一批次样本的训练后验证模型预测正确率,若更新了当前最高正确率则保存该模型参数。若模型经过10批次数据训练后预测正确率仍未提高,则结束训练过程。
S5、模型应用阶段。使用S42步骤中训练好的模型,将测试文本输入模型,模型输出向量中最大概率处对应的类别即为预测所属的分类。
综上所述,本发明将图像半监督分类的思想方法引入自然语言处理领域,提出了基于BERT-base模型的半监督带噪文本分类方法。
通过更为细致地在BERT-base隐层中做扰动和插值处理,本发明减少了由于对词向量直接改动而导致语义过度变化的情况,并使得模型在提升鲁棒性和泛化性能的同时将带标签和无标签样本协同训练,尽量减少了训练过程中在部分数据的过拟合现象。
考虑到预测标签中的噪声处理问题,本发明引入图像带噪学习领域的对称交叉熵,并将其和插值处理融合,形成了two-hot模式下的对称交叉熵。插值处理时更细致的权重选择使得训练过程总是略微偏向真实标签,这进一步减轻了预测标签中的噪声对训练过程的影响,提升了模型训练过程的鲁棒性。

Claims (7)

1.一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于包括如下步骤:
S1、数据初始化阶段:将无标签样本做回译操作并产生新样本,然后将新样本输入模型,最后将其中高置信度的输出向量转化为对应one-hot标签;
S2、数据增强阶段:采用FGM方法添加扰动并作插值处理,在BERT中特定Transformer隐层而非词向量编码层做扰动和插值处理;
S3、损失函数的构造阶段;损失函数loss=ls+lsce,第一项为对带标签样本的模型输出
Figure FDA0002869680520000011
和其真实标签
Figure FDA0002869680520000012
求交叉熵,第二项为插值标签
Figure FDA0002869680520000013
与插值模型输出
Figure FDA0002869680520000014
的对称交叉熵;
S4、模型参数更新阶段:
S5、模型应用阶段:使用训练好的模型,将测试文本输入模型,模型输出向量中最大概率处对应的类别即为预测所属的分类。
2.根据权利要求1所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于步骤S1具体实现如下:
S11、将无标签样本
Figure FDA0002869680520000015
通过机器翻译工具翻译成其他语言之后再翻译回原语言,以此方式由样本
Figure FDA0002869680520000016
得到样本
Figure FDA0002869680520000017
其中j∈{1,2,…,Nu},Nu为一个批次样本中无标签样本数量;
S12、将样本
Figure FDA0002869680520000018
输入分类模型得到输出向量
Figure FDA0002869680520000019
Figure FDA00028696805200000110
即分类模型以一个高于阈值τ的置信度将该样本做出分类,则赋予
Figure FDA00028696805200000111
一个one-hot预测标签
Figure FDA00028696805200000112
标签
Figure FDA00028696805200000113
同时对应样本
Figure FDA00028696805200000114
和样本
Figure FDA00028696805200000115
θ表示模型参数;
S13、若样本
Figure FDA00028696805200000116
被赋予了one-hot标签,则也将无标签样本
Figure FDA00028696805200000117
输入模型得到输出向量
Figure FDA00028696805200000118
将带标签样本
Figure FDA00028696805200000119
输入模型得到输出向量
Figure FDA00028696805200000120
3.根据权利要求2所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于步骤S2具体实现如下:
S21、BERT-base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成,这里针对无标签样本
Figure FDA00028696805200000121
在BERT-base第3层隐藏层的输出添加扰动rj=ε·gj/||gj||,其中
Figure FDA0002869680520000021
即向量
Figure FDA0002869680520000022
的L2正则对该隐藏层输出h求梯度,ε为正超参数,||·||表示求向量二范数;设无标签样本
Figure FDA0002869680520000023
的第3层隐藏层的输出为
Figure FDA0002869680520000024
则扰动后结果为
Figure FDA0002869680520000025
S22、在BERT-base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作;设
Figure FDA0002869680520000026
Figure FDA0002869680520000027
分别为样本有标签样本
Figure FDA0002869680520000028
和无标签样本
Figure FDA0002869680520000029
在分类模型隐藏层中第k层的输出,k∈{7,9,12};对应的真实标签和预测标签分别为
Figure FDA00028696805200000210
Figure FDA00028696805200000211
4.根据权利要求3所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于所述的插值操作步骤如下:
S221、利用Beta分布产生一个0~1之间的随机数λ;
S222、取λ1=max{λ,1-λ},λ2=min{λ,1-λ},即λ1>λ2且λ12=1;
S223、计算
Figure FDA00028696805200000212
S224、将
Figure FDA00028696805200000213
输入第k+1层隐藏层,并经后面若干隐藏层的计算得到插值模型输出;将S2步骤整个过程记为f'(·),则插值模型输出记为
Figure FDA00028696805200000214
two-hot形式的插值标签记为
Figure FDA00028696805200000215
5.根据权利要求4所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于步骤S3具体实现如下:
S31、lsce=μ1lce2lrce;对称交叉熵包括两部分,lce为交叉熵,lrce反交叉熵;μ1和μ2是二者的超参数权重;具体公式为:
交叉熵:
Figure FDA00028696805200000216
反交叉熵:
Figure FDA00028696805200000217
其中i∈{1,2,…,Nl},j∈{1,2,…,Nu},因为
Figure FDA00028696805200000218
为two-hot标签向量,标签向量中势必存在0元素,故反交叉熵的计算中存在log0,定义超参数A=log0,A<0,I{·}表示大括号内条件成立则返回1否则返回0;
S32、ls为针对带标签样本的交叉熵;
Figure FDA0002869680520000031
S33、计算最终损失函数loss:loss=ls+lsce=ls1lce2lrce
6.根据权利要求5所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于步骤S4具体实现如下:
S41更新模型参数θ,即
Figure FDA0002869680520000032
η为学习率;
S42、在下一批次样本中重复步骤S1-步骤S4,每经过一批次样本的训练后验证模型预测正确率,若更新了当前最高正确率则保存该模型参数;若模型经过10批次训练后预测正确率仍未提高,则结束训练过程。
7.根据权利要求5所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于构造的two-hot模式反交叉熵的有效性实现如下:
lrce=-pilogλ1-pjlogλ2-(1-pi-pj)A
Figure FDA0002869680520000033
Figure FDA0002869680520000034
Figure FDA0002869680520000035
其中,zi和zj分别表示正确标签和预测标签所属类别处模型softmax前的输出,zc表示错误类别处模型softmax前的输出;pi和pj分别表示正确标签和预测标签所属类别处模型的最终输出,pc表示错误类别处模型的最终输出;
因为0<λ12<1,A<0,two-hot模式下pi和pj基本在0~0.5范围内,故:
Figure FDA0002869680520000036
即lrce的下降会使得正确类别处的输出zi和zj上升,错误类别处的输出zc下降,符合损失函数基本目的,lrce可加速loss的梯度下降;
Figure FDA0002869680520000041
Figure FDA0002869680520000042
的大小主要取决于其中的一次项,即
Figure FDA0002869680520000043
Figure FDA0002869680520000044
中的pi和pj,又因为0<λ2<λ1<1,-(A-logλ1)>-(A-logλ2)>0,pipj>0,
Figure FDA0002869680520000045
故大部分情况下
Figure FDA0002869680520000046
成立,即反交叉熵总体更偏向于真实标签;
误判情况的偶发性导致模型对于错误标签的预测置信度不会很高,所以若pj对应的预测标签属于误判,则较小的一次项可对
Figure FDA0002869680520000047
起到限制的作用。
CN202011593101.6A 2020-12-29 2020-12-29 一种基于BERT-base网络的带噪半监督文本分类方法 Pending CN112597766A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011593101.6A CN112597766A (zh) 2020-12-29 2020-12-29 一种基于BERT-base网络的带噪半监督文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011593101.6A CN112597766A (zh) 2020-12-29 2020-12-29 一种基于BERT-base网络的带噪半监督文本分类方法

Publications (1)

Publication Number Publication Date
CN112597766A true CN112597766A (zh) 2021-04-02

Family

ID=75203436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011593101.6A Pending CN112597766A (zh) 2020-12-29 2020-12-29 一种基于BERT-base网络的带噪半监督文本分类方法

Country Status (1)

Country Link
CN (1) CN112597766A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765359A (zh) * 2021-04-07 2021-05-07 成都数联铭品科技有限公司 一种基于少样本的文本分类方法
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113011531A (zh) * 2021-04-29 2021-06-22 平安科技(深圳)有限公司 分类模型训练方法、装置、终端设备及存储介质
CN113918700A (zh) * 2021-10-15 2022-01-11 浙江百世技术有限公司 一种带噪的半监督意图识别模型训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190042952A1 (en) * 2017-08-03 2019-02-07 Beijing University Of Technology Multi-task Semi-Supervised Online Sequential Extreme Learning Method for Emotion Judgment of User
CN110427629A (zh) * 2019-08-13 2019-11-08 苏州思必驰信息科技有限公司 半监督文本简化模型训练方法和***
CN111723666A (zh) * 2020-05-20 2020-09-29 同济大学 一种基于半监督学习的信号识别方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190042952A1 (en) * 2017-08-03 2019-02-07 Beijing University Of Technology Multi-task Semi-Supervised Online Sequential Extreme Learning Method for Emotion Judgment of User
CN110427629A (zh) * 2019-08-13 2019-11-08 苏州思必驰信息科技有限公司 半监督文本简化模型训练方法和***
CN111723666A (zh) * 2020-05-20 2020-09-29 同济大学 一种基于半监督学习的信号识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋建国;: "基于半监督与词向量加权的文本分类研究", 软件导刊, no. 09, 15 September 2020 (2020-09-15) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765359A (zh) * 2021-04-07 2021-05-07 成都数联铭品科技有限公司 一种基于少样本的文本分类方法
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN112966509B (zh) * 2021-04-16 2023-04-07 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113011531A (zh) * 2021-04-29 2021-06-22 平安科技(深圳)有限公司 分类模型训练方法、装置、终端设备及存储介质
WO2022227214A1 (zh) * 2021-04-29 2022-11-03 平安科技(深圳)有限公司 分类模型训练方法、装置、终端设备及存储介质
CN113011531B (zh) * 2021-04-29 2024-05-07 平安科技(深圳)有限公司 分类模型训练方法、装置、终端设备及存储介质
CN113918700A (zh) * 2021-10-15 2022-01-11 浙江百世技术有限公司 一种带噪的半监督意图识别模型训练方法
CN113918700B (zh) * 2021-10-15 2022-07-12 浙江百世技术有限公司 一种带噪的半监督意图识别模型训练方法

Similar Documents

Publication Publication Date Title
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析***及方法
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN112597766A (zh) 一种基于BERT-base网络的带噪半监督文本分类方法
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及***
CN109325231B (zh) 一种多任务模型生成词向量的方法
CN112560432B (zh) 基于图注意力网络的文本情感分析方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、***及介质
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及***
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN111666406A (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
CN114491024B (zh) 一种基于小样本的特定领域多标签文本分类方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及***
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN111339440B (zh) 面向新闻文本基于层级状态神经网络的社会情绪排序方法
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN114067162A (zh) 一种基于多尺度多粒度特征解耦的图像重构方法及***
Yu et al. Policy text classification algorithm based on BERT
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination