CN115270797A - 一种基于自训练半监督学习的文本实体抽取方法及*** - Google Patents

一种基于自训练半监督学习的文本实体抽取方法及*** Download PDF

Info

Publication number
CN115270797A
CN115270797A CN202211161311.7A CN202211161311A CN115270797A CN 115270797 A CN115270797 A CN 115270797A CN 202211161311 A CN202211161311 A CN 202211161311A CN 115270797 A CN115270797 A CN 115270797A
Authority
CN
China
Prior art keywords
training
text
model
data
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211161311.7A
Other languages
English (en)
Inventor
王继彬
张贤明
郭莹
杨美红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202211161311.7A priority Critical patent/CN115270797A/zh
Publication of CN115270797A publication Critical patent/CN115270797A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文本实体抽取技术领域,提供了一种基于自训练半监督学习的文本实体抽取方法及***,包括:将待识别文本输入文本实体抽取模型,得到待识别文本中的每个字符所属实体类别;其中,文本实体抽取模型的训练方法为:采用训练集训练得到一个教师模型;从无标签数据库中挑选出与训练集的文本相似度最高的若干条无标签数据;利用教师模型对挑选出的无标签数据进行预测,并将预测的标签值作为伪标签赋予无标签数据得到伪标签数据;将伪标签数据和训练集进行混合,构成混合数据集;采用混合数据集训练得到一个学生模型。增强了文本实体抽取模型学习小样本甚至零样本类别的能力,同时也降低了训练所需的成本。

Description

一种基于自训练半监督学习的文本实体抽取方法及***
技术领域
本发明属于文本实体抽取技术领域,尤其涉及一种基于自训练半监督学习的文本实体抽取方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
自然语言处理(Natural Language Processing,NLP)领域的神经网络技术在不断的革新。其中,文本实体抽取(Text Entity Extraction,TEE)作为自然语言处理领域在命名实体识别方向中最基础的任务,它能支撑众多NLP的下游任务,如智能问答、机器翻译、知识图谱、关系抽取等等。文本实体一般是指文本中具有特定意义或指代性较强的命名实体,通常包含了实物、时间、地点、人名、数字类等。文本实体抽取就是从非结构化文本当中抽取出所需的实体,并且按照业务需求来抽取或者识别出其他更多的类别。
文本实体抽取是一个非常具有挑战性的任务,在许多文本场景下,会有训练样本(数据)很少或训练样本中某一个实体类别数量很少的问题,这导致文本实体抽取模型在训练时很难从这种小的样本数据中学习到类别特征,从而难以抽取文本实体。尽管现在神经网络的方法在基于大规模预训练模型的基础下已经能很好的学习到上下文的语义特征,但对于少样本和零样本情况下,现有的神经网络模型也不能或难以很好地学习到样本类别特征。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于自训练半监督学习的文本实体抽取方法及***,增强了文本实体抽取模型学习小样本甚至零样本类别的能力,同时也降低了训练所需的成本。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于自训练半监督学习的文本实体抽取方法,其包括:
获取待识别文本;
将待识别文本输入文本实体抽取模型,得到待识别文本中的每个字符所属实体类别;
其中,文本实体抽取模型的训练方法为:采用训练集训练得到一个教师模型;从无标签数据库中挑选出与训练集的文本相似度最高的若干条无标签数据;利用教师模型对挑选出的无标签数据进行预测,并将预测的标签值作为伪标签赋予无标签数据得到伪标签数据;将伪标签数据和训练集进行混合,构成混合数据集;采用混合数据集训练得到一个学生模型。
进一步地,所述教师模型的训练方法为:
在一次迭代训练中,将训练集中的带标签数据输入神经网络预训练模型得到结果张量,并基于结果张量得到预测值,根据教师模型的损失函数计算教师模型得到的预测值与真实值的差异,得到损失结果;
在每一次迭代训练得到损失结果后,执行反向传播的梯度更新机制,通过反复对神经网络预训练模型进行多次迭代训练,最终得到一个教师模型。
进一步地,所述教师模型的损失函数为:
F(p,y)=p t CE(p,y)
其中,y表示真实值,p表示预测值,p t 表示第t次迭代的平滑因子,CE(p,y)表示通常用于文本实体抽取或识别任务的交叉熵损失函数。
进一步地,所述文本相似度的计算方法为:对于一条无标签数据,将其与训练集中的所有带标签数据的文本相似度进行累加求和并取均值,得到一条无标签数据与训练集的文本相似度值。
进一步地,一条无标签数据与一条带标签数据的文本相似度为:
Figure 100002_DEST_PATH_IMAGE001
其中,sim(x i ,z)表示无标签数据向量z与带标签数据向量x i 的文本相似度,d(x i ,z)表示无标签数据向量z与带标签数据向量x i 之间的欧氏距离,
Figure 47658DEST_PATH_IMAGE002
表示无标签数据向量z与带标签数据向量x i 之间的余弦相似度。
进一步地,所述学生模型的训练方法为:
在一次迭代训练中,将混合数据集中的数据输入神经网络预训练模型得到结果张量,并基于结果张量得到预测值,根据学生模型的损失函数计算学生模型得到的预测值与真实值的差异,得到损失结果;
在每一次迭代训练得到损失结果后,执行反向传播的梯度更新机制,通过反复对神经网络预训练模型进行多次迭代训练,最终得到一个学生模型。
进一步地,所述学生模型的损失函数为:
Figure 100002_DEST_PATH_IMAGE003
其中,n+k代表混合数据集中的样本数量,L CE ( )表示交叉熵损失函数,p i 表示学生模型对混合数据集中的第i个样本的预测值,p i * 表示混合数据集中的第i个样本的真实值,GD(g i )表示混合数据集中的第i个样本梯度模长的密度,g i 表示混合数据集中的第i个样本的梯度模长。
本发明的第二个方面提供一种基于自训练半监督学习的文本实体抽取***,其包括:
文本获取模块,其被配置为:获取待识别文本;
实体抽取模块,其被配置为:将待识别文本输入文本实体抽取模型,得到待识别文本中的每个字符所属实体类别;其中,文本实体抽取模型包括教师模型和学生模型;
模型训练模块,其被配置为:采用训练集训练得到一个教师模型;从无标签数据库中挑选出与训练集的文本相似度最高的若干条无标签数据;利用教师模型对挑选出的无标签数据进行预测,并将预测的标签值作为伪标签赋予无标签数据得到伪标签数据;将伪标签数据和训练集进行混合,构成混合数据集;采用混合数据集训练得到一个学生模型。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种基于自训练半监督学习的文本实体抽取方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种基于自训练半监督学习的文本实体抽取方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于自训练半监督学习的文本实体抽取方法,其通过利用自训练半监督学习的方法,增强文本实体抽取数据集中类别处于少样本和零样本的数据,以缓解或解决在该情况下模型学习特征能力不佳的问题。
本发明提供了一种基于自训练半监督学习的文本实体抽取方法,其引入文本相似度方法函数来搜寻与训练集相似度较高的无标签文本数据并利用,以解决少样本和零样本下样本类别不足的问题。
本发明提供了一种基于自训练半监督学***衡以及减少噪声提高模型鲁棒性。
本发明提供了一种基于自训练半监督学习的文本实体抽取方法,其在尽可能保障低成本的情况下,结合根本类别少样本的实际状况,来动态为其增强数据量,从而提高文本实体抽取模型对少样本或零样本特征的学习能力。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一的文本实体抽取模型的训练流程图;
图2是本发明实施例一的教师模型的训练流程图;
图3是本发明实施例一的生成伪标签样本数据过程的示意图;
图4是本发明实施例一的学生模型的训练流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:
命名实体识别(Named Entity Recognition,NER):又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
半监督学习(Semi supervised learning):半监督学习是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的无标签数据,以及同时使用标记数据(带标签数据),来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性。
自训练(Self-training):自训练是一种半监督学习的方法。通过寻找与训练集相似的大量无标签数据,来增强在监督学习下模型学习样本特征能力的方法。
本文相似度(Text similarity):文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。站在数学角度去量化其相似性,进而对其进行抽象分解。
损失函数(Loss function):损失函数或代价函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。例如,在统计学和机器学习中被用于模型的参数估计。
实施例一
本实施例提供了一种基于自训练半监督学习的文本实体抽取方法,目的是根据文本实体抽取任务中存在的少样本类别,在尽可能保障其他多样本类别性能较好的情况下,动态增强少样本类别的数量,以此增强文本实体抽取模型学习少样本类别的特征能力以及节省文本实体抽取模型训练的成本。
本实施例提供的一种基于自训练半监督学习的文本实体抽取方法,具体包括以下步骤:
步骤1、获取待识别文本;
步骤2、将待识别文本输入训练好的文本实体抽取模型,得到待识别文本中的每个字符所属实体类别。
其中,实体类别可以为人名类实体、地点类实体、时间类实体、非实体等。
具体的,文本实体抽取模型包括教师模型和学生模型。文本实体抽取模型的训练方法为:采用训练集和教师模型的损失函数训练得到一个教师模型;从无标签数据库中挑选出与训练集的文本相似度最高的若干条无标签数据;利用教师模型对挑选出的无标签数据进行预测,并将预测的标签值作为伪标签赋予无标签数据得到伪标签数据;将伪标签数据和训练集进行混合,构成混合数据集;采用混合数据集和学生模型的损失函数训练得到一个学生模型。如图1所示,文本实体抽取模型的训练具体包括以下步骤:
S11:采用带标签数据组成的训练集,结合神经网络预训练模型和教师模型的损失函数,生成一个教师模型。即,在一次迭代训练中,将训练集中的带标签数据输入神经网络预训练模型得到结果张量,并基于结果张量通过线性层转化及激活函数后得到预测值,后根据教师模型的损失函数计算教师模型得到的预测值与真实值的差异,得到损失结果;在每一次迭代训练得到损失结果后,执行反向传播的梯度更新机制,通过反复对神经网络预训练模型进行多次迭代训练,达到结果较低的损失值或较高的准确率,并固定教师模型的参数,最终得到一个教师模型。具体步骤包括:
S1101、实体抽取模型开始训练时,根据具体任务选取带标签的数据集作为训练集。
需要注意的是:此时的训练集可能存在有实体类别数量很少、数据集较小、正负样本不平衡等问题。
S1102、针对于基于实体抽取的序列标注模型,需根据不同的任务场景和数据集挑选出几种合适的神经网络预训练模型。
其中,神经网络预训练模型可以为:BERT(Bidirectional EncoderRepresentation from Transformers,基于Transformer的双向编码器表示)、BERT-wwm(Bidirectional Encoder Representation from Transformers - whole word masking,对全词进行Mask的BERT模型)、PERT(Pre-Training BERT with Permuted LanguageModel,一种基于乱序语言模型的预训练模型)、或RoBERTa(A Robustly Optimized BERTPretraining Approach,一种经过严格优化的BERT预训练方法)等基于Transformer结构的预训练模型。
S1103、为在步骤S1102中选择的神经网络预训练模型选择合适的超参数,然后通过利用步骤S1101中选取的训练集中的数据进行神经网络预训练模型的迭代训练,得到若干个教师模型。
需要注意的是:神经网络预训练模型的超参数选择是影响教师模型性能的一个重要原因,神经网络预训练模型的超参数包括学习率、学习衰减率、优化器、Dropout等。由于神经网络预训练模型的超参数的选择需要往往要结合实际的具体任务来进行调整和选择,是一个需要经验累计的过程与不断测试的结果,因此,本实施例中,对于神经网络预训练模型的超参数的选择将以所选择的神经网络预训练模型所采用的默认超参数为主,并以根据不同实际下游任务调整的超参数为辅,以此选择合适的超参数。此后,在神经网络预训练模型的基础上,根据超参数选择以及预训练模型的不同,利用训练集得以训练出多个教师模型,挑选出性能最高的神经网络预训练模型与超参数选择的模型作为最终的教师模型。
另外,为尽可能保障在带标签的数据集的监督学***衡问题的目的。
S1104、根据教师模型的损失函数,在步骤S1103的神经网络预训练模型的训练过程中,计算每轮训练所产生的损失值,通过教师模型损失函数的损失值以判断所得到的若干个教师模型的性能,选择性能最优的教师模型作为最终的教师模型,并继续执行步骤S12。
如图2所示的生成教师模型的过程,在神经网络预训练模型训练的一次迭代轮次过程中:将带标签数据x 1,x 2,x 3,…,x n 输入神经网络预训练模型,得到初始的结果张量H 1,H 2,H 3,…,H n ,其中,x i 表示训练集中的第i个带标签数据,H i 表示第i个带标签数据的结果张量,i=1,2,3,…,nn为训练集中包含的带标签数据的总个数;将结果张量经过前馈全连接神经网络(Feedforward neural network)和Softmax函数的处理,得到神经网络预训练模型一次迭代轮次的文本实体抽取结果(预测值,即预测得到的训练集中每个数据中的每个字符所属实体类别的概率值结果),再根据教师模型的损失函数F(p,y)计算教师模型的预测值与真实值的差异,得到一次迭代轮次的损失结果。在每一次迭代轮次得到损失结果后,执行反向传播的梯度更新机制,通过反复对神经网络预训练模型进行多轮次的迭代训练,最终得到一个内部参数固定的教师模型。
其中,教师模型的损失函数用来表示神经网络预训练模型得到的预测值与真实值之间的差距程度,它可以用于通过反向传播算法的梯度更新机制来动态地调整和更新神经网络预训练模型的参数,以最终提升教师模型的预测性能。
通常,用于文本实体抽取或识别任务的损失函数为二分类交叉熵函数:
Figure 646130DEST_PATH_IMAGE004
其中,y是一个真实的类(真实值),p为神经网络预训练模型对标签为y=1的类的估计概率(预测值)。
由于文本实体抽取的数据集中难免会存在样本类别较少,导致正负样例不平衡的问题以及个别样本难以识别导致难以样本不平衡的问题。因此,本实施例在交叉熵函数的基础上,引入一个平滑因子和权重因子以缓解训练集中的正负难易样本的不平衡。其中,平滑因子的为:
Figure DEST_PATH_IMAGE005
其中,
Figure 896720DEST_PATH_IMAGE006
是关注度参数,
Figure DEST_PATH_IMAGE007
选择不同的大小使得神经网络预训练模型对样本的关注度不同;例如,
Figure 797811DEST_PATH_IMAGE008
时,等同于交叉熵函数;
Figure DEST_PATH_IMAGE009
p=0.9时,可以计算出,相对于交叉熵函数,此时这个样本对损失的贡献权重降低了100倍;
Figure 268107DEST_PATH_IMAGE009
p=0.1时,这个显然对神经网络预训练模型是一个难分类样本,此时神经网络预训练模型计算出的平滑因子高于易分类样本,意味着在神经网络预训练模型的梯度更新的阶段会更加关注于难分类样本。
本实施例中,将交叉熵函数与平滑因子和权重因子结合,得到本实施例的教师模型损失函数:
F(p,y)=p t CE(p,y)
其中,y表示真实值,p表示预测值,p t 表示第t次迭代轮次的平滑因子,CE(p,y)表示交叉熵损失函数。需要注意的是,此处仅以二分类交叉熵损失函数为例说明教师模型所使用损失函数的构建过程,实际损失函数的选用可能与具体下游任务有关联,在此将不仅仅局限于二分类交叉熵损失函数。
S12:利用文本相似度函数,从大型无标签数据库中挑选出与训练集相似度最高的k条无标签数据。如图3所示,包括:
S1201、利用网络爬虫技术或公开数据集的数据库,获取大量涉及各个领域的无标签的文本数据,组成大型无标签数据库。
S1202、根据文本相似度函数sim( ),计算出无标签数据库中每一条无标签数据z与S11所采用的训练集中的每一个带标签数据x i 的文本相似度;对于一条无标签数据,将其与所有带标签数据的文本相似度进行累加求和并取均值,得到一条无标签数据与训练集的文本相似度值S avg
Figure 998166DEST_PATH_IMAGE010
S1203、按照相似度值,对无标签数据集中的数据从高到低进行排序。
S1204、将相似度值最高的k条无标签数据样本送入教师模型中,随后执行S13,进行预测和处理的数据样本。
常用的文本相似度函数有:欧氏距离和余弦相似度等。
其中,欧氏距离是一个通常采用的距离定义,它是在M维空间中两个点之间的真实距离,以此来计算两个文本向量间的相似度,其公式为:
Figure DEST_PATH_IMAGE011
其中,x im 表示训练集中的第i个文本数据x i 的向量表示中的第m维,z m 表示无标签数据z的向量表示中的第m维,M表示文本数据的向量表示的总维度。
余弦相似度用向量空间中两个向量的夹角的余弦值来衡量两个文本间的相似度,相比距离度量,余弦相似度更加注重两个向量在方向上的差异,一般情况下,用文本嵌入(Embedding)的方法得到两个文本的向量表示之后,可以使用余弦相似度计算两个文本之间的相似度,其公式为:
Figure 244208DEST_PATH_IMAGE012
由于在文本相似度计算上欧式距离和余弦相似度存在一定差异性,欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。例如,在寻找文本实体抽取无标签数据集中,分析样本数大小使动态增添相似数据集时会更加关注数值的绝对差异;但在计算两个文本相似度分析领域的远近时更关注相对差异。
基于以上分析的结果,本实施例中,采用的文本相似度函数sim( ),该函数方法是根据欧氏距离函数和余弦相似度函数的特征,将两者综合考虑进行结合,其公式为:
Figure DEST_PATH_IMAGE013
其中,sim(x i ,z)表示无标签数据z与带标签数据x i 的文本相似度,d(x i ,z)表示无标签数据z所对应文本向量与带标签数据x i 所对应文本向量之间的欧氏距离,
Figure 175255DEST_PATH_IMAGE014
表示无标签数据z所对应文本向量与带标签数据x i 所对应文本向量之间的余弦相似度。文本相似度函数sim( )通过结合欧氏距离函数更加关注数值上的绝对差异的优点以及余弦相似度函数更加关注数值的相对差异的优点,得以更好的解决在文本实体抽取中无标签数据自动筛选中的问题。
S13:利用教师模型对挑选出的k条无标签数据进行预测,并将预测的标签值结果作为伪标签,赋予无标签的数据样本,记作为伪标签数据,再将伪标签数据和训练集进行混合,构成混合数据集,随后结合学生模型的损失函数,进行迭代训练以得到一个学生模型,最终将学生模型应用于具体下游任务(例如,中文文本中的景点实体抽取或识别)中,或再经过微调加以应用。其中,学生模型的训练方法为:在一次迭代训练中,将混合数据集中的数据输入神经网络预训练模型得到结果张量,并基于结果张量得到预测值,根据学生模型的损失函数计算学生模型得到的预测值与真实值的差异,得到损失结果;在每一次迭代训练得到损失结果后,执行反向传播的梯度更新机制,通过反复对神经网络预训练模型进行多次迭代训练,最终得到一个学生模型。具体包括:
S1301、如图3所示,教师模型将根据S1204得到的k条无标签样本数据预测出对应标签值结果,并将该结果赋予无标签数据样本,记其为伪标签数据。
伪标签是指教师模型预测出的标签值,而非数据的真实标签值。样本类别伪标签生成的准确性依赖于教师模式的性能。
在通过采用有标签数据结合神经网络预训练模型挑选出性能最优的教师模型和利用文本相似度函数计算选取相似度最高的k条无标签数据后,将k条无标签数据送入教师模型中生成伪标签数据,为半监督学习的方法。
S1302、将S1301中得到的伪标签数据与训练教师模型的训练集进行混合,作为学生模型训练所需的混合数据集。
S1303、根据教师模型所选的神经网络预训练模型和超参数为指导经验,选择合适的神经网络预训练模型和超参数,并考虑伪标签数据噪声的影响,选择学生模型损失函数L GHM-C
需要注意的是,此处不仅限于S11中教师模型开始所选取的神经网络预训练模型与超参数,只是将其作为一种选择的经验看待;另外,适当的噪声虽然会提高学生模型的鲁棒性,但若噪声过多则会导致学生模型降低其识别的性能。因为由S1301中所得到的这些伪标签数据集本身不够准确或是样本比较特殊,对于学生模型来说是极难学习的,对于一个已经收敛的模型来说,强行学好这些离群样本可能会导致学生模型参数的较大偏差,反而会影响大多数已经可以较好识别的样本的判断准确率。
基于上述分析,将学生模型训练中使用的损失函数进行重构:
(1)根据梯度均衡机制,将梯度模长的取值范围划分为若干个单位区域,对于第i个样本来说,若它的梯度模长(梯度范数)为g i (表示样本真实值和预测值的距离):
Figure DEST_PATH_IMAGE015
其中,p i 为sigmoid函数,代表学生模型预测的样本的类别概率值,范围是0-1,而p i * 是样本的标签的真实值,非0即1。当梯度模长非常低时,表明样本的真实值和预测值非常接近,反之梯度范数非常大时,表明此样本对模型的提升效果没有什么帮助。
(2)梯度模长(梯度范数)的密度就定义为单位梯度模长g长度(此处不是单个样本,故不以g i 表示,而是以g表示)内所分布的样本个数,即单元区域内的样本数量除以梯度模长的区域长度(单位梯度模长g长度内分布的样本数量),该梯度模长的密度函数:
Figure 303486DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
代表了梯度范数g以∈为中心的区域内样本的数量(个数),
Figure 978181DEST_PATH_IMAGE018
函数代表了区域的长度,其梯度模长的区间为
Figure DEST_PATH_IMAGE019
,即区间的长度为
Figure 439249DEST_PATH_IMAGE020
,而梯度范数的密度函数的倒数就是样本计算损失函数后要乘的权重,即梯度密度均衡参数:
Figure DEST_PATH_IMAGE021
其中,n+k代表样本的总数量(混合数据集样本数量为n+k),该公式表示对第i个样本的梯度密度的一个标准化。如果梯度密度越大,那么β的值越小,让其在损失函数中占的权重越小,相反梯度密度越小,β的值越大。
(3)结合交叉熵函数,得到本实施例中采用的学生模型的损失函数:
Figure 72356DEST_PATH_IMAGE022
其中,L CE ( )表示交叉熵损失函数,p i 表示学生模型对混合数据集中的第i个样本的预测值,p i * 表示混合数据集中的第i个样本的真实值,GD(g i )表示混合数据集中的第i个样本梯度模长的密度,g i 表示混合数据集中的第i个样本的梯度模长。
学生模型的损失函数也即计算每个样本的损失值之后,乘以一个梯度协调参数,使得每个梯度对样本参数的更新变得均衡,它相对于教师模型中采用的损失函数来说,学生模型部分由于使用混合数据集训练,其采用的损失函数既对简单样本进行了相对的抑制,也对一些离群样本进行了相对的抑制,从而使得训练更加稳定。
S1304、根据步骤S1303所提出的学生模型的损失函数,进行多次迭代训练最终生成得到学生模型。
具体的,如图4所示的学生模型的训练过程,在学生模型训练的一次迭代轮次中,将混合标签数据x 1,x 2,x 3,…,x n ,…,x n+k 输入S1303选取的神经网络预训练模型,得到初始的结果张量,结果张量经过前馈全连接神经网络和Softmax函数的处理,以得到学生模型一次训练轮次迭代的预测结果,再根据损失函数L GHM-C 计算学生模型的预测值与真实值的差异,得到一次迭代轮次训练的损失。在每一次迭代轮次得到损失结果后,并执行反向传播的梯度更新机制,通过反复对神经网络预训练模型进行多轮次的迭代训练,最终结果是得到一个内部参数固定的学生模型。
S1305、最终将学生模型应用于具体下游任务(文本实体抽取或识别)中,或经过微调以应用。
本实施例,针对文本实体抽取或识别任务中某些文本场景所出现的训练样本很少或训练样本中某一个实体类别数量很少的问题,通过利用自训练半监督学***衡以及减少噪声提高模型鲁棒性;在尽可能保障低成本的情况下,结合根本类别少样本的实际状况,来动态为其增强数据量,从而提高文本实体抽取模型对少样本或零样本特征的学习能力。
实施例二
本实施例提供了一种基于自训练半监督学习的文本实体抽取***,其具体包括如下模块:
文本获取模块,其被配置为:获取待识别文本;
实体抽取模块,其被配置为:将待识别文本输入文本实体抽取模型,得到待识别文本中的每个字符所属实体类别;其中,文本实体抽取模型包括教师模型和学生模型;
模型训练模块,其被配置为:采用训练集训练得到一个教师模型;从无标签数据库中挑选出与训练集的文本相似度最高的若干条无标签数据;利用教师模型对挑选出的无标签数据进行预测,并将预测的标签值作为伪标签赋予无标签数据得到伪标签数据;将伪标签数据和训练集进行混合,构成混合数据集;采用混合数据集训练得到一个学生模型。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的一种基于自训练半监督学习的文本实体抽取方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种基于自训练半监督学习的文本实体抽取方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自训练半监督学习的文本实体抽取方法,其特征在于,包括:
获取待识别文本;
将待识别文本输入文本实体抽取模型,得到待识别文本中的每个字符所属实体类别;
其中,文本实体抽取模型的训练方法为:采用训练集训练得到一个教师模型;从无标签数据库中挑选出与训练集的文本相似度最高的若干条无标签数据;利用教师模型对挑选出的无标签数据进行预测,并将预测的标签值作为伪标签赋予无标签数据得到伪标签数据;将伪标签数据和训练集进行混合,构成混合数据集;采用混合数据集训练得到一个学生模型。
2.如权利要求1所述的一种基于自训练半监督学习的文本实体抽取方法,其特征在于,所述教师模型的训练方法为:
在一次迭代训练中,将训练集中的带标签数据输入神经网络预训练模型得到结果张量,并基于结果张量得到预测值,根据教师模型的损失函数计算教师模型得到的预测值与真实值的差异,得到损失结果;
在每一次迭代训练得到损失结果后,执行反向传播的梯度更新机制,通过反复对神经网络预训练模型进行多次迭代训练,最终得到一个教师模型。
3.如权利要求2所述的一种基于自训练半监督学习的文本实体抽取方法,其特征在于,所述教师模型的损失函数为:
F(p,y)=p t CE(p,y)
其中,y表示真实值,p表示预测值,p t 表示第t次迭代的平滑因子,CE(p,y)表示交叉熵损失函数。
4.如权利要求1所述的一种基于自训练半监督学习的文本实体抽取方法,其特征在于,所述文本相似度的计算方法为:对于一条无标签数据,将其与训练集中的所有带标签数据的文本相似度进行累加求和,得到一条无标签数据与训练集的文本相似度值。
5.如权利要求4所述的一种基于自训练半监督学习的文本实体抽取方法,其特征在于,一条无标签数据与一条带标签数据的文本相似度为:
Figure DEST_PATH_IMAGE001
其中,sim(x i ,z)表示无标签数据z与带标签数据x i 的文本相似度,d(x i ,z)表示无标签数据z与带标签数据x i 之间的欧氏距离,
Figure 411552DEST_PATH_IMAGE002
表示无标签数据z与带标签数据x i 之间的余弦相似度。
6.如权利要求1所述的一种基于自训练半监督学习的文本实体抽取方法,其特征在于,所述学生模型的训练方法为:
在一次迭代训练中,将混合数据集中的数据输入神经网络预训练模型得到结果张量,并基于结果张量得到预测值,根据学生模型的损失函数计算学生模型得到的预测值与真实值的差异,得到损失结果;
在每一次迭代训练得到损失结果后,执行反向传播的梯度更新机制,通过反复对神经网络预训练模型进行多次迭代训练,最终得到一个学生模型。
7.如权利要求6所述的一种基于自训练半监督学习的文本实体抽取方法,其特征在于,所述学生模型的损失函数为:
Figure DEST_PATH_IMAGE003
其中,n+k代表混合数据集中的样本数量,L CE ( )表示交叉熵损失函数,p i 表示学生模型对混合数据集中的第i个样本的预测值,p i * 表示混合数据集中的第i个样本的真实值,GD(g i )表示混合数据集中的第i个样本梯度模长的密度,g i 表示混合数据集中的第i个样本的梯度模长。
8.一种基于自训练半监督学习的文本实体抽取***,其特征在于,包括:
文本获取模块,其被配置为:获取待识别文本;
实体抽取模块,其被配置为:将待识别文本输入文本实体抽取模型,得到待识别文本中的每个字符所属实体类别;其中,文本实体抽取模型包括教师模型和学生模型;
模型训练模块,其被配置为:采用训练集训练得到一个教师模型;从无标签数据库中挑选出与训练集的文本相似度最高的若干条无标签数据;利用教师模型对挑选出的无标签数据进行预测,并将预测的标签值作为伪标签赋予无标签数据得到伪标签数据;将伪标签数据和训练集进行混合,构成混合数据集;采用混合数据集训练得到一个学生模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于自训练半监督学习的文本实体抽取方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于自训练半监督学习的文本实体抽取方法中的步骤。
CN202211161311.7A 2022-09-23 2022-09-23 一种基于自训练半监督学习的文本实体抽取方法及*** Pending CN115270797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211161311.7A CN115270797A (zh) 2022-09-23 2022-09-23 一种基于自训练半监督学习的文本实体抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211161311.7A CN115270797A (zh) 2022-09-23 2022-09-23 一种基于自训练半监督学习的文本实体抽取方法及***

Publications (1)

Publication Number Publication Date
CN115270797A true CN115270797A (zh) 2022-11-01

Family

ID=83756725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211161311.7A Pending CN115270797A (zh) 2022-09-23 2022-09-23 一种基于自训练半监督学习的文本实体抽取方法及***

Country Status (1)

Country Link
CN (1) CN115270797A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618022A (zh) * 2022-12-19 2023-01-17 中国科学技术大学 一种基于数据合成和两阶段自训练的低资源关系抽取方法
CN116501548A (zh) * 2023-05-06 2023-07-28 广西云数信息科技有限公司 应用于人工智能的互联网数据容灾备份方法及服务器
CN117077673A (zh) * 2023-07-17 2023-11-17 南京工业大学 基于噪声学生自训练的半监督实体对齐方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN111177373A (zh) * 2019-12-12 2020-05-19 北京明略软件***有限公司 一种获取训练数据的方法和装置、模型训练方法和装置
CN111238807A (zh) * 2020-01-17 2020-06-05 福州大学 一种行星齿轮箱故障诊断方法
CN112069833A (zh) * 2020-09-01 2020-12-11 北京声智科技有限公司 日志分析方法、日志分析装置及电子设备
CN113626723A (zh) * 2021-07-09 2021-11-09 中国科学院信息工程研究所 一种基于表示学习的属性图社区搜索方法和***
CN113627185A (zh) * 2021-07-29 2021-11-09 重庆邮电大学 一种用于肝癌病理文本命名的实体识别方法
CN113836727A (zh) * 2021-09-27 2021-12-24 西南交通大学 用于复杂产品群智协同设计过程的设计能力优化方法
CN113868526A (zh) * 2021-09-27 2021-12-31 北京沃东天骏信息技术有限公司 信息推送方法和装置、非瞬时性计算机可读存储介质
CN114528835A (zh) * 2022-02-17 2022-05-24 杭州量知数据科技有限公司 基于区间判别的半监督专业术语抽取方法、介质及设备
CN114818718A (zh) * 2022-05-26 2022-07-29 北京金山数字娱乐科技有限公司 合同文本识别方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN111177373A (zh) * 2019-12-12 2020-05-19 北京明略软件***有限公司 一种获取训练数据的方法和装置、模型训练方法和装置
CN111238807A (zh) * 2020-01-17 2020-06-05 福州大学 一种行星齿轮箱故障诊断方法
CN112069833A (zh) * 2020-09-01 2020-12-11 北京声智科技有限公司 日志分析方法、日志分析装置及电子设备
CN113626723A (zh) * 2021-07-09 2021-11-09 中国科学院信息工程研究所 一种基于表示学习的属性图社区搜索方法和***
CN113627185A (zh) * 2021-07-29 2021-11-09 重庆邮电大学 一种用于肝癌病理文本命名的实体识别方法
CN113836727A (zh) * 2021-09-27 2021-12-24 西南交通大学 用于复杂产品群智协同设计过程的设计能力优化方法
CN113868526A (zh) * 2021-09-27 2021-12-31 北京沃东天骏信息技术有限公司 信息推送方法和装置、非瞬时性计算机可读存储介质
CN114528835A (zh) * 2022-02-17 2022-05-24 杭州量知数据科技有限公司 基于区间判别的半监督专业术语抽取方法、介质及设备
CN114818718A (zh) * 2022-05-26 2022-07-29 北京金山数字娱乐科技有限公司 合同文本识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
何军: ""基于社会选择和社会影响作用机制的社交网络群推荐方法研究"", 《中国博士学位论文全文数据库社会科学Ⅱ辑》 *
周裕林等: ""一种采用机器阅读理解模型的中文分词方法"", 《西安交通大学学报》 *
王兰燕: ""面向办案区倒地行为检测识别的深度学习算法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
陈洁敏 等: ""融合"用户-项目-用户兴趣标签图"的协同好友推荐算法"", 《计算机科学与探索》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618022A (zh) * 2022-12-19 2023-01-17 中国科学技术大学 一种基于数据合成和两阶段自训练的低资源关系抽取方法
CN115618022B (zh) * 2022-12-19 2023-04-28 中国科学技术大学 一种基于数据合成和两阶段自训练的低资源关系抽取方法
CN116501548A (zh) * 2023-05-06 2023-07-28 广西云数信息科技有限公司 应用于人工智能的互联网数据容灾备份方法及服务器
CN116501548B (zh) * 2023-05-06 2024-03-19 深圳市时代经纬科技有限公司 应用于人工智能的互联网数据容灾备份方法及服务器
CN117077673A (zh) * 2023-07-17 2023-11-17 南京工业大学 基于噪声学生自训练的半监督实体对齐方法

Similar Documents

Publication Publication Date Title
Luan et al. Scientific information extraction with semi-supervised neural tagging
CN110188358B (zh) 自然语言处理模型的训练方法及装置
CN110110080A (zh) 文本分类模型训练方法、装置、计算机设备及存储介质
CN115270797A (zh) 一种基于自训练半监督学习的文本实体抽取方法及***
CN112069310B (zh) 基于主动学习策略的文本分类方法及***
Qin et al. A novel negative sampling based on TFIDF for learning word representation
Ashraf et al. A globally regularized joint neural architecture for music classification
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN115408525B (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN113591988B (zh) 知识认知结构分析方法、***、计算机设备、介质、终端
Lee et al. Large scale video representation learning via relational graph clustering
CN114510570A (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN115203507A (zh) 一种面向文书领域的基于预训练模型的事件抽取方法
Ma et al. Jointly trained sequential labeling and classification by sparse attention neural networks
CN112434514A (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
Upreti Convolutional neural network (cnn). a comprehensive overview
CN117453897A (zh) 一种基于大模型和遗传算法的文档问答方法及***
Chen et al. Data augmentation for environmental sound classification using diffusion probabilistic model with top-k selection discriminator
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法
Gupta A review of generative AI from historical perspectives
CN111026908A (zh) 歌曲标签确定方法、装置、计算机设备以及存储介质
Léon Extracting information from PDF invoices using deep learning
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN114254622A (zh) 一种意图识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination