CN114461802A - 一种针对拒答问题的机器阅读理解模型的自训练方法 - Google Patents

一种针对拒答问题的机器阅读理解模型的自训练方法 Download PDF

Info

Publication number
CN114461802A
CN114461802A CN202210121915.2A CN202210121915A CN114461802A CN 114461802 A CN114461802 A CN 114461802A CN 202210121915 A CN202210121915 A CN 202210121915A CN 114461802 A CN114461802 A CN 114461802A
Authority
CN
China
Prior art keywords
training
reading understanding
understanding model
model
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210121915.2A
Other languages
English (en)
Inventor
欧阳建权
付蒙恩
唐欢容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202210121915.2A priority Critical patent/CN114461802A/zh
Publication of CN114461802A publication Critical patent/CN114461802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理领域,公开了一种针对拒答问题的阅读理解模型的自训练方法,包括步骤:S1.构建针对拒答问题的机器阅读理解模型,包括文本编码模块和答案预测模块;S2.将文本及问题输入所述的文本编码模块进行编码,然后输入至答案预测模块进行处理;以最小化训练损失函数为目标训练调整所述的机器阅读理解模型的参数,得到初始机器阅读理解模型;S3.对初始机器阅读理解模型使用自训练方法在无标签数据集上迭代训练得到理想机器阅读理解模型。本发明引入的验证函数对机器阅读理解模型预测效果进行检测,使用无标签数据就能较好地完成模型训练,获得比传统训练方法更好效果。

Description

一种针对拒答问题的机器阅读理解模型的自训练方法
技术领域
本发明属于自然语言处理机器阅读理解领域,特别涉及一种针对拒答问题的阅读理解模型的自训练方法。
背景技术
机器阅读理解旨在教会机器在理解给定段落后回答问题,这是自然语言理解(NLU)长期以来的基本目标。早期的MRC(机器阅读理解)***设计在一个潜在的假设上,即所有的问题都可以根据给定的文本来回答。然而,当所提问题在当前给定的文本下无法被回答时,需要***能够拒绝给出答案。这就要求机器阅读理解模型必须能够区分那些无法回答的问题,以避免给出可信的答案。随着自然语言处理技术在司法领域的广泛开展应用,诸如法律判决预测,法律智能问答以及案情标签预测等方面的应用都取得了不错的进展。除此之外,在旅游领域通过人工智能技术与用户行为数据相结合的方式也催生了广阔的应用需求,诸如个性化旅游指南,旅游舆情分析等方面的应用。
预训练模型是自然语言处理领域近几年的研究热点,得益于其的快速发展,越来越多的深度学习模型结合预训练模型在阅读理解任务上取得了不俗的表现,传统的基于规则的模型不仅耗时,并且需要对于任务设计特定的特征工程。而经过大量语料训练得到的深层预训练模型可以取代特征工程的作用并且通过海量语料的预训练,模型对下游任务有更加强大的泛化能力。然而针对诸如法律,金融等特定领域并没有充足的标注数据可以对模型进行训练,深度预训练模型的潜力也没有发挥出来。在传统的文本数据增强方法中,同义词替换技术由于同义词具有非常相似的词向量,在模型训练时两个句子会被当作几乎相同的句子,实际上并没有对数据集进行有效扩充。回译方法往往能够增加文本数据的多样性,相比替换词来说,有时可以改变句法结构等,并保留语义信息。但是,回译的方法产生的数据依赖于翻译的质量,大多数出现的翻译结果可能并不那么准确。如果使用某些翻译软件的接口,也可能遇到账号限制等情况。
本发明提出了一种针对拒答问题的机器阅读理解模型的自训练方法,本方法属于深度学习数据增强技术。首先,我们构建基于预训练语言模型的机器阅读理解模型。通过已有的标注数据对模型进行训练得到初始的机器阅读理解模型。之后,我们使用初始的预训练模型对无标注数据进行预测,使用软标记方法对预测值进行处理得到伪标注数据从而扩充标注训练数据集。对模型进一步的训练提高模型的精度。
发明内容
本发明的目的是提供一种针对拒答问题的阅读理解模型的自训练方法,以使训练好的模型对于拒答问题的理解更准确。
一种针对拒答问题的阅读理解模型的自训练方法,包括如下步骤:
S1.构建针对拒答问题的机器阅读理解模型,包括文本编码模块和答案预测模块;
S2.将文本及问题输入所述的文本编码模块进行编码,然后输入至答案预测模块进行处理;以最小化训练损失函数为目标训练调整所述的机器阅读理解模型的参数,得到初始机器阅读理解模型;
S3.对初始机器阅读理解模型使用自训练方法在无标签数据集上迭代训练得到理想机器阅读理解模型。
进一步地,所述的将文本及问题输入所述的文本编码模块进行编码实现步骤如下:
S21.选取预设数目的标签样本,作为标签训练集;
S22.将标签训练集中的问题和文档数据进行拼接,形成“问题-文档”文本数据,并将其作为分词器tokenizer的输入得到文本令牌序列;
S23.使用BERT预训练模型对所述文本令牌序列进行处理,得到文本数据的上下文本表示向量x∈Rb×c×d,其中b为输入的文本数据的数量,c为文本的长度,d为编码的维度。
进一步地,依据BERT预训练模型的设计,所述的文本令牌序列的第一个值为[CLS]标记值,使用上下文表示向量中[CLS]标记值所对应的表示向量h[cls]∈Rb×d用作后续的答案预测模块的输入,其中b为输入文本数据的数量,d为编码的维度。
进一步地,所述的答案预测模块处理方法实现如下:
S24.将经过文本编码模块得到的[CLS]标记值对应的表示向量h[cls]使用dropout进行过拟合处理之后作为分类器的输入,得到最终的答案概率记为logitcls
S25.以交叉熵损失函数为目标,训练调整机器阅读理解模型的参数,得到初始机器阅读理解模型;
所述交叉熵损失函数
Figure BDA0003498856210000021
的计算公式为:
Figure BDA0003498856210000022
其中
Figure BDA0003498856210000031
为所述机器阅读理解模型预测输出的答案概率logitcls,yi为真实答案表示问题是可回答或者不可回答的;N为标签样本的数量;
S26.利用预设评价函数和验证标签数据集,对训练后的初始机器阅读理解模型输出答***性进行评价;
所述的预设评价函数采用准确率评估指标,其计算公式为:
Figure BDA0003498856210000032
其中f(xi)为模型预测标签,yi为真实标签,I函数为指示函数,当输入为True,输出为1,输入为False,输出为0;
S27.经过预设次数的前述评价后,判断得到评价指标是否有提升,如果没有提升,则停止对所述机器阅读理解模型的训练,得到用于自训练的初始机器阅读理解模型。
进一步地,步骤S24中所述的分类器为线性回归分类器,函数计算公式为:
y=β01x
其中,x为模型的预测值,y为真实标签值;β0和β1为模型训练学习的参数。
进一步地,所述的对初始机器阅读理解模型使用自训练方法在无标签数据集上迭代训练得到理想机器阅读理解模型实现方法如下:
S31.收集用于自训练的无标签数据样本;使用训练的标签数据集打乱序列并去除标签项,构成无标签数据样本集样本;
S32.将所述的无标签数据样本集输入所述的初始阅读理解模型得到预测值,将所述的预测值通过软标签方法得到可用于自训练的伪标签,从而构建用于自训练的伪标签样本集;
S33.将上述伪标签样本训练集输入前一轮迭代得到的模型进行训练,以相对熵损失函数为目标,调整前一轮迭代得到模型的参数,得到新一轮的机器阅读理解模型;
其中,所述相对熵损失函数的计算公式如下:
Figure BDA0003498856210000033
其中qij为数据集中的伪标签,pij为模型的预测值;
S34.利用预设评价函数和验证标签样本数据,对上述机器阅读理解模型答***率进行评价;
所述的预设评价函数采用准确率评估指标,其计算公式为:
Figure BDA0003498856210000041
其中f(xi)为模型预测标签,yi为真实标签,I函数为指示函数,当输入为True,输出为1,输入为False,输出为0;
S35.经过预设次数的评价后,得到准确率最高阅读理解模型为理想阅读理解模型。
进一步地,步骤S32中所述的软标签方法通过增强高置信度预测,同时通过对当前预测进行平方化和归一化来降级低置信度预测,从而得到伪标签。其计算公式为:
Figure BDA0003498856210000042
其中,qij表示经过软标签方法得到的伪标签,其通过机器阅读理解模型训练的分类器应用于每个文本的[CLS]标记值所对应的上下文表示向量得到;
pij=p(cj|h[CLS])
其中cj表示真实答案的分类:是或否;h[cls]表示输入文档中[CLS]标记值所对应的上下文表示向量。
进一步地,所述的软标签方法也可以用硬标签方法替代,硬标签方法将超过阈值的高置信度预测转换为独热标签,即qij=I(pij>阈值),,其中I为指标函数,当输入为True,输出为1,输入为False,输出为0。
与现有技术相比,本发明引入了损失函数和验证函数对阅读理解模型预测效果进行检测,使用无标签数据能较好地提升模型训练的效果,获得比传统训练方法更好效果。
附图说明
图1为本发明实施例一种针对拒答问题的阅读理解模型的自训练方法的流程示意图。
具体实施方式
为进一步对本发明进行公开,下面结合附图将详细地对示例性实施例进行说明。
本实施例提供的针对拒答问题的阅读理解模型的自训练方法,具体包括如下步骤:
S1:建立针对拒答问题的阅读理解模型,将阅读理解任务设计由2个子模块进行处理,并进行训练,其中子模块包括文本编码模块、答案分类模块:
S2:将文本及问题输入文本编码模块,再由文本编码模块进行编码,然后输入至答案分类模块,由答案分类模块进行问题答案的输出:
S3:将经过训练的阅读理解模型进行自训练:
本发明能够依据问题及相关文本通过机器阅读理解模型得到正确的答案,在法律领域中运用,有利于提高阅读效率,快速反馈答案。发明针对阅读理解中的拒答问题任务提出了一种针对拒答问题的阅读理解模型的自训练方法,可以有效的利用法律无标注数据,扩充标注训练数据集,最终提升最终模型的表现。
S1:在本实施例中,文本编码模块处理文本及问题的步骤为:
(1)选取预设数目的标签样本,作为标签训练集;
本实施例中,一个样本由一个文档、问题以及问题的答案构成,训练集就是选取的样本的集合,在样本的选取时,根据模型的应用领域,选取样本的题材,例如如果是智慧司法的机器阅读领域,则选取法律数据的文档。
(2)将标签训练集中的问题和文档数据进行拼接,形成新的“问题-文档”文本数据,并将其作为分词器tokenizer的输入得到文本令牌序列,其中给定篇章的令牌序列向量PT和问题的令牌序列向量QT,“问题-文档”文本可以表示为:
[CLS]Qr[SEP]PT[SEP]
其中[CLS]和[SEP]是BERT模型所需的特殊标志,[CLS]标志放在第一个句子的首位,经过BERT得到的的表征向量C可以用于后续的分类任务。[SEP]标志用于分开两个输入句子,例如输入句子A和B,要在句子A,B后面增加[SEP]标志。分词器tokenizer是bert模型的文本编码,用于将文本转换为一个序列向量,即单词在字典中的下标构成的列表。
(3)使用BERT(BERT:Pre-training of Deep Bidirectional Transformers forLang-uage Understanding语言理解的深度双向变换器的预训练)预训练模型对“问题-文档”文本进行编码,得到文本的向量化表示h∈Rc×d,其中C为文本的长度,d为编码的维度;
BERT是一种深度双向的、无监督的语言表示,且仅使用纯文本语料库进行预训练的模型。上下文无关模型(如word2vec或GloVe)为词汇表中的每个单词生成一个词向量表示,因此容易出现单词的歧义问题。BERT考虑到单词出现时的上下文。例如,词“水分”的word2vec词向量在“植物需要吸收水分”和“财务报表里有水分”是相同的,但BERT根据上下文的不同提供不同的词向量,词向量与句子表达的句意有关。将“问题-文档”文本使用BERT进行编码,通过这一过程,能够学习到篇章和问题更深层的特征表示。
对于自然语言处理任务,计算机无法直接理解人类语言,因此需要将文本编码为计算机能够理解的数字格式,文本编码模块主要是对问题和文本进行编码作为后续模块的输入。
S2:在本实施例中,对答案预测模块对答案进行预测,并进行训练,其步骤如下:
a将经过文本编码模块得到的[CLS]标记值对应的表示向量h[cls]使用dropout进行过拟合处理,之后作为分类器的输入,得到最终的答案概率记为logitcls
所述的分类器为线性回归,所述线性回归的函数计算公式为:
y=β01x
其中,x为模型的预测值,y为真实标签值;β0和β1为模型学习的参数。
Dropout是一种正则化技术,用以在人工神经网络中对抗过拟合。Dropout有效的原因,是它能够避免在训练数据上产生复杂的相互适应。Dropout这个术语代指在神经网络中丢弃部分神经元(包括隐藏神经元和可见神经元)。在训练阶段,dropout使得每次只有部分网络结构得到更新,因而是一种高效的神经网络模型平均化的方法。
b以交叉熵损失函数为目标,调整所述机器阅读理解模型的参数,得到基础机器阅读理解模型。
其中,所述交叉熵损失函数
Figure BDA0003498856210000061
的计算公式为:
Figure BDA0003498856210000062
其中
Figure BDA0003498856210000063
为所述机器阅读理解模型预测输出的答案概率logitclass,yi为真实答案表示问题是可回答或者不可回答的。N为标签样本的数量。
以最小化为目标训练损失函数为目标,调整所述基础机器阅读理解模型的参数之后,所述方法还包括:
c当对所述机器阅读理解模型的参数完成预设次数的调整后,则利用预设评价函数和验证标签数据集,对训练后的基础机器阅读理解模型输出答***性进行评价:
其中,预设评价函数采用准确率评估指标,其计算公式为:
Figure BDA0003498856210000064
上述计算公式中f(xi)为模型预测标签,yi为真实标签,I函数为指示函数,当输入为True,输出为1,输入为False,输出为0。
d判断经过预设次数的训练后,得到的评价指标是否由提升,如果没有提升,则停止对所述机器阅读理解模型的训练,得到用于自训练的初始模型;
经过上述步骤预设次数的训练,并且经过预设次数的训练后再使用上述预设评价函数进行评价,这样经过预设次数的评价后,判断得到评价指标是否有提升。
S3:作为一种针对拒答问题的阅读理解模型的自训练方法,使用自训练模块上述初始模型进行自训练,自训练的思想是反复利用模型当前的预测值来计算目标分布,引导模型进行完善。其步骤如下:
1)构建自训练的伪标签数据样本,用于上述初始模型的自训练;
可选的,我们将上述使用训练的标签数据集打乱序列并去除标签项,构成无标签数据样本集。
2)将上述无标签数据样本集输入前一轮迭代得到模型得到预测值,将预测值使用软标记得到其目标分布,从而构建用于自训练的伪标签样本集;
目标分布主要有两种选择:硬标签和软标签。硬标签方法将超过阈值的高置信度预测转换为独热标签,即qij=I(pij>阈值),其中I为指标函数,当输入为True,输出为1,输入为False,输出为0。软标签方法通过增强高置信度预测,同时通过对当前预测进行平方化和归一化来降级低置信度预测,从而得到目标分布。
其中所述软标签函数的计算公式为:
Figure BDA0003498856210000071
其中,qij表示经过软标签方法得到的伪标签,其通过机器阅读理解模型训练的分类器应用于每个文本的[CLS]标记值所对应的上下文表示向量得到;
pij=p(cj|h[CLS])
其中cj表示真实答案的分类:是或否,h[cls]表示输入文档的嵌入向量。
3)将上述伪标签样本集输入前一轮迭代得到的模型进行训练,以相对熵损失函数为目标,调整前一轮迭代得到模型的参数,得到新一轮的机器阅读理解模型;
其中,所述相对熵损失函数的计算公式如下:
Figure BDA0003498856210000072
相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量,其中qij为数据集中的伪标签,pij为模型的预测值。
4)利用预设评价函数和验证标签样本数据,对上述机器阅读理解模型答***率进行评价。
其中,预设评价函数采用准确率评估指标,其计算公式为:
Figure BDA0003498856210000081
上述计算公式中f(xi)为模型预测标签,yi为真实标签,I函数为指示函数,当输入为True,输出为1,输入为False,输出为0。
5)经过预设次数的训练后,并且经过预设次数的训练后再使用上述预设评价函数进行评价,这样经过预设次数的评价后,得到准确率最高的可用于下一轮迭代的阅读理解模型。
具体实施例
利用上述实施例提供的方法,现采用“中国法研杯CAIL2020-司法人工智能挑战赛”的阅读理解数据。与基于BERT的阅读理解模型的效果进行对比。阅读理解数据集如下:
"caseid":"clean_result51.json_37779","domain":"criminal"},{"paragraphs":[{"casename":"故意伤害罪","context":"经审理查明,被告人张××、杜×、杨2某均为辽宁省辽阳第一监狱五监区服刑人员。2015年11月3日13时许,被告人张××、杜×因无事便跟随去催要生产材料的被告人杨2某一同前往六监区,在六监区生产车间门外,被告人杨2某与六监区送料员于×因送料问题发生争执,被告人杨2某上前拽住被害人于×胳膊并用手击打被害人后脖颈两下,被告人张××、杜×见杨2某动手后,先后上前分别对被害人于×面部、头部及腹部进行殴打,后被赶到的干警制止。被害人于×被打造成面部受伤,鼻子流血,当日下午14时许,到监区内医院就诊,诊断为:鼻部中段向左侧畸形,11月5日经监狱医院X光诊断为鼻骨骨折。2015年11月18日,经辽阳襄平法医司法鉴定所法医鉴定:被害人于×身体损伤程度为轻伤二级。被告人张××、杜×、杨2某共同赔偿被害人于×人民币7000元,被害人于×对被告人的行为表示谅解。","qas":[{"question":"被告人张××、杜×、杨2某的身份?","is_impossible":"false","id":"clean_result3.json_13598_001","answers":[{"answer_start":21,"text":"辽宁省辽阳第一监狱五监区服刑人员"}]},{"question":"2015年11月3日13时许,被告人杨2某与六监区送料员于×因什么发生争执?","is_impossible":"false","id":"clean_result3.json_13598_002","answers":[{"answer_start":117,"text":"送料问题"}]},{"question":"被告人张××、杜×、杨2某上前分别对被害人于×的哪些部位进行殴打?","is_impossible":"false","id":"clean_result3.json_13598_003","answers":[{"answer_start":186,"text":"面部、头部及腹部"}]},{"question":"被害人于×11月5日经监狱医院X光诊断后的诊断结果为?","is_impossible":"false","id":"clean_result3.json_13598_004","answers":[{"answer_start":275,"text":"鼻骨骨折"}]},{"question":"被害人于×对被告人的行为如何表示?","is_impossible":"false","id":"clean_result3.json_13598_005","answers":[{"answer_start":371,"text":"谅解"}]}]}]
经验证,使用基于BERT的阅读理解模型,测试结果得到的准确率为80.54%,而采用本实施例的方法,测试得到的准确率为81.69%,事实证明本实施例提供的方法所训练的阅读理解模型效果好于基于bert的阅读理解模型。

Claims (8)

1.一种针对拒答问题的阅读理解模型的自训练方法,其特征在于,包括如下步骤:
S1.构建针对拒答问题的机器阅读理解模型,包括文本编码模块和答案预测模块;
S2.将文本及问题输入所述的文本编码模块进行编码,然后输入至答案预测模块进行处理;以最小化训练损失函数为目标训练调整所述的机器阅读理解模型的参数,得到初始机器阅读理解模型;
S3.对初始机器阅读理解模型使用自训练方法在无标签数据集上迭代训练得到理想机器阅读理解模型。
2.根据权利要求1所述的针对拒答问题的阅读理解模型的自训练方法,其特征在于,所述的将文本及问题输入所述的文本编码模块进行编码实现步骤如下:
S21.选取预设数目的标签样本,作为标签训练集;
S22.将标签训练集中的问题和文档数据进行拼接,形成“问题-文档”文本数据,并将其作为分词器tokenizer的输入得到文本令牌序列;
S23.使用BERT预训练模型对所述文本令牌序列进行处理,得到文本数据的上下文本表示向量x∈Rb×c×d,其中b为输入的文本数据的数量,c为文本的长度,d为编码的维度。
3.根据权利要求2所述的针对拒答问题的阅读理解模型的自训练方法,其特征在于,依据BERT预训练模型的设计,所述的文本令牌序列的第一个值为[CLS]标记值,使用上下文表示向量中[CLS]标记值所对应的表示向量h[cls]∈Rb×d用作后续的答案预测模块的输入,其中b为输入文本数据的数量,d为编码的维度。
4.根据权利要求1所述的针对拒答问题的阅读理解模型的自训练方法,其特征在于,所述的答案预测模块处理方法实现如下:
S24.将经过文本编码模块得到的[CLS]标记值对应的表示向量h[cls]使用dropout进行过拟合处理之后作为分类器的输入,得到最终的答案概率记为logitcls
S25.以交叉熵损失函数为目标,训练调整机器阅读理解模型的参数,得到初始机器阅读理解模型;
所述交叉熵损失函数
Figure FDA0003498856200000011
的计算公式为:
Figure FDA0003498856200000012
其中
Figure FDA0003498856200000013
为所述机器阅读理解模型预测输出的答案概率logitcls,yi为真实答案表示问题是可回答或者不可回答的;N为标签样本的数量;
S26.利用预设评价函数和验证标签数据集,对训练后的初始机器阅读理解模型输出答***性进行评价;
所述的预设评价函数采用准确率评估指标,其计算公式为:
准确率
Figure FDA0003498856200000021
其中f(xi)为模型预测标签,yi为真实标签,I函数为指示函数,当输入为True,输出为1,输入为False,输出为0;
S27.经过预设次数的前述评价后,判断得到评价指标是否有提升,如果没有提升,则停止对所述机器阅读理解模型的训练,得到用于自训练的初始机器阅读理解模型。
5.根据权利要求4所述的针对拒答问题的阅读理解模型的自训练方法,其特征在于,步骤S24中所述的分类器为线性回归分类器,函数计算公式为:
y=β01x
其中,x为模型的预测值,y为真实标签值;β0和β1为模型训练学习的参数。
6.根据权利要求1所述的针对拒答问题的阅读理解模型的自训练方法,其特征在于,所述的对初始机器阅读理解模型使用自训练方法在无标签数据集上迭代训练得到理想机器阅读理解模型实现方法如下:
S31.收集用于自训练的无标签数据样本;使用训练的标签数据集打乱序列并去除标签项,构成无标签数据样本集样本;
S32.将所述的无标签数据样本集输入所述的初始阅读理解模型得到预测值,将所述的预测值通过软标签方法得到用于自训练的伪标签,从而构建用于自训练的伪标签样本集;
S33.将上述伪标签样本训练集输入前一轮迭代得到的模型进行训练,以相对熵损失函数为目标,调整前一轮迭代得到模型的参数,得到新一轮的机器阅读理解模型;
其中,所述相对熵损失函数的计算公式如下:
Figure FDA0003498856200000022
其中qij为数据集中的伪标签,pij为模型的预测值;
S34.利用预设评价函数和验证标签样本数据,对上述机器阅读理解模型答***率进行评价;
所述的预设评价函数采用准确率评估指标,其计算公式为:
准确率
Figure FDA0003498856200000031
其中f(xi)为模型预测标签,yi为真实标签,I函数为指示函数,当输入为True,输出为1,输入为False,输出为0;
S35.经过预设次数的评价后,得到准确率最高阅读理解模型为理想阅读理解模型。
7.根据权利要求所述的针对拒答问题的阅读理解模型的自训练方法,其特征在于,步骤S32中所述的软标签方法通过增强高置信度预测,同时通过对当前预测进行平方化和归一化来降级低置信度预测,从而得到可用于自训练的伪标签,其计算公式为:
Figure FDA0003498856200000032
其中,qij表示经过软标签方法得到的伪标签,其通过机器阅读理解模型训练的分类器应用于每个文本的[CLS]标记值所对应的上下文表示向量得到;
pij=p(cj|h[CLS])
其中cj表示真实答案的分类:是或否;h[cls]表示输入文档中[CLS]标记值所对应的上下文表示向量。
8.根据权利要求6所述的针对拒答问题的阅读理解模型的自训练方法,其特征在于,所述的软标签方法也可以用硬标签方法替代,硬标签方法将超过阈值的高置信度预测转换为独热标签,即qij=I(pij>阈值),其中I为指标函数,当输入为True,输出为1,输入为False,输出为0。
CN202210121915.2A 2022-02-09 2022-02-09 一种针对拒答问题的机器阅读理解模型的自训练方法 Pending CN114461802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210121915.2A CN114461802A (zh) 2022-02-09 2022-02-09 一种针对拒答问题的机器阅读理解模型的自训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210121915.2A CN114461802A (zh) 2022-02-09 2022-02-09 一种针对拒答问题的机器阅读理解模型的自训练方法

Publications (1)

Publication Number Publication Date
CN114461802A true CN114461802A (zh) 2022-05-10

Family

ID=81413740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210121915.2A Pending CN114461802A (zh) 2022-02-09 2022-02-09 一种针对拒答问题的机器阅读理解模型的自训练方法

Country Status (1)

Country Link
CN (1) CN114461802A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115827879A (zh) * 2023-02-15 2023-03-21 山东山大鸥玛软件股份有限公司 基于样本增强和自训练的低资源文本智能评阅方法和装置
CN116663679A (zh) * 2023-07-25 2023-08-29 南栖仙策(南京)高新技术有限公司 一种语言模型训练方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN111401426A (zh) * 2020-03-11 2020-07-10 西北工业大学 基于伪标签学习的小样本高光谱图像分类方法
CN113378632A (zh) * 2021-04-28 2021-09-10 南京大学 一种基于伪标签优化的无监督域适应行人重识别算法
CN113918681A (zh) * 2021-10-15 2022-01-11 北京明略软件***有限公司 基于片段抽取的阅读理解方法、***、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN111401426A (zh) * 2020-03-11 2020-07-10 西北工业大学 基于伪标签学习的小样本高光谱图像分类方法
CN113378632A (zh) * 2021-04-28 2021-09-10 南京大学 一种基于伪标签优化的无监督域适应行人重识别算法
CN113918681A (zh) * 2021-10-15 2022-01-11 北京明略软件***有限公司 基于片段抽取的阅读理解方法、***、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
欧阳建权: "Improving Machine Reading Comprehension with Multi-TaskLearning and Self-Training", MATHEMATICS, pages 2 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115827879A (zh) * 2023-02-15 2023-03-21 山东山大鸥玛软件股份有限公司 基于样本增强和自训练的低资源文本智能评阅方法和装置
CN115827879B (zh) * 2023-02-15 2023-05-26 山东山大鸥玛软件股份有限公司 基于样本增强和自训练的低资源文本智能评阅方法和装置
CN116663679A (zh) * 2023-07-25 2023-08-29 南栖仙策(南京)高新技术有限公司 一种语言模型训练方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
Adoma et al. Comparative analyses of bert, roberta, distilbert, and xlnet for text-based emotion recognition
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN112733533B (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN114461802A (zh) 一种针对拒答问题的机器阅读理解模型的自训练方法
CN110717843A (zh) 一种可复用的法条推荐框架
CN110909529B (zh) 一种公司形象提升***的用户情感分析和预判***
CN114781392A (zh) 一种基于bert改进模型的文本情感分析方法
Zhang et al. A hybrid text normalization system using multi-head self-attention for mandarin
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
Shen et al. Comparison of text sentiment analysis based on bert and word2vec
CN114153973A (zh) 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN116432752B (zh) 一种隐式篇章关系识别模型的构建方法及其应用
CN111695335A (zh) 一种智能面试方法、装置及终端设备
CN115062104A (zh) 融合知识提示的法律文本小样本命名实体识别方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
KR20230171234A (ko) 사용자 참여 기반의 질의응답 서비스 제공방법 및 이를 위한 장치
CN114582448A (zh) 基于预训练语言模型的疫情病例信息抽取框架构建方法
Zhou et al. Emotion classification by jointly learning to lexiconize and classify
Hua et al. A character-level method for text classification
CN116796740A (zh) 一种基于TextCNN-Bert融合模型算法的不良信息识别方法
CN114841148A (zh) 文本识别模型训练方法、模型训练装置、电子设备
CN113190659B (zh) 基于多任务联合训练的文言文机器阅读理解方法
CN115309898A (zh) 基于知识增强bert的字粒度中文语义近似对抗样本生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination