CN115827879B - 基于样本增强和自训练的低资源文本智能评阅方法和装置 - Google Patents
基于样本增强和自训练的低资源文本智能评阅方法和装置 Download PDFInfo
- Publication number
- CN115827879B CN115827879B CN202310113302.9A CN202310113302A CN115827879B CN 115827879 B CN115827879 B CN 115827879B CN 202310113302 A CN202310113302 A CN 202310113302A CN 115827879 B CN115827879 B CN 115827879B
- Authority
- CN
- China
- Prior art keywords
- sample
- review
- text
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012552 review Methods 0.000 title claims abstract description 160
- 238000012549 training Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 23
- 238000010276 construction Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 238000013210 evaluation model Methods 0.000 claims description 10
- 239000003550 marker Substances 0.000 claims description 9
- 230000007935 neutral effect Effects 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 230000008094 contradictory effect Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 14
- 238000013519 translation Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- PUZPDOWCWNUUKD-UHFFFAOYSA-M sodium fluoride Chemical compound [F-].[Na+] PUZPDOWCWNUUKD-UHFFFAOYSA-M 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
基于样本增强和自训练的低资源文本智能评阅方法和装置,属于自然语言处理的技术领域,包括:样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性;评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练。本发明能更好适合于评阅样本数量有限的情况,提升了数据增强效果和模型的鲁棒性;能增强评阅模型在训练数据中存在噪音样本和简单样本时的性能;能够提升伪标记的准确率。
Description
技术领域
本发明公开基于样本增强和自训练的低资源文本智能评阅方法和装置,属于自然语言处理的技术领域。
背景技术
文本智能评阅是人工智能和自然语言处理研究领域的重要问题,是指对于给定知识点的参***文本、若干学生答案文本以及预先定义的分数段类型,采用神经网络模型对学生答案所属分数类型进行判定。由于专业领域文本内容需要专家评阅,获取标记数据成本高昂,导致只有极少量样本可用的低资源情况。智能评阅能够降低人工评阅成本,去除个体偏见,具有重要实用价值。
现有文本理解技术主要采用深度学习,依赖大量样本以监督学习方式训练模型,较少的样本则会严重影响模型性能。针对样本数量少的情况,相关工作通常采用数据增强技术来增强初始少量样本的信息量。
例如中国专利文献CN115048940A公开基于实体词属性特征和回译的中文金融文本数据增强方法,其中使用“回译”和专业词汇替换对文本进行增强。但是“回译”数据增强技术受限于翻译模型的翻译质量,尤其对于专业文本的“回译”增强效果不佳。对于文本对形式的专业领域评阅样本,“回译”并不能有效增强文本对的交互信息,仅可增强单文本的语义信息。
另外,基于初始少量样本并引入大量无标记数据进行模型自训练也是突破极少样本限制进而提升模型性能的有效方式,例如中国专利文献CN114357153A公开一种文本分类模型训练方法、装置、文本分类方法及装置,其中利用初始少量样本训练模型后预测无标记数据的伪标记,并对大量伪样本进行监督学习以增强模型性能。自训练技术利用现有模型对无标记数据标注伪标记后扩充到原有训练集中进行训练,故伪标记的准确性对后续自训练模型的性能影响较大。自训练技术中标注伪标记的策略需要被精心设计,以缓解可能存在的错误累积问题。
综上,在现有技术中,怎样在低资源专业文本智能评阅中摆脱样本数量受限成为新的技术突破思路。
发明内容
本发明公开一种基于样本增强和自训练的低资源文本智能评阅方法
本发明还公开一种实现上述评阅方法的装置。
本发明的技术方案如下:
基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,包括:
(1)样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;
(2)样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性,根据困难性为样本施加不同优化权重,以降低简单样本和噪音样本的优化力度,提升困难样本的优化力度;
(3)评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练。
根据本发明优选的,所述步骤(1)所述样本增强的具体方法包括,对输入的少量评阅样本进行增强:
初始少量评阅样本包括多个知识点上的若干文本推理样本;
每个知识点上的样本表示为的集合,其中/>为包含代表该知识点的参***文本/>和学生答案文本/>的文本对形式,推理标记/>表示文本对的蕴含和非蕴含两种推理关系;其中,蕴含关系表示学生答案文本/>在参***文本/>所关联的知识点上与参***文本/>语义一致,非蕴含关系则表示不一致;
(1-1)利用少量评阅样本构建NLI任务的蕴含、矛盾、中立三分类样本来进行样本增强,所述NLI任务是指类似自然语言推理任务,NLI是英文Natural Language Inference的缩写,NLI任务识别输入的<前提,假设>文本对的推理关系属于蕴含、矛盾、中立中的一种;本发明所述样本增强方法,使得不同知识点间以及相同知识点内的学生答案文本的语义也可以得到交互,可用于在评阅模型微调及自训练时对输入的训练用评阅样本进行增强,形式如表1所示:
(1-1-1)构造蕴含样本,使得同知识点中两个语义一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参***文本和呈蕴含关系的学生答案文本组成的文本对/>;同参***文本/>呈蕴含关系的任意两个学生答案文本组成的文本对/>,其标签/>,表蕴含;
(1-1-2)构造矛盾样本,使得同知识点中两个语义不一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参***文本和呈非蕴含关系的学生答案文本组成的文本对/>;同参***文本/>分别呈蕴含和非蕴含关系的任意两个学生答案文本组成的文本对/>,其标签/>,表矛盾;
(1-1-3)构造中立样本,使得不同知识点(文本关注点不同)中的单文本的语义信息得到交互,从不同知识点采样进行构造,包括某一个知识点的参***文本或学生答案文本/>,和另一知识点的学生答案文本/>的交互文本对/>或/>,其标签/>,表中立;
(1-2)评阅模型对参***文本和学生答案文本/>位置调换的文本对样本进行预测时,其预测结果不变,为保证模型鲁棒性,将包含参***文本/>的文本对进行翻转增强,其标签不变;定义蕴含、矛盾、中立三类增强样本的构造比例分别为/>,许可一般情况/>,/>,/>,且/>,优选的,/>、/>、/>,具体比例见表1,为保证增强前的少量样本中的信息被充分包含,其中/>与/>不使用随机采样方式构造,而是直接使用增强前的全部样本,占比/>,故增强后数据集大小是增强前的/>倍:
表1.样本增强构造方式及比例
根据本发明优选的,所述步骤(2)中样本困难性评价的具体方法,包括:
评阅模型输入样本进行监督学习,由于数据集中可能存在噪音样本且样本的推理难度存在差异,对此,根据评阅模型微调时计算样本优化的梯度大小来评价样本困难性,并设计难度敏感(Difficulty Sensitive)损失通过在微调时对样本产生的交叉熵损失进行加权,来提高对困难样本的优化力度,降低模型对简单样本以及噪音样本的优化力度;
为了使评阅模型反向传播的梯度能有效反映样本困难性;
由于先用交叉熵损失函数训练使得评阅模型可以较好拟合简单样本,反向传播时简单样本产生的梯度较小,困难样本产生梯度较大,噪音样本产生梯度最大,综上,利用样本困难性量化值/>值大小反应样本难易,/>越大样本越困难,且/>值越靠近1的有较大概率为噪音样本;/>
其中,加权函数如附图1所示,横坐标为/>值,纵坐标为正态分布函数/>的值,由图像可知/>值接近0和1时函数值/>较小;根据困难性量化值/>利用函数/>对样本的交叉熵损失进行加权,得到如公式(IV)所示难度敏感损失函数/>,达到重点优化困难样本,降低简单样本和噪音样本优化力度的目的;样本困难性评价利用/>和/>两阶段损失函数训练评阅模型,在下述评阅模型微调及自训练中用于训练评阅模型。
根据本发明优选的,所述步骤(3)评阅模型微调及自训练中:
微调是指对评阅模型参数进行微调,将评阅样本中的文本对输入给所述评阅模型,利用评阅模型的输出和样本标签计算损失函数值,利用损失函数值计算评阅模型参数的梯度,采用梯度下降的方式对参数进行微调;
在专业领域考试中,易获取大量未评阅学生答案文本及对应参***文本作为无标记数据,在评阅模型微调后引入大量无标记数据参与评阅模型自训练。
根据本发明优选的,所述评阅模型微调涉及的评阅样本为样本增强后的评阅样本,损失函数为样本困难性评价中的两阶段损失函数;
采用验证集早停机制结束模型微调,早停轮数设置为5;
评阅模型采用基于BERT(BidirectionalEncoder Representations fromTransformers)编码的文本对分类模型Bert-Softmax,即评阅模型为Bert-Softmax评阅模型;BERT编码器在大规模通用语料库上进行掩码语言模型(Mask Language Model, MLM)和下一句预测(NextSentence Prediction, NSP)任务的预训练,能有效编码文本对语义应用于专业文本智能评阅任务;将文本对以分类模型Bert-Softmax所需格式输入,选择/>位置的输出向量/>作为文本对语义交互表示向量,输入多层感知机。
根据本发明优选的,所述感知机层数设置为2,如公式(V)和(VI)所示,感知机第一层权重及偏置项为和/>、经/>非线性激活输出表示向量/>,第二层权重及偏置项为和/>,输出表示向量/>,/>后经过/>分类器得到标签集合/>上的预测概率分布/>,预测类别为/>;
根据本发明优选的,所述步骤(3)评阅模型微调及自训练的具体方法,
在专家标注的初始样本集上,为其中每个知识点样本集/>都引入同批次考试的大量未评阅学生答案文本作为同源的无标记数据,表示为文本对/>的集合/>,/>为对应知识点的参***文本,/>为对应知识点的无标记学生答案文本;采用投票方式获取高置信伪样本,并将所述伪样本加入到评阅模型自训练过程中;
(3-2)隐式特征计算:对于初始样本集中一个知识点的样本集/>,与对应知识点的无标记数据/>中的无标记学生答案文本/>组成文本库/>;对学生答案文本/>,计算学生答案文本/>的TF-IDF向量,使用主成分分析法(PrincipalComponent Analysis, PCA)分析TF-IDF向量的主要特征并进行降维,得到学生答案文本/>的隐式特征向量为/>,优选的,隐式向量特征维度选取为32;
其中,越大,无标记数据/>的伪标记/>越置信;从/>中根据/>值从大到小不放回采样伪样本,采样和原/>相同的数据量,扩充至/>中得到样本集/>,对每个知识点对应样本集经过上述扩充过程后,原样本集/>扩充为新样本集/>;
一种实现上述评阅方法的装置,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。
本发明的技术优势在于:
1)本发明所提出的评阅样本增强方法,能够更好地增加文本对中参***文本和学生答案文本或学生答案文本之间的交互信息量,相较于现有工作基于单文本的语义增强技术,能更好适合于评阅样本数量有限的情况,提升了样本增强效果和模型的鲁棒性。
2)本发明所提出的样本困难性评价方法,能够针对性地提高困难样本的优化力度,降低简单样本和噪音样本的优化力度,相较于基于交叉熵损失函数的监督训练,能增强评阅模型在训练数据中存在噪音样本和简单样本时的性能。
3)本发明所提出的评阅模型微调及自训练,能够有效提升评阅模型在少量样本情况下的评阅性能。其中提出了基于投票的伪标记预测方法以及基于置信度的伪样本采样方法,相比于使用模型单次预测结果作为伪标记以及单次预测概率作为伪标记置信度的方法,能够提升伪标记的准确率,缓解自训练过程中基于伪样本进行监督学习时存在的错误累积问题。
附图说明
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例1、
基于样本增强和自训练的低资源文本智能评阅方法,包括:
(1)样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;
(2)样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性,根据困难性为样本施加不同优化权重,以降低简单样本和噪音样本的优化力度,提升困难样本的优化力度;
(3)评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练。
所述步骤(1)所述样本增强的具体方法包括,对输入的少量评阅样本进行增强:
初始少量评阅样本包括多个知识点上的若干文本推理样本;
每个知识点上的样本表示为的集合,其中/>为包含代表该知识点的参***文本/>和学生答案文本/>的文本对形式,推理标记/>表示文本对的蕴含和非蕴含两种推理关系;其中,蕴含关系表示学生答案文本/>在参***文本/>所关联的知识点上与参***文本/>语义一致,非蕴含关系则表示不一致;
(1-1)利用少量评阅样本构建NLI任务的蕴含、矛盾、中立三分类样本来进行样本增强,所述NLI任务是指类似自然语言推理任务,NLI是英文Natural Language Inference的缩写,NLI任务识别输入的<前提,假设>文本对的推理关系属于蕴含、矛盾、中立中的一种;本发明所述样本增强方法,使得不同知识点间以及相同知识点内的学生答案文本的语义也可以得到交互,可用于在评阅模型微调及自训练时对输入的训练用评阅样本进行增强,形式如表1所示:
(1-1-1)构造蕴含样本,使得同知识点中两个语义一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参***文本和呈蕴含关系的学生答案文本组成的文本对/>;同参***文本/>呈蕴含关系的任意两个学生答案文本组成的文本对/>,其标签/>,表蕴含;
(1-1-2)构造矛盾样本,使得同知识点中两个语义不一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参***文本和呈非蕴含关系的学生答案文本组成的文本对/>;同参***文本/>分别呈蕴含和非蕴含关系的任意两个学生答案文本组成的文本对/>,其标签/>,表矛盾;
(1-1-3)构造中立样本,使得不同知识点(文本关注点不同)中的单文本的语义信息得到交互,从不同知识点采样进行构造,包括某一个知识点的参***文本或学生答案文本/>,和另一知识点的学生答案文本/>的交互文本对/>,其标签/>,表中立;
(1-2)评阅模型对参***文本和学生答案文本/>位置调换的文本对样本进行预测时,其预测结果不变,为保证模型鲁棒性,将包含参***文本/>的文本对进行翻转增强,其标签不变;定义蕴含、矛盾、中立三类增强样本的构造比例分别为/>,许可一般情况/>,优选的,/>,具体比例见表1,为保证增强前的少量样本中的信息被充分包含,其中/>不使用随机采样方式构造,而是直接使用增强前的全部样本,占比/>,故增强后数据集大小是增强前的倍:
表1.样本增强构造方式及比例
所述步骤(2)中样本困难性评价的具体方法,包括:
评阅模型输入样本进行监督学习,由于数据集中可能存在噪音样本且样本的推理难度存在差异,对此,根据评阅模型微调时计算样本优化的梯度大小来评价样本困难性,并设计难度敏感(Difficulty Sensitive)损失 通过在微调时对样本产生的交叉熵损失进行加权,来提高对困难样本的优化力度,降低模型对简单样本以及噪音样本的优化力度;
为了使评阅模型反向传播的梯度能有效反映样本困难性;
由于先用交叉熵损失函数训练使得评阅模型可以较好拟合简单样本,反向传播时简单样本产生的梯度较小,困难样本产生梯度较大,噪音样本产生梯度最大,综上,利用样本困难性量化值/>值大小反应样本难易,/>越大样本越困难,且/>值越靠近1的有较大概率为噪音样本;
其中,加权函数如附图1所示,横坐标为/>值,纵坐标为正态分布函数/>的值,由图像可知/>值接近0和1时函数值/>较小;根据困难性量化值/>,利用函数/>对样本的交叉熵损失进行加权,得到如公式(IV)所示难度敏感损失函数/>,达到重点优化困难样本,降低简单样本和噪音样本优化力度的目的;样本困难性评价利用/>和/>两阶段损失函数训练评阅模型,在下述评阅模型微调及自训练中用于训练评阅模型。
所述步骤(3)评阅模型微调及自训练中:
微调是指对评阅模型参数进行微调,将评阅样本中的文本对输入给所述评阅模型,利用评阅模型的输出和样本标签计算损失函数值,利用损失函数值计算评阅模型参数的梯度,采用梯度下降的方式对参数进行微调;
在专业领域考试中,易获取大量未评阅学生答案文本及对应参***文本作为无标记数据,在评阅模型微调后引入大量无标记数据参与评阅模型自训练。
实施例2、
如实施例1所述基于样本增强和自训练的低资源文本智能评阅方法,所述评阅模型微调涉及的评阅样本为样本增强后的评阅样本,损失函数为样本困难性评价中的两阶段损失函数;
采用验证集早停机制结束模型微调,早停轮数设置为5;
评阅模型采用基于BERT(BidirectionalEncoder Representations fromTransformers)编码的文本对分类模型Bert-Softmax,即评阅模型为Bert-Softmax评阅模型;BERT编码器在大规模通用语料库上进行掩码语言模型(Mask Language Model, MLM)和下一句预测(NextSentence Prediction, NSP)任务的预训练,能有效编码文本对语义应用于专业文本智能评阅任务;将文本对以分类模型Bert-Softmax所需格式输入,选择/>位置的输出向量/>作为文本对语义交互表示向量,输入多层感知机。
所述感知机层数设置为2,如公式(V)和(VI)所示,感知机第一层权重及偏置项为和/>、经/>非线性激活输出表示向量/>,第二层权重及偏置项为/>,输出表示向量/>,/>后经过/>分类器得到标签集合/>上的预测概率分布/>,预测类别为/>;
实施例3、
如实施例1所述基于样本增强和自训练的低资源文本智能评阅方法,所述步骤(3)评阅模型微调及自训练的具体方法,
(3-2)隐式特征计算:对于初始样本集中一个知识点的样本集/>,与对应知识点的无标记数据/>中的无标记学生答案文本/>组成文本库/>;对学生答案文本/>,计算学生答案文本/>的TF-IDF向量,使用主成分分析法(PrincipalComponent Analysis, PCA)分析TF-IDF向量的主要特征并进行降维,得到学生答案文本的隐式特征向量为/>,优选的,隐式向量特征维度选取为32;
其中,越大,无标记数据/>的伪标记/>越置信;从/>中根据/>值从大到小不放回采样伪样本,采样和原/>相同的数据量,扩充至/>中得到样本集/>,对每个知识点对应样本集经过上述扩充过程后,原样本集/>扩充为新样本集/>;
重复步骤(3-1)至步骤(3-3)共轮,每轮训练用样本量扩充为原先的两倍,即,最终通过上述自训练过程得到评阅模型/>,优选的,自训练轮数/>设为3,评阅模型三轮自训练过程如附图2所示。模型/>均为Bert-Softmax评阅模型的多次模型参数迭代版本。
实施例4、
一种实现如实施例1、2、3所述评阅方法的装置,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。
Claims (8)
1.基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,包括:
(1)样本增强:用于完成对输入的评阅样本的增强任务,得到增强后的评阅样本;
(2)样本困难性评价:用于在评阅模型微调和自训练过程中计算每个样本的困难性;
(3)评阅模型微调及自训练:用于基于样本增强后的评阅样本对评阅模型进行微调训练;然后引入大量同源无标记数据进行伪标记预测并扩充到原训练集中,对评阅模型进行自训练;
所述步骤(1)所述样本增强的具体方法包括,对输入的少量评阅样本进行增强:
初始少量评阅样本包括多个知识点上的若干文本推理样本;
每个知识点上的样本表示为的集合,其中/>为包含代表该知识点的参***文本/>和学生答案文本/>的文本对形式,推理标记/>表示文本对的蕴含和非蕴含两种推理关系;其中,蕴含关系表示学生答案文本/>在参***文本/>所关联的知识点上与参***文本/>语义一致,非蕴含关系则表示不一致;
(1-1)利用少量评阅样本构建NLI任务的蕴含、矛盾、中立三分类样本来进行样本增强:
(1-1-1)构造蕴含样本,使得同知识点中两个语义一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参***文本和呈蕴含关系的学生答案文本组成的文本对/>;同参***文本/>呈蕴含关系的任意两个学生答案文本组成的文本对/>,其标签/>,表蕴含;
(1-1-2)构造矛盾样本,使得同知识点中两个语义不一致的单文本得到信息交互,从单个知识点的样本中采样构造,包含两类构造方式:参***文本和呈非蕴含关系的学生答案文本组成的文本对/>;同参***文本/>分别呈蕴含和非蕴含关系的任意两个学生答案文本组成的文本对/>,其标签/>,表矛盾;
(1-1-3)构造中立样本,使得不同知识点,即不同文本关注点,其中的单文本的语义信息得到交互,从不同知识点采样进行构造,包括某一个知识点的参***文本或学生答案文本/>,和另一知识点的学生答案文本/>的交互文本对/>,其标签/>,表中立;
(1-2)评阅模型对参***文本和学生答案文本/>位置调换的文本对样本进行预测时,其预测结果不变,将包含参***文本/>的文本对进行翻转增强,其标签不变;定义蕴含、矛盾、中立三类增强样本的构造比例分别为/>,许可一般情况,且/>;
所述步骤(2)中样本困难性评价的具体方法,包括:
公式(III)所示正态分布函数为加权函数:
所述步骤(3)评阅模型微调及自训练的具体方法,
(3-2)隐式特征计算:对于初始样本集中一个知识点的样本集/>,与对应知识点的无标记数据/>中的无标记学生答案文本/>组成文本库/>;对学生答案文本/>,计算学生答案文本/>的TF-IDF向量,使用主成分分析法分析TF-IDF向量的主要特征并进行降维,得到学生答案文本/>的隐式特征向量为/>;
其中,越大,无标记数据/>的伪标记/>越置信;从/>中根据/>值从大到小不放回采样伪样本,采样和原/>相同的数据量,扩充至/>中得到样本集/>,对每个知识点对应样本集经过上述扩充过程后,原样本集/>扩充为新样本集/>;
2.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,所述步骤(3)评阅模型微调及自训练中:
微调是指对评阅模型参数进行微调,将评阅样本中的文本对输入给所述评阅模型,利用评阅模型的输出和样本标签计算损失函数值,利用损失函数值计算评阅模型参数的梯度,采用梯度下降的方式对参数进行微调;
在评阅模型微调后引入无标记数据参与评阅模型自训练。
7.根据权利要求1所述的基于样本增强和自训练的低资源文本智能评阅方法,其特征在于,在步骤(3-2)中,隐式向量特征维度选取为32。
8.一种实现如权利要求1-7任意一项所述评阅方法的装置,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7记载的任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310113302.9A CN115827879B (zh) | 2023-02-15 | 2023-02-15 | 基于样本增强和自训练的低资源文本智能评阅方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310113302.9A CN115827879B (zh) | 2023-02-15 | 2023-02-15 | 基于样本增强和自训练的低资源文本智能评阅方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115827879A CN115827879A (zh) | 2023-03-21 |
CN115827879B true CN115827879B (zh) | 2023-05-26 |
Family
ID=85521381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310113302.9A Active CN115827879B (zh) | 2023-02-15 | 2023-02-15 | 基于样本增强和自训练的低资源文本智能评阅方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115827879B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932039A (zh) * | 2024-03-21 | 2024-04-26 | 山东大学 | 基于启发式问答推理的可解释文本评阅方法和*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360537A (zh) * | 2021-12-27 | 2022-04-15 | 科大讯飞股份有限公司 | 口语问答的评分方法、训练方法、计算机设备及存储介质 |
CN114461802A (zh) * | 2022-02-09 | 2022-05-10 | 湘潭大学 | 一种针对拒答问题的机器阅读理解模型的自训练方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156766B (zh) * | 2015-03-25 | 2020-02-18 | 阿里巴巴集团控股有限公司 | 文本行分类器的生成方法及装置 |
CN109800294B (zh) * | 2019-01-08 | 2020-10-13 | 中国科学院自动化研究所 | 基于物理环境博弈的自主进化智能对话方法、***、装置 |
CN112199472B (zh) * | 2020-10-12 | 2021-07-20 | 山东山大鸥玛软件股份有限公司 | 一种基于迁移学习的主观题智能评卷方法、***及设备 |
GB2608344A (en) * | 2021-01-12 | 2022-12-28 | Zhejiang Lab | Domain-invariant feature-based meta-knowledge fine-tuning method and platform |
US20220321612A1 (en) * | 2021-04-02 | 2022-10-06 | Whatsapp Llc | Enhanced text and voice communications |
CN113344144A (zh) * | 2021-07-29 | 2021-09-03 | 中国人民解放军国防科技大学 | 半监督的小样本类别增量学习方法、装置及分类识别方法 |
CN114969260A (zh) * | 2022-05-30 | 2022-08-30 | 桂林旅游学院 | 一种联合试题分类与评分学习的主观题自动评阅深度学习方法 |
CN115345243A (zh) * | 2022-08-18 | 2022-11-15 | 华中师范大学 | 一种文本分类方法及*** |
-
2023
- 2023-02-15 CN CN202310113302.9A patent/CN115827879B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360537A (zh) * | 2021-12-27 | 2022-04-15 | 科大讯飞股份有限公司 | 口语问答的评分方法、训练方法、计算机设备及存储介质 |
CN114461802A (zh) * | 2022-02-09 | 2022-05-10 | 湘潭大学 | 一种针对拒答问题的机器阅读理解模型的自训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115827879A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883714B (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
US11900250B2 (en) | Deep learning model for learning program embeddings | |
CN115827879B (zh) | 基于样本增强和自训练的低资源文本智能评阅方法和装置 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN116304748B (zh) | 一种文本相似度计算方法、***、设备及介质 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN115712740A (zh) | 多模态蕴含增强图像文本检索的方法和*** | |
CN116186237A (zh) | 一种基于事件因果推断的实体关系的联合抽取方法 | |
CN107944468A (zh) | 基于隐空间编码的零样本学习分类方法 | |
CN116579345B (zh) | 命名实体识别模型的训练方法、命名实体识别方法及装置 | |
CN112667819A (zh) | 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置 | |
CN114388108A (zh) | 一种基于多任务学习的用户反馈分析方法 | |
CN114942991B (zh) | 一种基于隐喻识别的情感分类模型构建方法 | |
CN114239575B (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN115496630A (zh) | 一种基于自然语言算法的专利撰写质量核检方法以及*** | |
Ji et al. | Blog text quality assessment using a 3D CNN-based statistical framework | |
CN113849637A (zh) | 一种低噪声干扰的有监督关系抽取方法及装置 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 | |
CN113505603A (zh) | 适用于司法考试主观题的多任务学习智能阅卷方法及装置 | |
CN113449517A (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN112200268A (zh) | 一种基于编码器-解码器框架的图像描述方法 | |
Singh et al. | Facial Emotion Detection Using CNN-Based Neural Network | |
CN113313693B (zh) | 一种基于神经网络算法的图片违规检测方法与终端 | |
Yan | RETRACTED ARTICLE: Speech network analysis and anomaly detection based on FSS model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |