CN114444488B - 一种少样本机器阅读理解方法、***、设备及存储介质 - Google Patents
一种少样本机器阅读理解方法、***、设备及存储介质 Download PDFInfo
- Publication number
- CN114444488B CN114444488B CN202210093014.7A CN202210093014A CN114444488B CN 114444488 B CN114444488 B CN 114444488B CN 202210093014 A CN202210093014 A CN 202210093014A CN 114444488 B CN114444488 B CN 114444488B
- Authority
- CN
- China
- Prior art keywords
- emb
- vector
- encoder
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种少样本机器阅读理解方法、***、设备及存储介质,提示模板的构建使得训练任务和预训练任务贴近,更好地挖掘了预训练语言模型的知识,减少了训练量,少样本场景下防止了过拟合,提示模板为训练任务提供了指导,在不同数据集上的迁移性更佳;本发明提供的方案更贴合真实场景中的少样本情况,能够更有效地利用现有的预训练语言模型,发掘其潜力,应用前景非常广阔。
Description
技术领域
本发明涉及自然语言生成技术领域,尤其涉及一种少样本机器阅读理解方法、***、设备及存储介质。
背景技术
机器阅读理解是近年来自然语言处理领域的热点之一。一方面,由于其多样和复杂性,阅读理解能力已经成为衡量计算机语言理解能力的一项重要指标。另一方面,阅读理解任务在工业界有众多的应用场景,比如智能搜索引擎、问答***、客服机器人等。机器阅读理解任务使机器通过阅读文章,针对给定的问题给出答案,完整的数据是“上下文-问题-答案”,而在真实的场景下,往往数据总量较少,而且人工标注数据需要耗费大量人力、物力,效率低下。因此,少样本场景下的机器阅读理解技术具有很高的研究价值。
现有的机器阅读理解技术多采用基于预训练语言模型直接进行微调的方法,然而在少样本场景下普遍存在着效果不佳、迁移性差的问题,这是由于预训练语言模型在预训练阶段的任务与微调阶段任务不匹配,从而无法充分利用预训练语言模型学到的知识。最近的一些方法希望通过改变预训练目标来解决这个问题,并且也取得了一些效果,然而针对阅读理解任务设计预训练任务这种思路存在着一些问题,比如需要用海量预训练数据来对模型进行训练,这需要很强的算力,从经济角度来看并不完美,使得这种方法的普适性降低。
发明内容
本发明的目的是提供一种少样本机器阅读理解方法、***、设备及存储介质,在提升少样本场景下机器阅读理解的回答质量的同时,无需消耗太多的资源。
本发明的目的是通过以下技术方案实现的:
一种少样本机器阅读理解方法,包括:
训练阶段,将包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本通过提示模板编码器,获得带有连续提示模板的输入数据;将所述输入数据输入至包含双向编码器与自回归解码器的双向自回归语言模型,通过所述双向编码器对所述输入数据进行编码,利用给定的期望输出的答案构造所述自回归解码器输入信息,通过自回归解码器的自注意力机制进行处理后,采用交互注意力机制与所述双向编码器的输出进行交互,获得解码向量;利用所述解码向量计算各个生成词的概率分布,并构建损失函数对所述提示模板编码器与双向自回归语言模型进行训练;
预测阶段,将给定的包含问题文本、带掩码的提示模板伪token和上下文文本的输入文本,依次通过提示模板编码器以及双向自回归语言模型,获得答案文本。
一种少样本机器阅读理解***,包括:提示模板编码器与双向自回归语言模型;其中:
训练阶段,将包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本通过提示模板编码器,获得带有连续提示模板的输入数据;将所述输入数据输入至包含双向编码器与自回归解码器的双向自回归语言模型,通过所述双向编码器对所述输入数据进行编码,利用给定的期望输出的答案构造所述自回归解码器输入信息,通过自回归解码器的自注意力机制进行处理后,采用交互注意力机制与所述双向编码器的输出进行交互,获得解码向量;利用所述解码向量计算各个生成词的概率分布,并构建损失函数对所述提示模板编码器与双向自回归语言模型进行训练;
预测阶段,将给定的包含问题文本、带掩码的提示模板伪token和上下文文本的输入文本,依次通过提示模板编码器以及双向自回归语言模型,获得答案文本。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,提示模板的构建使得训练任务和预训练任务贴近,更好地挖掘了预训练语言模型的知识,减少了训练量,少样本场景下防止了过拟合,提示模板为训练任务提供了指导,在不同数据集上的迁移性更佳;本发明提供的方案更贴合真实场景中的少样本情况,能够更有效地利用现有的预训练语言模型,发掘其潜力,应用前景非常广阔。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种少样本机器阅读理解方法的流程图;
图2为本发明实施例提供的一种少样本机器阅读理解***示意图;
图3为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
如背景技术所述,现有的机器阅读理解技术在少样本场景下普遍存在着效果不佳、迁移性差的问题,因此,本发明实施例提供一种少样本机器阅读理解方案,在提升少样本场景下机器阅读理解的回答质量的同时,不必消耗太多的资源。机器阅读理解通常被定义为一个三元组问题:(P,Q,A),P表示Passage即上下文,Q表示Question即问题,A表示Answer即答案,机器阅读理解任务可以表述为:通过阅读理解上下文P,回答问题Q,输出答案A,输出答案A可以从上下文中抽取也可以通过上下文推理得出。
下面对本发明所提供的少样本机器阅读理解方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
如图1所示,为一种少样本机器阅读理解方法的流程图,本发明中,通过提示模版编码器构建了带有连续提示模板的输入数据,结合双向自回归生成式预训练语言模型(即后文提及的双向自回归语言模型),生成提示模板中遮盖部分的内容作为回答,此为本发明的训练任务,该训练任务与双向自回归生成式预训练语言模型的还原损坏句子的预训练任务相接近,更好地挖掘预训练模型知识在少样本场景下能够更好地发挥预训练语言模型的作用。具体的:
训练阶段,将包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本通过提示模板编码器,获得带有连续提示模板的输入数据;将所述输入数据输入至包含双向编码器与自回归解码器的双向自回归语言模型,通过所述双向编码器对所述输入数据进行编码,利用给定的期望输出的答案构造所述自回归解码器输入信息,通过自回归解码器的自注意力机制进行处理后,采用交互注意力机制与所述双向编码器的输出进行交互,获得解码向量;利用所述解码向量计算各个生成词的概率分布,并构建损失函数对所述提示模板编码器与双向自回归语言模型进行训练;
预测阶段,将给定的包含问题文本、带掩码的提示模板伪token和上下文文本的输入文本,依次通过提示模板编码器以及双向自回归语言模型,获得答案文本。
为了便于理解,下面针对构建带有提示模板的输入、双向自回归语言模型、训练的损失函数以及预测流程做详细的介绍。
一、构建带有提示模板的输入数据。
Prompt(即提示模板)是近年来提出的一种用来辅助预训练语言模型进行下游任务训练的新的范式,能够充分挖掘并利用预训练语言模型的知识。在实际使用中,通过设计提示模板加入到预训练语言模型的输入中,再对模型进行特定数据集上的训练,可以得到比较好的效果。目前的提示模板设计常常采用手工设计,通常表示为一个自然语言句子,比如在情感分类任务中,输入一个句子,判断情感极性,提示模板可以设计为完形填空式的句子,例如:”<input sentence>,It’s__.”,将句子变为带有提示模板的输入,并让模型填补空缺处单词。但是手动设计提示模板费时费力,目前研究发现,提示模板并不一定需要由自然语言构成,也可以仅仅是一组词嵌入,就能发挥出提示模板的效果,这种提示模板被称为连续提示模板,因为它可以通过在连续嵌入空间中搜索得到,从而可以突破预训练语言模型的词表限制。为此,构建了提示模板编码器,来得到连续的提示模板。提示模板编码器由简单的LSTM模型或多层感知机构成,LSTM模型是一种RNN模型,常用于处理时间序列,可以解决长距离依赖问题,输入提示模板token的词嵌入,得到新的词嵌入,与预训练模型联合训练,从而能够使得学习到的提示模板词嵌入具有更好的连贯性,增强词嵌入之间的相互依赖关系,更符合自然语言特性。
基于上述原理介绍,通过提示模板编码器,构建带有连续提示模板的输入数据。
本发明实施例中,初始输入为问题文本与上下文文本,***带掩码的提示模板伪token后,构成的训练文本表示为:
Input=Question:xq;p1,…,pn:[mask];Context:xc
其中,Question表示问题,xq表示问题文本;p1,…,pn表示随机产生的提示模板伪token,n表示token的数目,token表示词标记;[mask]为掩码符号;Context表示上下文,xc表示上下文文本。
上述训练文本Input经过tokenizer得到全部的token,再输入至嵌入层,得到初始词嵌入向量Embraw:
Embraw=Embraw[0:s];Embraw[s:e];Embraw[e:]
其中,s表示伪token的起始位置,e表示伪token结束位置;Embraw[0:s]表示问题文本的初始词嵌入向量,Embraw[s:e]表示带掩码的提示模板伪token的初始词嵌入向量,Embraw[e:]表示上下文文本的初始词嵌入向量。
本发明实施例中,tokenizer为分词器,训练文本Input的三个部分都需要通过tokenizer获得相应的token,此部分操作为常规技术;一般来说,对应训练文本各部分的token是tokenizer依据预训练模型的词表产生的,提示模板伪token(p1,…,pn)是随机产生的,但是也需要在词表范围内,提示模板设计形式可参照常规技术;伪token数是固定的,tokenizer产生的总token与训练文本对齐。
然后,将带掩码的提示模板伪token的初始词嵌入向量Embraw[s:e]输入至提示模板编码器,获得新的词嵌入向量Embnew[s:e]:
Embnew[s:e]=P_Encoder(Embraw[s:e])
其中,P_Encoder表示提示模板编码器。
再利用新的词嵌入向量Embnew[s:e]替换初始词嵌入向量Embraw中的Embraw[s:e],获得的词嵌入向量Embnew即为获得带有连续提示模板的输入数据:
Embnew=Embraw[0:s];Embnew[s:e];Embraw[e:]。
二、双向自回归语言模型。
本发明实施例中,双向自回归语言模型使用BART模型。BART是一种预训练语言模型,结合双向和自回归Transformers对模型进行预训练。它是一个适用于序列到序列模型的去噪自编码器,可以将被破坏文档映射到原始文档。BART模型包括双向编码器和从左至右自回归解码器两部分,具备了文本生成和文本理解两方面的能力,尤其擅长处理文本生成任务。
1、双向编码器。
所述双向编码器由多层Transformer编码器结构堆叠而成,输入数据Embnew通过双向编码器,得到每个词的编码向量。
双向编码器在产生当前位置的编码结果时需要考虑当前位置前后两个方向的注意力,自注意力计算过程可以用公式表示为:
其中,Attention(*)表示计算得到的注意力向量,表示双向编码器中的Query矩阵,/>表示双向编码器中的Key矩阵,/>表示双向编码器中的Value矩阵;X表示数据在双向编码器中每层的隐向量,第一层使用的向量X即为获得带有连续提示模板的输入数据Embnew,dk表示向量X的维度。
双向编码器的编码过程表示为:
H=Encoder(Embnew)
其中,Encoder表示双向编码器,H表示编码结果(编码向量)。双向编码器前后两个方向的注意力传递都体现在式子上述式子中,其原理为常规技术,故不做赘述。
2、自回归解码器。
自回归解码器由多层Transformer解码器结构堆叠而成,与BART编码器通过交互注意力机制连接,也包含自己的自注意力机制。
交互注意力机制是将双向编码器得到的编码结果(即编码向量)H进行Key矩阵和Value矩阵的计算得到Key和Value,再传入自回归解码器进行交互。
Key矩阵和Value矩阵都是通过学习得到的,Key和Value是编码结果H的利用相关矩阵计算出的信息;自回归解码器当前层中,将前一层得到的向量通过自注意力机制得到的向量Y(自注意力机制与前述双向编码器介绍的方式相同)与Query矩阵进行交互,再计算交互注意力,可以表示为:
其中,WQ表示交互注意力中的Query矩阵,WK表示交互注意力中的Key矩阵,WV表示交互注意力中的Value矩阵;dk表示向量Y的维度。最后结合注意力交互结果,计算当前层最终输出向量,并传递至下一层,如果当前层是最后一层,则当前层输出向量即为自回归解码器输出的解码向量HD。
自回归解码器输出时采用自回归机制,自回归解码器会逐个输出每一位置的生成词,输出的上一位置生成词会作为当前位置的输入传入自回归解码器,再经过与上一位置同样的交互注意力机制以及其他层得到当前位置的生成词。
将自回归解码器的期望输出记为y,将y右移一位并在第一位补充一个开始符号<sos>成为y’,将y’对应的词嵌入向量作为自回归解码器的输入信息。具体的:
将期望输出y表示为:
y=Question:xq;p1,…,pn:ya
其中,Question表示问题,xq表示问题文本;p1,…,pn表示提示模板伪token,ya表示给定的期望输出的答案(它是已知信息)。
训练时,给定的期望输出的答案文本ya之前序列与对应位置的双向编码器输入一致,因此,将y右移一位并在第一位补充一个开始符号<sos>,则y’对应的词嵌入向量EmbD表示为:
EmbD=Emb<sos>;Embnew[0:sm];Embya
其中,Emb<sos>为开始符号<sos>对应的词嵌入向量,sm为提示模板伪token中掩码符号[mask]所在的位置,Embnew[0:sm]为输入数据Embnew中包含问题文本Question:xq与提示模板伪token从第1个token到sm位置处的词嵌入向量,Embya为ya对应的词嵌入向量。此部分中,Embya单独提供给所述自回归解码器的信息,无需提供给双向编码器。
基于上述原理介绍,自回归解码器内部处理流程可以描述为:将y’对应的词嵌入向量EmbD通过自注意力机制处理为向量Y,再结合双向编码器输出的编码向量H通过交互注意力机制进行处理,最终得到解码向量HD。
本发明实施例中,双向编码器与自回归解码器内部工作流程均可参照常规技术,因此,不做赘述。
三、训练的损失函数。
本发明实施例中,利用自回归解码器的解码向量可以计算各个位置的生成词的概率分布,从而计算损失。主要如下:
将解码向量(即自回归解码器输出的隐向量)HD经过一层线性层得到logits,logits的每个位置代表自回归解码器在相应位置输出的概率向量,logits的每个位置经过Softmax层后输出该位置的生成词的概率分布。公式表示如下:
HD=Decoder(EmbD)
logits=lm_head(HD)
P(yi)=Softmax(logits[i])
其中,Decoder表示自回归解码器,EmbD表示自回归解码器的输入信息;lm_head表示线性层,logits[i]表示logits中第i个位置的向量;P(yi)表示第i个位置生成词为yi的概率,yi为第i个位置生成词的真实标签。
采用的损失函数是答案中各词的生成概率分布与数据集真实数据的负对数似然的均值,表示为:
其中,LA表示生成词的数目。
优选的,为了使生成的词仅出现在输入的问题和上下文中,设计了一个vocab_mask向量,维度为词表维度V,对于训练文本,vocab_mask向量中,若上下文文本中的词的词表位置在vocab_mask向量对应位置上,则相应位置设为0,否则,vocab_mask向量相应位置设为-N,N为词表大小,例如,可以设置N=10000。
将vocab_mask向量加到logits中,得到logitsc,logitsc每个位置经过Softmax层后获得相应位置的生成词的概率分布,表示为:
HD=Decoder(EmbD)
logits=lm_head(HD)
logitsc=logits+vocab_mask
P′(yi)=Softmax(logitsc[i])
其中,logitsc[i]表示logitsc中第i个位置的向量。
本发明实施例中,词表中每个位置对应一个词,则上下文中出现的词必然处于词表的某些位置上,比如[1,20,55],那么这些位置上的词是需要生成的词,因此,希望在计算最终生成词的概率时不处于这些位置上的词概率很小,使得除了[1,20,55]以外位置上的数值很小,从而生成的概率也很小。
类似的,采用的损失函数是答案中各词的生成概率分布与数据集真实数据的负对数似然的均值,表示为:
由于在训练过程中,每个位置的输出只需考虑自回归解码器输入相应位置的词,所以执行一次得到解码向量后,通过上面的式子能够得到所有词的概率分布P(yi)或P′(yi)。
四、预测过程。
预测过程中,构建带有提示模板的输入数据的过程以及双向编码器的处理与之前训练过程相同,但是,无需将期望输出的答案ya提供给自回归解码器,由自回归解码器将每一位置的生成词作为当前位置的输入传入自回归解码器,实现自回归解码。自回归解码器的输入信息为:
Emb′D=Emb<sos>;Embnew[0:sm]
采用贪心搜索算法,连续生成期望输出中的每个词,最终得到的输出中,通过简单地定位将生成的答案抽取出来。
本发明实施例上述方案中,提示模板的构建使得训练任务和预训练任务贴近,更好地挖掘了预训练语言模型的知识,减少了训练量,少样本场景下防止了过拟合,提示模板为训练任务提供了指导,在不同数据集上的迁移性更佳;本发明提供的方案更贴合真实场景中的少样本情况,能够更有效地利用现有的预训练语言模型,发掘其潜力,应用前景非常广阔。
实施例二
本发明还提供一种少样本机器阅读理解***,其主要基于前述实施例一提供的方法实现,如图2所示,该***主要包括:提示模板编码器与双向自回归语言模型;其中:
训练阶段,将包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本通过提示模板编码器,获得带有连续提示模板的输入数据;将所述输入数据输入至包含双向编码器与自回归解码器的双向自回归语言模型,通过所述双向编码器对所述输入数据进行编码,利用给定的期望输出的答案构造所述自回归解码器输入信息,通过自回归解码器的自注意力机制进行处理后,采用交互注意力机制与所述双向编码器的输出进行交互,获得解码向量;利用所述自回归解码器输出的解码向量计算各个生成词的概率分布,并构建损失函数对所述提示模板编码器与双向自回归语言模型进行训练;
预测阶段,将给定的包含问题文本、带掩码的提示模板伪token和上下文文本的输入文本,依次通过提示模板编码器以及双向自回归语言模型,获得答案文本。
需要说明的是,该***基于前述实施例一的方法实现,所涉及的主要技术原理可参见前述实施例一中的介绍,此处不做赘述。
实施例三
本发明还提供一种处理设备,如图3所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种少样本机器阅读理解方法,其特征在于,包括:
训练阶段,将包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本通过提示模板编码器,获得带有连续提示模板的输入数据;将所述输入数据输入至包含双向编码器与自回归解码器的双向自回归语言模型,通过所述双向编码器对所述输入数据进行编码,利用给定的期望输出的答案构造所述自回归解码器输入信息,通过自回归解码器的自注意力机制进行处理后,采用交互注意力机制与所述双向编码器的输出进行交互,获得解码向量;利用所述解码向量计算各个生成词的概率分布,并构建损失函数对所述提示模板编码器与双向自回归语言模型进行训练;
预测阶段,将给定的包含问题文本、带掩码的提示模板伪token和上下文文本的输入文本,依次通过提示模板编码器以及双向自回归语言模型,获得答案文本;
所述包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本表示为:
Input=Question:xq;p1,...,pn:[mask];Context:xc
其中,Question表示问题,xq表示问题文本;p1,...,pn表示随机产生的提示模板伪token,n表示token的数目,token表示词标记;[mask]为掩码符号;Context表示上下文,xc表示上下文文本;
所述训练文本通过提示模板编码器,获得带有连续提示模板的输入数据包括:
先将训练文本经过tokenizer得到全部的token,再输入至嵌入层,得到初始词嵌入向量Embraw:
Embraw=Embraw[0:s];Embraw[s:e];Embraw[e:]
其中,s表示伪token的起始位置,token表示词标记,e表示伪token结束位置;Embraw[0:s]表示问题文本的初始词嵌入向量,Embraw[s:e]表示带掩码的提示模板伪token的初始词嵌入向量,Embraw[e:]表示上下文文本的初始词嵌入向量;
将带掩码的提示模板伪token的初始词嵌入向量Embraw[s:e]输入至提示模板编码器,获得新的词嵌入向量Embnew[s:e]:
Embnew[s:e]=P_Encoder(Embraw[s:e])
其中,P_Encoder表示提示模板编码器;
利用新的词嵌入向量Embnew[s:e]替换初始词嵌入向量Embraw中的Embraw[s:e],获得的词嵌入向量Embnew即为获得带有连续提示模板的输入数据:
Embnew=Embraw[0:s];Embnew[s:e];Embraw[e:];
所述利用给定的期望输出的答案构造所述自回归解码器输入信息,通过自回归解码器的自注意力机制进行处理后,采用交互注意力机制与所述双向编码器的输出进行交互,获得解码向量包括:
将自回归解码器的期望输出y表示为:
y=Question:xq;p1,...,pn:ya
其中,Question表示问题,xq表示问题文本;p1,...,pn表示提示模板伪token,ya表示给定的期望输出的答案;
将y右移一位并在第一位补充一个开始符号<sos>后,记为y’,y’对应的词嵌入向量EmbD表示为:
EmbD=Emb<sos>;Embnew[0:sm];Embya
其中,Emb<sos>为开始符号<sos>对应的词嵌入向量,sm为带掩码的提示模板伪token中掩码符号[mask]所在的位置,Embnew[0:sm]为输入数据Embnew中包含问题文本部分Question:xq与带掩码的提示模板伪token从第1个token到sm位置处的词嵌入向量,Embya为ya对应的词嵌入向量;
将y′对应的词嵌入向量EmbD通过自注意力机制处理为向量Y,再结合双向编码器输出的编码向量H通过交互注意力机制进行处理,最终得到解码向量HD。
2.根据权利要求1所述的一种少样本机器阅读理解方法,其特征在于,所述双向编码器由多层Transformer编码器结构堆叠而成,编码过程表示为:
H=Encoder(Embnew)
其中,Encoder表示双向编码器,Embnew表示所述输入数据,H表示编码结果。
3.根据权利要求1所述的一种少样本机器阅读理解方法,其特征在于,利用所述自回归解码器输出的解码向量计算各个生成词的概率分布,并构建损失函数包括:
将解码向量HD经过一层线性层得到logits,logits的每个位置经过Softmax层后输出该位置的生成词的概率分布,表示为:
HD=Decoder(EmbD)
logits=lm_head(HD)
P(yi)=Softmax(logits[i])
其中,Decoder表示自回归解码器,EmbD表示自回归解码器的输入信息;lm_head表示线性层,logits[i]表示logits中第i个位置的向量;P(yi)表示第i个位置生成词为yi的概率,yi为第i个位置生成词的真实标签;
损失函数为各位置生成词的概率分布与数据集真实数据的负对数似然的均值,表示为:
其中,LA表示生成词的数目。
4.根据权利要求1所述的一种少样本机器阅读理解方法,其特征在于,利用所述自回归解码器输出的解码向量计算各个生成词的概率分布,并构建损失函数包括:
将解码结果HD经过一层线性层得到logits,将vocab_mask向量加到logits中,得到logitsc,logitsc每个位置经过Softmax层后获得相应位置的生成词的概率分布,表示为:
HD=Decoder(EmbD)
logits=lm_head(HD)
logitsc=logits+vocab_mask
P′(yi)=Softmax(logitsc[i])
其中,Decoder表示自回归解码器,EmbD表示自回归解码器的输入信息;lm_head表示线性层,logitsc[i]表示logitsc中第i个位置的向量;P′(yi)表示第i个位置生成词为yi的概率,yi为第i个位置生成词的真实标签;对于训练文本,vocab_mask向量中,若上下文文本中的词的词表位置在vocab_mask向量对应位置上,则相应位置设为0,否则,vocab_mask向量相应位置设为-N,N为词表大小;
损失函数为答案中各词的生成概率分布与数据集真实数据的负对数似然的均值,表示为:
其中,LA表示生成词的数目。
5.一种少样本机器阅读理解***,其特征在于,基于权利要求1~4任一项所述的方法实现,该***包括:提示模板编码器与双向自回归语言模型;其中:
训练阶段,将包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本通过提示模板编码器,获得带有连续提示模板的输入数据;将所述输入数据输入至包含双向编码器与自回归解码器的双向自回归语言模型,通过所述双向编码器对所述输入数据进行编码,利用给定的期望输出的答案构造所述自回归解码器输入信息,通过自回归解码器的自注意力机制进行处理后,采用交互注意力机制与所述双向编码器的输出进行交互,获得解码向量;利用所述解码向量计算各个生成词的概率分布,并构建损失函数对所述提示模板编码器与双向自回归语言模型进行训练;
预测阶段,将给定的包含问题文本、带掩码的提示模板伪token和上下文文本的输入文本,依次通过提示模板编码器以及双向自回归语言模型,获得答案文本。
6.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~4任一项所述的方法。
7.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210093014.7A CN114444488B (zh) | 2022-01-26 | 2022-01-26 | 一种少样本机器阅读理解方法、***、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210093014.7A CN114444488B (zh) | 2022-01-26 | 2022-01-26 | 一种少样本机器阅读理解方法、***、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114444488A CN114444488A (zh) | 2022-05-06 |
CN114444488B true CN114444488B (zh) | 2023-03-24 |
Family
ID=81370474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210093014.7A Active CN114444488B (zh) | 2022-01-26 | 2022-01-26 | 一种少样本机器阅读理解方法、***、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444488B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115310622B (zh) * | 2022-10-12 | 2023-01-17 | 中国科学技术大学 | 一种基于自适应专家***的智能问答方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答***实现方法 |
CN110096698A (zh) * | 2019-03-20 | 2019-08-06 | 中国地质大学(武汉) | 一种考虑主题的机器阅读理解模型生成方法与*** |
CN111428021A (zh) * | 2020-06-05 | 2020-07-17 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的文本处理方法、装置、计算机设备及介质 |
CN113535918A (zh) * | 2021-07-14 | 2021-10-22 | 梁晨 | 预训练对偶注意力神经网络语义推断对话检索方法及***、检索设备、存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951433B (zh) * | 2015-06-24 | 2018-01-23 | 北京京东尚科信息技术有限公司 | 基于上下文进行意图识别的方法和*** |
CA3074675A1 (en) * | 2019-03-04 | 2020-09-04 | Royal Bank Of Canada | System and method for machine learning with long-range dependency |
CN110147451B (zh) * | 2019-05-10 | 2021-06-29 | 云知声智能科技股份有限公司 | 一种基于知识图谱的对话命令理解方法 |
CN110489555B (zh) * | 2019-08-21 | 2022-03-08 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN111368042A (zh) * | 2020-02-13 | 2020-07-03 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及计算机存储介质 |
CN111460833B (zh) * | 2020-04-01 | 2023-08-25 | 合肥讯飞数码科技有限公司 | 文本生成方法、装置和设备 |
CN111651569B (zh) * | 2020-04-24 | 2022-04-08 | 中国电力科学研究院有限公司 | 一种电力领域的知识库问答方法及*** |
CN111581350A (zh) * | 2020-04-30 | 2020-08-25 | 识因智能科技(北京)有限公司 | 一种基于预训练语言模型的多任务学习阅读理解方法 |
US11468239B2 (en) * | 2020-05-22 | 2022-10-11 | Capital One Services, Llc | Joint intent and entity recognition using transformer models |
US20220012538A1 (en) * | 2020-07-07 | 2022-01-13 | Nec Laboratories America, Inc. | Compact representation and time series segment retrieval through deep learning |
CN111858931B (zh) * | 2020-07-08 | 2022-05-13 | 华中师范大学 | 一种基于深度学习的文本生成方法 |
CN112182151B (zh) * | 2020-09-23 | 2021-08-17 | 清华大学 | 基于多语言的阅读理解任务识别方法及装置 |
CN112883182A (zh) * | 2021-03-05 | 2021-06-01 | 海信电子科技(武汉)有限公司 | 一种基于机器阅读的问答匹配方法及装置 |
CN113468895B (zh) * | 2021-05-28 | 2023-08-15 | 沈阳雅译网络技术有限公司 | 一种基于解码器输入增强的非自回归神经机器翻译方法 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
CN113630250B (zh) * | 2021-08-23 | 2023-04-25 | 济南大学 | 基于数据加密的模型训练方法及*** |
CN113673261A (zh) * | 2021-09-07 | 2021-11-19 | 北京小米移动软件有限公司 | 数据生成方法、装置及可读存储介质 |
-
2022
- 2022-01-26 CN CN202210093014.7A patent/CN114444488B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答***实现方法 |
CN110096698A (zh) * | 2019-03-20 | 2019-08-06 | 中国地质大学(武汉) | 一种考虑主题的机器阅读理解模型生成方法与*** |
CN111428021A (zh) * | 2020-06-05 | 2020-07-17 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的文本处理方法、装置、计算机设备及介质 |
CN113535918A (zh) * | 2021-07-14 | 2021-10-22 | 梁晨 | 预训练对偶注意力神经网络语义推断对话检索方法及***、检索设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114444488A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113158665B (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110795556A (zh) | 一种基于细粒度***式解码的摘要生成方法 | |
CN108986186A (zh) | 文字转化视频的方法和*** | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
Kang et al. | Generative text steganography based on LSTM network and attention mechanism with keywords | |
CN110457713A (zh) | 基于机器翻译模型的翻译方法、装置、设备和存储介质 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN111325571A (zh) | 一种多任务学习的商品评论标签自动生成方法、装置及*** | |
CN115048511A (zh) | 一种基于Bert的护照版面分析方法 | |
CN114444488B (zh) | 一种少样本机器阅读理解方法、***、设备及存储介质 | |
CN115512195A (zh) | 一种基于多交互信息融合的图像描述方法 | |
Wang et al. | Tag: Boosting text-vqa via text-aware visual question-answer generation | |
CN116796045A (zh) | 一种多维度图书分级方法、***及可读介质 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及*** | |
Chaudhary et al. | Signnet ii: A transformer-based two-way sign language translation model | |
CN111046966B (zh) | 基于度量注意力机制的图像字幕生成方法 | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
Wadhwa et al. | AI based automated image caption tool implementation for visually impaired | |
CN114677569A (zh) | 一种基于特征解耦合的文字-图像对生成方法和装置 | |
CN113792120A (zh) | 图网络的构建方法及装置、阅读理解方法及装置 | |
US20240177507A1 (en) | Apparatus and method for generating text from image and method of training model for generating text from image | |
CN113378925B (zh) | 一种双注意力训练序列生成方法、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |