CN114444488B

CN114444488B - 一种少样本机器阅读理解方法、***、设备及存储介质

Info

Publication number: CN114444488B
Application number: CN202210093014.7A
Authority: CN
Inventors: 毛震东; 张勇东; 彭奕兴; 张立成
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2023-03-24
Anticipated expiration: 2042-01-26
Also published as: CN114444488A

Abstract

本发明公开了一种少样本机器阅读理解方法、***、设备及存储介质，提示模板的构建使得训练任务和预训练任务贴近，更好地挖掘了预训练语言模型的知识，减少了训练量，少样本场景下防止了过拟合，提示模板为训练任务提供了指导，在不同数据集上的迁移性更佳；本发明提供的方案更贴合真实场景中的少样本情况，能够更有效地利用现有的预训练语言模型，发掘其潜力，应用前景非常广阔。

Description

一种少样本机器阅读理解方法、***、设备及存储介质

技术领域

本发明涉及自然语言生成技术领域，尤其涉及一种少样本机器阅读理解方法、***、设备及存储介质。

背景技术

机器阅读理解是近年来自然语言处理领域的热点之一。一方面，由于其多样和复杂性，阅读理解能力已经成为衡量计算机语言理解能力的一项重要指标。另一方面，阅读理解任务在工业界有众多的应用场景，比如智能搜索引擎、问答***、客服机器人等。机器阅读理解任务使机器通过阅读文章，针对给定的问题给出答案，完整的数据是“上下文-问题-答案”，而在真实的场景下，往往数据总量较少，而且人工标注数据需要耗费大量人力、物力，效率低下。因此，少样本场景下的机器阅读理解技术具有很高的研究价值。

现有的机器阅读理解技术多采用基于预训练语言模型直接进行微调的方法，然而在少样本场景下普遍存在着效果不佳、迁移性差的问题，这是由于预训练语言模型在预训练阶段的任务与微调阶段任务不匹配，从而无法充分利用预训练语言模型学到的知识。最近的一些方法希望通过改变预训练目标来解决这个问题，并且也取得了一些效果，然而针对阅读理解任务设计预训练任务这种思路存在着一些问题，比如需要用海量预训练数据来对模型进行训练，这需要很强的算力，从经济角度来看并不完美，使得这种方法的普适性降低。

发明内容

本发明的目的是提供一种少样本机器阅读理解方法、***、设备及存储介质，在提升少样本场景下机器阅读理解的回答质量的同时，无需消耗太多的资源。

本发明的目的是通过以下技术方案实现的：

一种少样本机器阅读理解方法，包括：

训练阶段，将包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本通过提示模板编码器，获得带有连续提示模板的输入数据；将所述输入数据输入至包含双向编码器与自回归解码器的双向自回归语言模型，通过所述双向编码器对所述输入数据进行编码，利用给定的期望输出的答案构造所述自回归解码器输入信息，通过自回归解码器的自注意力机制进行处理后，采用交互注意力机制与所述双向编码器的输出进行交互，获得解码向量；利用所述解码向量计算各个生成词的概率分布，并构建损失函数对所述提示模板编码器与双向自回归语言模型进行训练；

预测阶段，将给定的包含问题文本、带掩码的提示模板伪token和上下文文本的输入文本，依次通过提示模板编码器以及双向自回归语言模型，获得答案文本。

一种少样本机器阅读理解***，包括：提示模板编码器与双向自回归语言模型；其中：

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，提示模板的构建使得训练任务和预训练任务贴近，更好地挖掘了预训练语言模型的知识，减少了训练量，少样本场景下防止了过拟合，提示模板为训练任务提供了指导，在不同数据集上的迁移性更佳；本发明提供的方案更贴合真实场景中的少样本情况，能够更有效地利用现有的预训练语言模型，发掘其潜力，应用前景非常广阔。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种少样本机器阅读理解方法的流程图；

图2为本发明实施例提供的一种少样本机器阅读理解***示意图；

图3为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

如背景技术所述，现有的机器阅读理解技术在少样本场景下普遍存在着效果不佳、迁移性差的问题，因此，本发明实施例提供一种少样本机器阅读理解方案，在提升少样本场景下机器阅读理解的回答质量的同时，不必消耗太多的资源。机器阅读理解通常被定义为一个三元组问题：(P，Q，A)，P表示Passage即上下文，Q表示Question即问题，A表示Answer即答案，机器阅读理解任务可以表述为：通过阅读理解上下文P，回答问题Q，输出答案A，输出答案A可以从上下文中抽取也可以通过上下文推理得出。

下面对本发明所提供的少样本机器阅读理解方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

如图1所示，为一种少样本机器阅读理解方法的流程图，本发明中，通过提示模版编码器构建了带有连续提示模板的输入数据，结合双向自回归生成式预训练语言模型(即后文提及的双向自回归语言模型)，生成提示模板中遮盖部分的内容作为回答，此为本发明的训练任务，该训练任务与双向自回归生成式预训练语言模型的还原损坏句子的预训练任务相接近，更好地挖掘预训练模型知识在少样本场景下能够更好地发挥预训练语言模型的作用。具体的：

为了便于理解，下面针对构建带有提示模板的输入、双向自回归语言模型、训练的损失函数以及预测流程做详细的介绍。

一、构建带有提示模板的输入数据。

Prompt(即提示模板)是近年来提出的一种用来辅助预训练语言模型进行下游任务训练的新的范式，能够充分挖掘并利用预训练语言模型的知识。在实际使用中，通过设计提示模板加入到预训练语言模型的输入中，再对模型进行特定数据集上的训练，可以得到比较好的效果。目前的提示模板设计常常采用手工设计，通常表示为一个自然语言句子，比如在情感分类任务中，输入一个句子，判断情感极性，提示模板可以设计为完形填空式的句子，例如：”<input sentence>,It’s__.”，将句子变为带有提示模板的输入，并让模型填补空缺处单词。但是手动设计提示模板费时费力，目前研究发现，提示模板并不一定需要由自然语言构成，也可以仅仅是一组词嵌入，就能发挥出提示模板的效果，这种提示模板被称为连续提示模板，因为它可以通过在连续嵌入空间中搜索得到，从而可以突破预训练语言模型的词表限制。为此，构建了提示模板编码器，来得到连续的提示模板。提示模板编码器由简单的LSTM模型或多层感知机构成，LSTM模型是一种RNN模型，常用于处理时间序列，可以解决长距离依赖问题，输入提示模板token的词嵌入，得到新的词嵌入，与预训练模型联合训练，从而能够使得学习到的提示模板词嵌入具有更好的连贯性，增强词嵌入之间的相互依赖关系，更符合自然语言特性。

基于上述原理介绍，通过提示模板编码器，构建带有连续提示模板的输入数据。

本发明实施例中，初始输入为问题文本与上下文文本，***带掩码的提示模板伪token后，构成的训练文本表示为：

Input＝Question:x_q；p₁,…,p_n:[mask]；Context:x_c

其中，Question表示问题，x_q表示问题文本；p₁,…,p_n表示随机产生的提示模板伪token，n表示token的数目，token表示词标记；[mask]为掩码符号；Context表示上下文，x_c表示上下文文本。

上述训练文本Input经过tokenizer得到全部的token，再输入至嵌入层，得到初始词嵌入向量Emb_raw：

Emb_raw＝Emb_raw[0:s]；Emb_raw[s:e]；Emb_raw[e:]

其中，s表示伪token的起始位置，e表示伪token结束位置；Emb_raw[0:s]表示问题文本的初始词嵌入向量，Emb_raw[s:e]表示带掩码的提示模板伪token的初始词嵌入向量，Emb_raw[e:]表示上下文文本的初始词嵌入向量。

本发明实施例中，tokenizer为分词器，训练文本Input的三个部分都需要通过tokenizer获得相应的token，此部分操作为常规技术；一般来说，对应训练文本各部分的token是tokenizer依据预训练模型的词表产生的，提示模板伪token(p1,…,pn)是随机产生的，但是也需要在词表范围内，提示模板设计形式可参照常规技术；伪token数是固定的，tokenizer产生的总token与训练文本对齐。

然后，将带掩码的提示模板伪token的初始词嵌入向量Emb_raw[s:e]输入至提示模板编码器，获得新的词嵌入向量Emb_new[s:e]：

Emb_new[s:e]＝P_Encoder(Emb_raw[s:e])

其中，P_Encoder表示提示模板编码器。

再利用新的词嵌入向量Emb_new[s:e]替换初始词嵌入向量Emb_raw中的Emb_raw[s:e]，获得的词嵌入向量Emb_new即为获得带有连续提示模板的输入数据：

Emb_new＝Emb_raw[0:s]；Emb_new[s:e]；Emb_raw[e:]。

二、双向自回归语言模型。

本发明实施例中，双向自回归语言模型使用BART模型。BART是一种预训练语言模型，结合双向和自回归Transformers对模型进行预训练。它是一个适用于序列到序列模型的去噪自编码器，可以将被破坏文档映射到原始文档。BART模型包括双向编码器和从左至右自回归解码器两部分，具备了文本生成和文本理解两方面的能力，尤其擅长处理文本生成任务。

1、双向编码器。

所述双向编码器由多层Transformer编码器结构堆叠而成，输入数据Emb_new通过双向编码器，得到每个词的编码向量。

双向编码器在产生当前位置的编码结果时需要考虑当前位置前后两个方向的注意力，自注意力计算过程可以用公式表示为：

其中，Attention(*)表示计算得到的注意力向量，

表示双向编码器中的Query矩阵，/>

表示双向编码器中的Key矩阵，/>

表示双向编码器中的Value矩阵；X表示数据在双向编码器中每层的隐向量，第一层使用的向量X即为获得带有连续提示模板的输入数据Emb_new，d_k表示向量X的维度。

双向编码器的编码过程表示为：

H＝Encoder(Emb_new)

其中，Encoder表示双向编码器，H表示编码结果(编码向量)。双向编码器前后两个方向的注意力传递都体现在式子上述式子中，其原理为常规技术，故不做赘述。

2、自回归解码器。

自回归解码器由多层Transformer解码器结构堆叠而成，与BART编码器通过交互注意力机制连接，也包含自己的自注意力机制。

交互注意力机制是将双向编码器得到的编码结果(即编码向量)H进行Key矩阵和Value矩阵的计算得到Key和Value，再传入自回归解码器进行交互。

Key矩阵和Value矩阵都是通过学习得到的，Key和Value是编码结果H的利用相关矩阵计算出的信息；自回归解码器当前层中，将前一层得到的向量通过自注意力机制得到的向量Y(自注意力机制与前述双向编码器介绍的方式相同)与Query矩阵进行交互，再计算交互注意力，可以表示为：

其中，W^Q表示交互注意力中的Query矩阵，W^K表示交互注意力中的Key矩阵，W^V表示交互注意力中的Value矩阵；d_k表示向量Y的维度。最后结合注意力交互结果，计算当前层最终输出向量，并传递至下一层，如果当前层是最后一层，则当前层输出向量即为自回归解码器输出的解码向量H_D。

自回归解码器输出时采用自回归机制，自回归解码器会逐个输出每一位置的生成词，输出的上一位置生成词会作为当前位置的输入传入自回归解码器，再经过与上一位置同样的交互注意力机制以及其他层得到当前位置的生成词。

将自回归解码器的期望输出记为y，将y右移一位并在第一位补充一个开始符号<sos>成为y’，将y’对应的词嵌入向量作为自回归解码器的输入信息。具体的：

将期望输出y表示为：

y＝Question:x_q；p₁,…,p_n:y_a

其中，Question表示问题，x_q表示问题文本；p₁,…,p_n表示提示模板伪token，y_a表示给定的期望输出的答案(它是已知信息)。

训练时，给定的期望输出的答案文本y_a之前序列与对应位置的双向编码器输入一致，因此，将y右移一位并在第一位补充一个开始符号<sos>，则y’对应的词嵌入向量Emb_D表示为：

Emb_D＝Emb_<sos＞；Emb_new[0:s_m]；Emb_ya

其中，Emb_<sos＞为开始符号<sos>对应的词嵌入向量，s_m为提示模板伪token中掩码符号[mask]所在的位置，Emb_new[0:s_m]为输入数据Emb_new中包含问题文本Question:x_q与提示模板伪token从第1个token到s_m位置处的词嵌入向量，Emb_ya为y_a对应的词嵌入向量。此部分中，Emb_ya单独提供给所述自回归解码器的信息，无需提供给双向编码器。

基于上述原理介绍，自回归解码器内部处理流程可以描述为：将y’对应的词嵌入向量Emb_D通过自注意力机制处理为向量Y，再结合双向编码器输出的编码向量H通过交互注意力机制进行处理，最终得到解码向量H_D。

本发明实施例中，双向编码器与自回归解码器内部工作流程均可参照常规技术，因此，不做赘述。

三、训练的损失函数。

本发明实施例中，利用自回归解码器的解码向量可以计算各个位置的生成词的概率分布，从而计算损失。主要如下：

将解码向量(即自回归解码器输出的隐向量)H_D经过一层线性层得到logits，logits的每个位置代表自回归解码器在相应位置输出的概率向量，logits的每个位置经过Softmax层后输出该位置的生成词的概率分布。公式表示如下：

H_D＝Decoder(Emb_D)

logits＝lm_head(H_D)

P(y_i)＝Softmax(logits[i])

其中，Decoder表示自回归解码器，Emb_D表示自回归解码器的输入信息；lm_head表示线性层，logits[i]表示logits中第i个位置的向量；P(y_i)表示第i个位置生成词为y_i的概率，y_i为第i个位置生成词的真实标签。

采用的损失函数是答案中各词的生成概率分布与数据集真实数据的负对数似然的均值，表示为：

其中，L_A表示生成词的数目。

优选的，为了使生成的词仅出现在输入的问题和上下文中，设计了一个vocab_mask向量，维度为词表维度V，对于训练文本，vocab_mask向量中，若上下文文本中的词的词表位置在vocab_mask向量对应位置上，则相应位置设为0，否则，vocab_mask向量相应位置设为-N，N为词表大小，例如，可以设置N＝10000。

将vocab_mask向量加到logits中，得到logits_c，logits_c每个位置经过Softmax层后获得相应位置的生成词的概率分布，表示为：

H_D＝Decoder(Emb_D)

logits＝lm_head(H_D)

logits_c＝logits+vocab_mask

P′(y_i)＝Softmax(logits_c[i])

其中，logits_c[i]表示logits_c中第i个位置的向量。

本发明实施例中，词表中每个位置对应一个词，则上下文中出现的词必然处于词表的某些位置上，比如[1，20，55]，那么这些位置上的词是需要生成的词，因此，希望在计算最终生成词的概率时不处于这些位置上的词概率很小，使得除了[1,20,55]以外位置上的数值很小，从而生成的概率也很小。

类似的，采用的损失函数是答案中各词的生成概率分布与数据集真实数据的负对数似然的均值，表示为：

由于在训练过程中，每个位置的输出只需考虑自回归解码器输入相应位置的词，所以执行一次得到解码向量后，通过上面的式子能够得到所有词的概率分布P(y_i)或P′(y_i)。

四、预测过程。

预测过程中，构建带有提示模板的输入数据的过程以及双向编码器的处理与之前训练过程相同，但是，无需将期望输出的答案y_a提供给自回归解码器，由自回归解码器将每一位置的生成词作为当前位置的输入传入自回归解码器，实现自回归解码。自回归解码器的输入信息为：

Emb′_D＝Emb_<sos>；Emb_new[0:s_m]

采用贪心搜索算法，连续生成期望输出中的每个词，最终得到的输出中，通过简单地定位将生成的答案抽取出来。

本发明实施例上述方案中，提示模板的构建使得训练任务和预训练任务贴近，更好地挖掘了预训练语言模型的知识，减少了训练量，少样本场景下防止了过拟合，提示模板为训练任务提供了指导，在不同数据集上的迁移性更佳；本发明提供的方案更贴合真实场景中的少样本情况，能够更有效地利用现有的预训练语言模型，发掘其潜力，应用前景非常广阔。

实施例二

本发明还提供一种少样本机器阅读理解***，其主要基于前述实施例一提供的方法实现，如图2所示，该***主要包括：提示模板编码器与双向自回归语言模型；其中：

训练阶段，将包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本通过提示模板编码器，获得带有连续提示模板的输入数据；将所述输入数据输入至包含双向编码器与自回归解码器的双向自回归语言模型，通过所述双向编码器对所述输入数据进行编码，利用给定的期望输出的答案构造所述自回归解码器输入信息，通过自回归解码器的自注意力机制进行处理后，采用交互注意力机制与所述双向编码器的输出进行交互，获得解码向量；利用所述自回归解码器输出的解码向量计算各个生成词的概率分布，并构建损失函数对所述提示模板编码器与双向自回归语言模型进行训练；

需要说明的是，该***基于前述实施例一的方法实现，所涉及的主要技术原理可参见前述实施例一中的介绍，此处不做赘述。

实施例三

本发明还提供一种处理设备，如图3所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种少样本机器阅读理解方法，其特征在于，包括：

预测阶段，将给定的包含问题文本、带掩码的提示模板伪token和上下文文本的输入文本，依次通过提示模板编码器以及双向自回归语言模型，获得答案文本；

所述包含问题文本、带掩码的提示模板伪token和上下文文本的训练文本表示为：

Input＝Question：x_q；p₁，...，p_n：[mask]；Context：x_c

其中，Question表示问题，x_q表示问题文本；p₁，...，p_n表示随机产生的提示模板伪token，n表示token的数目，token表示词标记；[mask]为掩码符号；Context表示上下文，x_c表示上下文文本；

所述训练文本通过提示模板编码器，获得带有连续提示模板的输入数据包括：

先将训练文本经过tokenizer得到全部的token，再输入至嵌入层，得到初始词嵌入向量Emb_raw：

Emb_raw＝Emb_raw[0：s]；Emb_raw[s：e]；Emb_raw[e：]

其中，s表示伪token的起始位置，token表示词标记，e表示伪token结束位置；Emb_raw[0：s]表示问题文本的初始词嵌入向量，Emb_raw[s：e]表示带掩码的提示模板伪token的初始词嵌入向量，Emb_raw[e：]表示上下文文本的初始词嵌入向量；

将带掩码的提示模板伪token的初始词嵌入向量Emb_raw[s：e]输入至提示模板编码器，获得新的词嵌入向量Emb_new[s：e]：

Emb_new[s：e]＝P_Encoder(Emb_raw[s：e])

其中，P_Encoder表示提示模板编码器；

利用新的词嵌入向量Emb_new[s：e]替换初始词嵌入向量Emb_raw中的Emb_raw[s：e]，获得的词嵌入向量Emb_new即为获得带有连续提示模板的输入数据：

Emb_new＝Emb_raw[0：s]；Emb_new[s：e]；Emb_raw[e：]；

所述利用给定的期望输出的答案构造所述自回归解码器输入信息，通过自回归解码器的自注意力机制进行处理后，采用交互注意力机制与所述双向编码器的输出进行交互，获得解码向量包括：

将自回归解码器的期望输出y表示为：

y＝Question：x_q；p₁，...，p_n：y_a

其中，Question表示问题，x_q表示问题文本；p₁，...，p_n表示提示模板伪token，y_a表示给定的期望输出的答案；

将y右移一位并在第一位补充一个开始符号＜sos＞后，记为y’，y’对应的词嵌入向量Emb_D表示为：

Emb_D＝Emb_＜sos＞；Emb_new[0：s_m]；Emb_ya

其中，Emb_＜sos＞为开始符号＜sos＞对应的词嵌入向量，s_m为带掩码的提示模板伪token中掩码符号[mask]所在的位置，Emb_new[0：s_m]为输入数据Emb_new中包含问题文本部分Question：x_q与带掩码的提示模板伪token从第1个token到s_m位置处的词嵌入向量，Emb_ya为y_a对应的词嵌入向量；

将y′对应的词嵌入向量Emb_D通过自注意力机制处理为向量Y，再结合双向编码器输出的编码向量H通过交互注意力机制进行处理，最终得到解码向量H_D。

2.根据权利要求1所述的一种少样本机器阅读理解方法，其特征在于，所述双向编码器由多层Transformer编码器结构堆叠而成，编码过程表示为：

H＝Encoder(Emb_new)

其中，Encoder表示双向编码器，Emb_new表示所述输入数据，H表示编码结果。

3.根据权利要求1所述的一种少样本机器阅读理解方法，其特征在于，利用所述自回归解码器输出的解码向量计算各个生成词的概率分布，并构建损失函数包括：

将解码向量H_D经过一层线性层得到logits，logits的每个位置经过Softmax层后输出该位置的生成词的概率分布，表示为：

H_D＝Decoder(Emb_D)

logits＝lm_head(H_D)

P(y_i)＝Softmax(logits[i])

其中，Decoder表示自回归解码器，Emb_D表示自回归解码器的输入信息；lm_head表示线性层，logits[i]表示logits中第i个位置的向量；P(y_i)表示第i个位置生成词为y_i的概率，y_i为第i个位置生成词的真实标签；

损失函数为各位置生成词的概率分布与数据集真实数据的负对数似然的均值，表示为：

其中，L_A表示生成词的数目。

4.根据权利要求1所述的一种少样本机器阅读理解方法，其特征在于，利用所述自回归解码器输出的解码向量计算各个生成词的概率分布，并构建损失函数包括：

将解码结果H_D经过一层线性层得到logits，将vocab_mask向量加到logits中，得到logits_c，logits_c每个位置经过Softmax层后获得相应位置的生成词的概率分布，表示为：

H_D＝Decoder(Emb_D)

logits＝lm_head(H_D)

logits_c＝logits+vocab_mask

P′(y_i)＝Softmax(logits_c[i])

其中，Decoder表示自回归解码器，Emb_D表示自回归解码器的输入信息；lm_head表示线性层，logits_c[i]表示logits_c中第i个位置的向量；P′(y_i)表示第i个位置生成词为y_i的概率，y_i为第i个位置生成词的真实标签；对于训练文本，vocab_mask向量中，若上下文文本中的词的词表位置在vocab_mask向量对应位置上，则相应位置设为0，否则，vocab_mask向量相应位置设为-N，N为词表大小；

损失函数为答案中各词的生成概率分布与数据集真实数据的负对数似然的均值，表示为：

其中，L_A表示生成词的数目。

5.一种少样本机器阅读理解***，其特征在于，基于权利要求1～4任一项所述的方法实现，该***包括：提示模板编码器与双向自回归语言模型；其中：

6.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～4任一项所述的方法。

7.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～4任一项所述的方法。