CN113268571A

CN113268571A - 一种确定段落中正确答案位置的方法、装置、设备及介质

Info

Publication number: CN113268571A
Application number: CN202110822423.1A
Authority: CN
Inventors: 王博; 薛小娜; 张文剑
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-08-17

Abstract

本申请提供了一种确定段落中正确答案位置的方法、装置、设备及介质，所述方法包括：获取查询语句；确定所述查询语句的答案所属的段落；将所述查询语句和所述查询语句的答案所属的段落进行拼接，以得到目标数据；基于所述目标数据，确定所述查询语句的答案在所述段落的开始位置和结束位置。根据所述方法及装置，可以解决现有技术中使用机器阅读理解深度学习模型来获取答案的方法不够准确的问题。

Description

一种确定段落中正确答案位置的方法、装置、设备及介质

技术领域

本申请涉及计算机信息技术领域，具体而言，涉及一种确定段落中正确答案位置的方法、装置、设备及介质。

背景技术

问答是信息检索的一种高级形式。在日常工作和学习中，遇到问题时通常会去查阅大量的文档，而解决这个问题的答案通常是位于某篇文档的一个段落中，因此搭建文档智能问答***对节约时间和成本具有极大的帮助。然而，大部分文档智能问答算法只能够比较精确地召回答案所对应的段落，而获取到的精确答案通常不够准确。在实际应用中，使用这些智能问答算法在获取到答案段落后通常也需要人工去理解这个段落才能获取到最终的准确答案，这样的问答算法不但会增加准确答案获取的时间，还会增加人工成本。

发明内容

有鉴于此，本申请的目的在于提供一种确定段落中正确答案位置的方法、装置、设备及介质，以解决现有技术中使用机器阅读理解深度学习模型来获取答案的方法不够准确的问题。

第一方面，本申请实施例提供了一种确定段落中正确答案位置的方法，所述方法包括：

获取查询语句；

确定所述查询语句的答案所属的段落；

将所述查询语句和所述查询语句的答案所属的段落进行拼接，以得到目标数据；

基于所述目标数据，确定所述查询语句的答案在所述段落的开始位置和结束位置。

进一步的，所述确定所述查询语句所属的段落，包括：

将所述查询语句输入预先训练好的第一预测模型中，以得到所述查询语句所属的段落；第一预测模型是用于预测所述查询语句所属的段落的模型。

进一步的，所述基于所述目标数据，确定所述查询语句的答案在所述段落的开始位置和结束位置，包括：

将所述目标数据输入预先训练好的第二预测模型中，以得到所述查询语句的答案在所述段落的开始位置和结束位置；第二预测模型是用于预测所述查询语句的答案在所述段落的开始位置和结束位置的模型。

进一步的，通过以下方式训练所述第二预测模型：

获取样本数据；所述样本数据包括查询语句样本、所述查询语句样本的答案所属的细选段落和每个细选段落所对应的第一标签信息；所述第一标签信息用来表示所述细选段落中是否包含所述查询语句样本的答案、所述查询语句样本的答案在所述细选段落中的开始位置和结束位置；

将所述样本数据输入第二原始预测模型中，对所述第二原始预测模型进行训练，以得到第二预测模型。

进一步的，所述将所述样本数据输入第二原始预测模型中，对所述第二原始预测模型进行训练，以得到第二预测模型，包括：

针对样本数据中的查询语句样本的答案所属的每个细选段落，将所述样本数据中的查询语句样本以及该细选段落进行拼接，得到目标数据样本；

将该目标数据样本输入至所述第二原始预测模型中，基于所述第二原始预测模型中的分类器，确定该目标数据样本对应的第二标签信息，其中，所述第二标签信息用来表示该目标数据样本中的细选段落中是否包含答案、所述细选段落中每个字属于答案开始位置和属于答案结束位置的概率；

将所述细选段落对应的第一标签信息与该目标数据样本对应的第二标签信息进行对比，若所述第一标签信息与所述第二标签信息之间存在差异，则计算当前状态下所述第二原始预测模型的损失函数；

采用小批量随机梯度下降法，基于所述第二原始预测模型的损失函数，不断调整所述第二原始预测模型的模型参数，直至所述第二原始预测模型达到收敛状态，得到第二预测模型。

进一步的，所述将所述目标数据输入预先训练好的第二预测模型中，以得到所述查询语句的答案在所述段落的开始位置和结束位置，包括：

针对每个目标数据，将该目标数据输入至所述第二预测模型中，基于所述第二预测模型中的分类器，确定该目标数据对应的第三标签信息，其中，所述第三标签信息用来表示所述查询语句所属的段落是否包含答案、所述查询语句所属的段落中每个字属于答案开始位置和结束位置的概率；

基于所述第三标签信息，确定出该目标数据中的段落是否为所述查询语句的答案所在的段落；

基于所述查询语句的答案所在的段落，确定所述查询语句的答案在所述段落的开始位置和结束位置。

进一步的，所述基于所述查询语句的答案在的段落，确定所述查询语句的答案在所述段落的开始位置和结束位置，包括：

将所述第三标签信息中的所述查询语句所属的段落中每个字属于答案开始位置和结束位置的概率相加，得到相加后的概率值；

将所有相加后的概率值进行比较，选取相加后的概率值最高的两个字作为所述目标数据的答案开始位置和答案结束位置；

基于所述目标数据的答案开始位置和答案结束位置，确定所述查询语句的答案在所述段落的开始位置和结束位置。

第二方面，本申请实施例还提供了一种确定段落中正确答案位置的装置，所述装置包括：

获取模块，用于获取查询语句；

段落确定模块，用于确定所述查询语句的答案所属的段落；

拼接模块，用于将所述查询语句和所述查询语句的答案所属的段落进行拼接，以得到目标数据；

答案位置确定模块，用于基于所述目标数据，确定所述查询语句的答案在所述段落的开始位置和结束位置。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的确定段落中正确答案位置的方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的确定段落中正确答案位置的方法的步骤。

本申请实施例提供的一种确定段落中正确答案位置的方法，首先，获取查询语句；然后，确定所述查询语句的答案所属的段落；将所述查询语句和所述查询语句的答案所属的段落进行拼接，以得到目标数据；最后，基于所述目标数据，确定所述查询语句的答案在所述段落的开始位置和结束位置。

本申请实施例提供的确定段落中正确答案位置的方法，能够首先根据获取到的查询语句，确定出查询语句的答案所属的段落，再对查询语句和查询语句的答案所属的段落进行拼接得到目标数据，并基于目标数据确定出查询语句的答案在段落的开始位置和结束位置。通过这种方式，在使用机器阅读理解深度学习模型获取答案的同时增加了段落筛选的任务，有效地排除了不相关的段落。深度学习模型通过答案段落的筛选和答案在段落中开始、结束位置的训练，使得模型更能学习出用户输入问句和各细选段落之间的语义特征，最终获取到的答案变得更加准确。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种确定段落中正确答案位置的方法的流程图；

图2为本申请实施例提供的训练第二预测模型的步骤的流程图；

图3为本申请实施例提供的一种确定段落中正确答案位置的装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

问答是信息检索的一种高级形式。在日常工作和学习中，遇到问题时通常会去查阅大量的文档，而解决这个问题的答案通常是位于某篇文档的一个段落中，因此搭建文档智能问答***对节约时间和成本具有极大的帮助。然而，大部分文档智能问答算法只能够比较精确地召回答案所对应的段落，而获取到的精确答案通常不够准确。在实际应用中，通常会使用阅读理解模型来获取段落中的答案，会对每一条细选段落均采用阅读理解，每一个细选段落都会抽出一个答案，然后对答案进行打分，来获取最终的答案。但是并不是每个细选段落都会包含答案，所以这种方式会降低答案获取的准确度。

基于此，本申请实施例提供了一种确定段落中正确答案位置的方法，在使用机器阅读理解深度学习模型获取精确答案的同时增加了段落筛选的任务，有效地排除了不相关的细选段落。深度学习模型通过答案段落的筛选和答案在段落中开始、结束位置的训练，使得模型更能学习出用户输入问句和各细选段落之间的语义特征，最终获取到的精准答案变得更加准确，以解决现有技术中使用机器阅读理解深度学习模型来获取答案的方法不够准确的问题。

请参阅图1，图1为本申请实施例所提供的一种确定段落中正确答案位置的方法的流程图。如图1中所示，本申请实施例提供的确定段落中正确答案位置的方法，包括：

S101，获取查询语句。

需要说明的是，查询语句是一个用于查找段落中答案的句子，例如，查询语句可以是“什么是主语”、“什么是数据库”这样的问句。

针对上述步骤S101，获取预测语句，这里的预测语句可以是用户输入的。

S102，确定所述查询语句的答案所属的段落。

需要说明的是，查询语句所属的段落指的是包含查询语句的答案的段落。延续上一实施例，如果获取到的查询语句为“什么是主语”，确定出的查询语句的答案所在的段落可以为“主语是执行句子的行为或动作的主体”。

针对上述步骤S102，基于步骤S101获取到的查询语句，确定出所述查询语句所属段落。

在具体实施时，所述确定所述查询语句所属的段落，包括：

将所述预测语句输入预先训练好的第一预测模型中，以得到所述查询语句所属的段落。

需要说明的是，第一预测模型是用于预测所述查询语句所属的段落的模型，具体地，第一预测模型使用传统的召回算法，进行相似度计算，主要是为了召回所有可能存在查询语句对应的答案的段落。将步骤S101获取到的查询语句输入至第一预测模型中，以得到查询语句所属的段落。利用第一预测模型，基于查询语句确定查询语句所述的段落的技术在现有技术中已有详细的介绍，此处不再进行过多说明。

S103，将所述查询语句和所述查询语句的答案所属的段落进行拼接，以得到目标数据。

需要说明的是，目标数据指的是将查询语句和查询语句的答案所述的段落拼接起来后得到的数据。

作为一种可选的实施方式，在对查询语句和查询语句的答案所属的段落进行拼接时，可以利用分割文本的符号进行拼接。具体地，可以利用

和

对查询语句和查询语句的答案所述的段落进行拼接。其中，

表示拼接后的句子的开始，查询语句和查询语句的答案所述的段落之间用

进行分隔，同时也以

作为结尾。也就是，拼接后的目标数据可以用以下形式表示：“

+查询语句+

+查询语句的答案所属的段落+

”。延续上一实施例，如果获取到的查询语句为“什么是主语”，确定出的查询语句的答案所在的段落为“主语是执行句子的行为或动作的主体”，这是进行拼接后的目标数据为“

+什么是主语+

+主语是执行句子的行为或动作的主体+

”。

需要说明的是，

和

指的是一种用于分割文本的符号，对于文本分类任务，BERT模型在文本前***一个

符号，并将该符号对应的输出向量作为整篇文本的语义表示，用于文本分类。对于该任务，BERT模型除了添加

符号并将对应的输出作为文本的语义表示，还对输入的两句话用一个

符号作分割，并分别对两句话附加两个不同的文本向量以作区分。

S104，基于所述目标数据，确定所述查询语句的答案在所述段落的开始位置和结束位置。

需要说明的是，查询语句的答案在段落的开始位置和结束位置是指答案的开始字符和结束字符在该段落中的位置。具体地，根据本申请提供的实施例，查询语句的答案在段落的开始位置和结束位置可以用数字表示，相当于在该段落中的索引，这个索引是从0开始的，例如查询语句的答案在段落的开始位置为“3”，则表示查询语句的答案的开始位置是该段落中的第四个字。

作为一种可选的实施方式，所述基于所述目标数据，确定所述查询语句的答案在所述段落的开始位置和结束位置，包括：

将所述目标数据输入预先训练好的第二预测模型中，以得到所述查询语句的答案在所述段落的开始位置和结束位置。

需要说明的是，第二预测模型是用于预测所述查询语句的答案在所述段落的开始位置和结束位置的模型。在本申请提供的实施例中，用于预测答案位置的预测模型采用的是BERT模型。

这里，应注意，上述对用于预测查询语句的答案在段落的开始位置和结束位置的模型的选择仅是示例，实际中，用于预测查询语句的答案在段落的开始位置和结束位置的模型不限于上述例子。

请参阅图2，图2为本申请实施例所提供的训练第二预测模型的步骤的流程图。如图2中所示，是通过以下方式训练所述预测模型：

S201，获取样本数据。

其中，所述样本数据包括查询语句样本、所述查询语句样本的答案所属的细选段落和每个细选段落所对应的第一标签信息；所述第一标签信息用来表示所述细选段落中是否包含所述查询语句样本的答案、所述查询语句样本的答案在所述细选段落中的开始位置和结束位置。

需要说明的是，样本数据指的是模型训练集中用于训练第二预测模型的每一条训练数据。模型训练集中包括很多查询语句样本、每个查询语句样本的答案所述的至少一个细选段落以及每个细选段落所对应的第一标签信息。每一条样本数据中均包括以下信息：查询语句样本，查询语句样本的答案所属的细选段落以及该细选段落对应的第一标签信息。

这里，查询语句样本也可以是一个用于查找段落中答案的句子。细选段落指的是可能包括查询语句样本的答案的段落。第一标签信息用来表示该细选段落中是否包含查询语句样本的答案、查询语句样本的答案在细选段落中的开始位置和结束位置。其中，细选段落中是否包含查询语句样本的答案用“0”或“1”表示，“0”表示细选段落中不包含查询语句样本的答案，“1”表示细选段落中包含查询语句样本的答案。查询语句样本的答案在细选段落中的开始位置和结束位置也可以用数字表示，相当于在细选段落中的索引，这个索引是从0开始的，例如查询语句样本的答案在细选段落中的开始位置为“3”，则表示查询语句样本的答案的开始位置是细选段落中的第四个字。如果该细选段落中不包含查询语句样本的答案，则查询语句样本的答案在细选段落中的开始位置设置为“0”，查询语句样本的答案在细选段落中的结束位置也设置为“0”。因此，当该查询语句样本对应的细选段落1中不包括查询语句样本的答案时，对应的一条样本数据可以表示为：“查询语句：细选段落1；0；0；0”；当该查询语句样本对应的细选段落2中包括查询语句样本的答案时，对应的一条样本数据可表示为：“查询语句：细选段落2；1；3；9”。

该步骤中，获取模型训练集中用于训练第二预测模型的某一查询语句对应的所有样本数据，包括该查询语句对应的所有细选段落以及所有所述细选段落对应的第一标签信息。

S202，将所述样本数据输入第二原始预测模型中，对所述第二原始预测模型进行训练，以得到第二预测模型。

需要说明的是，第二原始预测模型指的是用于预测查询语句的答案在段落的开始位置和结束位置的原始模型。

针对步骤S202，将所述样本数据输入第二原始预测模型中，对所述第二原始预测模型进行训练，以得到第二预测模型，包括：

步骤2021，针对样本数据中的查询语句样本的答案所属的每个细选段落，将所述样本数据中的查询语句样本以及所述细选段落进行拼接，得到目标数据样本。

针对上述步骤2021，将样本数据中的查询语句样本以及该细选段落进行拼接的方法与步骤S103中将查询语句和查询语句的答案所属的段落进行拼接的方法相同，在此不再赘述。

步骤2022，将该目标数据样本输入至所述第二原始预测模型中，基于所述第二原始预测模型中的分类器，确定该目标数据样本对应的第二标签信息。

其中，所述第二标签信息用来表示该目标数据样本中的细选段落中是否包含答案、所述细选段落中每个字属于答案开始位置和属于答案结束位置的概率。

针对上述步骤2022，将步骤2021中得到的目标数据样本输入至第二原始预测模型中。

针对步骤2022，在输入细选段落拼接后的数据后，第二原始预测模型会输出两个向量，一个CLS向量，一个输入文本的字粒度向量。CLS向量后面接入线性层作二分类，用于判断该细选段落中是否包含精确答案，构造该二分类的损失函数

，当二分类器所对应的CLS向量输出标签为1时，则表明该细选段落包含查询语句样本对应的答案，当二分类器所对应的CLS向量输出标签为0时，则表明该细选段落不包含查询语句样本对应的答案。字粒度向量后面接入线性层作两个多分类，一个多分类用于判断答案的开始位置，一个多分类用于判断答案的结束位置。BERT模型输出的字粒度向量，后面接入线性层，利用两个多分类器分别得到每个字属于答案开始位置和属于答案结束位置的概率。

步骤2023，将所述细选段落对应的第一标签信息与该目标数据样本对应的第二标签信息进行对比，若所述第一标签信息与所述第二标签信息之间存在差异，则计算当前状态下所述第二原始预测模型的损失函数。

需要说明的是，损失函数（loss function）是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。

针对步骤2023，将该细选段落对应的第一标签信息中的查询语句样本的答案在细选段落中的开始位置和结束位置与目标数据样本对应的第二标签信息中的细选段落中每个字属于答案开始位置和属于答案结束位置的概率进行对比。例如，该细选段落对应的第一标签信息中显示该细选段落的第5个字和第11个字为答案在细选段落中的开始位置和结束位置。目标数据样本对应的第二标签信息中显示该细选段落中的第5个字属于答案开始位置的概率最大，该细选段落中的第11个字属于答案结束位置的概率最大，则认为第二原始预测模型输入的预测结果与模型训练集中的样本数据相同，则认为在该状态下的第二原始预测模型是正确的。若该细选段落对应的第一标签信息中显示该细选段落的第5个字和第11个字为答案在细选段落中的开始位置和结束位置。该细选段落拼接后的数据对应的第二标签信息中显示该细选段落中的第2个字属于答案开始位置的概率最大，该细选段落中的第10个字属于答案结束位置的概率最大，则认为第二原始预测模型输出的预测结果与模型训练集中的样本数据之间存在差异，则认为在该状态下的第二原始预测模型是错误的，这时则需要计算在当前状态下所述第二原始预测模型的损失值。

具体的，每个分类器采用的都是交叉熵损失函数，交叉熵损失的作用是比较分类器得到的预测值与训练集中的真实值之间的差异。在计算整个初始预测模型的损失函数之前，需要构造CLS向量对应的二分类器的损失函数和字粒度向量对应的两个多分类器的损失函数，得到该二分类器对应的损失函数

和两个多分类器对应的损失函数

。在计算出每个分类器的损失值后，利用下述公式（1），计算整个第二原始预测模型在当前状态下的损失函数。

（1）

其中，

表示整个第二原始预测模型在当前状态下的损失函数，

表示用于判断该细选段落中是否包含精确答案的二分类器的损失函数，

表示用于判断答案的开始位置的多分类器的损失函数，

表示用于判断答案的结束位置的多分类器的损失函数。

若判断出第一标签信息与第二标签信息之间不存在差异，则继续对下一个目标数据样本进行处理。

步骤2024，采用小批量随机梯度下降法，基于所述第二原始预测模型的损失函数，不断调整所述第二原始预测模型的模型参数，直至所述第二原始预测模型达到收敛状态，得到第二预测模型。

在本申请提供的实施例中，收敛状态指的是第二原始预测模型两次迭代之间的损失函数变化已经很小，可设定一个阈值，当小于这个阈值后，则认为第二原始预测模型达到收敛状态。小批量随机梯度下降法一种训练模型的方法，随机梯度下降是每次迭代使用一个样本来对参数进行更新，使得训练速度加快。由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。

针对步骤2024，在步骤2023中计算出在当前状态下所述第二原始预测模型的损失函数后，利用小批量随机梯度下降法不断调节第二原始预测模型的模型参数。具体地，第二原始预测模型会通过迭代的方式不断对损失最小化，在迭代的每一步，都会计算出三个分类器的损失值，然后得到整个第二原始预测模型的损失值，即公式（1）中的loss值，那么通过小批量随机梯度下降法对损失函数做最小化，最小化的过程中不断更新第二原始预测模型的参数，新的参数会计算得到新的loss值，从而使得迭代过程中loss值呈现波动下降的趋势。最后当loss值到达平滑的时候，也就是loss值与上一次计算的loss值相比下降不明显时，认为第二原始预测模型达到收敛，这时结束训练。

在预测模型被训练完成后，将所述目标数据输入预先训练好的第二预测模型中，以得到所述查询语句的答案在所述段落的开始位置和结束位置，包括：

步骤301，针对每个目标数据，将该目标数据输入至所述第二预测模型中，基于所述第二预测模型中的分类器，确定该目标数据对应的第三标签信息。

其中，所述第三标签信息用来表示所述查询语句所属的段落是否包含答案、所述查询语句所属的段落中每个字属于答案开始位置和结束位置的概率。

在上述步骤3012中，确定所述目标数据对应的第三标签信息的方法与步骤2023中的方法相同，在此不再赘述。

步骤302，基于所述第三标签信息，确定出该目标数据中的段落是否为所述查询语句的答案所在的段落。

针对步骤302，由于步骤S102确定出的查询语句的答案所属的段落可能有包含查询语句对应的答案的段落，也可能有不包含查询语句对应的答案的段落，因此需要对查询语句的答案所属的段落进行筛选，确定出查询语句的答案所在的段落，这样可以排除不相关的段落，提高了确定答案位置的准确性。

在具体实施时，当用于判断段落中是否包含答案的二分类器所对应的CLS向量输出标签最高时，将该目标数据中的查询语句的答案所述的段落作为查询语句的答案在的段落，也就是，将第三标签信息中用来表示所述段落中是否包含答案的输出标签为1的段落作为查询语句的答案在的段落。在判断出所述目标数据中的段落是否为所述查询语句的答案所在的段落后，继续对下一个目标数据中的段落进行筛选，将下一个目标数据并输入至第二预测模型中，直至最后一个目标数据中的段落被判断出是否为所述查询语句的答案所在的段落后，得到所述查询语句的答案所在的段落。

步骤303，基于所述查询语句的答案所在的段落，确定所述查询语句的答案在所述段落的开始位置和结束位置。

针对步骤303，在查询语句的答案所在的段落被确定后，基于查询语句的答案所在的段落，确定查询语句的答案在段落的开始位置和结束位置。

步骤3031，将所述第三标签信息中的所述查询语句所属的段落中每个字属于答案开始位置和结束位置的概率相加，得到相加后的概率值。

步骤3032，将所有相加后的概率值进行比较，选取相加后的概率值最高的两个字作为所述目标数据的答案开始位置和答案结束位置。

步骤3033，基于所述目标数据的答案开始位置和答案结束位置，确定所述查询语句的答案在所述段落的开始位置和结束位置。

针对上述步骤3031-步骤3033，根据查询语句的答案在段落的开始位置和结束位置所分别对应的两个多分类器取输出值相加值最高的片段作为查询语句对应的答案。

假设开始位置所对应的分类器各时刻输出为

，用户问句

的字符长度为k，结束位置所对应的分类器各时刻的输出为

，则输出相加值最高的合理片段是指满足

所对应的i和j，即预测答案是模型输入的第i个时刻到第j个时刻的片段，从而预测查询语句的答案在段落的开始位置和结束位置分别位于该段落的

位置和

位置。

在具体实施时，假设用户输入的查询语句为“什么是主语”，因此确定用户输入的查询语句的长度k为5，对应的一个细选段落为“主语是执行句子的行为或动作的主体”，将该查询语句与该细选段落进行拼接并输入至预测模型中，得到该细选段落拼接后的数据为“[CLS]+ 什么是主语+ [SEP] + 主语是执行句子的行为或动作的主体+ [SEP]”，这时确定该细选段落拼接后的数据的总长度l为24。预测模型输出的字粒度向量是和输入文本中的每个字相对应的，字粒度向量经过多分类器后，会得到每个字的概率，对于确定开始位置的分类器来说，就是每个字是开始位置的概率，也就是

，假设开始位置是其中的第i个即

。对于确定结束位置的分类器来说，就是每个字是结束位置的概率，也就是

，假定结束位置是其中的第j个即

。在确定出每个字属于开始位置和结束位置的概率后，将开始概率和结束概率得到的相加值最高的两个字作为答案的开始位置和结束位置，既答案在段落的开始位置和结束位置所分别对应的两个多分类器取输出值相加值最高的片段作为查询语句对应的答案。输出相加值最高的合理片段是指满足

所对应的i和j，即预测答案是模型输入的该细选段落拼接后的数据的第i个字到第j个字的片段，从而预测答案的开始和结束位置分别位于该段落的

位置和

位置。根据这两个概率确定答案的位置时有以下三个隐藏条件：（1）答案的开始位置一定要小于答案的结束位置，也就是i<j；（2）答案的开始位置和答案的结束位置一定都出现自细选段落对应的位置，也就是要对应到“主语是执行句子的行为或动作的主体”的位置，所以i，j必须要大于前面细选段落加上两个分类器的长度，就是大于k+2=5+2=7；（3）开始位置和结束位置必须要小于总长度，也就是小于l = 24。由于分类器输出了开始位置和结束位置的每个字的概率，所以肯定选择概率最大的最为开始和结束，在结合上面3条约束条件，可以确定需要满足的公式。确定了i和j之后，因为i和j是在总长度中的位置，还需要减去细选段落前面多余的长度才能得到开始和结束在细选段落中的位置，既（i-k-2, j-k-2）为查询语句的答案在段落的开始位置和结束位置。

请参阅图3，图3为本申请实施例所提供的一种确定段落中正确答案位置的装置的结构示意图。如图3中所示，所述确定段落中正确答案位置的装置300包括：

获取模块301，用于获取查询语句；

段落确定模块302，用于确定所述查询语句的答案所属的段落；

拼接模块303，用于将所述查询语句和所述查询语句的答案所属的段落进行拼接，以得到目标数据；

答案位置确定模块304，用于基于所述目标数据，确定所述查询语句的答案在所述段落的开始位置和结束位置。

进一步的，所述段落确定模块302还用于：

进一步的，所述答案位置确定模块304还用于：

进一步的，所述答案位置确定模块304，还用于：

请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处理器410执行时，可以执行如上述图1以及图2所示方法实施例中的确定段落中正确答案位置的方法的步骤，解决了现有技术中使用机器阅读理解深度学习模型来获取答案的方法不够准确的问题，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的一种确定段落中正确答案位置的方法的步骤，解决了现有技术中使用机器阅读理解深度学习模型来获取答案的方法不够准确的问题，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种确定段落中正确答案位置的方法，其特征在于，所述方法包括：

获取查询语句；

确定所述查询语句的答案所属的段落；

2.根据权利要求1所述的方法，其特征在于，所述确定所述查询语句所属的段落，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标数据，确定所述查询语句的答案在所述段落的开始位置和结束位置，包括：

4.根据权利要求3所述的方法，其特征在于，通过以下方式训练所述第二预测模型：

5.根据权利要求4所述的方法，其特征在于，所述将所述样本数据输入第二原始预测模型中，对所述第二原始预测模型进行训练，以得到第二预测模型，包括：

6.根据权利要求3所述的方法，其特征在于，所述将所述目标数据输入预先训练好的第二预测模型中，以得到所述查询语句的答案在所述段落的开始位置和结束位置，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述查询语句的答案在的段落，确定所述查询语句的答案在所述段落的开始位置和结束位置，包括：

8.一种确定段落中正确答案位置的装置，其特征在于，所述装置包括：

获取模块，用于获取查询语句；

段落确定模块，用于确定所述查询语句的答案所属的段落；

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的确定段落中正确答案位置的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的确定段落中正确答案位置的方法的步骤。