CN115934905A

CN115934905A - 文档问答方法、装置、***、电子设备及存储介质

Info

Publication number: CN115934905A
Application number: CN202211430115.5A
Authority: CN
Inventors: 王涛; 刘权; 李亚; 李阳; 刘聪; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-04-07

Abstract

本发明涉及自然语言处理技术领域，提供一种文档问答方法、装置、***、电子设备及存储介质，该方法利用粗排模型，得到目标文档库中的多个备选文档，利用精排模型得到每个备选文档与用户问题的相似度，并确定目标文档，进而确定用户问题对应的目标答案。粗排模型以及精排模型训练过程采用的样本包括内容文档对以及问题文档对集合，通过内容文档对可以使预训练粗排模型以及预训练精排模型在不引入人工标注的情况下学习到更充分的知识，不仅可以节约模型训练成本，提高训练效率，还可以解决高质量标注数据不足的问题。通过问题文档对集合，可以保证通过粗排模型以及精排模型可以为用户提供准确的目标答案。

Description

文档问答方法、装置、***、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文档问答方法、装置、***、电子设备及存储介质。

背景技术

随着人工智能相关技术的日益成熟，语音交互需求在工作生活中越来越扮演重要角色。问答模块是语音交互***中的重要模块，主要用于解答用户的各类问题。

现有的问答模块应用的问答方法主要是基于文档的开放域问答方法。该方法需要事先收集大规模的文档库，并在获取到用户问题之后，利用问答模型从文档库中检索到用户问题的相关文档，再从文档中抽取或者生成答案。

现有的问答模型虽然可以实现问答，但是在训练过程中需要依赖大量的标注数据，面临高质量标注数据难以获取、效率低的问题。

发明内容

本发明提供一种文档问答方法、装置、***、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明提供一种文档问答方法，包括：

获取用户问题；

将所述用户问题输入至粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档；

将所述用户问题与所述多个备选文档输入至精排模型，得到所述精排模型输出的每个备选文档与所述用户问题的相似度，并确定与所述用户问题的相似度高于预设阈值的目标文档；

基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案；

其中，所述粗排模型以及所述精排模型的训练步骤包括：

基于所述文档库对应的内容文档对，对初始粗排模型以及初始精排模型进行预训练，分别得到预训练粗排模型以及预训练精排模型；所述内容文档对基于所述文档库中任一文档的目标内容以及所述文档库中的文档确定；

基于问题文档对集合，对所述预训练粗排模型以及所述预训练精排模型进行联合训练，得到所述粗排模型以及所述精排模型。

根据本发明提供的一种文档问答方法，所述基于所述问题文档对集合，对所述预训练粗排模型以及所述预训练精排模型进行联合训练，得到所述粗排模型以及所述精排模型，包括：

基于所述问题文档对集合中的第一类问题文档对，对所述预训练粗排模型以及所述预训练精排模型进行联合训练，分别得到基线粗排模型和基线精排模型；

基于所述第一类问题文档对，确定所述基线精排模型对应的困难负样本和/或伪负样本，并基于所述基线精排模型对应的困难负样本和/或伪负样本，对所述基线粗排模型以及所述基线精排模型进行迭代训练，得到所述粗排模型以及备选精排模型；

基于所述备选精排模型，确定所述精排模型。

根据本发明提供的一种文档问答方法，所述基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案，包括：

将所述用户问题与所述目标文档输入至理解模型，得到所述理解模型输出的所述目标文档内的答案片段；

基于所述用户问题、所述答案片段以及所述目标文档与所述用户问题的相似度，确定所述目标答案；

其中，所述精排模型以及所述理解模型基于如下步骤确定：

基于所述问题文档对集合中携带有答案片段标签的第二类问题文档对，对所述备选精排模型以及初始理解模型进行联合训练，得到所述精排模型以及所述理解模型。

根据本发明提供的一种文档问答方法，所述备选精排模型以及所述初始理解模型的编码器参数共享。

根据本发明提供的一种文档问答方法，所述基于所述用户问题、所述答案片段以及所述目标文档与所述用户问题的相似度，确定所述目标答案，包括：

将所述用户问题、所述答案片段以及所述目标文档与所述用户问题的相似度输入至生成模型，得到所述生成模型输出的目标答案；

其中，所述生成模型基于问题答案片段对以及所述问题答案片段对中的答案片段样本所在的文档样本与所述问题答案片段对中的问题样本的相似度训练得到。

根据本发明提供的一种文档问答方法，所述基于所述第一类问题文档对，确定所述基线精排模型对应的困难负样本和/或伪负样本，包括：

将所述第一类问题文档对中的问题样本输入至所述基线粗排模型，得到所述基线粗排模型从所述文档库中检索出的多个关联文档；

将所述多个关联文档输入至所述基线精排模型，得到所述基线精排模型输出的每个关联文档与所述问题样本的相似度；

基于每个关联文档与所述问题样本的相似度，确定所述基线精排模型对应的困难负样本和/或伪负样本。

根据本发明提供的一种文档问答方法，所述将所述用户问题输入至粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档，包括：

将所述用户问题输入至所述粗排模型的问题编码器，得到所述问题编码器输出的问题编码向量；

将所述问题编码向量以及基于所述粗排模型的文档编码器得到的所述文档库中各文档对应的文档编码向量输入至所述粗排模型的相似度计算层，得到所述相似度计算层输出的所述用户问题与所述各文档的相似度；

将所述用户问题与所述各文档的相似度输入至输出层，得到所述输出层输出的所述各文档中相似度高的所述多个备选文档。

本发明还提供一种文档问答装置，包括：

获取模块，用于获取用户问题；

粗排模块，用于将所述用户问题输入至粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档；

精排模块，用于将所述用户问题与所述多个备选文档输入至精排模型，得到所述精排模型输出的每个备选文档与所述用户问题的相似度，并确定与所述用户问题的相似度高于预设阈值的目标文档；

确定模块，用于基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案；

训练模块，用于：

本发明还提供一种文档问答***，包括：语音模块以及上述的文档问答装置；

所述语音模块与所述文档问答装置连接；

所述语音模块用于采集用户问题，并将所述用户问题传输至所述文档问答装置。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的文档问答方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的文档问答方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的文档问答方法。

本发明提供的文档问答方法、装置、***、电子设备及存储介质，首先获取用户问题；然后利用粗排模型从文档库中检索出的多个备选文档，利用精排模型得到每个备选文档与所述用户问题的相似度，并确定与用户问题的相似度高于预设阈值的目标文档，进而确定用户问题对应的目标答案。粗排模型以及精排模型训练过程采用的样本可以包括文档库对应的内容文档对以及问题文档对集合，通过内容文档对可以使预训练粗排模型以及预训练精排模型在不引入人工标注的情况下学习到更充分的知识，不仅可以节约模型训练成本，提高训练效率，还可以解决高质量标注数据不足的问题。通过问题文档对集合，可以保证预训练粗排模型以及预训练精排模型在较少的标注数据的情况下即可被训练为能够准确筛选出目标文档的粗排模型以及精排模型，进而可以为用户提供准确的目标答案。此外，由于该方法采用的文档库并未进行领域限制，因此可以实现开放式问答，具有较强的扩展性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种文档问答方法的流程示意图；

图2是本发明提供的一种基于文档问答模型实现的文档问答方法的流程示意图；

图3是本发明提供的文档问答模型中的粗排模型的结构示意图；

图4是本发明提供的文档问答模型中的精排模型的结构示意图；

图5是本发明提供的一种文档问答装置的结构示意图；

图6是本发明提供的一种文档问答***的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前主流的问答方法可以包括基于问答库匹配的问答方法、基于知识图谱的问答方法以及基于文档的开放域问答方法。

1)基于问答库匹配的问答方法：首先根据日志分析用户习惯构建高频问答库或者根据某领域人工专家构建领域问答库。在用户提出问题后，通过相似度预测模块，从问答库中找出最相近的问题，把该问题对应的答案返回给用户。该方法问答库的构建需要大量人力，且问答对覆盖范围较窄，只适合高频问题，对于长尾问题，覆盖度远远不够。

2)基于知识图谱的问答方法：需要事先构建大规模的知识图谱，在用户提出问题后，首先进行实体链接，将问题中的实体关联到知识图谱的节点，再通过问题预测节点的属性，找到该问题的答案。由于知识图谱的三元组是一种结构化的知识，需要人工整理，因此大规模知识图谱的构建耗时耗力。同时，用户的长尾问题很难抽象成三元组表示，通过知识图谱也很难解决这类问题。

3)基于文档的开放域问答方法：需要事先收集大规模的文档库，并在获取到用户问题之后，利用问答模型从文档库中检索到用户问题的相关文档，再从文档中抽取或者生成答案。在从文档库中检索到相关文档时，问答模型通常基于TF-IDF、BM25等技术的稀疏检索方案以及基于语义相似度的稠密向量检索方案实现。稀疏检索虽然效率高，但是精度低；稠密向量检索则是将问题和文档编码成语义向量，然后根据语义向量计算问题和文档的相似度，选择与问题最相关的文档，稠密向量检索虽然精度较高，但是在训练过程中需要依赖大量的标注数据，面临高质量标注数据难以获取、效率低的问题。

基于此，本发明实施例中提供了一种文档问答方法。

图1为本发明实施例中提供的一种文档问答方法的流程示意图，如图1所示，该方法包括：

S1，获取用户问题；

S2，将所述用户问题输入粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档；

S3，将所述用户问题与所述多个备选文档输入至精排模型，得到所述精排模型输出的每个备选文档与所述用户问题的相似度，并确定与所述用户问题的相似度高于预设阈值的目标文档；

S4，基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案；

其中，所述粗排模型以及所述精排模型的训练步骤包括：

具体地，本发明实施例中提供的文档问答方法，其执行主体为文档问答装置，该装置可以配置于计算机内，该计算机可以为本地计算机或云计算机，本地计算机可以是电脑、平板等，此处不作具体限定。

首先执行步骤S1，获取用户问题。该用户问题既可以通过语音模块采集得到，也可以直接通过外部接口获取。即该用户问题既可以是语音形式，也可以是文本形式，此处不作具体限定。可以理解的是，本发明实施例中是进行文档问答，因此若该用户问题为语音形式，则需要将其转换为文本形式，转换方式可以采用常规的转换方法。

然后执行步骤S2，可以引入文档问答模型，该文档问答模型可以包括粗排模型和精排模型，可以将用户问题输入至粗排模型，由该粗排模型计算用户问题与目标文档库中各文档之间的相似度，并从文档库中检索出的多个备选文档。即粗排模型的输入可以包括用户问题和目标文档库中各文档，输出为多个备选文档。

该文档库可以是大规模的文档库，例如可以达到百万甚至千万量级的规模。该文档库中可以包含有各领域下的文档，例如包括但不限于百科知识、新闻、社交对话、互联网问答等领域，尽量覆盖全面，因此该文档问答方法可以实现开放式问答。

由于大规模的文档库编码需要耗费大量资源和时间，因此文档库中各文档可以预先输入至粗排模型，并通过离线编码得到各文档的特征信息，还可以利用faiss等工具为各文档建立索引。由此，粗排模型可以是双塔结构，即可以包括问题编码器q-encoder和文档编码器p-encoder这两个编码器，问题编码器在线编码，文档编码器离线编码。这两个编码器均可以是BERT等类型的双向语言模型。通过双塔结构的粗排模型，可以兼顾解决召回问题并提高效率。

粗排模型可以先对用户问题进行编码，得到用户问题的特征信息，然后可以通过用户问题的特征信息与各文档的特征信息，计算用户问题与各文档之间的相似度，进而可以根据该相似度的高低从文档库中选取多个备选文档。此处，可以直接从目标文档库中选取相似度高的前多个文档作为备选文档，例如相似度高的top-K个。在选取备选文档时们可以利用faiss等工具从预先建立的索引中检索得到。

此后，执行步骤S3，将用户问题与多个备选文档输入至精排模型，由该精排模型进一步计算每个备选文档与用户问题的相似度，进而可以按与用户问题的相似度由高到低的顺序对各备选文档进行排序，并从多个备选文档中选取相似度大于预设阈值的备选文档作为目标文档。即精排模型的输入可以为用户问题与每个备选文档的拼接结果，输出为每个备选文档与用户问题的相似度。

可以理解的是，目标文档可以为一个或多个，当目标文档为一个时，即目标文档库中只有一个与用户问题的相似度高于预设阈值的文档。当目标文档为多个时，即目标文档库中有多个与用户问题的相似度高于预设阈值的文档，多个目标文档可以按与用户问题的相似度由高到低进行排序。

此处，精排模型可以仅包括一个编码器，该编码器可以是交叉编码器，对拼接结果进行深度交互编码，并根据编码结果得到每个备选文档与用户问题的相似度，通过全连接层输出相似度。该精排模型也可以是BERT等类型的双向语言模型，其损失函数可以是分类损失。

每个备选文档passage与用户问题query的相似度可以通过如下公式计算得到：

score(query,passage)＝BERT(query；passage)。

其中，score(query,passage)表示备选文档passage与用户问题query的相似度，query；passage表示用户问题query与备选文档passage的拼接结果。

该粗排模型与精排模型可以通过如下步骤训练得到：

先根据文档库对应的内容文档对，对初始粗排模型以及初始精排模型进行预训练，分别得到预训练粗排模型以及预训练精排模型。

该内容文档对可以包括正样本对和负样本对，正样本对可以是问题-答案对，负样本对可以是问题-非答案对。正样本对可以通过文档库中任一文档与任一文档的目标内容确定，负样本对可以通过任一文档的目标内容与文档库中除该任一文档之外的剩余文档确定。

可以理解的是，文档库中的任一文档可以是随机采样的一篇文档。目标内容可以是该任一文档的标题，也可以是该任一文档中的一句话。

正样本对中，可以直接通过任一文档p_i的目标内容以及任一文档p_i构成正样本对，即将任一文档p_i的目标内容作为问题q，将该任一文档p_i作为答案，此时正样本对可以表示为(q,p_i)。

负样本对中，可以直接通过任一文档p_i的目标内容以及任一剩余文档p_j构成负样本对，即将任一文档p_i的目标内容作为问题q，将任一剩余文档p_j作为非答案，此时负样本对可以表示为(q,p_j)。也可以通过词频-逆向文件频率(Term Frequency–Inverse DocumentFrequency，TF-IDF)算法或者BM25算法，根据问题q从文档库中召回文档，筛选得分小于第一阈值的M个剩余文档p₁、p_m、…、p_M，然后通过任一文档p_i的目标内容以及M个剩余文档中的任一剩余文档p_m构成负样本对，即将M个剩余文档中的任一文档p_m作为非答案，此时负样本对可以表示为(q,p_m)。该第一阈值的具体取值可以根据需要设定，此处不作具体限定。

由于目标内容并非真实的问题，而是等效出来的问题，可以称为伪问题，因此内容文档对可以作为弱监督训练样本，实现对文档问答模型的弱监督预训练。如此可以使文档问答模型在不引入人工标注的情况下学习到更充分的知识，可以节约模型训练成本。可以理解的是，该弱监督预训练的过程可以是对比学习的过程，即弱监督预训练采用的损失函数为对比学习形式的损失函数。

问题文档对集合是指包含有若干问题文档对的集合，问题文档对集合中包含的问题文档对的数量可以根据需要进行设定，此处不作具体限定，只要满足对弱监督预训练后的模型进行微调即可。问题文档对由问题样本和问题样本对应的文档样本构成，该问题样本是指真实的问题，可以通过人工标注得到。

最后执行步骤S4，可以先通过用户问题对目标文档进行阅读理解，确定出目标文档内的答案片段。此处，该预设阈值的具体取值可以根据需要设定，此处不作具体限定。

在确定出目标文档内的答案片段之后，可以结合目标文档与用户问题的相似度判断目标文档内的答案片段是否可以回答用户问题，对于可以回答用户问题的目标文档内的答案片段作为用户问题对应的目标答案进行输出。

本发明实施例中提供的文档问答方法，首先获取用户问题；然后利用粗排模型从文档库中检索出的多个备选文档，利用精排模型得到每个备选文档与所述用户问题的相似度，并确定与用户问题的相似度高于预设阈值的目标文档，进而确定用户问题对应的目标答案。粗排模型以及精排模型训练过程采用的样本可以包括文档库对应的内容文档对以及问题文档对集合，通过内容文档对，使预训练粗排模型以及预训练精排模型在不引入人工标注的情况下学习到更充分的知识，不仅可以节约模型训练成本，提高训练效率，还可以解决高质量标注数据不足的问题。通过问题文档对集合，可以保证预训练粗排模型以及预训练精排模型在较少的标注数据的情况下即可被训练为能够准确筛选出目标文档的粗排模型以及精排模型，进而可以为用户提供准确的目标答案。此外，由于该方法采用的文档库并未进行领域限制，因此可以实现开放式问答，具有较强的扩展性。

在上述实施例的基础上，本发明实施例中提供的文档问答方法，所述基于所述问题文档对集合，对所述预训练粗排模型以及所述预训练精排模型进行联合训练，得到所述粗排模型以及所述精排模型，包括：

基于所述备选精排模型，确定所述精排模型。

具体地，本发明实施例中，通过问题文档对集合，可以对粗排模型与精排模型进行联合训练。即可以先根据问题文档对集合中的第一类问题文档对，对预训练粗排模型以及预训练精排模型进行联合训练，分别得到基线粗排模型和基线精排模型。该联合训练过程可以理解为是根据第一类问题文档对对弱监督预训练所得的预训练粗排模型以及预训练精排模型进行微调的过程。

可以理解的是，问题文档对集合可以包括第一类问题文档对以及第二类问题文档对，第一类问题文档对以及第二类问题文档对可以相同也可以不同，此处仅用于区分用于不同的训练过程。除此之外，第二类问题文档对还携带有答案片段标签。

根据第一类问题文档对，可以先确定出基线精排模型对应的困难负样本和/或伪负样本，例如可以将第一类问题文档对中的问题样本输入至基线粗排模型，并将基线粗排模型的输出结果输入至基线精排模型，根据基线精排模型的输出结果确定出基线精排模型对应的困难负样本和/或伪负样本。困难负样本是指容易被判定为正样本的负样本，即伪正样本。

此后，可以根据第一类问题文档对，以及基线精排模型对应的困难负样本和/或伪负样本，对基线粗排模型以及基线精排模型进行迭代训练，得到粗排模型以及备选精排模型。该迭代训练的过程是指，在每一迭代轮次，都会确定出基线精排模型对应的困难负样本和/或伪负样本，且都会用于下一迭代轮次中基线粗排模型以及基线精排模型的训练。在第一迭代轮次时基线精排模型对应的困难负样本和/或伪负样本可以通过TF-IDF、BM25等技术对第一类问题文档对进行处理得到。

此后根据备选精排模型即可确定出精排模型，例如可以直接将备选精排模型作为精排模型，也可以将备选精排模型与初始理解模型进行联合训练，进而分别确定精排模型以及理解模型，此处不作具体限定。

本发明实施例中，通过对初始粗排模型以及初始精排模型进行联合训练，不仅可以提高训练效率，缩短训练周期，还可以有效提升粗排模型的召回效果；通过基线精排模型对应的困难负样本和/或伪负样本的引入，可以有效提升样本质量，进而使得到的粗排模型和备选精排模型的精度更高。

在上述实施例的基础上，本发明实施例中提供的文档问答方法，所述基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案，包括：

其中，所述精排模型以及所述理解模型基于如下步骤确定：

具体地，本发明实施例中，文档问答模型还可以包括理解模型以及生成模型。

理解模型用于确定每个目标文档内的答案片段，该理解模型的输入与精排模型相同，均为用户问题与每个目标文档的拼接结果，输出即为每个目标文档内的答案片段。该理解模型也可以仅包括一个编码器，用于对用户问题与每个目标文档的拼接结果进行编码，并通过全连接层输出根据编码结果得到的答案片段。该答案片段可以通过在目标文档内的开始(start)位置和结束(end)位置进行表征。

其中，可以根据问题文档对集合中携带有答案片段标签的第二类问题文档对，对备选精排模型以及初始理解模型进行联合训练，进而得到精排模型以及理解模型。

第二类问题文档对可以包括：1)将开源的中文阅读理解数据集处理成问题和答案的形式，目标为答案在文档中的片段；2)互联网收集的问题以及语音交互***的问题数据，并从文档库中检索到对应的文档，经人工标注后得到答案片段。

例如，可以将第二类问题文档对中的问题样本输入至备选精排模型，得到备选精排模型输出的第一结果，并将第一结果输入至初始理解模型，得到初始理解模型输出的第二结果，然后利用第二类问题文档对中的文档样本与第一结果，计算第一损失，利用答案片段标签与第二结果，计算第二损失，根据第一损失对备选精排模型进行参数迭代，根据第二损失对初始理解模型进行参数迭代，直至第一损失与第二损失收敛，结束训练。

本发明实施例中，通过对备选精排模型以及初始理解模型进行联合训练，可以有效提升目标答***率。

在上述实施例的基础上，本发明实施例中提供的文档问答方法，所述备选精排模型以及所述初始理解模型的编码器参数共享。

具体地，本发明实施例中，备选精排模型以及初始理解模型均仅包含有一个编码器，因此二者的编码器参数可以共享，即二者共用同一个编码器，因编码器后连接的全连接层不同分别实现对应的功能。

为此，在对备选精排模型以及初始理解模型进行联合训练时，可以根据问题文档对集合中的第二类问题文档对，对备选精排模型以及初始理解模型进行多任务学习，即可得到精排模型以及理解模型。一方面可以缩短线上理解时长，另一方面可以互相利用各自任务的训练数据，实现精排模型以及理解模型整体效果的提升。

在上述实施例的基础上，本发明实施例中提供的文档问答方法，所述基于所述用户问题、所述答案片段以及所述目标文档与所述用户问题的相似度，确定所述目标答案，包括：

具体地，生成模型用于判断各目标文档内的答案片段是否可以回答用户问题，并输出能够回答用户问题的答案片段，即用户问题对应的目标答案。该生成模型的输入包括用户问题、每个目标文档内的答案片段以及每个目标文档与用户问题的相似度，输出即为用户问题对应的目标答案。

该生成模型也可以仅包括一个编码器，该编码器也可以是交叉编码器，对输入的拼接结果进行深度交互编码。该生成模型可以按各目标答案与用户问题之间的相似度由高到低进行排序输出，也可以不全部排序输出，仅选取与用户问题的相似度高的若干目标答案或通过设置第二阈值的方式选取与用户问题的相似度高于第二阈值的目标答案进行输出。例如，可以直接选取与用户问题的相似度最高的目标答案输出，提供给用户。

其中，生成模型可以通过问题答案段落对以及问题答案段落对中的答案段落样本所在的文档样本与问题答案段落对中的问题样本的相似度训练得到，其训练过程可以包括：将问题答案段落对中的问题样本以及问题答案段落对中的答案段落样本所在的文档样本与问题答案段落对中的问题样本的相似度输入至初始生成模型，得到初始生成模型的输出结果，然后根据输出结果与问题答案段落对中的答案段落样本，计算损失函数值，最后根据损失函数值，更新初始生成模型的模型参数；迭代执行上述的输入过程以及计算过程，直至损失函数收敛或达到预设迭代次数，得到生成模型。可以理解的是，初始生成模型可以是基础问答模型中的基础生成模型，也可以是其他初始神经网络模型，此处不做具体限定。

在对初始生成模型进行训练时，采用的问题答案片段对可以包括阅读理解数据集以及从互联网社区问答数据中收集到的问答对。互联网社区问答数据经过清洗后，剩余的问答对可以作为正样本；负样本一种是每条问题随机选取答案，另一种是根据问题与答案的字面相似度选取负样本。

该初始生成模型可以与精排模型的结构相同，即均包括一个编码器，该编码器可以是交叉编码器。

本发明实施例中，丰富的问题答案片段对可以保证生成模型的准确性。

在上述实施例的基础上，本发明实施例中提供的文档问答方法，所述基于所述第一类问题文档对，确定所述基线精排模型对应的困难负样本和/或伪负样本，包括：

具体地，本发明实施例中，在确定基线精排模型对应的困难负样本和/或伪负样本时，可以先将第一类问题文档对中的问题样本输入至基线粗排模型，得到基线粗排模型从文档库中检索出的多个关联文档，例如可以是将文档库中与问题样本的相似度高的top N个文档作为关联文档，分别表示为p₁，p₂，……，p_N。此后，可以将top N个关联文档输入至基线精排模型，得到基线精排模型输出的每个关联文档与问题样本的相似度，例如各相似度可以表示为s₁，s₂，……，s_N。

最后，根据每个关联文档与问题样本的相似度，则可以确定出基线精排模型对应的困难负样本和/或伪负样本。此处，可以引入第三阈值λ_-和第四阈值λ₊，且第三阈值λ_-小于第四阈值λ₊。该第三阈值λ_-和第四阈值λ₊的具体取值可以根据需要设定，此处不作具体限定。

对于任一关联文档，若该任一关联文档与问题样本的相似度小于第三阈值，则可以确定该任一关联文档与问题样本构成基线精排模型对应的困难负样本；若该任一关联文档与问题样本的相似度大于第四阈值，则可以确定该任一关联文档与问题样本构成基线精排模型对应的伪负样本。

本发明实施例中，借助于基线粗排模型以及基线精排模型确定基线精排模型对应的困难负样本和/或伪负样本，为基线粗排模型以及基线精排模型的迭代训练增加样本，保证了粗排模型以及精排模型的准确性。

在上述实施例的基础上，本发明实施例中提供的文档问答方法，所述将所述用户问题输入至粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档，包括：

具体地，本发明实施例中，粗排模型可以是双塔结构，即包括问题编码器q-encoder和文档编码器p-encoder，还包括相似度计算层以及输出层，问题编码器q-encoder和文档编码器p-encoder分别与相似度计算层连接，相似度计算层与输出层连接。

在将用户问题query输入至粗排模型之后，可以通过问题编码器q-encoder对用户问题query进行语义编码，得到问题编码向量E_q(query)，然后借助于相似度计算层计算问题编码向量E_q(query)与文档库中各文档passage0对应的文档编码向量E_p(passage0)的乘积，该乘积即表示用户问题query与各文档passage0的相似度sim(query,passage0)。

其中，

E_q(query)＝BERT_q(query)，

E_p(passage0)＝BERT_p(passage0)，

sim(query,passage0)＝E_q(query)·E_p(passage0)。

图2为本发明实施例中提供的一种基于文档问答模型实现的文档问答方法的流程示意图，如图2所示，该方法包括：

将用户问题query以及文档库输入至文档问答模型；

通过文档问答模型中的粗排模型从文档库中检索出top K个目标文档；

通过文档问答模型中的精排模型和理解模型，同时将用户问题和top K个目标文档进行编码，根据用户问题从每个目标文档中抽取答案片段并排序；

通过文档问答模型中的生成模型，确定用户问题对应的目标答案并输出。

图3为本发明实施例中提供的文档问答模型中的粗排模型的结构示意图，如图3所示，粗排模型为双塔结构，包括问题编码器q-encoder和文档编码器p-encoder，还包括相似度计算层31以及输出层32，问题编码器q-encoder和文档编码器p-encoder分别与相似度计算层31连接，相似度计算层31与输出层32连接。

图4为本发明实施例中提供的文档问答模型中的精排模型的结构示意图，如图4所示，精排模型与理解模型的输入均为用户问题query与每个备选文档passage的拼接结果，经交叉编码器cross-encoder后分别输出用户问题query与每个目标文档的相似度score、每个目标文档中与用户问题query对应的答案片段的开始(start)位置和结束(end)位置。

如图5所示，在上述实施例的基础上，本发明实施例中提供了一种文档问答装置，包括：

获取模块51，用于获取用户问题；

粗排模块52，用于将所述用户问题输入至粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档；

精排模块53，用于将所述用户问题与所述多个备选文档输入至精排模型，得到所述精排模型输出的每个备选文档与所述用户问题的相似度，并确定与所述用户问题的相似度高于预设阈值的目标文档；

确定模块54，用于基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案；

训练模块55，用于：

在上述实施例的基础上，本发明实施例中提供的文档问答装置，所述训练模块，用于：

基于所述备选精排模型，确定所述精排模型。

其中，所述精排模型以及所述理解模型基于如下步骤确定：

在上述实施例的基础上，本发明实施例中提供的文档问答装置，所述备选精排模型以及所述初始理解模型的编码器参数共享。

在上述实施例的基础上，本发明实施例中提供的文档问答装置，所述确定模块具体用于：

在上述实施例的基础上，本发明实施例中提供的文档问答装置，所述粗排模块具体用于：

具体地，本发明实施例中提供的文档问答装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

如图6所示，在上述实施例的基础上，本发明实施例中提供了一种文档问答***，包括：语音模块61以及上述各实施例中提供的文档问答装置62，语音模块61与文档问答装置62连接；语音模块61用于采集用户问题，并将用户问题传输至文档问答装置62。

具体地，本发明实施例中，用户可以通过语音输出用户问题，用户问题的语音信号可以被语音模块61采集得到，进而可以将语音信号发送至文档问答装置62，文档问答装置62则将语音信号转换成文本，并执行文档问答方法，向用户提供用户问题对应的目标答案。

此处，语音模块61还可以直接将语音信号转换为文本，并将文本形式的用户问题发送至文档问答装置62。

本发明实施例中提供的文档问答***，将语音模块与文档问答装置相结合，可以使该文档问答***实现语音问答***的功能，用于语音问答，提升用户体验。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(Processor)710、通信接口(Communications Interface)720、存储器(Memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行上述各实施例中提供的文档问答方法，该方法包括：获取用户问题；将所述用户问题输入至粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档；将所述用户问题与所述多个备选文档输入至精排模型，得到所述精排模型输出的每个备选文档与所述用户问题的相似度，并确定与所述用户问题的相似度高于预设阈值的目标文档；基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案；其中，所述粗排模型以及所述精排模型的训练步骤包括：基于所述文档库对应的内容文档对，对初始粗排模型以及初始精排模型进行预训练，分别得到预训练粗排模型以及预训练精排模型；所述内容文档对基于所述文档库中任一文档的目标内容以及所述文档库中的文档确定；基于所述问题文档对集合，对所述预训练粗排模型以及所述预训练精排模型进行联合训练，得到所述粗排模型以及所述精排模型。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例中提供的文档问答方法，该方法包括：获取用户问题；将所述用户问题输入至粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档；将所述用户问题与所述多个备选文档输入至精排模型，得到所述精排模型输出的每个备选文档与所述用户问题的相似度，并确定与所述用户问题的相似度高于预设阈值的目标文档；基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案；其中，所述粗排模型以及所述精排模型的训练步骤包括：基于所述文档库对应的内容文档对，对初始粗排模型以及初始精排模型进行预训练，分别得到预训练粗排模型以及预训练精排模型；所述内容文档对基于所述文档库中任一文档的目标内容以及所述文档库中的文档确定；基于所述问题文档对集合，对所述预训练粗排模型以及所述预训练精排模型进行联合训练，得到所述粗排模型以及所述精排模型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的文档问答方法，该方法包括：获取用户问题；将所述用户问题输入至粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档；将所述用户问题与所述多个备选文档输入至精排模型，得到所述精排模型输出的每个备选文档与所述用户问题的相似度，并确定与所述用户问题的相似度高于预设阈值的目标文档；基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案；其中，所述粗排模型以及所述精排模型的训练步骤包括：基于所述文档库对应的内容文档对，对初始粗排模型以及初始精排模型进行预训练，分别得到预训练粗排模型以及预训练精排模型；所述内容文档对基于所述文档库中任一文档的目标内容以及所述文档库中的文档确定；基于所述问题文档对集合，对所述预训练粗排模型以及所述预训练精排模型进行联合训练，得到所述粗排模型以及所述精排模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文档问答方法，其特征在于，包括：

获取用户问题；

其中，所述粗排模型以及所述精排模型的训练步骤包括：

2.根据权利要求1所述的文档问答方法，其特征在于，所述基于问题文档对集合，对所述预训练粗排模型以及所述预训练精排模型进行联合训练，得到所述粗排模型以及所述精排模型，包括：

基于所述备选精排模型，确定所述精排模型。

3.根据权利要求2所述的文档问答方法，其特征在于，所述基于所述用户问题、所述目标文档以及所述目标文档与所述用户问题的相似度，确定所述用户问题对应的目标答案，包括：

其中，所述精排模型以及所述理解模型基于如下步骤确定：

4.根据权利要求3所述的文档问答方法，其特征在于，所述备选精排模型以及所述初始理解模型的编码器参数共享。

5.根据权利要求3所述的文档问答方法，其特征在于，所述基于所述用户问题、所述答案片段以及所述目标文档与所述用户问题的相似度，确定所述目标答案，包括：

6.根据权利要求2所述的文档问答方法，其特征在于，所述基于所述第一类问题文档对，确定所述基线精排模型对应的困难负样本和/或伪负样本，包括：

7.根据权利要求1-6中任一项所述的文档问答方法，其特征在于，所述将所述用户问题输入至粗排模型，得到所述粗排模型从文档库中检索出的多个备选文档，包括：

8.一种文档问答装置，其特征在于，包括：

获取模块，用于获取用户问题；

训练模块，用于：

9.一种文档问答***，其特征在于，包括：语音模块以及如权利要求8所述的文档问答装置；

所述语音模块与所述文档问答装置连接；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的文档问答方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的文档问答方法。