CN113468309B

CN113468309B - 文本中的答案抽取方法以及电子设备

Info

Publication number: CN113468309B
Application number: CN202110737967.8A
Authority: CN
Inventors: 李龙威; 简仁贤; 马永宁
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-12-22
Anticipated expiration: 2041-06-30
Also published as: CN113468309A

Abstract

本申请提供一种文本中的答案抽取方法以及电子设备，该方法包括：对待处理文本进行断句，获得按序排列的多个句子；将每个句子输入特征提取模型，获得特征提取模型输出的每个句子对应的特征向量；将按序排列的每个句子对应的特征向量作为预测模型的输入，获得预测模型输出的标签序列；所述标签序列中的每个标签用于指示所述标签对应的句子是否用于构成同一标准答案；根据所述按序排列的多个句子对应的标签序列，从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。该方案可以使最终提取的***括完整的句子，而不会截断在句子内部。

Description

文本中的答案抽取方法以及电子设备

技术领域

本申请涉及自然语言处理技术领域，特别涉及一种文本中的答案抽取方法以及电子设备。

背景技术

问答抽取任务是指，从整段文本中抽取出一个或多个问题答案对。一般情况下，答案是原文的一部分文字，问题是由答案生成的一段文字。

当前的问答抽取技术大多是围绕阅读理解场景展开的，很多答案都是只有几个字组成的。但是在抽取FAQ（常见的问题项目与对应问题的解答）标准答案场景中，答案往往是由一句话或多句话组成的。那么，如果依然用传统的基于字或词粒度的token（令牌）来做序列标注抽取答案，就会难以避免答案边界截断在一句话内部。

例如，各级市场监督管理部门的企业登记机构是股权出质登记机构。股权出质登记事项包括：(一)出质人和质权人的姓名或名称；(二)出质股权所在公司的名称；(三)出质股权的数额。申请出质登记的股权应当是依法可以转让和出质的股权。

用字粒度的token（令牌）抽取上述文本中的答案，是有可能抽取成“股权出质登记事项”这种半句话的情况，这样的错误是希望可以避免的。

发明内容

本申请实施例提供了文本中的答案抽取方法，用以提取完整的句子作为答案，避免句子被截断。

本申请实施例提供了一种文本中的答案抽取方法，包括：

对待处理文本进行断句，获得按序排列的多个句子；

将每个句子输入特征提取模型，获得所述特征提取模型输出的每个句子对应的特征向量；

将按序排列的每个句子对应的特征向量作为预测模型的输入，获得所述预测模型输出的标签序列；所述标签序列中的每个标签用于指示所述标签对应的句子是否用于构成同一标准答案；

根据所述按序排列的多个句子对应的标签序列，从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。

在一实施例中，所述从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案，包括：

根据所述按序排列的多个句子对应的标签序列，将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案。

在一实施例中，所述标签包括答案标识和非答案标识；所述标签序列是所述答案标识和非答案标识构成的序列；所述根据所述按序排列的多个句子对应的标签序列，将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案，包括：

根据所述按序排列的多个句子对应的标签序列，将相同答案标识的连续若干句子作为一个标准答案。

在一实施例中，所述标签包括起始标识、中间标识和非答案标识，所述标签序列是所述起始标识、中间标识和非答案标识构成的序列；所述根据所述按序排列的多个句子对应的标签序列，将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案，包括：

根据所述按序排列的多个句子对应的标签序列，从每个起始标识对应的句子开始，将所述起始标识对应的句子和所述起始标识之后标签连续为中间标识的多个句子一起构成一个标准答案。

在一实施例中，在所述将每个句子输入特征提取模型，获得所述特征提取模型输出的每个句子对应的特征向量之前，所述方法还包括：

对训练文本进行断句，获得按序排列的多个样本句子；

获取所述按序排列的多个样本句子的标注序列；

利用所述按序排列的多个样本句子的标注序列，训练得到所述特征提取模型和预测模型。

在一实施例中，所述利用所述按序排列的多个样本句子的标注序列，训练得到所述特征提取模型和预测模型，包括：

根据所述多个样本句子的标注序列，获得每个样本句子对应的二分类结果；所述二分类结果用于指示所述样本句子是否用于构成标准答案；

根据每个样本句子的二分类结果，对预训练模型进行参数调整，训练得到所述特征提取模型；

通过所述特征提取模型提取每个样本句子的特征向量；

将按序排列的多个样本句子的特征向量作为神经网络模型的输入，通过对所述神经网络模型进行迭代，使所述神经网络模型输出的结果序列与所述标注序列之间的误差小于第一阈值或迭代次数大于第二阈值，得到由所述神经网络模型训练得到的预测模型。

根据每个样本句子的二分类结果，对预训练模型进行参数调整，训练得到特征提取中间模型；

通过所述特征提取中间模型提取每个样本句子的特征向量；

将按序排列的多个样本句子的特征向量作为神经网络模型的输入，通过对所述特征提取中间模型和神经网络模型进行迭代，使所述神经网络模型输出的结果序列与所述标注序列之间的误差小于第一阈值或迭代次数大于第二阈值，得到所述特征提取模型和预测模型。

将每个样本句子作为预训练模型的输入，获得所述预训练模型输出的特征向量；

将按序排列的多个样本句子的特征向量作为神经网络模型的输入，通过对所述预训练模型和神经网络模型进行迭代，使所述神经网络模型输出的结果序列与所述标注序列之间的误差小于第一阈值或迭代次数大于第二阈值。

在一实施例中，所述神经网络模型包括双向长短期记忆网络层和条件随机场层，多个所述样本句子的特征向量作为所述双向长短期记忆网络层的输入，所述双向长短期记忆网络层的输出作为所述条件随机场层的输入，所述条件随机场层的输出作为所述结果序列。

本申请实施例提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述文本中的答案抽取方法。

本申请上述实施例提供的技术方案，通过对待处理文本进行断句，获得按序排列的多个句子，并通过特征提取模型提取每个句子对应的特征向量；将按序排列的每个句子对应的特征向量作为预测模型的输入，获得预测模型输出的标签序列；标签序列中的每个标签用于指示标签对应的句子是否用于构成同一标准答案，最后根据标签序列，即可从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。本申请上述实施例把经典的字或词级别粒度的向量嵌入改成句子级别粒度的向量嵌入，可以使最终提取的***括完整的句子，而不会截断在句子内部。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的电子设备的结构示意图；

图2是本申请实施例提供的模型训练过程示意图；

图3是本申请一实施例提供的图2对应实施例中步骤S330的细节流程图；

图4是本申请实施例提供的文本中的答案抽取方法的模型架构图；

图5是本申请另一实施例提供的图2对应实施例中步骤S330的细节流程图；

图6是本申请另一实施例提供的图2对应实施例中步骤S330的细节流程图；

图7是本申请实施例提供的文本中的答案抽取方法的流程示意图；

图8是本申请实施例提供的文本中的答案抽取装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1是本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的文本中的答案抽取方法。如图1所示，该电子设备100包括：一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中，所述处理器102被配置为执行本申请下述实施例提供的文本中的答案抽取方法。

所述处理器102可以是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对所述电子设备100中的其它组件的数据进行处理，还可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的文本中的答案抽取方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

在一实施例中，图1所示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备100也可以具有其他组件和结构。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像，并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地，该数据采集装置110可以为摄像头。

在一实施例中，用于实现本申请实施例的文本中的答案抽取方法的示例电子设备100中的各器件可以集成设置，也可以分散设置，诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体，而将数据采集装置110分离设置。

在一实施例中，用于实现本申请实施例的文本中的答案抽取方法的示例电子设备100可以被实现为诸如笔记本电脑、台式电脑、服务器、平板电脑等智能终端。

图2是本申请实施例提供的用于从文本中抽取答案的模型的训练过程的示意图。如图2所示，模型训练过程包括以下步骤：S310-步骤S330。

步骤S310：对训练文本进行断句，获得按序排列的多个样本句子。

训练文本是指已知标签序列的文本，为与上文的待处理文本进行区分，可以称为训练文本。样本句子是指对训练文本进行断句处理得到的句子，为与上文待处理文本的句子进行区分，此处称为样本句子。按照样本句子在训练文本中的先后顺序，可以得到按序排列的多个样本句子。

步骤S320：获取所述按序排列的多个样本句子的标注序列。

标注序列是指训练文本的标签序列，为与上文待处理文本的标签序列进行区分，称为标注序列。标注序列包括按序排列的多个标签，每个标签用于指示该标签对应的样本句子是否用于构成同一标准答案。

步骤S330：利用所述按序排列的多个样本句子的标注序列，训练得到所述特征提取模型和预测模型。

特征提取模型可以由预训练模型训练得到，预测模型可以由神经网络模型训练得到。神经网络模型可以包括双向长短期记忆网络层和条件随机场层。可以通过预训练模型提取每个样本句子的特征向量，多个样本句子的特征向量作为所述双向长短期记忆网络层的输入，双向长短期记忆网络层的输出作为所述条件随机场层的输入，所述条件随机场层的输出作为结果序列。最后训练目标是，通过调节预训练模型、双向长短期记忆网络层、条件随机场层的参数，使最终输出的结果序列与已知的标注序列之间的误差尽可能小。

下面对几种具体的训练过程展开详细描述。

在一实施例中，如图3所示，上述步骤S330具体包括步骤S401-步骤S404。

步骤S401:根据所述多个样本句子的标注序列，获得每个样本句子对应的二分类结果；所述二分类结果用于指示所述样本句子是否用于构成标准答案。

举例来说，标注序列可以包括三种标识，例如起始标识B，中间标识I，非答案标识O。从起始标识B开始，起始标识对应的句子以及所述起始标识之后标签连续为中间标识的句子一起认为构成同一标准答案，故二分类结果可以是1或0，1用于表示该句子构成标准答案，0表示该句子不用于构成答案。

步骤S402:根据每个样本句子的二分类结果，对预训练模型进行参数调整，训练得到所述特征提取模型。

具体的，可以将每个样本句子作为预训练模型的输入，通过调整预训练模型的参数，使预训练模型输出的预测结果与实际的二分类结果之间的误差尽可能小，训练完成的预训练模型，可以作为特征提取模型。

步骤S403:通过所述特征提取模型提取每个样本句子的特征向量。

步骤S404：将按序排列的多个样本句子的特征向量作为神经网络模型的输入，通过对所述神经网络模型进行迭代，使所述神经网络模型输出的结果序列与所述标注序列之间的误差小于第一阈值或迭代次数大于第二阈值，得到由所述神经网络模型训练得到的预测模型。

如图4所述，本申请实施例提供的方法利用了预训练模型、双向长短期记忆网络层（Bi-LSTM）、条件随机场层（CRF）。

预训练模型例如可以是Bert，本申请实施例会在输入句子序列最前面加入一个特殊的token（令牌）即“[CLS]”，“CLS”是“classifaction”单词的缩写，预训练模型在该位置的输出向量适合做整句话的分类任务。故“[CLS]” token（令牌）位置的输出的向量，作为样本句子的特征向量，输入Bi-LSTM。每个样本句子的特征向量按序输入Bi-LSTM，Bi-LSTM的输出作为CRF的输入，最后CRF输出得到结果序列。

由于预训练模型在步骤S402已经过训练，故在步骤S404可以仅训练Bi-LSTM和CRF，通过调节Bi-LSTM和CRF的权重参数，使CRF输出的结果序列与标注序列之间的误差小于第一阈值或迭代次数大于第二阈值。其中，第一阈值和第二阈值可以根据精度需要设定。

在另一实施例中，如图5所示，上述步骤S330具体包括步骤S601-步骤S604。

步骤S601：根据所述多个样本句子的标注序列，获得每个样本句子对应的二分类结果；所述二分类结果用于指示所述样本句子是否用于构成同一答案。

上述步骤S601可以参照图3对应实施例的步骤S401。

步骤S602：根据每个样本句子的二分类结果，对预训练模型进行参数调整，训练得到特征提取中间模型。

上述步骤S602可以参照图3对应实施例的步骤S402。需要说明的是，图3对应实施例在步骤S402训练得到的模型直接作为后续预测阶段的特征提取模型。而图5对应实施例中，步骤S602训练得到的模型，在步骤S604会再次进行训练，步骤S604训练结束后才作为特征提取模型。故为进行区分，步骤S602训练得到的模型称为特征提取中间模型。

步骤S603：通过所述特征提取中间模型提取每个样本句子的特征向量。

步骤S604：将按序排列的多个样本句子的特征向量作为神经网络模型的输入，通过对所述特征提取中间模型和神经网络模型进行迭代，使所述神经网络模型输出的结果序列与所述标注序列之间的误差小于第一阈值或迭代次数大于第二阈值，得到所述特征提取模型和预测模型。

参照图5，预训练模型在步骤S602先经过第一次训练，在步骤S603和S604与Bi-LSTM和CRF一起进行第二次训练。通过调节已经过第一次（步骤S602）训练的预训练模型、Bi-LSTM和CRF的权重参数，使CRF输出的结果序列与标注序列之间的误差小于第一阈值或迭代次数大于第二阈值。其中，第一阈值和第二阈值可以根据精度需要设定。

在一实施例中，如图6所示，上述步骤S330具体包括步骤:701-步骤S702。

步骤S701：将每个样本句子作为预训练模型的输入，获得所述预训练模型输出的特征向量。

步骤S702：将按序排列的多个样本句子的特征向量作为神经网络模型的输入，通过对所述预训练模型和神经网络模型进行迭代，使所述神经网络模型输出的结果序列与所述标注序列之间的误差小于第一阈值或迭代次数大于第二阈值。

图6对应实施例与图3对应实施例和图5对应实施例的不同之处在于。图6对应实施例的预训练模型与神经网络模型一起进行训练，无需单独先对预训练模型进行训练，从而提高训练效率。采用图5对应实施例提供的方案，先对预训练模型进行训练，再将第一次训练后的预训练模型与神经网络模型再一起训练，可以提高训练得到的模型的准确性。

其中，结果序列和标注序列之间的误差可以通过计算结果序列和标注序列之间的距离表示，例如欧式距离，余弦距离，汉明距离等。

实际文本为例，对特征提取模型和预测模型的训练过程进行描述。

以业务数据集1000条为例，可以采用开源模型RoBERTa-wwm-ext作为该方法的预训练模型，使用GeForce GTX 1080显卡硬件微调预训练模型权重和训练神经网络模型（Bi-LSTM、CRF）的权重。

（1）以业务数据集中的一条样本文本为例：“各级市场监督管理部门的企业登记机构是股权出质登记机构。股权出质登记事项包括：(一)出质人和质权人的姓名或名称;(二)出质股权所在公司的名称;(三)出质股权的数额。申请出质登记的股权应当是依法可以转让和出质的股权”。首先通过标点符号对原文进行断句，得到如下样本句子：

a)各级市场监督管理部门的企业登记机构是股权出质登记机构。

b)股权出质登记事项包括：

c)(一)出质人和质权人的姓名或名称;

d)(二)出质股权所在公司的名称;

e)(三)出质股权的数额。

f)申请出质登记的股权应当是依法可以转让和出质的股权。

（2）根据标注可知，b、c、d、e属于标准答案中的句子，设置标签为1，a、f属于标准答案以外的句子，设置标签为0。

（3）业务数据集中所有样本遍历步骤1、2，得到包含二分类结果的断句数据集。使用RoBERTa-wwm-ext预训练模型在断句数据集上，进行二分类微调训练，得到微调训练后的预训练模型。

（4）构建神经网络模型如图4所示，图4中的“预训练模型”都为步骤（3）中得到的微调训练后的预训练模型。整个模型由三部分组成：

由微调训练后的预训练模型构建的句向量嵌入层；

初始化权重的100维度隐藏层的单层Bi-LSTM（双向长短期记忆网络层）；

初始化权重的CRF（条件随机场层）。

（5）构建序列标注数据集，假设答案是从第2句至第5句，所以序列标注标签为OBIIIO。遍历所有样本文本，得到序列标注数据集1000条。

（6）使用步骤4构建的神经网络模型，在步骤5构建的序列标注数据集上，进行预测模型的训练。

图7是本申请实施例提供的文本中的答案抽取方法的流程示意图。如图7所示，该方法包括步骤S210-步骤S240。

步骤S210：对待处理文本进行断句，获得按序排列的多个句子。

待处理文本是指本地已存储的文本或者从外部设备获取的文本。

断句是指根据“句号、问号、叹号”等断句标点符号，将待处理文本拆分成一个个句子。按照每个句子在待处理文本中的先后顺序，得到按序排列的多个句子。

步骤S220：将每个句子输入特征提取模型，获得所述特征提取模型输出的每个句子对应的特征向量。

特征提取模型可以采用已有的特征提取模型，也可以采用上述方式训练得到的特征提取模型。在一实施例中，特征提取模型可以由Bert等预训练模型训练得到。

举例来说，假设待处理文本拆分得到15个句子，针对每个句子，都通过特征提取模型提取该句子对应的特征向量，故15个句子，一共可以得到15个特征向量。

步骤S230：将按序排列的每个句子对应的特征向量作为预测模型的输入，获得所述预测模型输出的标签序列。

其中，标签序列包括按序排列的多个标签，一个句子对应有一个标签，故按序排列的多个句子，可以得到按序排列的多个标签（即标签序列）。所述标签序列中的每个标签用于指示所述标签对应的句子是否用于构成同一标准答案。

预测模型可以是已经训练好的预测模型，也可以采用下文方式由神经网络模型训练得到的预测模型。神经网络模型可以包括Bi-LSTM（双向长短期记忆网络层）和CRF（条件随机场层）。

在一实施例中，每个句子可以输入已训练完成的预训练模型Bert，得到“[CLS]”（“CLS”是“classifaction”单词的缩写）token（令牌）位置的输出的向量，用该向量作为输入的句子对应的特征向量。将每个句子的特征向量按序输入训练好的Bi-LSTM层，Bi-LSTM层的输出输入训练好的CRF层，最后CRF层输出标签序列。

举例来说，假设待处理文本拆分得到按序排列的15个句子，则标签序列可以包括15个按序排列的标签。举例来说，第1个标签用于指示第1个句子是否是其中一个答案的句子，第2个标签用于指示第2个句子是否属于其中一个答案的句子，以此类推，第15个标签用于指示第15个句子是否是否是其中一个答案的句子。

步骤S240：根据所述按序排列的多个句子对应的标签序列，从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。

标准答案是待处理文本的一部分文字，基于标准答案还可以生成问题，从而得到问题-答案对，问题-答案对可以应用于智能问答领域。

假设标签序列中只有一个句子对应的标签指示该句子用于构成标准答案，则标准答案可以仅由该句子构成。当然，如果标签序列中有多个连续的句子都指示构成同一个标准答案，则这几个连续的句子可以认为是一个标准答案。当然，有些文本中也可能没有属于标准答案的句子，文本中的句子对应的标签均为不是标准答案。

在一实施例中，上述步骤S240具体包括：根据所述按序排列的多个句子对应的标签序列，将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案。

例如，标签序列可以是“333300222222111155555”，3333表示第一个句子到第四个句子属于同一标准答案1，00表示第五个句子和第六个句子不是标准答案，以此类推，222222表示第七个句子到第十二个句子构成同一标准答案2。具体的，在预测过程中，当找到标签为3的连续若干句子构成标准答案1后，如果之后再预测到某个句子概率得分最高的标签为3，可以取概率得分排序第二的标签作为该句子的标签值。从而避免不同标准答案的句子采用相同的标签值。

在一实施例中，标签可以包括答案标识（例如1，2，3，4…）和非答案标识（例如0）；所述标签序列是答案标识和非答案标识构成的序列（例如“333300222222111155555”）；故可以将相同答案标识的连续若干句子作为一个标准答案。

需要说明的是，同一个标准答案的句子对应相同的答案标识，不同标准答案的句子具有不同的答案标识。例如，假设标签序列是“333300222222 111155555”，3、3、3、3是相同的答案标识，表示这4个标签对应的句子是一个标准答案，0、0是非答案标识，2、2、2、2、2、2是相同答案标识，表示这6个标签对应的句子是另一个标准答案。

在其他实施例中，标签可以包括起始标识（例如B）、中间标识（例如I）和非答案标识（例如O）；所述标签序列是起始标识、中间标识和非答案标识构成的序列（OBIIIO）；故可以根据按序排列的多个句子对应的标签序列，从每个起始标识对应的句子开始，将所述起始标识对应的句子和所述起始标识之后标签连续为中间标识的多个句子一起构成一个标准答案。

需要说明的是，起始标识用于指示该标签对应的句子是一个标准答案的句首。而中间标识用于指示该标签对应的句子与前面最近一个起始标签对应的句子一起构成一个标准答案，但是不是句首。非答案标识用于指示该标签对应的句子不属于标准答案。

举例来说，假设标签序列为“OBIIIO”，即第一个句子的标签是非答案标识，第二个句子的标签是起始标识，第三个句子到第五个句子的标签是中间标识，最后一个句子的标签是非答案标识。故起始标识对应的句子可以认为是第二个句子。从起始标识对应的句子开始，即认为从第二个句子开始。起始标识之后标签连续为中间标识的多个句子即第三个句子到第五个句子，因为第六个句子的标签为非答案标识（O）。故将起始标识对应的句子和起始标识之后标签连续为中间标识的多个句子一起构成一个标准答案，在当前例子中，是将第二个句子和第三个句子到第五个句子一起构成一个标准答案。

举例来说，假设标签序列为“OBIIIOOBO”，即存在两个起始标识，则表示存在两个句首，即存在两个标准答案，第一个标准***括第一个起始标识对应的句子（第二句）和第一个起始标识之后标签连续为中间标识的多个句子（第三个句子到第五个句子），故第一个标准答案是第二句到第五句。第二个标准***括第二个起始标识对应的句子（第八句）和第二个起始标识之后标签连续为中间标识的多个句子（不存在）。故第二个标准答案是第八句。

以实际文本为例：“为推进本市商事登记制度改革，健全市场监管体制，促进经济发展，根据国家关于工商登记制度改革的要求和有关法律、法规规定，结合本市实际，制定本办法。商事登记，是指申请人向商事登记机关提出申请，由商事登记机关将商事主体的设立、变更、注销事项予以登记并公示的行为。商事主体，是指经依法登记，以营利为目的从事经营活动的自然人、法人及其他经济组织。本市行政区域内的商事登记及其相关的监督管理活动，适用本办法。市场监督管理部门是本市商事登记机关，负责商事主体的登记及其相关监督管理工作，并负责组织实施本办法。其他相关行政管理部门在各自职责范围内，负责商事主体相关经营项目的行政许可及其监督管理工作。实施商事登记，应当遵循市场主导、主体自治、便捷高效的原则。商事主体的登记事项包括：（一）名称；（二）企业法人的住所、个人独资企业的企业住所、合伙企业的主要经营场所、分公司的营业场所、分支机构的地址或者经营场所、经营单位的地址、个体工商户的经营场所；（三）类型；（四）法定代表人或者其他商事主体负责人；（五）出资总额；（六）营业期限；（七）投资人姓名（名称）。对文本中的答案提取过程进行描述：

（1）对待处理文本进行断句，得到以下15个句子：

a)为推进本市商事登记制度改革，健全市场监管体制，促进经济发展，根据国家关于工商登记制度改革的要求和有关法律、法规规定，结合本市实际，制定本办法。

b)商事登记，是指申请人向商事登记机关提出申请，由商事登记机关将商事主体的设立、变更、注销事项予以登记并公示的行为。

c)商事主体，是指经依法登记，以营利为目的从事经营活动的自然人、法人及其他经济组织。

d)本市行政区域内的商事登记及其相关的监督管理活动，适用本办法。

e)市场监督管理部门是本市商事登记机关，负责商事主体的登记及其相关监督管理工作，并负责组织实施本办法。

f)其他相关行政管理部门在各自职责范围内，负责商事主体相关经营项目的行政许可及其监督管理工作。

g)实施商事登记，应当遵循市场主导、主体自治、便捷高效的原则。

h)商事主体的登记事项包括：

i)（一）名称；

j)（二）企业法人的住所、个人独资企业的企业住所、合伙企业的主要经营场所、分公司的营业场所、分支机构的地址或者经营场所、经营单位的地址、个体工商户的经营场所；

k)（三）类型；

l)（四）法定代表人或者其他商事主体负责人；

m)（五）出资总额；

n)（六）营业期限；

o)（七）投资人姓名（名称）。

（2）15个句子依次输入微调训练过的预训练模型，得到“[CLS]” token（令牌）位置输出的特征向量共15个。

（3）15个句子的特征向量依次输入训练阶段训练过权重的Bi-LSTM（双向长短期记忆网络层）和CRF（条件随机场层），输出标签依次为“OBBOOOOBIIIIIII”。

（4）输出标签共有3个“B”,所以抽出三个答案，即第2个句子为提取的答案1、第3个句子为抽取的答案2、第8个句子至第15个句子为提取的答案3。

答案1：商事登记，是指申请人向商事登记机关提出申请，由商事登记机关将商事主体的设立、变更、注销事项予以登记并公示的行为。

答案2：商事主体，是指经依法登记，以营利为目的从事经营活动的自然人、法人及其他经济组织。

答案3：商事主体的登记事项包括：（一）名称；（二）企业法人的住所、个人独资企业的企业住所、合伙企业的主要经营场所、分公司的营业场所、分支机构的地址或者经营场所、经营单位的地址、个体工商户的经营场所；（三）类型；（四）法定代表人或者其他商事主体负责人；（五）出资总额；（六）营业期限；（七）投资人姓名（名称）。

下述为本申请装置实施例，可以用于执行本申请上述文本中的答案抽取方法方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请文本中的答案抽取方法方法实施例。

图8为本申请一实施例示出的文本中的答案抽取装置的框图，如图8所示，该装置包括：断句处理模块810、向量提取模块820、序列获得模块830以及答案获得模块840。

断句处理模块810，用于对待处理文本进行断句，获得按序排列的多个句子；

向量提取模块820，用于将每个句子输入特征提取模型，获得所述特征提取模型输出的每个句子对应的特征向量；

序列获得模块830，用于将按序排列的每个句子对应的特征向量作为预测模型的输入，获得所述预测模型输出的标签序列；所述标签序列中的每个标签用于指示所述标签对应的句子是否用于构成同一标准答案；

答案获得模块840，用于根据所述按序排列的多个句子对应的标签序列，从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。

上述装置中各个模块的功能和作用的实现过程具体详见上述文本中的答案抽取方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本中的答案抽取方法，其特征在于，包括：

对待处理文本进行断句，获得按序排列的多个句子；

根据所述按序排列的多个句子对应的标签序列，从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案；

所述标签包括答案标识和非答案标识；所述标签序列是所述答案标识和非答案标识构成的序列；所述根据所述按序排列的多个句子对应的标签序列，将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案，包括：

根据所述按序排列的多个句子对应的标签序列，将相同答案标识的连续若干句子作为一个标准答案；

所述标签包括起始标识、中间标识和非答案标识，所述标签序列是所述起始标识、中间标识和非答案标识构成的序列；所述根据所述按序排列的多个句子对应的标签序列，将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案，包括：

根据所述按序排列的多个句子对应的标签序列，从每个起始标识对应的句子开始，将所述起始标识对应的句子和所述起始标识之后标签连续为中间标识的多个句子一起构成一个标准答案；

利用所述按序排列的多个样本句子的标注序列，训练得到所述特征提取模型和预测模型，包括：

通过所述特征提取中间模型提取每个样本句子的特征向量；

2.根据权利要求1所述的方法，其特征在于，在所述将每个句子输入特征提取模型，获得所述特征提取模型输出的每个句子对应的特征向量之前，所述方法还包括：

对训练文本进行断句，获得按序排列的多个样本句子；

获取所述按序排列的多个样本句子的标注序列；

3.根据权利要求1所述的方法，其特征在于，所述利用所述按序排列的多个样本句子的标注序列，训练得到所述特征提取模型和预测模型，包括：

通过所述特征提取模型提取每个样本句子的特征向量；

4.根据权利要求1所述的方法，其特征在于，所述利用所述按序排列的多个样本句子的标注序列，训练得到所述特征提取模型和预测模型，包括：

5.根据权利要求3-4任意一项所述的方法，其特征在于，所述神经网络模型包括双向长短期记忆网络层和条件随机场层，多个所述样本句子的特征向量作为所述双向长短期记忆网络层的输入，所述双向长短期记忆网络层的输出作为所述条件随机场层的输入，所述条件随机场层的输出作为所述结果序列。

6.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-5任意一项所述的文本中的答案抽取方法。