CN112579583B

CN112579583B - 一种面向事实检测的证据与声明联合抽取方法

Info

Publication number: CN112579583B
Application number: CN202011467223.0A
Authority: CN
Inventors: 万海; 陈海城; 黄佳莉; 曾娟; 赵杭
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-07-29
Anticipated expiration: 2040-12-14
Also published as: CN112579583A

Abstract

本发明涉及一种面向事实检测的证据与声明联合抽取方法，包括：S1：指定用于检索的预料库以及一段待校验的声明，清洗语料库，并对声明进行实体抽取得到实体集；S2：文档检索：对给定的声明，根据实体集使用实体链接方法从清洗后的语料库中检索并构造相应的候选文档集，并将该集合中的所有句子作为候选句子集；S3：基于贪心策略的证据搜索方法来构造证据，并使用预训练语言模型BERT作为证据的评估模型，对评估模型进行训练和测试，得到最终的目标证据和类别。本发明可有效提高证据查找的精确度。

Description

一种面向事实检测的证据与声明联合抽取方法

技术领域

本发明涉及自动事实检测领域，更具体地，涉及一种面向事实检测的证据与声明联合抽取方法。

背景技术

自动事实检测工作的目的是使计算机能自动识别并过滤互联网中的虚假信息，保障信息的真实可靠。随着近年来深度学习在自然语言处理中的成功应用，越来越多研究工作尝试将深度学习技术结合到自动事实检查工作中并取得了不错的成果。事实检测任务是自动事实检测任务的一种，该任务用于判定给定声明的真伪，涉及的目标有两个：(1)证据挖掘，即对于给定的声明，从***上检索出与该声明的相关度最高的句子集作为证据；(2)声明校验，即根据证据对该声明进行分类。该任务包含传统的三阶段管道式的子任务：文档检索、证据构建、声明校验。该任务的输入是声明和***上的所有文档，输出则是证据和声明的标签，其中标签有三类，分别是“支持/拒绝/信息不足”，依次表示通过该证据，我们能得知该声明是真实/虚假/无法判断真伪这三种情况。

因该任务需要在大约五百万份非结构化***文档上检索目标证据，所以为缩小搜索空间，事实检测任务将“证据挖掘”划分成“文档检索”和“证据构建”两个阶段：“文档检索”阶段用于从五百万份文档中检索出可能蕴含目标证据的若干候选文档；“证据构建”阶段用于在这若干候选文档中筛选出构成目标证据的句子集。在“声明校验”阶段需解决的问题是使用检索到的证据对声明进行分类。

针对该任务，现已有很多取得不错效果的工作。例如，发表在AAAI-19会议上的一个工作指出，传统对声明和证据进行语义匹配的做法是将它们投影到一个人为预先设计好的特征词向量空间中，在该空间中进行语义匹配。该方法认为，人为设计的特征向量空间存在很大局限，无法很好地捕获语义信息，因此它提出使用深度模型来自动学习该特征空间用于进行深度语义匹配。因此，它在“文档检索”、“证据构建”、“声明校验”中各自引入了一个同质的神经语义匹配网络，均提高了三个阶段各自的语义匹配精度，从而在该任务上取得了不错的效果；发表在ACL-19会议上的另一个工作主要改进了“声明校验”阶段。它指出，传统的工作在声明校验阶段，仅简单地拼接证据中的所有句子或者生成“声明-句子”对来作为输入，预测声明的类别，忽略了不同句子之间的语义联系，因此它使用了预训练语言模型BERT来编码不同句子的语义信息，然后构建一个全连通的证据图网络来进行句子间的消息传递，捕获潜在的语义联系。

该任务包含传统的三阶段管道式的子任务：文档检索、证据构建、声明校验。大多数已有的方法都遵循该三阶段式框架。但是目前方法存在不足，具体地：

在证据构造阶段，均采用score ranking的方法，即对每个句子进行评估，并取评估得分最高的5条句子作为证据，因此它们均存在无法查找到精确证据的问题，即会在证据中引入许多无关的句子，降低证据的质量，对人工校验造成困难。

发明内容

本发明为克服上述现有技术所述的事实检测过程中无法精确查找证据的缺陷，提供一种面向事实检测的证据与声明联合抽取方法。

所述方法包括如下步骤：

S1：指定用于检索的预料库以及一段待校验的声明，清洗语料库并对声明进行实体抽取；

S2：文档检索，对待校验的声明，使用实体链接方法从语料库中检索并构造相应的候选文档集，并将该集合中的所有句子作为候选句子集；

S3：证据挖掘与声明校验阶段。本阶段基于贪心策略的证据搜索方法来构造证据，并使用预训练语言模型BERT作为证据的评估模型。

其中，所述证据为候选句子集的一个子集，即所述证据的句子来源于候选句子集。

该阶段关于评估模型的训练和测试流程分别如下：

S3.1：训练流程。将基于贪心策略的搜索方案转化为等价的六种约束，并为了使评估模型能够学习到这六个约束，本发明进一步将其转化为对应的六个损失目标函数。

根据数据集中已有的标注证据和候选句子集构造六种约束所对应的训练样例和测试样例；

对于训练数据中的每个样例，它必然满足其中一个或多个约束。将训练样例代入到其满足的约束所对应的目标函数中计算对应的损失值，然后基于该损失值使用随机梯度下降法对评估模型进行参数更新；

S3.2：预测流程。对应给定的一个测例，采用基于贪心策略的证据搜索方法来迭代地构造证据。在每一次迭代搜索时，取得分最高所在的证据和类别作为当前迭代的预测证据和类别；下一次迭代的候选证据由上一次迭代时获得的预测证据和一条候选句子所构成。迭代停止的条件是预测证据包含的句子数达到一个给定的阈值。因此在每次迭代中均会获得一个预测证据、预测类别以及该阶段对应的最高得分。本方法在这些预测证据和类别中取得分最高的那个作为最终的目标证据和类别。

其中，六种约束所对应的训练样例的构造方式如下：

给定训练集中的一条待校验的声明c，该声明对应的标注类别y，标注证据

以及候选句子集S＝{s₁,s₂,…,s_N}，通过如下方式构造训练样例：

对于约束一，若y＝N，即该声明的标注类别为“无法确立声明真伪”，该约束的训练样例为S中的所有单元素子集，即训练样例集为T₁＝{{s_i}:s_i∈S}，其中{s_i}即为该约束的一个训练样例；

对于约束二，若y＝T或者y＝F，即该声明的标注类别为“声明为真”或“声明为假”，该约束的训练样例为e的所有单元素子集，即训练样例集为

其中

即为该约束的一个训练样例；

对于约束三，若y＝T或者y＝F，即该声明的标注类别为“声明为真”或“声明为假”，该约束的训练样例为e本身，即训练样例集为T₃＝{e}，其中e即为该约束的一个训练样例；

对于约束四，若y＝T或者y＝F，即该声明的标注类别为“声明为真”或“声明为假”，该约束的训练样例集为

其中S_sub为e的任一子集，S_vsub为S的任一子集，且S_sub与S_vsub包含的句子个数相同且有且仅有一条句子不同。{S_sub,S_vsub}即为该约束的一个训练样例；

对于约束五，若y＝T或者y＝F，即该声明的标注类别为“声明为真”或“声明为假”，该约束的训练样例集为

其中S_sub为e的任一真子集；{e,S_sub}即为该约束的一个训练样例；

对于约束六，若y＝T或者y＝F，即该声明的标注类别为“声明为真”或“声明为假”，该约束的训练样例集为

其中S_sup为S的任一子集，且e是S_sup的真子集且S_sup仅比e多一条句子。{e,S_sup}即为该约束的一个训练样例。

优选地，S1中清洗语料库是指将语料库中的所有文档进行文本清洗，包括去除停用词、低频词和特殊符号；

优选地，S2中对声明进行实体抽取是指使用基于隐马尔科夫模型的方法来抽取出声明中的所有实体，包括组织名、人名、地名等信息。

优选地，S2中实体链接的流程如下：对于给定的声明，根据S1中可获取对应的实体集；遍历语料库中的所有文档，若该文档的标题中含有声明中的任一实体，则将该文档加入到候选文档集中。

优选地，为了避免由于候选文档集中的句子数量过多而导致它们的组合数量大，进而降低搜索效率的问题，本发明设计了一个基于贪心策略的证据搜索方法，大幅度缩小搜索空间。该步骤中基于贪心策略的证据搜索方法的具体流程如下：

步骤1：设置当前查找的证据为

当前预测的类别为

目标证据

目标类别

候选文档集所包含的所有句子集为S＝{s₁,s₂,…,s_N}，其中s_i表示第i条句子、声明为c；

步骤2：构造候选证据集

其中

表示第i个候选证据；

步骤3：使用预训练语言模型BERT对候选证据集中的每个证据进行评估，即

其中V∈R^C是一个C维向量，C表示类别的数量；

步骤4：将得分最高对应的候选证据和类别作为当前的证据和预测类别，即

步骤5：若当前最高得分高于历史最高得分，则更新目标证据和目标类别，即

步骤6：将已被选为证据的句子从候选句子集中删除，即

步骤7：若当前查找的证据包含的句子数达到一个给定的阈值K，即

则停止搜索，并输出

否则重复步骤2～步骤6；

优选地，S3.1中为使评估模型能正确识别目标证据和类别，本发明将所提的搜索方案转化为下面六个约束，并将这些约束转化为等价的损失函数，用于更新该评估模型的参数。对于给定的数据集D＝{<c_i,S_i,E_i,y_i>:1≤i≤N}，其中c_i，S_i，E_i，y_i依次表示第i条声明、该声明对应的候选句子集、该声明的标注证据、该声明的标注类别。对于数据集中的任一样本，它必然满足如下一个或多个约束：

约束一、若声明的标注类别y＝N，即“无法确立声明真伪”，则该声明对应的所有候选证据在N类别上的得分要高于在其它类别上的得分。该约束对应的损失函数如下：

其中

表示类别

上的得分，α₁≥0为距离超参；

约束二、若声明的标注类别y＝T或者y＝F，即“声明为真”或“声明为假”，则该声明对应的标注证据的单元素子集在N类别上的得分要低于T和F类别上的得分。该约束对应的损失函数如下：

其中α₂≥0为距离超参；

约束三、标注证据E在标注类别y上的得分要高于其错误类别上的得分。该约束对应的损失函数如下：

其中α₃≥0为距离超参；

约束四、对于标注证据E的任一子集，其得分要高于其它集合的得分，这些集合与该子集大小一致，且有且仅有一个元素为该子集的元素。该约束对应的损失函数如下：

其中α₄≥0为距离超参；

约束五、标注证据E在标注类别y上的得分要高于其所有真子集的得分。该约束对应的损失函数如下：

其中α₅≥0为距离超参；

约束六、标注证据E在标注类别y上的得分要高于其真超集的得分。该约束对应的损失函数如下：

其中α₆≥0为距离超参。

优选地，评估模型优化是以最小化下面地损失函数为优化目标，利用随机梯度下降算法进行优化，完成模型地反向传播：

L＝L₁+L₂+L₃+L₄+L₅+L₆

与现有技术相比，本发明技术方案的有益效果是：

传统上的事实检测任务是一个由“文档检索”、“证据构建”以及“声明校验”等三个子任务组成的段管道式任务。本发明简化了该三阶段管道式框架，通过将证据构建和声明校验合并为一个阶段，结合了预训练语言模型蕴含的大量先验语言知识，在精确证据查找方面取得了更好的效果。

传统的事实校验方法，在证据构造阶段，均采用score ranking的方法，即对每个句子进行评估，并取评估得分最高的5条句子作为证据，因此它们均存在无法查找到精确证据的问题，即会在证据中引入许多无关的句子，降低证据的质量，对人工校验造成困难。本发明采用基于贪心策略的证据搜索方法，并将该方法转化为等价的损失函数用于评估模型的优化。该方法能有效地查找到精确的证据，在精确证据查找上取得更好的效果。

预训练语言模型已被广泛地应用于解决自然语言推断问题。本发明充分利用了预训练语言模型里蕴含的大量语言先验知识，能更有效地对句子的语义信息进行编码，有助于提高模型对证据和声明之间语义关系的理解。

附图说明

图1为实施例1所述面向事实检测的证据与声明联合抽取方法流程图。

图2为训练阶段流程题。

图3为基于贪心策略的证据搜索方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种面向事实检测的证据与声明联合抽取方法，所述方法包括以下步骤：

所述方法包括以下步骤：

S1：指定用于检索的预料库以及一段待校验的声明，清洗语料库，并对声明进行实体抽取得到实体集；

S2：文档检索：对待校验的声明，根据实体集使用实体链接方法从清洗后的语料库中检索并构造相应的候选文档集，并将该集合中的所有句子作为候选句子集；

S3：基于贪心策略的证据搜索方法来构造证据，并使用预训练语言模型BERT作为证据的评估模型，对评估模型进行训练和测试，得到最终的目标证据和类别；

S1中清洗语料库是指将语料库中的所有文档进行文本清洗，包括去除停用词、低频词和特殊符号。

对声明进行实体抽取是指使用基于隐马尔科夫模型的方法来抽取出声明中的所有实体，包括组织名、人名、地名的信息。

S2中实体链接具体为：

根据步骤S1中可获取对应的实体集；遍历语料库中的所有文档，若该文档的标题中含有待校验的声明中的任一实体，则将该文档加入到候选文档集中。

S3中对评估模型进行训练和测试，包括以下步骤：

S3.1：将基于贪心策略的搜索方案转化为等价的六种约束，为了使评估模型能够学习到这六个约束，并将六种约束转化为对应的六个损失目标函数；

对于训练数据中的每个样例，必然满足至少一个约束；

将训练样例代入到其满足的约束所对应的目标函数中计算对应的损失值，然后基于该损失值使用随机梯度下降法对评估模型进行参数优化更新；

S3.2：对应给定的一个测试样例，采用基于贪心策略的证据搜索方法来迭代地构造证据：

在每一次迭代搜索时，基于当前查找的证据(未开始迭代前该证据初始化为空集)，对候选句子集中的每条候选句子，使用预训练语言模型BERT计算各候选句子在所有类别上的得分，然后取得分最高的候选句子和对应的类别；

更新候选句子集，即将选取的候选句子从候选句子集中删除；

更新当前查找的证据，即将选取的候选句子添加到当前查找的证据中；

将当前查找的证据和对应的类别作为当前迭代搜索所获得的预测证据和预测类别。

若当前查找的证据包含的句子数达到预设的阈值时停止迭代；

由于每次迭代中均会获得一个预测证据、预测类别以及该阶段对应的最高得分；故以预测证据和类别中取得分最高的那个作为最终的目标证据和类别。

S3.1中所述六种约束分别为：

其中

表示类别

上的得分，α₁≥0为距离超参；D为给定的数据集D＝{<c_i,S_i,e_i,y_i>:1≤i≤N}，c_i，S_i，e_i，y_i依次表示第i条声明、第i条声明对应的候选句子集、第i条声明的标注证据、第i条声明的标注类别；

约束二、若声明的标注类别y＝T或者y＝F，即“声明为真”或“声明为假”，则该声明对应的标注证据的单元素子集在N类别上的得分要低于T和F类别上的得分；该约束对应的损失函数如下：

其中α₂≥0为距离超参；

约束三、标注证据e在标注类别y上的得分要高于其错误类别上的得分；该约束对应的损失函数如下：

其中α₃≥0为距离超参；

其中α₄≥0为距离超参；

约束五、标注证据e在标注类别y上的得分要高于其所有真子集的得分；该约束对应的损失函数如下：

其中α₅≥0为距离超参；

约束六、标注证据e在标注类别y上的得分要高于其真超集的得分；该约束对应的损失函数如下：

其中α₆≥0为距离超参。

评估模型优化是以最小化下面的损失函数为优化目标，利用随机梯度下降算法进行优化，完成模型的反向传播：

L＝L₁+L₂+L₃+L₄+L₅+L₆。

基于贪心策略的证据搜索方法包括以下步骤：

步骤1：设置当前查找的证据为

当前预测的类别为

目标证据

目标类别

候选文档集所包含的候选句子集为S＝{s₁,s₂,…,s_N}，其中s_i表示第i条句子、声明为c；

步骤2：构造候选证据集

其中

表示第i个候选证据；

其中V∈R^C是一个C维向量，C表示类别的数量；

步骤6：将已被选为证据的句子从候选句子集中删除，即

步骤7：若当前查找的证据包含的句子数达到预设的阈值K，即

则停止搜索，并输出

否则重复步骤2～步骤6。

六种约束所对应的训练样例的构造方式如下：

其中

即为该约束的一个训练样例；

其中S_sup为S的任一子集，且e是S_sup的真子集且S_sup仅比e多一条句子。{e,S_sup}即为该约束的一个训练样例。下面结合具体实例对本实施例进行说明：

给定一个测例：声明c为“Giada at Home was only available on DVD”,其标注的类别y为N，标注的证据E为{s_e1,s_e2}，其中s_e1为“Giada at Home is a television showand first aired on October 18,2008,on the Food Network。”，s_e2为“Food Network isan American basic cable and satellite television channel”。

数据预处理阶段，如图1所示，对c进行实体标注可获得实体集{Giada at Home,DVD，Giada,Home}；之后使用实体链接技术，从语料库中检索到候选文档集，其文档标题为{Giada_at_Home,DVD，Giada}，其中文档“Giada_at_Home”正文有3条句子，文档“DVD”正文有2条句子，文档“Giada”正文有4条句子，因此c对应的候选句子集为S＝{s₁,s₂,…,s₉}，其中s₁为(Giada_at_Home,0)表示文档“Giada_at_Home“的第一条句子，其它s_i也依次类推。

训练阶段，如图2所示，设定各个约束的距离超参均为1。根据候选句子集S和标注证据E构造训练数据，构造流程如下：

1.构造E的真子集S_sub＝{{s_e1},{s_e2}},该子集需满足约束二、约束五，因此将其代入到对应的目标函数计算相应的损失值：

2.构造集合S_vsub＝{{s_e1,s_i}:s_i∈S∧s_i≠s_e1∧s_i≠s_e2}∪{{s_e2,s_i}:s_i∈S∧s_i≠s_e2∧s_i≠s_e2}和集合S_sub＝E，它们需满足约束四，因此将其代入到对应的目标函数计算相应的损失值：

3.构造E的真超集S_sup＝{{s_e1,s_e2,s_i}:s_i∈S∧s_i≠s_e1∧s_i≠s_e2}，它和E需满足约束六，因此将其代入对应的目标函数计算对应的损失值：

4.E需满足约束三，因此将其代入到对应的目标函数计算对应的损失值：

基于上述六个约束所的到六个损失值，计算最终的目标损失：

L＝L₁+L₂+L₃+L₄+L₅+L₆

然后使用该损失进行随机梯度下降，更新评估模型的参数。

预测阶段，采用基于贪心策略的证据搜索方法进行预测，如图3所示，模型预测流程如下：

步骤1：设置当前查找的证据为

当前预测的类别为

目标证据

目标类别

候选文档集所包含的所有句子集为S＝{s₁,s₂,…,s₉}、声明为c；

步骤2：构造候选证据集

其中

表示第i个候选证据；

其中V∈R^C是一个C维向量，C表示类别的数量；

步骤6：将已被选为证据的句子从候选句子集中删除，即

则停止搜索，并输出

否则重复步骤2～步骤6。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。