CN112579583B - 一种面向事实检测的证据与声明联合抽取方法 - Google Patents

一种面向事实检测的证据与声明联合抽取方法 Download PDF

Info

Publication number
CN112579583B
CN112579583B CN202011467223.0A CN202011467223A CN112579583B CN 112579583 B CN112579583 B CN 112579583B CN 202011467223 A CN202011467223 A CN 202011467223A CN 112579583 B CN112579583 B CN 112579583B
Authority
CN
China
Prior art keywords
evidence
constraint
statement
category
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011467223.0A
Other languages
English (en)
Other versions
CN112579583A (zh
Inventor
万海
陈海城
黄佳莉
曾娟
赵杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011467223.0A priority Critical patent/CN112579583B/zh
Publication of CN112579583A publication Critical patent/CN112579583A/zh
Application granted granted Critical
Publication of CN112579583B publication Critical patent/CN112579583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向事实检测的证据与声明联合抽取方法,包括:S1:指定用于检索的预料库以及一段待校验的声明,清洗语料库,并对声明进行实体抽取得到实体集;S2:文档检索:对给定的声明,根据实体集使用实体链接方法从清洗后的语料库中检索并构造相应的候选文档集,并将该集合中的所有句子作为候选句子集;S3:基于贪心策略的证据搜索方法来构造证据,并使用预训练语言模型BERT作为证据的评估模型,对评估模型进行训练和测试,得到最终的目标证据和类别。本发明可有效提高证据查找的精确度。

Description

一种面向事实检测的证据与声明联合抽取方法
技术领域
本发明涉及自动事实检测领域,更具体地,涉及一种面向事实检测的证据与声明联合抽取方法。
背景技术
自动事实检测工作的目的是使计算机能自动识别并过滤互联网中的虚假信息,保障信息的真实可靠。随着近年来深度学习在自然语言处理中的成功应用,越来越多研究工作尝试将深度学习技术结合到自动事实检查工作中并取得了不错的成果。事实检测任务是自动事实检测任务的一种,该任务用于判定给定声明的真伪,涉及的目标有两个:(1)证据挖掘,即对于给定的声明,从***上检索出与该声明的相关度最高的句子集作为证据;(2)声明校验,即根据证据对该声明进行分类。该任务包含传统的三阶段管道式的子任务:文档检索、证据构建、声明校验。该任务的输入是声明和***上的所有文档,输出则是证据和声明的标签,其中标签有三类,分别是“支持/拒绝/信息不足”,依次表示通过该证据,我们能得知该声明是真实/虚假/无法判断真伪这三种情况。
因该任务需要在大约五百万份非结构化***文档上检索目标证据,所以为缩小搜索空间,事实检测任务将“证据挖掘”划分成“文档检索”和“证据构建”两个阶段:“文档检索”阶段用于从五百万份文档中检索出可能蕴含目标证据的若干候选文档;“证据构建”阶段用于在这若干候选文档中筛选出构成目标证据的句子集。在“声明校验”阶段需解决的问题是使用检索到的证据对声明进行分类。
针对该任务,现已有很多取得不错效果的工作。例如,发表在AAAI-19会议上的一个工作指出,传统对声明和证据进行语义匹配的做法是将它们投影到一个人为预先设计好的特征词向量空间中,在该空间中进行语义匹配。该方法认为,人为设计的特征向量空间存在很大局限,无法很好地捕获语义信息,因此它提出使用深度模型来自动学习该特征空间用于进行深度语义匹配。因此,它在“文档检索”、“证据构建”、“声明校验”中各自引入了一个同质的神经语义匹配网络,均提高了三个阶段各自的语义匹配精度,从而在该任务上取得了不错的效果;发表在ACL-19会议上的另一个工作主要改进了“声明校验”阶段。它指出,传统的工作在声明校验阶段,仅简单地拼接证据中的所有句子或者生成“声明-句子”对来作为输入,预测声明的类别,忽略了不同句子之间的语义联系,因此它使用了预训练语言模型BERT来编码不同句子的语义信息,然后构建一个全连通的证据图网络来进行句子间的消息传递,捕获潜在的语义联系。
该任务包含传统的三阶段管道式的子任务:文档检索、证据构建、声明校验。大多数已有的方法都遵循该三阶段式框架。但是目前方法存在不足,具体地:
在证据构造阶段,均采用score ranking的方法,即对每个句子进行评估,并取评估得分最高的5条句子作为证据,因此它们均存在无法查找到精确证据的问题,即会在证据中引入许多无关的句子,降低证据的质量,对人工校验造成困难。
发明内容
本发明为克服上述现有技术所述的事实检测过程中无法精确查找证据的缺陷,提供一种面向事实检测的证据与声明联合抽取方法。
所述方法包括如下步骤:
S1:指定用于检索的预料库以及一段待校验的声明,清洗语料库并对声明进行实体抽取;
S2:文档检索,对待校验的声明,使用实体链接方法从语料库中检索并构造相应的候选文档集,并将该集合中的所有句子作为候选句子集;
S3:证据挖掘与声明校验阶段。本阶段基于贪心策略的证据搜索方法来构造证据,并使用预训练语言模型BERT作为证据的评估模型。
其中,所述证据为候选句子集的一个子集,即所述证据的句子来源于候选句子集。
该阶段关于评估模型的训练和测试流程分别如下:
S3.1:训练流程。将基于贪心策略的搜索方案转化为等价的六种约束,并为了使评估模型能够学习到这六个约束,本发明进一步将其转化为对应的六个损失目标函数。
根据数据集中已有的标注证据和候选句子集构造六种约束所对应的训练样例和测试样例;
对于训练数据中的每个样例,它必然满足其中一个或多个约束。将训练样例代入到其满足的约束所对应的目标函数中计算对应的损失值,然后基于该损失值使用随机梯度下降法对评估模型进行参数更新;
S3.2:预测流程。对应给定的一个测例,采用基于贪心策略的证据搜索方法来迭代地构造证据。在每一次迭代搜索时,取得分最高所在的证据和类别作为当前迭代的预测证据和类别;下一次迭代的候选证据由上一次迭代时获得的预测证据和一条候选句子所构成。迭代停止的条件是预测证据包含的句子数达到一个给定的阈值。因此在每次迭代中均会获得一个预测证据、预测类别以及该阶段对应的最高得分。本方法在这些预测证据和类别中取得分最高的那个作为最终的目标证据和类别。
其中,六种约束所对应的训练样例的构造方式如下:
给定训练集中的一条待校验的声明c,该声明对应的标注类别y,标注证据
Figure BDA0002834806230000031
以及候选句子集S={s1,s2,…,sN},通过如下方式构造训练样例:
对于约束一,若y=N,即该声明的标注类别为“无法确立声明真伪”,该约束的训练样例为S中的所有单元素子集,即训练样例集为T1={{si}:si∈S},其中{si}即为该约束的一个训练样例;
对于约束二,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例为e的所有单元素子集,即训练样例集为
Figure BDA0002834806230000032
其中
Figure BDA0002834806230000033
即为该约束的一个训练样例;
对于约束三,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例为e本身,即训练样例集为T3={e},其中e即为该约束的一个训练样例;
对于约束四,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例集为
Figure BDA0002834806230000037
Figure BDA0002834806230000035
其中Ssub为e的任一子集,Svsub为S的任一子集,且Ssub与Svsub包含的句子个数相同且有且仅有一条句子不同。{Ssub,Svsub}即为该约束的一个训练样例;
对于约束五,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例集为
Figure BDA0002834806230000036
其中Ssub为e的任一真子集;{e,Ssub}即为该约束的一个训练样例;
对于约束六,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例集为
Figure BDA00028348062300000411
其中Ssup为S的任一子集,且e是Ssup的真子集且Ssup仅比e多一条句子。{e,Ssup}即为该约束的一个训练样例。
优选地,S1中清洗语料库是指将语料库中的所有文档进行文本清洗,包括去除停用词、低频词和特殊符号;
优选地,S2中对声明进行实体抽取是指使用基于隐马尔科夫模型的方法来抽取出声明中的所有实体,包括组织名、人名、地名等信息。
优选地,S2中实体链接的流程如下:对于给定的声明,根据S1中可获取对应的实体集;遍历语料库中的所有文档,若该文档的标题中含有声明中的任一实体,则将该文档加入到候选文档集中。
优选地,为了避免由于候选文档集中的句子数量过多而导致它们的组合数量大,进而降低搜索效率的问题,本发明设计了一个基于贪心策略的证据搜索方法,大幅度缩小搜索空间。该步骤中基于贪心策略的证据搜索方法的具体流程如下:
步骤1:设置当前查找的证据为
Figure BDA0002834806230000041
当前预测的类别为
Figure BDA0002834806230000042
目标证据
Figure BDA0002834806230000043
目标类别
Figure BDA0002834806230000044
候选文档集所包含的所有句子集为S={s1,s2,…,sN},其中si表示第i条句子、声明为c;
步骤2:构造候选证据集
Figure BDA0002834806230000045
其中
Figure BDA0002834806230000046
表示第i个候选证据;
步骤3:使用预训练语言模型BERT对候选证据集中的每个证据进行评估,即
Figure BDA00028348062300000413
其中V∈RC是一个C维向量,C表示类别的数量;
步骤4:将得分最高对应的候选证据和类别作为当前的证据和预测类别,即
Figure BDA0002834806230000047
步骤5:若当前最高得分高于历史最高得分,则更新目标证据和目标类别,即
Figure BDA0002834806230000048
步骤6:将已被选为证据的句子从候选句子集中删除,即
Figure BDA00028348062300000412
步骤7:若当前查找的证据包含的句子数达到一个给定的阈值K,即
Figure BDA0002834806230000049
则停止搜索,并输出
Figure BDA00028348062300000410
否则重复步骤2~步骤6;
优选地,S3.1中为使评估模型能正确识别目标证据和类别,本发明将所提的搜索方案转化为下面六个约束,并将这些约束转化为等价的损失函数,用于更新该评估模型的参数。对于给定的数据集D={<ci,Si,Ei,yi>:1≤i≤N},其中ci,Si,Ei,y_i依次表示第i条声明、该声明对应的候选句子集、该声明的标注证据、该声明的标注类别。对于数据集中的任一样本,它必然满足如下一个或多个约束:
约束一、若声明的标注类别y=N,即“无法确立声明真伪”,则该声明对应的所有候选证据在N类别上的得分要高于在其它类别上的得分。该约束对应的损失函数如下:
Figure BDA0002834806230000051
其中
Figure BDA0002834806230000052
表示类别
Figure BDA0002834806230000053
上的得分,α1≥0为距离超参;
约束二、若声明的标注类别y=T或者y=F,即“声明为真”或“声明为假”,则该声明对应的标注证据的单元素子集在N类别上的得分要低于T和F类别上的得分。该约束对应的损失函数如下:
Figure BDA0002834806230000054
其中α2≥0为距离超参;
约束三、标注证据E在标注类别y上的得分要高于其错误类别上的得分。该约束对应的损失函数如下:
Figure BDA0002834806230000055
Figure BDA0002834806230000056
其中α3≥0为距离超参;
约束四、对于标注证据E的任一子集,其得分要高于其它集合的得分,这些集合与该子集大小一致,且有且仅有一个元素为该子集的元素。该约束对应的损失函数如下:
Figure BDA0002834806230000057
其中α4≥0为距离超参;
约束五、标注证据E在标注类别y上的得分要高于其所有真子集的得分。该约束对应的损失函数如下:
Figure BDA0002834806230000061
其中α5≥0为距离超参;
约束六、标注证据E在标注类别y上的得分要高于其真超集的得分。该约束对应的损失函数如下:
Figure BDA0002834806230000062
其中α6≥0为距离超参。
优选地,评估模型优化是以最小化下面地损失函数为优化目标,利用随机梯度下降算法进行优化,完成模型地反向传播:
L=L1+L2+L3+L4+L5+L6
与现有技术相比,本发明技术方案的有益效果是:
传统上的事实检测任务是一个由“文档检索”、“证据构建”以及“声明校验”等三个子任务组成的段管道式任务。本发明简化了该三阶段管道式框架,通过将证据构建和声明校验合并为一个阶段,结合了预训练语言模型蕴含的大量先验语言知识,在精确证据查找方面取得了更好的效果。
传统的事实校验方法,在证据构造阶段,均采用score ranking的方法,即对每个句子进行评估,并取评估得分最高的5条句子作为证据,因此它们均存在无法查找到精确证据的问题,即会在证据中引入许多无关的句子,降低证据的质量,对人工校验造成困难。本发明采用基于贪心策略的证据搜索方法,并将该方法转化为等价的损失函数用于评估模型的优化。该方法能有效地查找到精确的证据,在精确证据查找上取得更好的效果。
预训练语言模型已被广泛地应用于解决自然语言推断问题。本发明充分利用了预训练语言模型里蕴含的大量语言先验知识,能更有效地对句子的语义信息进行编码,有助于提高模型对证据和声明之间语义关系的理解。
附图说明
图1为实施例1所述面向事实检测的证据与声明联合抽取方法流程图。
图2为训练阶段流程题。
图3为基于贪心策略的证据搜索方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种面向事实检测的证据与声明联合抽取方法,所述方法包括以下步骤:
所述方法包括以下步骤:
S1:指定用于检索的预料库以及一段待校验的声明,清洗语料库,并对声明进行实体抽取得到实体集;
S2:文档检索:对待校验的声明,根据实体集使用实体链接方法从清洗后的语料库中检索并构造相应的候选文档集,并将该集合中的所有句子作为候选句子集;
S3:基于贪心策略的证据搜索方法来构造证据,并使用预训练语言模型BERT作为证据的评估模型,对评估模型进行训练和测试,得到最终的目标证据和类别;
其中,所述证据为候选句子集的一个子集,即所述证据的句子来源于候选句子集。
S1中清洗语料库是指将语料库中的所有文档进行文本清洗,包括去除停用词、低频词和特殊符号。
对声明进行实体抽取是指使用基于隐马尔科夫模型的方法来抽取出声明中的所有实体,包括组织名、人名、地名的信息。
S2中实体链接具体为:
根据步骤S1中可获取对应的实体集;遍历语料库中的所有文档,若该文档的标题中含有待校验的声明中的任一实体,则将该文档加入到候选文档集中。
S3中对评估模型进行训练和测试,包括以下步骤:
S3.1:将基于贪心策略的搜索方案转化为等价的六种约束,为了使评估模型能够学习到这六个约束,并将六种约束转化为对应的六个损失目标函数;
根据数据集中已有的标注证据和候选句子集构造六种约束所对应的训练样例和测试样例;
对于训练数据中的每个样例,必然满足至少一个约束;
将训练样例代入到其满足的约束所对应的目标函数中计算对应的损失值,然后基于该损失值使用随机梯度下降法对评估模型进行参数优化更新;
S3.2:对应给定的一个测试样例,采用基于贪心策略的证据搜索方法来迭代地构造证据:
在每一次迭代搜索时,基于当前查找的证据(未开始迭代前该证据初始化为空集),对候选句子集中的每条候选句子,使用预训练语言模型BERT计算各候选句子在所有类别上的得分,然后取得分最高的候选句子和对应的类别;
更新候选句子集,即将选取的候选句子从候选句子集中删除;
更新当前查找的证据,即将选取的候选句子添加到当前查找的证据中;
将当前查找的证据和对应的类别作为当前迭代搜索所获得的预测证据和预测类别。
若当前查找的证据包含的句子数达到预设的阈值时停止迭代;
由于每次迭代中均会获得一个预测证据、预测类别以及该阶段对应的最高得分;故以预测证据和类别中取得分最高的那个作为最终的目标证据和类别。
S3.1中所述六种约束分别为:
约束一、若声明的标注类别y=N,即“无法确立声明真伪”,则该声明对应的所有候选证据在N类别上的得分要高于在其它类别上的得分。该约束对应的损失函数如下:
Figure BDA0002834806230000081
其中
Figure BDA0002834806230000082
表示类别
Figure BDA0002834806230000083
上的得分,α1≥0为距离超参;D为给定的数据集D={<ci,Si,ei,yi>:1≤i≤N},ci,Si,ei,y_i依次表示第i条声明、第i条声明对应的候选句子集、第i条声明的标注证据、第i条声明的标注类别;
约束二、若声明的标注类别y=T或者y=F,即“声明为真”或“声明为假”,则该声明对应的标注证据的单元素子集在N类别上的得分要低于T和F类别上的得分;该约束对应的损失函数如下:
Figure BDA0002834806230000091
其中α2≥0为距离超参;
约束三、标注证据e在标注类别y上的得分要高于其错误类别上的得分;该约束对应的损失函数如下:
Figure BDA0002834806230000092
Figure BDA0002834806230000093
其中α3≥0为距离超参;
约束四、对于标注证据e的任一子集,其得分要高于其它集合的得分,这些集合与该子集大小一致,且有且仅有一个元素为该子集的元素。该约束对应的损失函数如下:
Figure BDA0002834806230000094
其中α4≥0为距离超参;
约束五、标注证据e在标注类别y上的得分要高于其所有真子集的得分;该约束对应的损失函数如下:
Figure BDA0002834806230000095
其中α5≥0为距离超参;
约束六、标注证据e在标注类别y上的得分要高于其真超集的得分;该约束对应的损失函数如下:
Figure BDA0002834806230000101
其中α6≥0为距离超参。
评估模型优化是以最小化下面的损失函数为优化目标,利用随机梯度下降算法进行优化,完成模型的反向传播:
L=L1+L2+L3+L4+L5+L6
基于贪心策略的证据搜索方法包括以下步骤:
步骤1:设置当前查找的证据为
Figure BDA0002834806230000102
当前预测的类别为
Figure BDA0002834806230000103
目标证据
Figure BDA0002834806230000104
目标类别
Figure BDA0002834806230000105
候选文档集所包含的候选句子集为S={s1,s2,…,sN},其中si表示第i条句子、声明为c;
步骤2:构造候选证据集
Figure BDA0002834806230000106
其中
Figure BDA0002834806230000107
表示第i个候选证据;
步骤3:使用预训练语言模型BERT对候选证据集中的每个证据进行评估,即
Figure BDA0002834806230000108
其中V∈RC是一个C维向量,C表示类别的数量;
步骤4:将得分最高对应的候选证据和类别作为当前的证据和预测类别,即
Figure BDA0002834806230000109
步骤5:若当前最高得分高于历史最高得分,则更新目标证据和目标类别,即
Figure BDA00028348062300001010
步骤6:将已被选为证据的句子从候选句子集中删除,即
Figure BDA00028348062300001011
步骤7:若当前查找的证据包含的句子数达到预设的阈值K,即
Figure BDA00028348062300001012
则停止搜索,并输出
Figure BDA00028348062300001013
否则重复步骤2~步骤6。
六种约束所对应的训练样例的构造方式如下:
给定训练集中的一条待校验的声明c,该声明对应的标注类别y,标注证据
Figure BDA00028348062300001014
以及候选句子集S={s1,s2,…,sN},通过如下方式构造训练样例:
对于约束一,若y=N,即该声明的标注类别为“无法确立声明真伪”,该约束的训练样例为S中的所有单元素子集,即训练样例集为T1={{si}:si∈S},其中{si}即为该约束的一个训练样例;
对于约束二,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例为e的所有单元素子集,即训练样例集为
Figure BDA0002834806230000111
其中
Figure BDA0002834806230000112
即为该约束的一个训练样例;
对于约束三,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例为e本身,即训练样例集为T3={e},其中e即为该约束的一个训练样例;
对于约束四,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例集为
Figure BDA0002834806230000113
Figure BDA0002834806230000114
其中Ssub为e的任一子集,Svsub为S的任一子集,且Ssub与Svsub包含的句子个数相同且有且仅有一条句子不同。{Ssub,Svsub}即为该约束的一个训练样例;
对于约束五,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例集为
Figure BDA0002834806230000115
其中Ssub为e的任一真子集;{e,Ssub}即为该约束的一个训练样例;
对于约束六,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例集为
Figure BDA0002834806230000116
其中Ssup为S的任一子集,且e是Ssup的真子集且Ssup仅比e多一条句子。{e,Ssup}即为该约束的一个训练样例。下面结合具体实例对本实施例进行说明:
给定一个测例:声明c为“Giada at Home was only available on DVD”,其标注的类别y为N,标注的证据E为{se1,se2},其中se1为“Giada at Home is a television showand first aired on October 18,2008,on the Food Network。”,se2为“Food Network isan American basic cable and satellite television channel”。
数据预处理阶段,如图1所示,对c进行实体标注可获得实体集{Giada at Home,DVD,Giada,Home};之后使用实体链接技术,从语料库中检索到候选文档集,其文档标题为{Giada_at_Home,DVD,Giada},其中文档“Giada_at_Home”正文有3条句子,文档“DVD”正文有2条句子,文档“Giada”正文有4条句子,因此c对应的候选句子集为S={s1,s2,…,s9},其中s1为(Giada_at_Home,0)表示文档“Giada_at_Home“的第一条句子,其它si也依次类推。
训练阶段,如图2所示,设定各个约束的距离超参均为1。根据候选句子集S和标注证据E构造训练数据,构造流程如下:
1.构造E的真子集Ssub={{se1},{se2}},该子集需满足约束二、约束五,因此将其代入到对应的目标函数计算相应的损失值:
Figure BDA0002834806230000121
Figure BDA0002834806230000122
2.构造集合Svsub={{se1,si}:si∈S∧si≠se1∧si≠se2}∪{{se2,si}:si∈S∧si≠se2∧si≠se2}和集合Ssub=E,它们需满足约束四,因此将其代入到对应的目标函数计算相应的损失值:
Figure BDA0002834806230000123
3.构造E的真超集Ssup={{se1,se2,si}:si∈S∧si≠se1∧si≠se2},它和E需满足约束六,因此将其代入对应的目标函数计算对应的损失值:
Figure BDA0002834806230000124
4.E需满足约束三,因此将其代入到对应的目标函数计算对应的损失值:
Figure BDA0002834806230000125
Figure BDA0002834806230000126
基于上述六个约束所的到六个损失值,计算最终的目标损失:
L=L1+L2+L3+L4+L5+L6
然后使用该损失进行随机梯度下降,更新评估模型的参数。
预测阶段,采用基于贪心策略的证据搜索方法进行预测,如图3所示,模型预测流程如下:
步骤1:设置当前查找的证据为
Figure BDA0002834806230000127
当前预测的类别为
Figure BDA0002834806230000128
目标证据
Figure BDA0002834806230000129
目标类别
Figure BDA00028348062300001210
候选文档集所包含的所有句子集为S={s1,s2,…,s9}、声明为c;
步骤2:构造候选证据集
Figure BDA0002834806230000131
其中
Figure BDA0002834806230000132
表示第i个候选证据;
步骤3:使用预训练语言模型BERT对候选证据集中的每个证据进行评估,即
Figure BDA0002834806230000133
其中V∈RC是一个C维向量,C表示类别的数量;
步骤4:将得分最高对应的候选证据和类别作为当前的证据和预测类别,即
Figure BDA0002834806230000134
步骤5:若当前最高得分高于历史最高得分,则更新目标证据和目标类别,即
Figure BDA0002834806230000135
步骤6:将已被选为证据的句子从候选句子集中删除,即
Figure BDA0002834806230000136
步骤7:若当前查找的证据包含的句子数达到一个给定的阈值K,即
Figure BDA0002834806230000137
则停止搜索,并输出
Figure BDA0002834806230000138
否则重复步骤2~步骤6。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种面向事实检测的证据与声明联合抽取方法,其特征在于,所述方法包括以下步骤:
S1:指定用于检索的预料库以及一段待校验的声明,清洗语料库,并对声明进行实体抽取得到实体集;
S2:文档检索:对待校验的声明,根据实体集使用实体链接方法从清洗后的语料库中检索并构造相应的候选文档集,并将该候选文档集- 中的所有句子作为候选句子集;
实体链接具体为:根据步骤S1获取对应的实体集;遍历语料库中的所有文档,若该文档的标题中含有待校验的声明中的任一实体,则将该文档加入到候选文档集中;
S3:基于贪心策略的证据搜索方法来构造证据,并使用预训练语言模型BERT作为证据的评估模型,对评估模型进行训练和测试,得到最终的目标证据和类别;
其中,所述证据为候选句子集的一个子集;
对评估模型进行训练和测试,包括以下步骤:
S3.1:将基于贪心策略的搜索方案转化为等价的六种约束,并将六种约束转化为对应的六个损失目标函数;
根据数据集中已有的标注证据和候选句子集构造六种约束所对应的训练样例和测试样例;
对于训练数据中的每个样例,必然满足至少一个约束;
将训练样例代入到其满足的约束所对应的目标函数中计算对应的损失值,然后基于该损失值使用随机梯度下降法对评估模型进行参数优化更新;
所属所述六种约束分别为:
约束一、若声明的标注类别y=N,即“无法确立声明真伪”,则该声明对应的所有候选证据在N类别上的得分要高于在其它类别上的得分;该约束对应的损失函数如下:
Figure FDA0003642165860000011
其中
Figure FDA0003642165860000021
表示类别
Figure FDA0003642165860000022
上的得分,fN(·)表示类别N上的得分,{s}表示仅具有一条候选句子的标注证据,α1≥0为距离超参;D为给定的数据集D={<ci,Si,ei,yi>:1≤i≤N},ci,Si,ei,yi依次表示第i条声明、第i条声明对应的候选句子集、第i条声明的标注证据、第i条声明的标注类别;
约束二、若声明的标注类别y=T或者y=F,即“声明为真”或“声明为假”,则该声明对应的标注证据的单元素子集在N类别上的得分要低于T和F类别上的得分;该约束对应的损失函数如下:
Figure FDA0003642165860000023
其中α2≥0为距离超参;
约束三、标注证据e在标注类别y上的得分要高于其错误类别上的得分;该约束对应的损失函数如下:
Figure FDA0003642165860000024
Figure FDA0003642165860000025
其中α3≥0为距离超参;
约束四、对于标注证据e的任一子集,其得分要高于其它集合的得分,这些集合与该子集大小一致,且有且仅有一个元素不为该子集的元素;该约束对应的损失函数如下:
Figure FDA0003642165860000026
其中α4≥0为距离超参,Ssub表示标注证据e的任一子集,Svsub表示与Ssub大小相同、有且仅有一个元素不同的集合;
约束五、标注证据e在标注类别y上的得分要高于其所有真子集的得分;该约束对应的损失函数如下:
Figure FDA0003642165860000031
其中α5≥0为距离超参,S′sub表示标注证据e的任一真子集;
约束六、标注证据e在标注类别y上的得分要高于其真超集的得分;该约束对应的损失函数如下:
Figure FDA0003642165860000032
其中α6≥0为距离超参;
S3.2:对应给定的一个测试样例,采用基于贪心策略的证据搜索方法来迭代地构造证据:
在每一次迭代搜索时,基于当前查找的证据,对候选句子集中的每条候选句子,使用预训练语言模型BERT计算各候选句子在所有类别上的得分,然后取得分最高的候选句子和对应的类别;
更新候选句子集,即将选取的候选句子从候选句子集中删除;
更新当前查找的证据,即将选取的候选句子添加到当前查找的证据中;
将当前查找的证据和对应的类别作为当前迭代搜索所获得的预测证据和预测类别;
若当前查找的证据包含的句子数达到预设的阈值时停止迭代;
由于每次迭代中均会获得一个预测证据、预测类别以及该次迭代阶段 对应的最高得分;故以预测证据和类别中取得分最高的那个作为最终的目标证据和类别;
基于贪心策略的证据搜索方法包括以下步骤:
步骤1:设置当前查找的证据为
Figure FDA0003642165860000033
当前预测的类别为
Figure FDA0003642165860000034
目标证据
Figure FDA0003642165860000035
目标类别
Figure FDA0003642165860000036
候选文档集所包含的候选句子集为S={s1,s2,…,sN},其中si表示第i条句子、声明为c;
步骤2:构造候选证据集
Figure FDA0003642165860000037
其中
Figure FDA0003642165860000038
表示第i个候选证据;
步骤3:使用预训练语言模型BERT对候选证据集中的每个证据进行评估,即
Figure FDA0003642165860000039
其中V∈RC是一个C维向量,C表示类别的数量;
步骤4:将得分最高对应的候选证据和类别作为当前的证据和预测类别,即
Figure FDA0003642165860000041
步骤5:若当前最高得分高于历史最高得分,则更新目标证据和目标类别,即
Figure FDA0003642165860000042
步骤6:将已被选为证据的句子从候选句子集中删除,即
Figure FDA0003642165860000043
步骤7:若当前查找的证据包含的句子数达到预设的阈值K,即
Figure FDA0003642165860000044
则停止搜索,并输出
Figure FDA0003642165860000045
否则重复步骤2~步骤6。
2.根据权利要求1所述面向事实检测的证据与声明联合抽取方法,其特征在于,S1中清洗语料库是指将语料库中的所有文档进行文本清洗,包括去除停用词、低频词和特殊符号。
3.根据权利要求2所述面向事实检测的证据与声明联合抽取方法,其特征在于,对声明进行实体抽取是指使用基于隐马尔科夫模型的方法来抽取出声明中的所有实体,包括组织名、人名、地名的信息。
4.根据权利要求1所述面向事实检测的证据与声明联合抽取方法,其特征在于,评估模型优化是以最小化损失函数为优化目标,利用随机梯度下降算法进行优化,完成模型的反向传播。
5.根据权利要求4所述面向事实检测的证据与声明联合抽取方法,其特征在于,损失函数为:
L=L1+L2+L3+L4+L5+L6
6.根据权利要求5所述面向事实检测的证据与声明联合抽取方法,其特征在于,六种约束所对应的训练样例的构造方式如下:
给定训练集中的一条待校验的声明c,该声明对应的标注类别y,标注证据
Figure FDA0003642165860000046
以及候选句子集S={s1,s2,…,sN},通过如下方式构造训练样例:
对于约束一,若y=N,即该声明的标注类别为“无法确立声明真伪”,该约束的训练样例为S中的所有单元素子集,即训练样例集为T1={{si}:si∈S},其中{si}即为该约束的一个训练样例;
对于约束二,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例为e的所有单元素子集,即训练样例集为
Figure FDA0003642165860000047
其中
Figure FDA0003642165860000048
即为该约束的一个训练样例;
对于约束三,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例为e本身,即训练样例集为T3={e},其中e即为该约束的一个训练样例;
对于约束四,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例集为
Figure FDA0003642165860000051
Figure FDA0003642165860000052
其中Ssub为e的任一子集,Svsub为S的任一子集,且Ssub与Svsub包含的句子个数相同且有且仅有一条句子不同;{Ssub,Svsub}即为该约束的一个训练样例;
对于约束五,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例集为
Figure FDA0003642165860000053
其中S′sub为e的任一真子集;{e,S′sub}即为该约束的一个训练样例;
对于约束六,若y=T或者y=F,即该声明的标注类别为“声明为真”或“声明为假”,该约束的训练样例集为
Figure FDA0003642165860000054
其中Ssup为S的任一子集,且e是Ssup的真子集且Ssup仅比e多一条句子;{e,Ssup}即为该约束的一个训练样例。
CN202011467223.0A 2020-12-14 2020-12-14 一种面向事实检测的证据与声明联合抽取方法 Active CN112579583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011467223.0A CN112579583B (zh) 2020-12-14 2020-12-14 一种面向事实检测的证据与声明联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011467223.0A CN112579583B (zh) 2020-12-14 2020-12-14 一种面向事实检测的证据与声明联合抽取方法

Publications (2)

Publication Number Publication Date
CN112579583A CN112579583A (zh) 2021-03-30
CN112579583B true CN112579583B (zh) 2022-07-29

Family

ID=75134819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011467223.0A Active CN112579583B (zh) 2020-12-14 2020-12-14 一种面向事实检测的证据与声明联合抽取方法

Country Status (1)

Country Link
CN (1) CN112579583B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048286B (zh) * 2021-10-29 2024-06-07 南开大学 一种融合图转换器和共同注意力网络的自动事实验证方法
CN116383239B (zh) * 2023-06-06 2023-08-15 中国人民解放军国防科技大学 一种基于混合证据的事实验证方法、***及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
CN103488707A (zh) * 2013-09-06 2014-01-01 中国人民解放军国防科学技术大学 一种基于贪心策略和启发式算法搜索候选类别的方法
CN107533698A (zh) * 2015-05-08 2018-01-02 汤森路透全球资源无限公司 社交媒体事件的检测与验证
CN109766434A (zh) * 2018-12-29 2019-05-17 北京百度网讯科技有限公司 摘要生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
CN103488707A (zh) * 2013-09-06 2014-01-01 中国人民解放军国防科学技术大学 一种基于贪心策略和启发式算法搜索候选类别的方法
CN107533698A (zh) * 2015-05-08 2018-01-02 汤森路透全球资源无限公司 社交媒体事件的检测与验证
CN109766434A (zh) * 2018-12-29 2019-05-17 北京百度网讯科技有限公司 摘要生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Reasoning over semantic level graph for fact checking;W Zhong et al.;《Proceedings of the 58th annual meeting of the association for computational linguistics》;20200101;1-7 *
基于概念对象模型的文本摘要技术研究;孙秀胜;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》;20160815(第8期);I138-1486 *

Also Published As

Publication number Publication date
CN112579583A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN107729468B (zh) 基于深度学习的答案抽取方法及***
CN112579477A (zh) 一种缺陷检测方法、装置以及存储介质
CN112507699B (zh) 一种基于图卷积网络的远程监督关系抽取方法
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112732919A (zh) 一种面向网络安全威胁情报的智能分类标签方法及***
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111091009B (zh) 一种基于语义分析的文档关联审核方法
CN112579583B (zh) 一种面向事实检测的证据与声明联合抽取方法
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及***
CN110377690B (zh) 一种基于远程关系抽取的信息获取方法和***
CN113065356B (zh) 一种基于语义分析算法的it设备运维故障建议处理方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111488459A (zh) 一种基于关键词的产品分类方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN116244445B (zh) 航空文本数据标注方法及其标注***
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN112836029A (zh) 一种基于图的文档检索方法、***及其相关组件
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及***
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及***
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN103577414B (zh) 数据处理方法和设备
CN114155913B (zh) 一种基于高阶动态贝叶斯的基因调控网络构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant