CN114548325B - 基于对偶对比学习的零样本关系抽取方法和*** - Google Patents

基于对偶对比学习的零样本关系抽取方法和*** Download PDF

Info

Publication number
CN114548325B
CN114548325B CN202210441073.9A CN202210441073A CN114548325B CN 114548325 B CN114548325 B CN 114548325B CN 202210441073 A CN202210441073 A CN 202210441073A CN 114548325 B CN114548325 B CN 114548325B
Authority
CN
China
Prior art keywords
sample
label
model
samples
vector representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210441073.9A
Other languages
English (en)
Other versions
CN114548325A (zh
Inventor
张世琨
叶蔚
李博
谢睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210441073.9A priority Critical patent/CN114548325B/zh
Publication of CN114548325A publication Critical patent/CN114548325A/zh
Application granted granted Critical
Publication of CN114548325B publication Critical patent/CN114548325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及软件检测技术领域,提出一种基于对偶对比学习的零样本关系抽取方法和***,其中方法包括:获取样本数据集,将样本数据集分为训练集、验证集和测试集;对训练集进行预处理;对预处理后的样本进行编码,结合位置编码,得到各样本的向量表示,对训练集中样本的标签进行编码,得到各标签的向量表示;结合样本层的对比学习和标签层的对比学习计算模型损失,计算模型损失后构建关系抽取模型;将验证集输入关系抽取模型,得到最优关系抽取模型;将测试集输入优化后的关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。根据本发明的方案,保证零样本关系抽取的高效和精准,解决了现有技术中对零样本关系抽取迫切需求的问题。

Description

基于对偶对比学习的零样本关系抽取方法和***
技术领域
本发明涉及信息检测技术领域,尤其涉及一种基于对偶对比学习的零样本关系抽取方法、***、电子设备以及计算机可读存储介质。
背景技术
随着互联网的发展,网上的信息爆发式的增长,人们每天不仅要接收大量新的知识和新闻,同时,互联网上每天也会出现海量新的实体和关系类型。而关系抽取技术就是一种通过给定的上下文信息和目标实体(包括头实体和尾实体),判断两个实体之间是何种关系的技术。而在以往的研究中,研究者们主要集中于标签(即头尾实体的关系名称,例如北京和中国的关系是首都,首都即为关系名称)完全确定的关系抽取。即预定义目标关系类型之后,标注大量对应的样本,然后通过训练机器学习或者深度学习模型,来判断新的样本和头尾实体的关系类型。然而,这种方法不适用于关系类型空间持续扩大的场景,也就是说,在关系类型不断增加的实际场景中,我们需要更加灵活的关系抽取方法。随之而来的研究是针对零样本的关系抽取方法,即给定一些新的关系类型,但是没有对应的已标注数据集。模型需要通过自己学习得到了一些知识,结合新的样本上下文信息,来判断关系类型。这种技术需求迫切,其下游应用场景也极为广泛,比如知识图谱动态扩充,问答***,检索***等等,但是其实现难度较大。
发明内容
本发明的目的在于解决背景技术中的至少一个技术问题,提供一种基于对偶对比学习的零样本关系抽取方法、***、电子设备以及计算机可读存储介质。
为实现上述发明目的,本发明提供一种基于对偶对比学习的零样本关系抽取方法,包括:
获取样本数据集,根据所述样本数据集中的样本的标签将所述样本数据集分为训练集、验证集和测试集;
对所述训练集进行预处理,得到所述训练集中目标实体的位置编码;
采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示;
结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失,计算模型损失后优化所述DeBERTa模型作为关系抽取模型;
将验证集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于所述测试集;
将测试集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述最优关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。
根据本发明的一个方面,所述位置编码具有两个向量表示,其中第一个向量表示样本中的每个单词与所述目标实体的头实体的相对位置关系,第二个向量表示样本中的每个单词与所述目标实体的尾实体的相对位置关系。
根据本发明的一个方面,采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示为:
使用DeBERTa模型对各样本进行编码,随后拼接所述第一个向量表示和所述第二个向量表示,经过双层神经网络,得到各样本的向量表示。
根据本发明的一个方面,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示为:
获取各所述标签的现有描述文本片段,将各所述描述文本片段进行编码,将编码后的各所述描述文本片段输入所述双层神经网络,通过所述双层神经网络的平均池化层得到各所述标签的向量表示。
根据本发明的一个方面,所述样本层的对比学习为:
将各样本轮流作为对照样本,将其他未作为所述对照样本时的样本与当前所述对照样本进行对比,与所述对照样本标签相同的样本作为正样本,与所述对照样本标签不同的样本作为负样本。
根据本发明的一个方面,所述标签层的对比学习为:
将所述训练集中存在的标签轮流作为对照标签,将属于当前所述对照标签的样本作为正样本,不属于当前所述对照标签的样本作为负样本。
为实现上述目的,本发明还提供一种基于对偶对比学习的零样本关系抽取***,包括:
数据获取分类模块,获取样本数据集,根据所述样本数据集中的样本的标签将所述样本数据集分为训练集、验证集和测试集;
预处理模块,对所述训练集进行预处理,得到所述训练集中目标实体的位置编码;
数据编码模块,采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示;
模型构建模块,结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失,计算模型损失后优化所述DeBERTa模型作为关系抽取模型;
模型优化模块,将验证集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于所述测试集;
测试模块,将测试集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述最优关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。
为实现上述目的,本发明还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于对偶对比学习的零样本关系抽取方法。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述基于对偶对比学习的零样本关系抽取方法。
根据本发明的上述方案,本发明利用DeBERTa模型来作为语义匹配的基础模型进行调优训练,采用了有监督对比学习来提升模型的表达能力,基于此,形成对偶对比学习和语义匹配的训练策略来适应零样本关系抽取,保证零样本关系抽取的高效和精准,解决了现有技术中对零样本关系抽取迫切需求的问题。
附图说明
图1示意性表示根据本发明的基于对偶对比学习的零样本关系抽取方法的流程图;
图2示意性表示根据本发明的基于对偶对比学习的零样本关系抽取***的结构框图。
具体实施方式
现在将参照示例性实施例来论述本发明的内容。应当理解,论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容,而不是暗示对本发明的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。
为了解决上述背景技术中提及的技术问题,更好的进行零样本关系抽取,本发明对零样本关系抽取问题进行了深入分析,发现零样本关系抽取可以通过基于语义匹配的模型框架来解决。例如,在句子(样本)“北京是中国的首都,拥有大量的高质量教育资源”中,给定头实体是北京,尾实体是中国,假设零样本关系抽取的标签中有{首都,包含,创始人}三种标签。基于语义匹配(即语言文字所蕴含的意义的匹配)的零样本关系抽取方法,可以通过深度学习和预训练语言模型,首先把输入的文本(样本)和三个标签分别进行语义编码,然后通过语义匹配的方案,找到与当前输入样本语义最相似的标签语义,这个关系就可以作为零样本关系抽取的标签。为了提升性能,本发明引入了对偶对比学习来优化预训练模型。同时,通过先验知识来扩充标签。比如,可以把标签名称{首都}扩展为:首都,是对一个国家的政治中心和中央政府所在地的称呼,政治和经济活动的中心城市,各类国家级机关集中驻扎地,国家主权的象征城市。据此,本发明提出一种基于对偶对比学习的零样本关系抽取方法,具体来说,该方法通过语义匹配框架来进行零样本关系抽取,通过对偶对比学习来优化已有的预训练语言模型,得到有区分性的输入样本和标签的语义表示,通过扩充标签描述对外部知识进行进一步融合,使得外部知识能够得到充分利用。本发明使用的技术主要涉及三种已有技术:关系抽取技术、预训练语言模型编码技术和对比学习技术。
具体地,图1示意性表示根据本发明的基于对偶对比学习的零样本关系抽取方法的流程图。如图1所示,根据本发明的基于对偶对比学习的零样本关系抽取方法,包括以下步骤:
a. 获取样本数据集,根据样本数据集中的样本的标签将样本数据集分为训练集、验证集和测试集;
b. 对训练集进行预处理,得到训练集中目标实体的位置编码;
c. 采用DeBERTa模型对预处理后的训练集中的各样本进行编码,结合位置编码,得到各样本的向量表示,对训练集中的各样本的标签进行编码,得到各标签的向量表示;
d. 结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失,计算模型损失后优化所述DeBERTa模型作为关系抽取模型;
e. 将验证集进行预处理并得到其中各样本的向量表示以及各标签的向量表示后输入关系抽取模型,获取并保存验证集中样本与标签相似度最高的最优关系抽取模型用于测试集;
f. 将测试集进行预处理并得到其中各样本的向量表示以及各标签的向量表示后输入最优关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。
根据本发明的一种实施方式,在上述a步骤中,通过搜集已有开源关系抽取数据集,将数据集中的样本按照标签分成训练集、验证集和测试集。其中,每个集合中的标签均是独立的,完全没有标签的重叠。
具体地,在本实施方式中,获取用于训练的带有人工标注的关系抽取样本,这些训练样本的标签与测试集的完全不重叠,即测试集的预测过程是一个完全的零样本预测过程。
根据本发明的一种实施方式,在上述b步骤中,因为样本中目标实体是关系抽取中十分重要的部分,所以首先对输入的样本中的目标实体进行突出表示的预处理。在本实施方式中,具体来说,预处理是在头实体的前后各加入一个特殊符号#,而在尾实体的前后各加入一个特殊符号@,依次来让模型重点学习实体部分的信息。样本中的目标实体的位置信息采用位置编码(position embedding)来表示。在本实施方式中,位置编码有2个向量表示,第一个向量表示样本中的每个单词与目标实体的头实体的相对位置关系,第二个向量表示样本中的每个单词与目标实体的尾实体的相对位置关系。这些相对位置的ID会通过一个embedding映射层映射为连续的向量,与样本中的单词的embedding一起输入到模型中。
根据本发明的一种实施方式,在上述c步骤中,采用DeBERTa模型对预处理后的训练集中的各样本进行编码,结合位置编码,得到各样本的向量表示为:
使用DeBERTa模型对输入的各样本进行编码,随后拼接第一个向量表示和第二个向量表示,经过双层神经网络,得到当前样本的向量表示(也称语义表示)。
对训练集中的各样本的标签进行编码,得到各标签的向量表示为:
获取各标签的现有描述文本片段(例如百度百科和***中对标签的名字的描述),将各描述文本片段进行编码,将编码后的各描述文本片段输入双层神经网络,通过双层神经网络的平均池化层得到各标签的向量表示。
根据本发明的一种实施方式,在上述d步骤中,结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失(即为对偶对比学习损失的过程),计算模型损失后优化DeBERTa模型作为关系抽取模型。其中,样本层的对比学习为:将各样本轮流作为对照样本,将其他未作为对照样本时的样本与当前对照样本进行对比,与对照样本标签相同的样本作为正样本,与对照样本标签不同的样本作为负样本。标签层的对比学习为:将训练集中存在的标签轮流作为对照标签,将属于当前对照标签的样本作为正样本,不属于当前对照标签的样本作为负样本。在本实施方式中,如此设置,是因为本发明是针对零样本(即测试集样本标签与训练集和验证集不重叠,完全独立)关系抽取,需要处理零样本关系抽取问题,所以普通的用分类层对样本直接分类然后优化参数的架构设计是不适用的。因为这种训练方式只能处理训练数据与测试数据的标签完全一致的场景。因此,本发明采用了对偶对比学习创造语义匹配的训练策略。
在本实施方式中,例如,在一个训练集的batch中有32个样本,本发明将所有的32个输入样本和训练集中的20个关系标签进行编码之后,进行上述两个方面的对比学习:1)样本层对比学习。在训练过程中,当前batch中32个样本的所有标签是已知的。轮流地给定其中一个样本,其他样本与当前样本标签相同的样本作为正样本,与其标签不同的样本作为负样本,用来计算模型损失;2)关系标签层对比学习。同样地,在当前batch中出现过的标签,对于其中的任意一个标签,属于该标签的样本作为正样本,不属于该关系标签的样本作为负样本,用来计算模型损失。这两种过程结合起来是一个对偶对比损失,即同时考虑了以样本为计算锚点和以标签为计算锚点两个方面。
根据本发明的一种实施方式,在上述e步骤中,对验证集做与上述训练集相同的处理,得到验证集中样本的向量表示和标签的向量表示,将得到样本的向量表示和标签的向量表示输入关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型(即依次计算样本的向量表示与标签的向量表示的相似度,取相似度最高的样本关系作为预测结果,保存与该预测结果相关的最优关系抽取模型),将最优关系抽取模型用于测试集进行测试。
根据本发明的一种实施方式,在上述f步骤中,对测试集做与上述训练集相同的处理,得到测试集中样本的向量表示和标签的向量表示,将得到样本的向量表示和标签的向量表示输入上述最优关系抽取模型,得到语义匹配(即样本与标签的含义匹配)的结果作为零样本关系抽取结果。
根据本发明的上述方案,本发明利用DeBERTa模型来作为语义匹配的基础模型进行调优训练,采用了有监督对比学习来提升模型的表达能力,基于此,形成对偶对比学习和语义匹配的训练策略来适应零样本关系抽取,保证零样本关系抽取的高效和精准,解决了现有技术中对零样本关系抽取迫切需求的问题。
为了实现上述发明目的,本发明还提供一种基于对偶对比学习的零样本关系抽取***,结构框图如图2所示,具体包括:
数据获取分类模块,获取样本数据集,根据样本数据集中的样本的标签将样本数据集分为训练集、验证集和测试集;
预处理模块,采用DeBERTa模型对训练集进行预处理,得到训练集中目标实体的位置编码;
数据编码模块,对预处理后的训练集中的各样本进行编码,结合位置编码,得到各样本的向量表示,对训练集中的各样本的标签进行编码,得到各标签的向量表示;
模型构建模块,结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失,计算模型损失后优化DeBERTa模型作为关系抽取模型;
模型优化模块,将验证集进行预处理并得到其中各样本的向量表示以及各标签的向量表示后输入关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于测试集;
测试模块,将测试集进行预处理并得到其中各样本的向量表示以及各标签的向量表示后输入最优关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。
根据本发明的一种实施方式,在上述数据获取分类模块中,通过搜集已有开源关系抽取数据集,将数据集中的样本按照标签分成训练集、验证集和测试集。其中,每个集合中的标签均是独立的,完全没有标签的重叠。
具体地,在本实施方式中,获取用于训练的带有人工标注的关系抽取样本,这些训练样本的标签与测试集的完全不重叠,即测试集的预测过程是一个完全的零样本预测过程。
根据本发明的一种实施方式,在上述预处理模块中,因为样本中目标实体是关系抽取中十分重要的部分,所以首先对输入的样本中的目标实体进行突出表示的预处理。在本实施方式中,具体来说,预处理是在头实体的前后各加入一个特殊符号#,而在尾实体的前后各加入一个特殊符号@,依次来让模型重点学习实体部分的信息。样本中的目标实体的位置信息采用位置编码(position embedding)来表示。在本实施方式中,位置编码有2个向量表示,第一个向量表示样本中的每个单词与目标实体的头实体的相对位置关系,第二个向量表示样本中的每个单词与目标实体的尾实体的相对位置关系。这些相对位置的ID会通过一个embedding映射层映射为连续的向量,与样本中的单词的embedding一起输入到模型中。
根据本发明的一种实施方式,在上述数据编码模块中,采用DeBERTa模型对预处理后的训练集中的各样本进行编码,结合位置编码,得到各样本的向量表示为:
使用DeBERTa模型对输入的各样本进行编码,随后拼接第一个向量表示和第二个向量表示,经过双层神经网络,得到当前样本的向量表示(也称语义表示)。
对训练集中的各样本的标签进行编码,得到各标签的向量表示为:
获取各标签的现有描述文本片段(例如百度百科和***中对标签的名字的描述),将各描述文本片段进行编码,将编码后的各描述文本片段输入双层神经网络,通过双层神经网络的平均池化层得到各标签的向量表示。
根据本发明的一种实施方式,在上述模型构建模块中,结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失(即为对偶对比学习损失的过程),计算模型损失后优化DeBERTa模型作为关系抽取模型。其中,样本层的对比学习为:将各样本轮流作为对照样本,将其他未作为对照样本时的样本与当前对照样本进行对比,与对照样本标签相同的样本作为正样本,与对照样本标签不同的样本作为负样本。标签层的对比学习为:将训练集中存在的标签轮流作为对照标签,将属于当前对照标签的样本作为正样本,不属于当前对照标签的样本作为负样本。在本实施方式中,如此设置,是因为本发明是针对零样本(即测试集样本标签与训练集和验证集不重叠,完全独立)关系抽取,需要处理零样本关系抽取问题,所以普通的用分类层对样本直接分类然后优化参数的架构设计是不适用的。因为这种训练方式只能处理训练数据与测试数据的标签完全一致的场景。因此,本发明采用了对偶对比学习创造语义匹配的训练策略。
在本实施方式中,例如,在一个训练集的batch中有32个样本,本发明将所有的32个输入样本和训练集中的20个关系标签进行编码之后,进行上述两个方面的对比学习:1)样本层对比学习。在训练过程中,当前batch中32个样本的所有标签是已知的。轮流地给定其中一个样本,其他样本与当前样本标签相同的样本作为正样本,与其标签不同的样本作为负样本,用来计算模型损失;2)关系标签层对比学习。同样地,在当前batch中出现过的标签,对于其中的任意一个标签,属于该标签的样本作为正样本,不属于该关系标签的样本作为负样本,用来计算模型损失。这两种过程结合起来是一个对偶对比损失,即同时考虑了以样本为计算锚点和以标签为计算锚点两个方面。
根据本发明的一种实施方式,在上述模型优化模块中,对验证集做与上述训练集相同的处理,得到验证集中样本的向量表示和标签的向量表示,将得到样本的向量表示和标签的向量表示输入关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高最优关系抽取模型(即依次计算样本的向量表示与标签的向量表示的相似度,取相似度最高的样本关系作为预测结果,保存与该预测结果相关的最优关系抽取模型),将最优关系抽取模型用于测试集进行测试。
根据本发明的一种实施方式,在上述测试模块中,对测试集做与上述训练集相同的处理,得到测试集中样本的向量表示和标签的向量表示,将得到样本的向量表示和标签的向量表示输入上述最优关系抽取模型,得到语义匹配(即样本与标签的含义匹配)的结果作为零样本关系抽取结果。
根据本发明的上述方案,本发明利用DeBERTa模型来作为语义匹配的基础模型进行调优训练,采用了有监督对比学习来提升模型的表达能力,基于此,形成对偶对比学习和语义匹配的训练策略来适应零样本关系抽取,保证零样本关系抽取的高效和精准,解决了现有技术中对零样本关系抽取迫切需求的问题。
为实现上述发明目的,本发明还提供一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上所述的基于对偶对比学习的零样本关系抽取方法。
为实现上述发明目的,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上所述的基于对偶对比学习的零样本关系抽取方法。
基于以上本发明的技术方案,为了验证本发明的效果,本发明使用了常用的关系抽取数据集TACRED作为验证数据集,包含6万多条样本,本发明去掉其中不包含关系的样本(没有标签的样本),只预测具有关系的样本。选择其中21个类型作为训练集,10个类型作为验证集,剩余10个类型作为测试集。训练集按照具体实施方式中的训练过程(即上述步骤b-e)进行实施,训练完成后,在测试集上进行评测。
为了更好的验证生成摘要的效果,本发明选取精确率、召回率和F1值作为评价指标。
精确率:精确率=(分类为敏感文本的文本量/文本总量)x100%;
召回率:召回率=(分类为敏感文本的文本量/文本中的敏感文本的文本总量)x100%;
F1值:为了能够评价不同算法的优劣,在精确率和召回率的基础上提出了F1值的概念,来对精确率和召回率进行整体评价:F1值 = 正确率*召回率*2/(正确率+召回率);
为了验证本发明提出方法的有效性,本发明选取了现有模型中表现最好的两个模型QARE和LEV基准模型。TACRED关系抽取数据集实验结果如下表1所示(注:所有数据集中均不包含“无关系”这类标签,也就是说所有的样本都有且仅有一种已知关系):
Figure 775265DEST_PATH_IMAGE001
表1
由以上表1可知,本发明的模型在上述数据集中均取得了最佳的效果,表明了本发明提出的方法能够获取上述显著的有益效果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。
另外,在本发明实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
应理解,本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

Claims (9)

1.基于对偶对比学习的零样本关系抽取方法,其特征在于,包括:
获取样本数据集,根据所述样本数据集中的样本的标签将所述样本数据集分为训练集、验证集和测试集;
对所述训练集进行预处理,得到所述训练集中目标实体的位置编码;
采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示;
结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失,计算模型损失后优化所述DeBERTa模型作为关系抽取模型;
将验证集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于所述测试集;
将测试集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述最优关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。
2.根据权利要求1所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,所述位置编码具有两个向量表示,其中第一个向量表示样本中的每个单词与所述目标实体的头实体的相对位置关系,第二个向量表示样本中的每个单词与所述目标实体的尾实体的相对位置关系。
3.根据权利要求2所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示为:
使用DeBERTa模型对各样本进行编码,随后拼接所述第一个向量表示和所述第二个向量表示,经过双层神经网络,得到各样本的向量表示。
4.根据权利要求3所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示为:
获取各所述标签的现有描述文本片段,将各所述描述文本片段进行编码,将编码后的各所述描述文本片段输入所述双层神经网络,通过所述双层神经网络的平均池化层得到各所述标签的向量表示。
5.根据权利要求4所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,所述样本层的对比学习为:
将各样本轮流作为对照样本,将其他未作为所述对照样本时的样本与当前所述对照样本进行对比,与所述对照样本标签相同的样本作为正样本,与所述对照样本标签不同的样本作为负样本。
6.根据权利要求5所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,所述标签层的对比学习为:
将所述训练集中存在的标签轮流作为对照标签,将属于当前所述对照标签的样本作为正样本,不属于当前所述对照标签的样本作为负样本。
7.基于对偶对比学习的零样本关系抽取***,其特征在于,包括:
数据获取分类模块,获取样本数据集,根据所述样本数据集中的样本的标签将所述样本数据集分为训练集、验证集和测试集;
预处理模块,对所述训练集进行预处理,得到所述训练集中目标实体的位置编码;
数据编码模块,采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示;
模型构建模块,结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失,计算模型损失后优化所述DeBERTa模型作为关系抽取模型;
模型优化模块,将验证集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于所述测试集;
测试模块,将测试集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述最优关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。
8.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的基于对偶对比学习的零样本关系抽取方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于对偶对比学习的零样本关系抽取方法。
CN202210441073.9A 2022-04-26 2022-04-26 基于对偶对比学习的零样本关系抽取方法和*** Active CN114548325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210441073.9A CN114548325B (zh) 2022-04-26 2022-04-26 基于对偶对比学习的零样本关系抽取方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210441073.9A CN114548325B (zh) 2022-04-26 2022-04-26 基于对偶对比学习的零样本关系抽取方法和***

Publications (2)

Publication Number Publication Date
CN114548325A CN114548325A (zh) 2022-05-27
CN114548325B true CN114548325B (zh) 2022-08-02

Family

ID=81667214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210441073.9A Active CN114548325B (zh) 2022-04-26 2022-04-26 基于对偶对比学习的零样本关系抽取方法和***

Country Status (1)

Country Link
CN (1) CN114548325B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117893743B (zh) * 2024-03-18 2024-05-31 山东军地信息技术集团有限公司 一种基于通道加权和双对比学习的零样本目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633467A (zh) * 2019-08-29 2019-12-31 中国人民解放军国防科技大学 一种基于改进特征融合的语义关系抽取方法
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
CN113705237A (zh) * 2021-08-02 2021-11-26 清华大学 融合关系短语知识的关系抽取方法、装置和电子设备
CN114090792A (zh) * 2021-11-25 2022-02-25 润联软件***(深圳)有限公司 基于对比学习的文档关系抽取方法及其相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11669699B2 (en) * 2020-05-31 2023-06-06 Saleforce.com, inc. Systems and methods for composed variational natural language generation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633467A (zh) * 2019-08-29 2019-12-31 中国人民解放军国防科技大学 一种基于改进特征融合的语义关系抽取方法
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
CN113705237A (zh) * 2021-08-02 2021-11-26 清华大学 融合关系短语知识的关系抽取方法、装置和电子设备
CN114090792A (zh) * 2021-11-25 2022-02-25 润联软件***(深圳)有限公司 基于对比学习的文档关系抽取方法及其相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-view Inference for Relation Extraction with Uncertain Knowledge;Bo Li 等;《www.arxiv.org》;20210428;全文 *

Also Published As

Publication number Publication date
CN114548325A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
CN112231447B (zh) 一种中文文档事件抽取的方法和***
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和***及设备
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN110852089A (zh) 基于智能分词与深度学习的运维项目管理方法
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN116680386A (zh) 基于多轮对话的答案预测方法和装置、设备、存储介质
CN114548325B (zh) 基于对偶对比学习的零样本关系抽取方法和***
CN114218940A (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN114898156B (zh) 基于跨模态语义表征学习和融合的图像分类方法及***
CN116186223A (zh) 一种金融文本处理方法、装置、设备和存储介质
CN116306974A (zh) 问答***的模型训练方法、装置、电子设备及存储介质
CN113792121B (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
CN114741487A (zh) 基于图文语义嵌入的图文检索方法及***
CN114648005A (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN114003707A (zh) 问题检索模型的训练方法及装置、问题检索方法及装置
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
HN et al. An optimized neural Network-based character recognition and relation finding for mathematical expression images
CN118132738B (zh) 针对桥梁检评文本的抽取式问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant