CN113204652A - 知识表示学习方法和装置 - Google Patents
知识表示学习方法和装置 Download PDFInfo
- Publication number
- CN113204652A CN113204652A CN202110757753.7A CN202110757753A CN113204652A CN 113204652 A CN113204652 A CN 113204652A CN 202110757753 A CN202110757753 A CN 202110757753A CN 113204652 A CN113204652 A CN 113204652A
- Authority
- CN
- China
- Prior art keywords
- negative sample
- entity
- triple
- text sequence
- knowledge representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种知识表示学习方法和装置,其中,该方法包括:获取负样本候选实体集合;通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。通过上述方案解决了现有的知识表示学习过程中生成的负样本质量较差,无法得到丰富的外部语义的技术问题,达到了提升负样本的质量,且在知识图生成的过程中使得文本数据得到充分利用的技术效果。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及一种知识表示学习方法和装置。
背景技术
近年来,WordNet和Freebase等大规模知识图谱为语义搜索、智能问答、个性化推荐等重要领域提供了有效的数据支持。知识图谱是一种存储现实世界中复杂结构化信息的多关系图,它代表了网络和图形结构中三元组的元素。网络和图形中的节点表示实体,节点之间的边表示不同实体之间的关系。知识图谱一般通过三元组(头实体、关系、尾实体)和符号表示,虽然大规模知识图的构建已经取得了很大的进展,但是由于知识图谱中数据的稀疏性,导致人们缺乏对新知识的学习。
为了解决上述问题,大量的研究工作致力于知识图的生成。知识图嵌入方法TransE是最典型的模型之一。它将三元组中的元素(实体和关系)编码为低维空间中的实体向量。通过最小化得分函数得到实体在关系中的嵌入,然后用这些向量来评价三元组的合理性。然而,现有的知识图嵌入模型大多只利用三元组的结构信息,难以准确地表示从头到尾实体的语义信息。
考虑到可以利用实体的多源信息,例如:实体描述、实体属性等来改进知识图的嵌入,基于此,可以将这些文本描述信息整合到知识图的结构网络中,使得知识图嵌入方法能够补充缺失的语义信息,从而有效地缓解数据稀疏性等问题。然而,这种方式由于上下文信息被忽略,文本信息中的每个词被赋予相同的权重,且仅使用实体描述和关系文本,使得大规模文本数据中的语义信息得不到充分利用。
在训练模型时,需要正样本和负样本进行判别训练,并对训练结果进行排序。然而,考虑到存储空间的利用,大多数知识地图只存储正样本,因此现有的知识表示学习模型大多采用负样本来构造负样本,例如:可以将三元组的头实体或尾实体被从实体集中随机抽取的新实体所代替,形成负样本。抽样过程一般遵循实体集上的均匀分布或伯努利分布。该方法简单有效,但由于知识图谱的稀疏性,随机抽样得到的实体大多难以与正样本中的关系和实体形成可信样本。这些低质量的三元组很容易被模型所识别,导致代价函数的快速收敛,甚至不能随着训练过程的进展而帮助提高模型的性能。
针对现有的知识图的生成过程中所存在的文本数据中的语义信息得不到充分利用,且无法生成高质量负样本的问题,目前尚未提出有效的解决方案。
发明内容
本申请目的在于提供一种知识表示学习方法和装置,可以在知识图生成的过程中使得文本数据得到充分利用,且可以提升负样本的质量。
一方面,提供了一种知识表示学习方法,所述方法包括:
获取负样本候选实体集合;
通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
在一个实施方式中,所述基于语义匹配的模型所使用的损失函数为:
在一个实施方式中,所述基于翻译距离的模型的边际损失函数为:
其中,L E 表示边际损失函数,T表示正确三元组,为知识图谱中已经存在的三元组,γ表示正确三元组和错误三元组函数分值之间的距离,错误三元组是通过随机产生的误差三元组;,其表示误差三元组通过替换头实体或者尾实体得到;其中,h和t分别表示头实体和尾实体,r表示关系,h’表示替换的头实体,t’表示替换的尾实体,E表示实体集合,(h’, r, t’)表示一个负样本三元组,(h’, r, t)表示只替换头实体的三元组,(h, r, t’)表示只替换尾实体的三元组。
在一个实施方式中,一个负样本三元组从中被选定的概率为:
在一个实施方式中,将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习,包括:
通过隐式输出对所述被选定的负样本三元组进行文本序列分类;
按照预设的评分函数,确定文本序列分类结果正确的概率。
在一个实施方式中,所述评分函数表示为:
其中,W表示变换矩阵,sT表示文本序列分类结果正确的概率,C表示隐式输出,h和t分别表示头实体和尾实体,r表示关系。
在一个实施方式中,将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题过程中的目标损失函数为:
另一方面,提供了一种知识表示学习装置,包括:
获取模块,用于获取负样本候选实体集合;
抽样模块,用于通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
判别,用于以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
转化模块,用于将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
又一方面,提供了一种电子设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现如下方法的步骤:
获取负样本候选实体集合;
通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现如下方法的步骤:
获取负样本候选实体集合;
通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
本申请提供的知识表示学习方法,采用生成对抗网络的思想、语义匹配模型和翻译距离模型来生成高质量的负样本。然后,将负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,从而可以得到丰富的外部语义信息特征,从而实现知识表示学习。通过上述方案解决了现有的知识表示学习过程中生成的负样本质量较差,无法得到丰富的外部语义的技术问题,达到了提升负样本的质量,且在知识图生成的过程中使得文本数据得到充分利用的技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的知识表示学习方法一种实施例的方法流程图;
图2是本申请提供的基于实体描述的预培训知识表示学习模型的方法结构;
图3是本申请提供的一种知识表示学习方法的电子设备的硬件结构框图;
图4是本申请提供的知识表示学习装置一种实施例的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1是本申请提供的知识表示学习方法一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。
具体的,如图1所示,上述的知识表示学习方法可以包括如下步骤:
步骤101:获取负样本候选实体集合;
步骤102:通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
步骤103:以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
步骤104:将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
在上例中,采用生成对抗网络的思想、基于语义匹配的模型和翻译距离模型来生成高质量的负样本。然后,将负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,从而可以得到丰富的外部语义信息特征,从而实现知识表示学习。通过上述方案解决了现有的知识表示学习过程中生成的负样本质量较差,无法得到丰富的外部语义的技术问题,达到了提升负样本的质量,且在知识图生成的过程中使得文本数据得到充分利用的技术效果。
考虑到一般在构建一个负示例三元组时,会随机地用其他实体替换正确三元组中的头实体或尾实体。但是,在这一过程中也存在一些问题,由于存在较大的实体缺口等因素,随机替换负样本三元组对模型的训练没有实质性的帮助,会使模型收敛过快。为了避免现有的负样本生成过程中所存在的上述问题,在本例中,在产生负样本时,使用了对抗生成网络的思想,即,使用基于语义匹配的模型作为生成器,使用基于翻译距离的模型作为判别器。
具体的,在语义匹配模型中,关系被定义为一个矩阵,表示头实体和尾实体之间的关系,所述基于语义匹配的模型所使用的损失函数为:
在基于翻译距离模型中,关系被看作头实体和尾实体之间的平移向量,得分函数越小,置信度越高。基于翻译距离的模型的边际损失函数为:
其中,L E 表示边际损失函数,T表示正确三元组,为知识图谱中已经存在的三元组,γ表示正确三元组和错误三元组函数分值之间的距离,错误三元组是通过随机产生的误差三元组;,其表示误差三元组通过替换头实体或者尾实体得到;其中,h和t分别表示头实体和尾实体,r表示关系,h’表示替换的头实体,t’表示替换的尾实体,E表示实体集合,(h’, r, t’)表示一个负样本三元组,(h’, r, t)表示只替换头实体的三元组,(h, r, t’)表示只替换尾实体的三元组。
上述公式是为了简单,随机替换的每一个三元组,可以仅替换头实体或者尾实体,而不是两个实体都替换。
在生成器中,从负采样候选实体集合中生成概率分布,然后根据概率分布对高质量的负样本进行抽样,提供给判别器,然后在训练后,判别器将分数反馈给生成器,以对生成器的参数进行不断更新调整,使负样本质量最高。对于正确的三元组,生成器中score函数定义为fG(h’, r , t’),一个负样本从负采样集Neg(h,r,t)被选中的概率如下:
BERT是一种基于双向变压器网络结构的语义表示模型。与一般的循环神经网络相比,BERT能够获得更全面的上下文信息。将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习,可以包括:通过隐式输出对所述被选定的负样本三元组进行文本序列分类;按照预设的评分函数,确定文本序列分类结果正确的概率。
其中,评分函数可以表示为:
其中,W表示变换矩阵,sT表示文本序列分类结果正确的概率,C表示隐式输出,h和t分别表示头实体和尾实体,r表示关系。
由于BERT具有丰富的语义信息的上下文编码机制,因此BERT的输入句可以是一个自然的语言句子,也可以是连续文本,也可以是词序。为了验证三元的逻辑合理性,将头尾实体对应的文本描述和关系作为序列输入到BERT模型中,并进行微调。
在将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题过程中,目标损失函数可以表示为:
下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
基于现有的知识图的生成过程中所存在的文本数据中的语义信息得不到充分利用,模型性能较低的问题,在本例中,提出了一种基于生成对抗网络和预训练语言模型的知识表示学习方法。然后,将负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题。该模型经过联合训练,融合对抗生成网络生成的优质负样本以及丰富的外部语义信息特征,实现知识表示学习。
针对现有的知识表示学习方法无法充分利用大规模语义信息以及负样本生成质量不高的问题,在本例中提出了一种基于生成对抗网络(GAN)和预训练语言模型的知识表示学习方法。具体的,采用生成对抗网络的思想、语义匹配模型和翻译距离模型来生成高质量的负样本。然后,将负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题。该模型经过联合训练,融合对抗生成网络生成的优质负样本以及丰富的外部语义信息特征,从而实现知识表示学习。从而进行知识表示学习。
即,本例所提出的基于对抗生成网络和预训练语言模型的知识表示学习方法,主要从两个方面来提高知识表示学习模型的性能:1)采用对抗生成网络生成高质量负样本。2)将负样本三元组对应的头实体和尾实体的描述组合成文本序列,然后利用BERT的下一句预测任务将文本序列转化为一个二值分类问题,从而进行知识表示学习。
基于对抗生成网络和预训练的知识表示学习方法,可以包括:
1)通过引入对抗生成网络,以语义匹配模型作为生成器,以翻译距离模型作为判别器,生成高质量负样本。
一般在构建一个负示例三元组时,会随机地用其他实体替换正确三元组中的头实体或尾实体。但是,在这一过程中也存在一些问题,由于存在较大的实体缺口等因素,随机替换负样本三元组对模型的训练没有实质性的帮助,会使模型收敛过快。
此外,还有一种情况应该避免。例如,正确的三元组被负样本三元组替换。对于原来的三元组,新的三元组是错误的,但事实上,三元组是正确的。它存在于现有的知识库中,也可以从知识推理中获得,这种情况称为假阳例。这样的假阳例会导致模型学习能力的下降,使模型出现“零损失问题”。为了避免现有的负样本生成过程中所存在的上述问题,在本例中,在产生负样本时,使用了对抗生成网络的思想,即,使用基于语义匹配的模型作为生成器,使用基于翻译距离的模型作为判别器。
在基于语义匹配的模型中,关系被定义为一个矩阵,表示头实体和尾实体之间的关系,模型使用Log softmax损失函数:
在基于翻译距离模型中,关系被看作头实体和尾实体之间的平移向量。得分函数越小,置信度越高。该翻译距离模型可以使用边际损失函数:
其中,T表示正确三元组;γ表示间隔超参数,代表正确三元组和错误三元组函数分值之间的距离。正确三元组是知识图谱中已经存在的三元组,错误三元组是通过随机产生的误差三元组,具体表示为表示误差三元组通过替换头实体或者尾实体得到,其中,h和t分别表示头实体和尾实体,r表示关系,h’表示替换的头实体,t’表示替换的尾实体,E表示实体集合,(h’, r, t’)表示一个负样本三元组,(h’, r,t)表示只替换头实体的三元组,(h, r, t’)表示只替换尾实体的三元组。
在实现的时候,使用基于语义匹配的模型作为生成器,使用基于翻译距离的模型作为判别器。在生成器中,从负采样候选实体集合中生成概率分布,然后根据概率分布对高质量的负样本进行抽样,提供给判别器,然后在训练后,判别器将分数反馈给生成器,以对生成器的参数进行不断更新调整,使负样本质量最高。对于正确的三元组(h, r, t),生成器中score函数定义为fG(h’, r, t’),一个负样本从负采样集Neg(h,r,t)被选中的概率如下:
2)设计基于BERT的知识图谱三元组对应文本描述的下一句预测任务模型,实现知识表示学习。
BERT是一种基于双向变压器网络结构的语义表示模型。与一般的循环神经网络相比,BERT能够获得更全面的上下文信息。在预训练任务MLM中,15%的单词在每个输入序列中被随机遮挡。对于这些单词,80%被选中并替换为“[MASK]”,10%被其他随机词替换,10%保留而不进行任何处理。每个字符对应的字向量由三个向量组成。TokenEmbedding是一个词向量,第一个词是用于下游分类任务的CLS标记,SegmentEmbedding是句子级分类任务的句子向量,PositionEmbedding是序列的位置向量。为了使模型能够理解句子之间的关系,在NSP任务中,BERT还可以判断输入序列中的第二句是否跟随第一句。在训练数据中,第一句的下一句是第二句的百分之五十,百分之五十是预期的随机文本。
由于BERT具有丰富的语义信息的上下文编码机制,因此BERT的输入句可以是一个自然的语言句子,也可以是连续文本,也可以是词序。为了验证三元的逻辑合理性,将头尾实体对应的文本描述和关系作为序列输入到BERT模型中,并进行微调。
基于实体描述的预培训知识表示学习模型的方法结构可以如图2所示,每个输入序列中的第一个标记是一个特殊分类[CLS]。标记表示为一个句子,包括:,。对应实体描述例如,“HimeshReshammiya is an Indian music director,singer, actor, television producer, lyri- cist, film producer, Script write。r, and distributor.”实体文本描述和关系句序列用[SEP]分隔,每个Token的Embedding由其自身Embedding、Segment Embedding组成,Position Embedding。Segment Embedding根据元素类型不同而不同,其中eA用作头和尾部实体的段嵌入,而eB用于关系的段嵌入。
使用[CLS]的隐式输出C来计算三元组的分类。对于三元组,评分函数为:
其中,W表示变换矩阵,sT表示文本序列分类结果正确的概率,C表示隐式输出,h和t分别表示头实体和尾实体,r表示关系。
定义目标损失函数:
在上例中,提出了一种基于生成对抗网络和预训练语言模型的知识表示学习方法,可通过联合训练,融合对抗生成网络生成的优质负样本以及丰富的外部语义信息特征,实现知识表示学习,提高了该模型在链路预测和三元组分类任务重的性能。
基于同一发明构思,本申请实施例中还提供了一种知识表示学习装置,如下面的实施例所述。由于知识表示学习装置解决问题的原理与知识表示学习方法相似,因此知识表示学习装置的实施可以参见知识表示学习方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图3是本申请实施例的知识表示学习装置的一种结构框图,如图3所示,可以包括:获取模块301、抽样模块302、判别模块303和转化模块304,下面对该结构进行说明。
获取模块301,用于获取负样本候选实体集合;
抽样模块302,用于通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
判别模块303,用于以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
转化模块304,用于将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
在一个实施方式中,所述语义匹配模型所使用的损失函数为:
在一个实施方式中,所述基于翻译距离的模型的边际损失函数为:
其中,L E 表示边际损失函数,T表示正确三元组,为知识图谱中已经存在的三元组,γ表示正确三元组和错误三元组函数分值之间的距离,错误三元组是通过随机产生的误差三元组;,其表示误差三元组通过替换头实体或者尾实体得到;其中,h和t分别表示头实体和尾实体,r表示关系,h’表示替换的头实体,t’表示替换的尾实体,E表示实体集合,(h’, r, t’)表示一个负样本三元组,(h’, r, t)表示只替换头实体的三元组,(h, r, t’)表示只替换尾实体的三元组。
在一个实施方式中,一个负样本三元组从中被选定的概率为:
在一个实施方式中,将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习,包括:
通过隐式输出对所述被选定的负样本三元组进行文本序列分类;
按照预设的评分函数,确定文本序列分类结果正确的概率。
在一个实施方式中,所述评分函数表示为:
其中,W表示变换矩阵,sT表示文本序列分类结果正确的概率,C表示隐式输出,h和t分别表示头实体和尾实体,r表示关系。
在一个实施方式中,将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题过程中的目标损失函数为:
本申请的实施例还提供能够实现上述实施例中的知识表示学习方法中全部步骤的一种电子设备的具体实施方式,所述电子设备具体包括如下内容:处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的知识表示学习方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤1:获取负样本候选实体集合;
步骤2:通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
步骤3:以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
步骤4:将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
从上述描述可知,本申请实施例采用生成对抗网络的思想、语义匹配模型和翻译距离模型来生成高质量的负样本。然后,将负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,从而可以得到丰富的外部语义信息特征,从而实现知识表示学习。通过上述方案解决了现有的知识表示学习过程中生成的负样本质量较差,无法得到丰富的外部语义的技术问题,达到了提升负样本的质量,且在知识图生成的过程中使得文本数据得到充分利用的技术效果。
本申请的实施例还提供能够实现上述实施例中的知识表示学习方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的知识表示学习方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤1:获取负样本候选实体集合;
步骤2:通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
步骤3:以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
步骤4:将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
从上述描述可知,本申请实施例采用生成对抗网络的思想、语义匹配模型和翻译距离模型来生成高质量的负样本。然后,将负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,从而可以得到丰富的外部语义信息特征,从而实现知识表示学习。通过上述方案解决了现有的知识表示学习过程中生成的负样本质量较差,无法得到丰富的外部语义的技术问题,达到了提升负样本的质量,且在知识图生成的过程中使得文本数据得到充分利用的技术效果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (10)
1.一种知识表示学习方法,其特征在于,所述方法包括:
获取负样本候选实体集合;
通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
5.根据权利要求1所述的方法,其特征在于,将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习,包括:
通过隐式输出对所述被选定的负样本三元组进行文本序列分类;
按照预设的评分函数,确定文本序列分类结果正确的概率。
8.一种知识表示学习装置,其特征在于,包括:
获取模块,用于获取负样本候选实体集合;
抽样模块,用于通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
判别模块,用于以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
转化模块,用于将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
9.一种电子设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现如下方法的步骤:
获取负样本候选实体集合;
通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
10.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现如下方法的步骤:
获取负样本候选实体集合;
通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;
以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;
将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757753.7A CN113204652B (zh) | 2021-07-05 | 2021-07-05 | 知识表示学习方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757753.7A CN113204652B (zh) | 2021-07-05 | 2021-07-05 | 知识表示学习方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113204652A true CN113204652A (zh) | 2021-08-03 |
CN113204652B CN113204652B (zh) | 2021-09-07 |
Family
ID=77022767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110757753.7A Active CN113204652B (zh) | 2021-07-05 | 2021-07-05 | 知识表示学习方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204652B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
US20200279105A1 (en) * | 2018-12-31 | 2020-09-03 | Dathena Science Pte Ltd | Deep learning engine and methods for content and context aware data classification |
CN112307777A (zh) * | 2020-09-27 | 2021-02-02 | 和美(深圳)信息技术股份有限公司 | 知识图谱表示学习方法及*** |
CN112650845A (zh) * | 2020-12-30 | 2021-04-13 | 西安交通大学 | 一种基于bert与知识表示学习的问答***及方法 |
-
2021
- 2021-07-05 CN CN202110757753.7A patent/CN113204652B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200279105A1 (en) * | 2018-12-31 | 2020-09-03 | Dathena Science Pte Ltd | Deep learning engine and methods for content and context aware data classification |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
CN112307777A (zh) * | 2020-09-27 | 2021-02-02 | 和美(深圳)信息技术股份有限公司 | 知识图谱表示学习方法及*** |
CN112650845A (zh) * | 2020-12-30 | 2021-04-13 | 西安交通大学 | 一种基于bert与知识表示学习的问答***及方法 |
Non-Patent Citations (2)
Title |
---|
吕江海等: "基于膨胀卷积迭代与注意力机制的实体名识别方法", 《计算机工程》 * |
王子牛等: "基于BERT的中文命名实体识别方法", 《计算机科学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113204652B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Region-aware image captioning via interaction learning | |
CN111914085B (zh) | 文本细粒度情感分类方法、***、装置及存储介质 | |
CN113157886B (zh) | 一种自动问答生成方法、***、终端及可读存储介质 | |
CN111464881B (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
Bai et al. | Explain me the painting: Multi-topic knowledgeable art description generation | |
CN113887211A (zh) | 基于关系导向的实体关系联合抽取方法及*** | |
Zhou et al. | Roseq: Robust sequence labeling | |
Liu et al. | Cross-attentional spatio-temporal semantic graph networks for video question answering | |
Jain et al. | Video captioning: a review of theory, techniques and practices. | |
CN116681810B (zh) | 虚拟对象动作生成方法、装置、计算机设备和存储介质 | |
Zhang et al. | The elements of temporal sentence grounding in videos: A survey and future directions | |
Wang et al. | Mulcode: A multi-task learning approach for source code understanding | |
Luo et al. | Self-supervised learning for semi-supervised temporal language grounding | |
CN113919360A (zh) | 语义理解方法、语音交互方法、装置、设备及存储介质 | |
CN111222315A (zh) | 一种电影剧本情节预测方法 | |
CN114330717A (zh) | 数据处理方法以及装置 | |
Tang et al. | Layoutnuwa: Revealing the hidden layout expertise of large language models | |
CN116610795B (zh) | 文本检索方法及装置 | |
CN113204652B (zh) | 知识表示学习方法和装置 | |
CN117475351A (zh) | 视频分类方法、装置、计算机设备及计算机可读存储介质 | |
CN117453949A (zh) | 一种视频定位方法以及装置 | |
CN111159424A (zh) | 标注知识图谱实体的方法,装置,存储介质及电子设备 | |
CN115204318B (zh) | 事件自动层级分类方法及电子设备 | |
Rasekh et al. | Ecor: Explainable clip for object recognition | |
He et al. | Adaptive knowledge distillation for efficient relation classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |