CN114580638A - 基于文本图增强的知识图谱表示学习方法及*** - Google Patents

基于文本图增强的知识图谱表示学习方法及*** Download PDF

Info

Publication number
CN114580638A
CN114580638A CN202210133500.7A CN202210133500A CN114580638A CN 114580638 A CN114580638 A CN 114580638A CN 202210133500 A CN202210133500 A CN 202210133500A CN 114580638 A CN114580638 A CN 114580638A
Authority
CN
China
Prior art keywords
entity
text
knowledge graph
representation
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210133500.7A
Other languages
English (en)
Inventor
卢记仓
王凌
周刚
兰明敬
李珠峰
祝涛杰
吴建萍
陈静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202210133500.7A priority Critical patent/CN114580638A/zh
Publication of CN114580638A publication Critical patent/CN114580638A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于知识图谱技术领域,特别涉及一种基于文本图增强的知识图谱表示学习方法及***,通过对知识图谱实体文本描述进行分析处理,抽取出命名实体,并构建由句子层节点、文本实体层节点形成的两层异构文本图;建立文本图实体与知识图谱实体之间的连接并获取增强知识图谱,进而处理得到节点初始化表示;采用图卷积神经网络在实体之间进行语义传播,获得融合文本内容语义和三元组结构语义的实体文本表示;将实体文本表示与仅考虑三元组的实体结构表示进行联合,通过负样本、损失函数来更新优化。本发明能够更好地将实体文本内容语义融合到知识图谱中,有效缓解知识图谱稀疏性问题,提升知识图谱表示学习的表达能力,在少样本或零样本情况下也具有较好适用性。

Description

基于文本图增强的知识图谱表示学习方法及***
技术领域
本发明属于知识图谱技术领域,特别涉及一种基于文本图增强的知识图谱表示学习方法及***。
背景技术
知识图谱(Knowledge Graph)起源可追溯至上世纪50年代,在2012年由Google正式提出知识图谱这一概念,将其用于搜索引擎,大大改善了其性能。伴随着人工智能的高速发展,以及在大数据、物联网、自然语言处理等技术的支撑下,知识图谱已经在安全、金融、司法、交通、科技、医疗等社会各行业起到了重要的促进作用,在智能问答、推荐***等领域也常被作为核心支撑技术之一。因此,开展知识图谱相关技术的研究具有重要的现实意义。随着数据、信息的急剧膨胀,知识图谱技术在知识获取、表示、融合与应用等方面都面临着诸多问题,尤其对于规模巨大的知识图谱,往往存在三元组缺失(链接缺失)或错误等问题,采用人工方式解决此类问题代价高昂,且效率很低。知识推理是指利用知识图谱中已有实体和关系,对缺失、隐含的知识进行挖掘或补全,同时,还可对可能存在的错误或冲突进行优化。因此,开展知识推理技术与方法的研究具有重要的理论价值和现实意义。
已有知识图谱推理技术与方法大致可分为基于规则的推理和基于学习的推理两个方面,在基于学习的推理方面,主要是采用合适的知识图谱表示学习方法将实体及关系映射为低维稠密向量,进而通过特定算法预测推理不同向量之间的关系,大致包括单纯基于结构的推理、基于结构和文本描述的推理以及参照外部信息的推理。基于结构的推理在向量表示时往往仅考虑三元组信息,对实体和关系进行简单的建模,对复杂关系以及三元组分布不均匀和稀疏等情况,向量表达能力及模型性能较为有限。为了解决该问题,多种方法尝试将类别、时间、图像等外部辅助信息引入到模型中,在一定程度上提升了向量的表达能力。与类别、时间、图像等辅助信息相比,文本通常具有更为丰富的语义信息,因此,结合文本信息的模型是当前及未来知识图谱表示学习研究的一个重要方向。然而,此类模型在结合文本信息时往往采用独立编码,难以较好融合三元组结构语义和文本等辅助信息的内容语义,从而模型性能有待进一步提升。
发明内容
为此,本发明提供一种基于文本图增强的知识图谱表示学习方法及***,通过文本图的方式将实体文本描述的内容语义信息扩展到知识图谱中,同时通过图卷积网络实现知识图谱结构语义与文本描述内容语义之间的传播和联合表示,进而实现两者的充分融合,提升知识图谱嵌入过程中实体、关系的向量表示准确性和表达能力以及知识推理性能,便于知识图谱推理在实际行业领域中的应用。
按照本发明所提供的设计方案,一种基于文本图增强的知识图谱表示学习方法,包含如下内容:
针对包含实体文本描述信息的原始知识图谱,识别并提取原始知识图谱文本描述信息中的命名实体,并基于实体层和句子层构建实体描述的文本图;
通过建立文本图中实体节点与原始知识图谱中实体节点之间的连接来扩展原始知识图谱,将扩展后的原始知识图谱作为增强知识图谱,并对该增强知识图谱中各节点进行初始化向量表示;
针对初始化表示的增强知识图谱,根据节点之间的邻接关系类型,通过图卷积网络中语义传播及聚合将不同类型邻接关系的节点聚合到实体中,获取融合结构和内容语义的实体文本表示;
通过联合实体文本表示和原始知识图谱三元组关系中的实体结构表示来获取实体联合表示;
基于自我对抗的负采样策略来构建负样本,设定损失函数并利用负样本对实体联合表示中存在关系的各个实体进行训练优化来得到知识图谱表示学习模型,利用该知识图谱表示学习模型来对目标输入中实体和关系进行向量表示。
作为本发明基于文本图增强的知识图谱表示学习方法,进一步地,识别并提取原始知识图谱的命名实体中,首先,对原始知识图谱中的实体文本描述信息进行分析处理,该分析处理过程至少包含:对文本描述的分词及词性判别;然后,从分析处理中识别并抽取命名实体,并根据识别结果确定各命名实体类别。
作为本发明基于文本图增强的知识图谱表示学习方法,进一步地,基于实体层和句子层来构建实体描述的文本图中,首先,将识别出的命名实体及其所在句子作为不同类型的节点,构建实体层节点、句子层节点;然后,在命名实体节点及其所在句子节点之间、同一个句子中出现的命名实体之间、及具有上下文关系的句子节点之间建立连接。
作为本发明基于文本图增强的知识图谱表示学习方法,进一步地,对增强知识图谱中各节点进行初始化表示中,首先,将文本图中的文本实体节点和其来源原始知识图谱中对应实体两者之间建立连接,若文本实体在原始知识图谱中多个不同实体的文本描述中出现,则将该文本实体与原始知识图谱中对应每个实体均建立连接,连接类型根据文本实体类别来区分,得到增强知识图谱;然后,设置用于生成文本向量的预训练模型和向量表示维度参数,将文本图中的文本实体节点、句子节点及原始知识图谱中实体节点分别作为预训练模型输入,利用该预训练模型来获取与输入对应的初始化向量表示。
作为本发明基于文本图增强的知识图谱表示学习方法,进一步地,获取实体文本表示中,针对初始化向量表示的增强知识图谱,以待表示实体为中心,以关系路径长度为距离,利用图卷积网络模型及加权聚合方法,将与待表示实体距离满足设定条件的句子节点、文本实体节点及实体节点依次聚合传递给待表示实体,不同关系设置相应权重参数。
作为本发明基于文本图增强的知识图谱表示学习方法,进一步地,聚合传递的运算公式表示如下:
Figure BDA0003503535750000031
其中,Ni,r是节点i在关系r下的邻居节点集合,ci,r、ci,R分别表示关系集合NR、邻居节点集合Ni,r的大小,
Figure BDA0003503535750000032
是关系r对应的权重参数,
Figure BDA0003503535750000033
是节点自身对应的权重参数,
Figure BDA0003503535750000034
表示节点i在第l层图卷积网络模型中的向量表示,σ表示激活函数。
作为本发明基于文本图增强的知识图谱表示学习方法,进一步地,获取实体联合表示中,针对增强知识图谱中获得的实体文本表示和原始知识图谱中获得的实体结构表示,对不同的实体及实体表示维度分别设置对应权重参数,将权重参数作为门向量,对实体文本表示和实体结构表示逐维度加权求和,进而得到实体联合表示。
作为本发明基于文本图增强的知识图谱表示学习方法,进一步地,逐维度加权求和过程表示如下:e=σ(ge)⊙es+(1-σ(ge))⊙ed,其中,⊙表示元素按位相乘,σ为激活函数,ge表示与实体e相关的门权重向量。
作为本发明基于文本图增强的知识图谱表示学习方法,进一步地,训练优化中,通过设置采样率来构建负样本,并利用损失函数
Figure BDA0003503535750000035
进行训练优化,其中,γ为边界超参数,σ为激活函数,f(h,t)为所有三元组正样本的得分,(hi′,r,ti′)为第i个负样本,p(h′i,r,t′i)为依据采样率来获取的第i个负样本采样概率,f(h′i,t′i)为所采样三元组负样本得分,n为负样本数量。
进一步地,本发明还提供一种基于文本图增强的知识图谱表示学习***,包含:构建模块、增强模块、联合模块及优化模块,其中,
构建模块,用于针对包含实体文本描述信息的原始知识图谱,识别并提取原始知识图谱文本描述信息中的命名实体,并基于实体层和句子层构建实体描述的文本图;
增强模块,用于通过建立文本图中实体节点与原始知识图谱中实体节点之间的连接来扩展原始知识图谱,将扩展后的原始知识图谱作为增强知识图谱,并对该增强知识图谱中各节点进行初始化向量表示;
联合模块,用于针对初始化表示的增强知识图谱,根据节点之间的邻接关系类型,通过图卷积网络中语义传播及聚合将不同类型邻接关系的节点聚合到实体中,获取融合结构和内容语义的实体文本表示;通过联合实体文本表示和原始知识图谱三元组关系中的实体结构表示来获取实体联合表示;
优化模块,用于基于自我对抗的负采样策略来构建负样本,设定损失函数并利用负样本对实体联合表示中存在关系的各个实体进行训练优化来得到知识图谱表示学习模型,利用该知识图谱表示学习模型来对目标输入中实体和关系进行向量表示。
本发明的有益效果:
1、本发明采用命名实体识别、两层异构图构建等获得知识图谱实体描述信息的文本图,并将其扩展连接到原知识图谱中,所得增强知识图谱能够同时包含文本内容语义和原图谱的关系结构语义,从而可更好地支撑后续的知识图谱表示学习以及知识推理。
2、本发明在增强知识图谱初始化表示的基础上,采用图卷积网络等图模型对实体节点进行表示,能够实现文本内容语义与关系结构语义之间的语义传播,获得的实体表示能够更好地融合知识图谱实体的内容语义和结构语义等信息,从而使得知识图谱表示学习具有更好的语义表达能力。
3、本发明采用门机制将增强图谱获得的实体文本表示与原知识图谱获得的实体表示进行联合,不同表示维度设置不同参数能够实现更细粒度的融合,同时基于自我对抗的负样本构建策略更好地保证了训练数据集的质量,这些使得训练和优化后的模型具有更好的性能,即更好的知识图谱表示结果。
附图说明:
图1为实施例中基于文本图增强的知识图谱表示学习方法流程示意;
图2为实施例中知识图谱表示学习总体框架示意;
图3为实施例中实体描述信息的多层异构文本图构建示意;
图4为实施例中增强知识图谱构建及其实体联合表示示意;
图5为实施例中知识图谱表示学习***模块化示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
考虑到现实研究和领域应用对知识图谱表示学习及推理方法的高准确率和可靠性要求,但已有知识图谱表示学习方法难以在语义层面充分融合三元组结构及外部辅助信息的问题,本发明实施例,提供一种基于文本图增强的知识图谱表示学习方法,参见图1所示,包含如下内容:
S101、针对包含实体文本描述信息的原始知识图谱,识别并提取原始知识图谱文本描述信息中的命名实体,并基于实体层和句子层构建实体描述的文本图;
S102、通过建立文本图中实体节点与原始知识图谱中实体节点之间的连接来扩展原始知识图谱,将扩展后的原始知识图谱作为增强知识图谱,并对该增强知识图谱中各节点进行初始化向量表示;
S103、针对初始化表示的增强知识图谱,根据节点之间的邻接关系类型,通过图卷积网络中语义传播及聚合将不同类型邻接关系的节点聚合到实体中,获取融合结构和内容语义的实体文本表示;
S104、通过联合实体文本表示和原始知识图谱三元组关系中的实体结构表示来获取实体联合表示;
S105、基于自我对抗的负采样策略来构建负样本,设定损失函数并利用负样本对实体联合表示中存在关系的各个实体进行训练优化来得到知识图谱表示学习模型,利用该知识图谱表示学习模型来对目标输入中实体和关系进行向量表示。
参见图2所示的框架,通过文本图的方式将实体文本描述的内容语义信息扩展到知识图谱中,同时通过图卷积网络融合知识图谱结构语义与文本描述内容语义之间的传播和联合表示,进而实现两者的充分融合,提升实体向量表示的表达能力以及知识推理性能;能够更好地将实体文本内容语义融合到知识图谱中,有效缓解知识图谱稀疏性问题,提升知识图谱表示学习的表达能力,同时,在少样本或零样本情况下也具有更好的适用性。
参见图3所示,采用合适的方法,从知识图谱实体对应的文本描述信息中识别出命名实体,基于多层异构表示的方法构建获得实体描述的文本图。针对包含文本描述信息的知识图谱实体,从Jieba工具、条件随机场(CRF)算法、BERT模型或Transformer架构等中,选择合适的方法,对实体文本描述进行分词、词性判别等分析处理,在此基础上,从中抽取识别出所包含的命名实体,将其称为“文本实体”,进而根据识别结果确定各文本实体的类别,如其类别可用表1所示方式进行描述;
表1.命名实体类别划分
类型 描述
PERSON 人物
NORP 国籍、宗教等
FAC 建筑物、道路等
ORG 公司、机构等
GPE 国家、城市等
LOC 山脉、水体等
PRODUCT 物品、交通工具、食物等
EVENT 著名的战役、运动会等
WORK_OF_ART 书籍、歌曲的名称等
LAW 法律
LANGUAGE 语言
在命名实体识别的基础上,分别将识别出的文本实体、文本描述所包含的句子作为不同类型的节点,构建实体层节点、句子层节点。在此基础上,建立不同节点之间的连接,所有连接都是无向的。其中,对于不同层次之间的节点,将文本实体节点与文本实体所在句子的节点之间建立连接,对于同一层次内的节点,若两个文本实体在同一个句子中出现,即具有共现关系,则在两个文本实体节点之间建立连接,若两个句子在文本描述中是上下文关系,则在两个句子节点之间建立连接。经过上述处理,即可得到实体文本描述信息的两层异构“文本图”。
如图4所示,基于所构建的异构文本图,通过建立其文本实体节点与原知识图谱中实体节点之间的连接,获得扩展后的增强知识图谱,在此基础上,采用合适的预训练模型,给出增强知识图谱各节点的初始化表示。具体可涉及为如下内容:根据文本实体识别结果,在文本图中文本实体节点与原知识图谱对应实体节点之间建立连接,即:若文本图中的文本实体节点来自于原知识图谱中某个实体的文本描述,则在文本实体节点与该文本实体之间建立一条连接,若某个文本实体在多个不同实体的文本描述中出现,则在该文本实体与其中的每个实体之间均建立一条连接,即建立的是一对多的连接,其连接类型根据文本实体类别进行区分,比如:若文本实体类型为“PERSON”(“人物”),则在连接上标注“PERSON”。将上述新建立的文本图文本实体与原知识图谱实体之间的连接称为“增强连接”,建立连接后得到的新的图谱称为“增强知识图谱”。针对所构建的增强知识图谱,选择合适的预训练模型,如BERT、RoBERTa、GPT-3、T5等,设置合适的向量表示维度参数,在此基础上,分别将文本图中的文本实体节点、句子节点以及原图谱中的实体节点等作为输入,计算得到预训练模型的输出,分别将其作为增强知识图谱各节点的初始化分布式向量表示。
作为本发明实施例中基于文本图增强的知识图谱表示学习方法,进一步地,获取实体文本表示中,针对初始化向量表示的增强知识图谱,以待表示实体为中心,以关系路径长度为距离,可选择合适的可用于图数据分析的图卷积网络、图注意力机制等模型及加权聚合方法将与待表示实体距离满足设定条件的句子节点、文本实体节点及实体节点依次聚合传递给待表示实体,不同关系设置相应权重参数。
以图卷积网络模型RGCN为例,针对待表示的实体,根据文本实体节点与文本句子节点之间、文本实体节点之间、文本实体节点与原图谱实体节点之间、以及原图谱实体节点之间的邻接关系类型,分别设置不同的权重参数,向待表示的实体方向进行变换和聚合运算,表达式如下:
Figure BDA0003503535750000071
其中,Ni,r是Ni,R节点i在关系r下的邻居节点集合。ci,r、ci,R是归一化常数,分别表示关系集合NR、邻居节点集合Ni,r的大小,
Figure BDA0003503535750000072
是关系r对应的权重参数,
Figure BDA0003503535750000073
是节点自身对应的权重参数,
Figure BDA0003503535750000074
表示节点i在第l层RGCN网络模型的向量表示,σ表示激活函数。通过上述运算,将不同类型邻接关系的节点表示聚合到实体中,进而获得融合结构和内容语义的实体文本表示,以实现包含关系结构语义的原图谱实体与包含文本内容语义的文本实体之间的语义传播。
进一步地,获取实体联合表示中,针对增强知识图谱中获得的实体文本表示和原始知识图谱中获得的实体结构表示,对不同的实体及实体表示维度分别设置对应权重参数,将权重参数作为门向量,对实体文本表示和实体结构表示逐维度加权求和,进而得到实体联合表示。
采用门机制,将实体文本表示与传统仅考虑原知识图谱三元组关系的实体结构表示进行联合表示。参见图4所示,大致过程可包含如下内容:仅考虑原三元组关系的实体结构表示,具体方法为:针对扩展增强前的原知识图谱,选择合适的仅考虑三元组关系结构的知识图谱表示学习方法,如典型的TransE、TransR、TransD、RotatE、QuatE、ConvE等表示学习模型,获得原知识图谱的实体结构表示。基于门机制的实体联合表示,具体方法为:针对从增强知识图谱中获得的实体文本表示hd和从原始知识图谱中获得的实体结构表示hs,对于不同的实体以及实体表示的不同维度,分别设置不同的权重参数,将其作为门向量,对实体的文本表示和结构表示逐维度进行加权求和,进而得到基于门机制的实体联合表示,计算表达式如下:
e=σ(ge)⊙es+(1-σ(ge))⊙ed
其中,⊙表示元素按位相乘,σ为Sigmoid函数,ge表示与实体e相关的门权重向量,用来约束e中结构表示es和文本表示ed的比重。ge采用和es相同的方式进行初始化,并在训练中动态调整,训练结束后将不再更改。由此可得头部实体h、关系r及尾部实体的表示t如下:
h=σ(ge)⊙hs+(1-σ(ge))⊙hd
r=rd
t=σ(ge)⊙ts+(1-σ(ge))⊙td
在训练优化过程中,通过采用自我对抗的负采样策略,构建用于模型训练及参数优化的高质量负样本,对不同的可能负样本,可按照如下概率进行采样:
Figure BDA0003503535750000081
其中,α为采样率,fr(h′j,t′j)为所采样的三元组负样本的得分,根据步骤401所选择知识表示学习方法的置信度得分函数进行计算。在此基础上,进一步构建合适的损失函数如下所示:
Figure BDA0003503535750000082
其中,γ为边界超参数,σ为Sigmoid函数,f(h,t)为所有三元组正样本的得分,(h′i,r,t′i)为第i个负样本,p(h′i,r,t′i)为依据采样率来获取的第i个负样本采样概率,f(h′i,t′i)为所采样三元组负样本得分,n为负样本数量。通过搜索设置合适的超参数,包括学习率、参数优化算法、向量表示维度、边界超参数、采样率等,以最小化损失函数为目标,对模型进行训练和优化,获得具有更优表达能力的实体表示。
进一步地,基于上述的方法,参见图5所示,本发明实施例还提供一种基于文本图增强的知识图谱表示学习***,包含:构建模块、增强模块、联合模块及优化模块,其中,
构建模块,用于针对包含实体文本描述信息的原始知识图谱,识别并提取原始知识图谱文本描述信息中的命名实体,并基于实体层和句子层构建实体描述的文本图;
增强模块,用于通过建立文本图中实体节点与原始知识图谱中实体节点之间的连接来扩展原始知识图谱,将扩展后的原始知识图谱作为增强知识图谱,并对该增强知识图谱中各节点进行初始化向量表示;
联合模块,用于针对初始化表示的增强知识图谱,根据节点之间的邻接关系类型,通过图卷积网络中语义传播及聚合将不同类型邻接关系的节点聚合到实体中,获取融合结构和内容语义的实体文本表示;通过联合实体文本表示和原始知识图谱三元组关系中的实体结构表示来获取实体联合表示;
优化模块,用于基于自我对抗的负采样策略来构建负样本,设定损失函数并利用负样本对实体联合表示中存在关系的各个实体进行训练优化来得到知识图谱表示学习模型,利用该知识图谱表示学习模型来对目标输入中实体和关系进行向量表示。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法和/或***,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
基于上述的方法和/或***,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于文本图增强的知识图谱表示学习方法,其特征在于,包含如下内容:
针对包含实体文本描述信息的原始知识图谱,识别并提取原始知识图谱文本描述信息中的命名实体,并基于实体层和句子层构建实体描述的文本图;
通过建立文本图中实体节点与原始知识图谱中实体节点之间的连接来扩展原始知识图谱,将扩展后的原始知识图谱作为增强知识图谱,并对该增强知识图谱中各节点进行初始化向量表示;
针对初始化表示的增强知识图谱,根据节点之间的邻接关系类型,通过图卷积网络中语义传播及聚合将不同类型邻接关系的节点聚合到实体中,获取融合结构和内容语义的实体文本表示;
通过联合实体文本表示和原始知识图谱三元组关系中的实体结构表示来获取实体联合表示;
基于自我对抗的负采样测策来构建负样本,设定损失函数并利用负样本对实体联合表示中存在关系的各个实体进行训练优化来得到知识图谱表示学习模型,利用该知识图谱表示学习模型来对目标输入中实体和关系进行向量表示。
2.根据权利要求1所述的基于文本图增强的知识图谱表示学习方法,其特征在于,识别并提取原始知识图谱的命名实体,首先,对原始知识图谱中的实体文本描述信息进行分析处理,该分析处理过程至少包含:对文本描述的分词及词性判别;然后,从分析处理中识别并抽取命名实体,并根据识别结果确定各命名实体类别。
3.根据权利要求1或2所述的基于文本图增强的知识图谱表示学习方法,其特征在于,基于实体层和句子层来构建实体描述的文本图中,首先,将识别出的命名实体及其所在句子作为不同类型的节点,构建实体层节点、句子层节点;然后,在命名实体节点及其所在句子节点之间、同一个句子中出现的命名实体之间、及具有上下文关系的句子节点之间建立连接。
4.根据权利要求1所述的基于文本图增强的知识图谱表示学习方法,其特征在于,对增强知识图谱中各节点进行初始化表示中,首先,将文本图中的文本实体节点和其来源原始知识图谱中对应实体两者之间建立连接,若文本实体在原始知识图谱中多个不同实体的文本描述中出现,则将该文本实体与原始知识图谱中对应每个实体均建立连接,连接类型根据文本实体类别来区分,得到增强知识图谱;然后,设置用于生成文本向量的预训练模型和向量表示维度参数,将文本图中的文本实体节点、句子节点及原始知识图谱中实体节点分别作为预训练模型输入,利用该预训练模型来获取与输入对应的初始化向量表示。
5.根据权利要求1或4所述的基于文本图增强的知识图谱表示学习方法,其特征在于,获取实体文本表示中,针对初始化向量表示的增强知识图谱,以待表示实体为中心,以关系路径长度为距离,利用图卷积网络模型及加权聚合方法,将与待表示实体距离满足设定条件的句子节点、文本实体节点及实体节点依次聚合传递给待表示实体,不同关系设置相应权重参数。
6.根据权利要求5所述的基于文本图增强的知识图谱表示学习方法,其特征在于,聚合传递的运算公式表示如下:
Figure FDA0003503535740000021
其中,Ni,r是节点i在关系r下的邻居节点集合,ci,r、ci,R分别表示关系集合NR、邻居节点集合Ni,r的大小,
Figure FDA0003503535740000022
是关系r对应的权重参数,
Figure FDA0003503535740000023
是节点自身对应的权重参数,
Figure FDA0003503535740000024
表示节点i在第l层图卷积网络模型中的向量表示,σ表示激活函数。
7.根据权利要求1所述的基于文本图增强的知识图谱表示学习方法,其特征在于,获取实体联合表示中,针对增强知识图谱中获得的实体文本表示和原始知识图谱中获得的实体结构表示,对不同的实体及实体表示维度分别设置对应权重参数,将权重参数作为门向量,对实体文本表示和实体结构表示逐维度加权求和,进而得到实体联合表示。
8.根据权利要求7所述的基于文本图增强的知识图谱表示学习方法,其特征在于,逐维度加权求和过程表示如下:e=σ(ge)⊙es+(1-σ(ge))⊙ed,其中,⊙表示元素按位相乘,σ为激活函数,ge表示与实体e相关的门权重向量。
9.根据权利要求1所述的基于文本图增强的知识图谱表示学习方法,其特征在于,训练优化中,通过设置采样率来构建负样本,并利用损失函数
Figure FDA0003503535740000025
进行训练优化,其中,γ为边界超参数,σ为激活函数,f(h,t)为所有三元组正样本的得分,(h′i,r,t′i)为第i个负样本,p(h′i,r,t′i)为依据采样率来获取的第i个负样本采样概率,f(h′i,t′i)为所采样三元组负样本得分,n为负样本数量。
10.一种基于文本图增强的知识图谱表示学习***,其特征在于,包含:构建模块、增强模块、联合模块及优化模块,其中,
构建模块,用于针对包含实体文本描述信息的原始知识图谱,识别并提取原始知识图谱文本描述信息中的命名实体,并基于实体层和句子层构建实体描述的文本图;
增强模块,用于通过建立文本图中实体节点与原始知识图谱中实体节点之间的连接来扩展原始知识图谱,将扩展后的原始知识图谱作为增强知识图谱,并对该增强知识图谱中各节点进行初始化向量表示;
联合模块,用于针对初始化表示的增强知识图谱,根据节点之间的邻接关系类型,通过图卷积网络中语义传播及聚合将不同类型邻接关系的节点聚合到实体中,获取包含融合结构和内容语义的实体文本表示;通过联合实体文本表示和原始知识图谱三元组关系中的实体结构表示来获取实体联合表示;
优化模块,用于基于自我对抗的负采样策略来构建负样本,设定损失函数并利用负样本对实体联合表示中存在关系的各个实体进行训练优化来得到知识图谱表示学习模型,利用该知识图谱表示学习模型来对目标输入中实体和关系进行向量表示。
CN202210133500.7A 2022-02-14 2022-02-14 基于文本图增强的知识图谱表示学习方法及*** Pending CN114580638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210133500.7A CN114580638A (zh) 2022-02-14 2022-02-14 基于文本图增强的知识图谱表示学习方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210133500.7A CN114580638A (zh) 2022-02-14 2022-02-14 基于文本图增强的知识图谱表示学习方法及***

Publications (1)

Publication Number Publication Date
CN114580638A true CN114580638A (zh) 2022-06-03

Family

ID=81770086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210133500.7A Pending CN114580638A (zh) 2022-02-14 2022-02-14 基于文本图增强的知识图谱表示学习方法及***

Country Status (1)

Country Link
CN (1) CN114580638A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080766A (zh) * 2022-08-16 2022-09-20 之江实验室 基于预训练模型的多模态知识图谱表征***及方法
CN115526293A (zh) * 2022-09-13 2022-12-27 深圳市规划和自然资源数据管理中心 一种顾及语义和结构信息的知识图谱推理方法
CN115861715A (zh) * 2023-02-15 2023-03-28 创意信息技术股份有限公司 基于知识表示增强的图像目标关系识别算法
WO2023246849A1 (zh) * 2022-06-22 2023-12-28 青岛海尔电冰箱有限公司 回馈数据图谱生成方法及冰箱
CN117540035A (zh) * 2024-01-09 2024-02-09 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023246849A1 (zh) * 2022-06-22 2023-12-28 青岛海尔电冰箱有限公司 回馈数据图谱生成方法及冰箱
CN115080766A (zh) * 2022-08-16 2022-09-20 之江实验室 基于预训练模型的多模态知识图谱表征***及方法
CN115080766B (zh) * 2022-08-16 2022-12-06 之江实验室 基于预训练模型的多模态知识图谱表征***及方法
CN115526293A (zh) * 2022-09-13 2022-12-27 深圳市规划和自然资源数据管理中心 一种顾及语义和结构信息的知识图谱推理方法
CN115861715A (zh) * 2023-02-15 2023-03-28 创意信息技术股份有限公司 基于知识表示增强的图像目标关系识别算法
CN117540035A (zh) * 2024-01-09 2024-02-09 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法
CN117540035B (zh) * 2024-01-09 2024-05-14 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法

Similar Documents

Publication Publication Date Title
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习***及方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN114580638A (zh) 基于文本图增强的知识图谱表示学习方法及***
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN113360675A (zh) 一种基于互联网开放世界的知识图谱特定关系补全方法
CN114579741B (zh) 融合句法信息的gcn-rn方面级情感分析方法和***
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN114238524A (zh) 基于增强样本模型的卫星频轨数据信息抽取方法
CN117954081A (zh) 一种基于图Transformer的智能医疗问诊方法及***
CN113656594A (zh) 一种基于飞行器维修的知识推理方法
CN111079840B (zh) 基于卷积神经网络和概念格的图像语义完备标注方法
CN117648984A (zh) 一种基于领域知识图谱的智能问答方法及***
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱***
CN115329101A (zh) 一种电力物联网标准知识图谱构建方法及装置
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法
CN113792144A (zh) 基于半监督的图卷积神经网络的文本分类方法
Tang et al. Software Knowledge Entity Relation Extraction with Entity‐Aware and Syntactic Dependency Structure Information
CN113435190A (zh) 一种融合多层次信息抽取和降噪的篇章关系抽取方法
CN113190690A (zh) 无监督知识图谱推理处理方法、装置、设备和介质
CN116541472B (zh) 一种医疗领域知识图谱构建的方法
CN113361261B (zh) 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination