CN112100380B - 一种基于知识图谱的生成式零样本预测方法 - Google Patents

一种基于知识图谱的生成式零样本预测方法 Download PDF

Info

Publication number
CN112100380B
CN112100380B CN202010973420.3A CN202010973420A CN112100380B CN 112100380 B CN112100380 B CN 112100380B CN 202010973420 A CN202010973420 A CN 202010973420A CN 112100380 B CN112100380 B CN 112100380B
Authority
CN
China
Prior art keywords
category
knowledge
class
graph
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010973420.3A
Other languages
English (en)
Other versions
CN112100380A (zh
Inventor
陈华钧
耿玉霞
陈卓
叶志权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010973420.3A priority Critical patent/CN112100380B/zh
Publication of CN112100380A publication Critical patent/CN112100380A/zh
Application granted granted Critical
Publication of CN112100380B publication Critical patent/CN112100380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的生成式零样本预测方法,包括以下步骤:以层次结构化的类别为类别节点,并为类别连接属性描述、文本描述以及外部知识作为附加节点,来构建融合各类语义信息的知识图谱;采用图神经网络算法对知识图谱的语义信息进行编码,生成类别向量表示;将生成类别向量表示作为生成模型的输入,以生成该类别的样本,用于零样本学习算法的学习和预测。通过构建融合各类语义信息的知识图谱,并基于该知识图谱为每个不可见类别生成特征更加丰富且更具有类间区分度的样本,以更好地解决不可见类别样本的预测问题。

Description

一种基于知识图谱的生成式零样本预测方法
技术领域
本发明涉及生成式零样本学习领域,尤其涉及一种基于知识图谱的生成式零样本预测方法。
背景技术
零样本学习(Zero-shot Learning,ZSL)是迁移学习领域的一个重要分支,主要用于处理监督学习中样本缺失的问题。典型的监督学习需要人工标记训练样本从而指导机器学习模型进行特征的提取,而样本的标记工作往往需要耗费巨大的人力和财力,尤其是在分类问题中,当出现一些新的类别时,需要人工标记上百或上千个训练样本。繁重的样本标记工作使得模型难以泛化。
零样本学习技术则可以处理训练样本缺失情况下,模型的学习和预测问题,即利用样本标签之间的语义先验知识,将模型从已知标签的训练样本中学习到的样本特征迁移到未知的、缺少训练样本的新标签中,从而处理新标签的样本预测问题。近年来,ZSL及其相关算法在图像分类、文本分类、关系分类等领域取得了广泛的应用,在此任务中,已有训练样本的类别一般定义为可见类(即在训练数据集中可见),而训练样本缺失的类别一般定义为不可见类(即在训练数据集中不可见)。
以图像分类为例,典型的ZSL算法假设“语义相似的类别(即在语义空间相近)也有相似的视觉特征(即在样本空间相近)”,因此,一些ZSL算法通过学习空间映射函数将样本特征与语义特征映射到相同的向量空间,在该向量空间进行最近邻的计算,从而预测样本的类别。然而,由于缺少不可见类别的训练样本,此类算法在训练时只有可见类的训练样本参与,容易导致算法模型在预测时的偏置,即将不可见类别的样本预测为可见类的标签,尤其是当样本空间中同时包含可见类和不可见类时。为了解决此问题,一些ZSL算法提出使用生成模型生成不可见类别的样本,具体地,利用类别的语义先验信息生成该类别的样本,典型的生成模型如生成对抗网络(Generative adversarial network,GAN)。此类生成式的零样本学习方法通过生成不可见类别的训练样本,将零样本学习转化为传统的监督学习,从而有效地解决零样本学习中样本缺失的问题。
然而,大多数生成式零样本学习方法在生成样本时利用的语义先验信息较为单一,如类别的属性描述、类别的层次结构或类别的文本描述等。类别的属性详细地描述了类别的语义特征包括视觉特征诸如颜色、形状、非视觉特征(如动物类别的栖息地)以及其他特征。然而,相同的属性在不同的类别中表现可能不同,如在分类“斑马”和“猪”这两类动物时,相同的属性“尾巴”在两类动物中表现不同。类别的层次结构定义了类别所属的分类体系,如“马”和“斑马”同属于“马科”,然而由于这两类动物在分类层次上属于同一级别,它们的语义信息并不具备区分度。类别的文本描述为类别提供了详细的介绍,如“老虎是一种大型猫科动物,它有敏锐的听力、夜视力,可自由伸缩的尖爪和粗壮的犬齿,以及皮毛上黑色的垂直条纹”。然而这些描述中具有较多的噪声,有用信息的提取具有一定的难度。
发明内容
鉴于上述,本发明的目的是提供一种基于知识图谱的生成式零样本预测方法,通过构建融合各类语义信息的知识图谱,并基于该知识图谱为每个不可见类别生成特征更加丰富且更具有类间区分度的样本,以更好地解决不可见类别样本的预测问题。
为实现上述发明目的,本发明提供以下技术方案:
一种基于知识图谱的生成式零样本预测方法,包括以下步骤:
以层次结构化的类别为类别节点,并为类别连接属性描述、文本描述以及外部知识作为附加节点,来构建融合各类语义信息的知识图谱;
采用图神经网络算法对知识图谱的语义信息进行编码,生成类别向量表示;
将生成的类别向量表示作为生成模型的输入,以生成该类别的样本,用于零样本类别的学习和预测。
该基于知识图谱的生成式零样本预测方法中,融合各类别语义信息,综合各类语义信息的特点,并进行优势互补,如在属性描述中加入类别层面的约束、以及在类别层次结构中引入具有区分度的属性,同时,在此基础上,与一些外部知识库如ConceptNet、DBpedia等进行融合,引入更加丰富的类别语义信息,从而结合生成模型为每个不可见类生成特征更加丰富且更具有类间区分度的样本。
优选地,构建知识图谱时,基于词汇知识库中蕴含的上位词、下位词关系,构建层次化的骨架结构,其中,每个类别作为一个类别节点,对应一个词汇,不同类别节点依据词汇知识库中的语义结构通过子类关系进行连接;
将类别的属性描述和文本描述作为附加节点,并与类别节点进行连接,其中,每个类别与标注的属性描述通过包含属性关系进行连接,每个类别与描述文本通过存在描述关系进行连接。
优选地,构建知识图谱时,将类别与外部知识库中实体对齐,将外部知识库中的实体的外部知识作为附件节点,通过包含外部知识关系将外部知识与类别进行连接。融合外部知识的具体方式为:利用现有的工具或平台将类别关键字与外部知识库的实体进行对齐,基于对齐后的实体,利用现有的KPI或查询工具查询实体(即类别)对应的外部知识,随后将查询到的外部知识进行合理组合,并通过包含外部知识关系与当前图谱中的类别节点进行连接。
优选地,所述采用图神经网络算法对知识图谱的语义信息进行编码,生成类别向量表示包括:
将知识图谱按照关系划分成多个子图,所述关系包括子类关系、包含属性关系、存在描述关系、包含外部知识关系;
采用图神经网络分别对子图进行编码,得到融合每类语义信息的类别子向量表示,并将所有的类别子向量表示进行拼接,得到类别向量表示。
本发明中,对不同的子图分别使用图神经网络算法进行编码时,在不同节点间进行信息传播的同时融合不同节点的语义信息,从而在向量空间得到每个节点的语义表示。采用图神经网络对子图进行编码之前,为子图中的每个类别节点和附加节点采用词向量进行初始化。具体地,使用词向量算法如word2vec、GloVe等在Wikipedia语料上进行训练得到预训练的词向量,此语料中包含类别、属性及文本描述所涉及的词汇。基于预训练的词向量,对每个节点进行表示,其中对于包含单个词汇的节点如“马”等,节点的初始化表示为对应词汇的词向量;对于包含多个词汇的节点如“长尾”等及文本描述节点(通常为一个句子),节点的初始化表示为所涉及词汇词向量的平均。
其中,所述词汇知识库采用WordNet,所述外部知识库采用ConceptNet、DBpedia。
优选地,所述生成模型基于生成对抗网络构建得到。生成模型在以类别向量表示作输入的条件下,结合服从一定分布的随机噪声,生成该类别的样本特征,从而用于零样本学习算法的学习和预测。
与现有技术相比,本发明具有的有益效果至少包括:
(1)本发明基于知识图谱融合现有的类别语义信息(类别属性描述、类别层次结构及类别文本描述)并进行优势互补,其中,属性描述可在层次结构中引入具有区分度的语义特征,而层次结构可以为属性描述增加类别层面的约束,三种语义信息的融合相比单一的且存在一定噪声的文本描述包含了更多语义信息。除此之外,本发明提出将类别链接到外部知识库从而在知识图谱中引入更多的外部知识,因此,本发明提出的知识图谱中包含了更全面的类别语义先验知识,基于此,生成模型可生成更丰富的样本特征;
(2)不同于现有的知识图谱表示学习方法(即图谱编码方法,如TransE等),本发明提出使用图神经网络算法对图谱中的语义信息进行融合并映射到向量空间,同时,使用预训练的词向量对每个节点的表示进行初始化;
(3)不同于现有的生成式零样本预测方法利用单一的类别语义信息且依赖模型优化器或复杂网络,本发明提出使用蕴含了丰富语义信息的知识图谱作为生成模型的输入,同时使用基本的生成模型框架,为不可见类别生成更丰富的样本特征,同时在零样本学习算法的测试场景中有着更高的分类准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为实施例提供的基于知识图谱的生成式零样本预测方法的流程示意图;
图2为动物图像分类场景构建的知识图谱骨架结构示意图;
图3为动物图像分类场景构建的类别-属性、类别-文本描述示意图;
图4为动物图像分类场景融合外部知识库的图谱示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本发明提供的基于知识图谱的生成式零样本预测方法可用于但不局限于图像分类、文本分类、关系分类等领域中出现新类别且缺少训练样本的应用场景,利用知识图谱中包含的类别间丰富的语义信息,解决零样本类别的学习和预测问题,本实施实例以零样本动物图像分类为例,通过测试图像在零样本场景中的分类表现以证明本发明所述算法的优越性。如图1所示,将基于知识图谱的生成式零样本预测方法应用于动物图像分类时,包括如下步骤:
步骤1,基于知识图谱融合类别的属性描述、层次结构、文本描述及外部知识,以建模类别间丰富的语义先验知识;
步骤2,使用图神经网络算法对图谱中的语义信息进行编码,在向量空间进行表示;
步骤3,利用图谱编码得到的类别向量表示,作为生成模型的输入,以生成特征丰富的样本,用于零样本学习算法的学习和预测。
步骤(1)中,首先构建知识图谱的骨架结构,已知动物类别可对应WordNet中的一个同义词汇,将所有的类别(包含可见类和不可见类)视作一个类别节点,并按照WordNet中的上位词、下位词结构通过子类关进行连接,图2所示为构建的知识图谱骨架结构示意图,完整的骨架结构中将包含所有动物类别。
其次,获取类别的属性描述及文本描述,并将属性描述和文本描述作为附加节点与类别节点进行连接。
类别的文本描述从Wikidata中获取,具体地,通过MediaWiki API查询类别对应的Wikidata实体ID,随后通过Python内置的Wikidata工具包通过ID查询并返回实体(类别)的文本描述。
类别的属性描述从Wikipedia中获取并通过人工标注到其所属的类别。具体地,对每一个动物类别搜索其对应的Wikipedia词条,通过工具爬取词条中的动物描述文本,并从中提取一系列属性描述相关的词汇构建属性表。基于此属性表,邀请志愿者对动物类别进行属性标注:每个志愿者在每个类别提供25张参考图像的情况下,根据属性表对每个类别标注3~6个属性;每个类别会被5个志愿者以同样的方式进行标注,最终以少数服从多数的原则获取最终的标注结果。
获取属性描述及文本描述后,将属性及文本当作附加节点与其对应的类别节点分别通过关系包含属性、存在描述进行连接,图3所示为类别老虎对应的属性描述及文本描述信息。
最后,除现有的类别语义信息外,本发明提出的知识图谱通过将类别链接到外部知识库实体,从而引入外部知识库中关于类别的知识。以链接到外部知识库ConceptNet为例。具体地,通过ConceptNet REST API查询并获取ConceptNet中存储的与当前类别相关的、由特定关系连接的概念,考虑到ConceptNet中的关系和概念均为自然语言描述的形式,因此,本发明在对来源于ConceptNet的知识进行融合时,将特定关系连接的概念与所连接的关系进行拼接形成附加节点,再将此节点与当前类别节点通过“存在外部知识”关系进行连接。图4所示为与类别狗相关的外部知识及最终的融合结果。
由此,本发明提出的包含了丰富类别语义先验的知识图谱构建完成,图谱中包含类别、属性、文本描述、外部知识等节点,以及子类关系、包含属性关系、存在描述关系、包含外部知识关系。
步骤(2)中,基于构建的知识图谱,本发明将图谱按不同的关系切分为不同视图的子图,随后使用图神经网络算法如图自编码器(Graph Auto-Encoder,GAE)对不同子图中的节点进行融合,从而将子图映射到向量空间。具体地,将图谱按现有的四类关系子类关系、包含属性关系、存在描述关系、存在外部知识关系切分为表示子类关系的子图Gs、表示包含属性关系的子图Ga、表示存在描述关系的子图Gt以及表示包含外部知识关系的子图Ge,对每个子图,分别使用无监督的GAE图算法得到子图中每个节点的表示,具体地,以子图Ga为例,对于图中的每个节点i,GAE首先利用图卷积层聚合其周围节点的特征以得到该节点的表示:
Figure BDA0002684913420000081
式中,
Figure BDA0002684913420000082
Figure BDA0002684913420000083
分别表示当前图Ga中当前节点在第(l-1)卷积层的表示,以及在第l层经过卷积聚合之后得到的更新后的表示,Ni表示当前节点i的周围节点(在图Ga中每个类别的周围节点为其标注的属性节点)集合,
Figure BDA0002684913420000091
Figure BDA0002684913420000092
分别表示第l层卷积的权重矩阵和偏置。经过多层卷积,可得到节点i最终的向量表示
Figure BDA0002684913420000093
注意的是,为了丰富节点本身的语义信息,本发明提出使用词向量对节点进行初始化,因此,第一层卷积操作的输入为每个节点的词向量表示。
类似地,经过GAE算法编码后的子图Gs、Gt及Ge可分别得到节点i的向量表示
Figure BDA0002684913420000094
Figure BDA0002684913420000095
步骤(3)中,考虑到不同的子图中均包含类别节点,不同子图经GAE编码后可得到来自不同视图的类别节点向量表示,例如,对于类别节点c,经不同子图编码后可得到向量表示
Figure BDA0002684913420000096
Figure BDA0002684913420000097
为了融合来自不同视图的类别表示,本发明提出将上述向量进行拼接得到最终的类别向量表示:
Figure BDA0002684913420000098
此时,gc中蕴含了知识图谱中所描述的、来自不同视图的关于类别c的语义先验知识。
上述生成的类别向量表示,可作为基于生成对抗网络(Generative adversarialnetwork,GAN)构建的生成模型的输入,生成类别对应的样本特征,从而将零样本学习转换为传统的监督学习模型,对不可见类别的测试样本进行分类。具体地,GAN中包含一个生成器和判别器,其中,生成器以类别向量表示以及服从一定分布的随机噪声作为输入,生成对应类别的样本(图像特征),生成器训练的损失函数
Figure BDA0002684913420000099
定义为:
Figure BDA00026849134200000910
式中,
Figure BDA00026849134200000911
表示生成的样本,z表示从高斯分布中采样得到的随机噪声向量,损失函数的第一项表示Wasserstein GAN(GAN的一种变种)的损失项,第二项表示常见的softmax分类损失项,用于对生成的样本进行分类以保证生成样本的类间区分度,其中c表示类别c,λ为对应的权重系数,
Figure BDA0002684913420000101
表示样本
Figure BDA0002684913420000102
对于类别c的预测概率分布。注意的是,这里生成器生成的是图像特征(如使用预训练的卷积神经网络抽取的特征),而非直接生成图像,这是因为,根据相关工作的经验,生成图像难度较大,且零样本预测的结果相比生成图像特征较差,此外,在对测试图像进行分类时,同样需要先抽取特征再进行分类,因此,生成器直接生成样本特征是一种较优的选择。
判别器主要作用是用于区分真实样本和生成样本,判别器的损失函数
Figure BDA0002684913420000103
定义为:
Figure BDA0002684913420000104
其中,前两项
Figure BDA0002684913420000105
表示生成样本和真实样本之间的Wasserstein距离,最后一项
Figure BDA0002684913420000106
表示Lipschitz约束项,β表示对应的权重系数,其中
Figure BDA0002684913420000107
ε服从高斯分布。
GAN模型的训练以一种迭代的方式进行,其中,模型首先固定生成器同时最大化判别器的损失函数,使得判别器可以很好地区分真实样本和生成样本;随后模型固定判别器,同时最小化生成器的损失函数,使得生成器尽可能地生成高质量的样本以骗过判别器,模型经过多次迭代,最终生成高质量的、判别器无法区分的样本。
GAN模型的训练使用可见类的类别向量表示及训练样本进行训练,训练好的生成器在以不可见类类别向量作输入的情况下,可为不可见类别生成高质量的样本作为后续算法的其训练样本。GAN模型经可见类训练后可直接用于不可见类样本的生成,这是由于可见类别与不可见类别在语义空间(即知识图谱)中存在相关的联系。利用生成的训练样本,可为不可见类的每一个类别训练一个分类器,使得模型在测试阶段可分类不可见类别的测试样本。
表1
Figure BDA0002684913420000111
表1为本发明所述方法和现有生成式零样本方法在相同的动物图像数据集(包含80个类,77,173张图像,其中25个类别为可见类,每个可见类有1300张左右的训练图像,55个类别为不可见类,没有训练图像)上的分类结果的定量评价指标对比。相比现有使用文本描述、属性描述或层次结构作为语义先验知识的方法(如GAZSL、LisGAN等),本发明所述方法能生成特征更丰富且更具有类间区分度的样本,从而使得在标准的ZSL测试场景(测试时将不可见类的测试样本分类到不可见类别上)及泛化的ZSL测试场景中(测试时将可见类和不可见类的测试样本分类到可见类和不可见类上)分类的准确率更高,说明了本发明所述算法的优越性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于知识图谱的生成式零样本预测方法,其特征在于,包括以下步骤:
以层次结构化的类别为类别节点,并为类别连接属性描述、文本描述以及外部知识作为附加节点,来构建融合各类语义信息的知识图谱,具体包括:构建知识图谱时,基于词汇知识库中蕴含的上位词、下位词关系,构建层次化的骨架结构,其中,每个类别作为一个类别节点,对应一个词汇,不同类别节点依据词汇知识库中的语义结构通过子类关系进行连接;将类别的属性描述和文本描述作为附加节点,并与类别节点进行连接,其中,每个类别与标注的属性描述通过包含属性关系进行连接,每个类别与描述文本通过存在描述关系进行连接;将类别与外部知识库中实体对齐,将外部知识库中的实体的外部知识作为附加节点,通过包含外部知识关系将外部知识与类别进行连接;
采用图神经网络算法对知识图谱的语义信息进行编码,生成类别向量表示,包括:将知识图谱按照关系划分成多个子图,所述关系包括子类关系、包含属性关系、存在描述关系、包含外部知识关系;采用图神经网络分别对子图进行编码,得到融合每类语义信息的类别子向量表示,并将所有的类别子向量表示进行拼接,得到类别向量表示;
将生成的类别向量表示作为生成模型的输入,以生成该类别的样本,用于零样本类别的学习和预测。
2.如权利要求1所述的基于知识图谱的生成式零样本预测方法,其特征在于,采用图神经网络对子图进行编码之前,为子图中的每个类别节点和附加节点采用词向量进行初始化。
3.如权利要求1所述的基于知识图谱的生成式零样本预测方法,其特征在于,所述词汇知识库采用WordNet,所述外部知识库采用ConceptNet、DBpedia。
4.如权利要求1所述的基于知识图谱的生成式零样本预测方法,其特征在于,所述生成模型基于生成对抗网络构建得到。
5.如权利要求1或4所述的基于知识图谱的生成式零样本预测方法,其特征在于,生成模型在以类别向量表示作输入的条件下,结合服从一定分布的随机噪声,生成该类别的样本特征,从而用于零样本学习算法的学习和预测。
CN202010973420.3A 2020-09-16 2020-09-16 一种基于知识图谱的生成式零样本预测方法 Active CN112100380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010973420.3A CN112100380B (zh) 2020-09-16 2020-09-16 一种基于知识图谱的生成式零样本预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010973420.3A CN112100380B (zh) 2020-09-16 2020-09-16 一种基于知识图谱的生成式零样本预测方法

Publications (2)

Publication Number Publication Date
CN112100380A CN112100380A (zh) 2020-12-18
CN112100380B true CN112100380B (zh) 2022-07-12

Family

ID=73759817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010973420.3A Active CN112100380B (zh) 2020-09-16 2020-09-16 一种基于知识图谱的生成式零样本预测方法

Country Status (1)

Country Link
CN (1) CN112100380B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365429B (zh) * 2020-12-21 2022-07-22 神思电子技术股份有限公司 一种知识驱动的图像模糊区域清晰度增强方法
CN112966676B (zh) * 2021-02-04 2023-10-20 北京易道博识科技有限公司 一种基于零样本学习的文档关键信息抽取方法
CN113012770B (zh) * 2021-03-17 2022-05-10 中南大学 基于多模态深度神经网络药物-药物相互作用事件预测
CN113516156A (zh) * 2021-04-13 2021-10-19 浙江工业大学 一种基于多源信息融合的细粒度图像分类方法
CN113505701A (zh) * 2021-07-12 2021-10-15 辽宁工程技术大学 一种结合知识图谱的变分自编码器零样本图像识别方法
CN117669713B (zh) * 2024-01-31 2024-07-12 宁德时代新能源科技股份有限公司 电池信息处理方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163258A (zh) * 2019-04-24 2019-08-23 浙江大学 一种基于语义属性注意力重分配机制的零样本学习方法及***
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN111126218A (zh) * 2019-12-12 2020-05-08 北京工业大学 一种基于零样本学习的人体行为识别方法
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509889B2 (en) * 2014-11-06 2019-12-17 ezDI, Inc. Data processing system and method for computer-assisted coding of natural language medical text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163258A (zh) * 2019-04-24 2019-08-23 浙江大学 一种基于语义属性注意力重分配机制的零样本学习方法及***
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN111126218A (zh) * 2019-12-12 2020-05-08 北京工业大学 一种基于零样本学习的人体行为识别方法
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法

Also Published As

Publication number Publication date
CN112100380A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112100380B (zh) 一种基于知识图谱的生成式零样本预测方法
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN110889556B (zh) 一种企业经营风险特征数据信息提取方法和提取***
CN111538835B (zh) 一种基于知识图谱的社交媒体情感分类方法与装置
CN109685110B (zh) 图像分类网络的训练方法、图像分类方法及装置、服务器
WO2021139191A1 (zh) 数据标注的方法以及数据标注的装置
US20240163684A1 (en) Method and System for Constructing and Analyzing Knowledge Graph of Wireless Communication Network Protocol, and Device and Medium
CN111881290A (zh) 一种基于加权语义相似度的配网多源网架实体融合方法
CN111159385A (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN113742488B (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN114048340A (zh) 一种层级融合的组合查询图像检索方法
CN113627190A (zh) 可视化数据转换方法、装置、计算机设备及存储介质
CN110717090A (zh) 一种旅游景点网络口碑评价方法、***及电子设备
CN116304120A (zh) 多媒体检索方法、装置、计算设备和存储介质
CN114238524B (zh) 基于增强样本模型的卫星频轨数据信息抽取方法
CN115114409A (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN113076490B (zh) 一种基于混合节点图的涉案微博对象级情感分类方法
CN114818707A (zh) 一种基于知识图谱的自动驾驶决策方法和***
Lonij et al. Open-world visual recognition using knowledge graphs
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
CN115934966A (zh) 基于遥感影像推荐信息的自动标注方法
CN113988083B (zh) 一种用于航运新闻摘要生成的事实性信息编码与评估方法
US11875250B1 (en) Deep neural networks with semantically weighted loss functions
CN113407716B (zh) 一种基于众包的人类行为文本数据集的构造以及处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant