CN115114443A - 多模态编码模型的训练方法、装置、电子设备及存储介质 - Google Patents

多模态编码模型的训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115114443A
CN115114443A CN202210454358.6A CN202210454358A CN115114443A CN 115114443 A CN115114443 A CN 115114443A CN 202210454358 A CN202210454358 A CN 202210454358A CN 115114443 A CN115114443 A CN 115114443A
Authority
CN
China
Prior art keywords
modal
entity
sample
knowledge
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210454358.6A
Other languages
English (en)
Inventor
林镇溪
张子恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210454358.6A priority Critical patent/CN115114443A/zh
Publication of CN115114443A publication Critical patent/CN115114443A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本申请提供了一种多模态编码模型的训练方法、装置、电子设备及存储介质;方法包括:调用待训练的多模态编码模型,对第一、第二样本知识图谱中的每个样本实体进行编码处理,得到每个样本实体的至少两个模态的模态特征;针对每个样本实体进行以下处理:基于样本实体的每个模态特征,确定样本实体对应的模态间子对比损失;在每个模态下针对每个对齐实体对进行以下处理:基于对齐实体对的两个模态特征,确定对齐实体对的模态内子对比损失;确定多模态编码模型的模态间总对比损失、模态内总对比损失;基于模态间总对比损失以及模态内总对比损失,更新多模态编码模型的参数。通过本申请,能够提升多模态编码模型针对知识图谱对齐处理的准确性。

Description

多模态编码模型的训练方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种多模态编码模型的训练方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
多模态知识图谱(Multi-Modal Knowledge Graph)中包含多种模态的数据,实体对齐处理,是判断不同的多模态知识图谱中的是否指向同一对象的实体,仅依据同一模态的数据难以确定实体是否对齐,因此,需要对不同模态的数据进行编码处理,不同模态的特征之间存在差异性,进而影响了对齐知识图谱的准确性,相关技术暂无对齐效果较好的编码方案。
发明内容
本申请实施例提供一种多模态编码模型的训练方法、装置、电子设备及存储介质、计算机程序产品,能够提升多模态编码模型的编码精准度,提升针对知识图谱对齐处理的对齐结果的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种多模态编码模型的训练方法,包括:
调用待训练的多模态编码模型,对第一样本知识图谱和第二样本知识图谱中的每个样本实体进行编码处理,得到每个所述样本实体的至少两个模态的模态特征,其中,所述第一样本知识图谱与所述第二样本知识图谱互相对齐;
针对每个所述样本实体进行以下处理:基于所述样本实体的每个所述模态特征,确定所述样本实体对应的模态间子对比损失;
将所述第一样本知识图谱中每个所述样本实体、以及所述第二样本知识图谱中与每个样本实体对齐的样本实体,组成对齐实体对;
在每个模态下针对每个对齐实体对进行以下处理:基于对齐实体对的两个模态特征,确定对齐实体对的模态内子对比损失;
基于每个模态间子对比损失,确定多模态编码模型的模态间总对比损失,以及基于每个模态内子对比损失,确定多模态编码模型的模态内总对比损失;
基于模态间总对比损失以及模态内总对比损失,更新多模态编码模型的参数。
本申请实施例提供一种多模态编码模型的训练装置,包括:。
编码模块,配置为调用待训练的多模态编码模型,对第一样本知识图谱和第二样本知识图谱中的每个样本实体进行编码处理,得到每个样本实体的至少两个模态的模态特征,其中,第一样本知识图谱与第二样本知识图谱互相对齐;
损失获取模块,配置为针对每个样本实体进行以下处理:基于样本实体的每个模态特征,确定样本实体对应的模态间子对比损失;
损失获取模块,还配置为将第一样本知识图谱中每个样本实体、以及第二样本知识图谱中与每个样本实体对齐的样本实体,组成对齐实体对;
损失获取模块,还配置为在每个模态下针对每个对齐实体对进行以下处理:基于对齐实体对的两个模态特征,确定对齐实体对的模态内子对比损失;
损失获取模块,配置为基于每个模态间子对比损失,确定多模态编码模型的模态间总对比损失,以及基于每个模态内子对比损失,确定多模态编码模型的模态内总对比损失;
训练模块,配置为基于模态间总对比损失以及模态内总对比损失,更新多模态编码模型的参数。
本申请实施例提供一种电子设备,电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行存储器中存储的可执行指令时,实现本申请实施例的多模态编码模型的训练方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,可执行指令被处理器执行时实现本申请实施例的多模态编码模型的训练方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或指令,计算机程序或指令被处理器执行时实现本申请实施例的多模态编码模型的训练方法。
本申请实施例具有以下有益效果:
通过获取模态内对比损失和模态间对比损失,使得多模态知识图谱编码模型能够从模态间与模态内两方面减少编码损失,使得编码结果更准确,提升了多模态知识图谱编码的准确度,进而多模态编码模型能够对知识图谱进行更准确的对齐处理。
附图说明
图1是本申请实施例提供的多模态编码模型的训练方法的应用场景的示意图;
图2是本申请实施例提供的用于多模态编码模型的训练的电子设备的结构示意图;
图3A是本申请实施例提供的多模态编码模型的训练方法的流程示意图;
图3B是本申请实施例提供的多模态编码模型的训练方法的流程示意图;
图3C是本申请实施例提供的多模态编码模型的训练方法的流程示意图;
图4是本申请实施例提供的多模态编码模型的训练方法的流程示意图;
图5是本申请实施例提供的知识图谱的示意图;
图6是本申请实施例提供的多模态编码模型的编码过程示意图;
图7是本申请实施例提供的多模态编码模型的结构示意图;
图8是本申请实施例提供的多模态编码模型的训练方法一个可选的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
需要指出,在本申请实施例中,涉及到用户的信息、用户反馈数据等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)模态(Modality),每一种信息的来源或者形式,都可以称为一种模态。例如,信息的媒介有语音、图像、文字等;信息的来源有多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。
2)知识图谱(KG,Knowledge Graph),知识图谱是关系的最有效的表示方式,把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。多模态知识图谱(Multi-Modal Knowledge Graph),除了文本数据以及结构化数据,还包含了视觉数据,例如为每一个实体赋予一张或者多张图像,提供知识图谱中实体充分的视觉信息。
3)对齐,是指判断至少两个实体是否指向同一对象。例如:知识图谱1中的实体“刘某”与知识图谱2中的实体“老刘”指向真实世界中的同一人,则两个实体对齐。多模态知识图谱对齐(Knowledge Graph Alignment),是指判断两个或者多个不同的知识图谱的实体是否指向真实世界中的同一个对象。多模态实体对齐特点在于,在对齐的过程中可以充分融合不同模态的知识进行对齐,包括文本、图像等信息。
4)对比学习(Contrastive Learning):对比学习是机器学习中描述相似和不同实物的任务方法,通过将数据分别与正例样本和负例样本在特征空间进行对比,来学习样本的特征表示。通过对比学习可以训练机器学习模型区分相似但是不同的对象。
5)卷积神经网络(CNN,Convolutional Neural Networks):是一类包含卷积计算且具有深度结构的前馈神经网络(FNN,Feed forward Neural Networks),是深度学***移不变分类(Shift-invariantClassification)。
6)图神经网络模型(GNN,Graph Neural Network),传统的神经网络比较适合用于欧式空间的数据,图神经网络模型是把神经网络用在图结构(Graph)中的网络模型。图神经网络的种类很多,包括图卷积网络(GCN,Graph Convolutional Networks)、图注意力网络(GAT,Graph Attention Network)、图自编码器(GAE,Graph Auto-Encoders)等。
本申请实施例提供一种多模态编码模型的训练方法、多模态编码模型的训练装置、电子设备和计算机可读存储介质及计算机程序产品,能够提升多模态编码模型的编码精准度,提升针对知识图谱对齐处理的对齐结果的准确性。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、车载终端等各种类型的用户终端,也可以实施为服务器。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。本申请实施例可以由服务器实现,或者由终端设备以及服务器协同实现,下面,将说明电子设备实施为服务器时的示例性应用。
参考图1,图1是本申请实施例提供的多模态编码模型的训练方法的应用模式示意图;示例的,涉及的服务器包括:训练服务器201、对齐服务器202与推荐服务器203(属于推荐***,例如医疗***)、网络300及第一终端设备401。训练服务器201、对齐服务器202与推荐服务器203之间通过网络300进行通信,或者通过其他方式进行通信,第一终端设备401通过网络300连接推荐服务器202,网络300可以是广域网或者局域网,又或者是二者的组合。
待对齐的知识图谱可以是医疗相关的知识图谱,知识图谱中包括图像模态(例如:药品的展示图、包装展示图等)、实体属性模态(实体的属性参数,例如:药品的成分、每次的用量等)以及实体结构模态(实体之间的关系,例如:药品与其他药品之间的关系)的数据。
训练服务器201从网络300中获取对齐的样本知识图谱,基于样本知识图谱对多模态编码模型进行训练,将训练完成的多模态编码模型同步到对齐服务器202中。对齐服务器202从网络300或者数据库中获取待对齐的知识图谱,调用多模态编码模型对知识图谱进行对齐处理,将对齐结果发送到推荐服务器203中。推荐服务器203基于知识图谱的对齐结果向用户的终端设备401的发送推荐结果。
本申请实施例可以应用在医疗领域,对不同粒度的知识图谱进行对齐处理,例如:待对齐的知识图谱分别是医疗领域通用知识图谱和用药垂直领域知识图谱,对齐服务器202调用训练完成的多模态编码模型对二者进行对齐处理,得到对齐结果,将对齐结果发送至推荐服务器203。用户为医生,医生在为就诊人员开诊疗单时,通过终端设备401的人机交互界面输入就诊人员的症状信息,推荐服务器203可以基于症状信息在医疗领域通用知识图谱中找到对应的病症,基于对齐结果以及病症在用药垂直领域知识图谱中得到病症的推荐用药,将推荐用药以及推荐用药的使用剂量发送至终点设备401,便于医生根据推荐用药以及使用剂量为就诊人员开出规范的诊疗单,提升了就诊过程自动化的处理效率。
示例的,继续参考图1,假设:第三知识图谱是医疗领域通用知识图谱,第四知识图谱是用药垂直领域知识图谱,推荐服务器203是医疗咨询平台的服务器,缺乏医疗知识的普通用户,通过终端设备401的人机交互界面输入症状信息,终端设备401向推荐服务器203发送查询请求,推荐服务器203基于症状信息在医疗领域通用知识图谱中查询目标病症,基于目标病症以及对齐结果在用药垂直领域知识图谱查询病症对应的实体(对症药品),并将用药垂直领域知识图谱中与该实体关联的信息,也即,对症药品关联的信息(例如:属性,用药剂量等;结构,与其他药品之间的关系;图像,药品的包装图、药品的实物图),将目标病症、对症药品以及对症药品关联的信息推荐到用户的终端设备401中。用户可以基于推荐的信息购买药品或者根据推荐信息确定就诊,提升了用户获取医疗咨询信息的效率。
在一些实施例中,假设:推荐服务器203是教学平台的服务器,用户是学生,第三知识图谱是物理领域通用知识图谱,第四知识图谱是数学领域知识图谱,训练后的多模态编码模型对第三知识图谱与第四知识图谱中的实体进行对齐,用户通过终端设备401的人机交互界面输入待解题的物理题目,终端设备401将题目发送至推荐服务器203,推荐服务器基于物理题目、对齐结果以及属性领域知识图谱,获取物理领域通用知识图谱中对应的解题方法以及物理原理示意图、数学领域通用知识图谱中对应的解题公式,将解题方法、解题公式、物理示意图发送至用户的终端设备401,使得用户得到物理题目的答案。本申请实施例中通过提升的多模态编码模型的编码精度,利用多模态编码模型对不同领域的知识图谱进行对齐处理,对不同领域的知识数据进行了整合,便于向用户推荐不同领域的知识,提升了推荐的准确性。
在一些实施例中,本申请提供的训练后的多模态编码模型还可以用于对冗余数据进行合并,再例如:第三知识图谱、第四知识图谱分别是数据库中信息来源不同(例如:通过用户主动填写信息得到的特征信息,或者通过用户对预设选项进行选择得到的特征信息)的特征信息知识图谱,可以通过多模态编码模型对两个知识图谱进行对齐处理,得到对齐结果,基于对齐结果将两个知识图谱中指向同一实体(如:用户或机构)的信息重新整合至同一个新的知识图谱,消除冗余数据,进而能够节约数据库的存储空间,节约了基于数据库进行数据检索时所消耗的计算资源。
在一些实施例中,训练服务器201、对齐服务器202与推荐服务器203中部分服务器或全部服务器也可以实施为一个统一的服务器。
本申请实施例可以通过区块链技术实现,可以将本申请实施例的多模态编码模型对齐处理的知识图谱存储在区块链中,以增强知识图谱之间的对齐结果的可靠性。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
本申请实施例可以通过数据库技术实现,数据库(Database),简而言之可视为电子化的文件柜存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理***(Database Management System,DBMS)是为管理数据库而设计的电脑软件***,一般具有存储、截取、安全保障、备份等基础功能。数据库管理***可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible Markup Language,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如结构化查询语言(SQL,Structured Query Language)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
在一些实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务器之间可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
本申请实施例,还可以通过云技术实现,云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图像类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,将来每个物品都有可能存在自己的哈希编码识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
医疗云(Medical cloud),是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合,医疗云提高医疗机构的效率,方便居民就医。像现在医院的预约挂号、医保等等都是云计算与医疗领域结合的产物,医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。
见图2,图2是本申请实施例提供的电子设备的结构示意图,包括:至少一个处理器410、存储器450、至少一个网络接口420。电子设备400中的各个组件通过总线***440耦合在一起。可理解,总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***451,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本申请实施例提供的多模态编码模型的训练装置可以采用软件方式实现,图2示出了存储在存储器450中的多模态编码模型的训练装置455,其可以是程序和插件等形式的软件,包括以下软件模块:编码模块4551、损失获取模型4552、训练模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的多模态编码模型的训练方法。
参见图3A,图3A是本申请实施例提供的多模态编码模型的训练方法的流程示意图,将结合图3A示出的步骤进行说明。
在步骤301中,调用待训练的多模态编码模型,对第一样本知识图谱和第二样本知识图谱中的每个样本实体进行编码处理,得到每个样本实体的至少两个模态的模态特征。
这里,第一样本知识图谱与第二样本知识图谱互相对齐。
示例的,本申请实施例中模态的类型包括:结构模态、属性模态以及图像模态。在一些实施例中,模态的类型还可以包括:语音模态、电子信号模态等。参考图3B,图3B是本申请实施例提供的多模态编码模型的训练方法的流程示意图;步骤301可以通过调用多模态编码模型,针对第一样本知识图谱、第二样本知识图谱中的每个样本实体进行步骤3011至步骤3014实现,以下具体说明。
在步骤3011中,基于样本实体对应的样本知识图谱,确定样本实体对应的结构模态数据、属性模态数据以及图像模态数据。
示例的,实体的结构模态数据是实体与其他实体之间的关系数据,而知识图谱是关系的最有效的表示方式,知识图谱是把不同种类的信息连接在一起而得到的一个关系网络。实体的结构模态数据是知识图谱中实体与实体之间的关系数据,实体的结构模态数据可以表征知识图谱中的实体结构信息。对齐的知识图谱中的实体相互对齐,进而,对齐的知识图谱具有对齐的实体结构信息。属性模态数据是实体对应的属性参数(例如:实体为某一种食品,则实体的属性模态数据为:食品的保质期、食品的成分等),图像模态数据是实体相关的图像(例如:实体是一种家电,实体的图像模态数据是实体的产品展示图)。
本申请实施例中,通过提升多模态编码模型的不同类型的模态数据的编码精度,可以提升针对知识图谱的对齐效果,使得对齐结果更准确。
示例的,参考图7,图7是本申请实施例提供的多模态编码模型的结构示意图,多模态编码模型700包括结构编码器601、属性编码器602以及图像编码器603。每个编码器之间相互独立,步骤3012至步骤3014可以并发进行,提升编码效率,进而提升了多模态编码模型的训练速度。
在步骤3012中,对结构模态数据进行映射处理,基于映射处理得到的实体关系图进行卷积处理,得到样本实体的结构模态特征。
这里,结构模态数据表征样本实体与其他的样本实体之间的关系。
示例的,步骤3012可以通过以下方式实现:对结构模态数据进行映射处理,得到实体的实体关系图,其中,实体关系图包括:实体节点以及实体节点对应的多个邻居节点;基于实体关系图中的实体节点以及每个邻居节点进行多次特征聚合处理,得到样本实体的结构模态特征。
示例的,实体关系图中的每个节点对应于一个实体,实体之间的线表征实体之间存在关联性,例如:实体为文具A,实体关系图中,文具A与文具B、文具C以及文具D分别存在关联关系,文具B、文具C以及文具D对应的节点是文具A的节点的邻居节点。
继续参考图7,结构编码器601可以是多层次的图卷积神经网络模型,包括多个图卷积层701A。图卷积神经网络模型将每个知识图谱中的结构模态数据分别映射到同一个特征空间,转换为每个实体分别对应的实体关系图,对每个实体的实体关系图进行编码处理。除第一层次的图卷积层701A,每个层次的图卷积层701A将上一层次的输出结果作为输入,每个层次的图卷积层701A对实体节点的每个邻居节点的特征进行加权计算处理。将最后一层次的图卷积层701A的输出作为实体的结构模态特征。
在步骤3013中,对属性模态数据进行组合处理,基于组合处理得到的组合特征向量进行降维处理,得到样本实体的属性模态特征。
这里,组合特征向量的维度高于属性模态特征的维度。
在一些实施例中,属性模态数据是指实体的各项参数,例如:实体是用户,则用户对应的属性包括:年龄、性别、工作、居住地、出生地等。参考图5,图5是本申请实施例提供的针对一个实体的知识图谱。用户“老刘”的属性包括:工作(歌手)、出生地(某某市)、性别(男)。图像501是“老刘”的照片,是实体的图像模态的数据。
在一些实施例中,步骤3013可以通过以下方式实现:将属性模态数据对应的每种属性进行组合处理,得到实体的组合特征向量;对组合特征向量进行降维映射处理,得到样本实体的属性模态特征。
示例的,继续参考图7,属性编码器602包括数据转换单元701B以及前馈神经网络702B。数据转换单元701B根据每个实体在知识图谱中对应的属性数据构建独热(One-Hot)向量(也即,组合特征向量),独热向量的每个维度对应于一种属性,属性对应的分量值可以用0或者1表示,0表示该实体包含了该种属性,1表示该实体不存在该种属性。由于实体的种类复杂,不同的实体对应的属性种类并不相同,例如:实体是用户,则用户的属性模态数据包括:性别、年龄等;实体是药品,则药品的属性模态数据包括:用量、作用等。以下举例对组合特征向量进行说明,例如:组合特征向量的每个维度对应的属性依次为:年龄、身高、性别、人物姓名、药品名称、药品用量、药品保质期、食品名称、食品保质期等。则针对用户A,组合特征向量可以为[1.1.1.1.0.0.0.0.0],针对药品B,组合特征向量可以为[0.0.0.0.1.1.1.0.0],针对食品C,组合特征向量可以为[0.0.0.0.0.0.0.1.1]。
在一些实施例中,组合特征向量中每个维度的分量值还可以通过0至1的数值表示。当实体不包含该维度对应的属性时,分量值为0,当实体包含该维度对应的属性时,根据属性对应的参数值确定分量值。
示例的,为便于统计,可以仅考虑出现频率较高的属性种类,并通过前馈神经网络702B对独热向量进行降维映射处理,得到样本实体的属性模态特征。
在一些实施例中,为提升计算效率,可以将每个实体对应的独热向量组成整个知识图谱的独热向量特征矩阵,进而,知识图谱的每个实体的属性模态特征组成的属性特征矩阵FA,可以表示为以下公式(2):
FA=WA·A+bA (2)
其中,A代表知识图谱的每个实体的属性独热向量组成的特征矩阵;WA,bA代表可训练的参数。
在一些实施例中,属性模态数据的类型包括:关系属性数据、参数属性数据;步骤3013可以通过以下方式实现:将参数属性数据对应的每种属性进行组合处理,得到实体的参数组合特征向量;基于关系属性数据确定实体的关系特征向量,其中,关系特征向量中对应每个维度的分量值表征:样本实体与每个维度对应的实体之间的关系;分别对参数高维特征向量以及关系特征向量进行降维映射处理,对映射得到的参数低维特征向量以及关系低维特征向量进行融合处理,得到样本实体的属性模态特征。
示例的,实体之间的关系也可以作为实体的一种属性,可以把实体对应的关系作为一种属性,构建表征实体之间关系的属性独热向量(关系特征向量),独热向量的每个维度对应于一种关系,关系对应的参数可以用0或者1表示,0表示该实体包含了该种关系,1表示该实体不存在该种关系。调用前馈神经网络702B对关系特征向量进行降维处理,得到关系低维特征向量。关系低维特征向量也可以组成为特征矩阵,知识图谱的每个实体的结构属性模态特征组成的属性特征矩阵FR,可以表示为以下公式(3):
FR=WR·R+bR (3)
其中R代表知识图谱的每个实体的关系低维特征向量组成的特征矩阵;WR,bR代表可训练的参数。
示例的,可以通过获取参数低维特征向量以及关系低维特征向量的平均值,得到样本实体的属性模态特征。或者,通过公式(4)将FA和FR融合得到知识图谱的每个实体的属性模态的特征矩阵FT,公式(4)如下所示:
FT=σ(WT·[FA;FR]+bT) (4)
其中[;]代表矩阵之间的拼接操作;WT,bT代表可训练的参数;σ代表ReLU激活函数。FT表示每个实体在属性模态对应的属性特征。
本申请实施例中,通过将实体之间的关系也作为实体的一种属性,将实体关系属性与实体所包含的属性进行融合,使得属性模态的模态特征能够更准确地表征实体对应的特征,增强模态特征的细粒度,进而提升编码的准确性。
在步骤3014中,对图像模态数据进行图像特征提取处理,得到样本实体的图像模态特征。
在一些实施例中,步骤3014通过以下方式实现:对图像模态数据进行多层次的卷积操作以及池化操作,得到实体的图像特征向量;对图像特征向量进行降维映射处理,得到样本实体的图像模态特征。
继续参考图7,图像编码器603包括卷积神经网络701C、前馈神经网络702C,本申请实施例中卷积神经网络701C为152层的ResNet残差网络模型,通过卷积神经网络701C可以对实体的图像进行多个层次的卷积操作以及池化操作,将卷积神经网络701C中最后一个全连接层的前一个池化层的池化结果作为得到图像特征向量。前馈神经网络702C对图像特征向量进行降维处理,得到图像模态特征。知识图谱的每个实体的图像模态特征组成的矩阵FI可以表示为以下公式(5):
FI=WI·RESNET(L)+bI (5)
其中,L代表知识图谱的每个实体的图像特征向量组成的特征矩阵;WI,bI代表可训练的参数。
在步骤302中,针对每个样本实体进行以下处理:基于样本实体的每个模态特征,确定样本实体对应的模态间子对比损失。
在一些实施例中,步骤302通过以下方式实现:确定样本实体的任意两个模态特征之间的特征距离;将每个特征距离的加和作为样本实体对应的模态间子对比损失。
示例的,知识图谱中,任意一个实体的的结构特征、属性特征以及图像特征分别为bH,bA,bI,模态间对比损失Linter表示为如下公式(11):
Linter=||bH-bA||+||bH-bI||+||bA-bI|| (11)
模态间对比损失Linter越小,则同一个实体的不同模态的模态特征之间的特征距离越近,使得不同模态的模态特征保持一致性。
本申请实施例中,获取模态间对比损失,进而基于模态间对比损失对多模态编码模型进行参数更新,提升了多模态编码模型编码处理的准确度。复用了多模态编码模型输出的不同模态的模态特征,减少了计算对比损失的计算量,节约了计算资源。
在步骤303中,将第一样本知识图谱中每个样本实体、以及第二样本知识图谱中与每个样本实体对齐的样本实体,组成对齐实体对。
示例的,作为训练样本的第一样本知识图谱与第二样本知识图谱预先对齐,步骤303可以通过以下方式实现:基于第一样本知识图谱与第二样本知识图谱之间的对齐关系,确定第一样本知识图谱与第二样本知识图谱中存在对齐关系的每两个样本实体;将存在对齐关系的每两个样本实体,组成对齐实体对。
在一些实施例中,步骤303还可以在步骤301之前执行,以减少训练过程中的计算量。
在步骤304中,在每个模态下针对每个对齐实体对进行以下处理:基于对齐实体对的两个模态特征,确定对齐实体对的模态内子对比损失。
这里,对齐实体对包括第一样本实体以及第二样本实体,第一样本实体属于第一样本知识图谱,第二样本实体属于第二样本知识图谱。
示例的,模态内子对比损失可以表征为实体与其正样本之间的相似度,与实体与其负样本相似度、实体与其正样本之间的相似度的加和之间的比值。本申请实施例中,正样本是与第一样本实体对齐的实体,负样本是与第一样本实体无法对齐的实体。
在一些实施例中,参考图3C,图3C是本申请实施例提供的多模态编码模型的训练方法的流程示意图;步骤304可以通过步骤3041至步骤3043实现,以下具体说明。
在步骤3041中,基于第一样本实体的模态特征以及与第一样本实体对齐的第二样本实体的模态特征之间的第一特征相似度,以及第一样本实体的模态特征与第一样本实体的每个负样本的模态特征之间的第二特征相似度,确定样本实体对的第一模态内子损失。
这里,第一样本实体的负样本是第二样本知识图谱中除第二样本实体以外的样本实体。
示例的,负样本是与第一样本实体不对齐的实体,也即,相较于正样本,负样本与第一样本实体之间的相似度较低,假设知识图谱中每个实体各不相同,则第二样本知识图谱中除了与第一样本实体对齐的第二样本实体以外的其他样本实体,均可以作为第一样本实体的负样本。
示例的,步骤3041可以通过以下方式实现:获取与第一样本实体对应的每个第二特征相似度的加和,将每个第二特征相似度的加和与第一特征相似度的加和,作为第一中间参数;将第一特征相似度与第一中间参数的比值,作为样本实体对的第一模态内子损失。
在步骤3042中,基于第一样本实体的模态特征以及与第一样本实体对齐的第二样本实体的模态特征之间的第一特征相似度,以及第二样本实体的模态特征与第二样本实体的每个负样本的模态特征之间的第三特征相似度,确定样本实体对的第二模态内子损失。
这里,第二样本实体的负样本是第一样本知识图谱中除第一样本实体以外的样本实体。
示例的,第二样本实体的负样本对应的原理与第一样本实体相同,可参考上文,此次不再赘述。
示例的,步骤3042可以通过以下方式实现:获取与第二样本实体对应的每个第三特征相似度加和,将每个第三特征相似度的加和与第一特征相似度的加和,作为第二中间参数;将第一特征相似度与第二中间参数的比值,作为样本实体对的第二模态内子损失。
在一些实施例中,步骤3041与3042中的负样本分别可以表示为如下公式(6.1)以及公式(6.2):
Figure BDA0003618228310000121
Figure BDA0003618228310000122
其中,Pairneg(KG1→KG2)表示,将第二样本知识图谱KG2中除了第二样本实体e2的其他实体作为第一样本实体e1的负样本,构成负样本对,n是正整数,n是知识图谱中的实体数量。Pairneg(KG2→KG1)表示,将第一样本知识图谱KG1中除了第一样本实体e1的其他实体作为第二样本实体e2的负样本,构成负样本对。
第一样本实体与第二样本实体之间的第一特征相似度表达为f(e1,e2),第一样本实体e1与任意一个负样本
Figure BDA0003618228310000123
之间的第二特征相似度表达为
Figure BDA0003618228310000124
第二样本实体e2与任意一个负样本
Figure BDA0003618228310000125
之间的第三特征相似度表达为
Figure BDA0003618228310000126
在步骤3043中,将第一模态内子损失与第二模态内子损失的平均值,作为对齐实体对的模态内子对比损失。
示例的,模态内对比损失可以表示为如下公式(7.1)以及公式(7.2)、公式(7.3):
Figure BDA0003618228310000131
Figure BDA0003618228310000132
Figure BDA0003618228310000133
其中,
Figure BDA0003618228310000134
表示实体e1对应的模态内对比损失,
Figure BDA0003618228310000135
越小,则实体e1与实体e2的模态特征的距离越近,实体e1与KG2中除了e2以外实体的模态特征之间的距离越远。同理,
Figure BDA0003618228310000136
表示实体e2对应的模态内对比损失,
Figure BDA0003618228310000137
越小,实体e2与实体e1的模态特征的距离越近,实体e2与KG1中除了实体e1以外实体的模态特征之间的距离越远。在每个模态下,将两个实体分别对应的模态内对比损失的平均值作为每个模态内的模态内对比损失Lintra
在一些实施例中,负样本的范围可以进一步扩大。第一知识图谱中除了第一样本实体以外的其他样本实体,也可以作为第一样本实体的负样本,也即,将同一知识图谱中的其他实体作为负样本。第二知识图谱中除了第二样本实体以外的其他样本实体,也可以作为第二样本实体的负样本,也即,将同一知识图谱中的其他实体作为负样本。
示例的,第一样本实体的负样本是第一样本知识图谱中除第一样本实体以外的样本实体、以及第二样本知识图谱中除第二样本实体以外的样本实体;第二样本实体的负样本是第二样本知识图谱中除第二样本实体以外的样本实体、以及第一样本知识图谱中除第一样本实体以外的样本实体。
则,第一样本实体对应的负样本对以及第二样本实体对应的负样本对,可以表示为如下公式(8.1)以及公式(8.2):
Figure BDA0003618228310000138
Figure BDA0003618228310000139
其中Pairneg(KG1)表示在第一样本知识图谱KG1内第一样本实体e1对应的负样本对;相应地,Pairneg(KG2)表示在第二样本知识图谱KG2内第二样本实体e2对应的负样本对。基于上述负样本对,模态内对比损失可以表示为如下公式(7.1)、公式(9.1)、公式(9.2):
Figure BDA00036182283100001310
Figure BDA00036182283100001311
Figure BDA00036182283100001312
Figure BDA00036182283100001313
Figure BDA0003618228310000141
其中,特征距离可以通过相似度表征,对于样本实体对(e1,e2),
Figure BDA0003618228310000142
越小,则第一样本实体e1和第二样本知识图谱KG2中不对齐的实体的特征距离越远,和第一样本知识图谱KG1内非自身的其他实体的特征距离也越远;同理,
Figure BDA0003618228310000143
越小,则第二样本实体e2和第一样本知识图谱KG1中不对齐的实体的特征距离越远,和第二样本知识图谱KG2内非自身的其他实体的特征距离也越远。
本申请实施例中,通过将同知识图谱、不同知识图谱的样本实体作为负样本,一方面扩大了负样本的范围,另一方面基于负样本相关的参数获取得到的模态内对比损失能够使多模态编码模型的编码处理更准确,也即,使负样本之间的相似度更高,使正样本之间的相似度更小,进而提升多模态编码模型对不同知识图谱对齐的准确性(避免了指向不同对象的实体的对齐结果为对齐)。
在步骤305中,基于每个模态间子对比损失,确定多模态编码模型的模态间总对比损失,以及基于每个模态内子对比损失,确定多模态编码模型的模态内总对比损失。
在一些实施例中,步骤305可以通过以下方式实现:将每个模态间子对比损失相加得到多模态编码模型的模态间总对比损失;将每个实体对应的每个模态的模态内子对比损失相加,得到多模态编码模型的模态内总对比损失。
示例的,本申请实施例中以三种类型(属性、结构以及图像)的模态进行举例说明,将同一实体的三种模态下的模态内子对比损失相加,得到一个实体对应的模态内对比损失,将同一知识图谱的每个实体的模态内对比损失相加,得到多模态编码模型的模态内总对比损失。同理,将同一知识图谱的每个实体的模态间子对比损失相加,得到多模态编码模型的模态内总对比损失。
在步骤306中,基于模态间总对比损失以及模态内总对比损失,更新多模态编码模型的参数。
示例的,可以基于模态间总对比损失对多模态编码模型进行反向传播处理,得到训练后的多模态编码模型,再基于模态内总对比损失对训练后的多模态编码模型进行反向传播,得到训练完成的多模态编码模型。
在一些实施例中,步骤306可以通过以下方式实现:基于模态间总对比损失以及模态内总对比损失,对多模态编码模型进行反向传播处理,得到多模态编码模型的更新参数;基于更新参数替换多模态编码模型中对应的原始参数。
示例的,反向传播处理通过以下方式实现:将多模态编码模型输出的不同模态的模态特征作为输出结果,基于对比损失、输出结果进行求导得到多模态编码模型中原始参数对应的梯度,以及利用链式法则对多模态编码模型中原始参数求偏导,将梯度代入偏导结果中,得到多模态编码模型中对应的原始参数的更新公式,基于预设学习率、对比损失以及更新公式确定更新参数。将多模态编码模型的原始参数替换为更新参数。
在一些实施例中,在步骤306之后还可以利用训练完成的多模态编码模型,参考图4,图4是本申请实施例提供的多模态编码模型的训练方法的流程示意图;通过步骤401至步骤404对知识图谱进行对齐处理。
在步骤401中,调用更新后的多模态编码模型,对待对齐的第三知识图谱和第四知识图谱进行编码处理,得到第三知识图谱与第四知识图谱中每个实体的每个模态的模态特征。
示例的,编码处理的过程可参考步骤301,此处不再赘述。
在步骤402中,针对每个实体进行以下处理:基于实体的每个模态特征进行特征拼接处理,得到实体的拼接特征。
示例的,拼接处理可以通过加权平均计算实现,将每个模态特征乘以对应的权重并相加,将得到的加和除以模态数量,得到实体的拼接特征。
在步骤403中,针对第三知识图谱中每个实体进行以下处理:确定实体的拼接特征与第四知识图谱中每个实体的拼接特征之间的相似度;将相似度的降序排序的头部的至少一个第四知识图谱的实体,作为实体的对齐结果。
示例的,继续参考图7,多模态编码模型700还包括特征融合模块703以及特征对齐模块704。每个编码器分别对知识图谱中实体对应的模态数据进行编码处理,得到实体的每个模态的模态特征。特征融合模块703对实体的每个模态特征进行拼接处理,得到融合特征。特征对齐模块704确定实体的融合特征与其他知识图谱中的每个实体的模态特征之间的相似度,将相似度降序排序中头部的至少一个实体作为该实体的对齐结果。
示例的,还可以对相似度设置区间,将相似度区间内相似度对应的第四知识图谱中的实体作为第三知识图谱中每个实体的对齐实体。例如:相似度区间为大于等于0.95小于等于1,假设第三知识图谱中的实体F对应的相似度降序排序为(0.98/0.95/0.95/0.90……),则选取相似度0.99/0.95/0.95对应的第四知识图谱中的实体作为实体F的对齐实体,组成三个对齐实体对,将三个对齐实体对作为实体F的对齐结果。再例如:相似度区间为大于等于0.99小于等于1,第三知识图谱中的实体F对应的相似度降序排序为(0.98/0.95/0.95/0.90……),相似度降序排序中任意相似度均没有处于相似度区间,则第四知识图谱中不存在与实体F对齐的实体,实体F的对齐结果是没有对齐实体。
在步骤404中,对第三知识图谱中每个实体的对齐结果进行组合处理,得到第三知识图谱与第四知识图谱之间的对齐结果。
示例的,进行对齐处理的知识图谱之间的对齐结果是相互对应的,对第三知识图谱中每个实体的对齐结果进行统计,或者对第四知识图谱中每个实体的对齐结果进行统计,则可以得到第三知识图谱与第四知识图谱之间的对齐结果。
本申请实施例中,通过获取每个模态对应的模态内对比损失、模态间对比损失对多模态编码模型进行训练,优化了多模态编码模型对不同模态数据的编码精确度,使得编码得到的每个模态下的正样本之间的模态特征之间的特征距离更接近,负样本之间的模态特征之间的特征距离更远离,进而,基于多模态编码模型能够获取更准确的知识图谱的对齐结果;基于对齐结果能够对知识图谱中的数据进行整合,消除了冗余数据,节约了数据库的存储空间;当基于对齐结果向用户推荐知识图谱中的信息时,推荐信息能够更符合用户的需求,进而提升了推荐处理的准确性。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例提供的多模态编码模型的训练方法可以应用在如下应用场景中:
实体对齐的目标是在待对齐的一个知识图谱中,为其他的知识图谱的每个实体找到一个表示相同对象的实体。在知识图谱相对完备的情况下,对齐的实体通常具有相似的结构(实体与实体之间的关系)。此外,属性通常作为实体自身所属的特性,如果两个实体的属性相似度很高,那么很大概率认为两者是对齐的。但是无论是结构还是属性都强依赖于知识的完备性,而且由于属性的多样性通常引入很多噪声,图像可以作为补充信息判断两个实体是否表达相同语义的线索(图像1对应于名称“强森”,图像2对应于名称“Johnson”,图像1与图像2是同一个用户不同角度的照片,通过图像判断能够确定是同一用户,但由于名称使用的语言不通,通过名称属性难以直接确定是同一个用户)。在面向多模态知识图谱对齐方法中,相关技术通过简单的融合方法对知识图谱中的多模态信息进行融合,难以充分体现多模态信息之间的一致性以及差异性,进行相关技术的多模态编码模型对多模态知识图谱的对齐效果不佳。
本申请实施例提供的多模态编码模型的训练方法,训练完成的多模态编码模型可以对不同粒度的知识图谱(例如:对齐医疗领域通用知识图谱、对齐用药垂直领域知识图谱等)进行对齐处理,拓宽了知识图谱对复杂医学知识的表达能力,丰富现有知识维度,同时对跨领域融合也会有极大的帮助。
示例的,实体结构突出实体与其他实体的关联性,通过实体与实体之间的关系来表达。实体属性突出实体自身包含的特性,例如:对于一个药品实体,其属性可以包含药品成分、用药时间以及用法用量等。而图像能够表达实体高层语义,能够在视觉层面上感知实体的具象。
参考图8,图8是本申请实施例提供的多模态编码模型的训练方法一个可选的流程示意图。以下以服务器为执行主体,将结合图8示出的步骤进行说明。
在步骤801中,调用待训练的多模态编码模型对样本知识图谱进行编码处理,得到每个实体的模态特征。
示例的,本申请实施例为便于解释说明,以一对样本知识图谱作为训练样本进行说明,样本知识图谱的数量还可以更多。将第一样本知识图谱KG1以及第二样本知识图谱KG2作为训练样本,第一样本知识图谱KG1与第二样本知识图谱KG2预先对齐,以便于减少训练过程中的计算量,节约训练模型所消耗的计算资源,提升训练效率。
示例的,模态的类型包括结构模态、属性模态以及图像模态。参考图6,图6是本申请实施例提供的多模态编码模型的编码过程示意图;多模态编码模型包括结构编码器601、属性编码器602以及图像编码器603。参考图7,图7是本申请实施例提供的多模态编码模型的结构示意图,多模态编码模型700还包括特征融合模块703以及特征对齐模块704。每个编码器分别对知识图谱中实体对应的模态数据进行编码处理,得到实体的每个模态的模态特征。特征融合模块703对实体的每个模态特征进行拼接处理,得到融合特征。特征对齐模块704确定实体的融合特征与其他知识图谱中的每个实体的模态特征之间的相似度,将相似度降序排序中头部的至少一个实体作为该实体的对齐结果,基于知识图谱中的每个实体的对齐结果得到知识图谱之间的对齐结果,并将知识图谱之间的对齐结果输出。
针对结构模态,结构是指实体与实体之间的关系,参考图7,图7是本申请实施例提供的多模态编码模型结构编码器700的结构示意图;结构编码器601可以是多层次的图卷积神经网络模型,包括多个图卷积层701A。图卷积神经网络模型将每个知识图谱分别映射到同一个特征空间,转换为每个实体分别对应的实体关系图,对每个实体的实体关系图进行编码处理。实体关系图包括实体节点(对应于实体)以及邻居节点(对应与实体关联的其他实体)。每个图卷积层701A邻近节点的特征通过加权计算的方式与实体节点的特征聚合(将邻近节点的特征融合到实体节点的特征中),也即,利用实体邻居来表征实体的语义特征。l是大于等于零的整数,第l+1层的多个图卷积层701A的输出的结构模态属性可以表示为以下公式(1):
Figure BDA0003618228310000171
其中,[·]+代表ReLU激活函数;
Figure BDA0003618228310000172
是KG1和KG2的邻接矩阵M(邻接矩阵表示节点之间的关系,是n阶方阵,n为节点数量且大于等于1。知识图谱的邻接矩阵是对称矩阵)和对角矩阵IN之和;W(l)代表特定于层的可训练参数矩阵;
Figure BDA0003618228310000173
表示矩阵
Figure BDA0003618228310000174
的度矩阵(度矩阵Degree是对角阵,对角上的元素为知识图谱各个节点的度。节点的度表示和该节点相关联的边的数量。);H(l)表示第l层GCN输出的实体结构特征。本申请实施例采用最后一层图卷积层701A的输出结果H(l+1)作为实体的结构模态特征(可以通过特征向量的形式表征)。由于知识图谱中包含每个实体与其他实体之间的关系,实体结构特征还能够表达知识图谱的结构信息。
针对属性模态,由于知识图谱的属性的总数量较多,但是针对单个实体的属性数量却较少,在一些实施例中,可以仅考虑频率最高的多种属性(例如:1000种)获取属性模态特征。根据每个实体在知识图谱中对应的属性数据构建独热(One-Hot)向量,独热向量的每个维度对应于一种属性,属性对应的分量值可以用0或者1表示,0表示该实体包含了该种属性,1表示该实体不存在该种属性。例如:独热向量的每个维度分别为:用量、使用间隔、是否为处方药品等,针对某种药品包括的属性为:用量、使用间隔、非处方药品。则该种药品实体的独热向量为[1.1.0]。继续参考图7,属性编码器602包括数据转换单元701B以及前馈神经网络702B。实例的,属性独热向量为高维稀疏向量,在高维统计中,信息在特征上是稀疏的,即,并不是每个特征都是一样重要的,重要的特征占比非常小的这种特性被称为稀疏。前馈神经网络702B用于对实体的属性独热向量进行降维处理,得到属性模态特征(以特征向量形式表征)。
知识图谱的每个实体的属性模态特征组成的属性特征矩阵FA,可以表示为以下公式(2):
FA=WA·A+bA (2)
其中A代表知识图谱的每个实体的属性独热向量组成的特征矩阵;WA,bA代表可训练的参数。
在一些实施例中,为提升属性模态特征的准确度,还可以把实体对应的关系作为一种属性,构建一个表征实体之间关系的属性独热向量,独热向量的每个维度对应于一种关系,关系对应的参数可以用0或者1表示,0表示该实体包含了该种关系,1表示该实体不存在该种关系。调用前馈神经网络702B对表征实体之间关系的属性独热向量进行降维处理,得到结构属性模态特征(以特征向量形式表征)。
知识图谱的每个实体的结构属性模态特征组成的属性特征矩阵FR,可以表示为以下公式(3):
FR=WR·R+bR (3)
其中R代表知识图谱的每个实体的实体关系的属性独热向量组成的特征矩阵;WR,bR代表可训练的参数。
在一些实施例中,属性编码器602还包括神经网络层,神经网络层用于将FA和FR进一步融合得到最终所有实体属性模态的特征矩阵FT,表示为以下公式(4):
FT=σ(WT·[FA;FR]+bT) (4)
其中[;]代表矩阵之间的拼接操作;WT,bT代表可训练的参数;σ代表ReLU激活函数。FT表示每个实体在属性模态对应的属性特征,如果两个实体的属性类似,对两个实体分别建模得到的特征向量也是相似的,给多模态编码模型提供了有力的参考。
针对图像模态,继续参考图7,图像编码器603包括卷积神经网络701C、前馈神经网络702C,本申请实施例中卷积神经网络701C为152层的ResNet残差网络模型,通过卷积神经网络701C可以对实体的图像进行多个层次的卷积操作以及池化操作,将卷积神经网络701C中最后一个全连接层的前一个池化层的池化结果作为得到图像特征向量。前馈神经网络702C对图像特征向量进行降维处理,得到图像模态特征。知识图谱的每个实体的图像模态特征组成的矩阵FI可以表示为以下公式(5):
FI=WI·RESNET(L)+bI (5)
其中,L代表知识图谱的每个实体的图像特征向量组成的特征矩阵;WI,bI代表可训练的参数。
在步骤802中,获取多模态编码模型的对比损失。
实例的,对比损失包括模态内对比损失和模态间对比损失。将每个模态对应的对比损失相加可以得到多模态编码模型的模态内对比损失和模态间对比损失。每个模态下的模态内对比损失的获取方式相同,以下以属性模态为例进行说明。
对于对齐的实体对(e1,e2),期望多模态编码模型编码得到的实体e1的属性特征与实体e2的属性特征能够在特征空间中接近(也即,相似度更高),而实体e1与不对齐的实体的属性特征的距离更远(也即,相似度更低)。为此需要构建符合条件的正样本对以及负样本对来达到上述的目的。
对齐的实体对(e1,e2)中两个实体之间很自然地构成了一个正样本。由于实体对齐通常存在一对一映射的假设,所以在知识图谱KG2中除了实体e2以外的实体都可以看作实体e1的负样本,同理在知识图谱KG1中除了实体e1以外的实体都可以看作实体e2的负样本。负样本对可以表示成如下公式(6.1)以及公式(6.2):
Figure BDA0003618228310000191
Figure BDA0003618228310000192
其中,Pairneg(KG1→KG2)表示,将第二知识图谱KG2中除了实体e2的每个实体作为实体e1的负样本,构成负样本对,n是正整数,是知识图谱中的实体数量。Pairneg(KG2→KG1)表示,将第一知识图谱KG1中除了实体e1的每个实体作为实体e2的负样本,构成负样本对。本申请实施例中,模态内对比损失越小,则每个实体和其对齐实体在特征空间的距离更接近,和非对齐实体的距离拉得更远,则模态内对比损失可以表示为如下公式(7.1)以及公式(7.2)、公式(7.3):
Figure BDA0003618228310000193
Figure BDA0003618228310000194
Figure BDA0003618228310000195
其中,f(·)代表相似性度量函数,例如余弦相似度(实体之间的距离与余弦相似度负相关,距离越近相似度越接近1,距离越远余弦相似度越接近0);
Figure BDA0003618228310000196
表示实体e1对应的模态内对比损失,
Figure BDA0003618228310000197
越小,则实体e1与实体e2的模态特征的距离越近,实体e1与第二知识图谱KG2中除了e2以外实体的模态特征之间的距离越远。同理,
Figure BDA0003618228310000198
表示实体e2对应的模态内对比损失,
Figure BDA0003618228310000199
越小,实体e2与实体e1的模态特征的距离越近,实体e2与第一知识图谱KG1中除了实体e1以外实体的模态特征之间的距离越远。在每个模态下,将两个实体分别对应的模态内对比损失的平均值作为每个模态内的对比损失Lintra
在一些实施例中,由于知识图谱中每个实体都是独立且不重复的,为了增大相同知识图谱内不同实体的区分度,可以进一步对相同模态相同知识图谱内的实体进行对比学习。由于实体的唯一性,实体e1和知识图谱KG1内任意的实体都可以看作负样本对。其中,则知识图谱KG1内的负样本对可以表示为如下公式(8.1)以及公式(8.2):
Figure BDA00036182283100001910
Figure BDA00036182283100001911
其中Pairneg(KG1)表示实体e1在第一知识图谱KG1内的负样本对,任意两个实体组成负样本对;相应地,Pairneg(KG2)表示实体e2在第二知识图谱KG2内的负样本对。进而,基于上述负样本对,模态内对比损失可以表示为如下公式(7.1)、公式(9.1)、公式(9.2):
Figure BDA0003618228310000201
Figure BDA0003618228310000202
Figure BDA0003618228310000203
Figure BDA0003618228310000204
Figure BDA0003618228310000205
公式(7.1)、公式(9.1)、公式(9.2)表征,对于两个对齐的实体对(e1,e2),
Figure BDA0003618228310000206
越小,则实体e1和知识图谱KG2中不对齐的实体的距离越远,和知识图谱KG1内非自身的其他实体的距离也越远;同理,
Figure BDA0003618228310000207
越小,则实体e2和知识图谱KG1中不对齐的实体的距离越远,和知识图谱KG2内非自身的其他实体的距离也越远。
以下举例说明,“硝苯地平片”(属于知识图谱KG1)和“心痛定片”(属于知识图谱KG2)是两个对齐的实体,对比学***片”和“胃痛定片”(属于知识图谱KG2)的模态特征之间的特征距离拉远。此外,由于“心痛定片”和“胃痛定片”从名字上看两个实体非常相似,但其实是两个完全不同的实体。为了增强多模态编码模型的判别性以及实体之间的可区分度,训练后的多模态编码模型输出的“心痛定片”和“胃痛定片”的特征之间的距离相较于优化训练之前应当更远。
示例的,针对每一种模态计算模态内对比损失,则总模态内的对比损失为每种模态的模态内对比损失之和,表示为如下公式(10):
Figure BDA0003618228310000208
其中H表示结构模态;A表示属性模态;I表示图像模态。
针对模态之间的对比损失,对于同一个实体,不同模态特征虽然表示的模态不一样,但不同模态特征所表征的高层语义特征是一致的。本申请实施例额外通过获取模态间对比损失,降低多模态编码模型的模态间对比损失,可以增强不同模态的一致性。假设:知识图谱KG1中,实体e1的结构特征、属性特征以及图像特征分别为bH,bA,bI,模态间对比损失表示为如下公式(11):
Linter=||bH-bA||+||bH-bI||+||bA-bI|| (11)
模态间对比损失Linter越小,则同一个实体的不同模态的模态特征之间的特征距离越近,使得不同模态的模态特征保持一致性。
在步骤803中,基于对比损失对多模态编码模型进行反向传播处理,以更新多模态编码模型的参数。
实例的,基于模态内对比损失Lintra与模态间对比损失Linter,通过反向传播的方式对多模态特征编码器模型进行训练,得到优化后的多模态编码模型。
在步骤804中,基于训练完成的多模态编码模型对待对齐的知识图谱进行对齐处理。
示例的,获取待对齐的第三知识图谱KG3以及待对齐的第四知识图谱KG4,调用训练完成的多模态特征编码器对第三知识图谱KG3、第四知识图谱KG4进行编码,得到每个知识图谱中每个实体的结构特征、属性特征以及图像特征。获取知识图谱的每个实体的每个模态的特征,针对每个实体,基于每个模态特征进行加权计算,得到实体的融合特征。确定第一知识图谱中的待对齐的实体的融合特征与第二知识图谱中每个实体的融合特征之余弦相似度,对所有余弦相似度进行降序排序,将降序排序头部的至少一个实体作为待对齐实体的对齐结果。
本申请实施例通过获取模态内对比损失和模态间对比损失,提升了多模态知识图谱编码的准确度,使得编码得到的正样本的模态特征之间的特征距离更近,而负样本的模态特征之间的距离更远,提升了实体的融合特征之间的区分度,进而得到了更准确的知识图谱对齐结果,有利于提升基于知识图谱进行信息推荐的推荐效果。
下面继续说明本申请实施例提供的多模态编码模型的训练装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的多模态编码模型的训练装置455中的软件模块可以包括:编码模块4551,配置为调用待训练的多模态编码模型,对第一样本知识图谱和第二样本知识图谱中的每个样本实体进行编码处理,得到每个样本实体的至少两个模态的模态特征,其中,第一样本知识图谱与第二样本知识图谱互相对齐;损失获取模块4552,配置为针对每个样本实体进行以下处理:基于样本实体的每个模态特征,确定样本实体对应的模态间子对比损失;损失获取模块,还配置为将第一样本知识图谱中每个样本实体、以及第二样本知识图谱中与每个样本实体对齐的样本实体,组成对齐实体对;损失获取模块4552,还配置为在每个模态下针对每个对齐实体对进行以下处理:基于对齐实体对的两个模态特征,确定对齐实体对的模态内子对比损失;损失获取模块4552,配置为基于每个模态间子对比损失,确定多模态编码模型的模态间总对比损失,以及基于每个模态内子对比损失,确定多模态编码模型的模态内总对比损失;训练模块4553,配置为基于模态间总对比损失以及模态内总对比损失,更新多模态编码模型的参数。
在一些实施例中,损失确定模块4552还配置为确定样本实体的任意两个模态特征之间的特征距离;将每个特征距离的加和作为样本实体对应的模态间子对比损失。
在一些实施例中,对齐实体对包括第一样本实体以及第二样本实体,第一样本实体属于第一样本知识图谱,第二样本实体属于第二样本知识图谱;损失确定模块4552还配置为基于第一样本实体的模态特征以及与第一样本实体对齐的第二样本实体的模态特征之间的第一特征相似度,以及第一样本实体的模态特征与第一样本实体的每个负样本的模态特征之间的第二特征相似度,确定样本实体对的第一模态内子损失;其中,第一样本实体的负样本是第二样本知识图谱中除第二样本实体以外的样本实体;基于第一样本实体的模态特征以及与第一样本实体对齐的第二样本实体的模态特征之间的第一特征相似度,以及第二样本实体的模态特征与第二样本实体的每个负样本的模态特征之间的第三特征相似度,确定样本实体对的第二模态内子损失;其中,第二样本实体的负样本是第一样本知识图谱中除第一样本实体以外的样本实体;将第一模态内子损失与第二模态内子损失的平均值,作为对齐实体对的模态内子对比损失。
在一些实施例中,损失确定模块4552还配置为获取与第一样本实体对应的每个第二特征相似度的加和,将每个第二特征相似度的加和与第一特征相似度的加和,作为第一中间参数;将第一特征相似度与第一中间参数的比值,作为样本实体对的第一模态内子损失。
在一些实施例中,损失确定模块4552还配置为获取与第二样本实体对应的每个第三特征相似度加和,将每个第三特征相似度的加和与第一特征相似度的加和,作为第二中间参数;将第一特征相似度与第二中间参数的比值,作为样本实体对的第二模态内子损失。
在一些实施例中,对齐实体对包括第一样本实体以及第二样本实体;第一样本实体属于第一样本知识图谱,第二样本实体属于第二样本知识图谱;损失确定模块4552还配置为基于第一样本实体的模态特征以及与第一样本实体对齐的第二样本实体的模态特征之间的第一特征相似度,以及第一样本实体的模态特征与第一样本实体的每个负样本的模态特征之间的第二特征相似度,确定样本实体对的第一模态内子损失,其中,第一样本实体的负样本是第一样本知识图谱中除第一样本实体以外的样本实体、以及第二样本知识图谱中除第二样本实体以外的样本实体;基于第一样本实体的模态特征以及与第一样本实体对齐的第二样本实体的模态特征之间的第一特征相似度,以及第二样本实体的模态特征与第二样本实体的每个负样本的模态特征之间的第二特征相似度,确定样本实体对的第二模态内子损失,其中,第二样本实体的负样本是第二样本知识图谱中除第二样本实体以外的样本实体、以及第一样本知识图谱中除第一样本实体以外的样本实体;将第一模态内子损失与第二模态内子损失的平均值,作为对齐实体对的模态内子对比损失。
在一些实施例中,训练模块4553配置为基于模态间总对比损失以及模态内总对比损失,对多模态编码模型进行反向传播处理,得到多模态编码模型的更新参数;基于更新参数替换多模态编码模型中对应的原始参数。
在一些实施例中,损失确定模块4552还配置为将每个模态间子对比损失相加得到多模态编码模型的模态间总对比损失;将每个实体对应的每个模态的模态内子对比损失相加,得到多模态编码模型的模态内总对比损失。
在一些实施例中,模态的类型包括:结构模态、属性模态以及图像模态;编码模块4551还配置为调用多模态编码模型针对第一样本知识图谱、第二样本知识图谱中的每个样本实体进行以下处理:基于样本实体对应的样本知识图谱,确定样本实体对应的结构模态数据、属性模态数据以及图像模态数据,其中,结构模态数据表征样本实体与其他的样本实体之间的关系;对结构模态数据进行映射处理,基于映射处理得到的实体关系图进行卷积处理,得到样本实体的结构模态特征;对属性模态数据进行组合处理,基于组合处理得到的组合特征向量进行降维处理,得到样本实体的属性模态特征,其中,组合特征向量的维度高于属性模态特征的维度;对图像模态数据进行图像特征提取处理,得到样本实体的图像模态特征。
在一些实施例中,编码模块4551还配置为对结构模态数据进行映射处理,得到实体的实体关系图,其中,实体关系图包括:实体节点以及实体节点对应的多个邻居节点;基于实体关系图中的实体节点以及每个邻居节点进行多次特征聚合处理,得到样本实体的结构模态特征。
在一些实施例中,编码模块4551还配置为将属性模态数据对应的每种属性进行组合处理,得到实体的组合特征向量;对组合特征向量进行降维映射处理,得到样本实体的属性模态特征。
在一些实施例中,属性模态数据的类型包括:关系属性数据、参数属性数据;编码模块4551还配置为将参数属性数据对应的每种属性进行组合处理,得到实体的参数组合特征向量;基于关系属性数据确定实体的关系特征向量,其中,关系特征向量中对应每个维度的分量值表征:样本实体与每个维度对应的实体之间的关系;分别对参数高维特征向量以及关系特征向量进行降维映射处理,对映射得到的参数低维特征向量以及关系低维特征向量进行融合处理,得到样本实体的属性模态特征。
在一些实施例中,编码模块4551还配置为对图像模态数据进行多层次的卷积操作以及池化操作,得到实体的图像特征向量;对图像特征向量进行降维映射处理,得到样本实体的图像模态特征。
在一些实施例中,编码模块4551还配置为调用更新后的多模态编码模型,对待对齐的第三知识图谱和第四知识图谱进行编码处理,得到第三知识图谱与第四知识图谱中每个实体的每个模态的模态特征;针对每个实体进行以下处理:基于实体的每个模态特征进行特征拼接处理,得到实体的拼接特征;针对第三知识图谱中每个实体进行以下处理:确定实体的拼接特征与第四知识图谱中每个实体的拼接特征之间的相似度;将相似度的降序排序的头部的至少一个第四知识图谱的实体,作为实体的对齐结果;对第三知识图谱中每个实体的对齐结果进行组合处理,得到第三知识图谱与第四知识图谱之间的对齐结果。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的多模态编码模型的训练方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的多模态编码模型的训练方法,例如,如图3A示出的多模态编码模型的训练方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例通过获取模态内对比损失和模态间对比损失,使得多模态知识图谱编码模型能够从模态间与模态内两方面减少编码损失,使得编码结果更准确,提升了多模态知识图谱编码的准确度,进而多模态编码模型能够对知识图谱进行更准确的对齐处理。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种多模态编码模型的训练方法,其特征在于,所述方法包括:
调用待训练的多模态编码模型,对第一样本知识图谱和第二样本知识图谱中的每个样本实体进行编码处理,得到每个所述样本实体的至少两个模态的模态特征,其中,所述第一样本知识图谱与所述第二样本知识图谱互相对齐;
针对每个所述样本实体进行以下处理:基于所述样本实体的每个所述模态特征,确定所述样本实体对应的模态间子对比损失;
将所述第一样本知识图谱中每个所述样本实体、以及所述第二样本知识图谱中与每个所述样本实体对齐的样本实体,组成对齐实体对;
在每个所述模态下针对每个所述对齐实体对进行以下处理:基于所述对齐实体对的两个所述模态特征,确定所述对齐实体对的模态内子对比损失;
基于每个所述模态间子对比损失,确定所述多模态编码模型的模态间总对比损失,以及基于每个所述模态内子对比损失,确定所述多模态编码模型的模态内总对比损失;
基于所述模态间总对比损失以及所述模态内总对比损失,更新所述多模态编码模型的参数。
2.如权利要求1所述的方法,其特征在于,所述基于所述样本实体的每个所述模态特征,确定所述样本实体对应的模态间子对比损失,包括:
确定所述样本实体的任意两个模态特征之间的特征距离;
将每个所述特征距离的加和作为所述样本实体对应的模态间子对比损失。
3.如权利要求1所述的方法,其特征在于,
所述对齐实体对包括第一样本实体以及第二样本实体,所述第一样本实体属于所述第一样本知识图谱,所述第二样本实体属于所述第二样本知识图谱;
所述基于所述对齐实体对的两个所述模态特征,确定所述对齐实体对的模态内子对比损失,包括:
基于所述第一样本实体的模态特征以及与所述第一样本实体对齐的所述第二样本实体的模态特征之间的第一特征相似度,以及所述第一样本实体的模态特征与所述第一样本实体的每个负样本的模态特征之间的第二特征相似度,确定所述样本实体对的第一模态内子损失;其中,所述第一样本实体的负样本是所述第二样本知识图谱中除所述第二样本实体以外的样本实体;
基于所述第一样本实体的模态特征以及与所述第一样本实体对齐的所述第二样本实体的模态特征之间的第一特征相似度,以及所述第二样本实体的模态特征与所述第二样本实体的每个负样本的模态特征之间的第三特征相似度,确定所述样本实体对的第二模态内子损失;其中,所述第二样本实体的负样本是所述第一样本知识图谱中除所述第一样本实体以外的样本实体;
将所述第一模态内子损失与所述第二模态内子损失的平均值,作为所述对齐实体对的模态内子对比损失。
4.如权利要求3所述的方法,其特征在于,
所述基于所述第一样本实体的模态特征以及与所述第一样本实体对齐的所述第二样本实体的模态特征之间的第一特征相似度,以及所述第一样本实体的模态特征与所述第一样本实体的每个负样本的模态特征之间的第二特征相似度,确定所述样本实体对的第一模态内子损失,包括:
获取与所述第一样本实体对应的每个所述第二特征相似度的加和,将每个所述第二特征相似度的加和与所述第一特征相似度的加和,作为第一中间参数;
将所述第一特征相似度与所述第一中间参数的比值,作为所述样本实体对的第一模态内子损失;
所述基于所述第一样本实体的模态特征以及与所述第一样本实体对齐的所述第二样本实体的模态特征之间的第一特征相似度,以及所述第二样本实体的模态特征与所述第二样本实体的每个负样本的模态特征之间的第三特征相似度,确定所述样本实体对的第二模态内子损失,包括:
获取与所述第二样本实体对应的每个所述第三特征相似度加和,将每个所述第三特征相似度的加和与所述第一特征相似度的加和,作为第二中间参数;
将所述第一特征相似度与所述第二中间参数的比值,作为所述样本实体对的第二模态内子损失。
5.如权利要求1所述的方法,其特征在于,
所述对齐实体对包括第一样本实体以及第二样本实体;所述第一样本实体属于所述第一样本知识图谱,所述第二样本实体属于所述第二样本知识图谱;
所述基于所述对齐实体对的两个所述模态特征,确定所述对齐实体对的模态内子对比损失,包括:
基于所述第一样本实体的模态特征以及与所述第一样本实体对齐的所述第二样本实体的模态特征之间的第一特征相似度,以及所述第一样本实体的模态特征与所述第一样本实体的每个负样本的模态特征之间的第二特征相似度,确定所述样本实体对的第一模态内子损失,其中,所述第一样本实体的负样本是所述第一样本知识图谱中除所述第一样本实体以外的样本实体、以及所述第二样本知识图谱中除所述第二样本实体以外的样本实体;
基于所述第一样本实体的模态特征以及与所述第一样本实体对齐的所述第二样本实体的模态特征之间的第一特征相似度,以及所述第二样本实体的模态特征与所述第二样本实体的每个负样本的模态特征之间的第二特征相似度,确定所述样本实体对的第二模态内子损失,其中,所述第二样本实体的负样本是所述第二样本知识图谱中除所述第二样本实体以外的样本实体、以及所述第一样本知识图谱中除所述第一样本实体以外的样本实体;
将所述第一模态内子损失与所述第二模态内子损失的平均值,作为所述对齐实体对的模态内子对比损失。
6.如权利要求1所述的方法,其特征在于,所述基于所述模态间总对比损失以及所述模态内总对比损失,更新所述多模态编码模型的参数,包括:
基于所述模态间总对比损失以及所述模态内总对比损失,对所述多模态编码模型进行反向传播处理,得到所述多模态编码模型的更新参数;
基于所述更新参数替换所述多模态编码模型中对应的原始参数。
7.如权利要求1所述的方法,其特征在于,所述基于每个所述模态间子对比损失,确定所述多模态编码模型的模态间总对比损失,以及基于每个所述模态内子对比损失,确定所述多模态编码模型的模态内总对比损失,包括:
将每个所述模态间子对比损失相加得到所述多模态编码模型的模态间总对比损失;
将每个所述实体对应的每个所述模态的所述模态内子对比损失相加,得到所述多模态编码模型的模态内总对比损失。
8.如权利要求1所述的方法,其特征在于,
所述模态的类型包括:结构模态、属性模态以及图像模态;
所述调用待训练的多模态编码模型,以对第一样本知识图谱、第二样本知识图谱中的每个样本实体进行编码处理,得到每个所述样本实体的至少两个模态的模态特征,包括:
调用所述多模态编码模型针对所述第一样本知识图谱、所述第二样本知识图谱中的每个所述样本实体进行以下处理:
基于所述样本实体对应的样本知识图谱,确定所述样本实体对应的结构模态数据、属性模态数据以及图像模态数据,其中,所述结构模态数据表征所述样本实体与其他的样本实体之间的关系;
对所述结构模态数据进行映射处理,基于所述映射处理得到的实体关系图进行卷积处理,得到所述样本实体的结构模态特征;
对所述属性模态数据进行组合处理,基于所述组合处理得到的组合特征向量进行降维处理,得到所述样本实体的属性模态特征,其中,所述组合特征向量的维度高于所述属性模态特征的维度;
对所述图像模态数据进行图像特征提取处理,得到所述样本实体的图像模态特征。
9.如权利要求8所述的方法,其特征在于,所述对所述结构模态数据进行映射处理,基于所述映射处理得到的实体关系图进行卷积处理,得到所述样本实体的结构模态特征,包括:
对所述结构模态数据进行映射处理,得到所述实体的实体关系图,其中,所述实体关系图包括:实体节点以及所述实体节点对应的多个邻居节点;
基于所述实体关系图中的实体节点以及每个所述邻居节点进行多次特征聚合处理,得到所述样本实体的结构模态特征。
10.如权利要求8所述的方法,其特征在于,所述对所述属性模态数据进行组合处理,基于所述组合处理得到的组合特征向量进行降维处理,得到所述样本实体的属性模态特征,包括:
将所述属性模态数据对应的每种属性进行组合处理,得到所述实体的组合特征向量;
对所述组合特征向量进行降维映射处理,得到所述样本实体的属性模态特征。
11.如权利要求8所述的方法,其特征在于,所述属性模态数据的类型包括:关系属性数据、参数属性数据;
所述对所述属性模态数据进行组合处理,基于所述组合处理得到的组合特征向量进行降维处理,得到所述样本实体的属性模态特征,包括:
将所述参数属性数据对应的每种属性进行组合处理,得到所述实体的参数组合特征向量;
基于所述关系属性数据确定所述实体的关系特征向量,其中,所述关系特征向量中对应每个维度的分量值表征:所述样本实体与每个所述维度对应的实体之间的关系;
分别对所述参数高维特征向量以及所述关系特征向量进行降维映射处理,对映射得到的参数低维特征向量以及关系低维特征向量进行融合处理,得到所述样本实体的属性模态特征。
12.一种多模态编码模型的训练装置,其特征在于,所述多模态编码模型的训练装置包括:
编码模块,配置为调用待训练的多模态编码模型,对第一样本知识图谱和第二样本知识图谱中的每个样本实体进行编码处理,得到每个所述样本实体的至少两个模态的模态特征,其中,所述第一样本知识图谱与所述第二样本知识图谱互相对齐;
损失获取模块,配置为针对每个所述样本实体进行以下处理:基于所述样本实体的每个所述模态特征,确定所述样本实体对应的模态间子对比损失;
所述损失获取模块,还配置为将所述第一样本知识图谱中每个所述样本实体、以及所述第二样本知识图谱中与每个所述样本实体对齐的样本实体,组成对齐实体对;
所述损失获取模块,还配置为在每个所述模态下针对每个所述对齐实体对进行以下处理:基于所述对齐实体对的两个所述模态特征,确定所述对齐实体对的模态内子对比损失;
所述损失获取模块,配置为基于每个所述模态间子对比损失,确定所述多模态编码模型的模态间总对比损失,以及基于每个所述模态内子对比损失,确定所述多模态编码模型的模态内总对比损失;
训练模块,配置为基于所述模态间总对比损失以及所述模态内总对比损失,更新所述多模态编码模型的参数。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的多模态编码模型的训练方法。
14.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至11任一项所述的多模态编码模型的训练方法。
15.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的多模态编码模型的训练方法。
CN202210454358.6A 2022-04-27 2022-04-27 多模态编码模型的训练方法、装置、电子设备及存储介质 Pending CN115114443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210454358.6A CN115114443A (zh) 2022-04-27 2022-04-27 多模态编码模型的训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210454358.6A CN115114443A (zh) 2022-04-27 2022-04-27 多模态编码模型的训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115114443A true CN115114443A (zh) 2022-09-27

Family

ID=83325790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210454358.6A Pending CN115114443A (zh) 2022-04-27 2022-04-27 多模态编码模型的训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115114443A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028654A (zh) * 2023-03-30 2023-04-28 中电科大数据研究院有限公司 知识节点的多模态融合更新方法
CN116127319A (zh) * 2023-01-16 2023-05-16 北京百度网讯科技有限公司 多模态负样本构建、模型预训练方法、装置、设备及介质
CN116431827A (zh) * 2023-03-28 2023-07-14 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质及计算机设备
CN116595154A (zh) * 2023-07-14 2023-08-15 阿里巴巴(中国)有限公司 任务处理方法以及自动问答方法
CN117576520A (zh) * 2024-01-16 2024-02-20 中国科学技术大学 目标检测模型的训练方法、目标检测方法及电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127319A (zh) * 2023-01-16 2023-05-16 北京百度网讯科技有限公司 多模态负样本构建、模型预训练方法、装置、设备及介质
CN116127319B (zh) * 2023-01-16 2024-03-29 北京百度网讯科技有限公司 多模态负样本构建、模型预训练方法、装置、设备及介质
CN116431827A (zh) * 2023-03-28 2023-07-14 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质及计算机设备
CN116028654A (zh) * 2023-03-30 2023-04-28 中电科大数据研究院有限公司 知识节点的多模态融合更新方法
CN116028654B (zh) * 2023-03-30 2023-06-13 中电科大数据研究院有限公司 知识节点的多模态融合更新方法
CN116595154A (zh) * 2023-07-14 2023-08-15 阿里巴巴(中国)有限公司 任务处理方法以及自动问答方法
CN116595154B (zh) * 2023-07-14 2023-12-12 阿里巴巴(中国)有限公司 任务处理方法以及自动问答方法
CN117576520A (zh) * 2024-01-16 2024-02-20 中国科学技术大学 目标检测模型的训练方法、目标检测方法及电子设备
CN117576520B (zh) * 2024-01-16 2024-05-17 中国科学技术大学 目标检测模型的训练方法、目标检测方法及电子设备

Similar Documents

Publication Publication Date Title
CN115114443A (zh) 多模态编码模型的训练方法、装置、电子设备及存储介质
CN111914054B (zh) 用于大规模语义索引的***和方法
Tang et al. Tri-clustered tensor completion for social-aware image tag refinement
WO2023065211A1 (zh) 一种信息获取方法以及装置
US11243960B2 (en) Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
WO2022140900A1 (zh) 个人知识图谱构建方法、装置及相关设备
US10924551B2 (en) IRC-Infoid data standardization for use in a plurality of mobile applications
Wanyan et al. Deep learning with heterogeneous graph embeddings for mortality prediction from electronic health records
Desarkar et al. Big-data analytics, machine learning algorithms and scalable/parallel/distributed algorithms
Shi et al. A survey on cross-media search based on user intention understanding in social networks
CN116821373A (zh) 基于图谱的prompt推荐方法、装置、设备及介质
Xing et al. Exploiting Two‐Level Information Entropy across Social Networks for User Identification
CN116978449A (zh) 相互作用界面的预测方法、装置、电子设备及存储介质
Huang et al. Using knowledge graphs and deep learning algorithms to enhance digital cultural heritage management
Johnpaul et al. General representational automata using deep neural networks
CN116230146A (zh) 数据处理方法、icd编码模型的训练方法及相关设备
CN115132372A (zh) 术语处理方法、装置、电子设备、存储介质及程序产品
CN114282002A (zh) 基于人工智能的知识生成方法、装置、设备及存储介质
An et al. KAMPNet: multi-source medical knowledge augmented medication prediction network with multi-level graph contrastive learning
Su et al. [Retracted] Design and Application of Intelligent Management Platform Based on Big Data
Tang [Retracted] Analysis of English Multitext Reading Comprehension Model Based on Deep Belief Neural Network
Quan Visualization and Analysis Model of Industrial Economy Status and Development Based on Knowledge Graph and Deep Neural Network
CN110555137A (zh) 一种标签补齐方法及装置
US11947600B2 (en) Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
Hou et al. Recommendation Method of Power Knowledge Retrieval Based on Graph Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination