CN115292455A

CN115292455A - 图文匹配模型的训练方法及装置

Info

Publication number: CN115292455A
Application number: CN202211219395.5A
Authority: CN
Inventors: 陈畅新; 李展铿
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2022-11-04
Anticipated expiration: 2042-10-08
Also published as: CN115292455B

Abstract

本发明公开了一种图文匹配模型的训练方法及装置，该方法包括：获取用于图文匹配模型训练的训练数据集，训练数据集中包括多个文本数据和多个图像数据，将每个文本数据和每个图像数据分别输入至目标文本模型以及目标图像模型中得到文本编码向量和图像编码向量，并确定初始训练用图文数据组，将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息，若初始损失信息满足训练完成条件，则将初始图文匹配模型确定为目标图文匹配模型。可见，实施本发明能够提高图文匹配模型训练的效率，还能够基于图文匹配模型实现图文互搜以及多模态数据分类。

Description

图文匹配模型的训练方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种图文匹配模型的训练方法及装置。

背景技术

在实际生活中，人工智能已经广泛应用于人们的日常生活中。在深度学习兴起之初，大多数模型只专注于计算机视觉或自然语言处理等专一的领域，并没有深入挖掘这两者之间的联系，并且，目前对于模型的训练通常是基于人工标注的数据集进行有监督的训练，不仅耗费人力成本，还耗费许多时间成本，使得模型训练的效率低下。可见，如何对图文匹配模型进行训练以提高模型训练的效率是本领域技术人员尚待解决的技术问题。

发明内容

本发明所要解决的技术问题在于，提供一种图文匹配模型的训练方法及装置，能够有利于提高图文匹配模型训练的效率，还能够基于训练所得的图文匹配模型实现图文互搜以及多模态数据分类。

为了解决上述技术问题，本发明第一方面公开了一种图文匹配模型的训练方法，所述方法包括：

获取用于图文匹配模型训练的训练数据集，所述训练数据集中包括多个文本数据和多个图像数据；

针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量；

针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组；

将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于所述初始训练数据输出结果，确定所述初始图文匹配模型的初始损失信息，所述初始损失信息包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的一种或多种；

判断所述初始损失信息是否满足训练完成条件，当判断结果为是时，将所述初始图文匹配模型确定为目标图文匹配模型。

作为一种可选的实施方式，在本发明第一方面中，在获取用于图文匹配模型训练的训练数据集之后，在针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量之前，所述方法还包括：

针对所述训练数据集中的每个所述文本数据，对该文本数据执行特征掩盖操作，得到特征掩盖文本数据；

以及，所述针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，包括：

针对每个所述特征掩盖文本数据，将该特征掩盖文本数据输入至目标文本模型，得到文本编码向量，其中，所述文本编码向量包括该特征掩盖文本数据的预测文本数据。

作为一种可选的实施方式，在本发明第一方面中，所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，包括：

针对每个所述初始训练用图文数据组，将该初始训练用图文数据组中所包括的文本编码向量以及图像编码向量执行拼接操作，得到初始图文输入数据组；

针对每个所述初始图文输入数据组，将该初始图文输入数据组输入至初始图文匹配模型，得到初始图文数据组输出结果；

根据所有所述初始图文数据组输出结果，确定初始训练数据输出结果；

其中，所述初始图文数据组输出结果包括多个初始图文输出数据组，所述初始图文输出数据组的数量与所述初始训练用图文数据组的数量相等，每个所述初始图文输出数据组包括文本数据输出结果以及图像数据输出结果。

作为一种可选的实施方式，在本发明第一方面中，所述针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组之后，所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果之前，所述方法还包括：

从所有所述初始训练用图文数据组中确定出至少两个第一训练用图文数据组，将所有所述第一训练用图文数据组中所包括的所述文本数据与所述图像数据重新组合，得到第二训练用图文数据组，每个所述第一训练用图文数据组中所包括的数据与每个所述第二训练用图文数据组中所包括的数据不均相同；

将所有所述初始训练用图文数据组中除所有所述第一训练用图文数据组外的所有剩余训练用图文数据组以及所有所述第二训练用图文数据组确定为目标训练用图文数据组；

所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，包括：

将所有所述目标训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果。

作为一种可选的实施方式，在本发明第一方面中，当所述初始损失信息包括所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息时，所述基于所述初始训练数据输出结果，确定所述初始图文匹配模型的初始损失信息，包括：

针对每个所述文本编码向量，从所述训练数据集中确定出与该文本编码向量相匹配的目标文本数据，并根据该文本编码向量以及所述目标文本数据，确定该文本编码向量的文本重建损失信息，根据所有所述文本编码向量的文本重建损失信息，确定文本重建损失信息；

针对每个所述初始图文输出数据组中的所述文本数据输出结果，计算该文本数据输出结果与每个所述图像数据输出结果之间的特征匹配参数，得到每个所述文本数据输出结果与每个所述图像数据输出结果之间的特征匹配参数，根据所有所述特征匹配参数确定所述初始图文匹配模型的对比学习损失信息；

根据所述初始图文数据组输出结果以及所有所述初始训练用图文数据组，确定所述初始图文匹配模型的图文匹配损失信息；

基于所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息，确定所述初始图文匹配模型的初始损失信息。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述初始图文数据组输出结果以及所有所述初始训练用图文数据组，确定所述初始图文匹配模型的图文匹配损失信息，包括：

基于每个所述初始图文数据组输出结果中所包括的所述文本数据输出结果以及所述图像数据输出结果，从所述初始图文数据组输出结果中所包括的所有所述初始图文数据组中确定出与所述初始训练用图文数据组相同的第一输出图文数据组，并将除所有所述第一输出图文数据组外的所有所述输出图文数据组确定为第二输出图文数据组；

根据所有所述第一输出图文数据组、所有所述第二输出图文数据组以及所有所述初始训练用图文数据组，确定所述初始图文匹配模型的输出数据匹配度；

根据所述输出数据匹配度以及预先确定出的图文匹配函数，确定所述初始图文匹配模型的图文匹配损失信息。

作为一种可选的实施方式，在本发明第一方面中，所述根据所有所述特征匹配参数确定所述初始图文匹配模型的对比学习损失信息，包括：

针对每个所述初始图文输出数据组中的所述文本数据输出结果，基于所述初始训练用图文数据组，在所述初始训练用图文数据组中确定与该文本数据输出结果相匹配的关键图像数据输出结果，并确定该文本数据输出结果与该关键图像数据输出结果之间的第一匹配信息，以及确定该文本数据输出结果与除该关键图像数据输出结果以外的每个其它图像数据输出结果之间的第二匹配信息；

根据所有所述第一匹配信息、所有所述第二匹配信息以及预先确定出的对比学习损失函数，确定所述初始图文匹配模型的对比学习损失信息。

本发明第二方面公开了一种图文匹配模型的训练装置，所述装置包括：

获取模块，用于获取用于图文匹配模型训练的训练数据集，所述训练数据集中包括多个文本数据和多个图像数据；

输入模块，用于针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量；

确定模块，用于针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组；

所述输入模块，还用于将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果；

所述确定模块，还用于基于所述初始训练数据输出结果，确定所述初始图文匹配模型的初始损失信息，所述初始损失信息包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的一种或多种；

判断模块，用于判断所述初始损失信息是否满足训练完成条件；

所述确定模块，还用于当判断结果为是时，将所述初始图文匹配模型确定为目标图文匹配模型。

作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：

特征掩盖模块，用于在所述获取模块获取用于图文匹配模型训练的训练数据集之后，在所述输入模块针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量之前，针对所述训练数据集中的每个所述文本数据，对该文本数据执行特征掩盖操作，得到特征掩盖文本数据；

以及，所述输入模块针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述输入模块将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述确定模块，还用于在针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组之后，在所述输入模块将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果之前，从所有所述初始训练用图文数据组中确定出至少两个第一训练用图文数据组；

所述装置还包括：

组合模块，用于将所有所述第一训练用图文数据组中所包括的所述文本数据与所述图像数据重新组合，得到第二训练用图文数据组，每个所述第一训练用图文数据组中所包括的数据与每个所述第二训练用图文数据组中所包括的数据不均相同；

所述确定模块，还用于将所有所述初始训练用图文数据组中除所有所述第一训练用图文数据组外的所有剩余训练用图文数据组以及所有所述第二训练用图文数据组确定为目标训练用图文数据组；

所述输入模块将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，当所述初始损失信息包括所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息时，所述确定模块基于所述初始训练数据输出结果，确定所述初始图文匹配模型的初始损失信息的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述确定模块根据所述初始图文数据组输出结果以及所有所述初始训练用图文数据组，确定所述初始图文匹配模型的图文匹配损失信息的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述确定模块根据所有所述特征匹配参数确定所述初始图文匹配模型的对比学习损失信息的方式具体包括：

本发明第三方面公开了另一种图文匹配模型的训练装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的图文匹配模型的训练方法。

本发明第四方面公开了一种计算机可存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的图文匹配模型的训练方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取用于图文匹配模型训练的训练数据集，训练数据集中包括多个文本数据和多个图像数据，将每个文本数据和每个图像数据分别输入至目标文本模型以及目标图像模型中得到文本编码向量和图像编码向量，并确定初始训练用图文数据组，将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息，若初始损失信息满足训练完成条件，则将初始图文匹配模型确定为目标图文匹配模型。可见，实施本发明能够提高图文匹配模型训练的效率，还能够基于图文匹配模型实现图文互搜以及多模态数据分类。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种图文匹配模型的训练方法的流程示意图；

图2是本发明实施例公开的另一种图文匹配模型的训练方法的流程示意图；

图3是本发明实施例公开的一种图文匹配模型的训练装置的结构示意图；

图4是本发明实施例公开的另一种图文匹配模型的训练装置的结构示意图；

图5是本发明实施例公开的又一种图文匹配模型的训练装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种图文匹配模型的训练方法及装置，能够提高图文匹配模型训练的效率，还能够基于图文匹配模型实现图文互搜以及多模态数据分类。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种图文匹配模型的训练方法的流程示意图。其中，图1所描述的图文匹配模型的训练方法可以应用于图文匹配模型的训练装置中，也可以应用于基于图文匹配模型的训练的云端服务器或本地服务器，本发明实施例不做限定。如图1所示，该图文匹配模型的训练方法可以包括以下操作：

101、获取用于图文匹配模型训练的训练数据集。

本发明实施例中，训练数据集中包括多个文本数据和多个图像数据。

本发明实施例中，可选的，训练数据集中可以包括文本图像匹配数据组，其中，文本图像匹配数据组为文本和图像相匹配的数据组。举例来说，文本图像匹配数据组中的图像可以为牛奶的图案，而文本图像匹配数据组中的文字可以为“牛奶”。

102、针对每个文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个图像数据，将该图像数据输入至目标图像模型，得到图像编码向量。

本发明实施例中，可选的，目标文本模型可以包括文本编码器、文本池化层以及文本全连接层。其中，将文本数据输入至目标文本模型中，得到文本编码向量，可以为：将文本数据输入至文本编码器，得到文本编码结果，再将文本编码结果输入至文本池化层，得到文本池化结果，再将文本池化结果输入至文本全连接层，经过文本全连接层后输出得到文本编码向量。

本发明实施例中，可选的，目标图像模型可以包括图像编码器、图像池化层以及图像全连接层。其中，将图像数据输入至目标图像模型，得到图像编码向量，可以为：将图像数据输入至图像编码器，得到图像编码结果，再将图像编码结果输入至图像池化层，得到图像池化结果，再将图像池化结果输入至图像全连接层，经过图像全连接层后输出得到图像编码向量。

本发明实施例中，可选的，在得到文本编码向量以及图像编码向量之后，文本编码向量与图像编码向量映射在同一维度。

103、针对每个文本编码向量，在所有图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组。

本发明实施例中，可选的，每个初始训练用图文数据组中所包括的图像编码向量与文本编码向量均相匹配，不同的初始训练用图文数据组之间中所包括的图像编码向量与文本编码向量不相匹配。

本发明实施例中，可选的，初始训练用图文数据组可以包括一个文本编码向量以及一个与该文本编码向量相匹配的图像编码向量。可选的，初始训练用图文数据组的数量为多个，本发明实施例不做限定。

104、将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息。

本发明实施例中，初始损失信息包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的一种或多种。

本发明实施例中，可选的，初始损失信息可以只包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的其中一种，还可以是包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的两种或全部都包含，本发明实施例不做限定。

105、判断初始损失信息是否满足训练完成条件，当判断结果为是时，将初始图文匹配模型确定为目标图文匹配模型。

本发明实施例中，可选的，当判断结果表示初始损失信息不满足训练完成条件时，重新触发执行获取用于图文匹配模型训练的训练数据集，针对每个文本数据将该文本数据输入至目标文本模型得到文本编码向量，以及针对每个图像数据将该图像数据输入至目标图像模型得到图像编码向量，针对每个文本编码向量，在所有图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组，将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息，判断初始损失信息是否满足训练完成条件的操作，直至判断出初始损失信息满足训练完成条件。

可见，实施图1所描述的图文匹配模型的训练方法能够针对得到每个文本数据的文本编码向量以及得到每个图像数据的图像编码向量，并确定每个文本编码向量相匹配的图像编码向量，并确定每个文本编码向量相匹配的图像编码向量，将该文本编码向量和该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组，将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息，判断初始损失信息是否满足训练完成条件，若是，则将初始图文匹配模型确定为目标图文匹配模型，有利于提高训练图文匹配模型的智能性和效率，进而有利于提高得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

实施例二

请参阅图2，图2是本发明实施例公开的一种图文匹配模型的训练方法的流程示意图。其中，图2所描述的图文匹配模型的训练方法可以应用于图文匹配模型的训练装置中，也可以应用于基于图文匹配模型的训练的云端服务器或本地服务器，本发明实施例不做限定。如图2所示，该图文匹配模型的训练方法可以包括以下操作：

201、获取用于图文匹配模型训练的训练数据集。

202、针对文本数据集中的每个文本数据，对该文本数据执行特征掩盖操作，得到特征掩盖文本数据。

本发明实施例中，可选的，对该文本数据执行特征掩盖操作，得到特征掩盖文本数据，可以包括：对该文本数据执行部分特征掩盖操作，得到特征掩盖文本数据。举例来说，当文本数据中所包括的文字为“小儿感冒颗粒”时，经过特征掩盖操作后得到的特征掩盖文本数据中所包括的文字可以为“小儿XX颗粒”，其中，将“感冒”二字进行特征掩盖。

本发明实施例中，需要说明的是，对文本数据执行特征掩盖操作是对文本数据中所包括的部分文字执行特征掩盖操作，而不是对文本数据中所包括的所有文字执行特征掩盖操作。

203、针对每个特征掩盖文本数据，将该特征掩盖文本数据输入至目标文本模型，得到文本编码向量，以及针对每个图像数据，将该图像数据输入至目标图像模型，得到图像编码向量。

本发明实施例中，文本编码向量包括该特征掩盖文本数据的预测文本数据。

本发明实施例中，可选的，预测文本数据包括被该特征掩盖文本数据的预测结果。例如，特征掩盖文本数据为“小儿XX颗粒”时，其中，“XX”为被遮盖的特征文本数据，则该特征掩盖文本数据的预测文本数据可以为“小儿伤风颗粒”、“小儿感冒颗粒”、“小儿发烧颗粒”中的其中一种。

本发明实施例中，可选的，针对每个特征掩盖文本数据，将该特征掩盖文本数据输入至目标文本模型，得到文本编码向量，可以包括：

针对每个特征掩盖文本数据，将该特征掩盖文本数据输入至文本编码器，得到该特征掩盖文本数据对应的特征掩盖预测文本数据，将该特征掩盖预测文本数据输入至文本池化层中，得到文本池化结果，再将文本池化结果输入至文本全连接层，得到文本编码向量。

204、针对每个文本编码向量，在所有图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组。

205、将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息。

206、判断初始损失信息是否满足训练完成条件，当判断结果为是时，将初始图文匹配模型确定为目标图文匹配模型。

本发明实施例中，针对步骤201、步骤204-步骤206的其它描述，请参照实施例一中针对步骤101-步骤105的详细描述，本发明实施例不再赘述。

本发明实施例中，举例来说，假设输入的图像为img，输入的文本为输入的文本为text=[t1, t2, tmask, ..., tn]，其中，mask代表被遮掩掉的字，n为文本长度；图像img经过图像编码器后，得到图像特征vencoder=VE(img)，再经过图像池化层以及图像全连接层，得到图像编码向量v；文本经过文本编码器后，得到文本特征tencoder=VT(text)，再经过文本池化层和文本全连接层后，得到文本编码向量t；此外，当文本中存在tmask时，将tmask对应的文字输入至分类层FC_TextPred，得到tpred=FC_TextPred(t_encoder)，其中，tpred用于表示预测得到的被特征掩盖的文字的预测结果。

可见，实施图2所描述的图文匹配模型训练方法能够在获取训练数据集后，针对训练数据集中的每个文本数据，对该文本数据执行特征掩盖操作，得到特征掩盖文本数据，并将该特征掩盖文本数据输入至目标文本模型中，得到文本编码向量，其中文本编码向量包括该特征掩盖文本数据的预测文本数据，这样能够对文本数据执行特征掩盖操作之后预测被掩盖的文本，能够提高训练图文匹配模型的智能性，以及能够提高训练图文匹配模型的效率，进而有利于提高得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在一个可选的实施例中，将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，包括：

针对每个初始训练用图文数据组，将该初始训练用图文数据组中所包括的文本编码向量以及图像编码向量执行拼接操作，得到初始图文输入数据组；

针对每个初始图文输入数据组，将该初始图文输入数据组输入至初始图文匹配模型，得到初始图文数据组输出结果；

根据所有初始图文数据组输出结果，确定初始训练数据输出结果；

其中，初始图文数据组输出结果包括多个初始图文输出数据组，初始图文输出数据组的数量与初始训练用图文数据组的数量相等，每个初始图文输出数据组包括文本数据输出结果以及图像数据输出结果。

在该可选的实施例中，可选的，每个初始图文输出数据组包括的文本数据输出结果的数量为一个，每个初始图文输出数据组包括的图像数据输出结果的数量为一个。

在该可选的实施例中，举例来说，当得到图像编码向量v以及文本编码向量t之后，经v和t进行拼接，得到vt=cat(v, t)。其中，vt用于表示图像编码向量v和文本编码向量t经过拼接之后得到的初始图文输入数据组。

在该可选的实施例中，可选的，根据所有初始图文数据组输出结果，确定初始训练数据输出结果，可以包括：将所有初始图文数据组输出结果确定为初始训练数据输出结果。

可见，实施该可选的实施例能够针对每个初始训练用图文数据组，将该初始训练用图文数据组中所包括的文本编码向量以及图像编码向量执行拼接操作，得到初始图文输入数据组，针对每个初始图文输入数据组，将该初始图文输入数据组输入至初始图文匹配模型，得到初始图文数据组输出结果，根据所有初始图文数据组输出结果，确定初始训练数据输出结果，能够提高确定初始训练数据输出结果的准确性和可靠性，以及能够提高训练图文匹配模型的智能性，进而有利于提高训练得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在另一个可选的实施例中，针对每个文本编码向量，在所有图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组之后，将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果之前，该方法还包括：

从所有初始训练用图文数据组中确定出至少两个第一训练用图文数据组，将所有第一训练用图文数据组中所包括的文本数据与图像数据重新组合，得到第二训练用图文数据组，每个第一训练用图文数据组中所包括的数据与每个第二训练用图文数据组中所包括的数据不均相同；

将所有初始训练用图文数据组中除所有第一训练用图文数据组外的所有剩余训练用图文数据组以及所有第二训练用图文数据组确定为目标训练用图文数据组；

将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，包括：

将所有目标训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果。

在该可选的实施例中，可选的，每个第一训练用图文数据组中所包括的数据与每个第二训练用图文数据组中所包括的数据有一部分相同，有一部分不相同。举例来说，当确定出的其中一个第一训练用图文数据组中所包括的文字数据为文字A且该第一训练用图文数据组中所包括的图像数据为图像A，另外一个第一训练用图文数据组中所包括的文字数据为文字B且该第一训练用图文数据组中所包括的图像数据为图像B时，将这两个第一训练用图文数据组重新组合，得到的其中一个第二训练用图文数据组中所包括的文字数据为文字A且该第二训练用图文数据组中所包括的图像数据为图像B，另外一个第二训练用图文数据组中所包括的文字数据为文字B且该第二训练用图文数据组中所包括的图像数据为图像A。

在该可选的实施例中，将所有初始训练用图文数据组中除所有第一训练用图文数据组外的所有剩余训练用图文数据组以及所有第二训练用图文数据组确定为目标训练用图文数据组，也即：目标训练用图文数据组中所包括的所有目标训练用图文数据组中既包括文字数据和图像数据重新组合后的图文数据组，也包括文字数据和图像数据重新组合前的图文数据组，也即原图文数据组。

可见，实施该可选的实施例能够将第一训练用图文数据组中所包括的文本数据与图像数据重新组合，得到第二训练用图文数据组，并将所有初始训练用图文数据组中除所有第一训练用图文数据组外的所有剩余训练用图文数据组以及所有第二训练用图文数据组确定为目标训练用图文数据组，将所有目标训练用图文数据组输入至预先设定的初始图文匹配模型中，得到初始训练数据输出结果，能够通过重新组合后的第二训练用图文数据组对图文匹配模型进行训练，能够提高训练图文匹配模型的智能性，从而能够提高得到图文匹配模型的准确性和可靠性，进而有利于提高训练得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在又一个可选的实施例中，当初始损失信息包括文本重建损失信息、对比学习损失信息以及图文匹配损失信息时，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息，包括：

针对每个文本编码向量，从训练数据集中确定出与该文本编码向量相匹配的目标文本数据，并根据该文本编码向量以及目标文本数据，确定该文本编码向量的文本重建损失信息，根据所有文本编码向量的文本重建损失信息，确定文本重建损失信息；

针对每个初始图文输出数据组中的文本数据输出结果，计算该文本数据输出结果与每个图像数据输出结果之间的特征匹配参数，得到每个文本数据输出结果与每个图像数据输出结果之间的特征匹配参数，根据所有特征匹配参数确定初始图文匹配模型的对比学习损失信息；

根据初始图文数据组输出结果以及所有初始训练用图文数据组，确定初始图文匹配模型的图文匹配损失信息；

基于文本重建损失信息、对比学习损失信息以及图文匹配损失信息，确定初始图文匹配模型的初始损失信息。

在该可选的实施例中，基于文本重建损失信息、对比学习损失信息以及图文匹配损失信息，确定初始图文匹配模型的初始损失信息可以包括：

基于总损失计算函数以及文本重建损失信息、对比学习损失信息以及图文匹配损失信息，确定初始图文匹配模型的初始损失信息；

其中，总损失计算函数，可以包括：

L=Ltext_rebuild+Linfonce+Litm；

其中，L为初始损失信息，Ltext_rebuild为文本重建损失信息，Linfonce为对比学习损失信息，Litm为图文匹配损失信息。

这样通过总损失计算函数、文本重建损失信息、对比学习损失信息以及图文匹配损失信息共同确定初始图文匹配模型的初始损失信息，能够提高确定初始图文匹配模型的初始损失信息的准确性和可靠性。

在该可选的实施例中，需要说明的是，文本重建损失信息为文本重建损失函数(Ltext_rebuild)，即输入文本时随机遮掩掉一部分文本，经过文本编码器后，需要预测被遮掩掉的文本是什么，也即：文本重建损失信息表示预测经过特征掩盖之后的文本信息与真实文本信息之间的损失信息。

在该可选的实施例中，可选的，文本重建损失函数采用标准的交叉熵损失函数：Ltext_rebuild=CrossEntropy(tpred, tmask)。其中，Ltext_rebuild为文本重建损失函数，tpred表示预测出的被掩盖的文字的预测结果，tmask表示被掩盖的文字。

在该可选的实施例中，需要说明的是，针对每个文本编码向量，从训练数据集中确定出与该文本编码向量相匹配的目标文本数据，也即，确定出的目标文本数据为该文本编码向量对应的原文本数据。

在该可选的实施例中，举例来说，当该文本编码向量的文本数据为“水果糖”且该文本编码向量相匹配的目标文本数据为“柠檬糖”时，则根据“水果糖”和“柠檬糖”计算特征匹配参数，并根据特征匹配参数确定该文本编码向量的文本重建损失信息。

在该可选的实施例中，可选的，对比学习损失信息用于表示文本数据和图像数据之间的关系。举例来说，假设有存在4个图文对，即4个图像和4个文本，且图像1和文本1匹配，图像2和文本2匹配，图像3和文本3匹配，图像4和文本4匹配，那么，这里的损失函数表示的是，图像1的特征和文本1的特征距离应该被拉近，而图像1的特征和文本2、文本3、文本4之间的特征距离应该被拉远。同理，图像2的特征和文本2的特征距离被拉近，图像2的特征和文本1、文本3、文本4的特征距离被拉远，重复至图像4。

在该可选的实施例中，可选的，图文匹配损失信息用于表示经过初始图文匹配模型之后输出的初始训练用图文数据组之间的文字数据和图像数据之间的匹配关系。

可见，实施该可选的实施例能够针对确定每个文本编码向量的文本重建损失信息，并根据所有文本重建损失信息确定文本重建损失信息，并计算每个文本数据输出结果与每个图像数据输出结果之间的特征匹配参数，得到特征匹配参数，根据所有特征匹配参数确定对比学习损失信息，以及根据初始图文数据组输出结果以及所有初始训练用图文数据组确定图文匹配损失信息，并基于文本重建损失信息、对比学习损失信息以及图文匹配损失信息，确定初始图文匹配模型的初始损失信息，能够提高确定初始损失信息的准确性和可靠性，以及能够提高确定初始损失信息的智能性，进而有利于提高训练得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在又一个可选的实施例中，根据初始图文数据组输出结果以及所有初始训练用图文数据组，确定初始图文匹配模型的图文匹配损失信息，包括：

基于每个初始图文数据组输出结果中所包括的文本数据输出结果以及图像数据输出结果，从初始图文数据组输出结果中所包括的所有初始图文数据组中确定出与初始训练用图文数据组相同的第一输出图文数据组，并将除所有第一输出图文数据组外的所有输出图文数据组确定为第二输出图文数据组；

根据所有第一输出图文数据组、所有第二输出图文数据组以及所有初始训练用图文数据组，确定初始图文匹配模型的输出数据匹配度；

根据输出数据匹配度以及预先确定出的图文匹配函数，确定初始图文匹配模型的图文匹配损失信息。

在该可选的实施例中，可选的，所有第一输出图文数据组中所包括的文本数据和图像数据的组合均与初始训练用图文数据组中所包括的文本数据和图像数据的组合相同，所有第二输出图文数据组中所包括的文本数据和图像数据的组合与均与初始训练用图文数据组中所包括的文本数据和图像数据的组合不均相同。

在该可选的实施例中，可选的，举例来说，假设有4个图文对，那么我们保持前2个图文对不变，后两个图文对打乱顺序，即形成以下组合：图文组合1包括图像1，文本1、图文组合2包括图像2, 文本2、图文组合3包括图像3，文本4、图文组合4包括图像4, 文本3。则图文组合1和图文组合2为匹配正确的图文数据组，图文组合3和图文组合4为匹配错误的图文数据组。进一步可选的，将图文组合1和图文组合2确定为正标签，将图文组合3和图文组合4确定为负标签，针对初始图文匹配模型进行训练的时候，将图像特征和文本特征聚合，然后输入到分类层，进行分类，来判断图文对是否匹配，并根据匹配结果继续对初始图文匹配模型进行训练。

在该可选的实施例中，可选的，预先确定出的图文匹配函数，可以包括：

Litm=CrossEntropy(vtpred, vttrue)；

其中，Litm为初始图文匹配模型的图文匹配损失信息，vtpred用于表示二分类，也即将图像特征和文本特征拼接后，输入到一个分类层，进而判断图文对是否匹配，vttrue表示图文对的匹配结果；

进一步的，当vttrue=1时该数据组中的文本数据和图像数据相匹配，当vttrue=0时该数据组中的文本数据和图像数据不匹配。

可见，实施该可选的实施例能够基于文本数据输出结果以及图像数据输出结果，确定出第一输出图文数据组和第二输出图文数据组，根据所有第一输出图文数据组、第二输出图文数据组以及所有初始训练用图文数据组，确定初始图文匹配模型的输出数据匹配度，根据输出数据匹配度以及图文匹配函数确定图文匹配损失信息，能够提高确定图文匹配损失信息的准确性和可靠性，从而能够提高确定初始损失信息的准确性和可靠性，进而有利于提高训练图文匹配模型的智能性和准确性，进一步的能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在又一个可选的实施例中，根据所有特征匹配参数确定初始图文匹配模型的对比学习损失信息，包括：

针对每个初始图文输出数据组中的文本数据输出结果，基于初始训练用图文数据组，在初始训练用图文数据组中确定与该文本数据输出结果相匹配的关键图像数据输出结果，并确定该文本数据输出结果与该关键图像数据输出结果之间的第一匹配信息，以及确定该文本数据输出结果与除该关键图像数据输出结果以外的每个其它图像数据输出结果之间的第二匹配信息；

根据所有第一匹配信息、所有第二匹配信息以及预先确定出的对比学习损失函数，确定初始图文匹配模型的对比学习损失信息。

在该可选的实施例中，可选的，预先确定出的对比学习损失函数，可以包括：

其中，L_infonce为对比学习损失函数，t为文本编码向量，v为图像编码向量，τ为温度系数。

在该可选的实施例中，进一步可选的，τ用于挖掘困难样本。其中，困难样本为匹配错误的图文数据组，通过设置不同的温度系数，当出现困难样本时，可以增大匹配错误的图文数据组的损失信息，以使图文匹配模型进一步针对匹配错误的图文数据组进行学习，以提高模型训练的智能性和准确性。

在该可选的实施例中，需要说明的是，由于输入的是多个图文对，模型训练所要求的是同一图文对中的图像编码向量v和文本编码向量t应该越来越接近，不同一图文对中的图像编码向量v和文本编码向量t应该越来越接远。举例来说，假设有存在4个图文对，即4个图像和4个文本，且图像1和文本1匹配，图像2和文本2匹配，图像3和文本3匹配，图像4和文本4匹配，那么，这里的损失函数表示的是，图像1的特征和文本1的特征距离应该被拉近，而图像1的特征和文本2、文本3、文本4之间的特征距离应该被拉远。同理，图像2的特征和文本2的特征距离被拉近，图像2的特征和文本1、文本3、文本4的特征距离被拉远，重复至图像4。

可见，实施该可选的实施例能够确定每个文本数据输出结果与每个图像数据输出结果之间的匹配信息，并根据所有匹配信息以及预先确定出的对比学习损失函数确定初始图文匹配模型的对比学习损失信息，能够提高得到对比学习损失信息的准确性和可靠性，从而能够提高确定初始损失信息的准确性和可靠性，进而有利于提高训练图文匹配模型的智能性和准确性，进一步的能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

实施例三

请参阅图3，图3是本发明实施例公开的一种图文匹配模型的训练装置的结构示意图。如图3所示，该图文匹配模型的训练装置可以包括：

获取模块301，用于获取用于图文匹配模型训练的训练数据集，训练数据集中包括多个文本数据和多个图像数据；

输入模块302，用于针对每个文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个图像数据，将该图像数据输入至目标图像模型，得到图像编码向量；

确定模块303，用于针对每个文本编码向量，在所有图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组；

输入模块302，还用于将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果；

确定模块303，还用于基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息，初始损失信息包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的一种或多种；

判断模块304，用于判断初始损失信息是否满足训练完成条件；

确定模块303，还用于当判断结果为是时，将初始图文匹配模型确定为目标图文匹配模型。

可见，实施图3所描述的装置能够针对得到每个文本数据的文本编码向量以及得到每个图像数据的图像编码向量，并确定每个文本编码向量相匹配的图像编码向量，并确定每个文本编码向量相匹配的图像编码向量，将该文本编码向量和该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组，将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息，判断初始损失信息是否满足训练完成条件，若是，则将初始图文匹配模型确定为目标图文匹配模型，有利于提高训练图文匹配模型的智能性和效率，进而有利于提高得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在一个可选的实施例中，如图4所示，该装置还包括：

特征掩盖模块305，用于在获取模块301获取用于图文匹配模型训练的训练数据集之后，在输入模块302针对每个文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个图像数据，将该图像数据输入至目标图像模型，得到图像编码向量之前，针对训练数据集中的每个文本数据，对该文本数据执行特征掩盖操作，得到特征掩盖文本数据；

以及，输入模块302针对每个文本数据，将该文本数据输入至目标文本模型，得到文本编码向量的方式具体包括：

针对每个特征掩盖文本数据，将该特征掩盖文本数据输入至目标文本模型，得到文本编码向量，其中，文本编码向量包括该特征掩盖文本数据的预测文本数据。

可见，实施图4所描述的装置能够在获取训练数据集后，针对训练数据集中的每个文本数据，对该文本数据执行特征掩盖操作，得到特征掩盖文本数据，并将该特征掩盖文本数据输入至目标文本模型中，得到文本编码向量，其中文本编码向量包括该特征掩盖文本数据的预测文本数据，这样能够对文本数据执行特征掩盖操作之后预测被掩盖的文本，能够提高训练图文匹配模型的智能性，以及能够提高训练图文匹配模型的效率，进而有利于提高得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在另一个可选的实施例中，如图4所示，输入模块302将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果的方式具体包括：

可见，实施图4所描述的装置能够针对每个初始训练用图文数据组，将该初始训练用图文数据组中所包括的文本编码向量以及图像编码向量执行拼接操作，得到初始图文输入数据组，针对每个初始图文输入数据组，将该初始图文输入数据组输入至初始图文匹配模型，得到初始图文数据组输出结果，根据所有初始图文数据组输出结果，确定初始训练数据输出结果，能够提高确定初始训练数据输出结果的准确性和可靠性，以及能够提高训练图文匹配模型的智能性，进而有利于提高训练得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在又一个可选的实施例中，如图4所示，确定模块303，还用于在针对每个文本编码向量，在所有图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组之后，在输入模块302将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果之前，从所有初始训练用图文数据组中确定出至少两个第一训练用图文数据组；

该装置还包括：

组合模块306，用于将所有第一训练用图文数据组中所包括的文本数据与图像数据重新组合，得到第二训练用图文数据组，每个第一训练用图文数据组中所包括的数据与每个第二训练用图文数据组中所包括的数据不均相同；

确定模块303，还用于将所有初始训练用图文数据组中除所有第一训练用图文数据组外的所有剩余训练用图文数据组以及所有第二训练用图文数据组确定为目标训练用图文数据组；

输入模块302将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果的方式具体包括：

可见，实施图4所描述的装置将第一训练用图文数据组中所包括的文本数据与图像数据重新组合，得到第二训练用图文数据组，并将所有初始训练用图文数据组中除所有第一训练用图文数据组外的所有剩余训练用图文数据组以及所有第二训练用图文数据组确定为目标训练用图文数据组，将所有目标训练用图文数据组输入至预先设定的初始图文匹配模型中，得到初始训练数据输出结果，能够通过重新组合后的第二训练用图文数据组对图文匹配模型进行训练，能够提高训练图文匹配模型的智能性，从而能够提高得到图文匹配模型的准确性和可靠性，进而有利于提高训练得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在又一个可选的实施例中，如图4所示，当初始损失信息包括文本重建损失信息、对比学习损失信息以及图文匹配损失信息时，确定模块303基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息的方式具体包括：

可见，实施图4所描述的装置针对确定每个文本编码向量的文本重建损失信息，并根据所有文本重建损失信息确定文本重建损失信息，并计算每个文本数据输出结果与每个图像数据输出结果之间的特征匹配参数，得到特征匹配参数，根据所有特征匹配参数确定对比学习损失信息，以及根据初始图文数据组输出结果以及所有初始训练用图文数据组确定图文匹配损失信息，并基于文本重建损失信息、对比学习损失信息以及图文匹配损失信息，确定初始图文匹配模型的初始损失信息，能够提高确定初始损失信息的准确性和可靠性，以及能够提高确定初始损失信息的智能性，进而有利于提高训练得到图文匹配模型的准确性和可靠性，进一步能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在又一个可选的实施例中，如图4所示，确定模块303根据初始图文数据组输出结果以及所有初始训练用图文数据组，确定初始图文匹配模型的图文匹配损失信息的方式具体包括：

可见，实施图4所描述的装置能够基于文本数据输出结果以及图像数据输出结果，确定出第一输出图文数据组和第二输出图文数据组，根据所有第一输出图文数据组、第二输出图文数据组以及所有初始训练用图文数据组，确定初始图文匹配模型的输出数据匹配度，根据输出数据匹配度以及图文匹配函数确定图文匹配损失信息，能够提高确定图文匹配损失信息的准确性和可靠性，从而能够提高确定初始损失信息的准确性和可靠性，进而有利于提高训练图文匹配模型的智能性和准确性，进一步的能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

在又一个可选的实施例中，如图4所示，确定模块303根据所有特征匹配参数确定初始图文匹配模型的对比学习损失信息的方式具体包括：

可见，实施图4所描述的装置能够确定每个文本数据输出结果与每个图像数据输出结果之间的匹配信息，并根据所有匹配信息以及预先确定出的对比学习损失函数确定初始图文匹配模型的对比学习损失信息，能够提高得到对比学习损失信息的准确性和可靠性，从而能够提高确定初始损失信息的准确性和可靠性，进而有利于提高训练图文匹配模型的智能性和准确性，进一步的能够有利于基于图文匹配模型实现图文互搜以及多模态数据分类。

实施例四

请参阅图5，图5是本发明实施例公开的又一种图文匹配模型的训练装置的结构示意图。如图5所示，该图文匹配模型的训练装置可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

处理器402调用存储器401中存储的可执行程序代码，执行本发明实施例一或本发明实施例二所描述的图文匹配模型的训练方法中的步骤。

实施例五

本发明实施例公开了一种计算机可存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一或本发明实施例二所描述的图文匹配模型的训练方法中的步骤。

实施例六

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的图文匹配模型的训练方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器（Read-Only Memory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（ErasableProgrammable Read Only Memory，EPROM）、一次可编程只读存储器（One-timeProgrammable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种图文匹配模型的训练方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种图文匹配模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图文匹配模型的训练方法，其特征在于，在获取用于图文匹配模型训练的训练数据集之后，在针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量之前，所述方法还包括：

3.根据权利要求2所述的图文匹配模型的训练方法，其特征在于，所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，包括：

4.根据权利要求3所述的图文匹配模型的训练方法，其特征在于，所述针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组之后，所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果之前，所述方法还包括：

5.根据权利要求4所述的图文匹配模型的训练方法，其特征在于，当所述初始损失信息包括所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息时，所述基于所述初始训练数据输出结果，确定所述初始图文匹配模型的初始损失信息，包括：

6.根据权利要求5所述的图文匹配模型的训练方法，其特征在于，所述根据所述初始图文数据组输出结果以及所有所述初始训练用图文数据组，确定所述初始图文匹配模型的图文匹配损失信息，包括：

7.根据权利要求6所述的图文匹配模型的训练方法，其特征在于，所述根据所有所述特征匹配参数确定所述初始图文匹配模型的对比学习损失信息，包括：

8.一种图文匹配模型的训练装置，其特征在于，所述装置包括：

9.一种图文匹配模型的训练装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的图文匹配模型的训练方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的图文匹配模型的训练方法。