CN116383428B

CN116383428B - 一种图文编码器训练方法、图文匹配方法及装置

Info

Publication number: CN116383428B
Application number: CN202310342377.4A
Authority: CN
Inventors: 杨馥魁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2024-04-05
Anticipated expiration: 2043-03-31
Also published as: CN116383428A

Abstract

本公开提供了一种图文编码器训练方法、图文匹配方法及装置，涉及人工智能技术领域，尤其涉及图像处理、文本识别技术领域。具体实现方案为：获取多组训练样本，其中每组训练样本中包括样本图片和样本文本，样本文本用于描述样本图片中的目标对象。针对每组训练样本，识别该组训练样本包括的样本图片中的目标对象，并生成用于描述目标对象在该样本图片中的位置的位置文本。之后基于多组训练样本和多组训练样本的位置文本，对文本编码器和图片编码器进行联合训练，其中文本编码器用于提取文本特征，图片编码器用于提取图片特征。从而提高了图文匹配的准确度。

Description

一种图文编码器训练方法、图文匹配方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及图像处理、文本识别技术领域。

背景技术

随着计算机视觉技术以及自然语言处理技术的发展，产生了用户对于图文匹配的需求。例如，用户需要在文章中***图片时，想要利用文章中的文本内容，查找与文本内容相关的图片。又例如，用户在查找书籍时，想要利用书籍封面图片查找书名。

发明内容

本公开提供了一种图文编码器训练方法、图文匹配方法及装置。

本公开实施例的第一方面，提供了一种图文编码器训练方法，包括：

获取多组训练样本，每组训练样本中包括样本图片和样本文本，所述样本文本用于描述所述样本图片中的目标对象；

针对每组训练样本，识别该组训练样本包括的样本图片中的目标对象，并生成用于描述所述目标对象在该样本图片中的位置的位置文本；

基于所述多组训练样本和所述多组训练样本的位置文本，对文本编码器和图片编码器进行联合训练，所述文本编码器用于提取文本特征，所述图片编码器用于提取图片特征。

本公开实施例的第二方面，提供了一种图文匹配方法，包括：

获取待匹配的图片和文本；

利用图片编码器对所述图片进行特征提取，得到图片特征，所述图片编码器通过第一方面中任一项所述的方法进行训练得到；

利用文本编码器对所述文本进行特征提取，得到文本特征，所述文本编码器通过第一方面中任一项所述的方法进行训练得到；

基于所述图片特征和所述文本特征，确定所述图片和所述文本之间的匹配结果。

本公开实施例的第三方面，提供了一种图文编码器训练装置，包括：

获取模块，用于获取多组训练样本，每组训练样本中包括样本图片和样本文本，所述样本文本用于描述所述样本图片中的目标对象；

生成模块，用于针对所述获取模块获取的每组训练样本，识别该组训练样本包括的样本图片中的目标对象，并生成用于描述所述目标对象在该样本图片中的位置的位置文本；

训练模块，用于基于所述多组训练样本和所述多组训练样本的位置文本，对文本编码器和图片编码器进行联合训练，所述文本编码器用于提取文本特征，所述图片编码器用于提取图片特征。

本公开实施例的第四方面，提供了一种图文匹配装置，包括：

获取模块，用于获取待匹配的图片和文本；

特征提取模块，用于利用图片编码器对所述图片进行特征提取，得到图片特征，所述图片编码器通过第一方面中任一项所述的方法进行训练得到；

所述特征提取模块，还用于利用文本编码器对所述文本进行特征提取，得到文本特征，所述文本编码器通过第一方面中任一项所述的方法进行训练得到；

匹配模块，用于基于所述特征提取模块提取的所述图片特征和所述文本特征，确定所述图片和所述文本之间的匹配结果。

本公开实施例的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。

本公开实施例的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面或第二方面中任一项所述的方法。

本公开实施例的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面或第二方面中任一项所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的第一种图文编码器训练方法的流程图；

图2是本公开实施例提供的一种样本图片的示例性示意图；

图3是本公开实施例提供的另一种样本图片的示例性示意图；

图4是本公开实施例提供的第二种图文编码器训练方法的流程图；

图5是本公开实施例提供的第三种图文编码器训练方法的流程图；

图6是本公开实施例提供的一种图文编码器训练过程的示例性示意图；

图7是本公开实施例提供的一种图文匹配方法的流程图；

图8是本公开实施例提供的一种图文编码器训练装置的结构示意图；

图9是本公开实施例提供的一种图文匹配装置的结构示意图；

图10是用来实现本公开实施例的图文编码器训练方法、图文匹配方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

常规的图文训练算法中，直接利用图文匹配模型，对图片和文本进行识别并匹配，并基于匹配结果进行训练。

为了提高图文匹配的准确度，本公开实施例提供了一种图文编码器训练方法，该方法应用于电子设备，例如电子设备可以是服务器、台式计算机或者笔记本电脑等具备图片和文本处理能力的设备。如图1所示，该方法包括如下步骤：

S101、获取多组训练样本。

其中，每组训练样本中包括样本图片和样本文本，样本文本用于描述样本图片中的目标对象。即每组训练样本中，样本图片和样本文本是相互匹配的。

例如，样本图片如图2所示，与其匹配的样本文本为：“一个小男孩正在踢足球。”需要说明的是，图2仅为本公开实施例提供的一种示例，实际应用中样本图片可以是实际拍摄的图片、视频中的截图、人工制作的图片或者自动生成的图片等，本公开实施例对此不作具体限定。

与样本图片匹配的样本文本，可以是人工标注的文本，或者样本图片对应的标题等，本公开实施例对此不作具体限定。

S102、针对每组训练样本，识别该组训练样本包括的样本图片中的目标对象，生成用于描述目标对象在该样本图片中的位置的位置文本。

可以通过指定的目标识别模型，识别样本图片中的目标对象。例如，识别目标对象所属的类型，以及目标对象在样本图片中的位置。其中，目标对象在样本图片中的位置，可以是目标对象的最小外接矩形在样本图片中的位置，或者目标对象的轮廓在样本图片中的位置等。每个目标对象所属的类型可以是人或物，例如儿童、猫、足球或树木等。目标识别模型能够识别的目标对象的类型，可以根据实际需求设置。

以图2为例，生成的位置文本可以为：“小男孩在图片左侧”和“足球在图片右侧”。具体生成位置文本的方式可参考下文描述。

S103、基于多组训练样本和多组训练样本的位置文本，对文本编码器和图片编码器进行联合训练。

其中，文本编码器用于提取文本特征，图片编码器用于提取图片特征。即，在训练完成后，针对待匹配的文本和图片，可以利用文本编码器提取文本特征，利用图片编码器提取图片特征，然后基于文本特征和图片特征，确定文本和图片是否匹配。

通过上述方法，本公开实施例能够生成描述目标对象在样本图片中的位置的位置文本，并以此训练文本编码器和图片编码器，使得文本编码器和图片编码器在训练过程中，能够对于目标对象在图片中的位置更敏感，从而更深刻地理解图片和文本的内容，提高编码器进行特征提取的准确度，以便后续基于训练完成的文本编码器和图片编码器能够更准确地进行图文匹配。

在本公开的一些实施例中，上述S102中针对每组训练样本中的样本图片，生成用于描述目标对象在该样本图片中的位置的位置文本的方式，包括以下步骤：

步骤一、将该样本图片划分为预设数量个子图片。

其中，各子图片之间没有交集，且各子图片的并集为该样本图片。

例如，参见图3，可以将样本图片划分为大小相同的9个子图片。

步骤二、对每个子图片依次编号。

可选的，可以按照从左到右、从上到下的顺序，将每个子图片依次编号为[0,1,2,…,k₁*k₂-1]，其中，k₁表示对样本图片划分的子图片的行数，k₂表示对样本图片划分的子图片的列数，k₁和k₂可以相等或不等。或者也可以按照其他顺序编号，本公开实施例对此不作具体限定。

例如，参见图3，按照从左到右、从上到下的顺序，将每个子图片依次编号为[0,1,2,3,4,5,6,7,8]。

步骤三、针对每个子图片，若目标对象在该子图片中所占比例大于预设比例，则基于描述目标对象的词以及该子图片的编号，生成位置文本。

可以针对每个子图片，将目标对象与该子图片的交集区域面积与该子图片面积的比值，作为该目标对象在该子图片中所占比例。在该比例大于预设比例时，将描述该目标对象的词以及该子图片的编号代入文本模板，得到位置文本。其中，预设比例可以根据实际需求设置，例如预设比例为50％。

例如，文本模板为there is a_in postion_；假设描述目标对象的词为cat，子图片的编号为one，将cat代入第一个“_”，将one代入第二个“_”，得到的位置文本为：there isa cat in postion one。或者，文本模板还可以是其他形式，本公开实施例对此不作具体限定。

如果一个子图片中，多个目标对象在该子图片中所占比例均大于预设比例，则可以选择所占比例最大的目标对象，并基于描述该目标对象的词以及该子图片的编号，生成位置文本。

通过上述方法，本公开实施例能够通过样本图片中目标对象的位置，自动生成位置文本，与人工标注的方式相比，本公开实施例能够提高生成位置文本的效率，进而提高编码器训练效率。

在本公开实施例中，参见图4，上述S103中基于多组训练样本和多组训练样本的位置文本，对文本编码器和图片编码器进行联合训练的方式，包括以下步骤：

S401、针对每组训练样本，利用文本编码器对该组训练样本包括的样本文本进行编码，得到样本文本特征。

其中，文本编码器可以是转换器(transformer)模型中的编码器(Encoder)。

为方便描述，将样本文本特征记为f_t。

S402、利用文本编码器对该组训练样本的位置文本进行编码，得到位置文本特征，并隐藏该组训练样本包括的样本图片中的关键区域，利用图片编码器对隐藏关键区域的样本图片进行编码，得到图片特征。

其中，关键区域为包括目标对象的区域。如果样本图片中包括一个目标对象，则可以将该目标对象占用的最大的区域作为关键区域，并隐藏。如果样本图片中包括多个目标对象，则可以随机选择一个目标对象，并将该目标对象占用的最大的区域作为关键区域，并隐藏。其中，样本图片中的每个区域对应为样本图片划分的一个子图片。

或者，还可以通过其他方式确定关键区域，本公开实施例对此不作具体限定。

其中，图片编码器可以是transformer模型中的Encoder，或者可以是卷积神经网络(Convolutional Neural Networks，CNN)中的特征提取网络等。

可选的，在隐藏关键区域时，可以将关键区域的像素值均设置为预设值。例如预设值为白色像素值。或者还可以通过其他方式隐藏关键区域，本公开实施例对此不作具体限定。

为方便描述，将图片特征记为f_v，将位置文本特征记为f_p。

S403、利用图片编码器对该组训练样本包括的样本图片进行编码，得到图片特征，并隐藏该组训练样本的位置文本中的关键词，利用文本编码器对隐藏关键词的位置文本进行编码，得到位置文本特征。

其中，关键词为描述目标对象的词或者描述目标对象在样本图片中的位置的词。

可选的，若样本图片的位置文本为一句，则可以随机选择隐藏描述目标对象的词或者描述目标对象在样本图片中的位置的词。例如，以图3为例，位置文本为“小男孩在区域0”，可以随机选择隐藏“小男孩”或者“0”。

若样本图片的位置文本为多句，则可以随机选择一句，并在该句中随机选择隐藏描述目标对象的词或者描述目标对象在样本图片中的位置的词。例如，位置文本为：“小男孩在区域0”和“足球在区域7”，假设选择“足球在区域7”，则可以随机选择隐藏“足球”或者“7”。

可选的，在隐藏关键词时，可以将位置文本中的关键词替换为预设词。例如预设词为“mask”。或者还可以通过其他方式隐藏关键词，本公开实施例对此不作具体限定。

针对每组训练样本可以从S402和S403之间随机选择一种隐藏并编码的方式。

S404、基于各组训练样本对应的样本文本特征、位置文本特征和图片特征，对文本编码器和图片编码器进行联合训练。

可以基于各组训练样本对应的样本文本特征、位置文本特征和图片特征计算损失值，并利用损失值对文本编码器和图片编码器的参数进行调整，直至文本编码器和图片编码器均收敛时，确定训练完成，具体方式可参考下文描述。

通过上述方法，本公开实施例可以对样本图片中的关键区域进行隐藏，并基于文本特征、位置文本特征和隐藏关键区域后的样本图片的图片特征，对文本编码器和图片编码器进行训练，使得图片编码器能够学习到对于相互匹配的样本文本和样本图片，样本文本特征以及位置文本特征，与图片特征之间的关系，从而使得图片编码器能够通过样本文本特征以及位置文本特征，推理图片中缺失的区域，从而对图片具有更深刻的理解，提高图片编码器提取图片特征的准确性。

同理，本公开实施例可以对位置文本中的关键词进行隐藏，并基于样本文本特征、图片特征和隐藏关键词后的位置文本的位置文本特征，对文本编码器和图片编码器进行训练，使得文本编码器能够学习到针对相互匹配的样本文本和样本图片，位置文本特征、样本文本特征与图片特征之间的关系，从而使得文本编码器能够通过图片特征，推理位置文本中缺失的关键词，从而对文本具有更深刻的理解，提高文本编码器提取文本特征的准确性。

在本公开的一些实施例中，参见图5，上述S404中的编码器训练方式，可以包括如下步骤：

S501、针对每组训练样本，将该组训练样本对应的样本文本特征和位置文本特征进行合并，得到合并文本特征，并确定合并文本特征和该组训练样本对应的图片特征之间的相似度。

为方便描述，将合并文本特征记为f_c＝[f_t,f_p]。

S502、基于相似度，确定该组训练样本的对齐损失值。

每组训练样本的对齐损失值可以通过公式(1)确定：

其中，loss1为对齐损失值，f_v为图片特征，f_c为合并文本特征，f_v*f_c⁺表示一组训练样本对应的图片特征与合并文本特征的乘积，该乘积可以表示合并文本特征和图片特征之间的相似度。f_v*f_c表示本轮训练针对的每个图片特征与每个合并文本特征的乘积，exp表示以e为底的指数函数。

可以理解的，一组训练样本对应的合并文本特征和图片特征的乘积，既能够体现合并文本特征和图片特征之间的相似度，又能够体现该组训练样本中的样本图片与样本文本之间的相似度。因此，训练样本对应的合并文本特征和图片特征的乘积越大，即公式(1)的分子越大，相互匹配的样本文本与样本图片各自对应的特征之间的相似度越高，说明文本编码器和图片编码器的特征提取准确度越高，因此loss1越小。

S503、对该组训练样本对应的位置文本特征进行重建，得到重建文本，并确定重建文本和该组训练样本的位置文本之间的文本重建损失值。

可以利用文本解码器对该组训练样本对应的位置文本特征进行解码，得到重建文本。其中，文本解码器可以是transformer模型中的解码器(decoder)。

本公开实施例中，文本编码器能够基于隐藏关键词的位置文本，预测完整的位置文本的位置文本特征；文本解码器能够对文本编码器预测的位置文本特征进行解码，得到完整的位置文本，因此文本解码器的预测准确度，受到文本编码器的预测准确度的影响。

因此通过文本解码器对位置文本特征进行解码，从而预测隐藏的关键词，以便后续可以通过对比预测的重建文本和隐藏前的位置文本之间的相似性，从而得到文本解码器对位置文本特征进行解码的准确度，以及文本编码器进行文本特征提取的准确度。

本公开实施例中，重建文本可以是预测的关键词，或者重建文本可以是预测的隐藏前完整的位置文本。

以重建文本为预测的关键词为例，可以通过公式(2)计算文本重建损失值：

loss2＝classify(decoder(f_p),word) (2)

其中，loss2为文本重建损失值，decoder(f_p)为预测的关键词，word为实际隐藏的关键词，classify表示decoder(f_p)和word不属于同一类型的概率。

除了利用classify计算loss2之外，还可以通过其他算法计算loss2，本公开实施例对此不作具体限定。

当重建文本为预测的隐藏前完整的位置文本时，可以基于预测的重建文本与隐藏关键词前的位置文本之间的文本重建损失值。

可以理解的，对于每组训练样本而言，通过图4的方式进行隐藏并编码时，可能对样本图片进行关键区域隐藏，且不隐藏位置文本，此时文本编码器对完整的位置文本进行编码，得到位置文本特征，相应的文本解码器基于该位置文本特征还原完整的位置文本。在这种情况下，重建文本和位置文本相似度较高，使得计算的文本重建损失值较小，因此训练时对编码器的编码准确度的影响较小，可以不对这种文本重建损失值进行额外地处理，即不考虑这种情况对于训练的影响。另一方面，如果隐藏时，选择隐藏位置文本中的关键词，则文本重建损失值能够体现文本编解码器的预测准确度，因此利用文本重建损失值进行训练，能够提高文本编解码器的预测准确度。

S504、对该组训练样本对应的图片特征进行重建，得到重建图片，并确定重建图片与该组训练样本包括的样本图片之间的图片重建损失值。

可以利用图片解码器对该组训练样本对应的图片特征进行解码，得到重建图片。其中，图片解码器可以是transformer模型中的decoder，或者可以CNN中的重建网络。

图片编码器能够基于隐藏关键区域的样本图片，预测完整的样本图片的图片特征；图片解码器能够对图片编码器预测的图片特征进行解码，得到完整的样本图片，因此图片解码器的预测准确度，受到图片编码器的预测准确度的影响。

因此通过图片解码器对图片特征进行解码，从而预测隐藏的关键区域，以便后续可以通过对比预测的重建图片和隐藏前的样本图片之间的相似性，从而得到图片解码器对图片特征进行解码的准确度，以及图片编码器进行图片特征提取的准确度。

本公开实施例中，重建图片可以是预测的关键区域，或者重建图片可以是预测的隐藏前完整的样本图片。

以重建图片为预测的隐藏前完整的样本图片为例，可以通过公式(3)确定图片重建损失值：

loss3＝L2(decoder(f_v),img) (3)

其中，loss3为图片重建损失值，decoder(f_v)为预测的隐藏前的样本图片，img为隐藏前实际的样本图片，L2为平均平方误差(mean square error，MSE)。

利用L2计算loss3，即计算重建图片和样本图片中，每个相同位置的像素点的像素值之间的差值的平方和。除了利用L2计算loss3之外，还可以利用其他算法计算loss3，例如利用L1，即平均绝对误差(mean abs error，MAE)，本公开实施例对此不作具体限定。

当重建图片为预测的关键区域时，可以基于预测的关键区域和实际隐藏的关键区域之间的图片重建损失值。

可以理解的，对于每组训练样本而言，通过图4的方式进行隐藏并编码时，可能对位置文本进行关键词隐藏，且不隐藏样本图片，此时图片编码器对完整的样本图片进行编码，得到图片特征，相应的图片解码器基于该图片特征还原完整的样本图片。在这种情况下，重建图片和样本图片相似度较高，使得计算的图片重建损失值较小，因此对编码器的编码准确度的影响较小，可以不对这种图片重建损失值进行额外地处理，即不考虑这种情况对于训练的影响。另一方面，如果隐藏时，隐藏样本图片中的关键区域，则图片重建损失值能够体现图片编解码器的预测准确度，因此利用图片重建损失值进行训练，能够提高图片编解码器的预测准确度。

S505、基于各组训练样本的对齐损失值、文本重建损失值和图片重建损失值，对文本编码器和图片编码器进行联合训练。

由于对齐损失值越小，每组训练样本对应的图片特征和合并文本特征之间的相似性越高，说明文本编码器和图片编码器提取的特征越准确；文本重建损失值越小，重建文本与位置文本之间的误差越小，说明文本编码器提取的特征越准确；图片重建损失越小，重建图片与样本图片之间的误差越小，说明图片编码器提取的特征越准确。因此可以通过这三种损失值，对文本编码器和图片编码器进行训练，从而提高编码器进行特征提取的准确度。

在本公开的一些实施例中，上述S505的编码器训练方法可以包括如下步骤：

步骤1、对各组训练样本的对齐损失值、文本重建损失值和图片重建损失值求和，得到总损失值。

为方便描述，将总损失值记为LOSS＝L1+L2+L3。其中，L1表示各对齐损失值的总和，L2表示各文本重建损失值的总和，L3表示各图片重建损失值的总和。L1、L2和L3均为一个数值。

步骤2、利用总损失值，调整图片解码器和图片编码器的参数。

可以采用反向传播的方式，即按照从图片解码器的最后一个网络层到第一个网络层，再从图片编码器的最后一个网络层到第一个网络层的顺序，对图片解码器和图片编码器中各网络层的参数进行调整。

步骤3、利用总损失值，调整文本解码器和文本编码器的参数。

可以采用反向传播的方式，即按照从文本解码器的最后一个网络层到第一个网络层，再从文本编码器的最后一个网络层到第一个网络层的顺序，对文本解码器和文本编码器中各网络层的参数进行调整。

步骤4、若文本编码器和图片编码器均收敛，则确定训练完成，否则进行下一轮训练。

可选的，可以在训练次数达到预设次数，或者本次计算的总损失值小于预设值，或者本次计算的总损失值与上次计算的总损失值之间的差值小于预设差值时，确定文本编码器和图片编码器均收敛。或者还可以通过其他方式判断文本编码器和图片编码器是否收敛，本公开实施例对此不作具体限定。

通过上述方法，本公开实施例可以利用三种损失值，对文本编解码器和图片编解码器进行联合训练，从而提高图片编码器和文本编码器的特征提取准确度，以及提高图片解码器和文本解码器的重建准确度。

参见图6，以下结合实际应用场景，对本公开实施例提供的图文编码器训练的整体流程进行说明：

获取多组训练样本，每组训练样本包括样本文本和样本图片。利用文本编码器对每组训练样本包括的样本文本进行编码，得到样本文本特征。

针对每组训练样本，对该组训练样本包括的样本图片进行位置编码，即，将该样本图片划分为多个子图片，并对每个子图片依次编号。针对每个子图片，若目标对象在该子图片中所占比例大于预设比例，则基于描述目标对象的词以及该子图片的编号，生成位置文本。

利用文本编码器对该组训练样本的位置文本进行编码，得到位置文本特征，并隐藏该组训练样本包括的样本图片中的关键区域，利用图片编码器对隐藏关键区域的样本图片进行编码，得到图片特征；或者，利用图片编码器对该组训练样本包括的样本图片进行编码，得到图片特征，并隐藏该组训练样本的位置文本中的关键词，利用文本编码器对隐藏关键词的位置文本进行编码，得到位置文本特征。

利用文本解码器对该组训练样本的位置文本特征进行解码，得到重建文本；确定重建文本和该组训练样本的位置文本之间的文本重建损失值。

利用图片解码器对该组训练样本的图片特征进行解码，得到重建图片，确定重建图片与该组训练样本的样本图片之间的图片重建损失值。

基于该组训练样本对应的样本文本特征、位置文本特征和图片特征，确定该组训练样本的对齐损失值。

基于各组训练样本的对齐损失值、文本重建损失值和图片重建损失值，对文本编码器和图片编码器进行联合训练。

图6中各步骤的具体实现方式可参考上文描述，此处不再赘述。

基于相同的发明构思，本公开实施例还提供了一种图文匹配方法，该方法应用于电子设备，例如电子设备可以是服务器、台式计算机或者笔记本电脑等具备图片和文本处理能力的设备。而且，上述图文编码器训练方法应用的电子设备，与图文匹配方法应用的电子设备，可以是相同的设备或者不同的设备。如图7所示，本公开实施例提供的图文匹配方法包括如下步骤：

S701、获取待匹配的图片和文本。

在以图搜文的场景下，待匹配的图片可以是用户上传的图片或者用户选择的图片等，待匹配的文本可以是检索库中的每个文本。

在以文搜图的场景下，待匹配的文本可以是用户上传的文本或者用户选择的文本等，待匹配的图片可以是检索库中的每张图片。

S702、利用图片编码器对图片进行特征提取，得到图片特征。

其中，图片编码器通过上述图文编码器训练方法进行训练得到。

如果待匹配的图片存在多张，则可以将每张图片分别输入图片编码器，得到图片编码器输出的每张图片的图片特征。

S703、利用文本编码器对文本进行特征提取，得到文本特征。

其中，文本编码器通过上述图文编码器训练方法进行训练得到。

如果待匹配的文本存在多个，则可以将每个文本分别输入文本编码器，得到文本编码器输出的每个文本的文本特征。

S704、基于图片特征和文本特征，确定图片和文本之间的匹配结果。

可以利用预设的相似度算法，计算图片特征和文本特征之间的相似度，若计算的相似度小于预设相似度，则确定待匹配的图片与文本不匹配。反之，若计算的相似度大于或等于预设相似度，则确定待匹配的图片与文本匹配。

其中，预设的相似度算法可以是余弦相似度，或者还可以是其他算法，本公开实施例对此不作具体限定。

预设相似度可以根据实际需求设置。例如，在相似度取值范围为[0,1]的情况下，预设相似度为0.8。

通过上述方法，本公开实施例可以通过对于目标对象在图片中的位置更敏感的图片编码器和文本编码器，进行图文匹配，从而提高了图文匹配的准确度。

在以图搜文的场景下，确定待匹配的图片与每个文本的匹配结果之后，还可以从与图片匹配的各文本中，按照相似度从高到低的顺序，选择N个文本反馈给用户。

在以文搜图的场景下，确定待匹配的文本与每张图片的匹配结果之后，还可以从与文本匹配的各图片中，按照相似度从高到低的顺序，选择M张图片反馈给用户。

本公开的技术方案中，所涉及的文本和图片的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

基于相同的发明构思，本公开实施例还提供了一种图文编码器训练装置，如图8所示，该装置包括：获取模块801、生成模块802和训练模块803；

获取模块801，用于获取多组训练样本，每组训练样本中包括样本图片和样本文本，样本文本用于描述样本图片中的目标对象；

生成模块802，用于针对获取模块801获取的每组训练样本，识别该组训练样本包括的样本图片中的目标对象，并生成用于描述目标对象在该样本图片中的位置的位置文本；

训练模块803，用于基于多组训练样本和多组训练样本的位置文本，对文本编码器和图片编码器进行联合训练，文本编码器用于提取文本特征，图片编码器用于提取图片特征。

在本公开的一些实施例中，其中，训练模块803，具体用于：

针对每组训练样本，利用文本编码器对该组训练样本包括的样本文本进行编码，得到样本文本特征；

利用文本编码器对该组训练样本的位置文本进行编码，得到位置文本特征，并隐藏该组训练样本包括的样本图片中的关键区域，利用图片编码器对隐藏关键区域的样本图片进行编码，得到图片特征；或者，利用图片编码器对该组训练样本包括的样本图片进行编码，得到图片特征，并隐藏该组训练样本的位置文本中的关键词，利用文本编码器对隐藏关键词的位置文本进行编码，得到位置文本特征；其中，关键区域为包括目标对象的区域，关键词为描述目标对象的词或者描述目标对象在样本图片中的位置的词；

基于各组训练样本对应的样本文本特征、位置文本特征和图片特征，对文本编码器和图片编码器进行联合训练。

在本公开的一些实施例中，其中，训练模块803，具体用于：

针对每组训练样本，将该组训练样本对应的样本文本特征和位置文本特征进行合并，得到合并文本特征，并确定合并文本特征和该组训练样本对应的图片特征之间的相似度；

基于相似度，确定该组训练样本的对齐损失值；

对该组训练样本对应的位置文本特征进行重建，得到重建文本，并确定重建文本和该组训练样本的位置文本之间的文本重建损失值；

对该组训练样本对应的图片特征进行重建，得到重建图片，并确定重建图片与该组训练样本包括的样本图片之间的图片重建损失值；

在本公开的一些实施例中，其中，训练模块803，具体用于：

利用文本解码器对该组训练样本对应的位置文本特征进行解码，得到重建文本；

训练模块803，具体用于：

利用图片解码器对该组训练样本对应的图片特征进行解码，得到重建图片。

在本公开的一些实施例中，其中，训练模块803，具体用于：

对各组训练样本的对齐损失值、文本重建损失值和图片重建损失值求和，得到总损失值；

利用总损失值，调整图片解码器和图片编码器的参数；

利用总损失值，调整文本解码器和文本编码器的参数；

若文本编码器和图片编码器均收敛，则确定训练完成，否则进行下一轮训练。

在本公开的一些实施例中，其中，生成模块802，具体用于：

将该样本图片划分为预设数量个子图片；其中，各子图片之间没有交集，且各子图片的并集为该样本图片；

对每个子图片依次编号；

针对每个子图片，若目标对象在该子图片中所占比例大于预设比例，则基于描述目标对象的词以及该子图片的编号，生成位置文本。

基于相同的发明构思，本公开实施例还提供了一种图文匹配装置，如图9所示，该装置包括：获取模块901、特征提取模块902和匹配模块903；

获取模块901，用于获取待匹配的图片和文本；

特征提取模块902，用于利用图片编码器对图片进行特征提取，得到图片特征，图片编码器通过上述图文编码器训练方法进行训练得到；

特征提取模块902，还用于利用文本编码器对文本进行特征提取，得到文本特征，文本编码器通过上述图文编码器训练方法进行训练得到；

匹配模块903，用于基于特征提取模块902提取的图片特征和文本特征，确定图片和文本之间的匹配结果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如图文编码器训练方法、图文匹配方法。例如，在一些实施例中，图文编码器训练方法、图文匹配方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的图文编码器训练方法、图文匹配方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图文编码器训练方法、图文匹配方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图文编码器训练方法，包括：

获取多组训练样本，每组训练样本中包括样本图片和样本文本，所述样本文本用于描述所述样本图片中的目标对象，所述目标对象所属的类型包括人或物；

基于所述多组训练样本和所述多组训练样本的位置文本，对文本编码器和图片编码器进行联合训练，所述文本编码器用于提取文本特征，所述图片编码器用于提取图片特征；

所述基于所述多组训练样本和所述多组训练样本的位置文本，对文本编码器和图片编码器进行联合训练，包括：

针对每组训练样本，利用所述文本编码器对该组训练样本包括的样本文本进行编码，得到样本文本特征；

利用所述文本编码器对该组训练样本的位置文本进行编码，得到位置文本特征，并隐藏该组训练样本包括的样本图片中的关键区域，利用所述图片编码器对隐藏关键区域的样本图片进行编码，得到图片特征；或者，利用所述图片编码器对该组训练样本包括的样本图片进行编码，得到图片特征，并隐藏该组训练样本的位置文本中的关键词，利用所述文本编码器对隐藏关键词的位置文本进行编码，得到位置文本特征；其中，所述关键区域为包括目标对象的区域，所述关键词为描述目标对象的词或者描述目标对象在样本图片中的位置的词；

基于各组训练样本对应的样本文本特征、位置文本特征和图片特征，对所述文本编码器和所述图片编码器进行联合训练。

2.根据权利要求1所述的方法，其中，所述基于各组训练样本对应的样本文本特征、位置文本特征和图片特征，对所述文本编码器和所述图片编码器进行联合训练，包括：

针对每组训练样本，将该组训练样本对应的样本文本特征和位置文本特征进行合并，得到合并文本特征，并确定所述合并文本特征和该组训练样本对应的图片特征之间的相似度；

基于所述相似度，确定该组训练样本的对齐损失值；

对该组训练样本对应的位置文本特征进行重建，得到重建文本，并确定所述重建文本和该组训练样本的位置文本之间的文本重建损失值；

对该组训练样本对应的图片特征进行重建，得到重建图片，并确定所述重建图片与该组训练样本包括的样本图片之间的图片重建损失值；

基于各组训练样本的对齐损失值、文本重建损失值和图片重建损失值，对所述文本编码器和所述图片编码器进行联合训练。

3.根据权利要求2所述的方法，其中，所述对该组训练样本对应的位置文本特征进行重建，得到重建文本，包括：

所述对该组训练样本对应的图片特征进行重建，得到重建图片，包括：

4.根据权利要求3所述的方法，其中，所述基于各组训练样本的对齐损失值、文本重建损失值和图片重建损失值，对所述文本编码器和所述图片编码器进行联合训练，包括：

利用所述总损失值，调整所述图片解码器和所述图片编码器的参数；

利用所述总损失值，调整所述文本解码器和所述文本编码器的参数；

若所述文本编码器和所述图片编码器均收敛，则确定训练完成，否则进行下一轮训练。

5.根据权利要求1-4任一项所述的方法，其中，所述生成用于描述所述目标对象在该样本图片中的位置的位置文本，包括：

对每个子图片依次编号；

针对每个子图片，若所述目标对象在该子图片中所占比例大于预设比例，则基于描述所述目标对象的词以及该子图片的编号，生成所述位置文本。

6.一种图文匹配方法，包括：

获取待匹配的图片和文本；

利用图片编码器对所述图片进行特征提取，得到图片特征，所述图片编码器通过权利要求1-5中任一项所述的方法进行训练得到；

利用文本编码器对所述文本进行特征提取，得到文本特征，所述文本编码器通过权利要求1-5中任一项所述的方法进行训练得到；

7.一种图文编码器训练装置，包括：

获取模块，用于获取多组训练样本，每组训练样本中包括样本图片和样本文本，所述样本文本用于描述所述样本图片中的目标对象，所述目标对象所属的类型包括人或物；

训练模块，用于基于所述多组训练样本和所述多组训练样本的位置文本，对文本编码器和图片编码器进行联合训练，所述文本编码器用于提取文本特征，所述图片编码器用于提取图片特征；

所述训练模块，具体用于：

8.根据权利要求7所述的装置，其中，所述训练模块，具体用于：

基于所述相似度，确定该组训练样本的对齐损失值；

9.根据权利要求8所述的装置，其中，所述训练模块，具体用于：

所述训练模块，具体用于：

10.根据权利要求9所述的装置，其中，所述训练模块，具体用于：

11.根据权利要求7-10任一项所述的装置，其中，所述生成模块，具体用于：

对每个子图片依次编号；

12.一种图文匹配装置，包括：

获取模块，用于获取待匹配的图片和文本；

特征提取模块，用于利用图片编码器对所述图片进行特征提取，得到图片特征，所述图片编码器通过权利要求1-5中任一项所述的方法进行训练得到；

所述特征提取模块，还用于利用文本编码器对所述文本进行特征提取，得到文本特征，所述文本编码器通过权利要求1-5中任一项所述的方法进行训练得到；

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5或6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5或6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5或6中任一项所述的方法。