CN108228686B

CN108228686B - 用于实现图文匹配的方法、装置和电子设备

Info

Publication number: CN108228686B
Application number: CN201710453664.7A
Authority: CN
Inventors: 李爽; 肖桐; 李鸿升; 杨巍; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2021-03-23
Anticipated expiration: 2037-06-15
Also published as: CN108228686A

Abstract

本发明实施例公开了一种用于实现图文匹配的方法、装置、电子设备以及计算机可读介质，其中，用于实现图文匹配的方法主要包括：获取一组图像和文本；利用第一卷积神经网络获取所述图像的图像特征，并利用第一递归神经网络获取所述文本中的各词语特征；针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值；根据所述语义注意力值，计算所述图像和所述文本的匹配程度。本发明实施例在一定程度上提高了图文匹配的准确性。

Description

用于实现图文匹配的方法、装置和电子设备

技术领域

本发明涉及计算机视觉技术，尤其是一种用于实现图文匹配的方法、介质、用于实现图文匹配的装置以及电子设备。

背景技术

图文匹配技术可以根据图像特征以及文本特征而识别出相互匹配的图像和文本。图文匹配技术由于其可以广泛应用于视觉问答以及图像字幕生成等领域，从而已经成为计算机视觉技术领域中的一项重要技术。

现有的图文匹配技术通常包括：利用卷积神经网络提取输入图像的图像特征，并计算输入图像的图像特征与所有文本的文本特征之间的相关性，利用递归神经网络提取输入文本的文本特征，并计算输入文本的文本特征与所有图像的图像特征之间的相关性；例如，计算文本特征与图像特征之间的欧式距离或者马式距离或者向量内积等，从而获得两者的相关性；然后，根据计算获得的相关性判断与输入图像匹配的文本以及与输入文本匹配的图像。

发明内容

本发明实施方式提供一种用于图文匹配的技术方案。

根据本发明实施方式的一个方面，提供了一种用于实现图文匹配的方法，包括：获取一组图像和文本；利用第一卷积神经网络获取所述图像的图像特征，并利用第一递归神经网络获取所述文本中的各词语特征；针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值；根据所述语义注意力值，计算所述图像和所述文本的匹配程度。

在本发明一个实施方式中，所述获取一组图像和文本的步骤包括：获取输入图像，并从文本集合中选取任意一文本，将所述输入图像和所述选取的文本作为所述一组图像和文本；或者，获取输入文本，并从图像集合中选取任意一图像，将所述输入图像和所述选取的图像作为所述一组图像和文本；其中，所述文本集合为对文本库中的文本进行筛选过滤，由筛选过滤后获得的多个文本所形成的文本集合，且所述图像集合为对图像库中的图像进行筛选过滤，由筛选过滤后获得的多个图像所形成的图像集合。

在本发明又一个实施方式中，所述对文本库中的文本进行筛选过滤的步骤包括：利用第二卷积神经网络获取所述输入图像的图像特征，并利用第二递归神经网络获取文本库中的各文本的文本特征；计算所述输入图像的图像特征与各文本的文本特征的相关性；根据所述相关性的排序从所述各文本中选择多个文本，且所述选择出的多个文本作为所述文本集合。

在本发明再一个实施方式中，所述对图像库中的图像进行筛选过滤的步骤包括：利用第二递归神经网络获取所述输入文本的文本特征，并利用第二卷积神经网络获取图像库中的各图像的图像特征；计算所述输入文本的文本特征与各图像的图像特征的相关性；根据所述相关性的排序从所述各图像中选择多个图像，且所述选择出的多个图像形成所述图像集合。

在本发明再一个实施方式中，所述方法还包括：利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的步骤。

在本发明再一个实施方式中，所述训练的步骤包括：利用第二卷积神经网络获取带有个体标识的图像样本的图像特征，并利用第二递归神经网络获取带有个体标识的文本样本的文本特征；计算所述图像样本的图像特征与文本特征集合中的各文本样本的文本特征的第一匹配度，并计算所述文本样本的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度；根据所述第一匹配度和第二匹配度的交叉熵损失函数更新所述第二卷积神经网络和第二递归神经网络的参数。

在本发明再一个实施方式中，所述图像特征集合中，具有相同个体标识的不同图像样本的图像特征共享该个体标识的图像特征存储空间；和/或，所述文本特征集合中，具有相同个体标识的不同文本样本的文本特征共享该个体标识的图像特征存储空间。

在本发明再一个实施方式中，所述方法还包括：在确定出所述图像特征集合中未包含有所述带有个体标识的图像样本的图像特征时，将所述带有个体标识的图像样本的图像特征添加在所述图像特征集合中；在确定出所述文本特征集合中未包含有所述带有个体标识的文本样本的文本特征时，将所述带有个体标识的文本样本的文本特征添加在所述文本特征集合中。

在本发明再一个实施方式中，所述方法还包括：将训练后的第二卷积神经网络作为初始化的第一卷积神经网络；将训练后的第二递归神经网络作为初始化的第一递归神经网络。

在本发明再一个实施方式中，所述利用第一递归神经网络获取所述文本中的各词语特征的步骤包括：获取所述文本中各词语的独热向量；将所述各词语的独热向量输入全连接层进行编码；将各词语对应的编码依次输入第一递归神经网络，并根据第一递归神经网络的输出获得各词语特征。

在本发明再一个实施方式中，所述方法在针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的步骤之前还包括：对图像特征进行修正，得到修正图像特征；且所述针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的步骤包括：针对所述修正图像特征和所述各词语特征进行语义注意力处理，得到所述语义注意力值。

在本发明再一个实施方式中，所述对图像特征进行修正的步骤包括：根据图像中各区域的图像特征与所述各词语特征，获取空间注意力值；根据所述空间注意力值，在所述各区域中选择目标区域；获取所述目标区域对应的图像特征，作为所述修正图像特征。

在本发明再一个实施方式中，所述图像中各区域的大小相同，且每一个图像区域所包括的图像特征的数量相同。

在本发明再一个实施方式中，所述根据图像中各区域的图像特征与所述各词语特征，获取空间注意力值的步骤包括：利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度，并对各亲密度分别进行归一化处理；根据所述归一化处理后的各亲密度以及各区域的图像特征计算所述图像针对各词语的图像特征。

在本发明再一个实施方式中，所述针对所述图像特征和所述各词语特征进行语义注意力处理的步骤包括：将所述图像针对各词语的图像特征与相应词语的特征分别级联，并分别输入语义注意力模型，由所述语义注意力模型计算每一个词语在不同概念上对所述图像的贡献。

在本发明再一个实施方式中，所述根据所述语义注意力处理的结果计算所述图像和所述文本的匹配程度的步骤包括：根据所述每一个词语在不同概念上对所述图像的贡献以及所述级联确定所述针对各词语的图像特征在不同概念上的贡献；利用递归神经网络对所述针对各词语的图像特征在不同概念上的贡献进行解码处理；利用全连接层和二值分类器对所述解码处理后的信息确定所述图像和文本的匹配程度。

根据本发明实施方式的另一个方面，提供了一种用于实现图文匹配的装置，且该装置包括：获取图文模块，用于获取一组图像和文本；第一获取特征模块，用于利用第一卷积神经网络获取所述图像的图像特征；第二获取特征模块，用于利用第一递归神经网络获取所述文本中的各词语特征；处理模块，用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值；判断模块，用于根据所述语义注意力值，计算所述图像和所述文本的匹配程度。

根据本发明实施例的再一个方面，提供了一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，下述指令被运行：用于获取一组图像和文本的指令；用于利用第一卷积神经网络获取所述图像的图像特征的指令；用于利用第一递归神经网络获取所述文本中的各词语特征的指令；用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的指令；用于根据所述语义注意力值，计算所述图像和文本的匹配程度的指令。

在本发明一个实施方式中，所述用于获取一组图像和文本的指令包括：用于获取输入图像，并从文本集合中选取任意一文本，将所述输入图像和所述选取的文本作为所述一组图像和文本的指令；或者，用于获取输入文本，并从图像集合中选取任意一图像，将所述输入图像和所述选取的图像作为所述一组图像和文本的指令；其中，所述文本集合为对文本库中的文本进行筛选过滤，由筛选过滤后获得的多个文本所形成的文本集合，且所述图像集合为对图像库中的图像进行筛选过滤，由筛选过滤后获得的多个图像所形成的图像集合。

在本发明又一个实施方式中，所述设备还包括：用于对文本库中的文本进行筛选过滤的指令，且该指令具体包括：用于利用第二卷积神经网络获取所述输入图像的图像特征的指令；用于利用第二递归神经网络获取文本库中的各文本的文本特征的指令；用于计算所述输入图像的图像特征与各文本的文本特征的相关性的指令；用于根据所述相关性的排序从所述各文本中选择多个文本，且所述选择出的多个文本作为所述文本集合的指令。

在本发明再一个实施方式中，所述设备还包括：用于对图像库中的图像进行筛选过滤的指令，且该指令具体包括：用于利用第二递归神经网络获取所述输入文本的文本特征的指令；用于利用第二卷积神经网络获取图像库中的各图像的图像特征的指令；用于计算所述输入文本的文本特征与各图像的图像特征的相关性的指令；用于根据所述相关性的排序从所述各图像中选择多个图像，且所述选择出的多个图像形成所述图像集合的指令。

在本发明再一个实施方式中，所述设备还包括：用于利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的指令。

在本发明再一个实施方式中，所述用于利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的指令包括：用于利用第二卷积神经网络获取带有个体标识的图像样本的图像特征的指令；用于利用第二递归神经网络获取带有个体标识的文本样本的文本特征的指令；用于计算所述图像样本的图像特征与文本特征集合中的各文本样本的文本特征的第一匹配度的指令；用于计算所述文本样本的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度的指令；用于根据所述第一匹配度和第二匹配度的交叉熵损失函数更新所述第二卷积神经网络和第二递归神经网络的参数的指令。

在本发明再一个实施方式中，所述设备还包括：用于在确定出所述图像特征集合中未包含有所述带有个体标识的图像样本的图像特征时，将所述带有个体标识的图像样本的图像特征添加在所述图像特征集合中的指令；用于在确定出所述文本特征集合中未包含有所述带有个体标识的文本样本的文本特征时，将所述带有个体标识的文本样本的文本特征添加在所述文本特征集合中的指令。

在本发明再一个实施方式中，所述设备还包括：用于将训练后的第二卷积神经网络作为初始化的第一卷积神经网络的指令；用于将训练后的第二递归神经网络作为初始化的第一递归神经网络的指令。

在本发明再一个实施方式中，所述用于利用第一递归神经网络获取所述文本中的各词语特征的指令包括：用于获取所述文本中各词语的独热向量的指令；用于将所述各词语的独热向量输入全连接层进行编码的指令；用于将各词语对应的编码依次输入第一递归神经网络，并根据第一递归神经网络的输出获得各词语特征的指令。

在本发明再一个实施方式中，所述设备在用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的指令之前还包括：用于对图像特征进行修正，得到修正图像特征的指令；且所述用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的指令具体为：用于针对所述修正图像特征和所述各词语特征进行语义注意力处理，得到所述语义注意力值的指令。

在本发明再一个实施方式中，所述用于对图像特征进行修正，得到修正图像特征的指令包括：用于根据图像中各区域的图像特征与所述各词语特征，获取空间注意力值的指令；用于根据所述空间注意力值，在所述各区域中选择目标区域的指令；用于获取所述目标区域对应的图像特征，作为所述修正图像特征的指令。

在本发明再一个实施方式中，所述用于根据图像中各区域的图像特征与所述各词语特征，获取空间注意力值的指令包括：用于利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度，并对各亲密度分别进行归一化处理的指令；用于根据所述归一化处理后的各亲密度以及各区域的图像特征计算所述图像针对各词语的图像特征的指令。

在本发明再一个实施方式中，所述用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到所述语义注意力值的指令包括：用于将所述图像针对各词语的图像特征与相应词语的特征分别级联，并分别输入语义注意力模型的指令，由所述语义注意力模型计算在每一个词语在不同概念上对所述图像的贡献。

在本发明再一个实施方式中，所述用于根据所述语义注意力处理的结果计算所述图像和所述文本的匹配程度的指令包括：用于根据所述每一个词语在不同概念上对所述图像的贡献以及所述级联确定所述针对各词语的图像特征在不同概念上的贡献的指令；用于利用递归神经网络对所述针对各词语的图像特征在不同概念上的贡献进行解码处理的指令；用于利用全连接层和二值分类器对所述解码处理后的信息确定所述图像和文本的匹配程度的指令。

根据本发明实施例的再一个方面，提供的一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行本发明方法实施方式中的各个步骤，例如，获取一组图像和文本；利用第一卷积神经网络获取所述图像的图像特征，并利用第一递归神经网络获取所述文本中的各词语特征；针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值；根据所述语义注意力值，计算所述图像和所述文本的匹配程度。

基于本发明上述实施例提供的用于实现图文匹配的方法、用于实现图文匹配的装置、电子设备以及计算机存储介质，本发明实施方式通过在图文匹配过程中引入语义注意力，并基于图像中的各区域的图像特征和文本中的各词语特征进行语义注意力处理，可以使图像中的各区域与文本中的各词语更准确的关联在一起，从而可以在一定程度上避免仅针对图像的图像特征与文本的文本特征的整体相关性进行考虑而导致的图文误匹配的现象；由此可知，本发明实施方式提供的技术方案能够提高图文匹配的准确性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明方法一个实施例的流程图；

图2为本发明实施方式的对第二卷积神经网络和第二递归神经网络进行训练的一个具体例子的示意图；

图3为本发明方法一个实施例的具体例子的示意图；

图4为本发明装置一个实施例的结构示意图；

图5为本发明计算机可读存储介质的一个实施例的示意图；

图6为本发明电子设备的一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机***/服务器，其可与众多其它通用或专用计算***环境或配置一起操作。适于与计算机***/服务器一起使用的众所周知的计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的 ***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

计算机***/服务器可以在由计算机***执行的计算机***可执行指令 (诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或者远程计算***存储介质上。

下面具体介绍本发明的各种非限制性实施方式。

实施例一、用于实现图文匹配的方法。

图1为本发明实施例一的方法流程图。如图1所示，本实施例的方法主要包括：步骤S100、步骤S110、步骤S130以及步骤S140，可选的，该方法还可以包括：步骤S120。下面对图1中的各步骤分别进行说明。

S100、获取一组图像和文本。

作为示例，本发明实施方式中的一组图像和文本为需要判断图文是否匹配的对象，无论一组图像和文本包括一个图像和多个文本，还是包括多个图像和一个文本，亦或包括多个图像和多个文本，均可以形成至少一对图像和文本，本发明实施方式应判断每一对图像和文本是否匹配。该图像通常为图片，且该文本通常为自然语言，如针对同一个人的多句描述语句等。

作为示例，在需要获得与图像相匹配的文本的应用场景下，获取图像的方式通常为获取输入图像，而获取文本的方式通常为从文本集合中选取一文本；例如，从文本集合中随机选取一文本；再例如，从文本集合中按照文本的排序顺序选取一文本。

作为示例，在需要获得与文本相匹配的图像的应用场景下，获取文本的方式通常为获取输入文本，而获取图像的方式通常为从图像集合中选取一图像；例如，从图像集合中随机选取一图像；再例如，从图像集合中按照图像的排序顺序选取一图像。

作为示例，上述文本集合可以具体为对文本库中的所有文本进行筛选过滤，并由筛选过滤后的文本所形成的文本集合；其中的文本库中的文本可以是通过网络爬取或者人工收集等方式获得的。由于本发明实施方式预先对文本库中的所有文本进行筛选过滤，可以在步骤S100执行之前去除一部分与输入图像差异较大的文本(即与输入图像匹配程度较差的文本)，因此，本发明实施方式可以通过对文本库中的所有文本的筛选过滤，减小后续的空间注意力以及语义注意力的处理量，从而本发明实施方式可以避免空间注意力以及语义注意力的处理耗费较多资源以及用时较多等现象。本发明实施方式中的空间注意力的处理主要用于将图像中的区域和相应的词语关联起来。本发明实施方式中的语义注意力的处理主要用于通过学习词语的含义来调整文本的结构，使具体相同含义的不同描述方式可以达到基本相同的处理，从而增强图文匹配的鲁棒性。

作为示例，上述图像集合可以具体为对图像库中的所有图像进行筛选过滤，并由筛选过滤后的图像所形成的图像集合；其中的图像库中的图像可以是通过网络爬取或者人工收集等方式获得的。由于本发明实施方式预先对图像库中的所有图像进行筛选过滤，可以在步骤S100执行之前去除一部分与输入文本差异较大的图像(即与输入文本匹配程度较差的图像)，因此，本发明实施方式可以通过对图像库中的所有图像的筛选过滤，减小后续的空间注意力以及语义注意力的处理量，从而本发明实施方式可以避免空间注意力以及语义注意力的处理耗费较多资源以及用时较多等现象。

作为示例，本发明实施方式对文本库中的所有文本进行筛选过滤的一个具体的例子为：首先，清空文本集合，将输入图像输入至第二卷积神经网络中，由第二卷积神经网络提取该输入图像的图像特征并输出，将文本库中的各文本分别输入至第二递归神经网络中，由第二递归神经网络提取各文本的文本特征并输出；其次，分别计算该输入图像的图像特征与各文本的文本特征之间的相关性，例如，分别计算该输入图像的图像特征与各文本的文本特征的向量内积，并将向量内积计算结果作为两者之间的相关性(其中的向量内积也可以为欧式距离或者马式距离等)；之后，对计算获得的各相关性进行判断，并将相关性满足第一相关性要求(即针对文本集合设置的相关性要求)的文本添加到文本集合中，例如，按照计算出的相关性由大到小的顺序对文本库中的各文本进行排序，并将前N(如N＝100)个文本作为筛选后的文本添加在文本集合中。通过上述相关性计算以及是否满足第一相关性要求的判断，通常可以选取出至少一个文本(文本集合中通常包括多个文本)，且选取出的多个文本可以根据各自对应的相关性进行排序，然而，这样的排列顺序很可能是不准确的，如果按照这样的排列顺序来确定与输入图像相匹配的文本，则很难保证确定出的文本与输入图像的匹配准确性；现有技术既是利用上述相关性对文本的排序来确定与输入图像相匹配的文本的，这使得现有技术的图文匹配准确性较差。本发明实施方式可以通过下述步骤S110- S140来对该排列顺序进行调整，从而提高了图文匹配的准确性。

作为示例，本发明实施方式对图像库中的所有图像进行筛选过滤的一个具体的例子为：首先，清空图像集合，将输入文本输入至第二递归神经网络中，由第二递归神经网络提取该输入文本的文本特征并输出，将图像库中的各图像分别输入至第二卷积神经网络中，由第二卷积神经网络提取各图像的图像特征并输出；其次，分别计算该输入文本的文本特征与各图像的图像特征之间的相关性，例如，分别计算该输入文本的文本特征与各图像的图像特征的向量内积，并将向量内积计算结果作为两者之间的相关性(其中的向量内积也可以为欧式距离或者马式距离等)；之后，对计算获得的各相关性进行判断，并将相关性满足第二相关性要求(即针对图像集合设置的相关性要求，第一相关性要求和第二相关性要求可以相同，也可以不同)的图像添加到图像集合中，例如，按照计算出的相关性由大到小的顺序对图像库中的各图像进行排序，并将前N个图像作为筛选后的图像添加在图像集合中。通过上述相关性计算以及是否满足第二相关性要求的判断，通常可以选取出至少一个图像(图像集合中通常包括多个图像)，且选取出的多个图像可以根据各自对应的相关性进行排序，然而，这样的排列顺序很可能是不准确的，如果按照这样的排列顺序来确定与输入文本相匹配的图像，则很难保证确定出的图像与输入文本的匹配准确性；现有技术既是利用上述相关性对图像的排序来确定与输入文本相匹配的图像的，这使得现有技术的图文匹配的准确性较差。本发明实施方式可以通过下述步骤S110-S140来对该排列顺序进行调整，从而提高了图文匹配的准确性。

需要特别说明的是，如果本发明已经预先存储了文本库中的各文本的文本特征(例如，文本库中存储有各文本以及各文本各自的文本特征)，则本发明实施方式可以不在文本筛选过程中利用第二递归神经网络获取各文本的文本特征，而是直接使用预先存储的各文本的文本特征即可；同理，如果本发明已经预先存储了图像库中的各图像的图像特征(例如，图像库中存储有各图像以及各图像各自的图像特征)，则本发明实施方式可以不在图像筛选过程中利用第二卷积神经网络获取各图像的图像特征，而是直接使用预先存储的各图像的图像特征即可。

作为示例，本发明实施方式中的第二卷积神经网络和第二递归神经网络均为经过训练的神经网络，本发明实施方式可以利用带有个体标识的图像样本以及带有个体标识的文本样本分别对第二卷积神经网络和第二递归神经网络进行训练，本发明实施方式对第二卷积神经网络和第二递归神经网络进行训练的一个具体例子如图2所示，下面结合图2以及步骤a至步骤h对第二卷积神经网络和第二递归神经网络的训练方式进行说明。

图2中，预先设置有图像特征集合以及文本特征集合，且图像特征集合和文本特征集合在初始化时，可以被设置为空。

步骤a、获取一个带有个体标识的图像样本(可以称为输入图像样本) 以及一个带有个体标识的文本样本(可以称为输入文本样本)，其中的个体标识主要用于表征唯一一个个体，且图像样本所带有的个体标识以及文本样本所带有的个体标识通常是人工预先标注的；在人工标注过程中，针对同一个个体的图像样本和文本样本，应标注相同的个体标识；例如，针对同一对象的拍摄角度略有差异的图片(即图像样本)应标注同一个具有唯一性的个体标识，而针对同一对象的不同的文字描述(即文本样本)应标注同一个具有唯一性的个体标识，另外，如果文字描述是针对一图片的文字描述，则该文字描述与该图片应标注同一个具有唯一性的个体标识等。

图2中，左上角的图片即为获取的图像样本，且该图像样本的个体标识为2，右下角虚线框中的文字描述(即The model wears a bright orange dress. She…)即为获取的文本样本，该文本样本的个体标识也为2，也就是说，本次获取的图像样本和文本样本具有相同的个体标识；然而，本发明实施方式所获取到的图像样本和文本样本完全可以具有不同的个体标识；

步骤b、将获取到的图像样本输入第二卷积神经网络(即图2中的VisualConvolutional Neural Network，Visual CNN，视觉卷积神经网络)中，由第二卷积神经网络提取该图像样本的图像特征(即图2中的Visual Feature)。

步骤c、将获取的文本样本输入第二递归神经网络(即图2中的LSTM 网络，LongShort-Term Memory网络，长短期记忆网络，是一种时间递归神经网络)中，由第二递归神经网络提取该文本样本的文本特征(即图2中的 Textual Feature)；注：本发明实施方式并不限定执行步骤b和步骤c的先后顺序。

步骤d、分别计算上述步骤b获得的图像样本的图像特征与文本特征集合中的各个个体标识所对应的文本特征的匹配度，例如，本发明实施方式可以在计算上述步骤b获得的图像样本的图像特征与文本特征集合中的各个个体标识所对应的文本特征之间的欧式距离或者马式距离或者向量内积等的基础上，获得各匹配度；一个具体的例子，可以利用下述公式(1)分别计算上述步骤b获得的图像样本的图像特征与文本特征集合中的各个个体标识所对应的文本特征之间的匹配度：

在上述公式(1)中，

表示输入图像样本v的图像特征与所有文本特征S(即文本特征集合S)中的第i个个体标识所对应的文本特征相匹配的几率(即两者之间的匹配度，为了与下述步骤e中的匹配度相区分，下述将步骤d计算获得的匹配度称为第一匹配度)，S表示所有个体标识的文本样本的文本特征，v表示输入图像样本，

表示输入图像样本v的图像特征与所有文本特征S中的第i个个体标识所对应的文本特征之间的相关性，

表示输入图像样本v的图像特征与所有文本特征S中的第j个个体标识所对应的文本特征之间的相关性，N表示文本特征集合中的所有文本特征所对应的个体标识的总数量，σ_v表示用于控制概率分布的第一温度超参数，exp(*)表示针对*的指数运算，T表示矩阵转置。

步骤e、分别计算上述步骤c获得的文本样本的文本特征与图像特征集合中的各个个体标识所对应的图像特征的匹配度，例如，本发明实施方式可以在计算上述步骤c获得的文本样本的文本特征与图像特征集合中的各个个体标识所对应的图像特征之间的欧式距离或者马式距离或者向量内积等的基础上，获得各匹配度；一个具体的例子，可以利用下述公式(2)分别计算上述步骤c获得的文本样本的文本特征与图像特征集合中的各个个体标识所对应的图像特征之间的匹配度：

在上述公式(2)中，

表示输入文本样本s的文本特征与所有图像特征V(即图像特征集合V)中的第k个体标识所对应的图像特征相匹配的几率(即两者之间的匹配度，为了与上述步骤d中的匹配度相区分，下述将步骤e计算获得的匹配度称为第二匹配度)，V表示所有个体标识的图像样本的图像特征，

表示输入文本样本s的文本特征与所有图像特征V中的第 k个个体标识所对应的图像特征之间的相关性，σ_s表示用于控制概率分布的第二温度超参数，

表示输入文本样本s的文本特征与所有图像特征V中的第j个个体标识所对应的图像特征之间的相关性，N表示图像特征集合中的所有图像特征所对应的个体标识的总数量，exp(*)表示针对*的指数运算，T表示矩阵转置。

步骤f、根据上述计算获得的第一匹配度和第二匹配度的交叉熵损失函数更新第二卷积神经网络和第二递归神经网络的参数；

一个具体的例子，可以使用下述公式(3)表示第一匹配度和第二匹配度的交叉熵损失函数(即跨模式交叉熵损失函数)；另外，可以使用下述公式 (4)更新第二卷积神经网络的参数，并使用下述公式(5)更新第二递归神经网络的参数；

在上述公式(3)、公式(4)以及公式(5)中，t_s表示输入文本样本s 的个体标识，t_v表示输入图像样本v的个体标识，

以及

均表示输入图像样本v的图像特征与所有文本特征S(即文本特征集合S)中的个体标识t_v所对应的文本特征相匹配的几率，

以及

均表示输入文本样本s 的文本特征与所有图像特征V(即图像特征集合V)中的个体标识t_s所对应的图像特征相匹配的几率，

表示所有文本特征S中的个体标识t_v所对应的文本特征，

表示所有图像特征V中的个体标识t_s所对应的图像特征，S_j表示所有文本特征中的个体标识j所对应的文本特征，V_j表示所有图像特征中的个体标识j所对应的图像特征，σ_v表示用于控制概率分布的第一温度超参数，σ_s表示用于控制概率分布的第二温度超参数，

表示输入图像样本v的图像特征与所有文本特征S中的个体标识j所对应的文本特征相匹配的几率，

表示输入文本样本s的文本特征与所有图像特征V中的个体标识j所对应的图像特征相匹配的几率，N表示图像特征集合或者文本特征集合中的个体标识的总数量；

图2中指向图像特征的带①的箭头和指向文本特征的带①的箭头表示计算交叉熵损失函数。

步骤g、如果上述步骤a所获取的输入图像样本的个体标识不属于图像特征集合中的个体标识，则将上述步骤b所获得的输入图像样本的图像特征添加在图像特征集合中(例如，利用该输入图像样本的图像特征填充图像特征集合中的相应个体标识所对应的图像特征存储空间)，否则，确定该输入图像样本的个体标识在图像特征集合中所对应的图像特征存储空间，并利用该输入图像样本的图像特征更新该图像特征存储空间中的内容；图2中指向图像特征的带②的箭头即表示步骤g；

步骤h、如果上述步骤a所获取的输入文本样本的个体标识不属于文本特征集合中的个体标识，则将上述步骤c所获得的输入文本样本的文本特征添加在文本特征集合中(例如，利用该输入文本样本的文本特征填充文本特征集合中的相应个体标识所对应的文本特征存储空间)，否则，确定该输入文本样本的个体标识在文本特征集合中所对应的文本特征存储空间，并利用该输入文本样本的文本特征更新该文本特征存储空间中的内容；图2中指向文本特征的带②的箭头即表示步骤g。

在利用上述步骤a至步骤h对第二卷积神经网络和第二递归神经网络进行训练后，可以将训练后的第二卷积神经网络作为初始化的第一卷积神经网络(也可以使用另外训练的卷积神经网络作为初始化的第一卷积神经网络)，并将训练后的第二递归神经网络作为初始化的第一递归神经网络(也可以使用另外训练的递归神经网络作为初始化的第一递归神经网络)，且第一卷积神经网络和第一递归神经网络会在初始化后继续被训练。

S110、利用第一卷积神经网络获取图像中各区域的图像特征，并利用第一递归神经网络获取文本中的各词语特征。

作为示例，本发明实施方式可以将图像(如图3左下角所示的图片)输入第一卷积神经网络(如图3中的Visual CNN)中，由该第一卷积神经网络提取该图像中各区域的图像特征，例如，提取出的各区域的图像特征可以表示为7×7×512，即提取出图像特征分属于49个大小相同的图像区域，且每个图像区域表示为一个512维的图像特征。

作为示例，本发明实施方式中的词语的特征与上述文本样本的文本特征不同，如果文本样本的文本特征是针对整个文本样本的向量，则词语的特征是针对一个词语的向量。本发明实施方式利用第一递归神经网络获取文本中的各词语特征的过程可以为：对文本进行分词处理，并将分词处理后获得的每个词语分别映射到词库中，如在将图2中的“The model wears a bright orange dress.She…”进行分词处理后，可以获得“The”、“model”、 “wears”、“a”、“bright”、“orange”、“dress”、“She”……等词语，将各词语被分别映射到词库中，从而获得每个词语的独热(one-hot)向量，然后，将各词语的用于表示词语在词库中的位置的独热向量分别输入至全连接层中，例如，图3中，“The”、“model”、“wears”、…以及“dress”等词语的独热向量均被输入至word-fc(针对词语的全连接层)中；由全连接层实现针对各词语的独热向量的编码；之后，将各词语各自对应的编码先后依次输入到第一递归神经网络(如图3中的Encoder LSTM)中，该第一递归神经网络可以记忆输入的各词语的编码(如缓存输入的各词语的编码)，并可以学习到不同词语之间的关联性，第一递归神经网络输出各词语特征(也可以称为各词语特征向量)。本发明实施方式可以采用现有的方式实现词语映射以获取独热向量、针对独热向量的编码以及获得各词语特征，具体实现过程在此不再详细说明。本发明实施方式中的词语特征是将词语作为一个整体所表现出的特征，而文本特征是将文本作为一个整体所表现出的特征，由此可知，本发明实施方式中的词语特征比文本特征的粒度更细。

作为示例，本发明实施方式可以使用H＝{h₁，...，h_T}来表示文本中的各词语特征向量，其中，h₁表示编码LSTM在时刻1的隐层状态(即时刻1对应的文本中的词语的特征向量)，h_T表示编码LSTM在时刻T的隐层状态(即时刻T对应的文本中的词语的特征向量)，

D_H表示隐层状态的维度，D_H×T中的T表示文本的词语长度。

S120、对图像特征进行修正，得到修正图像特征。

作为示例，本发明实施方式可以根据图像中各区域的图像特征与各词语特征，获取空间注意力值，并根据空间注意力值，在各区域中选择目标区域，之后，获取目标区域对应的图像特征，作为修正图像特征。具体的，本发明实施方式获取空间注意力值的一个具体例子可以为：利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度，并对各亲密度分别进行归一化处理，之后可以根据归一化处理后的各亲密度以及各区域的图像特征计算图像针对各词语的图像特征。区域的图像特征与词语的特征之间的亲密度也可以称为相关程度或者关联程度或者相近程度等，一个具体的例子，帽子区域的图像特征与词语“帽子”的特征之间的亲密度通常会高于帽子区域的图像特征与词语“眼镜”的特征之间的亲密度。

利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度的一个具体例子为，将图3中的Encoder LSTM输出的各词语特征以及图3 中的Visual CNN输出的各区域的图像特征作为空间注意力模型(即图3中的 Spatial Attention Module)的输入，空间注意力模型可以利用下述公式(6)分别计算图像中的各区域的图像特征与各词语特征之间的亲密度，并利用下述公式(7)对各亲密度分别进行归一化处理：

e_t，k＝W_P{tanh[W_Ii_k+(W_Hh_t+b_H)]}+b_P (6)

在上述公式(6)和公式(7)中，

以及W_P∈R^1×K均表示矩阵参数，b_H和b_p均表示偏移参数，e_t，k为中间变量，且e_t，k表示时刻t的词语的特征与图像中的第k个区域的图像特征之间的亲密度，tanh[*] 表示针对*的双曲正切函数，i_k表示图像中的第k个区域的图像特征，h_t表示编码LSTM在时刻t的隐层状态(也即时刻t对应的文本中的词语的特征向量)，exp(*)表示针对*的指数函数，且

a_t，k表示归一化处理后的时刻t的词语的特征与图像中的第k个区域的图像特征之间的亲密度，L 表示图像所包含的区域的总数量。

本发明实施方式可以将空间注意力模型输出的a_t，k看做是对于时刻t的词语而言，为各区域的图像特征分配的权重值，本发明实施方式根据归一化处理后的各亲密度以及各区域的图像特征计算图像针对各词语的图像特征的一个具体例子如下述公式(8)所示：

在上述公式(8)中，

表示图像针对时刻t的词语的图像特征(如果步骤S110所获得的各区域的图像特征表示为7×7×512维的图像特征，则本步骤中的

表示的图像特征为512维的图像特征)，a_t，k表示归一化处理后的时刻t的词语的特征与图像中的第k个区域的图像特征之间的亲密度，i_k表示图像中的第k个区域的图像特征，L表示图像所包含的图像区域的总数量。

本发明实施方式可以采用现有的空间注意力模型，空间注意力模型的具体实现方式在此不再详细说明。

S130、针对图像特征和各词语特征进行语义注意力处理，得到语义注意力值；在本发明实施方式的方法包括步骤S120的情况下，步骤S130可以具体为：针对修正图像特征和各词语特征进行语义注意力处理，得到语义注意力值。

作为示例，本发明实施方式可以将图像针对各词语的图像特征与相应词语的特征分别级联，并分别输入语义注意力模型，从而由语义注意力模型计算每一个词语在不同概念上对图像的贡献(也可以称为各词语在不同概念上对图像的潜在语义注意力)。本发明实施方式中的概念可以包括颜色、服装以及介词等多种形式。

作为示例，本发明实施方式中的级联结果可以使用

来表示，且其中的t＝{1，...，T}，T表示时刻T，图3中的x₁、x₂、x_t以及x_T即为上述

作为示例，语义注意力模型可以通过下述公式(9)和公式(10)计算出每一个词语在不同概念上对图像的贡献，即语义注意力模型输出a′_m，t：

e′_m，t＝f(c_m-1，x_t)， (9)

在上述公式(9)和公式(10)中，f(*)是用于确定重要性的功能函数，即该功能函数可以衡量出针对概念m(也可以称为解密时刻m)，第t个词语的重要性，且f(*)可以是一个模型化的两层的卷积神经网络，c_m-1表示在解码时刻m-1时的LSTM的隐层状态，

表示图像针对时刻t 的词语的图像特征与时刻t的词语的特征的级联结果，a′_m，t表示时刻t的词语在概念m上对图像的贡献，e′_m，t和e′_m，j均为中间变量，T表示时刻T。本发明实施方式可以将语义注意力模型输出的a′_m，t看做是为级联结果所分配的词语在概念m上的权重值。

本发明实施方式可以采用现有的语义注意力模型，语义注意力模型的具体实现方式在此不再详细说明。

S140、根据语义注意力值，计算图像和文本的匹配程度。

作为示例，本发明实施方式可以根据每一个词语在不同概念上对图像的贡献以及上述级联结果，确定出针对各词语的图像特征在不同概念上的贡献；然后，利用递归神经网络对词语对图像在不同概念的贡献进行解码处理；之后，本发明实施方式可以利用全连接层和二值分类器针对解码处理后的结果进行处理，从而确定出图像和文本的匹配程度。

作为示例，本发明实施方式确定出针对各词语的图像特征在不同概念上的贡献的一个具体的例子为：利用下述公式(11)实现对上述步骤S130获得的级联结果以及语音注意力处理的结果进行加权求和计算：

在上述公式(11)中，

表示针对各词语的图像特征在概念m上的贡献，a′_m，j表示时刻j的词语在概念m上对图像的贡献，x_j表示图像针对时刻j的词语的图像特征与时刻j的词语的特征的级联结果，且可以表示为

表示图像针对时刻j的词语的图像特征，h_j表示时刻j的词语的特征。

作为示例，本发明实施方式可以利用递归神经网络(如图3中的Decoder LSTM)对上述计算获得的

进行解码，并利用全连接层以及二值分类器来确定解码后的结果进行相似性计算，从而根据相似性计算结果可以计算出步骤S100中的图像和文本的匹配程度。

作为示例，本发明实施方式可以按照匹配程度由大到小的顺序对文本集合中的文本或者图像集合中的图像进行重新排序，从而可以重新排序后的文本集合或者图像集合确定出与输入图像匹配的文本或者与输入文本匹配的图像。由于本发明实施方式在图文匹配过程中引入了空间注意力模型和语义注意力模型，可以将图像中的区域与文本中的词语有效的联系起来，从而有利于提高图文匹配的准确性。

另外，在第一卷积神经网络(图3中的Visual)和第一递归神经网络 (图3中的Encoder LSTM)进行训练的过程中，本发明实施方式还可以利用二值交叉熵损失函数对第一卷积神经网络和第一递归神经网络进行训练监督，上述二值交叉熵损失函数可以如下述公式(12)所示：

在上述公式(12)中，N’表示用于训练的文本-图像对的数量，C_i表示针对第i个文本-图像对计算匹配的准确度，y_i表示目标标签，y_i为1表示文本和图像属于同一个个体，而y_i为0表示文本和图像对属于不同的个体。

实施例二、用于实现图文匹配的装置。

图4为本发明装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图4所示，该实施例的装置包括：获取图文模块400、第一获取特征模块410、第二获取特征模块420、、处理模块440 以及判断模块450，可选的，该装置还可以包括：修正处理模块430、第一筛选过滤模块(图4中未示出)、第二筛选过滤模块(图4中未示出)、第一训练模块(图4中未示出)以及第二训练模块(图4中未示出)。

获取图文模块400主要用于获取一组图像和文本。具体的，获取图文模块400可以获取输入图像，并从文本集合中选取任意一文本(例如，顺序或者随机选取一文本)，将输入图像和选取的文本作为一组图像和文本；获取图文模块400也可以获取输入文本，并从图像集合中选取一图像(例如，顺序或者随机选取一图像)，将输入图像和其选取的图像作为一组图像和文本；其中，文本集合为第一筛选过滤模块对文本库中的文本进行筛选过滤，由筛选过滤后获得的多个文本所形成的文本集合，且图像集合为第二筛选过滤模块对图像库中的图像进行筛选过滤，由筛选过滤后获得的多个图像所形成的图像集合。

第一筛选过滤模块具体用于利用第二卷积神经网络获取输入图像的图像特征，利用第二递归神经网络获取文本库中的各文本的文本特征，计算输入图像的图像特征与各文本的文本特征的相关性，并根据相关性的排序从各文本中选择多个文本，且选择出的多个文本作为文本集合。

第二筛选过滤模块具体用于利用第二递归神经网络获取输入文本的文本特征，利用第二卷积神经网络获取图像库中的各图像的图像特征，计算输入文本的文本特征与各图像的图像特征的相关性，根据相关性的排序从各图像中选择多个图像，且选择出的多个图像形成图像集合。

第一筛选过滤模块和第二筛选过滤模块所执行的具体筛选操作可以参见上述方法实施例中的步骤S100中的两个例子的描述，在此不再详细说明。

上述第二卷积神经网络和第二递归神经网络是第一训练模块训练而成的，具体的，第一训练模块可以利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练。一个具体的例子，第一训练模块可以利用第二卷积神经网络获取带有个体标识的图像样本的图像特征，并利用第二递归神经网络获取带有个体标识的文本样本的文本特征，之后，第一训练模块计算图像样本的图像特征与文本特征集合中的各文本样本的文本特征的第一匹配度，并计算文本样本的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度；之后，第一训练模块根据第一匹配度和第二匹配度的交叉熵损失函数更新第二卷积神经网络和第二递归神经网络的参数。另外，第一训练模块在确定出图像特征集合中未包含有带有个体标识的图像样本的图像特征时，将带有个体标识的图像样本的图像特征添加在图像特征集合中，在确定出文本特征集合中未包含有带有个体标识的文本样本的文本特征时，将带有个体标识的文本样本的文本特征添加在文本特征集合中；其中，图像特征集合中具有相同个体标识的不同图像样本的图像特征共享该个体标识的图像特征存储空间；其中，文本特征集合中，具有相同个体标识的不同文本样本的文本特征共享该个体标识的图像特征存储空间。第一训练模块训练第二卷积神经网络和第二递归神经网络的具体操作如上述方法实施方式中针对步骤a至步骤h的相关描述，在此不再重复说明。另外，第一训练模块还可以将训练后的第二卷积神经网络作为初始化的第一卷积神经网络，并将训练后的第二递归神经网络作为初始化的第一递归神经网络。

第一获取特征模块410主要用于利用第一卷积神经网络获取图像中各区域的图像特征。具体的，第一获取特征模块410可以将图像输入第一卷积神经网络中，由该第一卷积神经网络提取该图像中各区域的图像特征；第一获取特征模块410获取到的各区域的图像特征可以表示为7×7×512，即第一获取特征模块410获得的图像特征分属于49个大小相同的图像区域，且每个图像区域均包括512维的图像特征。

第二获取特征模块420主要用于利用第一递归神经网络获取文本中的各词语特征。具体的，第二获取特征模块420可以先获取文本中各词语的独热向量，并将各词语的独热向量输入全连接层进行编码，然后，第二获取特征模块420将各词语对应的编码依次输入第一递归神经网络，并根据第一递归神经网络的输出获得各词语特征。更具体的内容可以参见上述方法实施方式中针对S420的描述，在此不再重复说明。

修正处理模块430主要用于对图像特征进行修正得到修正图像特征；例如，修正处理模块430根据图像中各区域的图像特征与各词语特征，获取空间注意力值；修正处理模块430根据空间注意力值，在各区域中选择目标区域；修正处理模块430获取目标区域对应的图像特征，作为修正图像特征。

具体的，修正处理模块430可以利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度，并对各亲密度分别进行归一化处理；修正处理模块430可以根据归一化处理后的各亲密度以及各区域的图像特征计算图像针对各词语的图像特征。修正处理模块430具体执行的操作可以参见上述方法实施方式中针对步骤S430的描述，在此不再重复说明。

处理模块440主要用于针对图像特征和各词语特征进行语义注意力处理，得到语义注意力值；在本发明实施方式的装置包括修正处理模块430的情况下，处理模块440可以针对修正图像特征和各词语特征进行语义注意力处理，得到语义注意力值。具体的，处理模块440可以将图像针对各词语的图像特征与相应词语的特征分别级联，并分别输入语义注意力模型中，由语义注意力模型计算每一个词语在不同概念上对图像。处理模块440具体执行的操作可参见上述方法实施方式中针对步骤S440的描述，在此不再重复说明。

判断模块450主要用于根据语义注意力值，计算图像和文本的匹配程度。具体的，判断模块450可以根据每一个词语在不同概念上对图像的贡献以及级联结果确定针对各词语的图像特征在不同概念上的贡献；之后，判断模块450可以利用递归神经网络对针对各词语的图像特征在不同概念上的贡献进行解码处理；之后，判断模块450利用全连接层和二值分类器对解码处理后的信息确定图像和文本的匹配程度。判断模块450具体执行的操作可以参见上述方法实施方式中针对步骤S450的描述，在此不再重复说明。

第二训练模块主要用于在对第一卷积神经网络和第一递归神经网络进行训练的过程中，利用二值交叉熵损失函数对第一卷积神经网络和第一递归神经网络进行训练监督。第二训练模块可以利用上述公式(12)对第一卷积神经网络和第一递归神经网络进行训练监督，具体如上述方法实施方式中针对公式(12)的描述，在此不再重复说明。

实施例三、计算机可读存储介质。

本发明实施方式的计算机可读存储介质一个具体例子如图5所示。

图5的计算机可读存储介质为光盘500，其上存储有计算机程序(即程序产品)，该程序被处理器执行时，会实现上述方法实施方式中所记载的各步骤，例如，获取一组图像和文本；利用第一卷积神经网络获取所述图像的图像特征，并利用第一递归神经网络获取所述文本中的各词语特征；针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值；根据所述语义注意力值，计算所述图像和所述文本的匹配程度。上述各步骤的具体实现方式可以参见上述方法实施方式中的相关描述，在此不再重复说明。

实施例四、电子设备。

本发明实施例提供的电子设备可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备600的结构示意图：如图6所示，计算机*** 600包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)601，和/或一个或多个图像处理器(GPU) 613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，获取一组图像和文本；利用第一卷积神经网络获取所述图像的图像特征，并利用第一递归神经网络获取所述文本中的各词语特征；针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值；根据所述语义注意力值，计算所述图像和所述文本的匹配程度。

此外，在RAM 603中，还可存储有装置操作所需的各种程序和数据。 CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向 ROM602中写入可执行指令，可执行指令使处理器601执行上述方法对应的操作。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分 607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

需要说明的，如图6所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，用于获取一组图像和文本的指令(可以称为第一指令)；用于利用第一卷积神经网络获取图像的图像特征的指令(可以称为第二指令)；用于利用第一递归神经网络获取文本中的各词语特征的指令(可以称为第三指令)；用于对图像特征进行修正，得到修正图像特征的指令(可以称为第四指令)；用于针对图像特征和各词语特征进行语义注意力处理，得到语义注意力值的指令(可以称为第五指令)；用于根据语义注意力值，计算图像和文本的匹配程度的指令(可以称为第六指令)。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

上述第一指令可以包括：用于获取输入图像，并从文本集合中选取任意一文本(例如，顺序或者随机选取一文本)，将输入图像和所述选取的文本作为一组图像和文本的指令(可以称为第七指令)；第一指令也可以包括：用于获取输入文本，并从图像集合中选取任意一图像(例如，顺序或随机选取一图像)，将输入图像和选取的图像作为一组图像和文本的指令(可以称为第八指令)；其中，文本集合为第九指令对文本库中的文本进行筛选过滤，由筛选过滤后获得的多个文本所形成的文本集合，且图像集合为第十指令对图像库中的图像进行筛选过滤，由筛选过滤后获得的多个图像所形成的图像集合。

上述第九指令主要用于对文本库中的文本进行筛选过滤，且第九指令包括：用于利用第二卷积神经网络获取输入图像的图像特征的指令、用于利用第二递归神经网络获取文本库中的各文本的文本特征的指令、用于计算输入图像的图像特征与各文本的文本特征的相关性的指令、以及用于根据相关性的排序从各文本中选择多个文本，选择出的多个文本作为文本集合的指令。

上述第十指令主要用于对图像库中的图像进行筛选过滤，且第十指令包括：用于利用第二递归神经网络获取输入文本的文本特征的指令、用于利用第二卷积神经网络获取图像库中的各图像的图像特征的指令、用于计算输入文本的文本特征与各图像的图像特征的相关性的指令、以及用于根据相关性的排序从各图像中选择多个图像，选择出的多个图像形成图像集合的指令。

第九指令和第十指令所执行的具体筛选操作可以参见上述方法实施例中的步骤S100中的两个例子的描述，在此不再详细说明。

上述第二卷积神经网络和第二递归神经网络可以是第十一指令训练而成的，具体的，第十一指令主要用于利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练；且第十一指令具体可以包括：用于利用第二卷积神经网络获取带有个体标识的图像样本的图像特征的指令、用于利用第二递归神经网络获取带有个体标识的文本样本的文本特征的指令、用于计算图像样本的图像特征与文本特征集合中的各文本样本的文本特征的第一匹配度的指令、用于计算文本样本的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度的指令、以及用于根据第一匹配度和第二匹配度的交叉熵损失函数更新第二卷积神经网络和第二递归神经网络的参数的指令。另外，第十二指令主要用于在确定出图像特征集合中未包含有带有个体标识的图像样本的图像特征时，将带有个体标识的图像样本的图像特征添加在图像特征集合中，第十三指令主要用于在确定出文本特征集合中未包含有带有个体标识的文本样本的文本特征时，将带有个体标识的文本样本的文本特征添加在文本特征集合中；其中，图像特征集合中具有相同个体标识的不同图像样本的图像特征共享该个体标识的图像特征存储空间；其中，文本特征集合中，具有相同个体标识的不同文本样本的文本特征共享该个体标识的图像特征存储空间。第十一指令训练第二卷积神经网络和第二递归神经网络的具体操作如上述方法实施方式中针对步骤 a至步骤h的相关描述，在此不再重复说明。另外，第十四指令主要用于将训练后的第二卷积神经网络作为初始化的第一卷积神经网络，第十五指令主要用于将训练后的第二递归神经网络作为初始化的第一递归神经网络。

作为示例，第二指令可以将图像输入第一卷积神经网络中，由该第一卷积神经网络提取该图像中各区域的图像特征；第二指令获取到的各区域的图像特征可以表示为7×7×512，即第二指令获得的图像特征分属于49个大小相同的图像区域，且每个图像区域均包括512维的图像特征。

第三指令可以具体包括：用于获取文本中各词语的独热向量的指令、用于将各词语的独热向量输入全连接层进行编码的指令、用于将各词语对应的编码依次输入第一递归神经网络，并根据第一递归神经网络的输出获得各词语特征的指令。第三指令所包含的各指令具体执行的操作可以参见上述方法实施方式中针对S420的描述，在此不再重复说明。

第四指令可以具体包括：用于根据图像中各区域的图像特征与各词语特征，获取空间注意力值的指令；用于根据空间注意力值，在各区域中选择目标区域的指令；用于获取目标区域对应的图像特征，作为修正图像特征的指令。上述用于根据图像中各区域的图像特征与各词语特征，获取空间注意力值的指令可以具体为：用于利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度，并对各亲密度分别进行归一化处理的指令以及用于根据归一化处理后的各亲密度以及各区域的图像特征计算图像针对各词语的图像特征的指令。第四指令所包含的各指令具体执行的操作可以参见上述方法实施方式中针对步骤S430的描述，在此不再重复说明。

第五指令可以包括：用于将图像针对各词语的图像特征与相应词语的特征分别级联，并分别输入语义注意力模型的指令，由语义注意力模型计算每一个词语在不同概念上对图像的贡献。第五指令所包含的指令具体执行的操作可以参见上述方法实施方式中针对步骤S440的描述，在此不再重复说明。

第六指令可以具体包括：用于根据每一个词语在不同概念上对图像的贡献以及级联结果确定针对各词语的图像特征在不同概念上的贡献的指令、用于利用递归神经网络对针对各词语的图像特征在不同概念上的贡献进行解码处理的指令、以及用于利用全连接层和二值分类器对解码处理后的信息确定图像和文本的匹配程度的指令。第六指令所包含的指令具体执行的操作可以参见上述方法实施方式中针对步骤S450的描述，在此不再重复说明。

本发明实施方式中的程序代码还可以包括用于在对第一卷积神经网络和第一递归神经网络进行训练的过程中，利用二值交叉熵损失函数对第一卷积神经网络和第一递归神经网络进行训练监督的指令。该指令可以利用上述公式(12)对第一卷积神经网络和第一递归神经网络进行训练监督，具体如上述方法实施方式中针对公式(12)的描述，在此不再重复说明。

可能以许多方式来实现本发明的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种用于实现图文匹配的方法，其特征在于，包括：

获取一组图像和文本；

利用第一卷积神经网络获取所述图像的图像特征，并利用第一递归神经网络获取所述文本中的各词语特征；

针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值；

根据所述语义注意力值，计算所述图像和所述文本的匹配程度；

所述方法在针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的步骤之前还包括：

根据图像中各区域的图像特征与所述各词语特征，获取空间注意力值；

根据所述空间注意力值，在所述各区域中选择目标区域；

获取所述目标区域对应的图像特征，作为修正图像特征；

且所述针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的步骤包括：

针对所述修正图像特征和所述各词语特征进行语义注意力处理，得到所述语义注意力值；

所述根据图像中各区域的图像特征与所述各词语特征，获取空间注意力值的步骤包括：

利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度，并对各亲密度分别进行归一化处理；

根据所述归一化处理后的各亲密度以及各区域的图像特征计算所述图像针对各词语的图像特征；

所述针对所述图像特征和所述各词语特征进行语义注意力处理的步骤包括：

将所述图像针对各词语的图像特征与相应词语的特征分别级联，并分别输入语义注意力模型，由所述语义注意力模型计算每一个词语在不同概念上对所述图像的贡献。

2.根据权利要求1所述的方法，其特征在于，所述获取一组图像和文本的步骤包括：

获取输入图像，并从文本集合中选取任意一文本，将所述输入图像和所述选取的文本作为所述一组图像和文本；或者

获取输入文本，并从图像集合中选取任意一图像，将所述输入图像和所述选取的图像作为所述一组图像和文本；

其中，所述文本集合为对文本库中的文本进行筛选过滤，由筛选过滤后获得的多个文本所形成的文本集合，且所述图像集合为对图像库中的图像进行筛选过滤，由筛选过滤后获得的多个图像所形成的图像集合。

3.根据权利要求2所述的方法，其特征在于，所述对文本库中的文本进行筛选过滤的步骤包括：

利用第二卷积神经网络获取所述输入图像的图像特征，并利用第二递归神经网络获取文本库中的各文本的文本特征；

计算所述输入图像的图像特征与各文本的文本特征的相关性；

根据所述相关性的排序从所述各文本中选择多个文本，且所述选择出的多个文本作为所述文本集合。

4.根据权利要求2所述的方法，其特征在于，所述对图像库中的图像进行筛选过滤的步骤包括：

利用第二递归神经网络获取所述输入文本的文本特征，并利用第二卷积神经网络获取图像库中的各图像的图像特征；

计算所述输入文本的文本特征与各图像的图像特征的相关性；

根据所述相关性的排序从所述各图像中选择多个图像，且所述选择出的多个图像形成所述图像集合。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的步骤。

6.根据权利要求5所述的方法，其特征在于，所述训练的步骤包括：

利用第二卷积神经网络获取带有个体标识的图像样本的图像特征，并利用第二递归神经网络获取带有个体标识的文本样本的文本特征；

计算所述图像样本的图像特征与文本特征集合中的各文本样本的文本特征的第一匹配度，并计算所述文本样本的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度；

根据所述第一匹配度和第二匹配度的交叉熵损失函数更新所述第二卷积神经网络和第二递归神经网络的参数。

7.根据权利要求5或6所述的方法，其特征在于，

所述图像特征集合中，具有相同个体标识的不同图像样本的图像特征共享该个体标识的图像特征存储空间；

和/或，

所述文本特征集合中，具有相同个体标识的不同文本样本的文本特征共享该个体标识的图像特征存储空间。

8.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

在确定出所述图像特征集合中未包含有所述带有个体标识的图像样本的图像特征时，将所述带有个体标识的图像样本的图像特征添加在所述图像特征集合中；

在确定出所述文本特征集合中未包含有所述带有个体标识的文本样本的文本特征时，将所述带有个体标识的文本样本的文本特征添加在所述文本特征集合中。

9.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

将训练后的第二卷积神经网络作为初始化的第一卷积神经网络；

将训练后的第二递归神经网络作为初始化的第一递归神经网络。

10.根据权利要求1至6中任一权利要求所述的方法，其特征在于，所述利用第一递归神经网络获取所述文本中的各词语特征的步骤包括：

获取所述文本中各词语的独热向量；

将所述各词语的独热向量输入全连接层进行编码；

将各词语对应的编码依次输入第一递归神经网络，并根据第一递归神经网络的输出获得各词语特征。

11.根据权利要求1至6中任一权利要求所述的方法，其特征在于，所述图像中各区域的大小相同，且每一个图像区域所包括的图像特征的数量相同。

12.根据权利要求1至6中任一权利要求所述的方法，其特征在于，所述根据所述语义注意力处理的结果计算所述图像和所述文本的匹配程度的步骤包括：

根据所述每一个词语在不同概念上对所述图像的贡献以及所述级联确定所述针对各词语的图像特征在不同概念上的贡献；

利用递归神经网络对所述针对各词语的图像特征在不同概念上的贡献进行解码处理；

利用全连接层和二值分类器对所述解码处理后的信息确定所述图像和文本的匹配程度。

13.一种用于实现图文匹配的装置，其特征在于，包括：

获取图文模块，用于获取一组图像和文本；

第一获取特征模块，用于利用第一卷积神经网络获取所述图像的图像特征；

第二获取特征模块，用于利用第一递归神经网络获取所述文本中的各词语特征；

处理模块，用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值；

判断模块，用于根据所述语义注意力值，计算所述图像和所述文本的匹配程度；

所述装置，还用于在针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的步骤之前，根据图像中各区域的图像特征与所述各词语特征，获取空间注意力值；根据所述空间注意力值，在所述各区域中选择目标区域；获取所述目标区域对应的图像特征，作为修正图像特征；

所述处理模块，具体用于针对所述修正图像特征和所述各词语特征进行语义注意力处理，得到所述语义注意力值；

所述装置在获取所述空间注意力值时，具体用于利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度，并对各亲密度分别进行归一化处理，根据所述归一化处理后的各亲密度以及各区域的图像特征计算所述图像针对各词语的图像特征；

所述处理模块在进行所述语义注意力处理时，具体用于将所述图像针对各词语的图像特征与相应词语的特征分别级联，并分别输入语义注意力模型，由所述语义注意力模型计算每一个词语在不同概念上对所述图像的贡献。

14.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，下述指令被运行：

用于获取一组图像和文本的指令；

用于利用第一卷积神经网络获取所述图像的图像特征的指令；

用于利用第一递归神经网络获取所述文本中的各词语特征的指令；

用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的指令；

用于根据所述语义注意力值，计算所述图像和所述文本的匹配程度的指令；

所述设备在用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的指令之前还包括：

用于根据图像中各区域的图像特征与所述各词语特征，获取空间注意力值的指令；

用于根据所述空间注意力值，在所述各区域中选择目标区域的指令；

用于获取所述目标区域对应的图像特征，作为修正图像特征的指令；

且所述用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到语义注意力值的指令具体为：

用于针对所述修正图像特征和所述各词语特征进行语义注意力处理，得到所述语义注意力值的指令；

所述用于根据图像中各区域的图像特征与所述各词语特征，获取空间注意力值的指令包括：

用于利用空间注意力模型计算各区域的图像特征与各词语特征之间的亲密度，并对各亲密度分别进行归一化处理的指令；

用于根据所述归一化处理后的各亲密度以及各区域的图像特征计算所述图像针对各词语的图像特征的指令；

所述用于针对所述图像特征和所述各词语特征进行语义注意力处理，得到所述语义注意力值的指令包括：

用于将所述图像针对各词语的图像特征与相应词语的特征分别级联，并分别输入语义注意力模型的指令，由所述语义注意力模型计算在每一个词语在不同概念上对所述图像的贡献。

15.根据权利要求14所述的设备，其特征在于，所述用于获取一组图像和文本的指令包括：

用于获取输入图像，并从文本集合中选取任意一文本，将所述输入图像和所述选取的文本作为所述一组图像和文本的指令；或者

用于获取输入文本，并从图像集合中选取任意一图像，将所述输入图像和所述选取的图像作为所述一组图像和文本的指令；

16.根据权利要求15所述的设备，其特征在于，所述设备还包括：用于对文本库中的文本进行筛选过滤的指令，且该指令具体包括：

用于利用第二卷积神经网络获取所述输入图像的图像特征的指令；

用于利用第二递归神经网络获取文本库中的各文本的文本特征的指令；

用于计算所述输入图像的图像特征与各文本的文本特征的相关性的指令；

用于根据所述相关性的排序从所述各文本中选择多个文本，且所述选择出的多个文本作为所述文本集合的指令。

17.根据权利要求15所述的设备，其特征在于，所述设备还包括：用于对图像库中的图像进行筛选过滤的指令，且该指令具体包括：

用于利用第二递归神经网络获取所述输入文本的文本特征的指令；

用于利用第二卷积神经网络获取图像库中的各图像的图像特征的指令；

用于计算所述输入文本的文本特征与各图像的图像特征的相关性的指令；

用于根据所述相关性的排序从所述各图像中选择多个图像，且所述选择出的多个图像形成所述图像集合的指令。

18.根据权利要求16所述的设备，其特征在于，所述设备还包括：

用于利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的指令。

19.根据权利要求18所述的设备，其特征在于，所述用于利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的指令包括：

用于利用第二卷积神经网络获取带有个体标识的图像样本的图像特征的指令；

用于利用第二递归神经网络获取带有个体标识的文本样本的文本特征的指令；

用于计算所述图像样本的图像特征与文本特征集合中的各文本样本的文本特征的第一匹配度的指令；

用于计算所述文本样本的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度的指令；

用于根据所述第一匹配度和第二匹配度的交叉熵损失函数更新所述第二卷积神经网络和第二递归神经网络的参数的指令。

20.根据权利要求18或19所述的设备，其特征在于，

和/或

21.根据权利要求18或19所述的设备，其特征在于，所述设备还包括：

用于在确定出所述图像特征集合中未包含有所述带有个体标识的图像样本的图像特征时，将所述带有个体标识的图像样本的图像特征添加在所述图像特征集合中的指令；

用于在确定出所述文本特征集合中未包含有所述带有个体标识的文本样本的文本特征时，将所述带有个体标识的文本样本的文本特征添加在所述文本特征集合中的指令。

22.根据权利要求18或19所述的设备，其特征在于，所述设备还包括：

用于将训练后的第二卷积神经网络作为初始化的第一卷积神经网络的指令；

用于将训练后的第二递归神经网络作为初始化的第一递归神经网络的指令。

23.根据权利要求14至19中任一权利要求所述的设备，其特征在于，所述用于利用第一递归神经网络获取所述文本中的各词语特征的指令包括：

用于获取所述文本中各词语的独热向量的指令；

用于将所述各词语的独热向量输入全连接层进行编码的指令；

用于将各词语对应的编码依次输入第一递归神经网络，并根据第一递归神经网络的输出获得各词语特征的指令。

24.根据权利要求14至19中任一权利要求所述的设备，其特征在于，所述图像中各区域的大小相同，且每一个图像区域所包括的图像特征的数量相同。

25.根据权利要求14至19中任一权利要求所述的设备，其特征在于，所述用于根据所述语义注意力处理的结果计算所述图像和所述文本的匹配程度的指令包括：

用于根据所述每一个词语在不同概念上对所述图像的贡献以及所述级联确定所述针对各词语的图像特征在不同概念上的贡献的指令；

用于利用递归神经网络对所述针对各词语的图像特征在不同概念上的贡献进行解码处理的指令；

用于利用全连接层和二值分类器对所述解码处理后的信息确定所述图像和文本的匹配程度的指令。

26.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述权利要求1-12中任一项所述的方法。