CN114782722B

CN114782722B - 图文相似度的确定方法、装置及电子设备

Info

Publication number: CN114782722B
Application number: CN202210473523.2A
Authority: CN
Inventors: 汪浩然; 何栋梁; 李甫; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-02-03
Anticipated expiration: 2042-04-29
Also published as: CN114782722A

Abstract

本公开提供了一种图文相似度的确定方法、装置及电子设备，涉及人工智能领域，尤其涉及深度学习、图像处理、计算机视觉技术领域。该方法包括：从目标图像中提取第一图像特征，以及从目标文本中提取第一文本特征；利用预定的概念表征信息，分别对目标图像和目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；其中，概念表征信息为用于表示各个指定概念的概念表征的内容；基于第一图像特征、第二图像特征，以及第一文本特征和第二文本特征，计算目标图像和目标文本之间的相似度。通过本方案，可以提高图文匹配时相似度计算的准确性。

Description

图文相似度的确定方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，具体涉及一种图文相似度的确定方法、装置及电子设备。

背景技术

所谓图像文本对齐，是通过计算一幅图像和一段文本的相似度，来确定该图像与该文本是否匹配。例如，在图像文本跨模态检索任务中，当给定一段文本时，可以依据图像与文本的相似度去检索与文本相匹配的图像；在图像描述生成任务中，给定一幅图像，需要依据图像检索相匹配的文本，并以此作为该图像的文本描述。相关技术中，实现图像文本对齐的方式，一般是对图像和文本的特征在公共空间中的直接映射进行表征，再比较映射后的特征的相似度。

发明内容

本公开提供了一种图文相似度的确定方法、装置及电子设备。

根据本公开的一方面，提供了一种图文相似度的确定方法，包括：

从目标图像中提取第一图像特征，以及从目标文本中提取第一文本特征；

利用预定的概念表征信息，分别对所述目标图像和所述目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；其中，所述概念表征信息为用于表示各个指定概念的概念表征的内容；

基于所述第一图像特征、所述第二图像特征，以及所述第一文本特征和所述第二文本特征，计算所述目标图像和所述目标文本之间的内容相似度。

根据本公开的另一方面，提供了一种图文相似度的确定装置，包括：

提取模块，用于从目标图像中提取第一图像特征，以及从目标文本中提取第一文本特征；

表征模块，用于利用预定的概念表征信息，分别对所述目标图像和所述目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；其中，所述概念表征信息为用于表示各个指定概念的概念表征的内容；

计算模块，用于基于所述第一图像特征、所述第二图像特征，以及所述第一文本特征和所述第二文本特征，计算所述目标图像和所述目标文本之间的内容相似度。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够上述图文相似度的确定方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行图文相似度的确定方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现图文相似度的确定方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例中的基于整体特征的图文对齐方法示意图；

图2是本公开实施例中的基于局部特征的图文对齐方法示意图；

图3是本公开实施例所提供的图文相似度的确定方法的流程图；

图4是本公开实施例中的常识知识概念示意图；

图5是本公开实施例所提供的图文相似度的确定方法的另一流程图；

图6是本公开实施例所提供的图文相似度的确定装置的结构示意图；

图7用来实现本公开实施例的图文相似度的确定方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

跨模态检索是指以某一模态数据作为查询词，依据不同模态的数据之间的语义相关性，返回与其具有相同或相近语义的其他模态数据的检索结果。其中，作为互联网中最广泛存在的两种模态的数据，图像和文本之间的跨模态检索，即图像-文本匹配。传统的互联网服务中，大部分跨模态检索实际上仍是通过单模态检索完成的，即对不同模态数据，如图像、视频等进行文本描述，借助文本描述通过文字之间的语义相似性进行信息检索。而在如今移动互联网时代，面对海量的多模态数据，全部对其进行人工语言描述标注显然是不现实的。这就需要能够从不同模态数据中更有效地挖掘出其中所蕴含的深层信息，并基于此进行语义相似性计算。

作为信息检索领域的重要应用，图文检索有着广泛的应用前景，例如，在搜索引擎中提供更多的查询类型选择；在电子商务中依据文本搜索商品；在安防领域通过特定人的外貌描述，对身份未知的特定人物进行搜索。图文检索则涉及到图文对齐，目前，已有的图文对齐方法一般分为以下两类方案：

(1)基于整体特征(holistic representation)对齐的方法，如图1所示，分别使用视觉编码器(如卷积神经网络)和文本编码器(如循环神经网络)对图像和文本提取全局特征，再映射到公共空间中，计算相似度。

(2)基于局部特征(local representation)对齐的方法。即，分别使用目标检测器以及循环神经网络提取图像和文本的局部特征，再映射到公共空间中，比较每一局部特征的相似度，从而进行更加细粒度的跨模态对齐。示例性的，如图2所示，针对一段文本：“Ayoung girl disposes of blue tissue paper off of a pinata.”可以提取出A、girl、tissue、pinata等单词，与图像中识别出的pinata、tissue、girl等对象一一进行相似度的比较。

上述过程可以通过预先训练完成的图文对齐模型来实现，训练的过程可以为：预先准备大量的图文样本对，并标注图文样本对是否匹配的匹配结果作为真值，将图文样本对输入该图文对齐模型中，利用双向对比学习约束(如双向三元组排序约束，bidirectional triplet ranking loss)作为损失函数，计算该图文对齐模型所识别出的对象与真值的距离，从而对该映射模型调参，直到该映射模型的损失函数收敛。

然而，由于图像和文本存在原生性的差异，会造成匹配的结果不够准确。例如，在图2中，图像中由目标检测器提取的实体“girl”和“pinata”有很大的位置重叠，这会导致二者提取的视觉特征有较高的相似度；但对于文本模态中，二者的语义关系则有很大的差异。这种现象的存在会给图文对齐模型的学习造成较大的困难。

此外，相关技术缺乏对高阶语义信息的捕捉，采用单语义层级构建图文对齐模型，即，只考虑到图像和文本的实例层，而由于在对图像的文本描述进行标注时具有主观性，其中难以避免的存在一定的噪声，这种方法对训练出的图文对齐模型对噪声的鲁棒性较差。

针对上述问题，本公开实施例提供了一种图文相似度的确定方法、装置及电子设备，该方法可以于电子设备中。在具体应用中，该电子设备可以是各种终端设备，例如，计算机，服务器等，本公开对此并不限定。

具体而言，该图文相似度的确定方法的执行主体可以为图文相似度的确定装置。示例性的，当该图文相似度的确定方法应用于终端设备时，该图文相似度的确定装置可以为运行于终端设备中的、用于计算图像与文本相似度的应用程序，例如：具备跨模态功能的搜索引擎。示例性的，当该图文相似度的确定方法应用于服务器时，该图文相似度的确定装置可以为运行于服务器中的计算机程序，该计算机程序可以用于计算图像与文本相似度。

本公开实施例所提供的一种图文相似度的确定方法，可以包括以下步骤：

本公开的实施例中，先从目标图像中提取第一图像特征，以及从目标文本中提取第一文本特征；利用预定的概念表征信息，分别对目标图像和目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；其中，概念表征信息为用于表示各个指定概念的概念表征的内容；最后基于第一图像特征、第二图像特征，以及第一文本特征和第二文本特征，计算目标图像和目标文本之间的内容相似度。可见，本实施例中，不但从目标图像和目标文本中分别提取第一图像特征和第一文本特征，而且通过各个指定概念的概念表征分别得到用于表征概念级语义的第二图像特征、第二文本特征，这样，结合了两个层级的特征来计算内容相似度，从而提高图文匹配时相似度计算的准确性。

下面结合附图，对本公开实施例所提供的一种图文相似度的确定方法进行介绍。

如图3所示，本公开实施例所提供的一种图文相似度的确定方法，可以包括以下步骤：

S301，从目标图像中提取第一图像特征，以及从目标文本中提取第一文本特征；

目标图像和目标文本是用于比较图文相似度的图像和文本。在跨模态检索场景下，目标图像可以是数据库中所存储的图像，目标文本是在检索时输入的文字内容；同样的，目标文本也可以是数据库中存储的文本内容，此时，目标图像为检索时所输入的图像。本公开实施例并不对目标图像和目标文本的来源进行限定，任一存在图文相似度进行需求的图像和文本，均可以作为目标图像和目标文本。

其中，第一图像特征为利用目标图像的图像信息所得到的特征，示例性的，第一图像特征的特征类型可以包括但不局限于颜色特征、纹理特征、形状特征或者空间关系特征。而第一文本特征是利用目标文本的文本内容所得到的特征向量。这里的第一图像特征和第一文本特征可以称作实例级跨模态特征。

并且，第一图像特征和第一文本特征可以通过预先训练完成的特征提取网络来提取。例如，在一种实现方式中，可以使用快速区域卷积神经网络Faster-RCNN(Region-Convolutional Neural Networks)提取目标图像的多个局部特征，再使用自注意力模块增强后，得到目标图像的全局特征；利用循环神经网络RNN(Recurrent Neural Network)提取目标文本的多个局部特征，再使用自注意力模块增强后，得到目标文本的全局特征。

本公开实施例并不对第一图像特征和第一文本特征的提取方式进行限定。

S302，利用预定的概念表征信息，分别对所述目标图像和所述目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；其中，所述概念表征信息为用于表示各个指定概念的概念表征的内容；

所谓的概念级语义表示概念所蕴含的意义，包含各个概念之间的常识性关联，例如，概念A出现时，概念B也同时出现的概率，概念可以为一个词，如：名词、动词、形容词等。其中，通过利用预定的概念表征信息，对目标图像和目标文本进行概念级语义表征，能够使得将目标图像和目标文本的概念级语义映射到同一特征空间，使得从概念级语义维度上目标图像和目标文本具有可比性。

其中，指定概念可以为预定语料库中的一个概念，该预定语料库可以为收录有多种语言，例如，汉语、英语等的字词的语料库，但由于字词量很大，且存在一些没有明确意义的字词，因此可以从预定语料库中剔除出现频率很低的词。例如，在一种实现方式中，可以从预定语料库中挑选出现频率高的q个单词作为指定概念，这些单词大致分为三种类型：即Object(对象)、Motion(动作)和Property(性质)。按照同类型概念在整个预定语料库中出现的比例，将(Object、Motion、Property)三个类型的概念的比例进行限定，选出频率最高的q个单词。概念表征信息，可以利用各个指定概念之间的相关性信息，按照预定的处理方式对各个指定概念进行处理得到的。例如，可以先通过词向量技术对指定概念进行处理得到指定概念的文本向量，再利用人工智能模型，如图卷积网络，对各个指定概念的相关性进行学习，得到指定概念的概念表征，每一概念表征均可以为向量的形式。具体实现过程将在下文中示例性介绍。

S303，基于所述第一图像特征、所述第二图像特征，以及所述第一文本特征和所述第二文本特征，计算所述目标图像和所述目标文本之间的内容相似度。

在一种实现方式中，可以分别将第一图像特征和第二图像特征组合，例如，将第一图像特征和第二图像特征拼接，或加权相加等；同样的，将第一文本特征和第二文本特征组合，再计算组合后特征的相似度，作为目标图像和所述目标文本之间内容相似度。

本公开的实施例中，先从目标图像中提取第一图像特征，以及从目标文本中提取第一文本特征；利用预定的概念表征信息，分别对目标图像和目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；其中，概念表征信息为用于表示各个指定概念的概念表征的内容；最后基于第一图像特征、第二图像特征，以及第一文本特征和第二文本特征，计算目标图像和目标文本之间的内容相似度。可见，本实施例中，不但从目标图像和目标文本中分别提取第一图像特征和第一文本特征，而且通过各个指定概念的概念表征分别得到用于表征概念级语义的第二图像特征和第二文本特征，这样，结合了两个层级的特征计算内容相似度，从而提高图文匹配时内容相似度计算的准确性。

可选地，在另一实施例中，所述概念表征信息是根据各个指定概念的文本向量组合，以及用于表示所述各个指定概念之间的相关性的相关性信息，所生成的。

即，通过词向量技术将各个指定概念处理成统一维度的文本向量，将各个文本向量组合在一起，再结合各个指定概念之间的相关性信息，生成概念表征信息。

本实施例中，通过各个指定概念的文本向量组合，以及用于表示所述各个指定概念之间的相关性的相关性信息，生成概念表征信息，使得既能保证生成的概念表征信息的有效性而且具有较高的生成效率。这样，后续能够利用各个指定概念之间的相关性来进行内容相似度的计算，从而提高得到的内容相似度的准确性。

可选地，在另一实施例中，当所述各个指定概念为预定语料库中的概念时，所述相关性信息可以包括：在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率。

可以理解的，各种概念之间往往存在关联，这些概念之间的共现关系构成了人类的部分常识知识。例如，如图4所示，一段文本：“A man on a surfboard riding an oceanwave”，根据常识可以推论出，当“surfboard(冲浪板)”这一概念出现时，概念“wave(波浪)”将有很大概率在图像和文本中同时出现；类似地，一段文本：“A man at bat waiting fora pitch with a catcher and umpire behind him”，当“bat(棒球帽)”这一概念出现时，“pitch(击打)”这一概念也会有较高的共现(co-occurrence)概率。因此，可以用预定语料库中每一个指定概念出现时，其他指定概念的出现概率，来表示各个指定概念之间的相关性。

本实施例中，用预定语料库中每一个指定概念出现时，其他指定概念的出现概率，来表示各个指定概念之间的相关性，可以保证相关性的有效性，同时具有较高的生成效率。这样，能够利用各个指定概念之间的共现概率来进行内容相似度的计算，从而提高得到的内容相似度的准确性。

可选地，在另一实施例中，在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率的确定方式包括：

采用预定计算公式，计算在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率；其中，所述预定计算公式包括：

其中，P_ij表示在所述预定语料库中当概念C_j出现时概念C_i的出现概率；E_ij表示概念C_i和概念C_j的在所述预定语料库中共同出现的次数，N_i表示C_i在所述预定语料库中的出现次数。

P_ij为矩阵P中的元素。

本实施例中，矩阵P可以用于表示上述相关性信息，矩阵中的元素来表示各个指定概念的共现概率，从而将抽象的概念用数学的方式表征，以利用计算机进行处理。

可选地，在另一实施例中，所述概念表征信息的构建方式可以包括：

将所述各个指定概念的文本向量组合，以及所述相关性信息输入图卷积网络，得到所述概念表征信息；

其中，所述图卷积网络的第l层计算公式为：

其中，H⁽⁰⁾＝Y，Y表示所述文本向量组合，P为用于表示所述相关性信息的矩阵，D表示P的度矩阵，

表示P正则化的对称拉普拉斯矩阵，W表示权重矩阵，ρ表示非线性激活函数，所述图卷积网络的最后一层输出Z为所述概念表征信息，Z的第i行向量Z_i表示概念C_i对应的概念表征。

图卷积网络(Graph Convolution Network，GCN)是一种多层神经网络，通过在图结构的数据上，本公开中为各个指定概念之间的拓扑结构，进行操作，并基于邻域信息来在节点间进行信息传播，实现节点的更新。与在欧式结构的数据上所进行的传统卷积运算不同，图卷积网络能够在图结构的数据上学习映射函数。

通过将各个指定概念的文本向量组合，以及所述相关性信息，输入图卷积网络来将文本向量组合及相关性信息关联在一起，构建为概念表征信息，该图卷积网络输出的Z的第i行向量Z_i表示概念C_i对应的概念表征。

本实施例中，给出了概念表征信息的数学形式，即，将各个指定概念的文本向量组合，以及所述相关性信息，输入图卷积网络，其输出的矩阵Z即为概念表征信息，Z的每一行向量代表一个指定概念的概念表征。可见，通过图卷积网络进行信息构建的方式，可以大大提升构建效率。

可选地，在另一实施例中，利用预定的概念表征信息，分别对所述目标图像和所述目标文本进行表征，得到第二图像特征和第二文本特征，可以包括：

利用预定的概念表征信息以及预定的特征计算模型，分别对所述目标图像和所述目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；

其中，所述预定的特征计算模型是基于正样本图文对和负样本图文对，以及所述概念表征信息，训练得到的模型。

由于本实施例中所生成的第二图像特征和第二文本特征最终是用于相似度的确定的，因此，可以预先准备多张图像以及多段文本，通过人工将图像与文本中相似度较大的概念标记为正样本图文对，相似度较小的概念标记为负样本图文对，将正样本图文对和负样本图文对作为该特征计算模型的训练集，将概念表征信息作为输入，进行有监督训练，直到该特征计算模型的损失函数收敛，得到训练完成的特征计算模型。再利用该特征计算模型来对所述目标图像和所述目标文本进行表征，得到第二图像特征和第二文本特征。

本实施例中，利用预定的特征计算模型，分别对所述目标图像和所述目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征，能够提高获得第二图像特征和第二文本特征的效率。

可选地，在另一实施例中，所述基于第一图像特征、所述第二图像特征，以及所述第一文本特征和所述第二文本特征，计算所述目标图像和所述目标文本之间的内容相似度包括：

计算所述第一图像特征与所述第一文本特征之间的相似度，得到第一相似度；

计算所述第二图像特征与所述第二文本特征之间的相似度，得到第二相似度；

线性组合所述第一相似度以及所述第二相似度，得到所述目标图像和所述目标文本之间的内容相似度。

上述内容相似度的计算方式可以为，计算特征向量的余弦距离、欧式距离等方式得到。通过分别计算第一图像特征与第一文本特征之间的相似度，第二图像特征与第二文本特征之间的相似度，得到第一相似度以及第二相似度，线性组合第一相似度以及第二相似度，即加权相加第一相似度和第二相似度，从而得到目标图像和目标文本之间的内容相似度。可以用公式S(v,t)＝α*S(v^I,t^I)+(1-α)*S(v^C,t^C)来表示，其中，S表余弦距离函数，v^I表示第一图像特征，t^I表示第一文本特征，v^C表示第二图像特征，t^C表示第二文本特征。

本实施例中，通过线性组合第一相似度以及第二相似度，得到目标图像和目标文本之间的内容相似度，能够根据实际情况调整线性组合时第一相似度以及第二相似度的权重，即α和(1-α)，能够进一步提高计算得到的内容相似度的准确性。

可选地，本公开的另一实施例中，上述特征计算模型的计算公式可以为：

其中，v^C和t^C分别表示任一图像的第二图像特征，以及任一文本的第二文本特征；W^v和W^t为参数矩阵；

表示指定概念C_i相对于所述任一图像在概念级语义上的；

表示指定概念C_i相对于所述任一文本在概念级语义上的第二重要性得分；λ为控制平滑度的超参数；Z_i、Z_j表示指定概念C_i、C_j对应的概念表征；

表示从所述任一图像提取的特征；t^I表示从所述任一文本中提取的文本特征，

和

分别表示Z_i和Z_j的转置矩阵，q表示指定概念的数量。

可见，该特征计算模型的训练过程，即调整W^v和W^t的过程。根据上述方法，计算出Z，同时，分别从该图像及该文本中提取特征

和

输入该模型中，即可得到该图像和文本的第二图像特征以及第二文本特征。

本实施例中，提供了特征计算模型的一种计算第二图像特征以及第二文本特征的公式，该公式利用了预定的概念表征信息，概念表征信息是根据各个指定概念之间的相关性来构建的。可见，通过本方案，利用了各个指定概念之间的相关性，来计算第二图像特征以及第二文本特征，能够避免图像和文本原生性差异所造成的图文匹配困难的问题。

可选地，在本公开的另一实施例，所述第一图像特征为通过第一特征提取模型所提取的，所述第一文本特征为通过第二特征提取模型所提取到的；

所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型是利用正样本图文对和负样本图文对联合训练得到。

可以理解的，由于第一图像特征、第二图像特征，以及所述第一文本特征和第二文本特征共同用于计算目标图像和目标文本之间的内容相似度，因此，通过联合训练第一特征提取模型、第二特征提取模型以及特征计算模型，可以进一步提高计算目标图像和目标文本之间的相似度的准确性。

在一种实现方式中，上述第一特征提取模型可以包括一个快速区域卷积神经网络Faster-RCNN，以及一个自注意力模块，Faster-RCNN用于提取图像的多个局部特征，自注意力模块将多个局部特征增强为图像的全局特征；第二特征提取模型可以包括一个循环神经网络RNN，以及一个自注意力模块，RNN用于提取文本的多个局部特征，自注意力模块将多个局部特征增强为文本的全局特征。

在一种实现方式中，所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型的联合训练方式，可以包括步骤A1-A6：

A1，获取正样本图文对和负样本图文对；所述正样本图文对包括第一样本图像和第一样本文本，所述负样本图文对包括第二样本图像和第二样本文本；

可以预先准备多张图像以及多段文本，通过人工将相匹配的图像与文本标记为正样本图文对，将不匹配的图像与文本标记为负样本图文对。将正样本图文对和负样本图文对作为第一特征提取模型、第二特征提取模型以及特征计算模型的训练集。

A2，分别将所述第一样本图像和所述第二样本图像，输入第一特征提取模型，得到第一样本图像的第一图像特征以及第二样本图像的第一图像特征；

A3，分别将所述第一样本文本和所述第二样本文本，输入第二特征提取模型，得到第一样本文本的第一文本特征和第二样本文本的第一文本特征；

A4，分别利用特征计算模型以及所述概念表征信息，计算第一样本图像、第二样本图像的第二图像特征，以及第一样本文本和第二样本文本的第二文本特征；

A5，利用所计算得到的各个图像特征和文本特征，计算模型损失；

A6，响应于基于所述模型损失确定各个模型未收敛，调整各个模型的参数。

其中，若基于所述模型损失判断出模型收敛，则结束训练，得到训练完成的各个模型；否则，调整各个模型的参数，并返回获取正样本图文对和负样本图文对的步骤。

由于相匹配的图像和文本，可以认为该图像和文本之间的相似度较高，而不匹配的图像和文本，则可以认为相似度较低。因此，通过正样本图文对和负样本图文对作为上述第一特征提取模型、第二特征提取模型以及特征计算模型的训练集，训练出的模型能够针对相匹配的图像和文本提取出相似度较高的特征，针对不匹配的图像和文本所提取出相似度较低的特征。

本实施例中提供了一种联合训练第一特征提取模型、第二特征提取模型以及特征计算模型的方式，可以保证模型训练速度，同时进一步提高计算目标图像和目标文本之间的相似度的准确性。

示例性的，在一种实现方式中，为了保证模型损失的精准性，所述利用所计算得到的各个图像特征和文本特征，计算模型损失，包括：

将所计算得到的各个图像特征和文本特征，代入预定的损失函数，得到模型损失；其中，所述预定的损失函数包括：

其中，

表示第一损失函数；

表示第二损失函数；λ为预设的超参数，也可以称作边距参数；S表示余弦距离函数；

分别表示第一样本图像的第一图像特征和第一样本文本的第一文本特征；

分别表示第二样本图像的第一图像特征和第二样本文本的第一文本特征；

分别表示第一样本图像的第二图像特征和第一样本文本的第二文本特征；

分别表示第二样本图像的第二图像特征和第二样本文本的第二文本特征。

在训练过程中，将训练集输入上述三个模型中，利用输出的结果计算上述损失函数的值，从而不断调整模型的参数，例如，使用梯度下降法调整参数，直到损失函数收敛，得到训练完成的模型。

本实施例中，提供了一种计算模型损失的方式，并给出了具体的损失函数的具体公式，通过将相关数据带入该损失函数就可以得出模型损失，从而不断调整各个模型的参数，直到模型收敛，得到训练完成的模型。

本实施例中，第一图像特征为通过第一特征提取模型所提取的，第一文本特征为通过第二特征提取模型所提取到的；第一特征提取模型、第二特征提取模型以及特征计算模型是联合训练得到。通过联合训练第一特征提取模型、第二特征提取模型以及特征计算模型，可以保证模型训练速度，同时进一步提高计算目标图像和目标文本之间的相似度的准确性。

为了方便理解，下面结合附图，对本公开所提供的图文相似度的确定方法进行示例性介绍。

如图5所示，常识知识提取模块，用于统计预定语料库中三种概念类型：即Object(对象)、Motion(动作)和Property(性质)的概念出现的比例，并按照比例选取三个类型的概念出现频率靠前的概念，一共选取q个概念，作为指定概念；将各个指定概念经过WordEmbedding(词嵌入)处理，即，词向量技术处理，将概念实例化，得到各个指定概念的文本向量，将这些文本向量组合为Y；将Y输入多层堆叠的图卷积网络中；其中，图卷积网络的最后一层图卷积层的输出Z∈R^q×d为常识知识驱动的概念表征，即上述概念表征信息，Z的第i行向量Z_i表示概念C_i对应的概念表征，d表示公共嵌入空间的维数。

在应用时，针对目标图像及目标文本，可通过训练完成的目标检测器提取目标图像的多个局部特征，再使用两个结构相同的自注意力模块增强后，得到目标图像的第一图像特征v^I以及

利用训练完成的循环神经网络提取目标文本的多个局部特征，再使用自注意力模块增强后，得到目标文本的第一文本特征t^I。将Z、

t^I输入特征计算模型进行概念预测，及第二图像特征和第二文本特征的计算，即计算目标图像以及目标文本相对于各个指定概念的得分，得到

和

带入

得到第二图像特征v^C，以及第二文本特征t^C。再将第一图像特征v^I、第一文本特征t^I，以及第二图像特征v^C、第二文本特征t^C带入目标函数：S(v,t)＝α*S(v^I,t^I)+(1-α)*S(v^C,t^C)，得到目标图像及目标文本的相似度，其中S表示余弦距离函数。

本公开的实施例中，先获取目标图像以及目标文本；从目标图像中提取第一图像特征，以及从目标文本中提取第一文本特征；利用预定的概念表征信息，分别对目标图像和目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；其中，概念表征信息为用于表示各个指定概念的概念表征的内容；最后基于第一图像特征、第二图像特征，以及第一文本特征和第二文本特征，计算目标图像和目标文本之间的相似度。可见，本实施例中，不但从目标图像和目标文本中分别提取第一图像特征和第一文本特征，而且通过各个指定概念的概念表征分别得到用于表征概念级语义的第二图像特征和第二文本特征，这样，结合了两个层级的特征来计算相似度，从而提高图文匹配时相似度计算的准确性。

本公开实施例还提供了一种图文相似的确定装置，如图6所示，该装置包括：

提取模块610，用于从所述目标图像中提取第一图像特征，以及从所述目标文本中提取第一文本特征；

表征模块620，用于利用预定的概念表征信息，分别对所述目标图像和所述目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；其中，所述概念表征信息为用于表示各个指定概念的概念表征的内容；

计算模块630，用于基于所述第一图像特征、第二图像特征，以及所述第一文本特征和第二文本特征，计算所述目标图像和所述目标文本之间的相似度。

可选地，所述概念表征信息是根据各个指定概念的文本向量组合，以及用于表示所述各个指定概念之间的相关性的相关性信息，所生成的。

可选地，所述各个指定概念为预定语料库中的概念，所述相关性信息包括：在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率。

可选地，在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率的确定方式包括：

可选地，所述概念表征信息的构建方式包括：

其中，所述图卷积网络的第l层计算公式为：

可选地，所述表征模块，具体用于利用预定的概念表征信息以及预定的特征计算模型，分别对所述目标图像和所述目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；

可选地，所述特征计算模型的计算公式为：

表示指定概念C_i相对于所述任一图像在概念级语义上的第一重要性得分；

表示从所述任一图像提取的图像特征，t^I表示从所述任一文本中提取的文本特征，

和

分别表示Z_i和Z_j的转置矩阵，q表示指定概念的数量。。

可选地，所述第一图像特征为通过第一特征提取模型所提取的，所述第一文本特征为通过第二特征提取模型所提取到的；

所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型是联合训练得到。

可选地，所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型利用正样本图文对和负样本图文对联合训练方式包括：

获取正样本图文对和负样本图文对；所述正样本图文对包括第一样本图像和第一样本文本，所述负样本图文对包括第二样本图像和第二样本文本；

分别将所述第一样本图像和所述第二样本图像，输入第一特征提取模型，得到第一样本图像的第一图像特征以及第二样本图像的第一图像特征；

分别将所述第一样本文本和所述第二样本文本，输入第二特征提取模型，得到第一样本文本的第一文本特征和第二样本文本的第一文本特征；

分别利用特征计算模型以及所述概念表征信息，计算第一样本图像、第二样本图像的第二图像特征，以及第一样本文本和第二样本文本的第二文本特征；

利用所计算得到的各个图像特征和文本特征，计算模型损失；

响应于基于所述模型损失确定各个模型未收敛，调整各个模型的参数。

可选地，所述利用所计算得到的各个图像特征和文本特征，计算模型损失，包括：

其中，

表示第一损失函数；

表示第二损失函数；λ为预设的超参数；S表示余弦距离函数；

可选地，所述计算模块，包括：

第一计算子模块，用于计算所述第一图像特征与所述第一文本特征之间的相似度，得到第一相似度；

第二计算子模块，用于计算所述第二图像特征与所述第二文本特征之间的相似度，得到第二相似度；

组合子模块，用于线性组合所述第一相似度以及所述第二相似度，得到所述目标图像和所述目标文本之间的内容相似度。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的图文相似度的确定方法。例如，在一些实施例中，图文相似度的确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的图文相似度的确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图文相似度的确定方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图文相似度的确定方法，包括：

基于所述第一图像特征、所述第二图像特征，以及所述第一文本特征和所述第二文本特征，计算所述目标图像和所述目标文本之间的内容相似度；

所述利用预定的概念表征信息，分别对所述目标图像和所述目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征，包括：

利用预定的概念表征信息以及预定的特征计算模型，分别对所述目标图像和所述目标文本的概念级语义进行表征，得到第二图像特征和第二文本特征；其中，所述预定的特征计算模型是基于正样本图文对和负样本图文对，以及所述概念表征信息，训练得到的模型；

所述特征计算模型的计算公式包括：

其中，

其中，

和

分别表示Z_i和Z_j的转置矩阵，q表示指定概念的数量。

2.根据权利要求1所述的方法，其中，所述概念表征信息是根据各个指定概念的文本向量组合，以及用于表示所述各个指定概念之间的相关性的相关性信息，所生成的。

3.根据权利要求2所述的方法，其中，所述各个指定概念为预定语料库中的概念，所述相关性信息包括：在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率。

4.根据权利要求3所述的方法，其中，在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率的确定方式包括：

采用预定计算公式，计算在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率；

其中，所述预定计算公式包括：

其中，P_ij表示在所述预定语料库中当概念C_j出现时概念C_i的出现概率；E_ij表示概念C_i和概念C_j在所述预定语料库中共同出现的次数，N_i表示C_i在所述预定语料库中的出现次数。

5.根据权利要求2所述的方法，其中，所述概念表征信息的构建方式包括：

其中，所述图卷积网络的第l层计算公式为：

6.根据权利要求1所述的方法，其中，所述第一图像特征为通过第一特征提取模型所提取的，所述第一文本特征为通过第二特征提取模型所提取到的；

7.根据权利要求6所述的方法，其中，所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型的联合训练方式包括：

分别将所述第一样本图像和所述第二样本图像，输入所述第一特征提取模型，得到所述第一样本图像的第一图像特征以及所述第二样本图像的第一图像特征；

分别将所述第一样本文本和所述第二样本文本，输入所述第二特征提取模型，得到所述第一样本文本的第一文本特征和所述第二样本文本的第一文本特征；

分别利用特征计算模型以及所述概念表征信息，计算所述第一样本图像和所述第二样本图像的第二图像特征，以及所述第一样本文本和所述第二样本文本的第二文本特征；

8.根据权利要求7所述的方法，其中，所述利用所计算得到的各个图像特征和文本特征，计算模型损失，包括：

其中，

表示第一损失函数；

分别表示所述第一样本图像的第一图像特征和所述第一样本文本的第一文本特征；

分别表示所述第二样本图像的第一图像特征和所述第二样本文本的第一文本特征；

分别表示所述第一样本图像的第二图像特征和所述第一样本文本的第二文本特征；

分别表示所述第二样本图像的第二图像特征和所述第二样本文本的第二文本特征。

9.根据权利要求1所述的方法，其中，所述基于第一图像特征、所述第二图像特征，以及所述第一文本特征和所述第二文本特征，计算所述目标图像和所述目标文本之间的内容相似度包括：

10.一种图文相似度的确定装置，包括：

计算模块，用于基于所述第一图像特征、所述第二图像特征，以及所述第一文本特征和所述第二文本特征，计算所述目标图像和所述目标文本之间的内容相似度；

所述表征模块，具体用于：

其中，所述预定的特征计算模型是基于正样本图文对和负样本图文对，以及所述概念表征信息，训练得到的模型；所述特征计算模型的计算公式包括：

其中，

其中，

和

分别表示Z_i和Z_j的转置矩阵，q表示指定概念的数量。

11.根据权利要求10所述的装置，其中，所述概念表征信息是根据各个指定概念的文本向量组合，以及用于表示所述各个指定概念之间的相关性的相关性信息，所生成的。

12.根据权利要求11所述的装置，其中，所述各个指定概念为预定语料库中的概念，所述相关性信息包括：在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率。

13.根据权利要求12所述的装置，其中，在所述预定语料库中每一个指定概念出现时，其他指定概念的出现概率的确定方式包括：

其中，所述预定计算公式包括：

14.根据权利要求11所述的装置，其中，所述概念表征信息的构建方式包括：

其中，所述图卷积网络的第l层计算公式为：

15.根据权利要求10所述的装置，其中，所述第一图像特征为通过第一特征提取模型所提取的，所述第一文本特征为通过第二特征提取模型所提取到的；

16.根据权利要求15所述的装置，其中，所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型的联合训练方式包括：

响应于基于所述模型损失确定各个模型为收敛，调整各个模型的参数。

17.根据权利要求16所述的装置，其中，所述利用所计算得到的各个图像特征和文本特征，计算模型损失，包括：

其中，

表示第一损失函数；

18.根据权利要求10所述的装置，其中，所述计算模块，包括：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。