CN110472688A

CN110472688A - 图像描述的方法及装置、图像描述模型的训练方法及装置

Info

Publication number: CN110472688A
Application number: CN201910760737.6A
Authority: CN
Inventors: 廖敏鹏; 白静; 李长亮
Original assignee: Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-11-19

Abstract

本申请提供了图像描述的方法及装置、图像描述模型的训练方法及装置，其中图像描述的方法包括：对目标图像提取图像特征；将图像特征进行标签提取，生成对应的图像标签；将目标图像的图像特征和图像标签输入至图像描述模型的编码器，生成目标图像对应的特征矩阵；将特征矩阵输入至图像描述模型的解码器进行解码，得到目标图像对应的图像描述语句，从而使图像描述模型在图像描述语句的过程中，能够根据具体可靠的图像标签的信息为参考，使生成的图像描述语句包含更多的关键信息，提高图像描述语句的准确性和可靠性；并且由于在图像描述语句的生成阶段根据可靠的图像标签作为指导，减少了冗余数据的生成。

Description

图像描述的方法及装置、图像描述模型的训练方法及装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像描述的方法及装置、图像描述模型的训练方法及装置、计算设备和计算机可读存储介质。

背景技术

图像描述，其目的是从图像中自动生成一段描述性文字，即看图说话。图像描述的过程不仅要能检测出图像中的物体，而且要理解物体之间的相互关系，最后还要用合理的语言表达出来。

目前，图像描述任务中图像的信息主要采用卷积神经网络模型提取的特征(Feature map)或者是目标检测模型检测到具体目标的特征表示。这些信息都是以矩阵的形式存在，因此对同一个关键信息的表示可能不一样，如：同样是汽车，由于停放的位置或者停放的角度不一样，使得利用卷积神经网络模型和目标检测模型提取的特征表示不一样，这会增加信息的冗余和不可靠。

综上，目前的图像描述任务生成图像的描述信息主要是依赖于对图像本身进行特征提取，并根据提取的特征生成图像描述信息。在对图像进行特征提取后，由于图像特征的冗余特性，导致最终生成图像的关键描述信息出现偏差甚至生成错误的图像描述信息。

发明内容

有鉴于此，本申请实施例提供了一种图像描述的方法及装置、图像描述模型的训练方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种图像描述的方法，用于图像描述模型，所述方法包括：

对目标图像提取图像特征；

将所述图像特征进行标签提取，生成对应的图像标签；

将所述目标图像的图像特征和图像标签输入至图像描述模型的编码器，生成所述目标图像对应的特征矩阵；

将所述特征矩阵输入至图像描述模型的解码器进行解码，得到目标图像对应的图像描述语句。

可选地，将所述图像特征进行标签提取，生成对应的图像标签，包括：

将所述图像特征输入至多标签分类模型进行标签提取，生成至少一个对应的图像标签。

可选地，所述编码器包括一个编码层；

将所述目标图像的图像特征和图像标签输入至图像描述模型的编码器，生成所述目标图像对应的特征矩阵，包括：

将所述目标图像的图像特征和图像标签分别进行预处理，生成预处理图像特征和标签向量；

将预处理图像特征和标签向量输入至所述编码层，并将所述编码层的输出特征作为所述目标图像对应的特征矩阵。

可选地，所述编码器包括顺次连接的N个编码层；

S11、将所述目标图像的图像特征和图像标签分别进行特征处理，生成预处理图像特征和标签向量；

S12、将预处理图像特征和标签特征输入至第一个编码层，得到第一个编码层的输出特征；

S13、将第i-1个编码层的输出特征和标签向量输入至第i个编码层，得到第i个编码层的输出特征；

S14、将i自增1，判断自增1后的i是否小于N，若是，执行步骤S13，若否，执行步骤S15；

S15、将第N个编码层的输出特征作为所述目标图像对应的特征矩阵。

可选地，编码层包括：第一自注意力层、第一多头注意力层和第一前馈层；

将预处理图像特征和标签向量输入至第i个编码层，得到第i个编码层的输出特征，包括：

将预处理图像特征输入至第i个编码层的第一自注意力层进行处理，生成第一自注意特征；

将所述第一自注意特征和所述标签特征输入至第i个编码层的第一多头注意力层，生成第一融合特征；

将所述第一融合特征经由第一前馈层处理，生成第i个编码层的输出特征。

可选地，将所述特征矩阵输入至图像描述模型的解码器进行解码，得到目标图像对应的图像描述语句，包括：

将参考解码向量以及特征矩阵输入至所述解码器进行解码，得到所述解码器输出的解码向量；

根据所述解码向量进行线性化和归一化处理，生成目标图像对应的图像描述语句。

本申请实施例提供了一种图像描述模型的训练方法，所述方法包括：

对样本图像提取图像特征；

将所述图像特征进行标签提取，生成对应的图像标签；

将所述样本图像的图像特征、图像标签以及所述样本图像对应的样本图像描述语句输入至图像描述模型，对所述图像描述模型进行训练，直至达到训练停止条件。

可选地，所述训练停止条件包括：将所述图像描述模型生成的解码向量与预设的向量验证集进行对比，得到所述解码向量的误差的变化率小于稳定阈值。

本申请实施例提供了一种图像描述的装置，所述装置包括：

第一特征提取模块，被配置为对目标图像提取图像特征；

第一标签提取模块，被配置为将所述图像特征进行标签提取，生成对应的图像标签；

编码模块，被配置为将所述目标图像的图像特征和图像标签输入至图像描述模型的编码器，生成所述目标图像对应的特征矩阵；

解码模块，被配置为将所述特征矩阵输入至图像描述模型的解码器进行解码，得到目标图像对应的图像描述语句。

本申请实施例提供了一种图像描述模型的训练装置，所述装置包括：

第二特征提取模块，被配置为对样本图像提取图像特征；

第二标签提取模块，被配置为将所述图像特征进行标签提取，生成对应的图像标签；

训练模块，被配置为将所述样本图像的图像特征、图像标签以及所述样本图像对应的样本图像描述语句输入至图像描述模型，对所述图像描述模型进行训练，直至达到训练停止条件。

本申请实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的图像描述模型的训练方法或图像描述的方法的步骤。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述的图像描述模型的训练方法或图像描述的方法的步骤。

本申请提供的图像描述的方法及装置，通过对目标图像的图像特征进行标签提取生成对应的图像标签，将目标图像的图像特征和图像标签输入至图像描述模型，得到目标图像对应的图像描述语句，从而使图像描述模型在图像描述语句的过程中，能够根据具体可靠的图像标签的信息为参考，使生成的图像描述语句包含更多的关键信息，提高图像描述语句的准确性和可靠性；并且由于在图像描述语句的生成阶段根据可靠的图像标签作为指导，减少了冗余数据的生成。

本申请提供的图像描述模型的训练的方法及装置，将样本图像的图像特征、图像标签以及样本图像对应的样本图像描述语句输入至图像描述模型，对图像描述模型进行训练，直至达到训练停止条件，从而得到可以实现根据目标图像生成描述语句的图像描述模型。

附图说明

图1是本申请实施例涉及的Transformer模型的架构示意图；

图2是本申请一实施例的图像描述的方法的流程示意图；

图3是本申请一实施例的图像描述的方法的流程示意图；

图4是本申请一实施例的编码层的结构示意图；

图5是本申请一实施例的图像描述的方法的流程示意图；

图6是本申请一实施例的实现图像描述的方法的模型架构示意图；

图7是本申请一实施例的图像描述模型的训练方法的流程示意图；

图8是本申请另一实施例的图像描述的装置的结构示意图；

图9是本申请另一实施例的图像描述模型的训练装置的结构示意图；

图10是本申请另一实施例的计算设备的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

Transformer模型：一种神经网络架构，用于机器翻译。其主要思想是将待翻译特征或向量经过编码层(encoder)编码成为一个编码特征或向量，然后利用解码层(decoder)对编码特征或向量进行解码，得到解码向量，然后将解码向量翻译成为对应的翻译语句。

图像描述：一个融合计算机视觉、自然语言处理和机器学习的综合问题，根据图像给出能够描述图像内容的自然语言语句，通俗讲，它就是翻译一副图片为一段描述语句。

多标签分类模型：对于一个给定的文本或图像，其对应的标签可能不止一个。利用多标签分类模型可以预测该给定的文本或图像对应的标签。

在本申请中，提供了一种图像描述的方法及装置、图像描述模型的训练方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

首先，对本申请实施例的图像描述模型进行示意性的说明。实现图像描述的模型可以为多种，例如卷积神经网络(Convolutional Neural Networks，CNN)模型或循环神经网络(Recurrent Neural Networks，RNN)模型或者Transformer模型等。

其中，CNN模型一般包括：输入层、卷积层、池化层和全连接层。一方面CNN模型的神经元间的连接是非全连接的，另一方面同一层中某些神经元之间的连接的权重是共享的(即相同的)。它的非全连接和权值共享的网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。

RNN模型又称为递归神经网络，是一种具有反馈结构的神经网络，其输出不但与当前输入和网络的权值有关，而且也与之前网络的输入有关。RNN模型通过添加跨越时间点的自连接隐藏层，对时间进行建模；换句话说，隐藏层的反馈不仅仅进入输出端，而且还进入了下一时间的隐藏层。

Transformer模型的架构包括：编码器(encoder)—解码器(decoder)。编码器实现对输入的目标语句进行编码生成编码向量或对目标图像特征进行编码生成编码特征，解码器实现对编码向量或编码特征进行解码生成对应的图像描述语句。

本实施例以Transformer模型为例，对本实施例的图像描述的方法进行示意性的说明。需要说明的是，其他可以实现编码器—解码器结构的单个模型或多个模型组成的模型组也可以实现本申请的图像描述的方法均在本申请的保护范围内。

图1示出了一种Transformer模型的架构。模型分为编码器和解码器两部分。编码器由N个相同的编码层叠加于一起，每个编码层包括三个子层：第一自注意力层、第一多头注意力层和第一前馈层。其中，N≥1的正整数。

解码器由M个相同的解码层叠加于一起，每个解码层包括三个子层：隐式多头注意力层、第二多头注意力层和第二前馈层。其中，M≥1的正整数。

在使用过程中，在编码器，将目标图像的图像特征和图像标签分别进行特征处理，生成预处理图像特征和标签向量，将预处理图像特征和标签向量作为第一个编码层的输入，得到第一个编码层的输出特征，每个编码层的输出特征作为下一个编码层的输入，最后一个编码层的输出特征作为整个编码器输出的特征矩阵，输入至解码器的每个解码层。

在解码器侧，将参考向量和特征矩阵输入至第一个解码层，得到第一个解码层输出的解码向量；将特征矩阵和上一个解码层输出的解码向量输入至当前个解码层，得到当前个解码层输出的解码向量……最终得到最后一个解码层输出的解码向量作为解码器的解码向量。

将解码器的解码向量经由线性层和归一化层(softmax)进行转换，得到最终的目标语句。

需要说明的是，图像描述语句包括多个图像描述词语，对于解码器来说，每次解码得到一个图像描述词语，解码完成后得到最终的目标语句。对于图像描述语句的第一个图像描述词语，参考解码向量为预设的初始解码向量；对于图像描述语句的除去第一个图像描述词语之外的其他图像描述词语，其参考解码向量为上一个图像描述词语对应的解码向量。

本申请实施例公开了一种图像描述的方法，参见图2，包括下述步骤201～204：

201、对目标图像提取图像特征。

其中，提取图像特征的方法可以为利用特征提取模型对目标图像提取图像特征。特征提取模型可以为多种，例如CNN(Convolutional Neural Network，卷积神经网络)模型、LSTM模型等。

例如特征提取模型生成的图像特征为P*Q*L1，也即图像特征为L1个，图像特征的尺寸为P*Q。其中，P*Q是图像特征的高度*宽度。

在提取图像特征的过程中，会产生冗余数据。

冗余数据指的是在图像描述任务中产生的重复数据。在图像描述的任务中，例如图像表达的类别是同一个，但是特征提取模型提取的特征会有所差别。这样，在特征提取过程中特征提取模型会将同一类型的图像特征提取出，就会产生冗余数据。

对于不同的图像，对同一类别数据提取的特征不同，第一会增加模型学习的难度和复杂度，第二由于特征表达的差别会使实际图像描述出现偏差，尤其特征在类别边缘时，从而对图像描述任务产生不利的影响。

202、将所述图像特征进行标签提取，生成对应的图像标签。

具体地，步骤202包括：将所述图像特征输入至多标签分类模型进行标签提取，生成至少一个对应的图像标签。

例如对于一个儿童在草地上放风筝的图像，将该图像进行标签提取，得到的图像标签包括“儿童”和“风筝”两个标签。

需要注意的是，对于多标签分类模型，其相较于目标检测模型相比，具有模型结构简单、训练数据标注简单且数据丰富、模型准确度较高的优点；同时，多标签分类模型将图像中的物体场景等固化表现出来，更加符合人类描述图像的过程。

203、将所述目标图像的图像特征和图像标签输入至图像描述模型的编码器，生成所述目标图像对应的特征矩阵。

其中，编码器包括至少一个编码层；

对于编码器包括一个编码层的情形，步骤203包括下述步骤S2031～S2032：

S2031、将目标图像的图像特征和图像标签分别进行预处理，生成预处理图像特征和标签向量。

其中，对目标图像的图像特征进行相对位置编码(Positional Encoding)处理，得到预处理图像特征。具体地，相对位置编码是编码器为每个输入图像特征添加了一个特征，从而可以确定每个图像特征的位置，或者不同图像特征之间的距离。

具体地，在输入的图像特征包括长度*宽度的二维特征的情况下，生成的预处理图像特征仍为包括长度*宽度的二维特征。

例如，以图像特征为P*Q*L1，生成的预处理图像特征(v1，v2，…vn)为例，P*Q为n，每个vn为包含L1个数表示的一维向量。

具体地，对于图像标签，将图像标签进行嵌入层(embedding)处理，得到标签向量。例如一幅图像的图像标签可以为“苹果”、“足球”，那么标签向量为“苹果”“足球”对应的一维向量。

S2032、将预处理图像特征和标签向量输入至编码层，将编码层的输出特征作为目标图像对应的特征矩阵。

步骤S2032包括：将预处理图像特征输入至编码层的第一自注意力层进行处理，生成第一自注意特征；将第一自注意特征和标签向量输入至编码层的第一多头注意力层，生成第一融合特征；将第一融合特征经由第一前馈层处理，生成编码层的输出特征。

对于第一自注意力层，可以将预处理图像特征作为key-value特征对，将第一自注意特征作为query特征，然后进行自注意力计算。

对于第一多头注意力层，可以将标签向量作为key-value特征对，将第一自注意特征作为query特征。

第一自注意特征或者第一融合特征可以表示为：

其中，d_k为平滑系数。

对于编码器包括多个编码层的情形，参见图3，步骤203包括下述步骤301～305：

301、将所述目标图像的图像特征和图像标签分别进行预处理，生成预处理图像特征和标签向量。

302、将预处理图像特征和标签向量输入至第一个编码层，得到第一个编码层的输出特征。

303、将第i-1个编码层的输出特征和标签向量输入至第i个编码层，得到第i个编码层的输出特征。

304、将i自增1，判断自增1后的i是否小于N，若是，执行步骤303，若否，执行步骤305。

305、将第N个编码层的输出特征作为所述目标图像对应的特征矩阵。

更为具体地，参见图4，编码层包括：第一自注意力层、第一多头注意力层和第一前馈层。

步骤302包括：将预处理图像特征输入至第一个编码层的第一自注意力层进行处理，生成第一自注意特征；将第一自注意特征和标签向量输入至第一个编码层的第一多头注意力层，生成第一融合特征；将第一融合特征经由第一前馈层处理，生成第一个编码层的输出特征。

步骤303包括：将第i-1个编码层的输出特征输入至第i个编码层的第一自注意力层进行处理，生成第一自注意特征；将第一自注意特征和标签向量输入至第i个编码层的第一多头注意力层，生成第一融合特征；将第一融合特征经由第一前馈层处理，生成第i个编码层的输出特征。

其中，每个编码层的输出特征为三维空间矩阵，即3维张量，其维度是[batch,seq_length,hidden_dim]，其中batch为块大小；seq_length是标签个数，或者图像特征经过处理后的feature map(长*宽)大小；hidden_dim为经过编码层融合后的标签内容或图像特征的信息。

另外，由于提取的图像特征包含冗余数据，那么生成的预处理图像特征也会包含冗余数据。在编码过程中，利用图像标签可以将目标图像的预处理图像特征进行重置，减少冗余数据，使特征表述更准确。例如一幅图像中的某个特定区域是“花”，但是目标图像的预处理图像特征为v1，该预处理图像特征与标签“花”对应的标签向量u1是有差别的，由于标签“花”的标签向量更加准确，那么就直接用标签“花”的标签向量u1替代目标图像的预处理图像特征v1，以减少冗余数据的生成。

204、将所述特征矩阵输入至图像描述模型的解码器进行解码，得到目标图像对应的图像描述语句。

具体地，步骤204包括：

S2041、将参考解码向量以及特征矩阵输入至所述解码器进行解码，得到所述解码器输出的解码向量。

具体地，对于解码器包括M个顺次连接的解码层，参见图5，步骤S2041包括：

501、将参考解码向量以及特征矩阵输入至第一个解码层，得到第一个解码层的输出向量。

502、将第j-1个解码层的输出向量以及特征矩阵输入至第j个解码层，得到第j个解码层的输出向量，其中，2≤j≤M。

503、将j自增1，判断自增1后的j是否小于M，若是，执行步骤502，若否，继续执行步骤504。

504、将第M个解码层的输出向量作为目标图像对应的解码向量。

S2042、根据所述解码向量进行线性化和归一化处理，生成目标图像对应的图像描述语句。

具体地，对于每次解码，根据所述解码向量进行线性化和归一化处理，生成目标图像对应的词语，并将当前次的解码向量作为下一次解码的参考解码向量。最终，根据目标图像对应的多个词语生成图像描述语句。

其中，通过线性化(linear)处理，可以将解码向量映射为线性向量。

归一化处理可以为多种，本实施例优选使用softmax进行归一化处理，从而统计在[0,1]之间的统计概率分布，并根据概率确定每次生成的解码向量对应的词语。

本申请提供的图像描述的方法，通过对目标图像的图像特征进行标签提取生成对应的图像标签，将目标图像的图像特征和图像标签输入至图像描述模型，得到目标图像对应的图像描述语句，从而使图像描述模型在图像描述语句的过程中，能够根据具体可靠的图像标签的信息为参考，使生成的图像描述语句包含更多的关键信息，提高图像描述语句的准确性和可靠性；并且由于在图像描述语句的生成阶段根据可靠的图像标签作为指导，减少了冗余数据的生成。

其次，冗余数据的减少，会对本实施例的图像描述有以下正面影响：

1)会使模型更容易收敛。

2)图像描述变得比较可控(或者可视化)，可以利用中间类别控制图像描述的合法性等问题。

3)图像描述会更加地准确和可靠，减少无关数据的影响。

为了进一步对本申请实施例的图像描述的方法进行说明，图6示出了一实现本实施例的图像描述的方法的模型架构具体示意图。

图6中包括三个模型：特征提取模型(CNN)、多标签分类模型和Transformer模型。图6中的目标图像为一潜水员在海中潜水，并且左下方有一海龟。

本实施例的方法包括：

1)对目标图像提取图像特征V。

2)将所述图像特征进行标签提取，生成对应的图像标签U。

3)将所述目标图像的图像特征V和图像标签U输入至图像描述模型的编码器，生成目标图像对应的特征矩阵。

具体地，步骤3)包括下述步骤S11～S15：

S11、将所述目标图像的图像特征V和图像标签U分别进行预处理，生成预处理图像特征{v1,v2,…vn}和标签向量{u1,u2}。

S12、将预处理图像特征{v1,v2,…vn}和标签向量{u1,u2}输入至第一个编码层，得到第一个编码层的输出特征。

S13、将第i-1个编码层的输出特征和标签向量{u1,u2}输入至第i个编码层，得到第i个编码层的输出特征。

S14、将i自增1，判断自增1后的i是否小于N，若是，执行步骤S13，若否，执行步骤S15。

S15、将第N个编码层的输出特征作为目标图像对应的特征矩阵。

4)将所述特征矩阵输入至图像描述模型的解码器进行解码，得到目标图像对应的图像描述语句。

具体地，步骤4)包括下述步骤S21～S24：

S21、将参考解码向量以及特征矩阵输入至第一个解码层，得到第一个解码层的输出向量。

S22、将第j-1个解码层的输出向量以及特征矩阵输入至第j个解码层，得到第j个解码层的输出向量，其中，2≤j≤M。

S23、将j自增1，判断自增1后的j是否小于M，若是，执行步骤S22，若否，继续执行步骤S24。

S24、将第M个解码层的输出向量作为目标图像对应的解码向量。

具体地，将第一个解码向量进行线性化和归一化处理，生成目标图像对应的图像描述词语“一”；

将第一个解码向量作为参考解码向量，重复执行上述步骤S21～S24，得到第二个解码向量；将第二个解码向量进行线性化和归一化处理，生成目标图像对应的图像描述词语“个”；

……

依次类推，最终得到的图像描述词语包括“一”“个”“潜”“水”“员”“在”“海”“底”“观”“察”“海”“龟”，最终得到的图像描述语句为“一个潜水员在海底观察海龟”。

本申请实施例还公开了一种图像描述模型的训练方法，其中，样本图像和样本图像描述语句作为训练集输入至图像描述模型。

参见图7，所述训练方法包括：

701、对样本图像提取图像特征。

702、将所述图像特征进行标签提取，生成对应的图像标签。

703、将所述样本图像的图像特征、图像标签以及所述样本图像对应的样本图像描述语句输入至图像描述模型，对所述图像描述模型进行训练，直至达到训练停止条件。

其中，训练停止条件包括：将图像描述模型生成的解码向量与预设的向量验证集进行对比，得到所述解码向量的误差的变化率小于稳定阈值。

其中，稳定阈值可以根据实际需求而设定，例如设置为1％。这样，误差趋于稳定，就可以认为模型训练完毕了。

具体地，将所述样本图像的图像特征、图像标签以及所述样本图像对应的样本图像描述语句输入至图像描述模型，对所述图像描述模型进行训练，包括下述步骤S7031～S7034：

S7031、将所述样本图像的图像特征以及图像标签输入至图像描述模型的编码器，生成编码器的输出特征。

S7032、将参考解码向量以及输出特征输入至所述解码器进行解码，得到所述解码器输出的解码向量。

S7033、根据所述解码向量进行线性化和归一化处理，生成样本图像对应的图像描述语句。

S7034、将样本图像对应的图像描述语句以及样本图像描述语句进行误差比对，并调整所述图像描述模型的参数。

本实施例提供的图像描述模型的训练的方法，将样本图像的图像特征、图像标签以及样本图像对应的样本图像描述语句输入至图像描述模型，对图像描述模型进行训练，直至达到训练停止条件，从而得到可以实现根据目标图像生成描述语句的图像描述模型。

本申请实施例还公开了一种图像描述装置，参见图8，包括：

第一特征提取模块801，被配置为对目标图像提取图像特征；

第一标签提取模块802，被配置为将所述图像特征进行标签提取，生成对应的图像标签；

编码模块803，被配置为将所述目标图像的图像特征和图像标签输入至图像描述模型的编码器，生成所述目标图像对应的特征矩阵；

解码模块804，被配置为将所述特征矩阵输入至图像描述模型的解码器进行解码，得到目标图像对应的图像描述语句。

可选地，第一标签提取模块802具体被配置为：将所述图像特征输入至多标签分类模型进行标签提取，生成至少一个对应的图像标签。

可选地，所述编码器包括一个编码层，编码模块803具体被配置为：

可选地，编码器包括顺次连接的N个编码层，编码模块803具体被配置为：

特征处理单元，被配置为将所述目标图像的图像特征和图像标签分别进行特征处理，生成预处理图像特征和标签向量；

第一编码单元，被配置为将预处理图像特征和标签特征输入至第一个编码层，得到第一个编码层的输出特征；

第二编码单元，被配置为将第i-1个编码层的输出特征和标签向量输入至第i个编码层，得到第i个编码层的输出特征；

判断单元，被配置为将i自增1，判断自增1后的i是否小于N，若是，执行第二编码单元，若否，执行特征矩阵获取单元；

特征矩阵获取单元，被配置为将第N个编码层的输出特征作为所述目标图像对应的特征矩阵。

可选地，所述编码层包括：第一自注意力层、第一多头注意力层和第一前馈层；

所述第二编码单元被配置为：

可选地，解码模块804具体被配置为：

本实施例提供的图像描述的装置，通过对目标图像的图像特征进行标签提取生成对应的图像标签，将目标图像的图像特征和图像标签输入至图像描述模型，得到目标图像对应的图像描述语句，从而使图像描述模型在图像描述语句的过程中，能够根据具体可靠的图像标签的信息为参考，使生成的图像描述语句包含更多的关键信息，提高图像描述语句的准确性和可靠性；并且由于在图像描述语句的生成阶段根据可靠的图像标签作为指导，减少了冗余数据的生成。

上述为本实施例的一种图像描述的装置的示意性方案。需要说明的是，该装置的技术方案与上述的图像描述的方法的技术方案属于同一构思，装置的技术方案未详细描述的细节内容，均可以参见上述图像描述的方法的技术方案的描述。

本申请实施例公开了一种图像描述模型的训练装置，参见图9，包括：

第二特征提取模块901，被配置为对样本图像提取图像特征；

第二标签提取模块902，被配置为将所述图像特征进行标签提取，生成对应的图像标签；

训练模块903，被配置为将所述样本图像的图像特征、图像标签以及所述样本图像对应的样本图像描述语句输入至图像描述模型，对所述图像描述模型进行训练，直至达到训练停止条件。

可选地，训练停止条件包括：将所述图像描述模型生成的解码向量与预设的向量验证集进行对比，得到所述解码向量的误差的变化率小于稳定阈值。

本实施例提供的图像描述模型的训练装置，将样本图像的图像特征、图像标签以及样本图像对应的样本图像描述语句输入至图像描述模型，对图像描述模型进行训练，直至达到训练停止条件，从而得到可以实现根据目标图像生成描述语句的图像描述模型。

上述为本实施例的一种图像描述模型的训练装置的示意性方案。需要说明的是，该训练装置的技术方案与上述的训练方法的技术方案属于同一构思，训练装置的技术方案未详细描述的细节内容，均可以参见上述训练方法的技术方案的描述。

本申请一实施例还提供一种计算设备，其存储有计算机指令，该指令被处理器执行时实现如前所述图像描述的方法或图像描述模型的训练方法的步骤。

图10是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图10中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图10所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述图像描述的方法或图像描述模型的训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述图像描述的方法或图像描述模型的训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像描述的方法或图像描述模型的训练方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像描述的方法，其特征在于，用于图像描述模型，所述方法包括：

对目标图像提取图像特征；

将所述图像特征进行标签提取，生成对应的图像标签；

2.如权利要求1所述的方法，其特征在于，将所述图像特征进行标签提取，生成对应的图像标签，包括：

3.如权利要求1所述的方法，其特征在于，所述编码器包括一个编码层；

4.如权利要求1所述的方法，其特征在于，所述编码器包括顺次连接的N个编码层；

5.如权利要求4所述的方法，其特征在于，所述编码层包括：第一自注意力层、第一多头注意力层和第一前馈层；

6.如权利要求1所述的方法，其特征在于，将所述特征矩阵输入至图像描述模型的解码器进行解码，得到目标图像对应的图像描述语句，包括：

7.一种图像描述模型的训练方法，其特征在于，所述方法包括：

对样本图像提取图像特征；

将所述图像特征进行标签提取，生成对应的图像标签；

8.如权利要求7所述的方法，其特征在于，所述训练停止条件包括：

将所述图像描述模型生成的解码向量与预设的向量验证集进行对比，得到所述解码向量的误差的变化率小于稳定阈值。

9.一种图像描述的装置，其特征在于，所述装置包括：

第一特征提取模块，被配置为对目标图像提取图像特征；

10.一种图像描述模型的训练装置，其特征在于，所述装置包括：

第二特征提取模块，被配置为对样本图像提取图像特征；

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6或7-8任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6或7-8任意一项所述方法的步骤。