CN110083729B

CN110083729B - 一种图像搜索的方法及***

Info

Publication number: CN110083729B
Application number: CN201910345750.5A
Authority: CN
Inventors: 李长亮; 廖敏鹏; 宋振旗; 唐剑波
Original assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2023-10-27
Anticipated expiration: 2039-04-26
Also published as: CN110083729A

Abstract

本申请提供一种图像搜索的方法及***，所述方法包括：在得到搜索指令的情况下，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，其中，所述数据库存储有目标图像以及根据所述目标图像生成的标签；将匹配得到的标签对应的目标图像输出，由于数据库中包含有目标图像描述语句的标签，而描述语句含有对图像场景更加完整的语义描述，因此用户同样能通过相似语义的描述语句搜索到目标图像。本申请的方法支持语句检索不但丰富了图像搜索方式，也提高图像搜索效率和质量，更增强了用户图像搜索体验。

Description

一种图像搜索的方法及***

技术领域

本申请涉及计算机技术领域，特别涉及一种图像搜索的方法及***、计算设备、存储介质和芯片。

背景技术

图像搜索，通过输入与图像名称或内容相似的词或语句来进行检索，并将检索到的图像输出给用户进行使用。

随着互联网应用的普及，使用者对图像的需求场景也越来越多。例如用户可以通过网络上传图像，厂商也可以通过网络爬取图像。但是大多情况下，这些图像没有标签，在网络中难以被搜索到，而造成图像资源的浪费。

现有技术中，一副图片包含复杂的语义信息，如果用户想要更加准确的结果，需要采用描述语句进行图像搜索，则需要厂商预先对数据库中图像进行人工标注对应语句，但人工标注语句工作繁琐，容易出错，并且在需要对大规模图像进行标注的情况时效率低下。

发明内容

有鉴于此，本申请实施例提供了一种图像搜索的方法及***、计算设备、存储介质和芯片，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种图像搜索的方法，所述方法包括：

在得到搜索指令的情况下，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，其中，所述数据库存储有目标图像以及根据所述目标图像生成的标签；

将匹配得到的标签对应的目标图像输出。

可选地，所述方法还包括：

生成目标图像对应的描述语句；

根据描述语句得到关键词；

将关键词和/或描述语句作为目标图像的标签，并将所述目标图像以及所述标签存储到数据库。

可选地，所述生成目标图像对应的描述语句，包括：

将目标图像进行编码，得到对应的编码特征和全局池化特征；

根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，将所述初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并根据第二语言模型的初始参考特征生成第1个输出词；

根据编码特征、全局池化特征以及第t个输出词得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词，其中t≥1且t为正整数；

根据第1个至第t+1个输出词生成所述目标图像对应的描述语句。

可选地，将目标图像进行编码，得到对应的编码特征和全局池化特征包括：

将目标图像通过卷积神经网络模型进行编码，得到对应的编码特征；

将编码特征通过卷积神经网络模型的池化层进行池化处理，得到对应的全局池化特征。

可选地，根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，包括：

根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征；

将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征。

可选地，根据编码特征、全局池化特征以及第t个输出词得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词，包括：

S1、将第t个输出词输入至第一语言模型，得到第一语言模型的第t个非初始参考特征；

S2、根据所述全局池化特征和第t个非初始参考特征对所述编码特征进行处理，得到第t个局部特征；

S3、将第t个局部特征和第t个非初始参考特征进行聚合处理得到第t个聚合特征；

S4、将第t个聚合特征输入至第二语言模型生成第二语言模型的第t个非初始参考特征，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词；

S5、判断是否达到迭代的终止条件，若否，执行步骤S6，若是，结束；

S6、将t自加1，返回执行步骤S1。

可选地，根据描述语句得到关键词，包括：通过词频—逆文本频率指数算法将描述语句中的词在所述数据库中进行比对，并将评分大于评分阈值的词作为关键词。

可选地，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，包括：将搜索指令中的搜索语句和/或搜索词与数据库中的描述语句和/或关键词进行相似度匹配；

将匹配得到的标签对应的目标图像输出，包括：确定与所述搜索语句和/或搜索词的相似度大于阈值的描述语句和/或关键词，并将所述确定的描述语句和/或关键词对应的目标图像输出。

本申请实施例提供了一种图像搜索的***，所述***包括：

匹配模块，被配置为在得到搜索指令的情况下，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，其中，所述数据库存储有目标图像以及所述目标图像对应的标签；

图像输出模块，被配置为将匹配得到的标签对应的目标图像输出。

本申请实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述图像搜索的方法的步骤。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述图像搜索的方法的步骤。

本申请实施例提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现如上所述图像搜索的方法的步骤。

本申请提供的图像搜索的方法及***，将目标图像以及根据所述目标图像生成的标签存储于数据库中，在得到搜索指令的情况下，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，将匹配得到的标签对应的目标图像输出。由于数据库中包含有目标图像描述语句的标签，而描述语句含有对图像场景更加完整的语义描述，因此用户同样能通过相似语义的描述语句搜索到目标图像。本申请的方法支持语句检索不但丰富了图像搜索方式，也提高图像搜索效率和质量，更增强了用户图像搜索体验。

另外，本申请通过将目标图像通过卷积神经网络模型进行编码、池化处理，得到对应的编码特征和全局池化特征，然后再输入至包括第一语言模型、第二语言模型和网格选择器的解码层进行解码，最终得到该目标图像对应的标签，这样不仅能将数据库已有图像标注标签，还能将新收集图像，包括用户上传图像及网上海量图像及时标注标签并储存于数据库中且可供检索，加快数据库扩充速度、节省了人工标注成本，节约企业成本，增加了用户交互信息被搜索到的概率。

附图说明

图1是本申请实施例的计算设备的结构示意图；

图2是本申请一实施例的图像搜索的方法的流程示意图；

图3是本申请一实施例的图像搜索的方法的流程示意图；

图4是本申请一实施例的图像搜索的方法的流程示意图；

图5是本申请一实施例的图像搜索的***的具体应用示意图；

图6是本申请一实施例的图像搜索的***的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

感兴趣区域(region of interest，ROI)：机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域。在图像处理领域，感兴趣区域(ROI)是从图像中选择的一个图像区域，以便进行进一步处理。这个区域是图像分析所关注的重点。圈定该区域可以减少处理时间，增加精度。

图像描述(image caption)：一个融合计算机视觉、自然语言处理和机器学习的综合问题，根据图像给出能够图像描述内容的自然语言语句，通俗讲，它就是翻译一副图片为一段描述文字。

仿射变换：是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。

编码特征(image feats)：将目标图像输入至卷积神经网络模型进行编码，得到的编码后的特征。

全局池化特征(global feats)：将编码特征输入至池化层进行池化处理后得到的特征。池化层可以非常有效地缩小参数矩阵的尺寸，从而减少参数数量。

局部特征(local feats)：将全局池化特征、编码特征和第一语言模型的参考特征输入至网格选择器进行ROI处理，得到当前时刻的特征为局部特征。

聚合特征：将当前时刻网格选择器输出的局部特征和第一语言模型输出的参考特征进行聚合生成的特征。

参考特征：第一语言模型和第二语言模型输出的特征。

TF-IDF(term frequency–inverse document frequency，词频—逆文本频率指数)：是一种用于信息检索与数据挖掘的常用加权技术，TF指的是词频(Term Frequency)，IDF指的是逆文本频率指数(Inverse Document Frequency)。通过TF-IDF算法，可以得到每个词或短语的评分值，来表征每个词或短语的出现频率。如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

在本申请中，提供了一种图像搜索的方法及***、计算设备、存储介质和芯片，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如JEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的图像描述的方法的示意性流程图，包括下述步骤201～202。

201、在得到搜索指令的情况下，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，其中，所述数据库存储有目标图像以及根据所述目标图像生成的标签。

在得到搜索指令的情况下，还包括：对搜索指令进行解析，获取搜索指令中的搜索语句和/或搜索词。

需要解释的是，搜索指令中的搜索语句和/或搜索词可以为用户通过各种输入方式而生成，例如用户通过键盘的输入命令生成，或者通过对输入的语音进行识别生成。

具体地，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，包括：将搜索指令中的搜索语句和/或搜索词与数据库中的描述语句和/或关键词进行相似度匹配。

具体地，对于本实施例中将目标图像以及根据所述目标图像生成的标签存储到数据库的步骤，参见图3，包括下述步骤301～303：

301、生成目标图像对应的描述语句。

其中，目标图像指企业能获取的图像资源，包括用户上传图像、企业自有图像、爬取图像等。

具体地，步骤301包括下述步骤S301～S304：

S301、将目标图像进行编码，得到对应的编码特征和全局池化特征。

具体地，步骤S301包括：将目标图像通过卷积神经网络模型进行编码，得到对应的编码特征；将编码特征通过卷积神经网络模型的池化层进行池化处理，得到对应的全局池化特征。

本实施例中，卷积网络模型可以使用CNN(Convolutional Neural Network，卷积神经网络)模型对目标图像进行编码，得到的为整个目标图像对应的编码特征。具体的结构可以采用预训练的ResNet(残差网络)、VGG(Visual Geometry Group Network，视觉几何群网络)等网络模型。

其中，池化处理可以包括多种，常用的池化处理有最大池化(max pooling)或者平均池化(average pooling)的处理操作。经过池化操作，得到目标图像的全局池化特征(global feats)。

本实施例中，通过卷积神经模型对目标图像进行编码得到编码特征后，并非仅仅将编码特征输入至后续的解码层进行解码，还会进一步池化得到的全局池化特征，然后将编码特征和池化特征共同输入至解码层进行解码，以保证在解码过程中，可以更有效地利用图像信息，在选取感兴趣区域(ROI)的时候可以保证选取的结果更加准确。

S302、根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，将所述初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并根据第二语言模型的初始参考特征生成第1个输出词。

需要解释的是，第一语言模型的初始参考特征通过以下方法生成：将初始化词输入至第一语言模型，得到第一语言模型的第1个输出特征作为初始参考特征。

其中，初始化词可以人为设定的初始值。

具体地，步骤S302包括下述步骤S3021～S3022：

S3021、根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征。

具体地，步骤S3021中对编码特征进行处理得到初始局部特征，包括：根据全局池化特征和第一语言模型的初始参考特征，得到初始仿射变换矩阵；根据所述初始仿射变换矩阵对所述编码特征进行仿射变换，得到初始局部特征。

仿射变换，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。

具体地，通过网格选择器Grid selector输出初始局部特征。例如，在步骤S3021中生成了一个2*3的初始仿射变换矩阵，然后使用该2*3的初始放射变换矩阵对编码特征进行选择，得到对应的初始局部特征，从而实现对图像的感兴趣区域ROI的选取。

其中，网格选择器(Grid selector)作为底层组件，可以实现感兴趣区域(ROI)的选取。

S3022、将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征。

具体地，步骤S3022包括：将初始局部特征进行关联度计算，得到处理后的关联初始局部特征；将关联初始局部特征和初始参考特征进行拼接，得到初始聚合特征

具体地，步骤S3022包括：将初始局部特征和第一语言模型的初始参考特征分别乘以对应的权重系数，然后相加，得到初始中间向量矩阵；将所述初始中间向量矩阵的双曲正切值乘以对应的权重系数，得到注意力初始权重系数；根据注意力初始权重系数和初始局部特征，得到关联初始局部特征。

其中，双曲正切函数在计算上等于双曲正弦与双曲余弦的比值，即tanh(x)＝sinh(x)/cosh(x)。

由于那么双曲正切函数的定义式为：

具体地，注意力初始权重系数可以通过下述公式(1)得到：

α_i,1＝w_a ^Ttanh(W_vav_i+W_hah₁ ¹) (1)

其中，α_i,1代表注意力初始权重系数；

W_va、W_ha、W_a均为权重参数，W_va∈R^H*V，W_ha∈R^H*M，W_a∈R^H；

h¹ ₁代表第一语言模型的初始参考特征；

v_i代表初始局部特征。

具体地，关联初始局部特征可以通过下述公式(2)得到：

其中，α_i,1代表注意力初始权重系数；

v_i代表初始局部特征，i＝[1,k]；

代表关联初始局部特征。

需要说明的是，初始局部特征为将全局池化特征、第一语言模型的初始参考特征和编码特征输入至网格选择器Grid selector所输出的特征向量，初始参考特征为将初始化词输入第一语言模型输出的特征向量，初始局部特征和第一语言模型的初始参考特征之间的聚合，需要满足的条件为两个特征向量的维度相同。所以，将初始局部特征转换为关联初始局部特征，以生成一维向量。这样，两个一维向量直接拼接，便可以得到对应的初始聚合特征。

例如，2个一维向量a和b，拼接起来后，生成的向量A＝[a,b]。

通过此步骤S3022的处理，可以将图像信息和文字信息进行合并，然后输入至第二语言模型生成第二语言模型的初始参考特征，然后得到第1个输出词。

S303、根据编码特征、全局池化特征以及第t个输出词得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词，其中t≥1且t为正整数。

具体地，参见图4，步骤S303包括下述步骤401～406：

401、将第t个输出词输入至第一语言模型，得到第一语言模型第t个非初始参考特征。

具体地，第一语言模型可以为LSTM(Long Short-Term Memory，长短期记忆网络)模型。

LSTM(Long Short-Term Memory，长短期记忆网络)模型：是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型可以用来连接先前的信息到当前的任务上，例如使用过去的语句来推测对当前语句的理解。

LSTM模型在接收到第t个输出词的情况下，根据第t个输出词和上次得到的第t-1个非初始参考特征，得到第一语言模型的第t个非初始参考特征。

402、根据所述全局池化特征和第t个非初始参考特征对所述编码特征进行处理，得到第t个局部特征。

具体地，通过网格选择器Grid selector实现局部特征的获取，从而表征对图像的感兴趣区域ROI的选取。与现有技术相比，本实施例通过在解码层进行感兴趣区域ROI的选取，并且每次根据输入的非初始参考特征，可以更改感兴趣区域ROI的选取范围，从而可以更灵活地选取图像信息。

具体地，所述步骤402包括：根据全局池化特征和第t个非初始参考特征，得到第t个仿射变换矩阵；根据所述第t个仿射变换矩阵对所述编码特征进行仿射变换，得到第t个局部特征。

具体地，通过网格选择器Grid selector实现第t个局部特征的获取。例如，生成了一个2*3的第t个仿射变换矩阵，然后使用该2*3的第t个仿射变换矩阵对编码特征进行选择，得到对应的第t个局部特征，从而实现对图像的感兴趣区域ROI的选取。

403、将第t个局部特征和第t个非初始参考特征进行聚合处理得到第t个聚合特征。

具体地，步骤403包括：将第t个局部特征进行关联度计算，得到处理后的第t个关联局部特征；将第t个关联局部特征和第t个非初始参考特征进行拼接，得到第t个聚合特征。

具体地，将第t个局部特征和第一语言模型的第t个非初始参考特征分别乘以对应的权重系数，然后相加，得到中间向量矩阵；将所述中间向量矩阵的双曲正切值乘以对应的权重系数，得到注意力权重系数；根据注意力权重系数和第t个局部特征，得到第t个关联局部特征。

具体地，注意力权重系数可以通过下述公式(3)得到：

α_i,t＝W_a ^Ttanh(W_vav_i+W_hah_t ¹) (3)

其中，α_i,t代表注意力权重系数；

h¹ _t代表第一语言模型的第t个非初始参考特征；

v_i代表第t个局部特征。

第t个关联局部特征通过下述公式(4)得到：

其中，α_i,t代表注意力权重系数；

v_i代表第t个局部特征；

代表第t个关联局部特征。

需要说明的是，第t个局部特征(local feats)为网格选择器Grid selector所生成的特征向量，第t个非初始参考特征为经过第一语言模型生成的特征向量，二者之间的聚合，需要满足的条件为两个特征向量的维度相同。所以，将局部特征转换为关联局部特征，以生成一维向量。这样，两个一维向量直接拼接，便可以得到对应的第t个聚合特征。

例如，2个一维向量a和b，拼接起来后，生成的向量A＝[a,b]。

通过此步骤403的处理，可以将图像信息和文字信息进行合并，然后执行后续步骤，以预测下一个输出词。

404、将第t个聚合特征输入至第二语言模型生成第二语言模型的第t个非初始参考特征，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词。

本实施例中，第二语言模型可以为LSTM模型。

LSTM模型在接收到第t个聚合特征的情况下，根据第t个聚合特征和上次得到的第t-1个输出词，得到第二语言模型的第t个非初始参考特征。

本实施例中，通过第一语言模型输出的初始参考特征与全局池化特征进行处理，可以进一步生成初始仿射变换矩阵，然后通过初始仿射变换矩阵对编码特征进行处理，得到初始局部特征，然后利用初始局部特征和第一语言模型输出的初始参考特征生成聚合特征，将聚合特征输入至第二语言模型，以实现预测下一个输出的词。

步骤404中，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词，包括：将所述第二语言模型的第t个非初始参考特征进行分类处理，得到对应的第t+1个输出词。

具体地，可以通过分类器(classifier)利用束搜索(beam search)的方法，输出当前时刻概率最大的词。

405、判断是否达到迭代的终止条件，若否，执行步骤406，若是，结束。

406、将t自加1，返回执行步骤401。

通过上述步骤401～406，得到除去第1个输出词之外的其他个输出词。

S304、根据第1个至第t+1个输出词生成所述目标图像对应的描述语句。

以生成的描述语句为“一个苹果”，那么该描述语句包括3个输出词“一”“个”“苹果”。

根据初始化词，得到第一语言模型的初始参考特征，然后通过网格选择器Gridselector根据编码特征(image feats)、全局池化特征(global feats)以及第一语言模型的初始参考特征，得到输入至第二语言模型的聚合特征，并根据第二语言模型输出的初始参考特征得到第1个输出词“一”。

然后将第1个输出词“一”输入第一语言模型，得到第一语言模型的输出的第1个非初始参考特征，然后通过网格选择器Grid selector根据编码特征(image feats)、全局池化特征(global feats)以及第一语言模型的第1个非初始参考特征，得到输入至第二语言模型的聚合特征，并根据第二语言模型输出的初始参考特征得到第2个输出词“个”。

然后将第2个输出词“个”输入第一语言模型，得到第一语言模型的输出的第2个非初始参考特征，然后通过网格选择器Grid selector根据编码特征(image feats)、全局池化特征(global feats)以及第一语言模型的第2个非初始参考特征，得到输入至第二语言模型的聚合特征，并根据第二语言模型输出的初始参考特征得到第3个输出词“苹果”。

本实施例根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到第二语言模型的初始聚合特征，然后根据第二语言模型的初始聚合特征得到第1个输出词；根据编码特征、全局池化特征和第一语言模型的第t个参考特征，得到第二语言模型的第t个聚合特征，然后根据第二语言模型的第t个聚合特征得到第t个输出词，生成目标图像对应的描述语句，从而可以根据聚合特征的生成实现对图像的感兴趣区域的灵活选取。

在现有技术的图像描述任务中，需要选择感兴趣区域(ROI,region ofinterest)，然后对ROI区域进行描述。ROI区域在对图像进行编码的过程中就已开始生成，编码完成即代表这些区域已经生成，在后期并不能变化。这就限制了在图像生成过程中根据语境和语义信息去关注相对应区域的能力。而本实施例的方法可以更完整地保留图像的局部信息，更灵活地选取图像信息。

302、根据描述语句得到关键词。

其中，根据描述语句得到关键词的方法有多种：

例如通过文本过滤算法，对描述语句进行过滤，得到关键词。例如使用倾向性文本过滤算法，即计算描述语句的倾向性指标，然后为描述语句中的每个词生成对应的权重，最终得到关键词。

又例如通过TF-IDF(term frequency–inverse document frequency，词频—逆文本频率指数)算法将描述语句中的词在预保存的数据库中进行比对，将评分大于评分阈值的词作为关键词。

如果一个词在标签数据库中很少出现，但是在当前的描述语句中出现的频率高，则认为该词具有很好的区分能力，适合用来把当前的描述语句对应的目标图像和其他图像区分开来，那么就将该词作为目标图像的关键词。

具体使用时，可以通过设置出现频率阈值来确定关键词。例如一个词的出现频率低于设定的出现频率阈值，则将该词作为关键词。

以目标图像生成的描述语句“小朋友在滑冰”为例，将“小”“朋友”“滑冰”“滑”“冰”通过TF-IDF算法在数据库中查找，最终确定“滑冰”的出现频率小于出现频率阈值，则将描述语句中的“滑冰”提取出来作为目标图像的关键词。

303、将关键词和/或描述语句作为目标图像的标签，并将所述目标图像以及所述标签存储到数据库。

需要解释的是，每个目标图像对应的标签不止一个，一般会对应有包括语句和关键词的多个标签。

进一步地，在数据库中，每个标签对应的目标图像也可以为多个，例如一个关键词“滑冰”可以对应多幅图像，以供用户在搜索到该关键词的情况下得到多幅图像以供选择。

在一种情况下，将标签以及标签对应的图像共同存储于一个数据库中。

在另一种情况下，可以将标签和图像分别存储于不同的数据库中，标签数据库中存储每个标签以及标签对应的图像属性信息，例如图像链接、图像编号等。根据标签对应的图像属性信息，可以在图像数据库中进行查找。

202、将匹配得到的标签对应的目标图像输出。

具体地，将匹配得到的标签对应的目标图像输出，包括：确定与所述搜索语句和/或搜索词的相似度大于阈值的描述语句和/或关键词，并将所述确定的描述语句和/或关键词对应的目标图像输出。

具体地，在搜索指令中包含搜索语句的情况下，将搜索语句与标签数据库中的描述语句进行相似度匹配。两个语句之间的相似度匹配可以通过自然语言处理模型来实现，例如卷积神经网络(Convolutional Neural Network，CNN)模型、向量空间模型(VectorSpace Model，VSM)等。

与通过关键词进行搜索的情况相比，通过搜索语句与作为标签的描述语句直接进行句相似度检测，检索方式更智能，检索结果也更精确。

具体地，在搜索指令中包含搜索词的情况下，将搜索词与标签数据库中的关键词进行匹配。两个词的匹配方式包括多种，例如基于知识图谱的匹配或基于Word2vec词向量化工具匹配等。

本申请实施例的图像搜索的方法，通过生成目标图像对应的描述语句以及关键词，并将描述语句和关键词作为目标图像的标签存储到数据库，并在得到搜索指令的情况下，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，并将匹配得到的标签对应的目标图像输出，由于数据库中包含有目标图像描述语句的标签，而描述语句含有对图像场景更加完整的语义描述，因此用户同样能通过相似语义的描述语句搜索到目标图像。本申请的方法支持语句检索不但丰富了图像搜索方式，也提高图像搜索效率和质量，更增强了用户图像搜索体验。

另外，本实施例的方法将目标图像通过卷积神经网络模型进行编码、池化处理，得到对应的编码特征和全局池化特征，然后再输入至包括第一语言模型、第二语言模型和网格选择器的解码层进行解码，最终得到该图像对应的标签，这样不仅能将数据库已有图像标注标签，还能将新收集图像，包括用户上传图像及网上海量图像及时标注标签并储存于数据库中且可供检索，加快数据库扩充速度、节省了人工标注成本，节约企业成本，增加了用户交互信息被搜索到的概率。

为了便于理解，本申请实施例以一个具体实例进行示意性的说明。参见图5，图5以一个摩托车骑手在路上骑车为例进行说明。图5中的图像描述的***包括编码层和解码层。其中，编码层采用CNN模型的隐层输出，得到目标图像的编码特征(image feats)和全局池化特征(global feats)。

解码层采用了4个模块或模型，依次为网格选择器Grid selector、第一语言模型LSTM1、第二语言模型LSTM2和分类器classifier。

图像搜索的方法包括：

1)将目标图像输入至CNN模型，根据CNN模型的隐层输出得到编码特征。并根据编码特征的池化处理，得到全局池化特征(global feats)。

2)将编码特征(image feats)和全局池化特征(global feats)输入至解码层侧的网格选择器Grid selector。然后根据初始化词，得到LSTM1的初始参考特征h¹ ₁。

3)通过网格选择器Grid selector根据全局池化特征(global feats)以及初始参考特征h¹ ₁得到初始仿射变换矩阵，根据所述初始仿射变换矩阵对所述编码特征(imagefeats)进行仿射变换，得到初始局部特征，将初始局部特征(local feats)进行关联度计算，得到处理后的关联初始局部特征，将关联初始局部特征和初始参考特征进行拼接，得到初始聚合特征。得到的初始聚合特征输入至LSTM2，且LSTM2输出的初始参考特征h² ₁。将初始参考特征h² ₁输入至分类器classifier，得到第1个输出词“motorcycle”。

4)将第1个输出词“motorcycle”输入至LSTM1，得到输出的非初始参考特征h¹ ₂，通过网格选择器Grid selector根据全局池化特征(global feats)以及非初始参考特征h¹ ₂得到仿射变换矩阵，根据仿射变换矩阵对编码特征进行仿射变换，得到局部特征，将局部特征(local feats)进行关联度计算，得到处理后的关联初始局部特征，将关联初始局部特征和初始参考特征进行拼接，得到聚合特征。将得到的聚合特征输入至LSTM2，且LSTM2输出的非初始参考特征h² ₂。将非初始参考特征h² ₂输入至分类器classifier，得到第2个输出词“driver”。

5)依次类推，得到第3个输出词“driving”、第4个输出词“on”、第4个输出词“the”和第6个输出词“road”。

6)根据输出词，得到目标图像的描述语句“motorcycle driver driving on theroad”。

7)通过TF-IDF算法将描述语句与数据库进行比对，确定描述语句对应的关键词，包括“driving”“motorcycle driver”。

8)将描述语句、关键词作为目标图像的标签，连同目标图像共同存储于数据库。

9)在得到搜索指令的情况下，解析搜索指令中的搜索语句和/或搜索词，并将搜索词在数据库中进行匹配，并将匹配得到的标签对应的目标图像输出。

例如，搜索指令中包括搜索词“drive”，那么在数据库中查找与搜索词对应的标签“driving”，并将标签“driving”对应的目标图像输出。

又例如，预设搜索语句与图像标签中描述语句的相似度阈值为0.7。搜索指令中包括搜索语句“drive on road”，那么在数据库中查找与搜索语句“drive on road”相似度大于0.7的描述语句或者关键词。可选的，利用卷积神经网络(CNN)计算“drive on road”与描述语句“motorcycle driver driving on the road”的相似度，如计算得到相似度结果大于0.7的情况下，将该描述语句对应的目标图像输出。

本申请一实施例还提供一种图像搜索的***，参见图6，包括：

匹配模块601，被配置为在得到搜索指令的情况下，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，其中，所述数据库存储有目标图像以及根据所述目标图像生成的标签；

图像输出模块602，被配置为将匹配得到的标签对应的目标图像输出。

可选地，所述装置还包括：

描述语句生成模块，被配置为生成目标图像对应的描述语句；

关键词生成模块，被配置为根据描述语句得到关键词；

存储模块，被配置为将关键词和/或描述语句作为目标图像的标签，并将所述目标图像以及所述标签存储到数据库。

可选地，描述语句生成模块具体被配置为：

编码模块，被配置为将目标图像进行编码，得到对应的编码特征和全局池化特征；

第一输出词语生成模块，被配置为根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，将所述初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并根据第二语言模型的初始参考特征生成第1个输出词语；

第二输出词语生成模块，被配置为根据编码特征、全局池化特征以及第t个输出词语得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词语，其中t≥1且t为正整数；

描述语句生成模块，被配置为根据第1个至第t+1个输出词语生成所述目标图像对应的描述语句。

可选地，编码模块具体被配置为：将目标图像通过卷积神经网络模型进行编码，得到对应的编码特征；将编码特征通过卷积神经网络模型的池化层进行池化处理，得到对应的全局池化特征。

可选地，第一输出词语生成模块具体被配置为：根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征；将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征。

可选地，第一输出词语生成模块具体被配置为：根据全局池化特征和第一语言模型的初始参考特征，得到初始仿射变换矩阵；

根据所述初始仿射变换矩阵对所述编码特征进行仿射变换，得到初始局部特征。

可选地，第一输出词语生成模块具体被配置为：将初始局部特征进行关联度计算，得到处理后的关联初始局部特征；将关联初始局部特征和初始参考特征进行拼接，得到初始聚合特征。

可选地，第一输出词语生成模块具体被配置为：将初始局部特征和第一语言模型的初始参考特征分别乘以对应的权重系数，然后相加，得到初始中间向量矩阵；

将所述初始中间向量矩阵的双曲正切值乘以对应的权重系数，得到注意力初始权重系数；

根据注意力初始权重系数和初始局部特征，得到关联初始局部特征。

可选地，第一语言模型的初始参考特征通过以下方法生成：将初始化词语输入至第一语言模型，得到第一语言模型的第1个输出特征作为初始参考特征。

可选地，第二输出词语生成模块具体被配置为：

第一非初始参考特征生成模块，被配置为将第t个输出词语输入至第一语言模型，得到第一语言模型的第t个非初始参考特征；

局部特征生成模块，被配置为根据所述全局池化特征和第t个非初始参考特征对所述编码特征进行处理，得到第t个局部特征；

聚合特征生成模块，被配置为将第t个局部特征和第t个非初始参考特征进行聚合处理得到第t个聚合特征；

第二非初始参考特征生成模块，被配置为将第t个聚合特征输入至第二语言模型生成第二语言模型的第t个非初始参考特征，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词语；

判断模块，被配置为判断是否达到迭代的终止条件，若否，执行自增模块，若是，结束；

自增模块，被配置为将t自加1，返回执行第一非初始参考特征生成模块。

可选地，第二输出词语生成模块具体被配置为：

根据全局池化特征和第t个非初始参考特征，得到第t个仿射变换矩阵；

根据所述第t个仿射变换矩阵对所述编码特征进行仿射变换，得到第t个局部特征。

可选地，第二输出词语生成模块具体被配置为：将第t个局部特征进行关联度计算，得到处理后的第t个关联局部特征；将第t个关联局部特征和第t个非初始参考特征进行拼接，得到第t个聚合特征。

可选地，第二输出词语生成模块具体被配置为：将第t个局部特征和第一语言模型的第t个非初始参考特征分别乘以对应的权重系数，然后相加，得到中间向量矩阵；

将所述中间向量矩阵的双曲正切值乘以对应的权重系数，得到注意力权重系数；

根据注意力权重系数和第t个局部特征，得到第t个关联局部特征。

可选地，第二输出词语生成模块具体被配置为：将所述第二语言模型的第t个非初始参考特征进行分类处理，得到对应的第t+1个输出词语。

可选地，匹配模块601具体被配置为：通过词频—逆文本频率指数算法将描述语句中的词在所述数据库中进行比对，并将评分大于评分阈值的词作为关键词。

可选地，匹配模块601被配置为：将搜索指令中的搜索语句和/或搜索词与数据库中的描述语句和/或关键词进行相似度匹配；

图像输出模块602被配置为：确定与所述搜索语句和/或搜索词的相似度大于阈值的描述语句和/或关键词，并将所述确定的描述语句和/或关键词对应的目标图像输出。

上述为本实施例的一种图像搜索的***的示意性方案。需要说明的是，该***的技术方案与上述的图像搜索的方法的技术方案属于同一构思，***的技术方案未详细描述的细节内容，均可以参见上述图像搜索的方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述图像搜索的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像搜索的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像搜索的方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本申请一实施例还提供一种芯片，其存储有计算机指令，该指令被芯片执行时实现如前所述图像搜索的方法的步骤。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像搜索的方法，其特征在于，所述方法包括：

将匹配得到的标签对应的目标图像输出；

其中，所述标签根据所述目标图像对应的描述语句得到，所述描述语句的生成步骤包括：

将编码特征、全局池化特征和第一语言模型的初始参考特征输入至网格选择器，得到初始局部特征；

将所述初始局部特征和所述初始参考特征进行聚合处理，得到初始聚合特征；

将所述初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并根据第二语言模型的初始参考特征生成第1个输出词；

将第t个输出词输入至第一语言模型，得到第一语言模型的第t个非初始参考特征，其中t≥1且t为正整数；

将编码特征、全局池化特征和第t个非初始参考特征输入至所述网格选择器，得到第t个局部特征；

将第t个局部特征和第t个非初始参考特征进行聚合处理得到第t个聚合特征；

将第t个聚合特征输入至第二语言模型生成第二语言模型的第t个非初始参考特征，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词；

判断是否达到迭代的终止条件，若否，将t自加1，返回执行将第t个输出词输入至第一语言模型，得到第一语言模型的第t个非初始参考特征步骤；

若是，结束；

2.如权利要求1所述的图像搜索的方法，其特征在于，所述方法还包括：

生成目标图像对应的描述语句；

根据描述语句得到关键词；

3.如权利要求1所述的方法，其特征在于，将目标图像进行编码，得到对应的编码特征和全局池化特征，包括：

4.如权利要求2所述的图像搜索的方法，其特征在于，根据描述语句得到关键词，包括：通过词频—逆文本频率指数算法将描述语句中的词在所述数据库中进行比对，并将评分大于评分阈值的词作为关键词。

5.如权利要求2所述的图像搜索的方法，其特征在于，根据搜索指令的搜索语句和/或搜索词在数据库中进行匹配，包括：将搜索指令中的搜索语句和/或搜索词与数据库中的描述语句和/或关键词进行相似度匹配；

6.一种图像搜索的***，其特征在于，所述***包括：

图像输出模块，被配置为将匹配得到的标签对应的目标图像输出；

若是，结束；

7.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-5任意一项所述方法的步骤。

8.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-5任意一项所述方法的步骤。

9.一种芯片，其存储有计算机指令，其特征在于，该指令被芯片执行时实现权利要求1-5任意一项所述方法的步骤。