WO2020108234A1

WO2020108234A1 - 图像索引生成方法、图像搜索方法、装置、终端及介质

Info

Publication number: WO2020108234A1
Application number: PCT/CN2019/115411
Authority: WO
Inventors: 侯允; 刘耀勇; 陈岩
Original assignee: Oppo广东移动通信有限公司
Priority date: 2018-11-30
Filing date: 2019-11-04
Publication date: 2020-06-04
Also published as: CN109635135A

Abstract

一种图像索引生成方法、图像搜索方法、装置、终端及介质。该方法包括：获取第一图像（101）；对第一图像进行图像识别，得到第一图像对应的识别结果（102）；根据识别结果生成描述语句（103）；将描述语句确定为第一图像的索引，并将索引与第一图像对应存储（104）。该方法通过识别出图像中所包括的各个对象分别对应的识别结果，并根据识别结果生成描述图像的描述语句，将上述描述语句确定为该图像的索引，后续当用户需要搜索该图像时，可以输入该索引中所包括的词语，或者与该索引中所包括的词语的含义相近的词语，终端可以根据用户输入的词语准确地查找该图像，提高了在相册中搜索图像的搜索效率。

Description

图像索引生成方法、图像搜索方法、装置、终端及介质

本申请要求于2018年11月30日提交的申请号为201811457455.0、发明名称为“图像索引生成方法、装置、终端及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及搜索技术领域，特别涉及一种图像索引生成方法、图像搜索方法、装置、终端及介质。

背景技术

目前，终端中通常安装有相册应用程序，该相册应用程序通常用于存储拍摄得到的图像、从网络上保存的图像等。

当相册中保存的图像较多时，用户若需要从上述保存的图像中查找到自己所需的图像，则需要查找终端中的各个相册目录，从相应的相册目录中找到自己所需的图像。

发明内容

本申请实施例提供了一种图像索引生成方法、图像搜索方法、装置、终端及介质。所述技术方案如下：

一个方面，提供了一种图像索引生成方法，所述方法包括：

获取第一图像；

对所述第一图像进行图像识别，得到所述第一图像对应的识别结果；

根据所述识别结果生成描述语句，所述描述语句用于描述所述第一图像；

将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储。

另一方面，提供了一种图像搜索方法，所述方法包括：

显示搜索框；

接收在所述搜索框输入的第一关键字；

在相册中搜索与所述第一关键字相匹配的第二图像，所述第二图像对应的索引中包括第一目标关键字，所述第一目标关键字与所述第一关键字相匹配，所述第二图像对应的索引是根据所述第二图像的识别结果生成的描述语句；

显示搜索结果，所述搜索结果包括所述第二图像。

另一方面，提供了一种图像索引生成装置，所述装置包括：

图像获取模块，用于获取第一图像；

图像识别模块，用于对所述第一图像进行图像识别，得到所述第一图像对应的识别结果；

语句生成模块，用于根据所述识别结果生成描述语句，所述描述语句用于描述所述第一图像；

索引生成模块，用于将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储。

又一方面，提供了一种图像搜索装置，所述装置包括：

搜索框显示模块，用于显示搜索框；

关键字接收模块，用于接收在所述搜索框输入的第一关键字；

图像搜索模块，用于在相册中搜索与所述第一关键字相匹配的第二图像，所述第二图像对应的索引中包括第一目标关键字，所述第一目标关键字与所述第一关键字相匹配，所述第二图像对应的索引是根据所述第二图像的识别结果生成的描述语句；

结果显示模块，用于显示搜索结果，所述搜索结果包括所述第二图像。

又一方面，本申请实施例提供一种终端，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述图像索引生成方法，或实现上述图像搜索方法。

又一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述图像索引生成方法，或实现上述图像搜索方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的图像索引生成方法的流程图；

图2为本申请另一个实施例提供的图像索引生成方法的流程图；

图3为本申请一个实施例提供的图像搜索方法的流程图；

图4为本申请另一个实施例提供的图像搜索方法的流程图；

图5为本申请一个实施例提供的图像索引生成装置的框图；

图6为本申请一个实施例提供的图像搜索装置的框图；

图7为本申请一个实施例提供的终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种图像索引生成方法、装置、终端及存储介质，通过识别出图像中所包括的各个对象分别对应的识别结果，并通过语言描述模型来生成包括上述识别结果，且用于描述图像的描述语句，将上述描述语句确定为该图像的索引，后续当用户需要搜索该图像时，可以输入该索引中所包括的词语，或者与该索引中所包括的词语的含义相近的词语，终端可以根据用户输入的词语准确地查找该图像，提高了在相册中搜索图像的搜索效率。

本申请实施例提供的技术方案，各步骤的执行主体为终端。可选地，终端中安装有相册应用程序，相册应用程序是指用于存储图像的应用程序。该图像可以是用户拍摄的图像(包括照片和视频)，也可以是用户从其他应用程序中保存的图像(包括照片和视频)。终端可以是手机、平板电脑、个人计算机、智能可穿戴设备、相机、智能播放设备等等。

本申请实施例提供了一种图像索引生成方法，所述方法包括：

获取第一图像；

可选地，所述根据所述识别结果生成描述语句，包括：

将所述识别结果转换为第一词向量；

通过语言描述模型对所述第一词向量进行处理，得到所述描述语句。

可选地，所述获取第一图像之后，还包括：

获取所述第一图像的关联信息，所述关联信息包括以下至少一项：位置信息、时间信息、场景信息；

所述根据所述识别结果生成描述语句，包括：

将所述识别结果转换为第一词向量；

将所述关联信息转换为第二词向量；

通过语言描述模型对所述第一词向量和所述第二词向量进行处理，得到所述描述语句。

可选地，所述将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储之前，还包括：

显示询问信息，所述询问信息用于询问是否将所述描述语句确定为所述索引；

在接收到对应于所述询问信息的确认指示时，执行所述将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储的步骤。

可选地，所述显示询问信息之后，还包括：

在未接收到所述确认指示时，显示输入框；

接收在所述输入框输入的语句；

将所述输入的语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储。

可选地，所述对所述第一图像进行图像识别，得到所述第一图像对应的识别结果，包括：

通过图像识别模型对所述第一图像进行图像识别，得到所述第一图像中的至少一个对象分别对应的识别结果；

其中，所述图像识别模型是采用多个样本图像训练得到的神经网络模型，所述多个样本图像中的每个样本图像中的对象对应有分类标签。

可选地，所述根据所述识别结果生成描述语句之前，还包括：

获取训练样本集，所述训练样本集包括多个样本图像，所述样本图像对应有所述识别结果对应的期望描述语句；

对于所述样本图像，将所述识别结果通过语言描述模型进行处理，输出实际描述语句；

计算所述实际描述语句与所述期望描述语句之间的误差；

当所述误差大于预设阈值时，则调整所述语言描述模型的参数，并从所述对于所述每个样本图像，通过语言描述模型进行处理，输出实际描述语句的步骤开始执行；直至所述误差小于或等于所述预设阈值时，停止训练，得到完成训练的所述语言描述模型，所述语言描述模型用于根据所述识别结果生成所述描述语句。

本申请实施例还提供了一种图像搜索方法，所述方法包括：

显示搜索框；

接收在所述搜索框输入的第一关键字；

显示搜索结果，所述搜索结果包括所述第二图像。

可选地，所述显示搜索结果之前，还包括：

当所述第二图像的数量大于预设数量时，显示提示信息，所述提示信息用于提示输入第二关键字；

获取所述第二关键字；

在所述第二图像中搜索与所述第二关键字匹配的第三图像，所述第三图像对应的索引中包括第二目标关键字，所述第二目标关键字与所述第二关键字相匹配；

其中，所述搜索结果包括所述第三图像。

请参考图1，其示出了本申请一个实施例提供的图像索引生成方法的流程图。该方法可以包括如下步骤：

步骤101，获取第一图像。

在一种可能的实现方式中，第一图像可以是终端上的摄像头采集到的图像。可选地，终端上设置有摄像头且安装有拍摄类应用程序，拍摄类应用程序是指用于拍摄图像的应用程序，例如，相机应用程序、美颜应用程序或其他应用程序等。当该拍摄类应用程序运行时，终端接收作用在当前拍摄界面上的拍摄控件的触发信号时，获取摄像头采集到的图像作为第一图像。

在另一种可能的实现方式中，第一图像可以不是终端上的摄像头采集到的图像，是用户从其他应用程序中保存的图像。可选地，第一图像是从网络中获取到的图像或者是截图。可选地，当终端的显示界面中显示有一图像，当终端接收到对应于该图像的保存指令时，根据该保存指令从网络中获取该图像作为第一图像。

此外，本申请实施例对第一图像的获取方式以及时机均不作限定。

步骤102，对第一图像进行图像识别，得到第一图像对应的识别结果。

第一图像对应的识别结果用于指示第一图像包括的对象，例如，第一图像中可以包括一个或多个对象，例如人物、动物、建筑、风景等等。在本申请实施例中，终端通过如下步骤确定各个对象分别所属的分类，各个对象所属的分类用于指示对象具体所属的类别，例如，该对象是猫或狗或草或人或其他类别：通过图像识别模型对第一图像进行图像识别，得到第一图像中的至少一个对象分别对应的识别结果。

图像识别模型是采用多个样本图像训练得到的神经网络模型，例如，图像识别模型可以是采用多个样本图像对深度学习网络进行训练得到的，多个样本图像中的每个样本图像中的对象对应有分类标签，分类标签用于表征对象所属的类别。在本申请的一些实施例中，图像识别模型包括：一个输入层、至少一个卷积层(比如包括第一卷积层、第二卷积层和第三卷积层共3个卷积层)、至少一个全连接层(比如包括第一全连接层和第二全连接层共2个全连接层)和一个输出层。输入层的输入数据即为第一图像，输出层的输出结果是该第一图像所包括的至少一个对象分别所属的分类。图像识别过程如下：将第一图像输入至图像识别模型的输入层，由图像识别模型的卷积层提取该第一图像的特征，而后由图像识别模型的全连接层对上述特征进行组合和抽象，得到适用于输出层进行分类的数据，最后由输出层输出该第一图像所包括的至少一个对象分别对应的识别结果。

在本申请实施例中，对图像识别模型的卷积层和全连接层的具体结构不作限定，上述实施例所示的图像识别模型仅是示例性和解释性的，并不用于限定本申请。一般来说，卷积神经网络的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合对识别精度和效率的要求，设计适当层数的卷积神经网络。

样本图像是指预先选定的，用于对图像识别模型进行训练的图像。样本图像具有分类标签，样本图像的分类标签通常由人工确定，用于描述样本图像对应的场景、物品、人物等等。

可选地，神经网络可以是深度学习网络，深度学习网络可采用alexNet网络、VGG-16网络、GoogleNet网络、Deep Residual Learning(深度残差学习)网络等等，本申请实施例对此不作限定。另外，训练深度学习网络时所采用的算法可以是BP(Back-Propagation，反向传播算法)、faster RCNN(Regions with Convolutional Neural Network，区域卷积神经网络)算法等，本申请实施例对此不作限定。

下面以训练深度学习网络时所采用的算法为BP算法为例，对图像识别模型的训练过程进行讲解：首先初始化深度学习网络中各个层的参数；其次将样本图像输入深度学习网络，得到样本图像对应的识别结果；然后将识别结果与分类标签进行比对，得到识别结果与分类标签之间的误差；最后基于上述误差调整深度学习网络中各个层的参数，重复上述步骤，直至识别结果与分类标签之间的误差小于预设数值，此时得到训练完成的深度学习网络，也即得到图像识别模型。

步骤103，根据识别结果生成描述语句。

描述语句用于描述第一图像。描述语句中包括至少一个对象分别对应的识别结果。可选地，描述语句中还包括其它词语，该其它词语可以用于形容以下至少一种：至少两个对象之间的位置关系、某一对象正在执行的动作、某一对象所处的状态等等。示例性地，对第一图像进行识别，得到第一图像中的对象包括狗和草地，并且该狗在草地上的姿态为跑动，将上述识别结果输入语言描述模型中，得到该第一图像对应的描述语句为“狗在草地上跑动”。

在本申请的一些实施例中，语言描述模型包括：一个输入层、至少一个卷积层(比如包括第一卷积层、第二卷积层和第三卷积层共3个卷积层)、至少一个全连接层(比如包括第一全连接层和第二全连接层共2个全连接层)和一个输出层。输入层的输入数据即为第一图像，以及第一图像中的对象所属的识别结果，输出层的输出结果是该第一图像对应的描述语句。描述语句的生成过程如下：将第一图像以及第一图像中的对象的识别结果输入至语言描述模型的输入层，由语言描述模型的卷积层提取上述输入内容的特征，而后由语言描述模型的全连接层对上述特征进行组合和抽象，最后由输出层输出该第一图像对应的描述语句。

在本申请实施例中，对语言描述模型的卷积层和全连接层的具体结构不作限定，上述实施例所示的语言描述模型仅是示例性和解释性的，并不用于限定本申请。一般来说，卷积神经网络的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合对运算精度和效率的要求，设计适当层数的卷积神经网络。

可选地，步骤103可以包括如下子步骤：

在一个示例中，步骤103可以实现为：

步骤103a，将识别结果转换为第一词向量；

步骤103b，通过语言描述模型对第一词向量进行处理，得到描述语句。

在本申请实施例中，终端通过词向量模型将识别结果转换成相应的词向量，词向量是指表征词语的向量，词向量模型是指将词语转换为词向量的模型，并将上述词向量输入语言描述模型，由语言描述模型输出描述语句。上述词向量模型可以是word2vec模型。

在另一个示例中，终端还可以获取第一图像的关联信息。此时，步骤103还可以实现为：

1、将识别结果转换为第一词向量；

2、将关联信息转换为第二词向量；

在本申请实施例中，关联信息包括以下至少一项：位置信息、时间信息、场景信息。位置信息用于指示拍摄第一图像时的地理位置，例如，上海、北京、加拿大等等，时间信息用于指示获取第一图像时的时间，例如，春天、夏天、秋天、冬天、清晨、傍晚等等；场景信息用于指示第一图像对应的场景，例如，公园、海滩、商场、学校等等。终端可以通过词向量模型将关联信息转换成相应的词向量。

3、通过语言描述模型对第一词向量和第二词向量进行处理，得到描述语句。

终端将第一词向量和第二词向量输入语言描述模型，使得最终生成的描述语句更丰富。

示例性地，下面以关联信息为位置信息为例进行介绍说明。

第一，获取第一图像的位置信息。

第二，将位置信息转换成第二词向量；

第三，通过语言描述模型对第一词向量和第二词向量进行处理，得到描述语句。

位置信息用于指示拍摄第一图像时的地理位置。当第一图像为终端通过摄像头采集的图像时，该位置信息可以通过终端中的定位组件，例如，GPS(Global Positioning System，全球定位***)组件来获取。当然，在其他可能的实现方式中，终端还可以通过对第一图像进行图像识别，来获取第一图像的位置信息。将位置信息转换成词向量的方式可以参考步骤103a，此处不作赘述。在本申请实施例中，通过结合拍摄第一图像的地理位置来生成第一图像对应的描述语句，能够更加完整地描述该第一图像，后续用户可以通过多个不同的关键字来搜索该第一图像，提升搜索的便利性。

示例性地，对第一图像进行识别，得到第一图像中的对象包括狗和草地，并且该狗在草地上的姿态为跑动，此外，拍摄该第一图像的地理位置为XX公园，则该第一图像对应的描述语句为“狗在xx公园的草地上跑动”。

步骤104，将描述语句确定为第一图像的索引，并将索引与第一图像对应存储。

终端将描述语句确定为第一图像的索引，并将该索引与第一图像进行对应存储。后续若用户需要查找该第一图像，则只需输入该描述语句包括的至少一个词语，或者与该描述语句中的词语相匹配的词语，例如，与该描述语句中的词语之间的相似度大于预设阈值的词语，则终端可以根据用户输入的词语查找到该第一图像，并将该第一图像展示给用户。

另外，本申请实施例对存储描述语句与第一图像的路径不作限定，其可以由终端预先设定，也可以由用户自定义设定。

综上所述，本申请实施例提供的技术方案，通过识别出图像中所包括的各个对象分别对应的识别结果，并根据识别结果来生成描述图像的描述语句，将上述描述语句确定为该图像的索引，后续当用户需要搜索该图像时，可以输入该索引中所包括的词语，或者与该索引中所包括的词语的含义相近的词语，终端可以根据用户输入的词语准确地查找该图像，提高了在相册中搜索图像的搜索效率。

另外，通过根据图像的识别结果来生成用于描述该图像的描述语句，并将该描述语句确定为该图像的索引，生成的索引准确。

请参考图2，其示出了本申请另一个实施例提供的图像索引生成方法的流程图。该方法可以包括如下步骤：

步骤201，获取第一图像。

步骤202，对第一图像进行图像识别，得到第一图像对应的识别结果。

步骤203，根据识别结果生成描述语句。

步骤204，显示询问信息。

在本申请实施例中，询问信息用于询问是否将该描述语句确定为索引。示例性地，询问信息为“该图像对应的描述语句为“在鸟巢看演唱会”，是否确认？”。

在本申请实施例中，用户可以预览通过语言描述模型所生成的描述语句，并决定是否将上述生成的描述语句确定为第一图像的索引。

步骤205，在接收到对应于询问信息的确认指示时，将描述语句确定为第一图像的索引，并将索引与第一图像对应存储。

若用户确定将该生成的描述语句确定为该图像的索引，则可以对该询问信息下达确认指示。对应于询问信息的确认指示用于指示确认将该生成的描述语句确定为该图像的索引。可选地，询问信息的周侧显示有确认控件，当终端接收到作用在该确认控件的触发信号时，终端接收到对应于询问信息的确认指示。

步骤206，在未接收到确认指示时，显示输入框。

输入框用于接收用户输入的第一图像对应的描述语句。可选地，当终端在预设时间内未接收到作用在该确认控件的触发信号，则终端未接收到确认指示。可选地，询问信息的周侧还显示有否认控件，当终端接收到对应于该否认控件的触发信号时，则终端未接收到确认指示，此时终端可以显示输入框。

步骤207，接收在输入框输入的语句。

在本申请实施例中，当用户对生成的描述语句不满意时，可以自行输入该目标图像的描述语句。

步骤208，将输入的语句确定为第一图像的索引，并将索引与第一图像对应存储。

综上所述，本申请实施例提供的技术方案，通过用户判断是否将生成的描述语句确认为图像的索引，并在用户不满意终端所生成的描述语句的情况下，由用户自行输入该图像对应的描述语句，以使得后续用户能够根据自身所输入的描述语句来对该图像进行搜索，提高了索引的准确性，进而提高最终的图像索引效率。在生成第一图像的索引之后，用户可以根据该索引在相册中搜索第一图像。下面对该搜索过程进行讲解。在基于图1或图2所示实施例提供的一个可选实施例中，在步骤104之后，或者，在步骤208之后，如图3所示，本申请实施例还提供了一种图像搜索方法的流程图，该图像搜索方法可以包括如下步骤：

步骤301，显示搜索框。

搜索框用于供用户输入搜索关键字，以使得终端能够查找与该搜索关键字相匹配的图像。在一种可能的实现方式中，相册应用程序的主界面中显示有该搜索框。在另一种可能的实现方式中，相册应用程序的主界面显示有搜索控件，当用户触发该搜索控件时，终端接收到对应于该搜索控件的触发信号，并根据该触发信号显示搜索框。本申请实施例对搜索框的显示方式不作限定。

步骤302，接收在搜索框输入的第一关键字。

第一关键字由用户输入，其可以是“故宫”、“猫”“玫瑰花”等等，本申请实施例对此不作限定。

步骤303，在相册中搜索与第一关键字相匹配的第二图像。

第二图像的数量可以是一张，也可以是多张。第二图像对应的索引用于描述该第二图像，第二图像对应的索引是根据第二图像的识别结果生成的描述语句，第二图像对应的索引中包括第一目标关键字。第一目标关键字可以是第二图像中所包括的对象对应的识别结果，也可以是描述语句中除识别结果之外的其它词语，本申请实施例对此不作限定。通过上述方式，用户可以通过不同的关键字来搜索同一图像，降低搜索图像的难度。

示例性地，第一目标关键字与第一关键字相匹配，例如，第一目标关键字与第一关键字之间的相似度符合预设条件。上述预设条件可以是第一目标关键字与第一关键字之间的相似度大于预设阈值，上述预设阈值可以根据实际需求设定，本申请实施例对此不作限定。

可选地，终端先计算出终端所存储的各个描述语句所包括的词语与第一关键字之间的相似度，之后将与第一关键字之间的相似度符合预设条件的词语确定为第一目标关键字，最后将包含该第一目标关键字的描述语句对应的图像作为与第一关键字相匹配的第二图像。

另外，可以通过如下方式计算第一关键字与描述语句所包括的词语之间的相似度：终端通过词向量模型将第一关键字表示为第一向量，将描述语句所包括的词语表示为第二向量，之后通过计算第一向量与第二向量之间的余弦距离，来计算第一关键字与描述语句所包括的词语之间的相似度，余弦距离越大，表明第一关键字与描述语句所包括的词语之间的相似度越低；反之，余弦距离越小，表明第一关键字与描述语句所包括的词语之间的相似度越高。之后，终端可以将余弦距离满足预设条件的词语确定为第一目标关键字。

步骤304，显示搜索结果。

终端在搜索结果页面中显示该搜索结果，搜索结果包括上述第二图像。当第二图像的数量为多张时，终端可以根据第一目标关键字与第一关键字之间的相似度的大小，来对第二图像进行排序。可选地，第一目标关键字与第一关键字之间的相似度越大，则包含该第一目标关键字的描述语句对应的第二图像在搜索结果页面中的排列顺序越靠前；第一目标关键字与第一关键字之间的相似度越小，则包含该第一目标关键字的描述语句对应的第二图像在搜索结果页面中的排列顺序越靠后。

综上所述，本申请实施例提供的技术方案，通过根据上文实施例所生成的图像索引来进行图像搜索，用户只需输入该索引中所包括的词语，或者与该索引中所包括的词语的含义相近的词语，终端就可以根据用户输入的词语准确地查找该图像，提高了在相册中搜索图像的搜索效率。

当用户输入第一关键字时，终端根据该第一关键字搜索的第二图像的数量较多时，此时用户需要在较多的第二图像中筛选出自己期望搜索到的图像，搜索效率依然较为低下。

请参考图4，其示出了本申请另一个实施例提供的图像搜索方法的流程图。该图像搜索方法可用于解决根据第一关键字搜索到的第二图像较多时，搜索效率低下的问题。该方法包括如下几个步骤：

步骤401，显示搜索框。

步骤402，接收在搜索框输入的第一关键字。

步骤403，在相册中搜索与第一关键字相匹配的第二图像。

步骤404，当第二图像的数量大于预设数量时，显示提示信息。

预设数量可以根据实际需求设定，本申请实施例对此不作限定。示例性地，预设数量为10张。提示信息用于提示输入第二关键字。可选地，第二关键字与第一关键字不同。

在本申请实施例中，终端在查找到与第一关键字相匹配的第二图像时，先检测该第二图像的数量是否大于预设数量。若该第二图像的数量小于或等于预设数量，则直接显示该第二图像。若第二图像的数量大于预设数量，则提示用户输入更多的关键字，以使得终端在上述与第一关键字相匹配的第二图像中继续筛选出与第一关键字、第二关键字均匹配的第三图像。

步骤405，获取第二关键字。

第二关键字也由用户输入，其与第一关键字不同。示例性地，上述提示信息中包括供用户输入第二关键字的输入框，用户可以在该输入框中输入第二关键字，以使得终端获取到该第二关键字。

步骤406，在第二图像中搜索与第二关键字匹配的第三图像。

第三图像对应的索引中包括第二目标关键字。第二目标关键字与第二关键字相匹配，示例性地，第二目标关键字与第二关键字之间的相似度符合第二预设条件。上述第二预设条件可以是第二目标关键字与第二关键字之间的相似度大于预设阈值，上述预设阈值可以根据实际需求设定，本申请实施例对此不作限定。

在一个示例中，终端先计算出终端所存储的各个描述语句所包括的词语与第一关键字之间的相似度，以及终端所存储的各个描述语句所包括的词语与第二关键字之间的相似度；之后将与第一关键字之间的相似度符合第一预设条件的词语确定为第一目标关键字，将与第二关键字之间的相似度符合第二预设条件的词语确定为第二目标关键字；最后将包含该第一目标关键字和第二目标关键字的描述语句对应的图像作为与第一关键字、第二关键字均匹配的第三图像。另外，第二关键字与描述语句所包括的词语之间的相似度的计算方式可以参考步骤303，此处不作赘述。

在另一个示例中，终端计算第二图像包括的词语与第二关键字的相似度，将与第二关键字之间的相似度符合第二预设条件的词语确定为跌女目标关键字，将第二图像中包括第二目标关键字的图像确定为第三图像。

步骤407，显示搜索结果。

在本申请实施例中，搜索结果包括上述第三图像。

综上所述，本申请实施例提供的技术方案，通过在搜索结果过多时，提示用户输入更多的关键字，以使得终端能够根据两次分别输入的关键字进行图像搜索，提升图像搜索的准确度。

在图1实施例中提到，语言描述模型是预先训练的，用于将至少两个词语编码成完整句子的模型。下面对语言描述模型的训练过程进行讲解。

步骤501，获取训练样本集。

训练样本集包括多个样本图像，样本图像对应有识别结果对应的期望描述语句。样本图像对应的识别结果可以人工标注，也可以通过图像识别模型得到。期望描述语句可以是人工标注的。

步骤502，对于样本图像，将识别结果通过语言描述模型进行处理，输出实际描述语句。

语言描述模型可以是深度学习网络，例如alexNet网络、VGG-16网络、GoogleNet网络、Deep Residual Learning(深度残差学习)网络。初始化语言描述模型的各项参数，可选地，语言描述模型的各项参数可以是随机设定的，也可以是由相关技术人员根据经验设定的。在本申请实施例中，将每个样本图像输入语言描述模型，由该语言描述模型输出实际描述语句。

步骤503，计算实际描述语句与期望描述语句之间的误差。

可选地，终端将实际描述语句与期望描述语句之间的距离确定为误差。

当终端计算出实际描述语句与期望描述语句之间的误差后，检测该误差是否大于预设阈值。若误差大于预设阈值，则调整语言描述模型的参数，并从对于每个样本图像，通过语言描述模型进行处理，输出实际描述语句的步骤开始执行，也即重复步骤502和503。直至误差小于或等于预设阈值时，停止训练，得到完成训练的语言描述模型。。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图5，其示出了本申请一个实施例提供的图像索引生成装置的框图。该装置具有实现上述方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是终端，也可以设置在终端上，该装置包括：

图像获取模块601，用于获取第一图像。

图像识别模块602，用于对所述第一图像进行图像识别，得到所述第一图像对应的识别结果。

语句生成模块603，用于根据所述识别结果生成描述语句，所述描述语句用于描述所述第一图像。

索引生成模块604，用于将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储。

在基于图5所示实施例提供的一个可选实施例中，所述语句生成模块603，用于：

将所述识别结果转换为第一词向量；

可选地，所述装置，还包括：信息获取模块(图中未示出)。

信息获取模块，用于获取所述第一图像的关联信息，所述关联信息包括以下至少一项：位置信息、时间信息、场景信息；

所述语句生成模块603，用于：

将所述识别结果转换为第一词向量；

将所述关联信息转换为第二词向量；

在基于图5所示实施例提供的一个可选实施例中，所述装置还包括：信息显示模块(图中未示出)。

信息显示模块，用于显示询问信息，所述询问信息用于询问是否将所述描述语句确定为所述索引；

所述索引生成模块640，还用于在接收到对应于所述询问信息的确认指示时，执行所述将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储的步骤。

可选地，所述装置还包括：输入框显示模块和语句接收模块(图中未示出)。

输入框显示模块，用于在未接收到所述确认指示时，显示输入框；

语句接收模块，用于接收在所述输入框输入的语句；

所述索引生成模块640，还用于将所述输入的语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储。

在基于图5所示实施例提供的一个可选实施例中，所述图像识别模块，用于：

可选地，所述装置还包括：样本集获取模块、语句输出模块、误差计算模块和模型训练模块(图中未示出)。

样本集获取模块，用于获取训练样本集，所述训练样本集包括多个样本图像，所述样本图像对应有所述识别结果对应的期望描述语句；

语句输出模块，用于对于所述样本图像，将所述识别结果通过语言描述模型进行处理，输出实际描述语句；

误差计算模块，用于计算所述实际描述语句与所述期望描述语句之间的误差；

模型训练模块，用于当所述误差大于预设阈值时，则调整所述语言描述模型的参数，并从所述对于所述每个样本图像，通过语言描述模型进行处理，输出实际描述语句的步骤开始执行；直至所述误差小于或等于所述预设阈值时，停止训练，得到完成训练的所述语言描述模型，所述语言描述模型用于根据所述识别结果生成所述描述语句。

请参考图6，其示出了本申请一个实施例提供的图像搜索装置的框图。该装置具有实现上述方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是终端，也可以设置在终端上，该装置包括：

搜索框显示模块710，用于显示搜索框。

关键字接收模块720，用于接收在所述搜索框输入的第一关键字。

图像搜索模块730，用于在相册中搜索与所述第一关键字相匹配的第二图像，所述第二图像对应的索引中包括第一目标关键字，所述第一目标关键字与所述第一关键字相匹配，所述第二图像对应的索引是根据所述第二图像的识别结果生成的描述语句。

结果显示模块740，用于显示搜索结果，所述搜索结果包括所述第二图像。

可选地，所述装置，还包括：信息显示模块和关键字获取模块(图中未示出)。

信息显示模块，用于当所述第二图像的数量大于预设数量时，显示提示信息，所述提示信息用于提示输入第二关键字。

关键字获取模块，用于获取所述第二关键字。

所述图像搜索模块，还用于在所述第二图像中搜索与所述第二关键字匹配的第三图像，所述第三图像对应的索引中包括第二目标关键字，所述第二目标关键字与所述第二关键字相匹配；

其中，所述搜索结果包括所述第三图像。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

参考图7，其示出了本申请一个示例性实施例提供的终端的结构方框图。本申请中的终端可以包括一个或多个如下部件：处理器610和存储器620。

处理器610可以包括一个或者多个处理核心。处理器610利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行终端的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(Central Processing Unit，CPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***和应用程序等；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块芯片进行实现。

可选地，处理器610执行存储器620中的程序指令时实现上述各个方法实施例提供的图像索引生成方法或图像搜索方法。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器620包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等；存储数据区可存储根据终端的使用所创建的数据等。

上述终端的结构仅是示意性的，在实际实现时，终端可以包括更多或更少的组件，比如：显示屏等，本实施例对此不作限定。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请一示例性实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器加载并执行时实现上述各个方法实施例提供的图像索引生成方法或图像搜索方法。

本申请一示例性实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个实施例所述的图像索引生成方法或图像搜索方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种图像索引生成方法，其特征在于，所述方法包括：

获取第一图像；

对所述第一图像进行图像识别，得到所述第一图像对应的识别结果；

根据所述识别结果生成描述语句，所述描述语句用于描述所述第一图像；

将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储。
根据权利要求1所述的方法，其特征在于，所述根据所述识别结果生成描述语句，包括：

将所述识别结果转换为第一词向量；

通过语言描述模型对所述第一词向量进行处理，得到所述描述语句。
根据权利要求1所述的方法，其特征在于，所述获取第一图像之后，还包括：

获取所述第一图像的关联信息，所述关联信息包括以下至少一项：位置信息、时间信息、场景信息；

所述根据所述识别结果生成描述语句，包括：

将所述识别结果转换为第一词向量；

将所述关联信息转换为第二词向量；

通过语言描述模型对所述第一词向量和所述第二词向量进行处理，得到所述描述语句。
根据权利要求1所述的方法，其特征在于，所述将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储之前，还包括：

显示询问信息，所述询问信息用于询问是否将所述描述语句确定为所述索引；

在接收到对应于所述询问信息的确认指示时，执行所述将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储的步骤。
根据权利要求4所述的方法，其特征在于，所述显示询问信息之后，还包括：

在未接收到所述确认指示时，显示输入框；

接收在所述输入框输入的语句；

将所述输入的语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储。
根据权利要求1至5任一项所述的方法，其特征在于，所述对所述第一图像进行图像识别，得到所述第一图像对应的识别结果，包括：

通过图像识别模型对所述第一图像进行图像识别，得到所述第一图像中的至少一个对象分别对应的识别结果；

其中，所述图像识别模型是采用多个样本图像训练得到的神经网络模型，所述多个样本图像中的每个样本图像中的对象对应有分类标签。
根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述识别结果生成描述语句之前，还包括：

获取训练样本集，所述训练样本集包括多个样本图像，所述样本图像对应有所述识别结果对应的期望描述语句；

对于所述样本图像，将所述识别结果通过语言描述模型进行处理，输出实际描述语句；

计算所述实际描述语句与所述期望描述语句之间的误差；

当所述误差大于预设阈值时，则调整所述语言描述模型的参数，并从所述对于所述每个样本图像，通过语言描述模型进行处理，输出实际描述语句的步骤开始执行；直至所述误差小于或等于所述预设阈值时，停止训练，得到完成训练的所述语言描述模型，所述语言描述模型用于根据所述识别结果生成所述描述语句。
一种图像搜索方法，其特征在于，所述方法包括：

显示搜索框；

接收在所述搜索框输入的第一关键字；

在相册中搜索与所述第一关键字相匹配的第二图像，所述第二图像对应的索引中包括第一目标关键字，所述第一目标关键字与所述第一关键字相匹配，所述第二图像对应的索引是根据所述第二图像的识别结果生成的描述语句；

显示搜索结果，所述搜索结果包括所述第二图像。
根据权利要求8所述的方法，其特征在于，所述显示搜索结果之前，还包括：

当所述第二图像的数量大于预设数量时，显示提示信息，所述提示信息用于提示输入第二关键字；

获取所述第二关键字；

在所述第二图像中搜索与所述第二关键字匹配的第三图像，所述第三图像对应的索引中包括第二目标关键字，所述第二目标关键字与所述第二关键字相匹配；

其中，所述搜索结果包括所述第三图像。
一种图像索引生成装置，其特征在于，所述装置包括：

图像获取模块，用于获取第一图像；

图像识别模块，用于对所述第一图像进行图像识别，得到所述第一图像对应的识别结果；

语句生成模块，用于根据所述识别结果生成描述语句，所述描述语句用于描述所述第一图像；

索引生成模块，用于将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储。
根据权利要求10所述的装置，其特征在于，所述语句生成模块，用于：

将所述识别结果转换为第一词向量；

通过语言描述模型对所述第一词向量进行处理，得到所述描述语句。
根据权利要求10所述的装置，其特征在于，所述装置，还包括：

信息获取模块，用于获取所述第一图像的关联信息，所述关联信息包括以下至少一项：位置信息、时间信息、场景信息；

所述语句生成模块，用于：

将所述识别结果转换为第一词向量；

将所述关联信息转换为第二词向量；

通过语言描述模型对所述第一词向量和所述第二词向量进行处理，得到所述描述语句。
根据权利要求10所述的装置，其特征在于，所述装置，还包括：

信息显示模块，用于显示询问信息，所述询问信息用于询问是否将所述描述语句确定为所述索引；

所述索引生成模块，还用于在接收到对应于所述询问信息的确认指示时，执行所述将所述描述语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储的步骤。
根据权利要求13所述的方法，其特征在于，所述装置，还包括：

输入框显示模块，用于在未接收到所述确认指示时，显示输入框；

语句接收模块，用于接收在所述输入框输入的语句；

所述索引生成模块，还用于将所述输入的语句确定为所述第一图像的索引，并将所述索引与所述第一图像对应存储。
根据权利要求10至14任一项所述的装置，其特征在于，所述图像识别模块，用于：

通过图像识别模型对所述第一图像进行图像识别，得到所述第一图像中的至少一个对象分别对应的识别结果；

其中，所述图像识别模型是采用多个样本图像训练得到的神经网络模型，所述多个样本图像中的每个样本图像中的对象对应有分类标签。
根据权利要求10至14任一项所述的方法，其特征在于，所述装置，还包括：

样本集获取模块，用于获取训练样本集，所述训练样本集包括多个样本图像，所述样本图像对应有所述识别结果对应的期望描述语句；

语句输出模块，用于对于所述样本图像，将所述识别结果通过语言描述模型进行处理，输出实际描述语句；

误差计算模块，用于计算所述实际描述语句与所述期望描述语句之间的误差；

模型训练模块，用于当所述误差大于预设阈值时，则调整所述语言描述模型的参数，并从所述对于所述每个样本图像，通过语言描述模型进行处理，输出实际描述语句的步骤开始执行；直至所述误差小于或等于所述预设阈值时，停止训练，得到完成训练的所述语言描述模型，所述语言描述模型用于根据所述识别结果生成所述描述语句。
一种图像搜索装置，其特征在于，所述装置包括：

搜索框显示模块，用于显示搜索框；

关键字接收模块，用于接收在所述搜索框输入的第一关键字；

图像搜索模块，用于在相册中搜索与所述第一关键字相匹配的第二图像，所述第二图像对应的索引中包括第一目标关键字，所述第一目标关键字与所述第一关键字相匹配，所述第二图像对应的索引是根据所述第二图像的识别结果生成的描述语句；

结果显示模块，用于显示搜索结果，所述搜索结果包括所述第二图像。
根据权利要求17所述的方法，其特征在于，所述装置，还包括：

信息显示模块，用于当所述第二图像的数量大于预设数量时，显示提示信息，所述提示信息用于提示输入第二关键字；

关键字获取模块，用于获取所述第二关键字；

所述图像搜索模块，还用于在所述第二图像中搜索与所述第二关键字匹配的第三图像，所述第三图像对应的索引中包括第二目标关键字，所述第二目标关键字与所述第二关键字相匹配；

其中，所述搜索结果包括所述第三图像。
一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的图像索引生成方法，或实现如权利要求8至9任一项所述的图像搜索方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至7任一项所述的图像索引生成方法，或实现如权利要求8至9任一项所述的图像搜索方法。