CN109635135A

CN109635135A - 图像索引生成方法、装置、终端及存储介质

Info

Publication number: CN109635135A
Application number: CN201811457455.0A
Authority: CN
Inventors: 侯允; 刘耀勇; 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-04-16
Also published as: WO2020108234A1

Abstract

本申请公开了一种图像索引生成方法、装置、终端及存储介质。该方法包括：获取第一图像；对第一图像进行图像识别，得到第一图像中的至少两个对象分别对应的识别结果；通过语言描述模型生成描述语句；将描述语句与第一图像对应存储，得到第一图像的索引。在本申请实施例中，通过识别出图像中所包括的各个对象分别对应的识别结果，并通过语言描述模型来生成包括上述识别结果，且用于描述第一图像的描述语句，将上述描述语句确定为该图像的索引，后续当用户需要搜索该图像时，可以输入该索引中所包括的词语，或者与该索引中所包括的词语的含义相近的词语，终端可以根据用户输入的词语准确地查找该第一图像，提高了在相册中搜索图像的搜索效率。

Description

图像索引生成方法、装置、终端及存储介质

技术领域

本申请实施例涉及搜索技术领域，特别涉及一种图像索引生成方法、装置、终端及存储介质。

背景技术

目前，终端中通常安装有相册应用程序，该相册应用程序通常用于存储拍摄得到的图像，从网络上保存的图像等。

当相册中保存的图像较多时，用户若需要快速从上述保存的图像中查找到自己所需的图像，则需要终端在相册中建立图像索引，以使得后续用户需要搜索某一图像时，只需要输入该图像所对应的索引，终端可以根据该索引快速查找到该图像，并展示该图像。

发明内容

本申请实施例提供一种图像索引生成方法、装置、终端及存储介质。技术方案如下：

一方面，本申请实施例提供一种图像索引生成方法，所述方法包括：

获取第一图像；

对所述第一图像进行图像识别，得到所述第一图像中的至少两个对象分别对应的识别结果；

通过语言描述模型生成描述语句，所述描述语句包括所述至少两个对象分别对应的识别结果；所述描述语句用于描述所述第一图像；

将所述描述语句与所述第一图像对应存储，得到所述第一图像的索引。

另一方面，本申请实施例提供一种图像索引生成装置，所述装置包括：

图像获取模块，用于获取第一图像；

图像识别模块，用于对所述第一图像进行图像识别，得到所述第一图像中的至少两个对象分别对应的识别结果；

语句生成模块，用于通过语言描述模型生成描述语句，所述描述语句包括所述至少两个对象分别对应的识别结果；所述描述语句用于描述所述第一图像；

索引生成模块，用于将所述描述语句与所述第一图像对应存储，得到所述第一图像的索引。

又一方面，本申请实施例提供一种终端，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述图像索引生成方法。

又一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述图像索引生成方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过识别出图像中所包括的各个对象分别对应的识别结果，并通过语言描述模型来生成包括上述识别结果，且用于描述第一图像的描述语句，将上述描述语句确定为该图像的索引，后续当用户需要搜索该图像时，可以输入该索引中所包括的词语，或者与该索引中所包括的词语的含义相近的词语，终端可以根据用户输入的词语准确地查找该第一图像，提高了在相册中搜索图像的搜索效率。

附图说明

图1为本申请一个实施例提供的图像索引生成方法的流程图；

图2为本申请一个实施例提供的图像索引生成方法的流程图；

图3为本申请一个实施例提供的图像索引生成方法的流程图；

图4为本申请一个实施例提供的图像索引生成方法的流程图；

图5为本申请一个实施例提供的图像索引生成装置的框图；

图6为本申请一个实施例提供的终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种图像索引生成方法、装置、终端及存储介质，通过识别出图像中所包括的各个对象分别对应的识别结果，并通过语言描述模型来生成包括上述识别结果，且用于描述第一图像的描述语句，将上述描述语句确定为该图像的索引，后续当用户需要搜索该图像时，可以输入该索引中所包括的词语，或者与该索引中所包括的词语的含义相近的词语，终端可以根据用户输入的词语准确地查找该第一图像，提高了在相册中搜索图像的搜索效率。

本申请实施例提供的技术方案，各步骤的执行主体为终端。可选地，终端中安装有相册应用程序。终端可以是手机、平板电脑、个人计算机等等。

请参考图1，其示出了本申请一个实施例示出的图像索引生成方法的流程图。该方法可以包括如下步骤：

步骤101，获取第一图像。

在一种可能的实现方式中，第一图像可以是终端上的摄像头采集到的图像。可选地，终端上设置有摄像头且安装有拍摄类应用程序，当该拍摄类应用程序运行时，终端接收作用在当前拍摄界面上的拍摄控件的触发信号时，获取摄像头采集到的图像作为第一图像。

在另一种可能的实现方式中，第一图像是网络中的图像。可选地，当终端的显示界面中显示有一图像，当终端接收到对应于该图像的保存指令时，根据该保存指令从网络中获取该图像作为第一图像。

此外，本申请实施例对第一图像的获取方式以及时机均不作限定。

步骤102，对第一图像进行识别，得到第一图像中的至少两个对象分别对应的识别结果。

第一图像中可以包括一个或多个对象，例如人物、动物、建筑、风景等等。在本申请实施例中，终端通过如下步骤确定各个对象分别所属的分类：通过图像识别模型对第一图像进行图像识别，得到第一图像中的至少两个对象分别所属的分类。

图像识别模型是采用多个样本图像对深度学习网络进行训练得到的，多个样本图像中的每个样本图像中的待识别对象对应有分类标签。在本申请的一些实施例中，图像识别模型包括：一个输入层、至少一个卷积层(比如包括第一卷积层、第二卷积层和第三卷积层共3个卷积层)、至少一个全连接层(比如包括第一全连接层和第二全连接层共2个全连接层)和一个输出层。输入层的输入数据即为第一图像，输出层的输出结果是该第一图像所包括的至少两个对象分别所属的分类。图像识别过程如下：将第一图像输入至图像识别模型的输入层，由图像识别模型的卷积层提取该第一图像的特征，而后由图像识别模型的全连接层对上述特征进行组合和抽象，得到适用于输出层进行分类的数据，最后由输出层输出该第一图像所包括的至少两个对象分别对应的识别结果。

在本申请实施例中，对图像识别模型的卷积层和全连接层的具体结构不作限定，上述实施例所示的图像识别模型仅是示例性和解释性的，并不用于限定本公开。一般来说，卷积神经网络的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合对识别精度和效率的要求，设计适当层数的卷积神经网络。

样本图像是指预先选定的，用于对深度学习网络进行训练的图片。样本图片具有场景标签，样本图片的场景标签通常由人工确定，用于描述样本图片对应的场景、物品、人物等等。

可选地，深度学习网络可采用alexNet网络、VGG-16网络、GoogleNet网络、DeepResidual Learning(深度残差学习)网络等等，本申请实施例对此不作限定。另外，训练深度学习网络得到图像识别模型时所采用的算法可以是BP(Back-Propagation，反向传播算法)、faster RCNN(Regions with Convolutional Neural Network，区域卷积神经网络)算法等，本申请实施例对此不作限定。

下面以训练深度学习网络得到图像识别模型时所采用的算法为BP算法为例，对图像识别模型的训练过程进行讲解：首先随机设置深度学习网络中各个层的参数；其次将样本图像输入深度学习网络，得到识别结果；然后将识别结果与分类标签进行比对，得到识别结果与分类标签之间的误差；最后基于上述误差调整深度学习网络中各个层的参数，重复上述步骤，直至识别结果与分类标签之间的误差小于预设数值，此时得到图像识别模型。

步骤103，通过语言描述模型生成描述语句。

描述语句用于描述第一图像。描述语句中包括至少两个对象分别对应的识别结果。可选地，描述语句中还包括其它词语，该其它词语可以用于形容以下至少一种：至少两个对象之间的位置关系、某一对象正在执行的动作、某一对象所处的状态等等。示例性地，对第一图像进行识别，得到第一图像中的对象包括狗和草地，并且该狗在草地上的姿态为跑动，则该第一图像对应的描述语句为“狗在草地上跑动”。

在本申请的一些实施例中，语言描述模型包括：一个输入层、至少一个卷积层(比如包括第一卷积层、第二卷积层和第三卷积层共3个卷积层)、至少一个全连接层(比如包括第一全连接层和第二全连接层共2个全连接层)和一个输出层。输入层的输入数据即为第一图像，以及第一图像中的对象所属的分类标签，输出层的输出结果是该第一图像对应的描述语句。描述语句的生成过程如下：将第一图像以及第一图像中的对象所属的分类标签输入至语言描述模型的输入层，由语言描述模型的卷积层提取上述输入内容的的特征，而后由语言描述模型的全连接层对上述特征进行组合和抽象，得到适用于输出层进行分类的数据，最后由输出层输出该第一图像对应的描述语句。

在本申请实施例中，对语言描述模型的卷积层和全连接层的具体结构不作限定，上述实施例所示的语言描述模型仅是示例性和解释性的，并不用于限定本公开。一般来说，卷积神经网络的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合对识别精度和效率的要求，设计适当层数的卷积神经网络。

可选地，步骤103可以包括如下子步骤：

可选地，步骤103可以实现为：

步骤103a，将识别结果转换成第一词向量；

步骤103b，通过语言描述模型对第一词向量进行处理，得到描述语句。

在本申请实施例中，终端通过词向量模型将识别结果转换成相应的词向量，并将上述词向量输入语言描述模型，由语言描述模型输出描述语句。上述词向量模型可以是word2vec模型。

可选地，步骤103b还可以实现为：

步骤103b1，当第一图像为终端通过摄像头采集的图像时，获取第一图像的位置信息。

步骤103b2，将位置信息转换成第二词向量；

步骤103b3，通过语言描述模型对第一词向量和第二词向量进行处理，得到描述语句。

位置信息用于指示拍摄第一图像时的地理位置。该位置信息可以通过终端中的定位组件获取。将位置信息转换成词向量的方式可以参考步骤103a，此处不作赘述。在本申请实施例中，通过结合拍摄第一图像的地理位置来生成第一图像对应的描述语句，能够更加完整地描述该第一图像，后续用户可以通过多个不同的关键字来搜索该第一图像，提升搜索的便利性。

示例性地，对第一图像进行识别，得到第一图像中的对象包括狗和草地，并且该狗在草地上的姿态为跑动，此外，拍摄该第一图像的地理位置为XX公园，则该第一图像对应的描述语句为“狗在xx公园的草地上跑动”。

步骤104，将描述语句与第一图像对应存储，得到第一图像的索引。

终端将描述语句与第一图像进行对应存储，得到第一图像的索引。后续若用户需要查找该第一图像，则只需输入该描述语句包括的至少一个词语，或者与该描述语句中的词语之间的相似度大于预设阈值的词语，则终端可以根据用户输入的词语查找到该第一图像，并将该第一图像展示给用户。

另外，本申请实施例对存储描述语句与第一图像的路径不作限定，其可以由终端预先设定，也可以由用户自定义设定。

综上所述，本申请实施例提供的技术方案，通过识别出图像中所包括的各个对象分别对应的识别结果，并通过语言描述模型来生成包括上述识别结果，且用于描述第一图像的描述语句，将上述描述语句确定为该图像的索引，后续当用户需要搜索该图像时，可以输入该索引中所包括的词语，或者与该索引中所包括的词语的含义相近的词语，终端可以根据用户输入的词语准确地查找该第一图像，提高了在相册中搜索图像的搜索效率。

请参考图2，其示出了本申请一个实施例提供的图像索引生成方法的流程图。该方法可以包括如下步骤：

步骤201，获取第一图像。

步骤202，对第一图像进行图像识别，得到第一图像中的至少两个对象分别对应的识别结果。

步骤203，通过语言描述模型生成描述语句。

步骤204，显示询问信息。

询问信息用于询问是否确认生成第一图像的索引。示例性地，询问信息为“该图像对应的描述语句为“在鸟巢看演唱会”，是否确认？”。

在本申请实施例中，用户可以预览通过语言描述模型所生成的描述语句，并决定是否将上述生成的描述语句确定为第一图像的索引。

步骤205，在接收到对应于询问信息的确认指示时，将描述语句与第一图像对应存储，得到第一图像的索引。

若用户确定将该生成的描述语句确定为该图像的索引，则可以对该询问信息下达确认指示。对应于询问信息的确认指示用于指示确认将该生成的描述语句确定为该图像的索引。可选地，询问信息的周侧显示有确认控件，当终端接收到作用在该确认控件的触发信号时，接收到对应于询问信息的确认指示。

步骤206，在未接收到确认指示时，显示输入框。

输入框用于输入第一图像对应的描述语句。可选地，当终端在预设时间内未接收到作用在该确认控件的触发信号，则终端未接收到确认指示。可选地，询问信息的周侧还显示有否认控件，当终端接收到对应于该否认控件的触发信号时，则终端未接收到确认指示。

步骤207，接收在输入框输入的语句。

在本申请实施例中，当用户对生成的描述语句不满意时，可以自行输入描述该目标图像的描述语句。

步骤208，将输入的语句与第一图像对应存储，得到第一图像的索引。

综上所述，本申请实施例提供的技术方案，通过在用户不满意终端所生成的描述语句的情况下，由用户自行输入该图像对应的描述语句，以使得后续用户能够根据自身所输入的描述语句来对该图像进行搜索。

在生成第一图像的索引之后，用户可以根据该索引在相册中搜索第一图像。下面对该搜索过程进行讲解。在基于图1或图2所示实施例提供的一个可选实施例中，在步骤104之后，或者，在步骤208之后，该图像索引生成方法还包括如下步骤：

步骤301，显示搜索框。

搜索框用于供用户输入搜索关键字，以使得终端能够查找与该搜索关键字相匹配的图像。在一种可能的实现方式中，相册应用程序的主界面中显示有该搜索框。在另一种可能的实现方式中，相册应用程序的主界面显示有搜索控件，当用户触发该搜索控件时，终端接收到对应于该搜索控件的触发信号，并根据该触发信号显示搜索框。

步骤302，接收在搜索框输入的第一关键字。

第一关键字由用户输入，其可以是“故宫”、“猫”“玫瑰花”等等，本申请实施例对此不作限定。

步骤302，在相册中搜索与第一关键字相匹配的第二图像。

第二图像的数量可以是一张，也可以是多张。第二图像对应的描述语句用于描述该第二图像。第二图像对应的描述语句中包括第一目标关键字。第一目标关键字可以是第二图像中所包括的对象对应的识别结果，也可以是描述语句中除识别结果之外的其它词语，本申请实施例对此不作限定。通过上述方式，用户可以通过不同的关键字来搜索同一图像，降低搜索图像的难度。

第一目标关键字与第一关键字之间的相似度符合预设条件。上述预设条件可以是第一目标关键字与第一关键字之间的相似度大于预设阈值，上述预设阈值可以根据实际需求设定，本申请实施例对此不作限定。

在本申请实施例中，终端先计算出终端所存储的各个描述语句所包括的词语与第一关键字之间的相似度，之后将与第一关键字之间的相似度符合预设条件的词语确定为第一目标关键字，最后将包含该第一目标关键字的描述语句对应的图像作为与第一关键字相匹配的第二图像。

另外，本申请实施例通过如下方式计算第一关键字与描述语句所包括的词语之间的相似度：终端通过词向量模型将第一关键字表示为第一向量，将描述语句所包括的词语表示为第二向量，之后通过计算第一向量与第二向量之间的余弦距离，来计算第一关键字与描述语句所包括的词语之间的相似度。

步骤304，显示与第一关键字相匹配的第二图像。

终端在搜索结果页面中显示该第二图像。当第二图像的数量为多张时，终端可以根据第一目标关键字与第一关键字之间的相似度的大小，来对第二图像进行排序。可选地，第一目标关键字与第一关键字之间的相似度越大，则包含该第一目标关键字的描述语句对应的第二图像在搜索结果页面中的排列顺序越靠前；第一目标关键字与第一关键字之间的相似度越小，则包含该第一目标关键字的描述语句对应的第二图像在搜索结果页面中的排列顺序越靠后。

综上所述，本申请实施例提供的技术方案，通过根据上文实施例所生成的图像索引来进行图像搜索，用户只需输入该索引中所包括的词语，或者与该索引中所包括的词语的含义相近的词语，终端可以根据用户输入的词语准确地查找该图像，提高了在相册中搜索图像的搜索效率。

当用户输入第一关键字时，终端根据该第一关键字搜索的第二图像的数量较多时，此时用户需要在较多的第二图像中筛选出自己期望搜索到的图像，搜索效率依然较为低下。

请参考图4，其示出了本申请一个实施例提供的图像索引生成方法的流程图。该图像索引生成方法可用于解决根据第一关键字搜索到的第二图像较多时，搜索效率低下的问题。该方法包括如下几个步骤：

步骤401，显示搜索框。

步骤402，接收在搜索框输入的第一关键字。

步骤403，在相册中搜索与第一关键字相匹配的第二图像。

步骤404，当第二图像的数量大于预设数量时，显示提示信息。

预设数量可以根据实际需求设定，本申请实施例对此不作限定。示例性地，预设数量为10张。提示信息用于提示输入第二关键字。第二关键字与第一关键字不同。

在本申请实施例中，终端在查找到与第一关键字相匹配的第二图像时，先检测该第二图像的数量是否大于预设数量。若该第二图像的数量小于或等于预设数量，则直接显示该第二图像。若第二图像的数量大于预设数量，则提示用户输入更多的关键字，以使得终端在上述与第一关键字相匹配的第二图像中继续筛选出于第一关键字、第二关键字均匹配的第二图像。

步骤405，获取第二关键字。

第二关键字也由用户输入，其与第一关键字不同。

步骤406，在相册中搜索与第一关键字、第二关键字均匹配的第二图像。

第二图像对应的描述语句中包括第一目标关键字与第二目标关键字。第二目标关键字与第二关键字之间的相似度符合第二预设条件。上述第二预设条件可以是第二目标关键字与第二关键字之间的相似度大于预设阈值，上述预设阈值可以根据实际需求设定，本申请实施例对此不作限定。

在本申请实施例中，终端先计算出终端所存储的各个描述语句所包括的词语与第一关键字之间的相似度，以及终端所存储的各个描述语句所包括的词语与第二关键字之间的相似度；之后将与第一关键字之间的相似度符合第一预设条件的词语确定为第一目标关键字，将与第二关键字之间的相似度符合第二预设条件的词语确定为第二目标关键字；最后将包含该第一目标关键字和第二目标关键字的描述语句对应的图像作为与第一关键字、第二关键字均匹配的第二图像。另外，第二关键字与描述语句所包括的词语之间的相似度的计算方式可以参考步骤303，此处不作赘述。

步骤407，显示与第一关键字、第二关键字均匹配的第二图像。

在本申请实施例中，此处的第二图像是指与第一关键字、第二关键字均匹配的第二图像。

综上所述，本申请实施例提供的技术方案，通过在搜索结果过多时，提示用户输入更多的关键字，以使得终端能够根据两次分别输入的关键字进行图像搜索，提升图像搜索的准确度。

在图1实施例中提到，语言描述模型是预先训练的，用于将至少两个词语编码成完整句子的模型。下面对语言描述模型的训练过程进行讲解。

步骤501，获取训练样本集。

训练样本集包括多张训练样本图像，多张训练样本图像中的每张训练样本图像中的对象标注有分类标签，每张训练样本图像对应有期望描述语句。训练样本中的对象所标注的分类标签可以人工标注，也可以通过图像识别模型得到。期望描述语句可以是人工标注的。

步骤502，对于每张训练样本图像，通过初始的语言描述模型进行处理，输出实际描述语句。

初始的语言描述模型可以是深度学习网络，例如alexNet网络、VGG-16网络、GoogleNet网络、Deep Residual Learning(深度残差学习)网络。初始的语言描述模型的各项参数可以是随机设定的，也可以是由相关技术人员根据经验设定的。在本申请实施例中，将每张训练样本图像输入初始的语言描述模型，由该初始的语言描述模型输出实际描述语句。

步骤503，计算期望描述语句与实际描述语句之间的误差。

可选地，终端将期望描述语句与实际描述语句之间的差值确定为误差。

当终端计算出期望描述语句与实际描述语句之间的误差后，检测该误差是否大于预设阈值。若误差大于预设阈值，则调整初始的语言描述模型的参数，并从对于每张训练样本图像，通过初始的语言描述模型进行处理，输出实际描述语句的步骤重新开始执行，也即重复步骤502和503。当误差小于或等于预设阈值时，生成训练完成的语言描述模型。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图5，其示出了本申请一个实施例提供的图像索引生成装置的框图。该装置具有实现上述方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置包括：

图像获取模块601，用于获取第一图像。

图像识别模块602，用于对所述第一图像进行图像识别，得到所述第一图像中的至少两个对象分别对应的识别结果。

语句生成模块603，用于通过语言描述模型生成描述语句，所述描述语句包括所述至少两个对象分别对应的识别结果；所述描述语句用于描述所述第一图像。

索引生成模块604，用于将所述描述语句与所述第一图像对应存储，得到所述第一图像的索引。

在基于图5所示实施例提供的一个可选实施例中，所述语句生成模型603，用于：

将所述识别结果转换成第一词向量；

通过所述语言描述模型对所述第一词向量进行处理，得到所述描述语句。

可选地，所述语句生成模块603，用于：

当所述第一图像为终端通过摄像头采集的图像时，获取所述第一图像的位置信息，所述位置信息用于指示拍摄所述第一图像时的地理位置；

将所述位置信息转换成第二词向量；

通过所述语言描述模型对所述第一词向量和第二词向量进行处理，得到所述描述语句。

在基于图5所示实施例提供的一个可选实施例中，所述装置还包括：第一显示模块(图中未示出)。

第一显示模块，用于显示询问信息，所述询问信息用于询问是否确认生成所述第一图像的索引。

所述索引生成模块604，用于在接收到对应于所述询问信息的确认指示时，执行所述将所述描述语句与所述第一图像对应存储，得到所述第一图像的索引的步骤。

可选地，所述装置还包括：第二显示模块和第一接收模块(图中未示出)。

第二显示模块，用于在未接收到所述确认指示时，显示输入框，所述输入框用于输入所述第一图像对应的描述语句。

第一接收模块，用于接收在所述输入框输入的语句。

所述索引生成模块604，还用于将所述输入的语句与所述第一图像对应存储，得到所述第一图像的索引。

在基于图5所示实施例提供的一个可选实施例中，所述装置还包括：第三显示模块、第二接收模块、搜索模块、第四显示模块(图中未示出)。

第三显示模块，用于显示搜索框。

第二接收模块，用于接收在所述搜索框输入的第一关键字。

搜索模块，用于在相册中搜索与所述第一关键字相匹配的第二图像，所述第二图像对应的描述语句中包括第一目标关键字，所述第一目标关键字与所述第一关键字之间的相似度符合第一预设条件。

第四显示模块，用于显示所述第二图像。

可选地，所述装置还包括：第五显示模块(图中未示出)。

第五显示模块，用于当所述第二图像的数量大于预设数量时，显示提示信息，所述提示信息用于提示输入第二关键字。

第二接收模块，用于获取所述第二关键字。

搜索模块，还用于在所述相册中搜索与所述第一关键字、所述第二关键字均匹配的第二图像，所述第二图像对应的描述语句中包括所述第一目标关键字与第二目标关键字，所述第二目标关键字与所述第二关键字之间的相似度符合第二预设条件。

在基于图5所示实施例提供的一个可选实施例中，所述图像识别模块602，用于通过图像识别模型对所述第一图像进行图像识别，得到所述第一图像中的至少两个对象分别对应的识别结果；其中，所述图像识别模型是采用多个样本图像对深度学习网络进行训练得到的，所述多个样本图像中的每个样本图像中的待识别对象对应有分类标签。

在基于图5所示实施例提供的一个可选实施例中，所述装置还包括：训练模块(图中未示出)。

训练模块，用于：

获取训练样本集，所述训练样本集包括多张训练样本图像，所述多张训练样本图像中的每张训练样本图像中的对象标注有分类标签，所述每张训练样本图像对应有期望描述语句；

对于所述每张训练样本图像，通过初始的语言描述模型进行处理，输出实际描述语句；

计算所述期望描述语句与所述实际描述语句之间的误差；

当所述误差大于预设阈值时，则调整所述初始的语言描述模型的参数，并从所述对于所述每张训练样本图像，通过初始的语言描述模型进行处理，输出实际描述语句的步骤重新开始执行；当所述误差小于或等于所述预设阈值时，生成所述语言描述模型。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

参考图6，其示出了本申请一个示例性实施例提供的终端的结构方框图。本申请中的终端可以包括一个或多个如下部件：处理器610和存储器620。

处理器610可以包括一个或者多个处理核心。处理器610利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行终端的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***和应用程序等；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块芯片进行实现。

可选地，处理器610执行存储器620中的程序指令时实现下上述各个方法实施例提供的图像索引生成方法。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选地，该存储器620包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等；存储数据区可存储根据终端的使用所创建的数据等。

上述终端的结构仅是示意性的，在实际实现时，终端可以包括更多或更少的组件，比如：显示屏等，本实施例对此不作限定。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请一示例性实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器加载并执行时实现上述各个方法实施例提供的定位方法。

本申请一示例性实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个实施例所述的定位方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像索引生成方法，其特征在于，所述方法包括：

获取第一图像；

2.根据权利要求1所述的方法，其特征在于，所述通过语言描述模型生成描述语句，包括：

将所述识别结果转换成第一词向量；

3.根据权利要2所述的方法，其特征在于，所述通过所述语言描述模型对所述第一词向量进行处理，得到所述描述语句，包括：

将所述位置信息转换成第二词向量；

通过所述语言描述模型对所述第一词向量和所述第二词向量进行处理，得到所述描述语句。

4.根据权利要求1所述的方法，其特征在于，所述将所述描述语句与所述第一图像对应存储，得到所述第一图像的索引之前，还包括：

显示询问信息，所述询问信息用于询问是否确认生成所述第一图像的索引；

在接收到对应于所述询问信息的确认指示时，执行所述将所述描述语句与所述第一图像对应存储，得到所述第一图像的索引的步骤。

5.根据权利要求4所述的方法，其特征在于，所述显示询问信息之后，还包括：

在未接收到所述确认指示时，显示输入框，所述输入框用于输入所述第一图像对应的描述语句；

接收在所述输入框输入的语句；

将所述输入的语句与所述第一图像对应存储，得到所述第一图像的索引。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述将所述描述语句与所述第一图像对应存储，得到所述第一图像的索引之后，还包括：

显示搜索框；

接收在所述搜索框输入的第一关键字；

在相册中搜索与所述第一关键字相匹配的第二图像，所述第二图像对应的描述语句中包括第一目标关键字，所述第一目标关键字与所述第一关键字之间的相似度符合第一预设条件；

显示所述第二图像。

7.根据权利要求6所述的方法，其特征在于，所述显示所述第二图像之前，还包括：

当所述第二图像的数量大于预设数量时，显示提示信息，所述提示信息用于提示输入第二关键字；

获取所述第二关键字；

在所述相册中搜索与所述第一关键字、所述第二关键字均匹配的第二图像，所述第二图像对应的描述语句中包括所述第一目标关键字与第二目标关键字，所述第二目标关键字与所述第二关键字之间的相似度符合第二预设条件。

8.根据权利要求1至5任一项所述的方法，其特征在于，所述对所述第一图像进行图像识别，得到所述第一图像中的至少两个对象分别对应的识别结果，包括：

通过图像识别模型对所述第一图像进行图像识别，得到所述第一图像中的至少两个对象分别对应的识别结果；其中，所述图像识别模型是采用多个样本图像对深度学习网络进行训练得到的，所述多个样本图像中的每个样本图像中的对象对应有分类标签。

9.根据权利要求1至5任一项所述的方法，其特征在于，所述通过语言描述模型生成描述语句之前，还包括：

计算所述期望描述语句与所述实际描述语句之间的误差；

10.一种图像索引生成装置，其特征在于，所述装置包括：

图像获取模块，用于获取第一图像；

11.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一项所述的图像索引生成方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至9任一项所述的图像索引生成方法。