CN111553372B

CN111553372B - 一种训练图像识别网络、图像识别搜索的方法及相关装置

Info

Publication number: CN111553372B
Application number: CN202010332194.0A
Authority: CN
Inventors: 章书豪; 夏雄尉; 谢泽华; 周泽南; 苏雪峰
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-08-08
Anticipated expiration: 2040-04-24
Also published as: CN111553372A

Abstract

本申请公开了一种训练图像识别网络、图像识别搜索的方法及相关装置，训练图像识别网络的方法包括：将原始训练图像分割成多个训练图像块并标记标号；按照原始训练图像的图像显著区域检测结果，对多个训练图像块打乱重排，获得原始训练图像的重排训练图像；将原始训练图像、重排训练图像以及对应的包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序的标注数据作为训练数据，训练图像识别网络获得图像识别模型。图像识别搜索的方法包括：获取待识别图像；将待识别图像输入上述图像识别模型，输出待识别图像的目标特征和目标类别；利用待识别图像的目标特征和目标类别，在图像数据库中搜索其相似图像。

Description

一种训练图像识别网络、图像识别搜索的方法及相关装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种训练图像识别网络、图像识别搜索的方法及相关装置。

背景技术

随着科技的快速发展，在日常生活中，用户可以随手拍摄其感兴趣物品，以物品图像搜索商品即可快速获取同款商品或相似商品的链接，从而满足用户感兴趣物品的搜索需求；其中，以物品图像搜索实际上是对物品图像进行图像识别搜索。

目前，上述图像识别搜索方法一般是利用深度学习模型提取物品图像的全局特征进行识别搜索。但是，对于场景比较复杂的物品图像而言，例如，物品图像中的物品区域比较小，利用上述深度学习模型只能提取该物品图像的全局特征，后续图像识别搜索过程中仅仅关注该物品图像的全局特征，容易遗漏该物品图像的重要特征，大大降低图像识别搜索的准确率，从而导致图像识别搜索的用户体验较差。

发明内容

本申请所要解决的技术问题是，提供一种训练图像识别网络、图像识别搜索的方法及相关装置，使得图像识别网络关注图像的局部特征，获得对图像的局部特征感知能力增强的图像识别模型；即使针对场景比较复杂的待识别图像，也可有效提高图像识别搜索的准确率，从而提升图像识别搜索的用户体验。

第一方面，本申请实施例提供了一种训练图像识别网络的方法，所述方法包括：

对原始训练图像进行分割，获得多个训练图像块并标记标号；

基于所述原始训练图像的图像显著区域检测结果对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像；

基于所述原始训练图像、所述重排训练图像以及对应的标注数据，训练图像识别网络获得图像识别模型；所述标注数据包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序，所述图像预处理类别标签包括原始标签或重排标签。

可选的，所述基于所述原始训练图像的图像显著区域检测结果对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像，包括：

利用注意力热图模型对所述原始训练图像进行图像显著区域检测，获得所述原始训练图像的注意力热图；

基于所述注意力热图的热度对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像。

可选的，所述基于所述原始训练图像的图像显著区域检测结果对所述多个训练图像块进行打乱重排，包括：

基于所述原始训练图像的图像显著区域检测结果，对所述图像显著区域检测结果中显著程度越高位置对应的训练图像块的打乱程度越低，显著程度越低位置对应的训练图像块的打乱程度越高。

可选的，所述基于所述原始训练图像、所述重排训练图像以及对应的标注数据，训练图像识别网络获得图像识别模型，包括：

基于所述原始训练图像和所述重排训练图像，利用所述图像识别网络中的特征提取网络获得训练特征；

基于所述训练特征，利用所述图像识别网络中的识别网络获得预测数据，所述预测数据包括预测粗粒度图像类别、预测细粒度图像类别和预测图像预处理类别；

基于所述预测数据和所述标注数据，利用网络损失函数训练所述图像识别网络的网络参数获得所述图像识别模型。

可选的，所述网络损失函数包括粗粒度图像类别分类损失函数、细粒度图像类别分类损失函数、图像预处理类别分类损失函数和重排训练图像恢复至原始训练图像损失函数。

第二方面，本申请实施例提供了一种图像识别搜索的方法，利用上述第一方面任意一项所述的图像识别模型，所述方法包括：

获取待识别图像；

利用所述图像识别模型获得所述待识别图像的目标特征和目标类别；

基于所述目标特征和所述目标类别，在图像数据库中搜索所述待识别图像的相似图像。

第三方面，本申请实施例提供了一种训练图像识别网络的装置，所述装置包括：

分割获得单元，用于对原始训练图像进行分割，获得多个训练图像块并标记标号；

重排获得单元，用于基于所述原始训练图像的图像显著区域检测结果对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像；

训练获得单元，用于基于所述原始训练图像、所述重排训练图像以及对应的标注数据，训练图像识别网络获得图像识别模型；所述标注数据包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序，所述图像预处理类别标签包括原始标签或重排标签。

可选的，所述重排获得单元包括：

检测获得子单元，用于利用注意力热图模型对所述原始训练图像进行图像显著区域检测，获得所述原始训练图像的注意力热图；

重排获得子单元，用于基于所述注意力热图的热度对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像。

可选的，所述重排获得单元具体用于：

可选的，所述训练获得单元包括：

第一获得子单元，用于基于所述原始训练图像和所述重排训练图像，利用所述图像识别网络中特征提取网络获得训练特征；

第二获得子单元，用于基于所述训练特征，利用所述图像识别网络中识别网络获得预测数据，所述预测数据包括预测粗粒度图像类别、预测细粒度图像类别和预测图像预处理类别；

训练获得子单元，用于基于所述预测数据和所述标注数据，利用网络损失函数训练所述图像识别网络的网络参数获得所述图像识别模型。

第四方面，本申请实施例提供了一种图像识别搜索的装置，利用上述第一方面任意一项所述的图像识别模型，所述装置包括：

获取单元，用于获取待识别图像；

获得单元，用于利用所述图像识别模型获得所述待识别图像的目标特征和目标类别；

搜索单元，用于基于所述目标特征和所述目标类别，在图像数据库中搜索所述待识别图像的相似图像。

第五方面，本申请实施例提供了一种用于训练图像识别网络的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

第六方面，本申请实施例提供了一种用于图像识别搜索的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待识别图像；

第七方面，本申请实施例提供了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行上述第一方面任一项所述的训练图像识别网络的方法；或者，使得装置执行上述第二方面所述的图像识别搜索的方法。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，首先，将原始训练图像分割成多个训练图像块并标记标号；然后，按照原始训练图像的图像显著区域检测结果，对多个训练图像块打乱重排，获得原始训练图像的重排训练图像；最后，将原始训练图像、重排训练图像以及对应的标注数据作为训练数据，训练图像识别网络获得图像识别模型；其中，标注数据包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序，图像预处理类别标签包括原始标签或重排标签。由此可见，利用原始训练图像的图像显著区域检测结果，针对性对原始训练图像分割后的多个训练图像块进行打乱重排得到重排训练图像，将原始训练图像结合重排训练图像作为图像识别网络的输入，使得图像识别网络关注图像的局部特征，训练获得对图像的局部特征感知能力增强的图像识别模型。

此外，采用本申请实施例的技术方案，首先，获取待识别图像；然后，将待识别图像输入上述图像识别模型，输出待识别图像的目标特征和目标类别；最后，利用待识别图像的目标特征和目标类别，在图像数据库中搜索其相似图像。由此可见，通用上述图像识别模型获得的待识别图像的目标特征不仅仅关注图像的全局特征，而且关注图像的局部特征，避免遗漏待识别图像的重要特征；以目标特征结合目标类别搜索待识别图像的相似图片，即使针对场景比较复杂的待识别图像，也可有效提高图像识别搜索的准确率，从而提升图像识别搜索的用户体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的***框架示意图；

图2为本申请实施例提供的一种训练图像识别网络的方法的流程示意图；

图3为本申请实施例提供的一种原始训练图像和该原始训练图像的注意力热图示意图；

图4为本申请实施例提供的一种原始训练图像和该原始训练图像的重排训练图像示意图；

图5为本申请实施例提供的一种图像识别搜索的方法的流程示意图；

图6为本申请实施例提供的一种训练图像识别网络的装置的结构示意图；

图7为本申请实施例提供的一种图像识别搜索的装置的结构示意图；

图8为本申请实施例提供的一种用于训练图像识别网路或图像识别搜索的装置的结构示意图；

图9为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以物品图像搜索实际上是对物品图像进行图像识别搜索。现有技术中，图像识别搜索方法通常是利用深度学习模型提取物品图像的全局特征进行识别搜索。但是，发明人经过研究发现，针对场景比较复杂的物品图像，利用上述深度学习模型只能提取该物品图像的全局特征，后续图像识别搜索过程中仅仅关注该物品图像的全局特征，容易遗漏该物品图像的重要特征，图像识别搜索的准确率较低，影响图像识别搜索的用户体验。

为了解决这一问题，在本申请实施例中，将原始训练图像分割成多个训练图像块并标记标号；按照原始训练图像的图像显著区域检测结果，对多个训练图像块打乱重排，获得原始训练图像的重排训练图像；将原始训练图像、重排训练图像以及对应的标注数据作为训练数据，训练图像识别网络获得图像识别模型；其中，标注数据包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序，图像预处理类别标签包括原始标签或重排标签。可见，利用原始训练图像的图像显著区域检测结果，针对性对原始训练图像分割后的多个训练图像块进行打乱重排得到重排训练图像，将原始训练图像结合重排训练图像作为图像识别网络的输入，使得图像识别网络关注图像的局部特征，训练获得对图像的局部特征感知能力增强的图像识别模型。

此外，在本申请实施例中，获取待识别图像；将待识别图像输入上述图像识别模型，输出待识别图像的目标特征和目标类别；利用待识别图像的目标特征和目标类别，在图像数据库中搜索其相似图像。可见，通用上述图像识别模型获得的待识别图像的目标特征不仅仅关注图像的全局特征，而且关注图像的局部特征，避免遗漏待识别图像的重要特征；以目标特征结合目标类别搜索待识别图像的相似图片，即使针对场景比较复杂的待识别图像，也可有效提高图像识别搜索的准确率，从而提升图像识别搜索的用户体验。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中，该场景包括终端设备101、处理器102和图像数据库103；其中，终端设备101可以是个人计算机，也可以是其它的移动终端，如手机或平台电脑等。终端设备101收集大量的原始训练图像形成训练集，处理器102从终端设备101获取原始训练图像，采用本申请实施例中训练图像识别网络的方法获得图像识别模型。当终端设备101将待识别图像发送至处理器102后，处理器102采用本申请实施例中图像识别搜索的方法在图像数据库103中搜索待识别图像的相似图像。

可以理解的是，在上述应用场景中，虽然将本申请实施方式的动作描述由处理器102执行，但是，本申请在执行主体方面不受限制，只要执行了本申请实施方式所公开的动作即可。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中训练图像识别网络、图像识别搜索的方法及相关装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种训练图像识别网络的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：对原始训练图像进行分割，获得多个训练图像块并标记标号。

需要说明的是，现有技术中深度学习模型仅仅是学习原始训练图像获得的，主要关注的是图像的全局特征；针对场景比较复杂的图像，该深度学习模型能提取图像的全局特征，后续图像识别搜索过程中仅仅关注图像的全局特征，容易遗漏图像的重要特征。在本申请实施例中，考虑将原始训练图像分割成多个训练图像块并重新组合得到新训练图像，在学习原始训练图像关注图像的全局特征的基础上，还需要学习新训练图像以关注图像的局部特征。因此，首先需要对原始训练图像进行分割以获得多个训练图像块，此外，还需要对每个训练图像块标记标号，以便后续明确多个训练图像块重新组合得到新训练图像对应的训练图像块标号顺序。其中，多个训练图像块的数量可以是基于具体场景下分割需求预先设置的，例如，多个训练图像块的数量可以是9个、16个、25个或36个等等。

作为一种示例，在本申请实施例中，基于具体场景下分割需求预先设置的训练图像块的数量为9个，对原始训练图像进行均匀分割，获得总共9个训练图像块，依次对9个训练图像块标记标号为1、2、3、4、5、6、7、8、9。

步骤202：基于所述原始训练图像的图像显著区域检测结果对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像。

需要说明的是，在步骤201获得多个训练图像块后，将多个训练图像块打乱顺序重新组合得到新训练图像，即为所述原始训练图像的重排训练图像，使得重排训练图像相对于原始训练图像更加明显地表示图像显著区域、更加清楚地明确图像显著区域，以便后续能够学习新训练图像时关注其中图像显著区域的特征。在本申请实施例中，将多个训练图像块重新组合得到新训练图像，可以是利用原始训练图像的图像显著区域检测结果对多个训练图像块进行打乱重排，将得到的新训练图像记为原始训练图像的重排训练图像。

作为一种示例，对应于上述示例中原始训练图像分割为9个训练图像块，该9个训练图像块的标号为1、2、3、4、5、6、7、8、9，利用原始训练图像的图像显著区域检测结果对多个训练图像块进行打乱重排，得到原始训练图像的重排训练图像对应的训练图像块标号顺序为1、3、5、7、2、4、6、8、9。

步骤202具体实施时，首先，需要得到原始训练图像的图像显著区域检测结果，通常是对原始训练图像进行图像显著区域检测得到的；然后，按照图像显著区域检测结果对多个训练图像块进行打乱重排，得到原始训练图像的重排训练图像。其中，按照图像显著区域检测结果对多个训练图像块进行打乱重排的原则可以是：原始训练图像的图像显著区域检测结果中，显著程度越高位置对应的训练图像块的打乱程度越低，显著程度越低位置对应的训练图像块的打乱程度越高。

因此，在本申请实施例一种可选的实施方式中，所述步骤202基于所述原始训练图像的图像显著区域检测结果对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像，可以但不限于包括以下步骤：

步骤A：对所述原始训练图像进行图像显著区域检测，获得所述图像显著区域检测结果。

步骤B：基于所述图像显著区域检测结果打乱重排多个所述训练图像块，获得所述原始训练图像的重排训练图像。

还需要说明的是，由于注意力热图模型是一个可视化卷积神经网络的工具，将图像输入注意力热图模型即可输出明显、清楚地表示图像中图像显著区域的注意力热图，观察该注意力热图即可明确图像中的关键区域；因此，针对本申请实施例中步骤A，可以将原始训练图像输入注意力热图模型，从而输出原始训练图像的注意力热图。即，在本申请实施例一种可选的实施方式中，所述步骤A对所述原始训练图像进行图像显著区域检测，获得所述图像显著区域检测结果，例如具体可以为：利用注意力热图模型对所述原始训练图像进行图像显著区域检测，获得所述原始训练图像的注意力热图。当然，在本申请实施例中图像显著区域检测可以采用除注意力热图模型以外的其他图像显著区域检测方式，对应地，获得的图像显著区域检测结果也可以是除注意力热图外其他图像显著区域检测结果。

作为一种示例，如图3所示的一种原始训练图像和该原始训练图像的注意力热图示意图。其中，左图为原始训练图像，右图为左图的注意力热图。右图是将左图输入注意力热图模型输出得到的，右图能够明显、清楚地表示左图中的图像显著区域，观察该右图即可明确左图中的关键区域。

对应地，当图像显著区域检测结果具体为注意力热图时，一般是热度越高位置对应的训练图像块打乱程度越低，热度越低位置对应的训练图像块打乱程度越高，则按照注意力热图的热度打乱重排的多个训练图像块得到重排训练图像。因此，在本申请实施例一种可选的实施方式中，所述步骤B基于所述图像显著区域检测结果对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像，例如具体可以为：基于所述注意力热图的热度对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像。

作为一种示例，在上述图3的基础上，如图4所示的一种原始训练图像和该原始训练图像的重排训练图像示意图。其中，左图为原始训练图像，右图为左图的重排训练图像。右图是在左图分割为多个训练图像块后，按照图3中右图对多个训练图像块进行打乱重排得到的。

步骤203：基于所述原始训练图像、所述重排训练图像以及对应的标注数据，训练图像识别网络获得图像识别模型；所述标注数据包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序，所述图像预处理类别标签包括原始标签或重排标签。

需要说明的是，在执行步骤201-步骤202获得原始训练图像的重排训练图像后，不仅将原始训练图像作为图像识别网络的输入，而且同时将重排训练图像也作为图像识别网络的输入，以共同训练图像识别网络，使得图像识别网络在学习原始训练图像，关注原始训练图像的全局特征基础上，还学习重排训练图像，关注重排训练图像的局部特征，获得的图像识别模型对图像的局部特征的感知能力增强。针对原始训练图像或重排训练图像而言，其对应的标注数据包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序；其中，粗粒度图像类别标签是对图像进行粗粒度的图像分类得到的，细粒度图像类别标签是对图像进行细粒度的图像分类得到的，即，细粒度图像类别标签相较于粗粒度图像类别标签所表示的图像类别的粒度更小、更细致，图像预处理类别标签包括原始标签或重排标签。

在本申请实施例中，图像识别网络包括特征提取网络和识别网络。步骤203具体实施时，首先，将原始训练图像和重排训练图像输入特征提取网络输出训练特征；然后，将训练特征输入识别网络输出预测粗粒度图像类别、预测细粒度图像类别和预测图像预处理类别作为预测数据；最后，通过上述预测数据和上述标注数据，利用网络损失函数对图像识别网络的网络参数进行反向梯度训练直至训练完成，将训练完成的图像识别网络作为图像识别模型。即，在本申请实施例一种可选的实施方式中，所述步骤203基于所述原始训练图像、所述重排训练图像以及对应的标注数据，训练图像识别网络获得图像识别模型，例如可以包括以下步骤C-E：

步骤C：基于所述原始训练图像和所述重排训练图像，利用所述图像识别网络中的特征提取网络获得训练特征。

步骤D：基于所述训练特征，利用所述图像识别网络中的识别网络获得预测数据，所述预测数据包括预测粗粒度图像类别、预测细粒度图像类别和预测图像预处理类别。

步骤E：基于所述预测数据和所述标注数据，利用网络损失函数训练所述图像识别网络的网络参数获得所述图像识别模型。

还需要说明的是，在本申请实施例中，由于需要对原始训练图像和重排训练图像进行粗粒度的图像类别分类，对原始训练图像和重排训练图像进行细粒度的图像类别分类，判断原始训练图像和重排训练图像是原始类别还是重排类别，对重排训练图像进行重新排序恢复到原始训练图像；因此，将粗粒度图像类别分类损失函数、细粒度图像类别分类损失函数、图像预处理类别分类损失函数和重排训练图像恢复至原始训练图像损失函数这4个损失函数结合构成图像识别网络的网络损失函数。即，在本申请实施例一种可选的实施方式中，所述网络损失函数包括粗粒度图像类别分类损失函数、细粒度图像类别分类损失函数、图像预处理类别分类损失函数和重排训练图像恢复至原始训练图像损失函数。

通过本实施例提供的各种实施方式，首先，将原始训练图像分割成多个训练图像块并标记标号；然后，按照原始训练图像的图像显著区域检测结果，对多个训练图像块打乱重排，获得原始训练图像的重排训练图像；最后，将原始训练图像、重排训练图像以及对应的标注数据作为训练数据，训练图像识别网络获得图像识别模型；其中，标注数据包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序，图像预处理类别标签包括原始标签或重排标签。由此可见，利用原始训练图像的图像显著区域检测结果，针对性对原始训练图像分割后的多个训练图像块进行打乱重排得到重排训练图像，将原始训练图像结合重排训练图像作为图像识别网络的输入，使得图像识别网络关注图像的局部特征，训练获得对图像的局部特征感知能力增强的图像识别模型。

需要说明的是，在上述实施例的基础上，针对场景比较复杂的待识别图像而言，为了避免容易遗漏该待识别图像的重要特征，在获取待识别图像后，可以将待识别图像输入图像识别模型，即使待识别图像的场景比较复杂，该图像识别模型也能够既关注待识别图像的全局特征又关注待识别图像的局部特征，获得待识别图像的目标特征和目标类别，为了有效提高图像识别搜索的准确率，可通过目标特征和目标类别在图像数据库中搜索待识别图像的相似图像。

参见图5，示出了本申请实施例中一种图像识别搜索的方法的流程示意图。在本申请实施例中，利用上述实施例所述的图像识别模型，所述方法例如可以包括以下步骤：

步骤501：获取待识别图像。

步骤502：利用所述图像识别模型获得所述待识别图像的目标特征和目标类别。

在本申请实施例中，首先，将待识别图像输入图像识别模型中的特征提取网络获得待识别图像的目标特征；然后，将目标特征输入图像识别模型中的识别网络获得待识别图像的目标类别。

步骤503：基于所述目标特征和所述目标类别，在图像数据库中搜索所述待识别图像的相似图像。

在本申请实施例中，例如可以在图像数据库中确定目标类别对应的图像集，计算目标特征与该图像集中各个图像的特征之间的相似度，基于相似度确定待识别图像的相似图像。

通过本实施例提供的各种实施方式，首先，获取待识别图像；然后，将待识别图像输入上述图像识别模型，输出待识别图像的目标特征和目标类别；最后，利用待识别图像的目标特征和目标类别，在图像数据库中搜索其相似图像。由此可见，通用上述图像识别模型获得的待识别图像的目标特征不仅仅关注图像的全局特征，而且关注图像的局部特征，避免遗漏待识别图像的重要特征；以目标特征结合目标类别搜索待识别图像的相似图片，即使针对场景比较复杂的待识别图像，也可有效提高图像识别搜索的准确率，从而提升图像识别搜索的用户体验。

示例性装置

参见图6，示出了本申请实施例中一种训练图像识别网络的装置的结构示意图。在本申请实施例中，所述装置例如具体可以包括：

分割获得单元601，用于对原始训练图像进行分割，获得多个训练图像块并标记标号；

重排获得单元602，用于基于所述原始训练图像的图像显著区域检测结果对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像；

训练获得单元603，用于基于所述原始训练图像、所述重排训练图像以及对应的标注数据，训练图像识别网络获得图像识别模型；所述标注数据包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序，所述图像预处理类别标签包括原始标签或重排标签。

在本申请实施例一种可选的实施方式中，所述重排获得单元602包括：

在本申请实施例一种可选的实施方式中，所述重排获得单元602具体用于：

在本申请实施例一种可选的实施方式中，所述训练获得单元603包括：

在本申请实施例一种可选的实施方式中，所述网络损失函数包括粗粒度图像类别分类损失函数、细粒度图像类别分类损失函数、图像预处理类别分类损失函数和重排训练图像恢复至原始训练图像损失函数。

参见图7，示出了本申请实施例中一种图像识别搜索的装置的结构示意图。在本申请实施例中，利用上述实施例所述的图像识别模型，所述装置例如具体可以包括：

获取单元701，用于获取待识别图像；

获得单元702，用于利用所述图像识别模型获得所述待识别图像的目标特征和目标类别；

搜索单元703，用于基于所述目标特征和所述目标类别，在图像数据库中搜索所述待识别图像的相似图像。

图8是根据一示例性实施例示出的一种用于训练图像识别网络或图像识别搜索的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相互关联的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种训练图像识别网络的方法，所述方法包括：

基于所述原始训练图像、所述重排训练图像以及对应的标注数据，训练图像识别网络获得图像识别模型；所述标注数据包括粗粒度图像类别标签、细粒度图像类别标签、图像预处理类别标签和训练图像块标号顺序，所述图像预处理类别标签包括原始标签或重排标签；

或者，使得移动终端能够执行一种训练图像识别网络的方法，所述方法包括：

获取待识别图像；

图9是本申请实施例中服务器的结构示意图。该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，一个或一个以上键盘956，和/或，一个或一个以上操作***941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种训练图像识别网络的方法，其特征在于，包括：

基于所述注意力热图的热度对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像，其中，对所述注意力热图中热度越高位置对应的训练图像块的打乱程度越低，热度越低位置对应的训练图像块的打乱程度越高；

2.根据权利要求1所述的方法，其特征在于，所述基于所述原始训练图像、所述重排训练图像以及对应的标注数据，训练图像识别网络获得图像识别模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述网络损失函数包括粗粒度图像类别分类损失函数、细粒度图像类别分类损失函数、图像预处理类别分类损失函数和重排训练图像恢复至原始训练图像损失函数。

4.一种图像识别搜索的方法，其特征在于，包括：

获取待识别图像；

利用图像识别模型获得所述待识别图像的目标特征和目标类别，所述图像识别模型是利用如权利要求1至3中任一项所述的训练图像识别网络的方法训练得到的；

5.一种训练图像识别网络的装置，其特征在于，包括：

重排获得子单元，用于基于所述注意力热图的热度对所述多个训练图像块进行打乱重排，获得所述原始训练图像的重排训练图像，其中，对所述注意力热图中热度越高位置对应的训练图像块的打乱程度越低，热度越低位置对应的训练图像块的打乱程度越高；

6.根据权利要求5所述的装置，其特征在于，所述训练获得单元包括：

7.根据权利要求6所述的装置，其特征在于，所述网络损失函数包括粗粒度图像类别分类损失函数、细粒度图像类别分类损失函数、图像预处理类别分类损失函数和重排训练图像恢复至原始训练图像损失函数。

8.一种图像识别搜索的装置，其特征在于，包括：

获取单元，用于获取待识别图像；

获得单元，用于利用图像识别模型获得所述待识别图像的目标特征和目标类别，所述图像识别模型是利用如权利要求1至3中任一项所述的训练图像识别网络的方法训练得到的；

9.一种用于训练图像识别网络的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

10.根据权利要求9所述的装置，其特征在于，所述基于所述原始训练图像、所述重排训练图像以及对应的标注数据，训练图像识别网络获得图像识别模型，包括：

11.根据权利要求10所述的装置，其特征在于，所述网络损失函数包括粗粒度图像类别分类损失函数、细粒度图像类别分类损失函数、图像预处理类别分类损失函数和重排训练图像恢复至原始训练图像损失函数。

12.一种用于图像识别搜索的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待识别图像；

13.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至3中任一项所述的训练图像识别网络的方法；或者，使得装置执行如权利要求4所述的图像识别搜索的方法。