CN111738284B

CN111738284B - 一种物体识别方法、装置、设备及存储介质

Info

Publication number: CN111738284B
Application number: CN201911198682.0A
Authority: CN
Inventors: 白亚龙; 周默涵; 张炜; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-11-17
Anticipated expiration: 2039-11-29
Also published as: CN111738284A

Abstract

本发明实施例公开了一种物体识别方法、装置、设备及存储介质。该方法包括：获取待识别图像，其中，待识别图像包括待识别的目标物体；将待识别图像输入至已训练完成的物体识别模型中，根据物体识别模型的输出结果识别出目标物体；其中，物体识别模型根据分类模块和学习模块训练得到，且由分类模块构成，分类模块基于卷积神经网络得到，学习模块包括物体轮廓学习模块和/或空间上下文学习模块。本发明实施例的技术方案，通过参与到模型训练过程中的学习模块增强了分类模块对物体轮廓信息和/或物体空间结构的理解，且因学习模块未参与到后续的模型部署中，这就使得在部署相同大小的物体识别模型的情况下，可以显著提高物体识别的准确度。

Description

一种物体识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种物体识别方法、装置、设备及存储介质。

背景技术

物体识别(Object Recognition)是多媒体和计算机视觉社区的一大基本问题，其可以用于通用物体识别、精细类目物体识别、物体定位等等。随着卷积神经网络(Convolutional Neural Networks，CNN)的发展和数据量的扩充，物体识别的性能取得了惊人的飞速进展。

然而，由于物体的形变、外观及图像背景的干扰，精细类目上的物体识别仍然是具有挑战性的，比如，『蝴蝶』的分类、『鸟』的分类、『商品』的分类、『车』的分类等等。为了进一步提升精细类目上的物体识别的性能，研究人员提出了多种方案，这些方案主要可以分为两类：(a)基于物体检测和物体分类的两步运算***，其基于物体检测模型区分图像中的目标物体与背景，再基于物体分类模型对目标物体进行分类；(b)基于注意力模型的***，其基于大量额外参数来学习目标物体在图像中的注意力得分，由此区分图像中的目标物体与背景，或者对目标物体的各个部分进行区分。

在实现本发明过程中，发明人发现现有技术中至少存在如下技术问题：方案(a)需要大量的有标注的目标物体在图像中的检测框(bounding box)来训练物体检测模型，这类数据的构造成本极大，很难推广到大规模的物体识别任务中；而且，两步运算(物体检测+物体分类)的***架构使其在实际应用和实际部署中存在很大的难度和风险，且在物体识别过程中的计算效率较低。方案(b)中大量额外参数容易导致模型训练过程中的过拟合；而且，该方案往往伴随着大量的需要在模型训练中进行人为调整的隐参数(hyper-parameter)，当面向不同类型的物体识别任务时，需要对不同的隐参数进行调整，这就导致其在实际部署中的难度较大，可维护性差。

发明内容

本发明实施例提供了一种物体识别方法、装置、设备及存储介质，以实现待识别图像中目标物体的精准识别的效果。

第一方面，本发明实施例提供了一种物体识别方法，可以包括：

获取待识别图像，其中，待识别图像包括待识别的目标物体；

将待识别图像输入至已训练完成的物体识别模型中，根据物体识别模型的输出结果识别出目标物体；

其中，物体识别模型根据分类模块和学习模块训练得到，且由分类模块构成，分类模块基于卷积神经网络得到，学习模块包括物体轮廓学习模块和/或空间上下文学习模块。

可选的，在此基础上，该物体识别方法，还可以包括：

获取历史图像和历史图像中已识别的历史物体，将历史图像和历史物体作为一组训练样本；

基于多个训练样本对原始神经网络模型进行训练，得到物体识别模型，其中，多个训练样本中的历史物体属于同一类别，原始神经网络模型包括分类模块和学习模块。

可选的，基于多个训练样本对原始神经网络模型进行训练，可以包括：

若学习模块包括物体轮廓学习模块，将多个历史图像输入至分类模块中，分别得到每个历史图像的视觉特征；

将多个视觉特征输入至物体轮廓学习模块中，得到物体轮廓学习模块输出的相似度梯度，并将相似度梯度反向输入至分类模块中，调节分类模块的网络参数。

若学习模块包括空间上下文学习模块，将多个历史图像中的主历史图像输入至分类模块中，得到主视觉特征；

将主视觉特征输入至空间上下文学习模块中，得到空间上下文学习模块输出的空间梯度，将空间梯度反向输入至分类模块中，调节分类模块的网络参数。

可选的，若学习模块包括空间上下文学习模块，将多个历史图像中的主历史图像输入至分类模块中，得到主视觉特征，可以包括：

若学习模块包括物体轮廓学习模块和空间上下文学习模块，将多个训练样本输入至分类模块中，分别得到每个历史图像的视觉特征，视觉特征包括多个历史图像中的主历史图像的主视觉特征；

相应的，将主视觉特征输入至空间上下文学习模块中，得到空间上下文学习模块输出的空间梯度，并将空间梯度反向输入至分类模块中，调节分类模块的网络参数，可以包括：

将多个视觉特征输入至物体轮廓学习模块中，得到物体轮廓学习模块输出的相似度梯度，以及，将主视觉特征输入至空间上下文学习模块中，得到空间上下文学习模块输出的空间梯度；

将相似度梯度和空间梯度反向输入至分类模块，调节分类模块的网络参数。

可选的，在此基础上，相似度梯度是在将主视觉特征分别与各个其余视觉特征的相关性矩阵的均值对应的物体轮廓作为第一物体轮廓，将主视觉特征对应的物体轮廓作为第二物体轮廓时，根据第一物体轮廓和第二物体轮廓确定的；

其中，主视觉特征是多个历史图像中的主历史图像的视觉特征，其余视觉特征是多个视觉特征中除主视觉特征以外的视觉特征。

可选的，在此基础上，空间梯度是在将主历史图像分割为多个含有交集的子图像，且根据主视觉特征得到各个子图像的子特征时，根据各个子特征间的第一空间关系矩阵和主视觉特征的第二空间关系矩阵确定的；

其中，第一空间关系矩阵是根据各个子特征间的相关性预测出的每个子特征的四邻域确定的。

第二方面，本发明实施例还提供了一种物体识别装置，该装置可以包括：

图像获取模块，用于获取待识别图像，其中，待识别图像包括待识别的目标物体；

物体识别模块，用于将待识别图像输入至已训练完成的物体识别模型中，根据物体识别模型的输出结果识别出目标物体；

第三方面，本发明实施例还提供了一种设备，该设备可以包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明任意实施例所提供的物体识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明任意实施例所提供的物体识别方法。

本发明实施例的技术方案，通过获取包括有待识别的目标物体的待识别图像，并将待识别图像输入至已训练完成的物体识别模型后，即可根据物体识别模型的输出结果识别出目标物体。上述技术方案，通过参与到模型训练过程中的学习模块增强了分类模块对物体轮廓信息和/或物体空间结构的理解，且因学习模块未参与到后续的模型部署中，这就使得在部署相同大小的物体识别模型的情况下，可以显著提高物体识别的准确度。

附图说明

图1是本发明实施例一中的一种物体识别方法的流程图；

图2是本发明实施例二中的一种物体识别方法的流程图；

图3是本发明实施例二中的一种物体识别方法中挖掘同类别的图像间的相似模式的示意图；

图4是本发明实施例二中的一种物体识别方法中物体轮廓学习模块和空间上下文学习模块配合使用的示意图；

图5是本发明实施例二中的一种物体识别方法中物体识别模型和现有的分类模型的学习结果的对比示意图；

图6是本发明实施例三中的一种物体识别装置的结构框图；

图7是本发明实施例四中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中提供的一种物体识别方法的流程图。本实施例可适用于识别图像中的物体的情况，尤其适用于识别图像中的精细类目物体的情况。该方法可以由本发明实施例提供的物体识别装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在各种用户设备上。

参见图1，本发明实施例的方法具体包括如下步骤：

S110、获取待识别图像，其中，待识别图像包括待识别的目标物体。

其中，获取待识别图像的方式有很多种，比如，可以通过图像采集装置实时采集待识别图像，该图像采集装置可以是摄像机、照相机、手机、监控摄像头等等；可以从图像数据库中直接调取待识别图像，该图像数据库中的图像可以是通过上述图像采集装置采集得到的；等等。在此基础上，待识别图像中可包括待识别的目标物体，对于不同类型的物体识别任务，该目标物体的类型亦有所差别。示例性的，若物体识别任务是通用物体识别，则目标物体可以是大类别的目标物体，比如手机、电脑、汽车、飞机、小鸟、蝴蝶等等；若物体识别任务是精细类目物体识别，则目标物体可以是小类别的目标物体，比如汽车中的宝马汽车、大众汽车、奔驰汽车等等。

S120、将待识别图像输入至已训练完成的物体识别模型中，根据物体识别模型的输出结果识别出目标物体；其中，物体识别模型根据分类模块和学习模块训练得到，且由分类模块构成，分类模块基于卷积神经网络得到，学习模块包括物体轮廓学习模块和/或空间上下文学习模块。

其中，当将待识别图像输入至可用于识别该待识别图像中的目标物体的物体识别模型时，可根据物体识别模型的输出结果识别出该目标物体。示例性的，对于上文所述的通用物体识别，物体识别模型的输出结果可以是手机、电脑、汽车、飞机、小鸟或是蝴蝶等等；对于上文所述的精细类目物体识别，物体识别模型的输出结果可以是汽车中的宝马汽车、大众汽车或是奔驰汽车等等。实际上，如果物体识别模型可以用于精细类目物体识别，则该物体识别模型就可以用于通用物体识别和物体定位。这是因为，一方面，由于精细类目物体识别是通用物体识别中的一个特殊任务，则该物体识别模型也可以推广到通用物体识别；另一方面，在精细类目物体识别的过程中会产生一些中间结果比如视觉特征，该中间结果就可以直接用于物体定位。

需要说明的是，上文所述的已训练完成的物体识别模型是根据分类模块和学习模块共同训练得到的，而且，该已训练完成的物体识别模型仅由分类模块构成。也就是说，一方面，在模型训练过程中，在未影响已有的分类模块的基本结构的情况下，添加了可与分类模块直接配合使用的学习模块，而且，该学习模块只是参与到模型训练过程中，其主要是用于引导辅助分类模块的学习，比如，学习模块中的物体轮廓学习模块可用于增强分类模块对物体轮廓信息的理解，而学习模块中的空间上下文学习模块可用于增强分类模块对物体空间结构的理解。特别的，上文所述的分类模块可以是任一现有的基于卷积神经网络得到的分类模块，比如，支持向量机、逻辑回归、决策树、贝叶斯网络等等。另一方面，在模型训练完成后，该学习模块并未参与到后续的测试过程和部署过程，即其仅在模型训练过程中激活使用。

这样设置的好处在于，仅由分类模块构成的物体识别模型并未对已有的分类模块的规模产生影响，即其并未增加已有产品的部署难度，而且，在部署相同大小的物体识别模型的情况下，上文所述的物体识别模型通过物体轮廓信息和/或物体空间结构的优化学习，在尽可能少的引入额外参数的情况下，可以提高通用物体识别、精细类目物体识别及物体定位这三个不同任务的准确率。

实施例二

图2是本发明实施例二中提供的一种物体识别方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，上述物体识别方法，具体还可包括：获取历史图像和历史图像中已识别的历史物体，将历史图像和历史物体作为一组训练样本；基于多个训练样本对原始神经网络模型进行训练，得到物体识别模型，其中，多个训练样本中的历史物体属于同一类别，原始神经网络模型包括分类模块和学习模块。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图2，本实施例的方法具体可以包括如下步骤：

S210、获取历史图像和历史图像中已识别的历史物体，将历史图像和历史物体作为一组训练样本。

其中，获取历史图像的方式有很多种，比如，可以通过图像采集装置实时采集历史图像，可以从图像数据库中直接调取历史图像，等等。而且，该历史图像中包括已识别的历史物体，也就是说，历史图像中的历史物体是已知。由此，可以将历史图像和历史物体作为一组训练样本。

S220、基于多个训练样本对原始神经网络模型进行训练，得到物体识别模型，其中，多个训练样本中的历史物体属于同一类别，原始神经网络模型包括分类模块和学习模块。

其中，已训练完成的物体识别模型可以用于实现通用物体识别、精细类目物体识别和物体定位，也就是说，该物体识别模型可以用于实现多个类别的物体的识别，比如，其可以用于识别手机、电脑、汽车、飞机、小鸟、蝴蝶等等，也可以用于识别汽车中的宝马汽车、大众汽车、奔驰汽车等等。因此，已训练完成的物体识别模型可以是经过多次训练过程得到的，此时，各次训练过程均可以是针对不同类别的历史物体进行的，或是，各次训练过程中的几次训练过程也可以是针对相同类别的历史物体进行的。需要说明的是，一次训练过程涉及到的多个训练样本中的历史物体属于同一类别，这样一来，经过一次训练过程得到的物体识别模型就可以用于识别该同一类别的物体，相应的，经过多次训练过程得到的物体识别模型就可以对多个类别的物体进行识别。

示例性的，已训练完成的物体识别模型是经过三次训练过程得到的，若第一次训练过程中的多个训练样本中的历史物体均是飞机，则基于该多个训练样本对原始神经网络模型进行训练后，可以得到用于识别飞机的第一物体识别模型；第二次训练过程中的多个训练样本中的历史物体均是宝马汽车，则基于该多个训练样本对第一物体识别模型进行训练后，可以得到用于识别宝马汽车的第二物体识别模型；第三次训练过程中的多个训练样本中的历史物体均是大众汽车，则基于该多个训练样本对第二物体识别模型进行训练后，可以得到用于识别大众汽车的第三物体识别模型，该第三物体识别模型也就是最终得到的已训练完成的物体识别模型，而该已训练完成的物体识别模型可以用于识别飞机和汽车，还可以用于对汽车中的宝马汽车和大众汽车进行分类。

S230、获取待识别图像，其中，待识别图像包括待识别的目标物体。

S240、将待识别图像输入至已训练完成的物体识别模型中，根据物体识别模型的输出结果识别出目标物体；其中，物体识别模型根据分类模块和学习模块训练得到，且由分类模块构成，分类模块基于卷积神经网络得到，学习模块包括物体轮廓学习模块和/或空间上下文学习模块。

本发明实施例的技术方案，通过将历史图像和历史图像中已识别的历史物体作为一组训练样本，当多个训练样本中的历史物体属于同一类别时，可以基于多个训练样本对原始神经网络模型进行训练，得到用于识别该同一类别的物体的物体识别模型，而且，原始神经网络模型包括分类模块和学习模块，由此训练得到的物体识别模型对物体轮廓信息和物体空间结构的理解能力更强。

一种可选的技术方案，基于多个训练样本对原始神经网络模型进行训练，具体可以包括：若学习模块包括物体轮廓学习模块，将多个历史图像输入至分类模块中，分别得到每个历史图像的视觉特征；将多个视觉特征输入至物体轮廓学习模块中，得到物体轮廓学习模块输出的相似度梯度，并将相似度梯度反向输入至分类模块中，调节分类模块的网络参数。

其中，对于多个训练样本中的多个历史图像，在将这多个历史图像分别输入至分类模块后，可以得到每个历史图像的视觉特征，该视觉特征可以包括对应的历史图像的语义信息和空间结构信息，该语义信息可以是历史图像的颜色、纹理、形状等等，其可以呈现出历史图像中历史物体的物体轮廓信息。

进一步，在将多个视觉特征输入至物体轮廓学习模块后，可以得到物体轮廓学习模块输出的相似度梯度，该相似度梯度可以是根据物体轮廓学习模块中的相似度损失函数计算得到的，该相似度损失函数是用于计算同类别的多个历史物体各自对应的历史图像间的相似度，或是说，同类别的多个历史物体各自对应的历史图像的视觉特征间的相似度。

再进一步，物体轮廓学习模块输出的相似度梯度可以反向输入至分类模块中以调节该分类模块的网络参数，该相似度梯度可以呈现出每个网络参数的调节方向和调节幅度，比如，若分类模块包括网络参数A和网络参数B，则基于该相似度梯度可以将网络参数A提高20％，并将网络参数B降低10％。这样一来，当将上述多个历史图像重新输入至网络参数调节后的分类模块时，再次得到的各个历史图像的视觉特征间的相似度更高，而视觉特征间的相似度的提高意味着分类模块对历史图像中的历史物体的物体轮廓信息的检测更加准确。

总而言之，物体轮廓学习模块通过对同类别的历史图像的相似模式的挖掘，引导分类模块更多地关注这些历史图像中的相似部分即分类主体，并忽略与分类主体无关的背景部分，对于局部的细微视觉差异的考量可以提升分类模块对于历史图像的物体轮廓信息的理解能力。

在此基础上，可选的，相似度梯度可以通过如下方式得到：将主视觉特征分别与各个其余视觉特征的相关性矩阵的均值对应的物体轮廓作为第一物体轮廓，将主视觉特征对应的物体轮廓作为第二物体轮廓，根据第一物体轮廓和第二物体轮廓确定的；其中，主视觉特征是多个历史图像中的主历史图像的视觉特征，其余视觉特征是多个视觉特征中除主视觉特征以外的视觉特征。

其中，对于同类别的多个历史图像，确定该多个历史图像中的主历史图像，且将多个历史图像中除主历史图像以外的历史图像作为其余历史图像。相应的，确定多个视觉特征中与该主历史图像对应的主视觉特征，且将多个视觉特征中除主视觉特征以外的视觉特征作为其余视觉特征，即将多个视觉特征中与多个其余历史图像分别对应的视觉特征作为其余视觉特征。实际上，主历史图像可以是中心图像，其余历史图像可以是辅助图像，辅助图像的数量可以是一个或多个，且各个历史图像可以是同类别的且基于不同采集角度获取的图像，这样一来，当分别计算中心图像和各个辅助图像的相关性矩阵时，就可以得到该类别的各个采集角度下的物体轮廓信息。

具体的，以其余历史图像的数量是1个为例，参见图3，其可以说明如何挖掘同类别的图像间的相似模式。其中，图3左侧是同类别的主历史图像I和其余历史图像I'；图3中间是相关性矩阵，其表征了两个历史图像的各个子区域间的相似度，或是说，主视觉特征和其余视觉特征间的相似度；图3右侧是根据相关性矩阵可视化的物体轮廓的示意图，特别是根据相关性矩阵可视化的主历史图像的物体轮廓的示意图(图3右侧的上方)。

在此基础上，可将根据相关性矩阵得到的主历史图像的物体轮廓作为第一物体轮廓，并将根据主视觉特征得到的主历史图像的物体轮廓作为第二物体轮廓，那么，根据第一物体轮廓和第二物体轮廓间的差异性可以确定相似度梯度，该差异性可以是差值、方差、均方差等等，该相似度梯度可以呈现出这两个物体轮廓间的相似度。此时，基于相似度梯度调节分类模块的网络参数，可以理解为将第二物体轮廓作为分类模块的监督信号，以使分类模块更好地学习这些同类别的图像间的共性内容，这样一来，通过分类模块输出的第一物体轮廓与第二物体轮廓的相似度更高，由此可以增强分类模块对物体轮廓信息的理解，以使分类模块更多地关注分类主体，并忽略与分类主体无关的背景部分，即增强分类主体和背景部分的分离性。而且，相比于现有技术中将人工提供的检测框作为监督信号，该相似度梯度是根据相关性矩阵自动计算得到的，无需任何人工标注的样本数据，模型训练过程更加简化。

需要说明的是，如果基于单个的其余历史图像(即单个同类别图像)和主历史图像得到的第二物体轮廓作为监督信号，可能会引入一些含有噪声的视觉模式，这主要是由观测视角的变化及物体的形变引起的。对于同一物体而言，单个同类别图像可能包含着与主历史图像不同的视觉模式，而这种新的视觉模式往往对物体轮廓的学习没有帮助，甚至有损于物体轮廓的学习。为了纠正这种不同的视觉模式引起的物体轮廓的偏差，且更精确的检测出物体轮廓，可以使用多个同类别图像进行物体轮廓的学习，以它们的相似度的均值构建最终的相关性矩阵。多个同类别图像的引入，可以使物体轮廓学习模块更好的挖掘同类别的图像间的相似模式，由此引导分类模块来捕捉这种相似模式。

示例性的，对于同一型号汽车的10张图像(1张中心图像和9张辅助图像)，这些图像可以来源于同一辆汽车或是隶属于同一型号的多辆汽车，分别计算中心图像和9张辅助图像的相关性矩阵，并将这9个相关性矩阵的均值作为最终的相关性矩阵，以基于这最终的相关性矩阵得到第一物体轮廓，这样一来，就可以准确检测出各个采集角度下的物体轮廓信息。

一种可选的技术方案，基于多个训练样本对原始神经网络模型进行训练，具体可以包括：若学习模块包括空间上下文学习模块，将多个历史图像中的主历史图像输入至分类模块中，得到主视觉特征；将主视觉特征输入至空间上下文学习模块中，得到空间上下文学习模块输出的空间梯度，并将空间梯度反向输入至分类模块中，调节分类模块的网络参数。

其中，对于多个训练样本中的主历史图像，在将主历史图像输入至分类模块后，可以得到该主历史图像的主视觉特征，并将主视觉特征输入至空间上下文学习模块，由此得到空间上下文学习模块输出的空间梯度，该空间梯度可以是根据空间上下文学习模块中的空间损失函数计算得到的，该空间损失函数是用于计算实际的主历史图像的整体的空间结构(即，第一空间结构)和经空间上下文学习模块预测出的主历史图像的整体的空间结构(即，第二空间结构)间的相似度。进一步，空间上下文学习模块输出的空间梯度可以反向输入至分类模块中以调节该分类模块的网络参数，该空间梯度可以呈现出每个网络参数的调节方向和调节幅度。

这样一来，当将上述主历史图像重新输入至网络参数调节后的分类模块时，再次得到的第一空间结构和第二空间结构的相似度更高，而空间结构间的相似度的提高意味着分类模块对历史图像的物体空间结构的理解更加深入。实际上，空间上下文学习模块通过对主历史图像的整体的空间结构的挖掘，引导分类模块更多地关注主历史图像以及主历史图像中的主历史物体的全局的整体的空间结构，对于全局的整体的空间结构的考量可以提升分类模块对于历史图像的物体空间结构的理解能力。

在此基础上，可选的，空间梯度可以通过如下方式得到：在将主历史图像分割为多个含有交集的子图像，且根据主视觉特征得到各个子图像的子特征时，根据各个子特征间的第一空间关系矩阵和主视觉特征的第二空间关系矩阵确定；其中，第一空间关系矩阵是根据各个子特征间的相关性预测出的每个子特征的四邻域确定的。

其中，基于图像的欧几里得结构构建的空间上下文学习模块，可以通过图像内各子区域间的相关度来重构图像，也就是说，通过学习图像内不同的子区域间的相关性来得到图像的几何空间结构。具体的，将主历史图像分割为多个不同的含有部分交集的子图像，通过计算各个子图像间的相关性来推测每个子图像的四邻域以重建主历史图像的几何空间结构，从而使得分类模块对该主历史图像的全局的整体的物体空间结构的理解更加深入。根据每个子图像的四邻域可以得到各个子特征间的第一空间关系矩阵，再结合主视觉特征的第二空间关系矩阵可以得到空间损失函数输出的空间梯度，该空间损失函数可以是一个回归函数，其用于回归各个子图像最有可能的四邻域。比如，在对汽车内部的各个区域的相关性进行理解时，以轮胎所在区域为例，可以预测该轮胎所在区域的上下左右分别是什么区域。

具体的，通过计算各个子图像间的相关性来推测每个子图像的四邻域的实现方式可以是，根据主视觉特征得到各个子图像的子特征，计算各个子特征间的相关性，针对当前子特征，预测其余子特征中的哪个子特征位于当前子特征的左侧，也就是说，针对当前子图像，预测其余子图像中的哪个子图像位于当前子图像的左侧，相应的，当前子图像的上侧、右侧和下侧的预测方式同理可言，由此可得到每个子图像/子特征的四邻域。

而且，由于主视觉特征同时包括主历史图像的语义信息和空间结构信息，该语义信息可以表征主历史图像中有什么内容，该空间结构信息可以表征某个子图像在主历史图像中的空间位置信息。因此，可以对主视觉特征和/或各个子特征进行预设数学变换以剔除主视觉特征和/或各个子特征中的语义信息并保留空间结构信息，该空间结构信息可以用来推测各个子图像间的几何关系。其中，上述预设数学变换可以是神经网络中的1*1卷积层或是全连接层。

一种可选的技术方案，基于多个训练样本对原始神经网络模型进行训练，具体可包括：若学习模块包括物体轮廓学习模块和空间上下文学习模块，将多个训练样本输入至分类模块中，分别得到每个历史图像的视觉特征，视觉特征包括多个历史图像中的主历史图像的主视觉特征；将多个视觉特征输入至物体轮廓学习模块中，得到物体轮廓学习模块输出的相似度梯度，以及，将主视觉特征输入至空间上下文学习模块中，得到空间上下文学习模块输出的空间梯度；将相似度梯度和空间梯度反向输入至分类模块中，调节分类模块的网络参数。

其中，1)当物体轮廓学习模块和空间上下文学习模块配合使用时，参见图4，以主历史图像、其余历史图像1和其余历史图像P为例：将3个历史图像输入至分类模块中，得到主历史图像的主视觉特征、其余历史图像1的其余视觉特征1和其余历史图像P的其余视觉特征P；2)将3个视觉特征输入至物体轮廓学习模块中，得到物体轮廓学习模块输出的相似度梯度，该相似度梯度是根据物体轮廓学习模块中的相似度损失函数计算得到的，其可以反向输入至分类模块中以调节分类模块的网络参数，这样一来，当将3个历史图像重新输入至分类模块且将分类模块输出的3个视觉特征重新输入至物体轮廓学习模块时，得到的第一物体轮廓和第二物体轮廓的相似度更高；3)在将3个视觉特征输入至物体轮廓学习模块时，还可以将主视觉特征输入至空间上下文学习模块中，得到空间上下文学习模块输出的空间梯度，其中，该空间上下文学习模块可以预测子特征1是在子特征2的上侧、下侧、左侧、右侧或是未挨着，该空间梯度是根据空间上下文学习模块中的空间损失函数计算得到的，其可以反向输入至分类模块中以调节分类模块的网络参数，这样一来，当将主历史图像重新输入至分类模块且将分类模块输出的主视觉特征重新输入至物体轮廓学习模块时，得到的第一空间关系矩阵和第二空间关系矩阵的相似度更高。

由此可知，物体轮廓学习模块输出的相似度梯度和空间上下文学习模块输出的空间梯度都可直接反向输入至分类模块中，再加上分类模块本身的分类梯度，此时，分类模块可同时接收到三个梯度，且可将这三个梯度的加和结果作为最终的梯度，然后一起回传至分类模块的开端。

需要说明的是，当物体轮廓学习模块和空间上下文学习模块配合使用时，针对精细类目物体识别，物体识别模型对判别性区域的理解会更加深刻，该判别性区域是两个精细类目物体的关键性的区别点，比如，两个品种的小鸟的判别性区域可以是头部。也就是说，判别性区域应是物体识别模型最关注的区域，当物体识别模型可以精准识别出图像中的判别性区域时，其对精细类目物体识别的精确度就会更高。

示例性的，参见图5，第一列是输入图像，第二列的判别性区域的示意图是在假设原分类模型(即，现有的分类模型)能够正确识别物体的情况下，反向推导得到的响应最高的区域，相当于在正确标签下的高亮区域，该高亮区域就是判别性区域；第三列的原分类模型的示意图是在原分类模型未正确识别物体的情况下，反向推导得到的响应最高的区域，而原分类模型分类错误的原因可能是，以小鸟为例，将判别性区域错误地定义在小鸟的尾部，或是，将判别性区域正确地定义在小鸟的头部但无法准确识别出小鸟的头部。相应的，第四列的区域上下文学习模型(即，物体识别模型)的示意图是在物体识别模型正确识别物体的情况下，反向推导得到的高亮区域，即，该物体识别模型既可以准确检测出小鸟的物体轮廓信息，又可以将判别性区域精准定义在小鸟的头部，这是因为，空间上下文学习模块在对小鸟的内部构造有着比较深刻的理解的情况下，可以将判别性区域准确定义在小鸟的头部；与此同时，物体轮廓学习模块在可以检测出整只鸟的物体轮廓信息后，自然可以准确定位出小鸟的头部，由此，高亮区域是整只鸟，而最高亮区域就是小鸟的头部。

为了进一步验证本发明实施例所述的物体识别方法的有效性，在通用物体识别任务上，基于该物体识别方法可以将基于ResNet-50的原分类模型在ImageNet数据集上的错误率绝对降低1.41％；在精细类目物体识别任务上，该物体识别方法可以将基于ResNet-50的原分类模型在CUB-200-2011、Stanford Cars和FGVC-Aircraft数据集上的准确率绝对提升2.6％、1.8％和2.1％；此外，在物体定位任务上，该物体识别方法可以将基于SoftProposal Network的定位模型将VOC2007数据集上的中心点定位准确率提升1.7％。

实施例三

图6为本发明实施例三提供的物体识别装置的结构框图，该装置用于执行上述任意实施例所提供的物体识别方法。该装置与上述各实施例的物体识别方法属于同一个发明构思，在物体识别装置的实施例中未详尽描述的细节内容，可以参考上述物体识别方法的实施例。参见图6，该装置具体可包括：图像获取模块310和物体识别模块320。

其中，图像获取模块310，用于获取待识别图像，其中，待识别图像包括待识别的目标物体；

物体识别模块320，用于将待识别图像输入至已训练完成的物体识别模型中，根据物体识别模型的输出结果识别出目标物体；

可选的，在此基础上，该物体识别方法，具体还可以包括：

训练样本获取模块，用于获取历史图像和历史图像中已识别的历史物体，将历史图像和历史物体作为一组训练样本；

模型训练模块，用于基于多个训练样本对原始神经网络模型进行训练，得到物体识别模型，其中，多个训练样本中的历史物体属于同一类别，原始神经网络模型包括分类模块和学习模块。

可选的，模型训练模块，具体可以包括：

分类模块第一输入单元，用于若学习模块包括物体轮廓学习模块，将多个历史图像输入至分类模块中，分别得到每个历史图像的视觉特征；

分类模块第一调节单元，用于将多个视觉特征输入至物体轮廓学习模块中，得到物体轮廓学习模块输出的相似度梯度，并将相似度梯度反向输入至分类模块中，调节分类模块的网络参数。

可选的，模型训练模块，具体可以包括：

分类模块第二输入单元，用于若学习模块包括空间上下文学习模块，将多个历史图像中的主历史图像输入至分类模块中，得到主视觉特征；

分类模块第二调节单元，用于将主视觉特征输入至空间上下文学习模块中，得到空间上下文学习模块输出的空间梯度，并将空间梯度反向输入至分类模块中，调节分类模块的网络参数。

可选的，分类模块第二输入单元，具体可以用于：

相应的，分类模块第二调节单元，具体可以用于：

将多个视觉特征输入至物体轮廓学习模块中，得到物体轮廓学习模块输出的相似度梯度，以及，将主视觉特征输入至空间上下文学习模块中，得到空间上下文学习模块输出的空间梯度，并将相似度梯度和空间梯度反向输入至分类模块中，调节分类模块的网络参数。

本发明实施例三提供的物体识别装置，通过图像获取模块可以获取包括有待识别的目标物体的待识别图像，物体识别模块将待识别图像输入至已训练完成的物体识别模型后，即可根据物体识别模型的输出结果识别出目标物体。上述装置通过参与到模型训练过程中的学习模块增强了分类模块对物体轮廓信息和/或物体空间结构的理解，且因学习模块未参与到后续的模型部署中，这就使得在部署相同大小的物体识别模型的情况下，可以显著提高物体识别的准确度。

本发明实施例所提供的物体识别装置可执行本发明任意实施例所提供的物体识别方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述物体识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例四

图7为本发明实施例四提供的一种设备的结构示意图，如图7所示，该设备包括存储器410、处理器420、输入装置430和输出装置440。设备中的处理器420的数量可以是一个或多个，图7中以一个处理器420为例；设备中的存储器410、处理器420、输入装置430和输出装置440可以通过总线或其它方式连接，图7中以通过总线450连接为例。

存储器410作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的物体识别方法对应的程序指令/模块(例如，物体识别装置中的图像获取模块310和物体识别模块320)。处理器420通过运行存储在存储器410中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的物体识别方法。

存储器410可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器410可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器410可进一步包括相对于处理器420远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种物体识别方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的物体识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。依据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种物体识别方法，其特征在于，包括：

获取待识别图像，其中，所述待识别图像包括待识别的目标物体；

将所述待识别图像输入至已训练完成的物体识别模型中，根据所述物体识别模型的输出结果识别出所述目标物体；

其中，所述物体识别模型根据分类模块和学习模块训练得到，且由所述分类模块构成，所述分类模块基于卷积神经网络得到，所述学习模块包括物体轮廓学习模块和/或空间上下文学习模块；

在所述物体识别模型的训练过程中，经所述物体轮廓学习模块输出的相似度梯度被反向输入至所述分类模块来调节所述分类模块的网络参数，以使所述分类模块学习物体轮廓信息，并且经所述空间上下文学习模块输出的空间梯度被反向输入至所述分类模块中来调节所述分类模块的网络参数，以使所述分类模块学习物体空间结构。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取历史图像和所述历史图像中已识别的历史物体，将所述历史图像和所述历史物体作为一组训练样本；

基于多个所述训练样本对原始神经网络模型进行训练，得到所述物体识别模型，其中，多个所述训练样本中的所述历史物体属于同一类别，所述原始神经网络模型包括所述分类模块和所述学习模块。

3.根据权利要求2所述的方法，其特征在于，所述基于多个所述训练样本对原始神经网络模型进行训练，包括：

若所述学习模块包括所述物体轮廓学习模块，将多个所述历史图像输入至所述分类模块中，分别得到每个所述历史图像的视觉特征；

将多个所述视觉特征输入至所述物体轮廓学习模块中，得到所述物体轮廓学习模块输出的相似度梯度，并将所述相似度梯度反向输入至所述分类模块中，调节所述分类模块的网络参数。

4.根据权利要求2所述的方法，其特征在于，所述基于多个所述训练样本对原始神经网络模型进行训练，包括：

若所述学习模块包括所述空间上下文学习模块，将多个所述历史图像中的主历史图像输入至所述分类模块中，得到主视觉特征；

将所述主视觉特征输入至所述空间上下文学习模块中，得到所述空间上下文学习模块输出的空间梯度，并将所述空间梯度反向输入至所述分类模块中，调节所述分类模块的网络参数。

5.根据权利要求4所述的方法，其特征在于，所述若所述学习模块包括所述空间上下文学习模块，将多个所述历史图像中的主历史图像输入至所述分类模块中，得到主视觉特征，包括：

若所述学习模块包括所述物体轮廓学习模块和所述空间上下文学习模块，将多个所述训练样本输入至所述分类模块中，分别得到每个所述历史图像的视觉特征，所述视觉特征包括多个所述历史图像中的主历史图像的主视觉特征；

相应的，所述将所述主视觉特征输入至所述空间上下文学习模块中，得到所述空间上下文学习模块输出的空间梯度，并将所述空间梯度反向输入至所述分类模块中，调节所述分类模块的网络参数，包括：

将多个所述视觉特征输入至所述物体轮廓学习模块中，得到所述物体轮廓学习模块输出的相似度梯度，以及，将所述主视觉特征输入至所述空间上下文学习模块中，得到所述空间上下文学习模块输出的空间梯度；

将所述相似度梯度和所述空间梯度反向输入至所述分类模块中，调节所述分类模块的网络参数。

6.根据权利要求3或5所述的方法，其特征在于，所述相似度梯度是在将主视觉特征分别与各个其余视觉特征的相关性矩阵的均值对应的物体轮廓作为第一物体轮廓，将主视觉特征对应的物体轮廓作为第二物体轮廓时，根据所述第一物体轮廓和所述第二物体轮廓确定的；

其中，所述主视觉特征是多个所述历史图像中的主历史图像的视觉特征，所述其余视觉特征是多个所述视觉特征中除所述主视觉特征以外的视觉特征。

7.根据权利要求4或5所述的方法，其特征在于，所述空间梯度是在将所述主历史图像分割为多个含有交集的子图像，且根据所述主视觉特征得到各个所述子图像的子特征时，根据各个所述子特征间的第一空间关系矩阵和所述主视觉特征的第二空间关系矩阵确定的；

其中，所述第一空间关系矩阵是根据各个所述子特征间的相关性预测出的每个所述子特征的四邻域确定的。

8.一种物体识别装置，其特征在于，包括：

图像获取模块，用于获取待识别图像，其中，所述待识别图像包括待识别的目标物体；

物体识别模块，用于将所述待识别图像输入至已训练完成的物体识别模型中，根据所述物体识别模型的输出结果识别出所述目标物体；

9.一种物体识别设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的物体识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的物体识别方法。