CN105512685B

CN105512685B - 物体识别方法和装置

Info

Publication number: CN105512685B
Application number: CN201510918292.1A
Authority: CN
Inventors: 陈志军; 李明浩; 侯文迪
Original assignee: Xiaomi Inc
Current assignee: Xiaomi Inc
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2019-12-03
Anticipated expiration: 2035-12-10
Also published as: CN105512685A

Abstract

本公开提供一种物体识别方法和装置。本公开物体识别方法，包括：基于BING在待识别图像中确定至少一个第一候选框，该第一候选框用于标识待检测是否包含目标物体的图像区域；将第一候选框与目标物体模型进行比对，该目标物体模型是通过采用CNN对样本数据进行训练获得的关于目标物体的模型；若第一候选框中存在目标物体模型，则标示第一候选框。本公开可大大减少需要比对的候选框的数目，比对次数的减少可加速物体识别过程；其中，采用CNN对样本数据进行训练获得的目标物体模型与目标物体的差别较小，较贴近目标物体的形状，可保证物体识别的精确度，因此，本公开可快速、精确地进行物体识别。

Description

物体识别方法和装置

技术领域

本公开涉及图像处理，尤其涉及一种物体识别方法和装置。

背景技术

目前，大部分物体识别方法都是先学习大量的样本，获得学习结果，即物体模型；然后用不同的框遍历需要测试的图片，将遍历的框中的内容依次与物体模型比对，确定框中是否存在此物体模型。然而，对于一幅N*N图像而言，要遍历所有可能的框，需要遍历的次数大约为N的4次方数量级。

发明内容

为克服相关技术中存在的问题，本公开提供一种物体识别方法和装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种物体识别方法，该方法包括：

基于BING方法在待识别图像中确定至少一个第一候选框，该第一候选框用于标识待检测是否包含目标物体的图像区域；

将第一候选框与目标物体模型进行比对，该目标物体模型是通过采用CNN对样本数据进行训练获得的关于目标物体的模型；

若第一候选框中存在所述目标物体模型，则标示第一候选框。

本公开的实施例提供的技术方案可以包括以下有益效果：通过BING方法获取可能包含目标物体的至少一个第一候选框，相对于现有技术，可大大减少需要比对的候选框的数目，因单次比对所持续的时间相对固定，因此，比对次数的减少可加速物体识别过程；将第一候选框与目标物体模型进行比对，该目标物体模型是通过采用CNN对样本数据进行训练获得的关于目标物体的模型，若第一候选框中存在目标物体模型，则标示第一候选框，完成对物体的识别，其中，采用CNN对样本数据进行训练获得的目标物体模型与目标物体的差别较小，较贴近目标物体的形状，可保证物体识别的精确度，因此，本公开可快速、精确地进行物体识别。

可选地，上述基于BING方法在待识别图像中确定至少一个第一候选框，包括：采用BING方法对待识别图像进行对象估计，获得该待识别图像中的至少一个第一候选框。

进一步地，上述将第一候选框与目标物体模型进行比对之前，还包括：对至少一个第一候选框进行聚类，确定第二候选框。该第二候选框的个数少于第一候选框的个数。相应地，上述将第一候选框与目标物体模型进行比对，具体为：将第二候选框与目标物体模型进行比对。上述若第一候选框中存在目标物体模型，则标示第一候选框，具体为：若第二候选框中存在目标物体模型，则标示第二候选框。

本公开的实施例提供的技术方案可以包括以下有益效果：通过对至少一个第一候选框进行聚类确定第二候选框，进一步减少需比对的候选框的个数，完成物体识别过程所消耗的时间更少，提升用户体验。

进一步地，上述对至少一个第一候选框进行聚类，确定第二候选框之前，还包括：在至少一个第一候选框中，选取置信分值大于预设值的候选框。该置信分值用于表征候选框中包含目标物体的概率。相应地，上述对至少一个第一候选框进行聚类，确定第二候选框，包括：根据置信分值大于预设值的候选框的大小，对置信分值大于预设值的候选框进行聚类，确定第二候选框。

其中，上述根据置信分值大于预设值的候选框的大小，对置信分值大于预设值的候选框进行聚类，确定第二候选框，包括：对置信分值大于预设值的候选框中每两个候选框，获取两个候选框各自左上角和右下角在待识别图像中位置坐标；根据两个候选框各自左上角和右下角在所述待识别图像中位置坐标，获得两个候选框的重合面积；若两个候选框的重合面积大于预设阈值，则判定两个候选框为一类；根据聚类后的候选框，确定第二候选框。

进一步地，上述根据聚类后的候选框，确定第二候选框，可以通过多种方式实现。

一种实现方式中，根据聚类后的候选框，确定第二候选框可以包括：将每一类包含的候选框在待识别图像中的位置坐标求平均，确定每一类包含的所有候选框的平均坐标对应的候选框为第二候选框。例如，类1中每个候选框的左上角和右下角在待识别图像中位置坐标是已知的，对类1中所有候选框的左上角在待识别图像中位置坐标求平均值，获得类1包含的所有候选框的左上角在待识别图像中平均位置坐标；同理，对类1中所有候选框的右下角在待识别图像中位置坐标求平均值，获得类1包含的所有候选框的右下角在待识别图像中平均位置坐标，该两个平均位置坐标对应的候选框即为根据类1中所有候选框确定的第二候选框。

另一种实现方式中，根据聚类后的候选框，确定第二候选框可以包括：根据聚类后的候选框，确定每一类包含的候选框中置信分值最大的候选框为第二候选框。这里仍以类1为例进行说明，其中，类1包含的候选框中，每一候选框对应的置信分值可能是不同的，确定对应置信分值最大的候选框作为类1的第二候选框。同理，在类2包含的候选框中，确定对应置信分值最大的候选框作为类2的第二候选框。以此类推，确定每一类的第二候选框。

进一步地，上述标示第一候选框之后，还包括：向用户发出音频提示或者视频提示，以提示用户识别到目标物体。

本公开的实施例提供的技术方案可以包括以下有益效果：通过多样的提示方式，可以使得用户采用各种方式获取到识别到物体的提示信息，增加用户兴趣，提升用户体验。

根据本公开实施例的第二方面，提供一种物体识别装置，所述装置包括：

获取模块，被配置为基于BING方法在待识别图像中确定至少一个第一候选框，该第一候选框用于标识待检测是否包含目标物体的图像区域；

比对模块，被配置为将第一候选框与目标物体模型进行比对，该目标物体模型是通过采用CNN对样本数据进行训练获得的关于目标物体的模型；

标示模块，被配置为若第一候选框中存在目标物体模型，则标示第一候选框。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种物体识别方法的流程图；

图2是图1示例性实施例的一种应用场景示意图；

图3是根据一示例性实施例示出的一种物体识别方法的流程图；

图4是根据一示例性实施例示出的一种物体识别装置框图；

图5是根据一示例性实施例示出的一种物体识别装置框图；

图6是根据一示例性实施例示出的一种物体识别装置框图；

图7是根据一示例性实施例示出的一种物体识别装置框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

首先对本公开实施例所涉及的几个名词进行解释：

二值规范梯度(Binarized Normed Gradients，简称：BING)：即一种快速挑出候选框的方法。此种方法对于候选框的筛选方法很快，且其基于物体的闭合性这一性质，能够对几乎所有的物体进行预判，因此，若想识别某一特定物体，则在获取候选框的时候，可以先用该方法剔除大部分的框，得到少数的候选框。

卷积神经网络(Convolutional Neural Network，简称：CNN)：是一种特殊的深层的神经网络模型。CNN的特殊性体现在两个方面：一方面，CNN的神经元间的连接是非全连接的；另一方面，同一层中某些神经元之间的连接的权重是共享的(即相同的)。CNN的非全连接和权值共享的网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。

聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。聚类与分类的不同在于，聚类所要求划分的类是未知的。

图1是根据一示例性实施例示出的一种物体识别方法的流程图。本实施例提供一种物体识别方法，该方法应用于物体识别装置中，该物体识别装置可以与用户终端无线连接获取待识别图像，其中，用户终端包括智能手机、数码相机、监控摄像头等包含成像元件的设备，该物体识别装置集成于服务器或用户终端中。如图1所示，方法包括以下步骤：

在步骤101中，基于BING方法在待识别图像中确定至少一个第一候选框，该第一候选框用于标识待检测是否包含目标物体的图像区域。

在步骤102中，将第一候选框与目标物体模型进行比对，该目标物体模型是通过采用CNN对样本数据进行训练获得的关于目标物体的模型。

在步骤103中，若第一候选框中存在目标物体模型，则标示该第一候选框。

图2是图1示例性实施例的一种应用场景示意图。参考图2，智能手机100将待识别图像通过无线网络发送给服务器200。相应地，服务器200接收该待识别图像；并，采用BING方法对该待识别图像进行对象估计，获得待识别图像中的至少一个第一候选框；将第一候选框与目标物体模型进行比对；若第一候选框中存在目标物体模型，则标示该第一候选框。其中，第一候选框也就是待识别图像中可能包含目标物体的图像区域，用于步骤202中需要比对的候选框。

服务器200中预先存储上述目标物体模型。其中，该目标物体模型可以是服务器200通过采用CNN对大量样本数据进行训练获得的，也可以是其他设备通过采用CNN对大量样本数据进行训练获得之后发送给服务器200的。另外，服务器200还可以对已存储的目标物体模型进行更新，也就是继续学习样本数据以使得目标物体模型更贴近目标物体。

其中，上述服务器200接收待识别图像仅为获取待识别图像的一种实现方式，例如，服务器200中还可以预先存储有待识别图像，或者，其他实现方式获取待识别图像。

服务器200可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

综上所述，本实施例提供的物体识别方法，通过BING方法获取可能包含目标物体的至少一个第一候选框，相对于现有技术，可大大减少需要比对的候选框的数目，因单次比对所持续的时间相对固定，因此，比对次数的减少可加速物体识别过程；将第一候选框与目标物体模型进行比对，该目标物体模型是通过采用CNN对样本数据进行训练获得的关于目标物体的模型，若第一候选框中存在目标物体模型，则标示第一候选框，完成对物体的识别，其中，采用CNN对样本数据进行训练获得的目标物体模型与目标物体的差别较小，较贴近目标物体的形状，可保证物体识别的精确度，因此，本公开可快速、精确地进行物体识别。

图3是根据一示例性实施例示出的一种物体识别方法的流程图。如图3所示，该方法可以包括以下步骤：

在步骤301中，基于BING方法在待识别图像中确定至少一个第一候选框，该第一候选框用于标识待检测是否包含目标物体的图像区域。

在步骤302中，对至少一个第一候选框进行聚类，确定第二候选框，该第二候选框的个数少于第一候选框的个数。

在步骤303中，将第二候选框与目标物体模型进行比对。

在步骤304中，若第二候选框中存在目标物体模型，则标示该第二候选框。

该实施例中，步骤301与步骤201相同，此处不再赘述。

本实施例，通过对至少一个第一候选框进行聚类确定第二候选框，进一步减少需比对的候选框的个数，相对于图1所示实施例，完成物体识别过程所消耗的时间更少，提升用户体验。

可选地，上述步骤302之前，该方法还可以包括：在至少一个第一候选框中，选取置信分值大于预设值的候选框，该置信分值用于表征候选框中包含目标物体的概率。相应地，步骤302可以包括：根据置信分值大于预设值的候选框的大小，对置信分值大于预设值的候选框进行聚类，确定第二候选框。需说明的是，对于置信分值，本领域技术人员可以将其理解为CNN中的权重。

其中，上述根据置信分值大于预设值的候选框的大小，对置信分值大于预设值的候选框进行聚类，确定第二候选框，可以包括：对置信分值大于预设值的候选框中每两个候选框，获取两个候选框各自左上角和右下角在待识别图像中位置坐标；根据两个候选框各自左上角和右下角在所述待识别图像中位置坐标，获得两个候选框的重合面积；若两个候选框的重合面积大于预设阈值，则判定两个候选框为一类；根据聚类后的候选框，确定第二候选框。这里，仅示例说明一种对置信分值大于预设值的候选框进行聚类所采用的聚类方法，但本公开不以此为限制，例如，还可以采用非极大值抑制(Non-maximum Suppression，简称：NMS)方法对置信分值大于预设值的候选框进行聚类，等等。

可选地，上述根据聚类后的候选框，确定第二候选框，可以具体为：将每一类包含的候选框在待识别图像中的位置坐标求平均，确定每一类包含的所有候选框的平均坐标对应的候选框为第二候选框；或者，根据聚类后的候选框，确定每一类包含的候选框中置信分值最大的候选框为第二候选框。

在上述实施例的基础上，物体识别方法在标示第一候选框之后，还可以包括：向用户发出音频提示或者视频提示，以提示用户识别到目标物体。

该实施例通过多样的提示方式，可以使得用户采用各种方式获取到识别到物体的提示信息，增加用户兴趣，提升用户体验。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是根据一示例性实施例示出的一种物体识别装置框图。参照图4，该装置包括获取模块11、比对模块12以及标示模块13。

该获取模块11，被配置为基于BING方法在待识别图像中确定至少一个第一候选框，该第一候选框用于标识待检测是否包含目标物体的图像区域。

该比对模块12，被配置为将第一候选框与目标物体模型进行比对。该目标物体模型是通过采用CNN对样本数据进行训练获得的关于目标物体的模型。

该标示模块13，被配置为若第一候选框中存在目标物体模型，则标示第一候选框。

综上所述，本实施例提供的物体识别装置，通过BING方法获取可能包含目标物体的至少一个第一候选框，相对于现有技术，可大大减少需要比对的候选框的数目，因单次比对所持续的时间相对固定，因此，比对次数的减少可加速物体识别过程；将第一候选框与目标物体模型进行比对，该目标物体模型是通过采用CNN对样本数据进行训练获得的关于目标物体的模型，若第一候选框中存在目标物体模型，则标示第一候选框，完成对物体的识别，其中，采用CNN对样本数据进行训练获得的目标物体模型与目标物体的差别较小，较贴近目标物体的形状，可保证物体识别的精确度，因此，本公开可快速、精确地进行物体识别。

在上述实施例中，获取模块11可被配置为采用BING方法对待识别图像进行对象估计，获得该待识别图像中的至少一个第一候选框。

图5是根据一示例性实施例示出的一种物体识别装置框图。参照图5，该装置的结构在图4所示框图基础上，还包括聚类模块14。

其中，该聚类模块14，被配置为对至少一个第一候选框进行聚类，确定第二候选框。该第二候选框的个数少于第一候选框的个数。

该比对模块12，被配置为将第二候选框与目标物体模型进行比对。

该标示模块13，被配置为若第二候选框中存在目标物体模型，则标示第二候选框。

本实施例，通过对至少一个第一候选框进行聚类确定第二候选框，进一步减少需比对的候选框的个数，相对于图4所示实施例，完成物体识别过程所消耗的时间更少，提升用户体验。

图6是根据一示例性实施例示出的一种物体识别装置框图。参照图6，该装置的结构在图5所示框图基础上，还包括选取模块15。

其中，该选取模块15，被配置为在第一候选框中，选取置信分值大于预设值的候选框。该置信分值用于表征候选框中包含目标物体的概率。

该聚类模块14，被配置为根据置信分值大于预设值的候选框的大小，对置信分值大于预设值的候选框进行聚类，确定第二候选框。

可选地，聚类模块14可以包括：坐标获取子模块141，被配置为对置信分值大于预设值的候选框中每两个候选框，获取两个候选框各自左上角和右下角在所述待识别图像中位置坐标；面积计算子模块142，被配置为根据两个候选框各自左上角和右下角在待识别图像中位置坐标，获得两个候选框的重合面积；聚类子模块143，被配置为若两个候选框的重合面积大于预设阈值，则判定两个候选框为一类；候选框确定子模块144，被配置为根据聚类后的候选框，确定第二候选框。

其中，候选框确定子模块144可被配置为将每一类包含的候选框在待识别图像中的位置坐标求平均，确定每一类包含的所有候选框的平均坐标对应的候选框为第二候选框。或者，候选框确定子模块144可被配置为根据聚类后的候选框，确定每一类包含的候选框中置信分值最大的候选框为第二候选框，等等，本公开不以此为限制。

本实施例，通过在第一候选框中，选取置信分值大于预设值的候选框，进一步减少需比对的候选框的个数，进一步减少完成物体识别过程所消耗的时间。

进一步地，物体识别装置还可以包括：提示模块(未示出)。该提示模块，被配置为向用户发出音频提示或视频提示，以提示用户识别到目标物体。

图7是根据一示例性实施例示出的一种物体识别装置框图。参照图7，物体识别装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(input/output，简称：I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制物体识别装置800的整体操作，诸如与显示，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在物体识别装置800的操作。这些数据的示例包括用于在物体识别装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称：SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，简称：EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read OnlyMemory，简称：EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称：PROM)，只读存储器(Read-Only Memory，简称：ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为物体识别装置800的各种组件提供电力。电力组件806可以包括电源管理***，一个或多个电源，及其他与为物体识别装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述物体识别装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称：LCD)和触摸面板(TouchPanel，简称：TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当物体识别装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(Microphone，简称：MIC)，当物体识别装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为物体识别装置800提供各个方面的状态评估。例如，传感器组件814可以检测到物体识别装置800的打开/关闭状态，组件的相对定位，例如所述组件为物体识别装置800的显示器和小键盘，传感器组件814还可以检测物体识别装置800或物体识别装置800一个组件的位置改变，用户与物体识别装置800接触的存在或不存在，物体识别装置800方位或加速/减速和物体识别装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如互补金属氧化物半导体(Complementary MetalOxide Semiconductor，简称：CMOS)或电荷耦合元件(Charge-coupled Device，简称：CCD)感光成像元件，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于物体识别装置800和其他设备之间有线或无线方式的通信。物体识别装置800可以接入基于通信标准的无线网络，如无线保真(WIreless-Fidelity，简称：WiFi)，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(Near Field Communication，简称：NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，简称：RFID)技术，红外数据协会(Infrared Data Association，简称：IrDA)技术，超宽带(UltraWideband，简称：UWB)技术，蓝牙(Bluetooth，简称：BT)技术和其他技术来实现。

在示例性实施例中，物体识别装置800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称：ASIC)、数字信号处理器(DdigitalSignal Processor，简称：DSP)、数字信号处理设备(Digital Signal Processing Device，简称：DSPD)、可编程逻辑器件(Programmable Logic Device，简称：PLD)、现场可编程门阵列(Field Programmable Gate Array，简称：FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由物体识别装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random AccessMemory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由物体识别装置的处理器执行时，使得物体识别装置能够执行一种物体识别方法，所述方法包括：基于BING方法在待识别图像中确定至少一个第一候选框，该第一候选框用于标识待检测是否包含目标物体的图像区域；将第一候选框与目标物体模型进行比对，该目标物体模型是通过采用CNN对样本数据进行训练获得的关于目标物体的模型；若第一候选框中存在目标物体模型，则标示第一候选框。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种物体识别方法，其特征在于，所述方法包括：

基于二值规范梯度BING方法在待识别图像中确定至少一个第一候选框，所述第一候选框用于标识待检测是否包含目标物体的图像区域；

在所述至少一个第一候选框中，选取置信分值大于预设值的候选框，所述置信分值用于表征候选框中包含目标物体的概率；

根据所述置信分值大于预设值的候选框的大小，对所述置信分值大于预设值的候选框进行聚类，确定第二候选框，所述第二候选框的个数少于所述第一候选框的个数；

将所述第二候选框与目标物体模型进行比对，所述目标物体模型是通过采用卷积神经网络CNN对样本数据进行训练获得的关于所述目标物体的模型；

若所述第二候选框中存在所述目标物体模型，则标示所述第二候选框。

2.根据权利要求1所述的方法，其特征在于，所述基于二值规范梯度BING方法在待识别图像中确定至少一个第一候选框，包括：

采用所述BING方法对待识别图像进行对象估计，获得所述待识别图像中的至少一个第一候选框。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述置信分值大于预设值的候选框的大小，对所述置信分值大于预设值的候选框进行聚类，确定所述第二候选框，包括：

对所述置信分值大于预设值的候选框中每两个候选框，获取两个候选框各自左上角和右下角在所述待识别图像中位置坐标；

根据所述两个候选框各自左上角和右下角在所述待识别图像中位置坐标，获得所述两个候选框的重合面积；

若所述两个候选框的重合面积大于预设阈值，则判定所述两个候选框为一类；

根据聚类后的候选框，确定所述第二候选框。

4.根据权利要求3所述的方法，其特征在于，所述根据聚类后的候选框，确定所述第二候选框，包括：

将每一类包含的候选框在所述待识别图像中的位置坐标求平均，确定每一类包含的所有候选框的平均坐标对应的候选框为第二候选框；

或者，根据聚类后的候选框，确定每一类包含的候选框中置信分值最大的候选框为第二候选框。

5.根据权利要求1或2所述的方法，其特征在于，所述标示所述第一候选框之后，还包括：

向用户发出音频提示或者视频提示，以提示所述用户识别到所述目标物体。

6.一种物体识别装置，其特征在于，所述装置包括：

获取模块，被配置为基于二值规范梯度BING方法在待识别图像中确定至少一个第一候选框，所述第一候选框用于标识待检测是否包含目标物体的图像区域；

选取模块，被配置为在所述第一候选框中，选取置信分值大于预设值的候选框，所述置信分值用于表征候选框中包含目标物体的概率；

聚类模块，被配置为根据所述置信分值大于预设值的候选框的大小，对所述置信分值大于预设值的候选框进行聚类，确定第二候选框，所述第二候选框的个数少于所述第一候选框的个数；

比对模块，被配置为将所述第二候选框与目标物体模型进行比对，所述目标物体模型是通过采用卷积神经网络CNN对样本数据进行训练获得的关于所述目标物体的模型；

标示模块，被配置为若所述第二候选框中存在所述目标物体模型，则标示所述第二候选框。

7.根据权利要求6所述的装置，其特征在于，所述获取模块，被配置为采用所述BING方法对待识别图像进行对象估计，获得所述待识别图像中的至少一个第一候选框。

8.根据权利要求6或7所述的装置，其特征在于，所述聚类模块包括：

坐标获取子模块，被配置为对所述置信分值大于预设值的候选框中每两个候选框，获取两个候选框各自左上角和右下角在所述待识别图像中位置坐标；

面积计算子模块，被配置为根据所述两个候选框各自左上角和右下角在所述待识别图像中位置坐标，获得所述两个候选框的重合面积；

聚类子模块，被配置为若所述两个候选框的重合面积大于预设阈值，则判定所述两个候选框为一类；

候选框确定子模块，被配置为根据聚类后的候选框，确定所述第二候选框。

9.根据权利要求8所述的装置，其特征在于，所述候选框确定子模块，被配置为将每一类包含的候选框在所述待识别图像中的位置坐标求平均，确定每一类包含的所有候选框的平均坐标对应的候选框为第二候选框；或者，根据聚类后的候选框，确定每一类包含的候选框中置信分值最大的候选框为第二候选框。

10.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

提示模块，被配置为向用户发出音频提示或视频提示，以提示所述用户识别到所述目标物体。

11.一种物体识别装置，其特征在于，包括：处理器和用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1～5中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现权利要求1～5任一项所述方法的步骤。