CN108154130B

CN108154130B - 一种目标图像的检测方法、装置及存储介质、机器人

Info

Publication number: CN108154130B
Application number: CN201711473906.5A
Authority: CN
Inventors: 徐栋; 辛冠希; 王可可
Original assignee: Smart Dynamics Co ltd
Current assignee: Smart Dynamics Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2022-04-15
Anticipated expiration: 2037-12-29
Also published as: CN108154130A

Abstract

本发明提供一种目标图像的检测方法、装置及存储介质、机器人，通过从待检测的视频中依次读取一帧图像；计算所述图像的高维特征图；利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分；将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像。因此算法的运行速度会大幅度的提升。

Description

一种目标图像的检测方法、装置及存储介质、机器人

技术领域

本发明涉及图像处理技术领域，尤其涉及一种目标图像的检测方法、装置及存储介质、机器人。

背景技术

现有的目标图像检测的计算复杂度，主要是类别表现描述子的维度，真实世界中物体类别数量成百上千，由于丰富的类内变化，多数类别的表现描述子是高维度的。并且大部分算法为了解决目标尺寸不同的问题，都需要构造高维特征金字塔，而高维特征金字塔的计算会比较耗时。例如，可形变部件模型(DPM)算法中设计的HOG特征金字塔(多层HOG特征)，计算时就非常耗时，这也是DPM运行速度的瓶颈所在。因此，如何解决传统目标图像检测方法中计算高维特征金字塔的耗时问题，设计高效率的目标检测算法，依旧是有意义的开放性问题。

发明内容

本发明实施例提供一种目标图像的检测方法、装置及存储介质、机器人，其能够提升算法的运行速度。

第一方面，本发明实施例提供了一种目标图像的检测方法，包括步骤：

从待检测的视频中依次读取一帧图像；

计算所述图像的高维特征图；

利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分；

将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像。

第二方面，本发明实施例还提供了一种目标图像的检测装置，所述装置包括：

图像读取模块，用于从待检测的视频中依次读取一帧图像；

特征图计算模块，用于计算所述图像的高维特征图；

综合得分计算模块，用于利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分；

判定模块，用于将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像。

第三方面，本发明实施例还提供了一种存储介质，其存储有计算机程序，其中，所述计算机程序使得计算机执行如上面所述的目标图像的检测方法。

第四方面，本发明实施例还提供了一种机器人，包括存储器和处理器，所述处理器和所述存储器通过总线连接；所述存储器用于存储一组程序代码，所述处理器用于调用所述存储器中存储的程序代码，执行如上面所述的目标图像的检测方法。

本发明实施例提供的目标图像的检测方法、装置及存储介质、机器人，通过从待检测的视频中依次读取一帧图像；计算所述图像的高维特征图；利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分；将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像。即在训练模型时训练多个不同尺寸的滤波器，构成基于模型的金字塔，来应对目标的尺寸变化。此时，图像的特征图只需计算一次，分别与模型中不同尺寸的滤波器进行滑窗，根据综合响应得分，与阈值比较判断是否含有待检测的目标并保存得到结果。因此算法的运行速度会大幅度的提升。

附图说明

图1是本发明实施例提供的目标图像的检测方法的实现流程示意图。

图2是本发明实施例提供的目标图像的检测装置的详细模块示意图。

图3是本发明实施例提供的机器人的模块示意图。

图4是本发明实施例提供的单个尺度模型滑窗的实现流程示意图。

具体实施方式

请参照附图中的图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所示例的本发明的具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。

目标检测(object detection)是利用计算机视觉技术判断图像或者视频序列中是否存在目标并给予精确定位。目标检测是大量高级视觉任务的必备前提，包括活动或事件识别、场景内容理解等。另外，目标检测也被应用到很多实际任务，例如智能视频监控，基于内容的图像检索，机器人导航和增强现实等。

目标检测的鲁棒性，主要受类内表观差异和类间表观差异的影响，大的类内表观差异和小的类间表观差异通常会导致目标检测方法的鲁棒性降低。类内表观差异是指同类不同个体间的变化，例如，猫的不同个体在颜色、纹理、形状、姿态等方面存在差异，并且在光照、背景、姿态、视点的变化和遮挡的影响，即使同一只猫在不同的图像中看起来也会非常不同。

传统基于统计学习的目标检测算法，一直是计算机视觉的研究热点，尤其是特殊类别的目标检测，例如人脸和行人。Viola提出基于AdaBoost算法框架，使用Haar-like特征进行分类，然后采用滑动窗口搜索策略实现准确有效地定位，它是第一种能够实时处理并给出较好检测率的物体类别检测算法，主要应用于人脸检测。Dalal提出使用图像局部梯度方向直方图(HOG)作为特征，利用支持向量机(SVM)作为分类器来做行人检测。更为普遍的目标检测工作关注自然图像中一般类别的检测。自然界大部分物体具有运动能力，会发生非刚体形变，因此Felzenszwalb提出了目标类别检测最具影响力的方法之一，可形变部件模型(DPM)，继承了使用HOG特征和SVM分类器的优点，并且在处理目标检测中遮挡、姿态和视角变化等问题有更好的鲁棒性，也因此连续获得VOC(Visual Object Class)07，08，09年的检测冠军。本发明实施例提供的目标图像的检测方法，依据检测窗口的得分判断是否含有待检测的目标，而检测窗口的得分是根滤波器的分数加上各个部件滤波器的分数的总和。

上述基于统计学习的目标检测方法，都是基于滑动窗口搜索的策略，逐一遍历图像中是否含有目标。而为了解决目标尺寸不一的问题，该类算法大都会构造特征金字塔来解决，由于丰富的类内变化，多数类别的表现描述子是高维度的，例如HOG特征等。

以下将进行详细说明本发明实施例提供的目标图像的检测方法。

请参阅图1，所示为本发明实施例提供的目标图像的检测方法，主要包括如下步骤：

在步骤S101中，从待检测的视频中依次读取一帧图像；

在所述从待检测的视频中依次读取一帧图像的步骤之前，还包括：

载入所述目标检测模型，其中，所述目标检测模型包括至少二个不同尺寸的滤波器；

载入待检测的视频。

在一些实施例中，所述目标检测模型的建立，具体实现如下：

1、准备正负训练样本；

2、初始化训练模型参数，设置训练模型尺寸(如5*15)；

3、提取正负样本hog特征；

4、利用Latent SVM对提取的特征进行训练，得到目标检测的根滤波器和部件滤波器以及相应的参数；

5、重复1-4，训练不同尺度的模型(如10*30)，直到训练至少两种不同尺度的模型。

在步骤S102中，计算所述图像的高维特征图；

在一些实施例中，所述计算所述图像的高维特征图的步骤，具体包括：

1)灰度化(将图像看做一个x,y,z(灰度)的三维图像)；

2)采用Gamma校正法对输入图像进行颜色空间的标准化(归一化)；目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰；

3)计算图像每个像素的梯度(包括大小和方向)；主要是为了捕获轮廓信息，同时进一步弱化光照的干扰。

4)将图像划分成小cells(例如6*6像素/cell)；

5)统计每个cell的梯度直方图(不同梯度的个数)，即可形成每个cell的descriptor；

6)将当前cell与其周围的4个cell组成的区域进行归一化；

7)计算梯度方向时，将梯度方向分为有符号(0-360)的梯度方向与无符号(0-180)的梯度方向。首先，只提取无符号的HOG梯度，将会产生4*9＝36维特征，将其看成一个4*9的矩阵，分别将行和列分别相加，最终将生成4+9＝13个特征向量，为了进一步提高精度，将提取的18维(360/20)有符号的梯度特征也加进来，共有13+18＝31维梯度特征。

在步骤S103中，利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分；

在本发明实施例中，步骤S103具体包括：根据滤波器的分数加上各个部件滤波器的分数的总和，以得到综合响应得分。

请参阅图4，在一些实施例中，从图像中提取HOG特征图以及提取两倍分辨率的HOG特征图；利用根模型对提取的HOG特征图进行滑窗，得到根模型的特征响应图；利用部件模型1对提取的两倍分辨率的HOG特征图进行滑窗，得到部件模型1与两倍分辨率的HOG特征图生成的响应；利用部件模型2对提取的两倍分辨率的HOG特征图进行滑窗，得到部件模型2与两倍分辨率的HOG特征图生成的响应；利用部件模型N对提取的两倍分辨率的HOG特征图进行滑窗，得到部件模型N与两倍分辨率的HOG特征图生成的响应；将根模型产生的响应与部件模型产生的响应叠加起来，得到综合响应得分。将本次综合响应得分较高的候选框保留，然后继续下一个模型与图片的滑窗，直到所有模型都滑完。其中，部件模型指的是部件滤波器，根模型指的是根滤波器。

在一些实施例中，采用如下的公式来计算出综合响应得分：

如上述公式，score为综合得分，其中R(x₀,y₀)为根模型的得分，中间项为各部件模型的得分，b是为了部件模型之间对齐而设置的偏移量。

在步骤S104中，将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像。

在本发明实施例中，所述将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像的步骤，包括：

将所述综合响应得分与目标图像的阈值进行比较；

若所述综合响应得分大于或等于目标图像的阈值，则判定所述待检测的视频中包括所述目标图像。

若所述综合响应得分小于目标图像的阈值，则判定所述待检测的视频中不包括所述目标图像。

作为本发明一优选实施例，在判定所述待检测的视频中包括所述目标图像的步骤之后，还包括：

通过非极大值抑制对所述综合响应得分进行计算，以定位到目标图像的区域位置。

在一些实施例中，非极大值抑制算法(Non-maximum suppression,NMS)的本质是搜索局部极大值，抑制非极大值元素。

目标检测中应用NMS算法的主要目的是消除多余(交叉重复)的窗口，找到最佳物体检测位置。人脸检测中，虽然每个窗口均检测到人脸，但仅需给出一个最有可能表征人脸的窗口。

非极大值抑制是将候选框的score进行排序，以最大分数为基准，抑制掉重合度高于某个阈值的候选框，具体步骤如下：

1.对候选框按照分值进行由大到小进行排序；

2.找到分值最高的候选框,遍历其余候选框,当其与分值最高的候选框交并比大于设定阈值(如0.5)，则将该候选框抑制掉,遍历结束后,保留最高分值的候选框,并将其移除分值排序队列；

3、剩余候选框重复操作1和2，直至抑制掉所有非局部最大值的候选。

由上可知，本发明实施例提供的目标图像的检测方法，通过从待检测的视频中依次读取一帧图像；计算所述图像的高维特征图；利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分；将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像。即在训练模型时训练多个不同尺寸的滤波器，构成基于模型的金字塔，来应对目标的尺寸变化。此时，图像的特征图只需计算一次，分别与模型中不同尺寸的滤波器进行滑窗，根据综合响应得分，与阈值比较判断是否含有待检测的目标并保存得到结果。因此算法的运行速度会大幅度的提升。

请参阅图2，为本发明实施例提供的目标图像的检测装置的模块示意图；为了便于说明，仅示出了与本发明实施例相关的部分。所述目标图像的检测装置100包括：图像读取模块101、特征图计算模块102、综合得分计算模块103、以及判定模块104。所述目标图像的检测装置可以是内置于机器人中的软件单元、硬件单元或者是软硬件结合的单元。

图像读取模块101，用于从待检测的视频中依次读取一帧图像；

特征图计算模块102，用于计算所述图像的高维特征图；

综合得分计算模块103，用于利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分；

判定模块104，用于将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像。

在本发明实施例中，所述判定模块包括：

比较模块，用于将所述综合响应得分与目标图像的阈值进行比较；

确定模块，用于若所述综合响应得分大于或等于目标图像的阈值，则判定所述待检测的视频中包括所述目标图像；若所述综合响应得分小于目标图像的阈值，则判定所述待检测的视频中不包括所述目标图像。

由上可知，本发明实施例提供的目标图像的检测装置，通过从待检测的视频中依次读取一帧图像；计算所述图像的高维特征图；利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分；将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像。即在训练模型时训练多个不同尺寸的滤波器，构成基于模型的金字塔，来应对目标的尺寸变化。此时，图像的特征图只需计算一次，分别与模型中不同尺寸的滤波器进行滑窗，根据综合响应得分，与阈值比较判断是否含有待检测的目标并保存得到结果。因此算法的运行速度会大幅度的提升。

本发明实施例提供的目标图像的检测方法及装置属于同一构思，其具体实现过程详见说明书全文，此处不再赘述。

图3示出了本发明实施例提供的机器人的具体结构框图，该机器人1200可以用于实施上述实施例中提供的目标图像的检测方法/装置。

如图3所示，机器人可以包括有一个或一个以上(图中仅示出一个)计算机可读存储介质的存储器801、音频电路802、传输模块803、包括有一个或者一个以上(图中仅示出一个)处理核心的处理器804以及电源805等部件。本领域技术人员可以理解，图3中示出的机器人结构并不构成对机器人的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

存储器801可用于存储软件程序以及模块，如上述实施例中目标图像的检测方法/装置对应的程序指令/模块，处理器804通过运行存储在存储器801内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现目标图像的检测的功能。存储器801可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器801可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至机器人。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

机器人通过传输模块803(例如Wi-Fi模块)访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图3示出了传输模块803，但是可以理解的是，其并不属于机器人的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器804是机器人的控制中心，利用各种接口和线路连接整个机器人的各个部分，通过运行或执行存储在存储器801内的软件程序和/或模块，以及调用存储在存储器801内的数据，执行机器人的各种功能和处理数据。可选的，处理器804可包括一个或多个处理核心；优选的，处理器804可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器804中。

机器人还包括给各个部件供电的电源805(比如电池)，优选的，电源可以通过电源管理***与处理器804逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源805还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，机器人还可以蓝牙模块等。在此不再赘述。另外，机器人还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令：

从待检测的视频中依次读取一帧图像；

计算所述图像的高维特征图；

载入待检测的视频。

所述将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像的步骤，包括：

将所述综合响应得分与目标图像的阈值进行比较；

在判定所述待检测的视频中包括所述目标图像的步骤之后，还包括：

利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分的步骤，包括：

根据滤波器的分数加上各个部件滤波器的分数的总和，以得到综合响应得分。

本发明实施例还提供了一种存储介质，其存储有计算机程序，其中，所述计算机程序使得计算机执行如上面所述的目标图像的检测方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

综上所述，虽然本发明已以优选实施例揭露如上，但上述优选实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种目标图像的检测方法，其特征在于，包括步骤：

从待检测的视频中依次读取一帧图像；

针对所述图像，只计算一次所述图像的高维特征图；

2.如权利要求1所述的目标图像的检测方法，其特征在于，在所述从待检测的视频中依次读取一帧图像的步骤之前，还包括：

载入待检测的视频。

3.如权利要求1所述的目标图像的检测方法，其特征在于，所述将所述综合响应得分与目标图像的阈值进行比较，以判定所述待检测的视频中是否包括所述目标图像的步骤，包括：

将所述综合响应得分与目标图像的阈值进行比较；

4.如权利要求3所述的目标图像的检测方法，其特征在于，在判定所述待检测的视频中包括所述目标图像的步骤之后，还包括：

5.如权利要求3所述的目标图像的检测方法，其特征在于，还包括：

6.如权利要求1所述的目标图像的检测方法，其特征在于，利用预设目标检测模型中的至少二个不同尺寸的滤波器，分别与所述高维特征图进行滑窗遍历，以得到综合响应得分的步骤，包括：

7.一种目标图像的检测装置，其特征在于，所述装置包括：

图像读取模块，用于从待检测的视频中依次读取一帧图像；

特征图计算模块，用于针对所述图像，只计算一次所述图像的高维特征图；

8.如权利要求7所述的目标图像的检测装置，其特征在于，所述判定模块包括：

9.一种存储介质，其存储有计算机程序，其中，所述计算机程序使得计算机执行如权利要求1至6任一项所述的目标图像的检测方法。

10.一种机器人，其特征在于，包括存储器和处理器，所述处理器和所述存储器通过总线连接；所述存储器用于存储一组程序代码，所述处理器用于调用所述存储器中存储的程序代码，执行如权利要求1至6任一项所述的目标图像的检测方法。