CN109409214A

CN109409214A - 一种对运动的目标物体进行分类的方法与设备

Info

Publication number: CN109409214A
Application number: CN201811072460.XA
Authority: CN
Inventors: 邬国栋; 周祥明; 潘华东; 吴良健
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2019-03-01

Abstract

本发明公开了一种对运动的目标物体进行分类的方法与设备，用以解决现有技术中存在的视频摘要对目标物体进行分类的能力较低的问题。本发明实施例中，针对视频数据中的一帧图像，将图像进行背景差分处理确定图像中运动的目标物体，然后根据图像确定包含目标物体的输入图像并输入卷积神经网络中，再根据卷积神经网络输出的信息确定目标物体所属的类型。相较于现有技术中由svm对运动的目标进行分类，本发明实施例中将包含目标物体的输入图像输入到卷积神经网络中，并根据卷积神经网络输出的信息确定目标物体所属的类型，由于卷积神经网络可以更有效的对特征进行提取，故能够进行精确分类，进而能够提高视频摘要的性能。

Description

一种对运动的目标物体进行分类的方法与设备

技术领域

本发明涉及视频图像处理领域，特别涉及一种对运动的目标物体进行分类的方法与设备。

背景技术

随着社会的发展，在社会公共安全林雨中，视频监控***已经成为维护社会治安的，加强社会管理的一个重要组成部分。然而监控视频普遍有着数据量大，存储时间长的特性，因而在需要从监控视频中查询线索时，需要消耗大量的人力物力对存储的监控视频进行处理，这会占用大量社会资源。为了降低成本，实现对监控视频的快速浏览，就需要对视频进行浓缩。

视频浓缩，又称视频摘要，是对视频内容的一个简单概括。一般先通过运动目标分析，提取运动目标，然后对各个目标的运动轨迹进行分析，将不同的目标拼接到一个共同的背景场景中，并将它们以某种方式进行组合。

现有的视频摘要技术一般先进行ivs(Intelligent Video Surveillance，智能视频监控)检测，然后通过svm(Support Vector Machine，支持向量机)进行分类。然而当前视频摘要过程中存在目标物体粘连，目标物体残缺以及目标物体尺寸过小的情况，然而svm为传统机器学习算法，对特征的提取和识别能力有限，因而无法对ivs提供的目标进行精确的分类。

综上所述，现有技术中的视频摘要对目标物体进行分类的能力较低。

发明内容

本发明提供一种对运动的目标物体进行分类的方法与设备，用以解决现有技术中存在的视频摘要对目标物体进行分类的能力较低的问题。

本发明实施例提供一种对运动的目标物体进行分类的方法，该方法包括：

针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体；根据所述图像确定包含所述目标物体的输入图像；将所述输入图像输入到卷积神经网络中；根据所述卷积神经网络输出的信息确定所述目标物体所属的类型。

上述方法，在对视频中运动的目标物体进行分类时，首先需要针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体，然后根据所述图像确定包含所述目标物体的输入图像，并将输入图像输入待卷积神经网络中，再根据卷积神经网络输出的信息确定所述目标物体所属的类型。如此，相较于现有技术中由svm对运动的目标进行分类，本发明实施例中，将包含目标物体的输入图像输入到卷积神经网络中区，并根据卷积神经网络输出的信息确定所述目标物体所属的类型，由于卷积神经网络可以更有效的对特征进行提取并进行精确分类，进而能够提高视频摘要的性能。

在一种可能的实施方式中，针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体，包括：

将所述图像与背景模型图像相同位置的像素点的灰阶值进行相减，得到所述图像对应的差值图；根据所述差值图确定所述图像中运动的目标物体。

上述方法，在对图像进行背景差分处理确定所述图像中运动的目标物体时，首先将图像与背景模型图像相同位置的像素点的灰阶值进行相减，得到所述图像对应的差值图；然后根据所述差值图确定所述图像中运动的目标物体。如此即可确定出所述图像中所有的运动的物体，进而可以进一步的对运动的物体进行分类。

在一种可能的实施方式中，所述根据所述图像确定包含所述目标物体的输入图像，包括：

将所述图像和所述差值图合成四通道图像；从所述四通道图像中截取包含所述目标物体的区域图像作为输入图像。

上述方法，在根据所述图像确定包含所述目标物体的输入图像时，首先将所述图像和所述差值图合成四通道图像；然后从所述四通道图像中截取包含所述目标物体的区域图像作为输入图像。此方案中，将所述图像和差值图合成四通道图像，去除背景的干扰，进一步的提高视频摘要的性能。

在一种可能的实施方式中，所述将所述区域图像到卷积神经网络中之前，还包括：

确定所述区域图像的质量满足设定要求。

上述方法，将所述区域图像到卷积神经网络中之前，还需要对区域图像的质量进行审核，确定所述区域图像的质量满足设定要求。如此，可以将满足设定要求的区域图像输入到神经网络中去，提高进行分类的输入图像的质量，进而提高视屏摘要的能力，同时可以减少分类次数，提高***实时性。

在一种可能的实施方式中，所述区域图像的质量包括下列部分或全部：

区域图像在四通道图像中的大小、区域图像在四通道图像中的大小。

上述方法，可以与根据截取的区域图像在四通道图像中的大小以及区域图像在四通道图像中的大小对截取的区域图像的质量进行筛选，以使得输入卷积神经网络的区域图像能够有较好的数据，以得到的更好的分类效果，同时可以减少分类次数，提高***实时性。

第二方面，本发明实施例还提供一种对运动的目标物体进行分类的设备，所述设备包括：至少一个处理器以及至少一个存储器，该设备具有实现上述第一方面的各实施例的功能。

第三方面，本发明实施例还提供一种对运动的目标物体进行分类的设备，所述设备包括第一确定模块、第二确定模块、输入模块以及第三确定模块，该设备具有实现上述第一方面的各实施例的功能。

另外，第二方面至第三方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种对运动的目标物体进行分类的方法的流程示意图；

图2为本发明实施例提供的确定运动目标物体的第一种方法的示意图；

图3为本发明实施例提供的确定运动目标物体的第二种方法的示意图；

图4为本发明实施例提供的四通道合成示意图；

图5为本发明实施例提供的在四通道图像中截取运动目标物体的示意图；

图6为本发明实施例提供的对在四通道图像中截取的区域图像进行筛选的示意图；

图7为本发明实施例提供的一种对运动的目标物体进行分类的方法的流程示意图；

图8为本发明实施例提供的对卷积神经网络进行训练的流程示意图；

图9为本发明实施例提供的第一种对运动的目标物体进行分类的设备的结构示意图；

图10为本发明实施例提供的第二种对运动的目标物体进行分类的结构的示意图。

具体实施方式

本发明实施例中涉及到一种对运动的目标物体进行分类的方法。本发明实施例中，在对运动的物体进行分类时，首先通过将原始的RGB图像与背景差分处理后得到的差值图合成四通道图像，随后在四通道图像上截取出运动的目标物体，并将截取出的包含有运动的目标物体的图像输入到训练后的卷积神经网络中，并以及卷积神经网络输出的信息确定出该运动的目标物体所述的类型。

在具体实施中，首先需要对本发明实施例运用到的卷积神经网络进行训练。

具体操作过程中，首先需要人工确定大量的运动的目标物体的图像数据以及这些图像数据中的目标物体的图像所述的类型信息，然后将运动的目标物体的图像及其对应的类型信息输入到卷积神经网络中学习，并根据卷积神经网络输出的结果对卷积神经网络的参数进行调整，直到满足设定的条件确定训练完成。

例如：

当前有大量运动的物体的图像数据，经人工判定其中共有人、车、狗三种移动的目标物体。假设当卷积神经网络输出图像中的物体所属的类型的是正确的类型的概率大于99％时，认定卷积神经网络训练完成。

在对卷积神经网络进行训练时，将人、车、狗三种判别类型先输入到卷积神经网络中，并输入一个运动的物体的图像数据到卷积神经网络中，假设该运动的物体为车，随后卷积神经网络输出该图像中的物体所属的类型的概率为：人30％、车50％，狗30％，根据卷积神经网络输出的概率信息对卷积神经网络中的参数进行调整；

随后在输入一个运动的物体的图像数据到卷积神经网络中，假设该运动的物体为狗，随后卷积神经网络输出该图像中的物体所属的类型的概率为：人20％、车20％，狗60％，根据卷积神经网络输出的概率信息对卷积神经网络中的参数进行调整；

随后在输入一个运动的物体的图像数据到卷积神经网络中，假设该运动的物体为狗，随后卷积神经网络输出该图像中的物体所属的类型的概率为：人17％、车13％，狗70％，根据卷积神经网络输出的概率信息对卷积神经网络中的参数进行调整；

如此循环往复，在经过大量的运动的物体的图像数据训练后，当运动的物体为人的图像数据被判定为人的概率在持续的一段时长内都大于99％；且运动的物体为车的图像数据被判定为车的概率在持续的一段时长内都大于99％；且运动的物体为狗的图像数据被判定为狗的概率在持续的一段时长内都大于99％时，确定当前卷积神经网络对于上述三种运动的物体的分类训练完成。

随后，训练好的卷积神经网络即可对运动的人的图像、运动的车的图像、运动的狗的图像进行分类。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种对运动的目标物体进行分类的方法，该方法包括：

步骤100，针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体；

步骤101，根据所述图像确定包含所述目标物体的输入图像；

步骤102，将所述输入图像输入到卷积神经网络中；

步骤103，根据所述卷积神经网络输出的信息确定所述目标物体所属的类型。

本发明实施例中，在对视频中运动的目标物体进行分类时，首先需要针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体，然后根据所述图像确定包含所述目标物体的输入图像，并将输入图像输入待卷积神经网络中，再根据卷积神经网络输出的信息确定所述目标物体所属的类型。如此，相较于现有技术中由SVM对运动的目标进行分类，本发明实施例中，将包含目标物体的输入图像输入到卷积神经网络中区，并根据卷积神经网络输出的信息确定所述目标物体所属的类型，由于卷积神经网络可以更有效的对特征进行提取并进行精确分类，进而能够提高视频摘要的性能。

其中，所述图像监控视频的原始图像，是通过R、G、B三个通道输出的。

下面将就本发明实施例进行详细的说明。

具体实施过程中，在对视频中的运动的物体进行分类时，需要对视频中的每一帧图像分别进行处理。

具体的，针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体。

具体实施中，针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体。如此，在确定出图像中的运动的目标物体后，才能针对运动的目标物体进行分类。

在对所述图像进行差分处理时，首先需要根据现有的图像进行背景建模。在背景建模时，首先需要对视频图像进行预处理，主要是对该图像进行灰度化以及滤波。

在预处理后，将进行背景建模。目前，大多数背景建模都是根据前N帧图像的灰度值进行区间统计从而得到一个具有统计意义的初始背景。在第一次的实现过程中，采用第一幅图片作为背景图，实现起来较为简单。

在确定出背景模型后，将所述图像与背景模型相减，以获取所述图像对应的差值图。

具体的，将所述图像与背景模型图像相同位置的像素点的灰阶值进行相减，得到所述图像对应的差值图。

具体实施中，将灰度化的所述图像与建立的背景模型图像相同位置的像素点的灰阶值进行相减，得到所述图像对应的差值图。在得到所述图像的差值图的基础上，才可以进一步的确定所述图像上的运动的目标物体。

例如：原始图像灰度化后得到的灰阶值矩阵为

建立的背景模型灰度化后得到的灰阶值矩阵为

则得到的差值图的灰阶值矩阵：

由上述差值图的灰阶值矩阵显示的图像即可取出原始图像中的背景。

其中，所述差值图为灰度图，为单通道图像，所述通道称为α通道。

具体的，所述终端根据所述差值图确定所述图像中运动的目标物体。

如图2所示，具体实施中，在得到所述图像对应的差值图后，将所述图像的差值图和所述图像前一帧图像的差值图进行比较，当确定的得到所述图像对应的差值图中的图像与所述图像前一帧图像的差值图中图像由重叠区域但不完全重叠的部分确定为移动的目标物体。

如图3所示，此外，还可以在得到所述图像对应的差值图后，将得到的图像进行二值化，以确定前景。

在确定出所述图像中的运动的目标物体后，终端还需要对确定出的运动的物体进行分类。

具体的，终端根据所述图像确定包含所述目标物体的输入图像。

具体实施中，在终端根据所述图像确定包含目标物体的输入图像后，才能将包含目标物体的输入图像输入神经网络，进而确定输入图像中的运动的物体的所属的类型。

具体实施中，终端在根据所述图像确定包含所述目标物体的输入图像时，首先将所述图像和所述差值图合成四通道图像，可参见图4所示。

上述方法中将所述图像与背景差分处理时确定的差值图合成四通道图像，去除所述图像中的背景的影响，以使得所述图像中的运动的目标物体更为突出。

其中，四通道图像是由原始图像R、G、B三个通道和差值图的α通道构成的四通道输出的图像。

接着，终端从所述四通道图像中截取包含所述目标物体的区域图像作为输入图像。

具体实施中，终端将四通道图像中所有的运动的目标物体分别截取出来，且截取出的每一个输入图像中包含且仅包含有一个运动的物体，如此才能对所述图像中的每一个运动的目标物体进行分类。

在将四通道图像中所有的仅包含一个所述目标物体的区域图像都截取出来后，终端将所述输入图像输入到卷积神经网络中，对区域图像中的目标无图进行分类。

在四通道图像上将四通道图像中所有的运动的目标物体分别截取出来可参见图5所示。

在具体实施过程中，终端将所述区域图像输入到卷积神经网络中之前还需要对截取的区域图像的质量进行校验。

具体的，终端确定所述区域图像的质量满足设定要求。

具体的，所述区域图像的质量包括下列部分或全部：区域图像在四通道图像中的大小、区域图像在四通道图像中的大小。

例如：

如图6所示，所述四通道图像的长为40cm，宽为30cm，截取出来的区域图像的长必须大于等于3cm，宽必须大于等于3cm，且截取出来的区域图像在四通道图像中位置位于图示的缩小的同中心的矩形中，该矩形的长为30cm，宽20cm，舍弃位于边缘5cm宽度的区域内的所有截取的区域图像。图示中共有5个区域图像，其中，区域图像A的长为3cm，宽为3.5cm；区域图像B的长为2cm，宽为2.5cm、区域图像C的长为4cm，宽为3.5cm、区域图像D的长为3cm，宽为3.5cm、区域图像E长为2cm，宽为2cm。

其中，区域图像A的尺寸满足要求，且位于缩小的同中心的矩形中，故区域图像A可以作为输入图像；

区域图像B的尺寸不满足要求，位于缩小的同中心的矩形中，故区域图像B不可作为输入图像；

区域图像C的尺寸满足要求，但不位于缩小的同中心的矩形中，故区域图像C不可作为输入图像；

区域图像D的尺寸满足要求，且位于缩小的同中心的矩形中，故区域图像D可以作为输入图像；

区域图像E的尺寸不满足要求，不位于缩小的同中心的矩形中，故区域图像E不可作为输入图像；

最终确定，区域图像A和区域图像D满足设定要求，可以作为卷积神经网络的输入图像。

在确定截取出的区域图像满足设定要求后，终端将该区域图像输入到卷积神经网络中，由神经网络对截取出的区域图像中的目标物体进行分类。

具体的，终端将所述输入图像输入到卷积神经网络中，并根据所述卷积神经网络输出的信息确定所述目标物体所属的类型。

具体实施中，终端将所述输入图像输入到卷积神经网络中，并根据所述卷积神经网络输出的信息确定所述目标物体所属的类型。如此，即可通过训练后的卷积神将网络对图像中的运动的目标物体进行分类，由于卷积神经网络可以更有效地抓取运动物体的特征信息，因而可以将目标物体进行更精准的分类。

如图7所示，本发明实施例提供一种对运动的目标物体进行分类的方法的完整流程示意图。

步骤701，终端获取视频数据中的一帧图像；

步骤702，终端将所述图像与背景模型图像相同位置的像素点的灰阶值进行相减，得到所述图像对应的差值图；

步骤703，终端根据所述差值图确定所述图像中运动的目标物体；

步骤704，终端将所述图像和所述差值图合成四通道图像；

步骤，终端从所述四通道图像中截取包含所述目标物体的区域图像作为输入图像；

步骤705，终端判断所述区域图像的质量是否满足设定要求；如果满足要求，则执行步骤706；否则执行步骤708；

步骤706，终端将所述输入图像输入到卷积神经网络中；

步骤707，终端根据所述卷积神经网络输出的信息确定所述目标物体所属的类型；

步骤708，终端舍弃当前区域图像；

步骤709，终端获取当前图像的下一帧图像。

如图8所示，本发明实施例提供训练卷积神经网络的流程示意图。

步骤800，获取大量的运动的目标物体的图像数据并人工判定这些图像数据中的目标物体的图像所述的类型信息；

步骤801，将所有的类型信息输入到卷积神经网络中；

步骤802，输入一个运动的物体的图像数据到卷积神经网络中；

步骤803，卷积神经网络学习输出所述图像中目标物体属于每一个的类型的概率；

步骤804，根据输出结果判断是否满足设定的训练完成的条件；如果是，执行步骤805；否则，执行步骤802。

基于同一发明构思，本发明实施例中还提供了一种对运动的目标物体进行分类的设备，由于该设备即是本发明实施例中的方法中的终端，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图9所示，本发明实施例一种对运动的目标物体进行分类的设备，该设备包括：

至少一个处理器900以及至少一个存储器901，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行下列过程：

可选的，所述处理器900具体用于：

可选的，所述处理器900还用于：

确定所述区域图像的质量满足设定要求。

可选的，所述区域图像的质量包括下列部分或全部：

目标物体在区域图像中的大小、目标物体在区域图像中的位置。

如图10所示，本发明实施例提供一种对运动的目标物体进行分类的设备，该设备包括：

第一确定模块1000，针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体；

第二确定模块1001，根据所述图像确定包含所述目标物体的输入图像；

输入模块1002，将所述输入图像输入到卷积神经网络中；

第三确定模块1003，根据所述卷积神经网络输出的信息确定所述目标物体所属的类型。

可选的，所述第一确定模块1000具体用于：

将所述图像与背景模型图像相同位置的像素点的灰阶值进行相减，得到所述图像对应的差值图；

根据所述差值图确定所述图像中运动的目标物体。

可选的，所述第二确定模块1001具体用于：

将所述图像和所述差值图合成四通道图像；

从所述四通道图像中截取包含所述目标物体的区域图像作为输入图像。

可选的，所述第二确定模块1001还用于：

在所述将所述区域图像到卷积神经网络中之前，确定所述区域图像的质量满足设定要求。

可选的，所述区域图像的质量包括下列部分或全部：

本发明实施例针对对运动的目标物体进行分类的方法还提供一种计算设备可读存储介质，即断电后内容不丢失。该存储介质中存储软件程序，包括程序代码，当程序代码在计算设备上运行时，该软件程序在被一个或多个处理器读取并执行时可实现本发明实施例上面任何一种对运动的目标物体进行分类的方案。

以上参照示出根据本申请实施例的方法、装置(***)和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行***来使用或结合指令执行***而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行***、装置或设备使用，或结合指令执行***、装置或设备使用。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种对运动的目标物体进行分类的方法，其特征在于，该方法包括：

针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体；

根据所述图像确定包含所述目标物体的输入图像；

将所述输入图像输入到卷积神经网络中；

根据所述卷积神经网络输出的信息确定所述目标物体所属的类型。

2.如权利要求1所述的方法，其特征在于，针对视频数据中的一帧图像，将所述图像进行背景差分处理确定所述图像中运动的目标物体，包括：

根据所述差值图确定所述图像中运动的目标物体。

3.如权利要求2所述的方法，其特征在于，所述根据所述图像确定包含所述目标物体的输入图像，包括：

将所述图像和所述差值图合成四通道图像；

4.如权利要求3所述的方法，其特征在于，所述将所述区域图像到卷积神经网络中之前，还包括：

确定所述区域图像的质量满足设定要求。

5.如权利要求4所述的方法，其特征在于，所述区域图像的质量包括下列部分或全部：

6.一种应用锁定后清除后台应用的设备，其特征在于，该设备包括：

至少一个处理器以及至少一个存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行下列过程：

7.如权利要求6所述的设备，其特征在于，所述处理器具体用于：

8.如权利要求7所述的设备，其特征在于，所述处理器具体用于：

9.如权利要求8所述的设备，其特征在于，所述处理器还用于：

确定所述区域图像的质量满足设定要求。

10.如权利要求9所述的设备，其特征在于，所述区域图像的质量包括下列部分或全部：

区域图像在四通道图像中的大小、区域图像在四通道图像中的位置。