WO2017117801A1

WO2017117801A1 - 边界框生成装置及方法

Info

Publication number: WO2017117801A1
Application number: PCT/CN2016/070479
Authority: WO
Inventors: 伍健荣; 刘晓青
Original assignee: 富士通株式会社; 伍健荣; 刘晓青
Priority date: 2016-01-08
Filing date: 2016-01-08
Publication date: 2017-07-13

Abstract

一种边界框生成装置及方法。该装置包括：检测单元，用于对视频图像进行运动检测，获得所述视频图像的运动信息图像；生成单元，用于根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框。基于视频图像中的运动信息来生成目标物体的边界框，能够有效降低计算复杂度且能够获得较高的精度。

Description

边界框生成装置及方法

技术领域

本发明涉及信息技术领域，尤其涉及一种边界框生成装置及方法。

背景技术

随着信息技术的不断发展，计算机视觉以及智能交通***的应用逐渐广泛。基于这些应用的要求，需要对获得的视频图像进行各种处理，例如，对视频图像中的目标物体生成边界框，以确定目标物体的位置，并且，在多个目标物体粘连在一起的情况下，能够将各个目标物体划分出来。

目前，对目标物体生成边界框的方法一般包括多个预处理步骤以及使用预先设定的策略对预处理的结果进行处理以获得目标物体的边界框的步骤。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

当利用上述现有的方法生成目标物体的边界框时，计算复杂度较高，且精度较低。

本发明实施例提供一种边界框生成装置及方法，基于视频图像中的运动信息来生成目标物体的边界框，能够有效降低计算复杂度且能够获得较高的精度。

根据本发明实施例的第一方面，提供一种边界框生成装置，所述装置包括：检测单元，所述检测单元用于对视频图像进行运动检测，获得所述视频图像的运动信息图像；生成单元，所述生成单元用于根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框。

根据本发明实施例的第二方面，提供一种电子设备，包括：根据本发明实施例的第一方面所述的边界框生成装置。

根据本发明实施例的第三方面，提供一种边界框生成方法，包括：对视频图像进行运动检测，获得所述视频图像的运动信息图像；根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框。

本发明的有益效果在于：基于视频图像中的运动信息来生成目标物体的边界框，能够有效降低计算复杂度且能够获得较高的精度。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例1的边界框生成装置的示意图；

图2是本发明实施例1的对视频图像进行运动检测后获得运动信息图像的示意图；

图3是本发明实施例1的生成单元102的一示意图；

图4是本发明实施例的对目标物体的边界框进行选择的示意图；

图5是本发明实施例1的第一选择单元302的示意图；

图6是本发明实施例1的生成单元102的另一示意图；

图7是本发明实施例1的提取子图像并针对子图像生成边界框的示意图；

图8是本发明实施例1的生成单元102的又一示意图；

图9是本发明实施例1的生成单元102的又一示意图；

图10是本发明实施例1的对轮廓图像中的轮廓进行选择的示意图；

图11是本发明实施例2的电子设备的示意图；

图12是本发明实施例2的电子设备的***构成的一示意框图；

图13是本发明实施例3的边界框生成方法的流程图；

图14是本发明实施例4的边界框生成方法的流程图；

图15是本发明实施例5的边界框生成方法的流程图；

图16是本发明实施例6的边界框生成方法的流程图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

实施例1

图1是本发明实施例1的边界框生成装置的示意图。如图1所示，该装置100包括：

检测单元101，用于对视频图像进行运动检测，获得该视频图像的运动信息图像；

生成单元102，用于根据该运动信息图像中的运动信息，生成该视频图像中的目标物体的边界框。

由上述实施例可知，基于视频图像中的运动信息来生成目标物体的边界框，能够有效降低计算复杂度且能够获得较高的精度。

在本实施例中，该视频图像可使用现有方法而获得，例如，通过摄像头、数码相机、数字摄像机等电子设备的拍摄而获得；

在本实施例中，该视频图像可包括在时间上连续的多帧图像，例如，该视频图像包括当前帧以及之前的多个帧。其中，可根据运动检测的要求来设置需要的图像帧数，例如，该帧数为2帧以上。本发明实施例不对视频图像的帧数进行限制。

在本实施例中，检测单元101对视频图像进行运动检测以获得运动信息图像的方法可使用现有方法，例如，对该视频图像具有的多个帧逐个进行差分并基于差分的结果进行二值化处理，从而获得以二值化形式表示的运动信息图像。

图2是本发明实施例1的对视频图像进行运动检测后获得运动信息图像的示意图。如图2所示，具有多帧图像的视频图像201经过检测单元101的运动检测后，获得二值化的运动信息图像202。

在本实施例中，在获得视频图像的运动信息图像之后，生成单元102根据该运动信息图像中的运动信息，生成该视频图像中的目标物体的边界框。其中，该视频图像中的目标物体的边界框可以是该视频图像的最后一帧，即当前帧中目标物体的边界框。

在本实施例中，目标物体是指需要检测的物体，例如，运动的人或车辆等。

以下对本实施例的生成单元102的结构以及根据运动信息生成边界框的方法进行示例性的说明。

图3是本发明实施例1的生成单元102的一示意图。如图3所示，生成单元102包括：

第一生成单元301，用于生成该视频图像中的目标物体的边界框；

第一选择单元302，用于根据该运动信息图像中的运动信息，对生成的边界框进行选择。

在本实施例中，第一生成单元301可使用现有方法生成该视频图像中的目标物体的边界框，例如，首先进行多个预处理，计算例如边缘、颜色块、轮廓、显著性等特征，然后使用预先设定的策略对计算出的特征进行处理以获得目标物体的边界框。

在本实施例中，第一选择单元302根据该运动信息图像中的运动信息，对生成的边界框进行选择。图4是本发明实施例的对目标物体的边界框进行选择的示意图。如图4所示，第一选择单元302根据之前获得的运动信息图像401(例如，图2中的二值化运动信息图像202)，在视频图像402中对第一生成单元301生成的边界框进行选择，获得具有选择后的边界框的视频图像403。

以下对本实施例的第一选择单元的结构以及选择边界框的方法进行示例性的说明。

图5是本发明实施例1的第一选择单元302的示意图。如图5所示，第一选择单元302包括：

第二选择单元501，用于根据各个边界框中的运动信息量，进行边界框的选择；或

第三选择单元502，用于根据各个边界框中的运行信息占有率，进行边界框的选择。

在本实施例中，第二选择单元501根据各个边界框中的运动信息量进行边界框的选择，例如，可以将具有的运动信息量大于第一阈值的边界框作为选择的边界框，其中，该运动信息量可以用具有运动信息的像素个数或面积等参数表示，该第一阈值可根据实际需要而设定，例如，该第一阈值为大于或等于100的数值。

在本实施例中，第三选择单元502根据各个边界框中的运行信息占有率，进行边界框的选择，例如，可以将其运动信息占有率大于第二阈值的边界框作为选择的边界框，其中，该运动信息占有率例如可以用具有运动信息的像素个数或面积与该边界框包括的所有像素个数或边界框面积的比率来表示，该第二阈值可根据实际需要而设定，例如，该第二阈值为0.5～1的数值。

图6是本发明实施例1的生成单元102的另一示意图。如图6所示，生成单元102包括：

提取单元601，用于根据该运动信息图像中的运动信息，提取该视频图像中具有目标物体的子图像；

第二生成单元602，用于针对该具有目标物体的子图像，生成该视频图像中的目标物体的边界框。

在本实施例中，提取单元601可使用现有方法来提取该视频图像中具有目标物体的子图像。例如，对获得的运动信息图像进行物体检测，检测出运动物体所在的区域，并从视频图像的当前帧中提取出相应的区域作为子图像。

在本实施例中，第二生成单元602针对提取出的子图像生成边界框可使用现有方法，例如，对于每个子图像，分别进行预处理并使用预先设定的策略对预处理计算出的特征进行处理。

图7是本发明实施例1的提取子图像并针对子图像生成边界框的示意图。如图7所示，提取单元601根据检测出运动物体所在区域的运动信息图像701(例如，图2中的二值化运动信息图像202)，从视频图像的当前帧702提取出子图像703、704、705，第二生成单元602针对子图像703、704、705，生成目标物体的边界框并显示在输出的视频图像706上。

图8是本发明实施例1的生成单元102的又一示意图。如图8所示，生成单元102包括：

预处理单元801，用于根据该运动信息图像中的运动信息选择该视频图像的特征进行预处理；

第三生成单元802，用于根据预先设定的策略对预处理后的特征进行处理，生成该视频图像中的目标物体的边界框。

在本实施例中，生成单元102可包括多个预处理单元，各个预处理单元分别计算不同的特征，其中，至少一个预处理单元根据该运动信息图像中的运动信息选择该视频图像的特征进行预处理。即，生成单元102包括至少一个预处理单元801，还可以包括其他现有的预处理单元。

图9是本发明实施例1的生成单元102的又一示意图。如图9所示，生成单元102包括：N个预处理单元901-1,901-2,……,901-N以及第三生成单元902，N个预处理单元中的至少一个与预处理单元801具有相同的结构与功能，其他预处理单元为现有的预处理单元，N为正整数，第三生成单元902与第三生成单元802具有相同的结构与功能。

在本实施例中，预处理单元计算的特征可以包括：轮廓、颜色相似性、颜色显著性、纹理等。

在本实施例中，预处理单元801根据该运动信息图像中的运动信息选择该视频图像的特征进行预处理，即，对选择后的特征进行计算。例如，预处理单元801根据运动信息图像中的运动物体，选择视频图像当前帧的轮廓图像中的部分轮廓进行预处理，计算轮廓特征。

图10是本发明实施例1的对轮廓图像中的轮廓进行选择的示意图。如图10所示，预处理单元801根据运动信息图像1001(例如，图2中的二值化运动信息图像202)中的运动物体，对轮廓图像1002中的轮廓进行选择，获得选择后的轮廓图像1003，然后预处理单元801对于轮廓图像1003进行预处理，计算其中的轮廓特征。

在本实施例中，第三生成单元802使用预定的策略对预处理后的特征进行处理，生成该视频图像中的目标物体的边界框，其中，该预定的策略可使用现有的策略，例如，选择性搜索等。

实施例2

本发明实施例还提供了一种电子设备，图11是本发明实施例2的电子设备的示意图。如图11所示，电子设备1100包括边界框生成装置1101，其中，边界框生成装置1101的结构和功能与实施例1中的记载相同，此处不再赘述。

在本实施例中，该电子设备例如是摄像头、数码相机、数码摄像机、智能手机等具有图像捕获功能的设备。

图12是本发明实施例2的电子设备的***构成的一示意框图。如图12所示，电子设备1200可以包括中央处理器1201和存储器1202；存储器1202耦合到中央处理器1201。该图是示例性的；还可以使用其它类型的结构，来补充或代替该结构，以实现电信功能或其它功能。

如图12所示，该电子设备1200还可以包括：输入单元1203、显示器1204、电源1205。

在一个实施方式中，实施例1所述的边界框生成装置的功能可以被集成到中央处理器1201中。其中，中央处理器1201可以被配置为：对视频图像进行运动检测，获得所述视频图像的运动信息图像；根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框。

其中，所述根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框，包括：生成所述视频图像中的目标物体的边界框；根据所述运动信息图像中的运动信息，对生成的边界框进行选择。

其中，所述根据所述运动信息图像中的运动信息，对生成的边界框进行选择，包括：根据各个边界框中的运动信息量，进行边界框的选择；或根据各个边界框中的运行信息占有率，进行边界框的选择。

其中，所述根据各个边界框中的运动信息量，进行边界框的选择，包括：将所述运动信息量大于或等于第一阈值的边界框作为选择的边界框；所述根据各个边界框中的运行信息占有率，进行边界框的选择，包括：将所述运动信息占有率大于或等于第二阈值的边界框作为选择的边界框。

其中，所述根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框，包括：根据所述运动信息图像中的运动信息，提取所述视频图像中具有目标物体的子图像；针对所述具有目标物体的子图像，生成所述视频图像中的目标物体的边界框。

其中，所述根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框，包括：根据所述运动信息图像中的运动信息选择所述视频图像的特征进行预处理；根据预先设定的策略对预处理后的特征进行处理，生成所述视频图像中的目标物体的边界框。

在另一个实施方式中，实施例1所述的边界框生成装置可以与中央处理器1201分开配置，例如可以将边界框生成装置配置为与中央处理器1201连接的芯片，通过中央处理器1201的控制来实现边界框生成装置的功能。

在本实施例中电子设备1200也并不是必须要包括图12中所示的所有部件。

如图12所示，中央处理器1201有时也称为控制器或操作控件，可以包括微处理器或其它处理器装置和/或逻辑装置，中央处理器1201接收输入并控制电子设备1200的各个部件的操作。

存储器1202，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。并且中央处理器1201可执行该存储器1202存储的该程序，以实现信息存储或处理等。其它部件的功能与现有类似，此处不再赘述。电子设备1200的各部件可以通过专用硬件、固件、软件或其结合来实现，而不偏离本发明的范围。

实施例3

本发明实施例还提供一种边界框生成方法，其对应于实施例1的边界框生成装置。图13是本发明实施例3的边界框生成方法的流程图。如图13所示，该方法包括：

步骤1301：对视频图像进行运动检测，获得该视频图像的运动信息图像；

步骤1302：根据该运动信息图像中的运动信息，生成该视频图像中的目标物体的边界框。

在本实施例中，对视频图像进行运动检测的方法、根据运动信息生成边界框的方法与实施例1中的记载相同，此处不再赘述。

实施例4

本发明实施例还提供一种边界框生成方法，其对应于实施例1的边界框生成装置。图14是本发明实施例4的边界框生成方法的流程图。如图14所示，该方法包括：

步骤1401：对输入的视频图像进行运动检测，获得该视频图像的运动信息图像；

步骤1402：生成该视频图像中的目标物体的边界框；

步骤1403：根据该运动信息图像中的运动信息，对生成的边界框进行选择。

在本实施例中，对视频图像进行运动检测的方法、生成边界框的方法以及根据运动信息选择边界框的方法与实施例1中的记载相同，此处不再赘述。

实施例5

本发明实施例还提供一种边界框生成方法，其对应于实施例1的边界框生成装置。图15是本发明实施例5的边界框生成方法的流程图。如图15所示，该方法包括：

步骤1501：对输入的视频图像进行运动检测，获得该视频图像的运动信息图像；

步骤1502：根据该运动信息图像中的运动信息，提取该视频图像中具有目标物体的子图像；

步骤1503：针对所述具有目标物体的子图像，生成所述视频图像中的目标物体的边界框。

在本实施例中，对视频图像进行运动检测的方法、提取子图像的方法以及针对子图像生成边界框的方法与实施例1中的记载相同，此处不再赘述。

实施例6

本发明实施例还提供一种边界框生成方法，其对应于实施例1的边界框生成装置。图16是本发明实施例6的边界框生成方法的流程图。如图16所示，该方法包括：

步骤1601：对输入的视频图像进行运动检测，获得该视频图像的运动信息图像；

步骤1602：根据该运动信息图像中的运动信息选择该视频图像的特征进行预处理；

步骤1603：根据预先设定的策略对预处理后的特征进行处理，生成该视频图像中的目标物体的边界框。

在本实施例中，对视频图像进行运动检测的方法、选择该视频图像的特征的方法、对选择的特征进行预处理的方法以及根据预先设定的策略对预处理后的特征进行处理的方法与实施例1中的记载相同，此处不再赘述。

本发明实施例还提供一种计算机可读程序，其中当在边界框生成装置或电子设备中执行所述程序时，所述程序使得计算机在所述边界框生成装置或电子设备中执行实施例3至实施例6中任一实施例所述的边界框生成方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在边界框生成装置或电子设备中执行实施例3至实施例6中任一实施例所述的边界框生成方法。

本发明以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。

Claims

一种边界框生成装置，所述装置包括：

检测单元，所述检测单元用于对视频图像进行运动检测，获得所述视频图像的运动信息图像；

生成单元，所述生成单元用于根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框。
根据权利要求1所述的装置，其中，所述生成单元包括：

第一生成单元，所述第一生成单元用于生成所述视频图像中的目标物体的边界框；

第一选择单元，所述第一选择单元用于根据所述运动信息图像中的运动信息，对生成的边界框进行选择。
根据权利要求2所述的装置，其中，所述第一选择单元包括：

第二选择单元，所述第二选择单元用于根据各个边界框中的运动信息量，进行边界框的选择；或

第三选择单元，所述第三选择单元用于根据各个边界框中的运行信息占有率，进行边界框的选择。
根据权利要求3所述的装置，其中，

所述第二选择单元将所述运动信息量大于或等于第一阈值的边界框作为选择的边界框；

所述第三选择单元将所述运动信息占有率大于或等于第二阈值的边界框作为选择的边界框。
根据权利要求1所述的装置，其中，所述生成单元包括：

提取单元，所述提取单元用于根据所述运动信息图像中的运动信息，提取所述视频图像中具有目标物体的子图像；

第二生成单元，所述第二生成单元用于针对所述具有目标物体的子图像，生成所述视频图像中的目标物体的边界框。
根据权利要求1所述的装置，其中，所述生成单元包括：

预处理单元，所述预处理单元用于根据所述运动信息图像中的运动信息选择所述视频图像的特征进行预处理；

第三生成单元，所述第三生成单元用于根据预先设定的策略对预处理后的特征进行处理，生成所述视频图像中的目标物体的边界框。
一种电子设备，包括根据权利要求1-6的任一项所述的边界框生成装置。
一种边界框生成方法，所述方法包括：

对视频图像进行运动检测，获得所述视频图像的运动信息图像；

根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框。
根据权利要求8所述的方法，其中，所述根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框，包括：

生成所述视频图像中的目标物体的边界框；

根据所述运动信息图像中的运动信息，对生成的边界框进行选择。
根据权利要求9所述的方法，其中，所述根据所述运动信息图像中的运动信息，对生成的边界框进行选择，包括：

根据各个边界框中的运动信息量，进行边界框的选择；或

根据各个边界框中的运行信息占有率，进行边界框的选择。
根据权利要求10所述的方法，其中，

所述根据各个边界框中的运动信息量，进行边界框的选择，包括：将所述运动信息量大于或等于第一阈值的边界框作为选择的边界框；

所述根据各个边界框中的运行信息占有率，进行边界框的选择，包括：将所述运动信息占有率大于或等于第二阈值的边界框作为选择的边界框。
根据权利要求8所述的方法，其中，所述根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框，包括：

根据所述运动信息图像中的运动信息，提取所述视频图像中具有目标物体的子图像；

针对所述具有目标物体的子图像，生成所述视频图像中的目标物体的边界框。
根据权利要求8所述的方法，其中，所述根据所述运动信息图像中的运动信息，生成所述视频图像中的目标物体的边界框，包括：

根据所述运动信息图像中的运动信息选择所述视频图像的特征进行预处理；

根据预先设定的策略对预处理后的特征进行处理，生成所述视频图像中的目标物体的边界框。