CN116206356A

CN116206356A - 行为识别装置和方法以及电子设备

Info

Publication number: CN116206356A
Application number: CN202111443162.9A
Authority: CN
Inventors: 温思寒; 姚杰; 朱建清
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-06-02

Abstract

本申请实施例提供一种行为识别装置和方法以及电子设备。所述方法包括：对图像中的物体进行检测以获得物体检测框；使用轻量级网络并基于所述物体检测框进行姿势估计，获得所述物体的多个关键点；其中，所述轻量级网络的骨干网络为MobileNet网络结构，并且所述轻量级网络还包括与所述MobileNet网络结构连接的上采样模块；以及基于所述多个关键点对所述物体的行为进行识别。由此，能够加速姿势估计的速度，不仅能够提高行为识别结果的准确性，而且能够实时地进行行为识别。

Description

行为识别装置和方法以及电子设备

技术领域

本申请实施例涉及图像检测技术领域。

背景技术

人工智能和深度学习技术的最新进展使基于图像的行为识别(behaviorrecognition)技术成为现实。行为识别技术可以识别由多个动作(action)或移动(movement)组成的复杂行为。可以通过物体检测模块检测出物体框，并通过姿势估计(poseestimation)模块进行多个关键点的检测，进而识别出物体的行为。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述，不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

但是，发明人发现：姿势估计模块是比较耗时的部分，如果检测的物体数目增加，则姿势估计需要耗费的时间大大增多，无法实现实时地识别，因此难以应用到嵌入式设备等实时性要求较高的场合。

针对上述技术问题的至少之一，本申请实施例提供一种行为识别装置和方法以及电子设备，期待在保证行为识别结果的准确性的前提下，提高行为识别的速度。

根据本申请实施例的一个方面，提供一种行为识别装置，包括：

检测单元，其对图像中的物体进行检测以获得物体检测框；

估计单元，其使用轻量级网络并基于所述物体检测框进行姿势估计，获得所述物体的多个关键点；其中，所述轻量级网络的骨干网络为MobileNet网络结构，并且所述轻量级网络还包括与所述MobileNet网络结构连接的上采样模块；以及

识别单元，其基于所述多个关键点对所述物体的行为进行识别。

根据本申请实施例的另一个方面，提供一种行为识别方法，包括：

对图像中的物体进行检测以获得物体检测框；

使用轻量级网络并基于所述物体检测框进行姿势估计，获得所述物体的多个关键点；其中，所述轻量级网络的骨干网络为MobileNet网络结构，并且所述轻量级网络还包括与所述MobileNet网络结构连接的上采样模块；以及

基于所述多个关键点对所述物体的行为进行识别。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器被配置为执行所述计算机程序而实现如前所述的行为识别方法。

本申请实施例的有益效果之一在于：使用轻量级网络并基于物体检测框进行姿势估计，获得物体的多个关键点；其中，所述轻量级网络的骨干网络为MobileNet网络结构，并且所述轻量级网络还包括与所述MobileNet网络结构连接的上采样模块。由此，能够加速姿势估计的速度，不仅能够提高行为识别结果的准确性，而且能够实时地进行行为识别。

参照后文的说明和附图，详细公开了本申请实施例的特定实施方式，指明了本申请实施例的原理可以被采用的方式。应该理解，本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本申请的实施方式包括许多改变、修改和等同。

附图说明

所包括的附图用来提供对本申请实施例的进一步的理解，其构成了说明书的一部分，用于例示本申请的实施方式，并与文字描述一起来阐释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施方式。在附图中：

图1是本申请实施例的行为识别的一框架示意图；

图2是CPN的一框架示意图；

图3是本申请实施例的行为识别方法的一示意图；

图4是本申请实施例的轻量级网络的一示意图；

图5是图4的轻量级网络中Block的一示意图；

图6是图5的Block中的SeModule一示意图；

图7是本申请实施例的行为识别的一示例图；

图8是本申请实施例的行为识别装置的示意图；

图9是本申请实施例的电子设备的示意图。

具体实施方式

参照附图，通过下面的说明书，本申请实施例的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本申请的特定实施方式，其表明了其中可以采用本申请实施例的原则的部分实施方式，应了解的是，本申请不限于所描述的实施方式，相反，本申请实施例包括落入所附权利要求的范围内的全部修改、变型以及等同物。

在本申请实施例中，术语“第一”、“第二”等用于对不同元素从称谓上进行区分，但并不表示这些元素的空间排列或时间顺序等，这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在，但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本申请实施例中，单数形式“一”、“该”等包括复数形式，应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义；此外术语“所述”应理解为既包括单数形式也包括复数形式，除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”，术语“基于”应理解为“至少部分基于……”，除非上下文另外明确指出。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

图1是本申请实施例的行为识别的一框架示意图。如图1所示，对于输入图像，可以使用物体检测模块101进行检测，获得物体检测框；然后可以使用姿势估计模块102进行姿势估计，获得一个或多个物体的关键点。可以使用特征计算模块103进行特征提取等，然后通过轻量级分类器104识别出物体的行为。在进行姿势估计时，可以使用神经网络模型等，例如使用级联金字塔网络(CPN，Cascaded Pyramid Network)模型。

图2是CPN的一框架示意图，CPN可以包括GlobalNet和RefineNet；其中GlobalNet的骨干网络为ResNet。其中，GolbalNet负责网络关键点的检测，对比较容易检测的部位(例如眼睛、胳膊等)的关键点预测效果较好，采用的损失函数为L2 loss。可以在每一个elem-sum操作之前，都对特征图(featuremap)使用1*1的卷积操作。RefineNet对GolbalNet预测的结果进行修正；GolbalNet对身体部位的那些被遮挡的、看不见的或者有复杂背景的关键点预测误差较大，RefineNet可以修正这些关键点。关于CPN等模型的具体内容还可以参考相关技术。

但是，CPN是比较重量级的网络结构，如果检测的物体数目增加，则姿势估计需要耗费的时间大大增多，无法实现实时地识别，因此难以应用到嵌入式设备等实时性要求较高的场合。

在本申请实施例中，作为检测目标的物体可以是各种年龄阶段的人体，例如可以是老年人，也可以是儿童，还可以是老年人和/或护理人员，儿童和/或监护人员。本申请不限于此，作为检测目标的物体可以是具有生命特征的人体，或者是不具有生命特征的机器人等等。

第一方面的实施例

本申请实施例提供一种行为识别方法。图3是本申请实施例的行为识别方法的一示意图，如图3所示，该方法包括：

301，对图像中的物体进行检测以获得物体检测框；

302，使用轻量级网络并基于所述物体检测框进行姿势估计，获得物体的多个关键点；其中，轻量级网络的骨干网络为MobileNet网络结构，并且轻量级网络还包括与MobileNet网络结构连接的上采样模块；以及

303，基于多个关键点对物体的行为进行识别。

值得注意的是，以上附图3仅示意性地对本申请实施例进行了说明，但本申请不限于此。例如可以适当地调整各个操作之间的执行顺序，此外还可以增加其他的一些操作或者减少其中的某些操作。本领域的技术人员可以根据上述内容进行适当地变型，而不仅限于上述附图3的记载。

在一些实施例中，具有待检测物体的图像可以是视频帧中的一帧或多帧图像，即该图像可以是动态图像，但本申请不限于此，对于一张或多张静态图像，本申请实施例同样适用。

在一些实施例中，所述轻量级网络通过如下方式生成：使用MobileNet来代替级联金字塔网络中的GlobalNet的骨干网络，并且使用上采样模块来代替所述级联金字塔网络中的RefineNet和金字塔结构。

例如，使用MobileNetv3来代替Resnet-50backbone，这样可以使用更少的参数，并且降低推理(inference)期间所需的内存占用，从而加快姿势估计的速度。此外，去掉CPN的RefineNet和金字塔结构，直接使用上采样模块对MobileNetv3的输出进行处理，这样可以进一步提高姿势估计的速度。

在一些实施例中，所述轻量级网络中使用以MobileNet为骨干网络的Globalnet进行多次下采样，并使用上采样模块对所述多次下采样中的一次下采样的结果进行多次上采样。由此，可以直接使用上采样模块简化网络结构，实现轻量级网络结构，进一步提高姿势估计的速度。

在一些实施例中，所述上采样模块对所述多次下采样中的最底层下采样的结果进行多次上采样。由此，可以使用最底层下采样的结果，不仅能够实现轻量级网络结构，进一步提高姿势估计的速度，而且能够进一步提高姿势估计的准确性。

图4是本申请实施例的轻量级网络的一示意图，如图4所示，对于3xHxW的输入图像，可以进行卷积“Conv2d,16x3x3,2”(如401所示)和批归一化(BN，BatchNorm)“BN,hswish”(如402所示)的操作。

如图4所示，可以使用MobileNetv3进行下采样(如403至406所示)，例如“Block,3x16x16x16,1,Relu,None”“Block,3x16x64x24,2,Relu,None”“Block,3x24x72x24,1,Relu,None”等操作(如403所示)，“Block,5x24x72x40,2,Relu,Se”“Block,5x40x120x40,1,Relu,Se”“Block,5x40x120x40,1,Relu,Se”等操作(如404所示)，“Block,3x40x240x80,2,hswish,None”“Block,3x80x200x80,1,hswish,None”“Block,3x80x184x80,1,hswish,None”“Block,3x80x184x80,1,hswish,None”等操作(如405所示)，“Block,3x80x480x112,1,hswish,Se”“Block,3x112x672x160,1,hswish,Se”“Block,5x112x672x160,1,hswish,Se”“Block,5x160x672x160,2,hswish,Se”“Block,5x160x960x160,1,hswish,Se”等操作(如406所示)。其中，可以使用线性修正单元(Relu，Rectified linear unit)、hswish、Se等，关于这些参数的具体含义可以参考相关技术。

图5是图4的轻量级网络中Block的一示意图。如图5所示，可以进行“Conv72x1x1,1”(如501所示)，“BN,nolinear”(如502所示)，“Conv 72x5x5,2”(如503所示)，“BN,nolinear”(如504所示)，“Conv 40x1x1,1”(如505所示)，“BN”(如506所示)等操作；此外，还可以进行“Conv 40x1x1,1”(如507所示)，“BN”(如508所示)等操作。如图5所示，Block还可以包括SeModule模块509。

图6是图5的Block中的SeModule模块509的一示意图。如图6所示，可以进行“AdaptiveAvgPool”(如601所示)，“Conv 10x1x1,1”(如602所示)，“BN,Relu”(如603所示)，“Conv 40x1x1,1”(如604所示)，“BN,hsigmoid”(如605所示)等操作。

以上图4至6示意性说明了使用MobileNetv3来代替Resnet的Globalnet，以下再对本申请实施例的上采样模块进行说明。

如图4所示，上采样模块对多次下采样中的最底层下采样(如406所示)的结果进行多次上采样。如图4所示，可以进行“ConvTranspose2d,80x4x4,2”(如407所示)，“BN,Relu”(如408所示)，“ConvTranspose2d,40x4x4,2”(如409所示)，“BN,Relu”(如410所示)，“ConvTranspose2d,24x4x4,2”(如411所示)，“BN,Relu”(如412所示)，“Conv2d,17x1x1,1”(如413所示)等操作。如图4所示，可以输出17xHxW的热力图(Heatmap)。

以上图4至6示例性对本申请的轻量级网络进行了说明，但本申请不限于此。

图7是本申请实施例的行为识别的一示例图，为简单起见，仅为一个物体(人体)标注了附图标记。如图7所示，经过本申请实施例的行为识别，可以为多个物体生成物体检测框701，此外还可以获得连接起来的多个关键点702，由此可以对物体的行为进行识别，不仅能够准确地识别出物体的行为，而且行为识别的速度快，能够满足实时性的要求。

表1示出了CPN(以CPN-Resnet50表示)和本申请实施例的轻量级网络(以MobileNet-transpose表示)的一比较结果。如表1所示，本申请实施例的轻量级网络能够显著地减少内存占用和参数。

表1

模型	GPU内存(M)	权重参数(M)
			CPN-Resnet50	2275	108.9
MobileNet-transpose	839	6.4

表2示出了现有的姿势估计模型(以CPN-EfficientNet表示)、用MobileNetv3代替EfficientNet的骨干网络的模型(以CPN-MobileNetv3表示)和本申请实施例的轻量级网络(以MobileNet-transpose表示)的一比较结果。

表2

模型	权重参数(M)	FPS	AP(0.5:0.95)	AR(0.5:0.95)
					CPN-EfficientNet	7.5M	17.16	0.591	0.631
CPN-MobileNetv3	5.5M	20.91	0.556	0.602
					MobileNet-transpose	6.4M	21.54	0.607	0.646

如表2所示，CPN-MobileNetv3相对于CPN-EfficientNet，速度虽然增加了，但是性能出现了下降。而本申请实施例的轻量级网络MobileNet-transpose由于直接使用了上采样模块，不仅能够保证行为识别的准确性，提升***性能，而且能够增加行为识别的速度。

以上仅对与本申请相关的各步骤或过程进行了说明，但本申请不限于此。行为识别方法还可以包括其他步骤或者过程，关于这些步骤或者过程的具体内容，可以参考现有技术。此外，以上仅以行为识别模型的一些结构为例对本申请实施例进行了示例性说明，但本申请不限于这些结构，还可以对这些结构进行适当的变型，这些变型的实施方式均应包含在本申请实施例的范围之内。

以上各个实施例仅对本申请实施例进行了示例性说明，但本申请不限于此，还可以在以上各个实施例的基础上进行适当的变型。例如，可以单独使用上述各个实施例，也可以将以上各个实施例中的一种或多种结合起来。

由上述实施例可知，使用轻量级网络并基于物体检测框进行姿势估计，获得物体的多个关键点；其中，轻量级网络的骨干网络为MobileNet网络结构，并且所述轻量级网络还包括与所述MobileNet网络结构连接的上采样模块。由此，能够加速姿势估计的速度，不仅能够提高行为识别结果的准确性，而且能够实时地进行行为识别。

第二方面的实施例

本申请实施例提供一种行为识别装置，与第一方面的实施例相同内容不再赘述。

图8是本申请实施例的行为识别装置的一示意图，如图8所示，行为识别装置800包括：

检测单元801，其对图像中的物体进行检测以获得物体检测框；

估计单元802，其使用轻量级网络并基于所述物体检测框进行姿势估计，获得所述物体的多个关键点；其中，所述轻量级网络的骨干网络为MobileNet网络结构，并且所述轻量级网络还包括与所述MobileNet网络结构连接的上采样模块；以及

识别单元803，其基于所述多个关键点对所述物体的行为进行识别。

在一些实施例中，所述轻量级网络通过如下方式生成：使用MobileNet来代替级联金字塔网络中的GlobalNet的骨干网络，并且使用所述上采样模块来代替所述级联金字塔网络中的RefineNet和金字塔结构。

在一些实施例中，所述轻量级网络中使用以MobileNet为骨干网络的Globalnet进行多次下采样，并使用所述上采样模块对所述多次下采样中的一次下采样的结果进行多次上采样。

在一些实施例中，所述上采样模块对所述多次下采样中的最底层下采样的结果进行多次上采样。

值得注意的是，以上仅对与本申请相关的各部件或模块进行了说明，但本申请不限于此。行为识别装置800还可以包括其他部件或者模块，关于这些部件或者模块的具体内容，可以参考相关技术。

为了简单起见，图8中仅示例性示出了各个部件或模块之间的连接关系或信号走向，但是本领域技术人员应该清楚的是，可以采用总线连接等各种相关技术。上述各个部件或模块可以通过例如处理器、存储器等硬件设施来实现；本申请实施例并不对此进行限制。

由上述实施例可知，使用轻量级网络并基于物体检测框进行姿势估计，获得物体的多个关键点；其中，所述轻量级网络的骨干网络为MobileNet网络结构，并且所述轻量级网络还包括与所述MobileNet网络结构连接的上采样模块。由此，能够加速姿势估计的速度，不仅能够提高行为识别结果的准确性，而且能够实时地进行行为识别。

第三方面的实施例

本申请实施例提供一种电子设备，包括有如第二方面的实施例所述的行为识别装置800，其内容被合并于此。该电子设备例如可以是计算机、服务器、工作站、膝上型计算机、智能手机，等等；但本申请实施例不限于此。

图9是本申请实施例的电子设备的示意图。如图9所示，电子设备900可以包括：处理器(例如中央处理器CPU)910和存储器920；存储器920耦合到中央处理器910。其中该存储器920可存储各种数据；此外还存储信息处理的程序921，并且在处理器910的控制下执行该程序921。

在一些实施例中，行为识别装置800的功能被集成到处理器910中实现。其中，处理器910被配置为实现如第一方面的实施例所述的行为识别方法。

在一些实施例中，行为识别装置800与处理器910分开配置，例如可以将行为识别装置800配置为与处理器910连接的芯片，通过处理器910的控制来实现行为识别装置800的功能。

例如，处理器910被配置为进行如下的控制：对图像中的物体进行检测以获得物体检测框；使用轻量级网络并基于所述物体检测框进行姿势估计，获得所述物体的多个关键点；其中，所述轻量级网络的骨干网络为MobileNet网络结构，并且所述轻量级网络还包括与所述MobileNet网络结构连接的上采样模块；以及基于所述多个关键点对所述物体的行为进行识别。

此外，如图9所示，电子设备900还可以包括：输入输出(I/O)设备930和显示器940等；其中，上述部件的功能与现有技术类似，此处不再赘述。值得注意的是，电子设备900也并不是必须要包括图9中所示的所有部件；此外，电子设备900还可以包括图9中没有示出的部件，可以参考相关技术。

本申请实施例还提供一种计算机可读程序，其中当在电子设备中执行所述程序时，所述程序使得计算机在所述电子设备中执行如第一方面的实施例所述的行为识别方法。

本申请实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在电子设备中执行如第一方面的实施例所述的行为识别方法。

本申请以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本申请涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本申请还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

结合本申请实施例描述的方法/装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图中所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可***移动终端的存储卡中。例如，若设备(如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对附图中描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本申请进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本申请保护范围的限制。本领域技术人员可以根据本申请原理对本申请做出各种变型和修改，这些变型和修改也在本申请的范围内。

Claims

1.一种行为识别装置，其特征在于，所述装置包括：

检测单元，其对图像中的物体进行检测以获得物体检测框；

2.根据权利要求1所述的装置，其特征在于，所述轻量级网络通过如下方式生成：使用MobileNet来代替级联金字塔网络中的GlobalNet的骨干网络，并且使用所述上采样模块来代替所述级联金字塔网络中的RefineNet和金字塔结构。

3.根据权利要求2所述的装置，其特征在于，所述轻量级网络中使用以MobileNet为骨干网络的Globalnet进行多次下采样，并使用所述上采样模块对所述多次下采样中的一次下采样的结果进行多次上采样。

4.根据权利要求3所述的装置，其特征在于，所述上采样模块对所述多次下采样中的最底层下采样的结果进行多次上采样。

5.一种行为识别方法，其特征在于，所述方法包括：

对图像中的物体进行检测以获得物体检测框；

基于所述多个关键点对所述物体的行为进行识别。

6.根据权利要求5所述的方法，其特征在于，所述轻量级网络通过如下方式生成：使用MobileNet来代替级联金字塔网络中的GlobalNet的骨干网络，并且使用所述上采样模块来代替所述级联金字塔网络中的RefineNet和金字塔结构。

7.根据权利要求6所述的方法，其特征在于，所述轻量级网络中使用以MobileNet为骨干网络的Globalnet进行多次下采样，并使用所述上采样模块对所述多次下采样中的一次下采样的结果进行多次上采样。

8.根据权利要求7所述的方法，其特征在于，所述上采样模块对所述多次下采样中的最底层下采样的结果进行多次上采样。

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器被配置为执行所述计算机程序而实现如权利要求5至8任意一项所述的行为识别方法。