CN112446352A

CN112446352A - 行为识别方法、装置、介质及电子设备

Info

Publication number: CN112446352A
Application number: CN202011467345.XA
Authority: CN
Inventors: 张运辉; 张致恺; 杨聪
Original assignee: Shenzhen Horizon Robotics Science and Technology Co Ltd
Current assignee: Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-05
Also published as: US11816930B2; US20220188537A1

Abstract

公开了一种行为识别方法、装置、介质及设备，其中的方法包括：从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的目标部位的图像块序列；对所述图像块序列进行基于第一预设行为的特征向量提取处理，获得所述图像块序列对应的第一特征向量；根据所述第一特征向量，确定所述目标对象的行为所属的行为类型；若所述目标对象的行为所属的行为类型符合第一行为类型，则根据对所述图像块序列进行第二预设行为的行为识别处理的结果，确定所述目标对象的行为。本公开提供的技术方案可以实现对目标对象的行为的级联识别，从而有利于提高行为识别的准确性，进而有利于提高移动设备的行驶安全。

Description

行为识别方法、装置、介质及电子设备

技术领域

本公开涉及计算机视觉技术，尤其是涉及一种行为识别方法、行为识别装置、存储介质以及电子设备。

背景技术

在驾驶领域中，由于移动设备的驾驶员以及乘客等人员的某些行为，会对移动设备的安全行驶产生影响，因此，对位于移动设备内的目标对象的行为进行识别，并在识别出的目标对象的行为为不利于移动设备的安全行驶的行为时，及时采取措施，以尽可能的降低目标对象的行为对移动设备的安全行驶的影响，是非常必要的。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种行为识别方法、装置、存储介质以及电子设备。

根据本公开实施例的一个方面，提供了一种行为识别方法，包括：从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的目标部位的图像块序列；对所述图像块序列进行基于第一预设行为的特征向量提取处理，获得所述图像块序列对应的第一特征向量；根据所述第一特征向量，确定所述目标对象的行为所属的行为类型；若所述目标对象的行为所属的行为类型符合第一行为类型，则根据对所述图像块序列进行第二预设行为的行为识别处理的结果，确定所述目标对象的行为。

根据本公开实施例的另一个方面，提供了一种行为识别装置，包括：获取序列模块，用于从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的目标部位的图像块序列；获取特征向量模块，用于对所述获取序列模块获取到的图像块序列进行基于第一预设行为的特征向量提取处理，获得所述图像块序列对应的第一特征向量；确定行为类型模块，用于根据所述获取特征向量模块获得的第一特征向量，确定所述目标对象的行为所属的行为类型；级联识别模块，用于若所述确定行为类型模块确定出的所述目标对象的行为所属的行为类型符合第一行为类型，则根据对所述图像块序列进行第二预设行为的行为识别处理的结果，确定所述目标对象的行为。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于实现上述方法。

根据本公开实施例的再一个方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述方法。

基于本公开上述实施例提供的一种行为识别方法和装置，通过从设置于移动设备中的摄像装置采集的视频帧中，提取移动设备中的驾驶员或者乘客等目标对象的目标部位的图像块，并从图像块序列中获得第一特征向量，使本公开可以基于该第一特征向量获得目标对象的行为所属的行为类型，由于在目标对象的行为所属的行为类型符合第一行为类型(如疑似行为类型)时，本公开可以联合针对图像块序列执行的第二预设行为所对应的行为识别处理的结果，确定目标对象的行为，因此，本公开实现了对目标对象的行为的级联识别，从而有利于避免行为识别所使用的阈值设置过高或者过低对行为识别准确性的影响，由此可知，本公开提供的技术方案有利于提高行为识别的准确性，而且通过针对识别出的目标对象的行为(如危险驾驶行为或者影响驾驶员驾驶的危害驾驶行为等)，采取相应的语音提示、灯光提示或者振动提示等措施，有利于提高移动设备的行驶安全。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开的车辆中的DMS结构一个实施例的示意图；

图2为本公开的行为识别方法一个实施例的流程图；

图3A和图3B为本公开的第一预设行为和第二预设行为一实施例的示意图；

图4为本公开的普通块一个实施例的结构示意图；

图5为本公开的下采样块一个实施例的结构示意图；

图6为本公开的获取包含有目标对象的目标部位的图像块序列一个实施例的流程图；

图7为本公开的获取包含有目标对象的目标部位的图像块序列一个实施例的示意图；

图8为本公开确定目标对象的行为所属的行为类型一实施例的流程图；

图9为本公开确定目标对象的行为一实施例的流程图；

图10为本公开的行为识别装置一个实施例的结构示意图；

图11是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或者专用计算***环境或配置一起操作。适于与终端设备、计算机***或者服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，移动设备中的DMS(Driver MonitorSystem，驾驶员监控***)往往是基于预先设置的阈值，来实现行为识别的。例如，在DMS对摄像装置采集的视频帧进行相应的处理后，会利用预先设置的用于判断当前行为是否为危险驾驶行为的阈值来衡量该处理结果，从而确定驾驶员的当前行为是否为危险驾驶行为。

在实际应用中，往往存在相似行为，例如，抽烟行为和使用吸管行为较为相似，且抽烟行为属于危险驾驶行为，使用吸管行为不属于危险驾驶行为。如果将用于判断当前行为是否为危险驾驶行为的阈值设置的过高，则可能会出现危险驾驶行为的漏检现象，而如果将用于判断当前行为是否为危险驾驶行为的阈值设置的过低，则可能会出现危险驾驶行为的误检现象。

由于不同目标对象的行为方式存在多样性的特点，因此，准确设置用于判断当前行为是否为危险驾驶行为的阈值，往往较为困难。然而，如果能够针对视频帧的目标对象进行级联行为识别，则有利于提高行为识别的准确性。

示例性概述

本公开的行为识别的技术方案可以适用于多种场景中。例如，本公开提供的行为识别的技术方案可以适用于DMS应用中。一个例子如图1所示。

下面结合图1，对本公开的行为识别技术的应用进行说明。

图1中，一车辆中配置有至少一摄像装置100和DMS101，摄像装置100采集获得的视频帧，可以实时地提供给DMS101。在驾驶员处于该车辆的驾驶位置时，驾驶员的脸部应位于摄像装置100的视场范围内，即摄像装置100采集获得的视频通常包括驾驶员的脸部(如正脸等)。

下面结合图1，对本公开的疲劳状态检测技术的应用进行说明。

图1中，以移动设备为车辆为例进行示例性说明，一车辆中配置有至少一摄像装置100和DMS101，摄像装置100采集获得的视频帧，可以实时地提供给DMS101。在驾驶员处于该车辆的驾驶位置时，驾驶员的面部应位于摄像装置100的视场范围内，即摄像装置100采集获得的视频通常包括驾驶员的面部(如正脸等)区域等。

DMS101至少包含有接收模块1011、行为识别装置1012以及行为调控模块1013。接收模块1011在接收到摄像装置100实时传输来的视频帧后，触发行为识别装置1012对其接收到的视频帧进行危险驾驶行为识别处理。行为识别装置1012确定每一时间窗口(如2秒等)中的多个视频帧中的目标对象的行为。如果行为识别装置1012确定出的目标对象的行为为危险驾驶行为时，则行为调控模块1013可以通过语音提示、灯光提示或者振动提示等方式，提示驾驶员，以保障车辆的安全行驶。

在行为识别装置1012执行危险驾驶行为识别处理过程中，如果确定出驾驶员的当前行为是与危险驾驶行为相类似的其他行为的情况下，则行为识别装置1012可以对驾驶员的当前行为进行级联行为识别处理，以判断驾驶员的当前行为是否为与危险驾驶行为相类似的其他行为，如果是与危险驾驶行为相类似的其他行为，则行为识别装置1012可以避免危险驾驶行为的误报现象，如果不是与危险驾驶行为相类似的其他行为，则行为识别装置1012可以认为驾驶员的当前行为是危险驾驶行为，从而可以避免危险驾驶行为的漏报现象。

另外，本公开提供的行为识别的技术方案还可以适用于IMS(In-cabinMonitoring System，客舱监测***)应用中。例如，本公开可以利用车辆中的IMS对车辆的副驾驶位置处或者车辆后排位置处的人员的行为进行识别，从而可以识别出副驾驶位置处的人员或者车辆后排位置处的人员的不利于车辆安全行驶的行为。本公开提供的技术方案适用于IMS应用中的具体实现过程，与上述适用于DMS应用中的具体实现过程基本相同，在此不再详细说明。

示例性方法

图2为本公开的行为识别方法一个实施例的流程图。如图2所示的方法主要包括：S200、S201、S202以及S203。下面对各步骤分别进行说明。

S200、从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的目标部位的图像块序列。

本公开中的移动设备可以是指能够载人的交通工具，例如，私人汽车以及公共交通工具等。本公开中的目标对象通常可以为移动设备的驾驶员，当然，目标对象也可以为移动设备中的其他人，如位于副驾驶位置处的人员或者公共交通工具中的乘客等。

在目标对象为移动设备的驾驶员的情况下，本公开中的摄像装置可以安装在移动设备的转向柱或者驾驶员所在侧的A柱等位置处。摄像装置的安装位置应确保位于驾驶位置处的驾驶员的面部(如正脸)位于摄像装置的视场范围内。在目标对象为移动设备中的乘客的情况下，摄像装置的安装位置可以根据实际需求设置，例如，摄像装置可以安装在移动设备的副驾驶所在侧的A柱等位置处，以保证位于副驾驶位置处的乘客的面部(如正脸)位于摄像装置的视场范围内。再例如，摄像装置可以安装在移动设备的B柱或者前排座椅背面等位置处，以保证位于后排的乘客的面部(如正脸)位于摄像装置的视场范围内。另外，移动设备中可以安装多个摄像装置，以实现对驾驶员以及至少一乘客进行实时拍摄，从而可以基于各摄像装置采集获得的视频帧实现对驾驶员以及至少一乘客的行为识别。

本公开中的摄像装置可以是基于RGB(Red Green Blue，红绿蓝)的摄像装置或者基于IR(Infrared Radiation，红外线)的摄像装置等。另外，该摄像装置可以是单目摄像装置或双目摄像装置等。

本公开中的多个视频帧可以是一个预定时间窗口(如n秒，n为正数)中的所有视频帧；也可以是从一个预定时间窗口中的所有视频帧中的部分视频帧；在一个例子中，本公开中的多个视频帧可以是从一个预定时间窗口中的所有视频帧中挑选出的包含有目标对象的面部的多个视频帧。

本公开中的目标对象的目标部位通常与需要被识别的行为相关，即本公开中的目标对象的目标部位通常为需要被识别的行为所涉及到的部位，且本公开的目标对象的目标部位可以包括：目标对象的身体上的一个部位或者多个不同部位。

一个例子，如果需要被识别的行为包括吸烟行为，则目标对象的目标部位可以包括：脸部下侧部位，例如，包含有鼻子和嘴巴的脸部下侧部位。

另一个例子，如果需要被识别的行为包括吸烟行为，则目标对象的目标部位可以包括：脸部下侧部位以及手部位。

又一个例子，如果需要被识别的行为包括打电话行为，则目标对象的目标部位可以包括：脸部左/右侧部位，例如，包含有左/右侧脸颊的脸部左/右侧部位。

再一个例子，如果需要被识别的行为包括打电话行为，则目标对象的目标部位可以包括：脸部左/右侧部位以及手部位等。

本公开不限制图像块序列中的各图像块所包含的目标对象的目标部位的具体表现形式。

本公开获取到的包含有目标对象的目标部位的图像块序列可以为：从每一视频帧中分别截取出的包含有目标对象的目标部位且具有相同大小的图像块，按照视频帧的采集时间顺序排列而成的图像块序列。

另外，本公开从多个视频帧中获取到的包含有目标对象的目标部位的图像块序列可以为一个图像块序列，也可以为多个图像块序列，且不同图像块序列通常对应不同的需要被识别的行为。在一个例子中，如果需要被识别的行为包括：抽烟行为和打电话行为，则本公开可以针对抽烟行为获得第一图像块序列，并针对打电话行为获得第二图像块序列。例如，第一图像块序列可以为由分别包含有脸部下侧部位以及手部位的多个图像块形成的图像块序列。再例如，第二图像块序列可以为由分别包含有脸部左/右侧部位以及手部位的多个图像块形成的图像块序列。

本公开可以通过对多个视频帧分别进行图像识别等处理，获得各视频帧中的包含有目标对象的目标部位的图像块，从而获得基于目标部位的图像块序列。例如，针对任一视频帧而言，本公开可以通过用于图像识别的第一神经网络获得该视频帧中的至少一ROI(Region Of Interest，感兴趣区域)，并根据至少一ROI对该视频帧进行剪切处理(如根据多个ROI形成一个剪切框，并基于该剪切框对该视频帧进行剪切处理)，从而获得该视频帧的图像块。在针对每一个视频帧均进行剪切处理后，获得基于目标部位的图像块序列

在一个例子中，第一神经网络可以为基于区域检测的神经网络，如Faster(更快的)RCNN(Regions with Convolutional Neural Networks，带有区域的卷积神经网络)等。本公开中的神经网络的运算处理过程可以通过CPU(Central Processing Unit，中央处理单元)、GPU(Graphics Processing Unit，图像处理单元)、BPU(BrainProcessingUnit，脑处理单元)等数据处理单元实现。

S201、对图像块序列进行基于第一预设行为的特征向量提取处理，获得图像块序列对应的第一特征向量。

本公开中的第一预设行为可以包括需要被识别出的多个行为。例如，第一预设行为可以包括：至少一危险行为或者禁止行为或者规定行为、至少一非危险行为或者非禁止行为或者非规定行为、至少一疑似危险行为或者疑似禁止行为或者疑似规定行为等。本公开中的第一预设行为所包括的多个行为中的至少一个行为属于第一行为类型，其余行为可以属于第二行为类型。

本公开中的基于第一预设行为的特征向量提取处理是一种特征向量提取方式，且该特征向量提取方式是一种以为了识别出第一预设行为为目的而设置的特征向量提取方式。例如，本公开可以利用神经网络实现特征向量提取处理。本公开可以利用具有第一预设行为标注信息的训练样本来训练神经网络，在对神经网络成功训练后，获得该神经网络的网络参数，使用该网络参数的神经网络处理单元所执行的特征向量提取处理，即为基于第一预设行为的特征向量提取处理。

本公开利用神经网络对图像块序列进行基于第一预设行为的特征向量提取处理的过程的一个例子可以为：将图像块序列中的每一图像块分别通过用于提取特征的第二神经网络来进行运算处理，并根据该第二神经网络的运算结果，获得图像块序列中的每一图像块各自的特征向量(如由用于描述目标部位特征的多个向量元素所形成的一维数组)，所有图像块的特征向量即为图像块序列对应的第一特征向量。

本公开中的第二神经网络可以为卷积神经网络等，且本公开可以利用一个第二神经网络获得各图像块的特征向量，也可以利用多个第二神经网络并行获得各图像块的特征向量。多个第二神经网络通常具有相同的网络结构以及相同的网络参数。需要说明的是，第一神经网络与第二神经网络的运算可以由同一个神经网络处理单元实现，如由同一BPU实现或者同一GPU实现。同理，本公开实施例所涉及到的基于不同运算处理的神经网络均可以由同一个神经网络处理单元实现，下述不再一一说明。

S202、根据上述第一特征向量，确定目标对象的行为所属的行为类型。

本公开中的行为类型可以是指对行为进行分类而形成的行为种类。本公开针对第一预设行为所包含的行为设置有至少两个行为类型，其中一个行为类型即为第一行为类型。

在一个例子中，第一行为类型可以是指不能够准确的确定出目标对象的行为是否为一特定行为(如危险行为等)的类型，第一行为类型可以称为疑似特定行为类型(如疑似危险行为类型等)。

在一个例子中，疑似特定行为类型可以具体为疑似抽烟行为类型或者疑似打电话行为类型等。在特定行为的数量为多个的情况下，本公开中的第一行为类型可以包括多个疑似特定行为。

本公开可以通过对图像块序列的第一特征向量进行行为分类处理，获得行为分类结果，并利用预先针对第一行为类型所包含的疑似特定行为所设置的条件以及预先针对第二行为类型所包含的特定行为所设置的条件，对该行为分类结果进行判断，从而确定目标对象的行为所属的行为类型。

在一个例子中，本公开可以利用用于行为分类的第三神经网络，对第一特征向量进行行为分类处理，并根据该第三神经网络的运算结果、预先针对第一行为类型所包含的疑似特定行为所设置的条件以及预先针对第二行为类型所包含的特定行为所设置的条件，确定目标对象的行为所属的行为类型。

S203、若目标对象的行为所属的行为类型符合第一行为类型，则根据对图像块序列进行第二预设行为的行为识别处理的结果，确定目标对象的行为。

本公开中的对图像块序列进行第二预设行为的行为识别处理的过程，可以在确定出目标对象的行为所属的行为类型符合第一行为类型的情况下执行，即确定出目标对象的行为所属的行为类型符合第一行为类型可以是执行对图像块序列进行第二预设行为的行为识别处理的触发条件。

本公开中的对图像块序列进行第二预设行为的行为识别处理的过程，也可以与S202并行执行，即无论目标对象的行为所属的行为类型是否符合第一行为类型，本公开均可以在根据第一特征向量确定目标对象的行为所属的行为类型的同时，执行对图像块序列进行第二预设行为的行为识别处理。也就是说，确定出目标对象的行为所属的行为类型符合第一行为类型，不再是执行对图像块序列进行第二预设行为的行为识别处理的触发条件。

本公开中的第二预设行为可以是指与第一预设行为所包含的一特定行为相似的行为。在一例子中，在第一预设行为包括抽烟行为(如图3A所示)的情况下，第二预设行为可以包括：与抽烟行为相似的行为，例如，使用吸管行为(如图3B所示)等。在另一例子中，在第一预设行为包括打电话行为的情况下，第二预设行为可以包括：与打电话行为相似的行为，例如，使用即时消息行为。本公开不限制第一预设行为和第二预设行为的具体表现形式。

本公开对图像块序列进行第二预设行为的行为识别处理的过程可以与对图像块序列进行第一预设行为的行为识别处理的过程基本相同，例如，本公开可以对图像块序列进行基于第二预设行为的特征向量提取处理，获得图像块序列对应的第二特征向量，并根据第二特征向量判断目标对象的行为是否为第二预设行为。之后，本公开可以基于本次判断结果，最终确定目标对象的行为。

本公开通过从设置于移动设备中的摄像装置采集的视频帧中，提取移动设备中的驾驶员或者乘客等目标对象的目标部位的图像块，并从图像块序列中获得第一特征向量，使本公开可以基于该第一特征向量获得目标对象的行为所属的行为类型，由于在目标对象的行为所属的行为类型符合第一行为类型(如疑似行为类型等)的情况下，本公开可以联合针对图像块序列执行的第二预设行为所对应的行为识别处理的结果，确定目标对象的行为，因此，本公开实现了对目标对象的行为的级联识别，从而有利于避免行为识别所使用的阈值设置过高或者过低对行为识别准确性的影响，由此可知，本公开提供的技术方案有利于提高行为识别的准确性，而且通过针对识别出的目标对象的行为(如危险驾驶行为或者影响驾驶员驾驶的危害驾驶行为等)，采取相应的语音提示、灯光提示或者振动提示等措施，有利于提高移动设备的行驶安全。

可选的，本公开中的第二神经网络可以包括VargNet(可变组网络)，在一个例子中，VargNet可以为由至少两个block(块)连接而成的神经网络，两个block可以分别为普通块(Normal block)和下采样块(Down sampling block)。

可选的，普通块可以包括：至少两个串接的第一单元，且第一单元包括：可变组卷积(Variable Group Conv，也可以称为可变式分组卷积层)层和第一卷积层(如1×1逐点卷积层)，第一卷积层的输入数据的通道维度是输出数据的通道维度的两倍。普通块包括两个串接的第一单元的一个例子如图4所示，图4中的400表示可变组卷积层(其输出的通道维度为输入的通道维度的两倍)，401表示第一卷积层。普通块中的最后一个单元的输出可以与普通块的输入进行融合(如图4中的402)，从而形成普通块的输出。

可选的，下采样块可以包括：至少一第一单元及至少一第二单元，且第一单元可以包括：可变组卷积层和第一卷积层，第一卷积层的输入数据的通道维度是输出数据的通道维度的两倍。第二单元可以包括：可变组卷积层以及第二卷积层(如逐点卷积层)。第二卷积层的输入数据的通道维度与输出数据的通道维度相同。所有第一单元和第二单元通过串并结合的方式形成下采样块。下采样块的一个例子如图5所示。图5中的500表示可变组卷积层，501表示第一卷积层，502表示第二卷积层。

在一个可选示例中，本公开获取包含有目标对象的目标部位的图像块序列的一个例子，如图6和图7所示。

图6中，S600、对于从设置于移动设备中的摄像装置采集获得的多个视频帧中的任一视频帧，获取该视频帧中的包含有目标对象的至少一目标部位的图像区域，获得至少一图像区域。

可选的，对于任一视频帧(如图7中的视频帧700)而言，本公开可以通过关键点识别获得该视频帧的至少一图像区域。例如，本公开可以通过骨骼关键点识别获得该视频帧中的目标对象的手部图像区域(如图7中的区域701，即一ROI)，且本公开可以通过人脸关键点识别获得该视频帧中的目标对象的脸部图像区域(如图7中的区域702，即另一ROI，图7仅示意性的示出了几个人脸关键点)，从而获得两个图像区域，即两个ROI。

在一例子中，本公开可以先后通过第一神经网络对各视频帧分别进行运算，并根据第一神经网络的运算结果，先后获得各视频帧中的ROI。

在另一例子中，本公开可以通过多个第一神经网络处理对各视频帧进行并行运算，并根据多个第一神经网络的运算结果，并行获得各视频帧中的ROI。

S601、根据上述获得的至少一图像区域，确定该视频帧的目标区域。

可选的，本公开可以根据一视频帧中的各图像区域的各顶点的坐标值，获得该视频帧的目标区域。

在一个例子中，如果从一视频帧中获得n1(n1为大于1的整数)个图像区域，且n1个图像区域存在交集，则本公开可以取n1个图像区域的所有顶点在高度方向上的最大坐标值和最小坐标值，并取n1个图像区域的所有顶点在长度方向上的最小坐标值/最大坐标值以及交集区域中的最大坐标值/最小坐标值，从而可以形成四个点的坐标值，该四个点的坐标值所形成的区域即为该视频帧的目标区域，如图7中的目标区域703。

在另一个例子中，如果从一视频帧中仅获得了一个图像区域，则本公开可以将该图像区域作为该视频帧的目标区域。

在再一个例子中，如果从一视频帧中获得n1个图像区域，且n1个图像区域不存在交集，则本公开可以取n1个图像区域的所有顶点在高度方向上的最大坐标值和最小坐标值，并取n1个图像区域的所有顶点在长度方向上的最大坐标值和最小坐标值，从而形成四个点的坐标值，该四个点的坐标值所形成的区域即为该视频帧的目标区域。

本公开不限制获得视频帧的目标区域的具体实现方式。

S602、根据该视频帧的目标区域，获得该视频帧的包含有目标对象的目标部位的图像块。

可选的，对于一视频帧而言，本公开可以直接从该视频帧中剪切出该视频帧的目标区域，从而获得该视频帧的包含有目标对象的目标部位的图像块。本公开也可以对该视频帧的目标区域进行扩展处理，例如，该视频帧的目标区域的长和宽各扩展n2(n2为大于1的整数，如n2为10等偶数)个像素，获得扩展后的目标区域，并从该视频帧中剪切出扩展后的目标区域，从而获得该视频帧的包含有目标对象的目标部位的图像块。

本公开通过利用视频帧中的包含有目标对象的至少一目标部位的图像区域形成视频帧的目标区域，并最终形成包含有目标对象的目标部位的图像块，可以针对涉及多个部位的复杂动作便捷的生成图像块序列，从而有利于提高行为识别的易用性。

在一个可选示例中，本公开根据第一特征向量，确定目标对象的行为所属的行为类型的一个例子如图8所示。

图8中，S800、对于图像块序列中的任一图像块，根据该图像块的第一特征向量，确定目标对象的行为分别为多个第一预设行为的置信度，获得多个第一置信度。

可选的，本公开可以通过用于行为分类的第三神经网络对每一个图像块的第一特征向量分别进行运算处理，基于该第三神经网络的运算结果，获得每一图像块各自对应多个置信度。例如，第一预设行为包括n3(n3为大于1的整数)个行为(即第一预设行为的数量为n3，例如，抽烟行为、疑似抽烟行为以及非抽烟行为，这3个行为)，本公开可以利用第三神经网络的运算结果，获得每一图像块各自对应的n3个置信度，且一图像块对应的n3个置信度为一组置信度。本公开中的第三神经网络通常和第二神经网络结合起来，一起进行训练。

可选的，本公开中的多个第一预设行为中的至少一第一预设行为属于第一行为类型，且多个第一预设行为中的至少一第一预设行为属于第二行为类型。在一例子中，在多个第一预设行为的数量为3，且这3个第一预设行为分别为：抽烟行为、疑似抽烟行为以及非抽烟行为时，疑似抽烟行为属于第一行为类型，而抽烟行为和非抽烟行为属于第二行为类型。在另一例子中，在多个第一预设行为的数量为3，且这3个第一预设行为分别为：打电话行为、疑似打电话行为以及非打电话行为时，疑似打电话行为属于第一行为类型，而打电话行为和非打电话行为属于第二行为类型。

S801、根据图像块序列中的各图像块各自对应的多个第一置信度和第一预设行为对应的第一阈值，确定目标对象的行为所属的行为类型。

可选的，本公开可以对各图像块各自对应的多个置信度进行计算处理，从而获得图像块序列对应的多个置信度(如n3个置信度)。本公开可以判断图像块序列对应的多个置信度和第一阈值之间的大小关系是否满足预定条件，并根据判断结果确定多个视频帧中的目标对象的行为，从而确定目标对象的行为所属的行为类型。

在一个例子中，本公开可以对图像块序列中的各图像块各自对应的多个第一置信度(如n4×n3个第一置信度，n4为大于1的整数，n4为图像块序列所包含的图像块的数量)中的同一第一预设行为的第一置信度(如n4个第一置信度)进行均值计算，获得各第一预设行为各自对应的第一置信度均值(如n3个第一置信度均值)，之后，本公开根据各第一预设行为(如n3个第一预设行为)各自对应的第一置信度均值以及多个第一预设行为各自对应的第一阈值，确定目标对象的行为，从而获得目标对象的行为所属的行为类型。

更具体的，针对任一第一预设行为而言，计算各图像块各自对应的多个第一置信度中的所有该第一预设行为的第一置信度的均值，从而获得该第一预设行为的第一置信度均值，该第一置信度均值表示多个视频帧中的目标对象的行为属于该第一预设行为的概率。在针对每一第一预设行为分别进行第一置信度均值计算后，本公开可以从所有第一置信度均值(如n3个第一置信度均值)中选取数值最高的第一置信度均值，并判断该数值最高的第一置信度均值与一第一阈值(如0.75或0.7等)的大小关系是否满足预定条件(如判断数值最高的第一置信度均值是否达到该数值最高的第一置信度均值所对应的第一预设行为对应的第一阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的行为为该数值最高的第一置信度均值所对应的第一预设行为；如果不满足预定条件，则可以判断数值次高的第一置信度均值与另一第一阈值的大小关系是否满足预定条件(如判断数值次高的第一置信度均值是否达到该数值次高的第一置信度均值所对应的第一预设行为对应的第一阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的行为为该数值次高的第一置信度均值所对应的第一预设行为，以此类推，如果所有第一置信度均值均与相应的第一阈值的大小关系均未满足预定条件，则本次未成功识别出多个视频帧中的目标对象的行为。

在另一个例子中，本公开可以根据图像块序列中的各图像块各自对应的权值(即各视频帧各自对应的权值)，对图像块序列中的各图像块各自对应的多个第一置信度(如n4×n3个第一置信度，n4为大于1的整数，且n4为图像块序列所包含的图像块的数量)中的同一第一预设行为的第一置信度(如n4个第一置信度)分别进行加权平均计算处理，从而获得各第一预设行为各自对应的第一置信度加权值(共n3个第一置信度加权值)，之后，本公开根据各第一预设行为(如n3个第一预设行为)各自对应的第一置信度加权值以及多个第一预设行为各自对应的第一阈值，确定目标对象的行为，从而获得目标对象的行为所属的行为类型。

更具体的，针对任一第一预设行为而言，计算各图像块各自对应的多个第一置信度中的所有该第一预设行为的第一置信度的加权平均值，从而获得该第一预设行为的第一置信度加权值，该第一置信度加权值表示多个视频帧中的目标对象的行为属于该第一预设行为的概率。在针对每一第一预设行为分别进行第一置信度加权平均计算后，本公开可以从所有第一置信度加权值(如n3个第一置信度加权值)中选取数值最高的第一置信度加权值，并判断该数值最高的第一置信度加权值与一第一阈值(如0.75或0.7等)的大小关系是否满足预定条件(如判断数值最高的第一置信度加权值是否达到该数值最高的第一置信度加权值所对应的第一预设行为对应的第一阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的行为为该数值最高的第一置信度加权值所对应的第一预设行为；如果不满足预定条件，则可以判断数值次高的第一置信度加权值与另一第一阈值的大小关系是否满足预定条件(如判断数值次高的第一置信度加权值是否达到该数值次高的第一置信度加权值所对应的第一预设行为对应的第一阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的行为为该数值次高的第一置信度加权值所对应的第一预设行为，以此类推，如果所有第一置信度加权值均与相应的第一阈值的大小关系均不满足预定条件，则本次未成功识别出多个视频帧中的目标对象的行为。

可选的，各视频帧各自对应的权值可以根据各视频帧的采集时间设置，一个例子，采集时间在先的视频帧对应的权值不小于采集时间在后的视频帧对应的权值。由于人的行为有时是在开始阶段表现的较为强烈，且在后续阶段行为表现会逐渐减弱，因此，本公开通过根据各视频帧的采集时间设置各视频帧各自对应的权值，实际上是基于行为随时间的衰减来设置各视频帧各自对应的权值，从而有利于提高本公开最终确定出的各第一预设行为各自对应的置信度的准确性。另外，在设置各视频帧各自对应的权值时，也可以考虑视频帧的图像清晰程度、以及视频帧中的目标对象的人脸偏转程度等因素，从而有利于避免清晰度不佳的视频帧或者大角度偏转的面部对最终确定出的各第一预设行为各自对应的多个第一置信度的准确性的影响。

本公开通过利用多个图像块各自对应的多个置信度，确定多个视频帧中的目标对象的行为，可以实现对多个视频帧中的目标对象的行为的平滑处理，从而不仅有利于避免利用单个视频帧确定目标对象的行为的不准确现象，而且，还有利于避免行为识别跳变现象，进而有利于提高目标对象的行为识别的准确性。

在一个可选示例中，如果目标对象的行为所属的行为类型符合第二行为类型，则本公开可以将与第一阈值的大小关系满足预定条件的第一置信度(如第一置信度均值或者第一置信度加权值)所对应的第一预设行为，作为目标对象的行为。也就是说，如果属于第二行为类型的一第一预设行为的第一置信度和该第一预设行为所对应的第一阈值之间的大小关系满足预定条件，则识别出目标对象的行为为该第一预设行为。

可选的，本公开中的第二行为类型可以是指能够非常肯定的确定出目标对象的行为为一特定行为(如危险行为等需要被识别出的行为)的类型。第二行为类型可以称为确定预定行为类型(如确定危险行为类型等)。在通常情况下，本公开中的第二行为类型可以包括：多个第一预设行为。例如，第二行为类型可以包括：抽烟行为和非抽烟行为。再例如，第二行为类型可以包括：打电话行为和非打电话行为等。

一个更具体的例子，假设存在3个第一预设行为，分别为：抽烟行为、疑似抽烟行为以及非抽烟行为，其中的抽烟行为和非抽烟行为属于第二行为类型，如果本公开针对上述3个第一预设行为最终获得的三个置信度分别为：0.8、0.1和0.1，则由于0.8达到抽烟行为对应的第一阈值(如0.75或者0.7等)，则本公开可以确定多个视频帧中的目标对象的行为为抽烟行为。

本公开提供的技术方案可以将抽烟行为或者打电话行为等需要被识别出的特定行为的第一阈值设置的略高，从而可以尽可能的减少危险行为等需要被识别出的特定行为的误报现象；由于本公开在识别目标对象的行为的过程中，采用了级联行为识别方式，且级联行为识别方式可以弥补第一阈值设置的略高所带来的特定行为漏识别现象，因此，本公开有效降低了阈值的设置难度，从而有利于提高行为识别的易用性。

在一个可选示例中，本公开根据对图像块序列进行第二预设行为的行为识别处理的结果，确定目标对象的行为的一个例子如图9所示。

图9中，S900、对图像块序列进行基于第二预设行为的特征向量提取处理，获得图像块序列对应的第二特征向量。

可选的，本公开中的基于第二预设行为的特征向量提取处理是一种特征向量提取方式，且该特征向量提取方式是一种以为了识别出第二预设行为为目的而设置的特征向量提取方式。例如，本公开可以利用神经网络实现特征向量提取处理，本公开可以利用具有第二预设行为标注信息的训练样本来训练神经网络，在对神经网络成功训练后，获得该神经网络的网络参数，使用该网络参数的神经网络所执行的特征向量提取处理，即为基于第二预设行为的特征向量提取处理。

本公开利用神经网络对图像块序列进行基于第二预设行为的特征向量提取处理的过程的一个例子可以为：通过用于提取特征的第四神经网络对图像块序列中的每一图像块分别进行运算处理，并根据该第四神经网络的运算处理结果，获得图像块序列中的每一图像块各自的特征向量(如由用于描述目标部位特征的多个向量元素所形成的一维数组)，所有图像块的特征向量即为图像块序列对应的第二特征向量。

本公开中的第四神经网络可以为卷积神经网络等，例如，第四神经网络同样可以包括VargNet。第四神经网络和第二神经网络可以具有相同的网络结构，但是，通常具有不同的网络参数。本公开可以利用一个第四神经网络获得各图像块的特征向量，也可以利用多个第四神经网络同时获得各图像块的特征向量。多个第四神经网络通常具有相同的网络结构以及相同的网络参数。

S901、对于图像块序列中的任一图像块，根据该图像块的第二特征向量，确定目标对象的行为分别为至少两个第二预设行为的置信度，获得至少两个第二置信度。

可选的，本公开可以先后通过用于行为分类的第五神经网络对每一个图像块的第一特征向量分别进行运算处理，并根据该第五神经网络的运算结果，获得每一个图像块各自对应多个第二置信度。例如，第二预设行为包括n5(n5为大于1的整数)个行为(即第二预设行为的数量为n5，例如，使用吸管行为和非使用吸管行为，这两个第二预设行为；再例如，使用即时消息行为和非使用即时消息行为，这两个第二预设行为)，每一个图像块对应的n5个第二置信度为一组第二置信度。

可选的，第五神经网络和第三神经网络可以具有相同的网络结构，但是通常具有不同的网络参数。第五神经网络和第三神经网络通常均包括至少一用于分类的层(如全连接层等)。另外，第五神经网络通常和第四神经网络结合起来，一起进行训练。

在一个可选示例中，对于任一图像块而言，本公开不仅可以利用该图像块的第二特征向量，确定目标对象的行为分别为至少两个第二预设行为的第二置信度，还可以利用该图像块的第二特征向量和第一置信度(如该图像块对应的第一置信度，再如，图像块序列对应的第一置信度)，确定目标对象的行为分别为至少两个第二预设行为的置信度。

在一个例子中，首先，对于图像块序列中的任一图像块而言，本公开可以对该图像块对应的多个第一置信度和该图像块的第二特征向量进行融合处理(如利用编码器对该图像块对应的多个第一置信度进行编码处理，并对编码结果和第二特征向量进行拼接处理)，从而获得该图像块的融合特征向量。其次，本公开可以通过第五神经网络对各图像块的融合特征向量分别进行运算处理，并根据第五神经网络的运算结果，获得每一个图像块中的目标对象的行为分别为至少两个第二预设行为的置信度，即获得每一个图像块各自对应的至少两个第二置信度。

在另一个例子中，首先，本公开可以将图像块序列对应的多个第一置信度与图像序列中的各图像块的第二特征向量分别进行融合处理(如利用编码器对图像块序列对应的多个第一置信度进行编码处理，并对编码结果和各图像块的第二特征向量分别进行拼接处理)，从而获得各图像块的融合特征向量。其次，本公开可以通过第五神经网络对各图像块的融合特征向量分别进行运算处理，并根据第五神经网络的运算结果，获得各图像块中的目标对象的行为分别为至少两个第二预设行为的置信度，即获得各图像块各自对应的至少两个第二置信度。

本公开通过将第一置信度与第二特征向量进行融合处理，有利于使第五神经网络的运算处理过程获得更为全面的信息，从而有利于提高第五神经网络运算结果的准确性，即有利于提高行为分类的准确性。

S902、根据图像块序列中的各图像块各自对应的至少两个第二置信度、以及至少两个第二预设行为各自对应的第二阈值，确定目标对象的行为。

可选的，本公开可以对各图像块各自对应的多个第二置信度进行相应的计算处理，从而获得图像块序列对应的多个第二置信度(如n5个置信度)。本公开可以判断图像块序列对应的多个第二置信度和第二阈值之间的大小关系是否满足预定条件，并根据判断结果确定多个视频帧中的目标对象的行为。例如，假设第二预设行为包括：第一行为(如使用吸管行为或者使用即时消息行为等)和第二行为(如非使用吸管行为或者非使用即时消息行为等)，如果图像块序列中的各图像块各自对应的至少两个第二置信度和所述多个第二预设行为中的第一行为对应的第二阈值满足第一预设条件，则确定目标对象的行为为第一行为。如果图像块序列中的各图像块各自对应的至少两个第二置信度和多个第二预设行为中的第二行为对应的第二阈值满足第二预设条件，则确定目标对象的行为为多个第一预设行为中的一特定行为，如抽烟行为或者打电话行为。

本公开在识别出目标对象的行为不是第一行为时，可以明确获知目标对象的行为并不是疑似特定行为(如疑似抽烟行为或者疑似打电话行为等)，此时，目标对象的行为最有可能是第一预设行为中的特定行为(如抽烟行为或者打电话行为等)，因此，本公开通过第二级行为识别的结果，来确定目标对象的行为，有利于提高行为识别的准确性。

在一个例子中，本公开可以对图像块序列中的各图像块各自对应的多个第二置信度(如n5×n4个第二置信度，n5为大于1的整数，n4为图像块序列所包含的图像块的数量)中的同一第二预设行为的第二置信度(如n4个第二置信度)进行均值计算，获得各第二预设行为各自对应的第二置信度均值(如n5个第二置信度均值)，之后，本公开根据各第二预设行为(如n5个第二预设行为)各自对应的第二置信度均值以及多个第二预设行为各自对应的第二阈值，确定目标对象的行为。

更具体的，针对任一第二预设行为而言，计算各图像块各自对应的多个第二置信度中的所有该第二预设行为的第二置信度的均值，从而获得该第二预设行为的第二置信度均值，该第二置信度均值表示多个视频帧中的目标对象的行为属于该第二预设行为的概率。在针对每一第二预设行为分别进行第二置信度均值计算后，本公开可以从所有第二置信度均值(如n5个第二置信度均值)中选取数值最高的第二置信度均值，并判断该数值最高的第二置信度均值与一第二阈值(如0.75或0.7等)的大小关系是否满足预定条件(如判断数值最高的第二置信度均值是否达到该数值最高的第二置信度均值所对应的第二预设行为对应的第二阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的行为为该数值最高的第二置信度均值所对应的第二预设行为；如果不满足预定条件，则可以判断数值次高的第二置信度均值与另一第二阈值的大小关系是否满足预定条件(如判断数值次高的第二置信度均值是否达到该数值次高的第二置信度均值所对应的第二预设行为对应的第二阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的行为为该数值次高的第二置信度均值所对应的第二预设行为，以此类推，如果所有第二置信度均值均与相应的第二阈值的大小关系均未满足预定条件，则本次未成功识别出多个视频帧中的目标对象的行为。

在另一个例子中，本公开可以根据图像块序列中的各图像块各自对应的权值(即各视频帧各自对应的权值)，对图像块序列中的各图像块各自对应的多个第二置信度(如n5×n4个第一置信度，n5为大于1的整数，且n4为图像块序列所包含的图像块的数量)中的同一第二预设行为的第二置信度(如n4个第二置信度)分别进行加权平均计算处理，从而获得各第二预设行为各自对应的第二置信度加权值(共n3个第一置信度加权值)，之后，本公开根据各第二预设行为(如n5个第二预设行为)各自对应的第二置信度加权值以及各第二预设行为各自对应的第二阈值，确定目标对象的行为。

更具体的，针对任一第二预设行为而言，计算各图像块各自对应的多个第二置信度中的所有该第二预设行为的第二置信度的加权平均值，从而获得该第二预设行为的第二置信度加权值，该第二置信度加权值表示多个视频帧中的目标对象的行为属于该第二预设行为的概率。在针对每一第二预设行为分别进行第二置信度加权平均计算后，本公开可以从所有第二置信度加权值(如n5个第二置信度加权值)中选取数值最高的第二置信度加权值，并判断该数值最高的第二置信度加权值与一第二阈值(如0.75或0.7等)的大小关系是否满足预定条件(如判断数值最高的第二置信度加权值是否达到该数值最高的第二置信度加权值所对应的第二预设行为对应的第二阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的行为为该数值最高的第二置信度加权值所对应的第二预设行为；如果不满足预定条件，则可以判断数值次高的第二置信度加权值与另一第二阈值的大小关系是否满足预定条件(如判断数值次高的第二置信度加权值是否达到该数值次高的第二置信度加权值所对应的第二预设行为对应的第二阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的行为为该数值次高的第二置信度加权值所对应的第二预设行为，以此类推，如果所有第二置信度加权值均与相应的第二阈值的大小关系均不满足预定条件，则本次未成功识别出多个视频帧中的目标对象的行为。各视频帧各自对应的权值的设置方式可以参考上述实施例中的相关描述，在此不再详细说明。

本公开通过利用多个图像块各自对应的多个第二置信度，确定多个视频帧中的目标对象的行为，可以实现对多个视频帧中的目标对象的行为的平滑处理，从而不仅有利于避免利用单个视频帧确定目标对象的行为的不准确现象，而且，还有利于避免行为识别跳变现象，进而有利于提高行为识别的准确性。

示例性装置

图10为本公开的行为识别装置一个实施例的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例。

如图10所示的装置包括：获取序列模块1000、获取特征向量模块1001、确定行为类型模块1002以及级联识别模块1003。该装置还可以可选的包括：行为识别模块1004。

获取序列模块1000用于从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的目标部位的图像块序列。

获取特征向量模块1001用于对获取序列模块10000获取到的图像块序列进行基于第一预设行为的特征向量提取处理，获得图像块序列对应的第一特征向量。

确定行为类型模块1002用于根据获取特征向量模块1001获得的第一特征向量，确定目标对象的行为所属的行为类型。

级联识别模块1003用于若确定行为类型模块1002确定出的目标对象的行为所属的行为类型符合第一行为类型，则根据对图像块序列进行第二预设行为的行为识别处理的结果，确定目标对象的行为。

可选的，获取序列模块1000可以包括：第一子模块10001、第二子模块10002以及第三子模块10003。其中的第一子模块10001用于对于从设置于移动设备中的摄像装置采集获得的多个视频帧中的任一视频帧，获取该视频帧中的包含有目标对象的至少一目标部位的图像区域，获得至少一图像区域。其中的第二子模块10002用于根据第一子模块10001获得的至少一图像区域，确定该视频帧的目标区域。其中的第三子模块10003用于根据第二子模块10002确定出的该视频帧的目标区域，获得该视频帧的包含有目标对象的目标部位的图像块。

可选的，确定行为类型模块1002可以包括：第四子模块10021以及第五子模块10022。其中的第四子模块10021可以用于对于图像块序列中的任一图像块而言，根据获取特征向量模块1001获得的该图像块的第一特征向量，确定目标对象的行为分别为多个第一预设行为的置信度，获得多个第一置信度。其中的第五子模块10022用于根据图像块序列中的各图像块各自对应的多个第一置信度和多个第一预设行为对应的第一阈值，确定目标对象的行为所属的行为类型。其中的多个第一预设行为中的至少一第一预设行为属于第一行为类型，且多个第一预设行为中的至少一第一预设行为属于第二行为类型。

可选的，第五子模块10022可以进一步用于对图像块序列中的各图像块各自对应的多个第一置信度中的同一第一预设行为的第一置信度分别进行均值计算，获得多个第一预设行为各自对应的第一置信度均值，根据多个第一预设行为各自对应的第一置信度均值以及所述多个第一预设行为各自对应的第一阈值，确定所述目标对象的行为所属的行为类型。

可选的，第五子模块10022可以进一步用于根据图像块序列中的各图像块各自对应的权值，对各图像块各自对应的多个第一置信度中的同一第一预设行为的第一置信度进行加权平均计算，获得多个第一预设行为各自对应的第一置信度加权值，根据多个第一预设行为各自对应的第一置信度加权值以及多个第一预设行为各自对应的第一阈值，确定目标对象的行为所属的行为类型。其中，采集时间在后的视频帧中的图像块对应的权值，不高于采集时间在先的视频帧中的图像块对应的权值。

可选的，行为识别模块1004用于若确定行为类型模块1002确定出的目标对象的行为所属的行为类型符合第二行为类型，将与第一阈值的大小关系满足预定条件的第一置信度所对应的第一预设行为，作为目标对象的行为。

可选的，级联识别模块1003包括：第六子模块10031、第七子模块10032以及第八子模块10033。其中的第六子模块10031用于对图像块序列进行基于第二预设行为的特征向量提取处理，获得图像块序列对应的第二特征向量。其中的第七子模块10032用于对于图像块序列中的任一图像块，根据该图像块的第二特征向量，确定目标对象的行为分别为至少两个第二预设行为的置信度，获得至少两个第二置信度。其中的第八子模块10033用于根据图像块序列中的各图像块各自对应的至少两个第二置信度、以及至少两个第二预设行为各自对应的第二阈值，确定目标对象的行为。

可选的，第七子模块10032进一步用于对于图像块序列中的任一图像块，对该图像块对应的多个第一置信度和该图像块的第二特征向量进行融合处理，获得该图像块的融合特征向量；并根据图像块序列中的各图像块的融合特征向量，确定目标对象的行为分别为至少两个第二预设行为的置信度，获得至少两个第二置信度。

可选的，第八子模块10033进一步用于若图像块序列中的各图像块各自对应的至少两个第二置信度和所述多个第二预设行为中的第一行为对应的第二阈值满足第一预设条件，则确定目标对象的行为为第一行为，若图像块序列中的各图像块各自对应的至少两个第二置信度和所述多个第二预设行为中的第二行为对应的第二阈值满足第二预设条件，则确定所述目标对象的行为为多个第一预设行为中的一第一预设行为。

示例性电子设备

下面参考图11来描述根据本公开实施例的电子设备。图11示出了根据本公开实施例的电子设备的框图。如图11所示，电子设备111包括一个或多个处理器1111和存储器1112。

处理器1111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备111中的其他组件以执行期望的功能。

存储器1112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1111可以运行所述程序指令，以实现上文所述的本公开的各个实施例的行为识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备111还可以包括：输入装置1113以及输出装置1114等，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。此外，该输入设备1113还可以包括例如键盘、鼠标等等。该输出装置1114可以向外部输出各种信息。该输出设备1114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备111中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备111还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的行为识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的行为识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及***。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种行为识别方法，包括：

从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的目标部位的图像块序列；

对所述图像块序列进行基于第一预设行为的特征向量提取处理，获得所述图像块序列对应的第一特征向量；

根据所述第一特征向量，确定所述目标对象的行为所属的行为类型；

若所述目标对象的行为所属的行为类型符合第一行为类型，则根据对所述图像块序列进行第二预设行为的行为识别处理的结果，确定所述目标对象的行为。

2.根据权利要求1所述的方法，其中，所述从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的目标部位的图像块序列，包括：

对于从设置于移动设备中的摄像装置采集获得的多个视频帧中的任一视频帧，获取该视频帧中的包含有目标对象的至少一目标部位的图像区域，获得至少一图像区域；

根据所述至少一图像区域，确定该视频帧的目标区域；

根据该视频帧的目标区域，获得该视频帧的包含有目标对象的目标部位的图像块。

3.根据权利要求1或2所述的方法，其中，所述根据所述第一特征向量，确定所述目标对象的行为所属的行为类型，包括：

对于所述图像块序列中的任一图像块，根据该图像块的第一特征向量，确定所述目标对象的行为分别为多个第一预设行为的置信度，获得多个第一置信度；

根据所述图像块序列中的各图像块各自对应的多个第一置信度和所述多个第一预设行为对应的第一阈值，确定所述目标对象的行为所属的行为类型；

其中，所述多个第一预设行为中的至少一第一预设行为属于第一行为类型，所述多个第一预设行为中的至少一第一预设行为属于第二行为类型。

4.根据权利要求3所述的方法，其中，所述根据所述图像块序列中的各图像块各自对应的多个第一置信度和所述多个第一预设行为各自对应的第一阈值，确定所述目标对象的行为所属的行为类型，包括：

对所述图像块序列中的各图像块各自对应的多个第一置信度中的同一第一预设行为的第一置信度分别进行均值计算，获得所述多个第一预设行为各自对应的第一置信度均值，根据所述多个第一预设行为各自对应的第一置信度均值以及所述多个第一预设行为各自对应的第一阈值，确定所述目标对象的行为所属的行为类型；

或者

根据所述图像块序列中的各图像块各自对应的权值，对所述各图像块各自对应的多个第一置信度中的同一第一预设行为的第一置信度进行加权平均计算，获得所述多个第一预设行为各自对应的第一置信度加权值，根据所述多个第一预设行为各自对应的第一置信度加权值以及所述多个第一预设行为各自对应的第一阈值，确定所述目标对象的行为所属的行为类型；

其中，采集时间在后的视频帧中的图像块对应的权值，不高于采集时间在先的视频帧中的图像块对应的权值。

5.根据权利要求3或4所述的方法，其中，所述方法还包括：

若所述目标对象的行为所属的行为类型符合第二行为类型，将与所述第一阈值的大小关系满足预定条件的第一置信度所对应的第一预设行为，作为所述目标对象的行为。

6.根据权利要求3至5任一项所述的方法，其中，所述根据对所述图像块序列进行第二预设行为的行为识别处理的结果，确定所述目标对象的行为，包括：

对所述图像块序列进行基于第二预设行为的特征向量提取处理，获得所述图像块序列对应的第二特征向量；

对于所述图像块序列中的任一图像块，根据该图像块的第二特征向量，确定所述目标对象的行为分别为至少两个第二预设行为的置信度，获得至少两个第二置信度；

根据所述图像块序列中的各图像块各自对应的至少两个第二置信度、以及所述至少两个第二预设行为各自对应的第二阈值，确定所述目标对象的行为。

7.根据权利要求6所述的方法，其中，所述对于所述图像块序列中的任一图像块，根据该图像块的第二特征向量，确定所述目标对象的行为分别为至少两个第二预设行为的置信度，获得至少两个第二置信度，包括：

对于所述图像块序列中的任一图像块，对该图像块对应的多个第一置信度和该图像块的第二特征向量进行融合处理，获得该图像块的融合特征向量；

根据所述图像块序列中的各图像块的融合特征向量，确定所述目标对象的行为分别为至少两个第二预设行为的置信度，获得至少两个第二置信度。

8.一种行为识别装置，包括：

获取序列模块，用于从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的目标部位的图像块序列；

获取特征向量模块，用于对所述获取序列模块获取到的图像块序列进行基于第一预设行为的特征向量提取处理，获得所述图像块序列对应的第一特征向量；

确定行为类型模块，用于根据所述获取特征向量模块获得的第一特征向量，确定所述目标对象的行为所属的行为类型；

级联识别模块，用于若所述确定行为类型模块确定出的所述目标对象的行为所属的行为类型符合第一行为类型，则根据对所述图像块序列进行第二预设行为的行为识别处理的结果，确定所述目标对象的行为。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7中任一项所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7中任一项所述的方法。