CN111783515A

CN111783515A - 行为动作识别的方法和装置

Info

Publication number: CN111783515A
Application number: CN202010192234.6A
Authority: CN
Inventors: 左鑫孟; 赖荣凤; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-10-16

Abstract

本发明公开了行为动作识别的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：从待检测样本中提取用于检测目标行为动作的目标区域图像；基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果；根据每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作。该实施方式既能够提高行为动作识别的精确性，又能够提高应用的泛化能力。

Description

行为动作识别的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种行为动作识别的方法和装置。

背景技术

吸烟有危害，不仅仅危害人体健康，还会对社会产生不良的影响。现有技术中在识别吸烟喝酒动作时，往往借助红外或者可穿戴设备，或者通过识别口部区域判断是否存在吸烟喝酒动作。前者的泛化能力弱，应用场景有限；后者的精确性较低。

发明内容

有鉴于此，本发明实施例提供一种行为动作识别的方法和装置，既能够提高行为动作识别的精确性，又能够提高应用的泛化能力。

为实现上述目的，根据本发明实施例的一个方面，提供了一种行为动作识别的方法，包括：

从待检测样本中提取用于检测目标行为动作的目标区域图像；

基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果；

根据每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作。

可选地，从待检测样本中提取用于检测目标行为动作的目标区域图像，包括：

基于预训练的关键点检测模型，确定所述待检测样本中的多个人体关键点的位置信息；

根据所述多个人体关键点的位置信息确定所述待检测样本中的目标区域，根据所述目标区域从所述待检测样本中裁剪所述目标区域图像。

可选地，根据所述目标区域从所述待检测样本中裁剪所述目标区域图像，包括：

从所述待检测样本中裁剪包含所述目标区域的预设形状的图像，作为所述目标区域图像。

可选地，所述预设形状为：矩形或圆形。

可选地，所述待检测样本包括多帧样本图像；

所述基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果之后，还包括：判断每帧样本图像对应的每个所述目标区域图像的识别结果是否满足预设过滤规则；若是，则将该帧样本图像对应的每个所述目标区域图像的识别结果滤除。

可选地，根据每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作，包括：

判断所有多帧样本图像对应的所有目标区域图像的识别结果是否全部被滤除；

若是，则判定所述待检测样本中不存在所述目标行为动作；否则，依据滤除后各个所述样本图像的对应的每个所述目标区域图像的识别结果，基于预设的第一判定规则确定所述待检测样本中是否存在所述目标行为动作。

可选地，所述待检测样本为单帧样本图像；

所述基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果之后，还包括：判断所述单帧样本图像对应的每个所述目标区域图像的识别结果是否满足预设过滤规则；若是，则将所述单帧样本图像对应的每个所述目标区域图像的识别结果滤除；

根据每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作，包括：

判断所述单帧样本图像对应的每个目标区域图像的识别结果是否被滤除；

若是，则基于预设的第二判定规则确定所述待检测样本中是否存在所述目标行为动作；否则，依据所述单帧样本图像对应的每个目标区域图像的识别结果，基于预设的第一判定规则确定所述待检测样本中是否存在所述目标行为动作。

可选地，所述目标行为动作包括：第一行为动作和/或第二行为动作；所述识别结果包括：表明目标区域图像中存在第一行为动作的第一识别结果、表明目标区域图像中存在第二行为动作的第二识别结果、以及表明目标区域图像中不存在第一行为动作和第二行为动作的第三识别结果；所述目标区域图像包括：嘴部区域图像、左手区域图像和右手区域图像；

所述预设过滤规则包括以下至少之一：

嘴部区域图像、左手区域图像和右手区域图像的识别结果均为第一识别结果或第二识别结果；

左手区域图像和右手区域图像的识别结果均为第一识别结果或第二识别结果。

第一判定规则包括：

若嘴部区域图像、左手区域图像和右手区域图像的识别结果均为第三识别结果，则判定所述待检测样本中不存在所述目标行为动作；

若左手区域图像和右手区域图像中其中一个的识别结果为第一识别结果、其中另一个的识别结果为第三识别结果，且嘴部区域图像的识别结果为第三识别结果，则判定所述待检测样本中仅存在第一行为动作；

若左手区域图像和右手区域图像中其中一个的识别结果为第二识别结果、其中另一个的识别结果为第三识别结果，且嘴部区域图像的识别结果为第三识别结果，则判定所述待检测样本中仅存在第二行为动作；

若左手区域图像和右手区域图像中其中一个的识别结果为第一识别结果、其中另一个的识别结果为第二识别结果，且嘴部区域图像的识别结果为第三识别结果，则判定所述待检测样本中存在第一行为动作和第二行为动作；

若左手区域图像和右手区域图像中其中一个的识别结果为第一识别结果、其中另一个的识别结果为第三识别结果，且嘴部区域图像的识别结果为第二识别结果，则判定所述待检测样本中存在第一行为动作和第二行为动作；

若左手区域图像和右手区域图像中其中一个的识别结果为第二识别结果、其中另一个的识别结果为第三识别结果，且嘴部区域图像的识别结果为第一识别结果，则判定所述待检测样本中存在第一行为动作和第二行为动作。

根据本发明实施例的第二方面，提供一种行为动作识别的装置，包括：

图像提取模块，从待检测样本中提取用于检测目标行为动作的目标区域图像；

图像识别模块，基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果；

动作识别模块，根据每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作。

可选地，所述图像提取模块从待检测样本中提取用于检测目标行为动作的目标区域图像，包括：

可选地，所述图像提取模块根据所述目标区域从所述待检测样本中裁剪所述目标区域图像，包括：

可选地，所述预设形状为：矩形或圆形。

可选地，所述待检测样本包括多帧样本图像；

所述动作识别模块还用于：在所述图像识别模块基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果之后，判断每帧样本图像对应的每个所述目标区域图像的识别结果是否满足预设过滤规则；若是，则将该帧样本图像对应的每个所述目标区域图像的识别结果滤除。

可选地，所述动作识别模块根据每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作，包括：

可选地，所述待检测样本为单帧样本图像；

所述动作识别模块还用于：在所述图像识别模块基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果之后，判断所述单帧样本图像对应的每个所述目标区域图像的识别结果是否满足预设过滤规则；若是，则将所述单帧样本图像对应的每个所述目标区域图像的识别结果滤除；

所述预设过滤规则包括以下至少之一：

第一判定规则包括：

根据本发明实施例的第三方面，提供一种行为动作识别的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。

根据本发明实施例的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例第一方面提供的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过从待检测样本中提取目标区域图像，能够更快更准确地定位到动作特征部分；通过基于预训练的目标行为识别模型确定每个目标区域图像的识别结果，并根据每个目标区域图像的识别结果确定待检测样本中是否存在目标行为动作，既能够提高行为动作识别的精确性，又能够提高应用的泛化能力。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例的行为动作识别的方法的主要流程的示意图；

图2是本发明可选实施例中人体关键点检测结果的示意图；

图3是本发明实施例的行为动作识别的装置的主要模块的示意图；

图4是本发明实施例可以应用于其中的示例性***架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本发明实施例的一个方面，提供了一种行为动作识别的方法。

图1是本发明实施例的行为动作识别的方法的主要流程的示意图，如图1所示，行为动作识别的方法，包括：步骤S101、步骤S102和步骤S103。

步骤S101、从待检测样本中提取用于检测目标行为动作的目标区域图像。

待检测样本可以是包含多针样本图像的视频流，例如实时采集的监控录像。待检测样本也可以是单帧样本图像，例如新闻图片、广告海报、电商网站中商品详情页中的图片等。

目标行为动作是指需要识别的行为动作，其具体内容可以根据实际情况进行选择性设定。例如，目标行为动作为吸烟、喝酒、玩手机、攀爬、打开车门等。

目标区域图像是指从待检测样本中提取的用于检测目标行为动作的图像。目标区域图像可以根据实际情况进行选择性设定。示例性地，目标行为动作为吸烟或喝酒时，目标区域图像可以是左手或右手区域图像、嘴部区域图像等；目标行为动作为玩手机时，目标区域图像为左右或右手区域图像等；目标行为动作为攀爬时，目标区域图像为左右区域图像和左右腿区域图像等。

从待检测样本中提取用于检测目标行为动作的目标区域图像的方式可以根据实际情况进行选择性设定，只要能够提取出需要的目标区域图像即可。例如，确定待检测样本中人物的头部位置之后，将距离该头部位置预设距离的区域图像裁剪下来作为嘴部区域图像；确定待检测样本中任务的肩膀位置之后，将距离该肩膀位置预设距离的区域图像裁剪下来作为手部区域图像。

可选地，从待检测样本中提取用于检测目标行为动作的目标区域图像，包括：基于预训练的关键点检测模型，确定待检测样本中的多个人体关键点的位置信息；根据多个人体关键点的位置信息确定待检测样本中的目标区域，根据目标区域从待检测样本中裁剪目标区域图像。

关键点检测模型用于检测多个人体关键点。实际应用过程中，可以仅检测出目标区域图像中包含的各个关键点的位置信息，也可以检测出更多关键点的位置信息。示例性地，检测模型检出的关键点共计18个，如图2所示，分别为：0鼻子，1脖子，2左肩，3左肘，4左腕，5右肩，6右肘，7右腕，8左髋，9左膝，10左踝，11右髋，12右膝，13右踝，14左眼，15右眼，16左耳，17右耳。由于在训练关键点检测模型过程中对人体的各个关键点回归拟合往往是需要彼此关联的，通过检测出更多关键点的位置信息，一方面能够提高检测出的后续步骤所需各个关键点的位置信息的鲁棒性，另一方面也能够提高关键点检测模型的扩展性。

根据人体关键点的位置信息可以确定待检测样本中的目标区域。示例性地，根据左腕关键点的位置信息可以确定左手区域，根据脖子关键点和鼻子关键点的位置信息可以确定嘴部区域。嘴部区域通常较小，与直接以嘴部作为关键点直接检测嘴部区域相比，由于脖子关键点和鼻子关键点的检测结果通常较为稳定，采用脖子关键点和鼻子关键点的位置信息确定嘴部区域，能够避免由于嘴部区域面积较低而导致的无法识别或者识别结果准确性差，提高结果的精确性。

可选地，根据目标区域从待检测样本中裁剪目标区域图像，包括：从待检测样本中裁剪包含目标区域的预设形状的图像，作为目标区域图像。预设形状可以根据实际情况进行选择性设定，例如预设形状为：矩形或圆形或其他多边形等。通常情况下，由于大部分图片采用矩形方式展示，因此预设形状可以设置为矩形。矩形区域的大小可以根据实际情况进行选择性设定，一般矩形单边像素大于等于8，单边像素小于8的图像分辨率过低，识别效果较为一般。当待检测样本中目标区域图像的尺寸较小时，可以对图像进行超分放大，但是这种操作方式容易增加目标行为动作识别的时间消耗。鉴于此，在训练目标行为识别模型时，可以考虑到不同的尺寸输入进行训练，以增加模型的泛化能力。

步骤S102、基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果。

目标行为识别模型用于识别目标区域图像中是否存在目标行为动作，可以用于识别一种目标行为动作，也可以用于识别多种目标行为动作。当目标行为动作为一个时，识别结果可以是存在该目标行为动作或者不存在该目标行为动作。当目标行为动作为多个时，例如吸烟和喝酒，识别结果可以为：存在吸烟动作、存在喝酒动作、正常(即既不存在吸烟动作也不存在喝酒动作)。

目标行为识别模型的主干网络可以是SeNet(Squeeze-and-Excitatio nNetworks，一种网络结构)。以目标行为动作为吸烟和喝酒为例，目标行为识别模型的输出为三大类别，即吸烟、喝酒及正常类别。其中吸烟类别的训练数据包括嘴部、左腕、右腕中含有烟的图片，喝酒类别的训练数据包括嘴部、左腕、右腕中含有酒瓶、酒杯的图片，正常类别的训练数据则为除以上目标样本外的其他数据，其中包含一部分困难样本，如左腕、右腕中含有手机、笔类、水杯的相似物，或是嘴部叼着铅笔或钢笔类的东西的图片。通过从待检测样本中提取目标区域图像，能够更快更准确地定位到动作特征部分；通过基于预训练的目标行为识别模型确定每个目标区域图像的识别结果，并根据每个目标区域图像的识别结果确定待检测样本中是否存在目标行为动作，既能够提高行为动作识别的精确性，又能够提高应用的泛化能力。

在一些实施例中，待检测样本包括多帧样本图像。基于预训练的目标行为识别模型确定每个目标区域图像的识别结果之后，还包括：判断每帧样本图像对应的每个目标区域图像的识别结果是否满足预设过滤规则；若是，则将该帧样本图像对应的每个目标区域图像的识别结果滤除。

示例性地，待检测样本包括三帧样本图像，第一帧图像对应的各个目标区域图像的识别结果满足预设过滤规则，第二帧和第三帧图像对应的各个目标区域图像的识别结果不满足预设过滤规则，则将第一帧图像对应的每个目标区域图像的识别结果滤除，以第二帧和第三帧图像对应的各个目标区域图像的识别结果确定待检测样本中是否存在目标行为动作。通过滤除操作，能够提高识别结果的精准性。

可选地，待检测样本为单帧样本图像。基于预训练的目标行为识别模型确定每个目标区域图像的识别结果之后，还包括：判断单帧样本图像对应的每个目标区域图像的识别结果是否满足预设过滤规则；若是，则将单帧样本图像对应的每个目标区域图像的识别结果滤除。通过滤除操作，能够提高识别结果的精准性。

预设过滤规则可以根据实际情况进行选择性设定，例如将不符合常理的识别结果滤除，或者将不符合应用场景需求的识别结果滤除等。可选地，目标行为动作包括：第一行为动作和/或第二行为动作；识别结果包括：表明目标区域图像中存在第一行为动作的第一识别结果、表明目标区域图像中存在第二行为动作的第二识别结果、以及表明目标区域图像中不存在第一行为动作和第二行为动作的第三识别结果；目标区域图像包括：嘴部区域图像、左手区域图像和右手区域图像。预设过滤规则包括以下至少之一：嘴部区域图像、左手区域图像和右手区域图像的识别结果均为第一识别结果或第二识别结果；左手区域图像和右手区域图像的识别结果均为第一识别结果或第二识别结果。

第一行为动作和第二行为动作可以根据实际情况进行选择性设定。示例性地，第一行为动作为吸烟、第二行为动作为喝酒。当嘴部区域图像、左手区域图像和右手区域图像的识别结果均为存在吸烟动作或喝酒动作时，将对应样本图像对应的各个目标区域图像的识别结果滤除。

实际应用过程中，手部区域图像和嘴部区域图像的识别结果可能同时出现目标行为动作，例如左手区域图像和右手区域图像中其中一个的识别结果为第一识别结果、嘴部区域图像的识别结果为第一识别结果，再例如左手区域图像和右手区域图像中其中一个的识别结果为第二识别结果、嘴部区域图像的识别结果为第二识别结果。为了提高对目标行为动作的识别结果的召回率，可以不将满足上述条件的样本图像对应的识别结果滤除。可选地，预设过滤规则还可以包括以下至少之一：左手区域图像和右手区域图像中其中一个的识别结果为第一识别结果、嘴部区域图像的识别结果为第一识别结果，左手区域图像和右手区域图像中其中一个的识别结果为第二识别结果、嘴部区域图像的识别结果为第二识别结果。手部区域图像和嘴部区域图像同时出现目标行为动作的概率通常较小，通过将满足上述条件的样本图像对应的识别结果滤除，能够避免过度识别，提高对目标行为动作识别的精准性。

在实际应用过程中，预设过滤规则还包括：将分值小于等于预设阈值的识别结果滤除。示例性地，目标行为识别模型确定每个目标区域图像的识别结果的同时，还输出每个识别结果的可信度得分(例如识别结果为当前输出结果的概率)，当可信度得分小于等于预设阈值时，判定识别结果不可信，将该识别结果滤除。如此，能够提高基于识别结果确定待检测样本中是否存在目标行为动作的精准性。

步骤S103、根据每个目标区域图像的识别结果，确定待检测样本中是否存在目标行为动作。

若待检测样本包括多帧样本图像、且在步骤S102之后执行过滤操作，则根据过滤后的识别结果确定待检测样本中是否存在目标行为动作。可选地，根据每个目标区域图像的识别结果，确定待检测样本中是否存在目标行为动作，包括：判断所有多帧样本图像对应的所有目标区域图像的识别结果是否全部被滤除；若是，则判定待检测样本中不存在目标行为动作；否则，依据滤除后各个样本图像的对应的每个目标区域图像的识别结果，基于预设的第一判定规则确定待检测样本中是否存在目标行为动作。

根据滤除后的识别结果确定待检测样本中是否存在目标行为动作，能够提高识别结果的精准性。

若待检测样本包括单帧样本图像、且在步骤S102之后执行过滤操作，则根据每个目标区域图像的识别结果，确定待检测样本中是否存在目标行为动作，包括：判断单帧样本图像对应的每个目标区域图像的识别结果是否被滤除；若是，则基于预设的第二判定规则确定待检测样本中是否存在目标行为动作；否则，依据单帧样本图像对应的每个目标区域图像的识别结果，基于预设的第一判定规则确定待检测样本中是否存在目标行为动作。

第一判定规则和第二判定规则可以根据实际情况进行选择性设定。根据滤除后的识别结果确定待检测样本中是否存在目标行为动作，能够提高识别结果的精准性。

可选地，目标行为动作包括：第一行为动作和/或第二行为动作；识别结果包括：表明目标区域图像中存在第一行为动作的第一识别结果、表明目标区域图像中存在第二行为动作的第二识别结果、以及表明目标区域图像中不存在第一行为动作和第二行为动作的第三识别结果；目标区域图像包括：嘴部区域图像、左手区域图像和右手区域图像。第一判定规则包括：若嘴部区域图像、左手区域图像和右手区域图像的识别结果均为第三识别结果，则判定待检测样本中不存在目标行为动作；若左手区域图像和右手区域图像中其中一个的识别结果为第一识别结果、其中另一个的识别结果为第三识别结果，且嘴部区域图像的识别结果为第三识别结果，则判定待检测样本中仅存在第一行为动作；若左手区域图像和右手区域图像中其中一个的识别结果为第二识别结果、其中另一个的识别结果为第三识别结果，且嘴部区域图像的识别结果为第三识别结果，则判定待检测样本中仅存在第二行为动作；若左手区域图像和右手区域图像中其中一个的识别结果为第一识别结果、其中另一个的识别结果为第二识别结果，且嘴部区域图像的识别结果为第三识别结果，则判定待检测样本中存在第一行为动作和第二行为动作；若左手区域图像和右手区域图像中其中一个的识别结果为第一识别结果、其中另一个的识别结果为第三识别结果，且嘴部区域图像的识别结果为第二识别结果，则判定待检测样本中存在第一行为动作和第二行为动作；若左手区域图像和右手区域图像中其中一个的识别结果为第二识别结果、其中另一个的识别结果为第三识别结果，且嘴部区域图像的识别结果为第一识别结果，则判定待检测样本中存在第一行为动作和第二行为动作。

第一行为动作和第二行为动作可以根据实际情况进行选择性设定。示例性地，第一行为动作为吸烟、第二行为动作为喝酒。

在一些实施例中，第二判定规则为：当单帧样本图像对应的每个目标区域图像的识别结果全部被滤除时，判定待检测样本中不存在目标行为动作。如此，能够提高行为动作识别的精准性。

在另一些实施例中，第二判定规则为：当单帧样本图像对应的每个目标区域图像的识别结果全部被滤除时，判定待检测样本中存在目标行为动作。如此，能够提高对待检测样本的召回率。

与直接检测待检测样本中是否存在目标行为特征的方式相比，本发明实施例通过从待检测样本中提取目标区域图像，能够更快更准确地定位到动作特征部分，无需单独训练检测模型。

直接检测待检测样本中是否存在目标行为动作对应的物体(例如，嘴部区域存在高亮区域时判定待检测样本中存在吸烟动作，手部区域存在酒瓶图像时判定待检测样本中存在喝酒动作)的方式无法预测待检测样本中的目标行为动作，只能单纯的对潜在的物体进行检测，容易出现漏检情况，精准性低。本发明实施例通过预训练的目标行为识别模型确定每个目标区域图像的识别结果，并根据每个目标区域图像的识别结果确定待检测样本中是否存在目标行为动作，能够提高行为动作识别的精确性。本发明实施例能够精准、实时检测不良行为发生情况，有效地提高对不良行为管理的效果，净化网络空气，减少不良示范效应。

此外，本发明实施例无需依赖红外、可穿戴设备等，应用的泛化能力好。

根据本发明实施例的第二方面，提供一种实现上述方法的装置。

图3是本发明实施例的行为动作识别的装置的主要模块的示意图，如图3所示，行为动作识别的装置300包括：

图像提取模块301检测样本中提取用于检测目标行为动作的目标区域图像；

图像识别模块302预训练的目标行为识别模型确定每个所述目标区域图像的识别结果；

动作识别模块303每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作。

可选地，所述预设形状为：矩形或圆形。

可选地，所述待检测样本包括多帧样本图像；

可选地，所述待检测样本为单帧样本图像；

所述预设过滤规则包括以下至少之一：

第一判定规则包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

图4示出了可以应用本发明实施例的行为动作识别的方法或行为动作识别的装置的示例性***架构400。

如图4所示，***架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的视频上传请求等数据进行分析等处理，并将处理结果(例如上传成功信息、待上传视频中因存在吸烟动作不能上传等信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的行为动作识别的方法一般由服务器405执行，相应地，行为动作识别的装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机***500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机***500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括：图像提取模块，从待检测样本中提取用于检测目标行为动作的目标区域图像；图像识别模块，基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果；动作识别模块，根据每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，图像提取模块还可以被描述为“基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：从待检测样本中提取用于检测目标行为动作的目标区域图像；基于预训练的目标行为识别模型确定每个所述目标区域图像的识别结果；根据每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作。

根据本发明实施例的技术方案，通过从待检测样本中提取目标区域图像，能够更快更准确地定位到动作特征部分；通过基于预训练的目标行为识别模型确定每个目标区域图像的识别结果，并根据每个目标区域图像的识别结果确定待检测样本中是否存在目标行为动作，既能够提高行为动作识别的精确性，又能够提高应用的泛化能力。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种行为动作识别的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，从待检测样本中提取用于检测目标行为动作的目标区域图像，包括：

3.如权利要求1所述的方法，其特征在于，所述待检测样本包括多帧样本图像；

4.如权利要求3所述的方法，其特征在于，根据每个所述目标区域图像的识别结果，确定所述待检测样本中是否存在所述目标行为动作，包括：

5.如权利要求1所述的方法，其特征在于，所述待检测样本为单帧样本图像；

6.如权利要求3或5所述的方法，其特征在于，所述目标行为动作包括：第一行为动作和/或第二行为动作；所述识别结果包括：表明目标区域图像中存在第一行为动作的第一识别结果、表明目标区域图像中存在第二行为动作的第二识别结果、以及表明目标区域图像中不存在第一行为动作和第二行为动作的第三识别结果；所述目标区域图像包括：嘴部区域图像、左手区域图像和右手区域图像；

所述预设过滤规则包括以下至少之一：

7.如权利要求4或5所述的方法，其特征在于，所述目标行为动作包括：第一行为动作和/或第二行为动作；所述识别结果包括：表明目标区域图像中存在第一行为动作的第一识别结果、表明目标区域图像中存在第二行为动作的第二识别结果、以及表明目标区域图像中不存在第一行为动作和第二行为动作的第三识别结果；所述目标区域图像包括：嘴部区域图像、左手区域图像和右手区域图像；

第一判定规则包括：

8.一种行为动作识别的装置，其特征在于，包括：

9.一种行为动作识别的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。