CN110956060A

CN110956060A - 动作识别、驾驶动作分析方法和装置及电子设备

Info

Publication number: CN110956060A
Application number: CN201811130798.6A
Authority: CN
Inventors: 陈彦杰; 王飞; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-04-03
Also published as: JP2021517312A; JP7061685B2; US20210012127A1; KR102470680B1; KR20200124280A; SG11202009320PA; WO2020063753A1

Abstract

本申请公开了一种动作识别方法及装置。该方法包括：提取包括有人脸的图像的特征；基于所述特征提取可能包括预定动作的多个候选框；基于多个所述候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；基于所述动作目标框进行预定动作的分类，获得动作识别结果。还公开了相应的装置。本申请可实现对精细动作的识别。

Description

动作识别、驾驶动作分析方法和装置及电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种动作识别、驾驶动作分析方法和装置、电子设备和存储介质。

背景技术

动作识别技术在近几年成为了非常热门的应用研究方向，在很多领域和产品上都可以见到这项技术的身影，采用这种技术也是未来人机交互的发展趋势，尤其在驾驶员监控领域有着广泛的应用前景。

目前，动作识别主要通过以下两种方式实现：1、基于视频的时序特征；2、基于人体关键点的检测进行估计。基于视频的时序特征，一般是通过光流完成的，但光流计算耗时、时间复杂度高。基于人体关键点或人体姿态估计通常无法识别较为精细的动作类别。

发明内容

本申请提供了一种动作识别技术方案和驾驶动作分析技术方案。

第一方面，提供了一种动作识别方法，包括：提取包括有人脸的图像的特征；基于所述特征提取可能包括预定动作的多个候选框；基于多个所述候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；基于所述动作目标框进行预定动作的分类，获得动作识别结果。

在一种可能实现的方式中，所述人脸局部区域，包括以下至少之一：嘴部区域，耳部区域，眼部区域。

在另一种可能实现的方式中，所述动作交互物，包括以下至少之一：容器、烟、手机、食物、工具、饮料瓶、眼镜、口罩。

在另一种可能实现的方式中，所述动作目标框还包括：手部区域。

在另一种可能实现的方式中，所述预定动作包括以下至少之一：打电话、抽烟、喝水/饮料、进食、使用工具、戴眼镜、化妆。

在另一种可能实现的方式中，所述动作识别方法还包括：经车载摄像头拍摄位于车内的人的包括有人脸的图像。

在另一种可能实现的方式中，所述车内的人包括以下至少之一：所述车的驾驶区的驾驶员，所述车的副驾驶区的人，所述车的后排座椅上的人。

在又一种可能实现的方式中，所述车载摄像头为：RGB摄像头、红外摄像头或近红外摄像头。

在又一种可能实现的方式中，所述提取包括有人脸的图像的特征，包括：经神经网络的特征提取分支提取包括有人脸的图像的特征，获得特征图。

在又一种可能实现的方式中，所述基于所述特征提取可能包括预定动作的多个候选框，包括：经所述神经网络的候选框提取分支在所述特征图上提取可能包括预定动作的多个候选框。

在又一种可能实现的方式中，所述经所述神经网络的候选框提取分支在所述特征图上提取可能包括预定动作的多个候选框，包括：根据所述预定动作的特征对所述特征图中的特征进行划分，获得多个候选区域；根据所述多个候选区域，获得所述多个候选框和所述多个候选框的第一置信度，其中，所述第一置信度为所述候选框为所述动作目标框的概率。

在又一种可能实现的方式中，所述基于多个所述候选框确定动作目标框，包括：经所述神经网络的检测框精修分支基于多个所述候选框确定动作目标框。

在又一种可能实现的方式中，所述经所述神经网络的检测框精修分支基于多个所述候选框确定动作目标框，包括：将所述第一置信度小于第一阈值的所述候选框去除，获得多个第一候选框；池化处理所述多个第一候选框，获得多个第二候选框；根据所述多个第二候选框，确定所述一个或多个动作目标框。

在又一种可能实现的方式中，所述池化处理所述多个第一候选框，获得多个第二候选框，包括：池化处理所述多个第一候选框，获得多个与所述多个第一候选框对应的第一特征区域；基于所述多个第一特征区域对所述多个第一候选框的位置和大小进行调整，获得所述多个第二候选框。

在又一种可能实现的方式中，所述基于所述多个第一特征区域对所述多个第一候选框的位置和大小进行调整，获得所述多个第二候选框，包括：基于所述第一特征区域中的所述预定动作的特征，获得与所述预定动作的特征对应的第一动作特征框；根据所述第一动作特征框的几何中心坐标，获得所述多个第一候选框的第一位置偏移量；根据所述第一动作特征框的大小，获得所述多个第一候选框的第一缩放倍数；根据所述多个第一位置偏移量和所述多个第一缩放倍数对所述多个第二候选框的位置和大小进行调整，获得所述多个第二候选框。

在又一种可能实现的方式中，所述基于所述动作目标框进行预定动作的分类，包括：经所述神经网络的动作分类分支获取所述特征图上与所述动作目标框对应的区域图，并基于区域图进行预定动作的分类，获得动作识别结果。

在又一种可能实现的方式中，所述神经网络为基于训练图像集预先监督训练而得，所述训练图像集包括多个样本图像，其中，所述样本图像的标注信息包括：动作监督框和所述动作监督框对应的动作类别。

在又一种可能实现的方式中，所述样本图像集包括正样本图像和负样本图像，所述负样本图像的动作与所述正样本图像的动作相似，所述正样本的动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物。

在又一种可能实现的方式中，所述正样本图像的动作包括打电话，所述负样本图像包括：扰耳朵；和/或，所述正样本图像包括抽烟、进食或喝水，所述负样本图像包括张嘴或手搭着嘴唇的动作。

在又一种可能实现的方式中，所述神经网络的训练方法包括：提取包括样本图像的第一特征图；提取第一特征图可能包括预定动作的多个第三候选框；基于多个第三候选框确定动作目标框；基于所述动作目标框进行预定动作的分类，获得第一动作识别结果；确定所述样本图像的候选框的检测结果和检测框标注信息的第一损失、以及动作识别结果和动作类别标注信息的第二损失；根据所述第一损失和所述第二损失调节所述神经网络的网络参数。

在又一种可能实现的方式中，所述基于多个第三候选框确定动作目标框，包括：根据所述预定动作，获得第一动作监督框，其中所述第一动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物；获取所述多个第三候选框的第二置信度，其中，所述第二置信度包括：所述第四候选框为所述动作目标框的第一概率，所述第三候选框非所述动作目标框的第二概率；确定所述多个第三候选框与所述第一动作监督框的面积重合度；若所述面积重合度大于或等于第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第一概率；若所述面积重合度小于所述第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第二概率；将所述第二置信度小于所述第一阈值的所述多个第三候选框去除，获得多个第四候选框；调整所述第四候选框的位置和大小，获得所述动作目标框。

第二方面，提供了一种驾驶动作分析方法，包括：经车载摄像头采集包括有驾驶员人脸图像的视频流；通过所述动作识别方法的任意一种实现方式，获取所述视频流中至少一帧图像的动作识别结果；响应于动作识别结果满足预定条件，生成分心或危险驾驶提示信息。

在一种可能实现的方式中，所述预定条件包括以下至少之一：出现预定动作；在预定时长内出现预定动作的次数；所述视频流中预定动作出现维持的时长。

在另一种可能实现的方式中，所述方法还包括：获取设置有车载双摄像头的车辆的车速；响应于动作识别结果满足预定条件，生成分心或危险驾驶提示信息，包括：响应于所述车速大于设定阈值且所述动作识别结果满足所述预定条件，生成分心或危险驾驶提示信息。

第三方面，提供了一种动作识别装置，包括：第一提取单元，用于提取包括有人脸的图像的特征；第二提取单元，用于基于所述特征提取可能包括预定动作的多个候选框；确定单元，用于基于多个所述候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；分类单元，用于基于所述动作目标框进行预定动作的分类，获得动作识别结果。

在另一种可能实现的方式中，所述动作识别装置还包括：

车载摄像头，用于拍摄位于车内的人的包括有人脸的图像。

在又一种可能实现的方式中，其特征在于，所述第一提取单元包括：神经网络的特征提取分支，用于提取包括有人脸的图像的特征，获得特征图。

在又一种可能实现的方式中，包括：所述神经网络的候选框提取分支，用于在所述特征图上提取可能包括预定动作的多个候选框。

在又一种可能实现的方式中，所述候选框提取分支，包括：划分子单元，用于根据所述预定动作的特征对所述特征图中的特征进行划分，获得多个候选区域；第一获取子单元，用于根据所述多个候选区域，获得所述多个候选框和所述多个候选框的第一置信度，其中，所述第一置信度为所述候选框为所述动作目标框的概率。

在又一种可能实现的方式中，所述确定单元，包括：所述神经网络的检测框精修分支，用于基于多个所述候选框确定动作目标框。

在又一种可能实现的方式中，所述检测框精修分支，包括：去除子单元，用于将所述第一置信度小于第一阈值的所述候选框去除，获得多个第一候选框；第二获取子单元，用于池化处理所述多个第一候选框，获得多个第二候选框；第一确定子单元，用于根据所述多个第二候选框，确定所述一个或多个动作目标框。

在又一种可能实现的方式中，所述第二获取子单元还用于：池化处理所述多个第一候选框，获得多个与所述多个第一候选框对应的第一特征区域；以及基于所述多个第一特征区域对所述多个第一候选框的位置和大小进行调整，获得所述多个第二候选框。

在又一种可能实现的方式中，所述第二获取子单元还用于：基于所述第一特征区域中的所述预定动作的特征，获得与所述预定动作的特征对应的第一动作特征框；以及根据所述第一动作特征框的几何中心坐标，获得所述多个第一候选框的第一位置偏移量；以及根据所述第一动作特征框的大小，获得所述多个第一候选框的第一缩放倍数；以及根据所述多个第一位置偏移量和所述多个第一缩放倍数对所述多个第二候选框的位置和大小进行调整，获得所述多个第二候选框。

在又一种可能实现的方式中，所述分类单元，包括：所述神经网络的动作分类分支，用于获取所述特征图上与所述动作目标框对应的区域图，并基于区域图进行预定动作的分类，获得动作识别结果。

在又一种可能实现的方式中，所述神经网络的训练装置包括：第一提取单元，用于提取包括样本图像的第一特征图；第二提取单元，用于提取第一特征图可能包括预定动作的多个第三候选框；第二确定单元，用于基于多个第三候选框确定动作目标框；第三获取单元，用于基于所述动作目标框进行预定动作的分类，获得第一动作识别结果；第三确定单元，用于确定所述样本图像的候选框的检测结果和检测框标注信息的第一损失、以及动作识别结果和动作类别标注信息的第二损失；调节单元，用于根据所述第一损失和所述第二损失调节所述神经网络的网络参数。

在又一种可能实现的方式中，所述第一确定单元还包括：第一获取子单元，用于根据所述预定动作，获得第一动作监督框，其中所述第一动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物；第二获取子单元，用于获取所述多个第三候选框的第二置信度，其中，所述第二置信度包括：所述第四候选框为所述动作目标框的第一概率，所述第三候选框非所述动作目标框的第二概率；确定子单元，用于确定所述多个第三候选框与所述第一动作监督框的面积重合度；选取子单元，用于若所述面积重合度大于或等于第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第一概率；若所述面积重合度小于所述第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第二概率；去除子单元，用于将所述第二置信度小于所述第一阈值的所述多个第三候选框去除，获得多个第四候选框；调整子单元，用于调整所述第四候选框的位置和大小，获得所述动作目标框。

第四方面，提供了一种驾驶动作分析装置，包括：车载摄像头，用于采集包括有驾驶员人脸图像的视频流；获取单元，用于通过所述动作识别装置中的任意一种实现方式，获取所述视频流中至少一帧图像的动作识别结果；生成单元，用于响应于动作识别结果满足预定条件，生成分心或危险驾驶提示信息。

在另一种可能实现的方式中，所述装置还包括：获取子单元，用于获取设置有车载双摄像头的车辆的车速；所述生成单元还用于：响应于所述车速大于设定阈值且所述动作识别结果满足所述预定条件，生成分心或危险驾驶提示信息。

第五方面，提供了一种动作识别装置，包括：包括处理器、存储器；所述处理器被配置为支持所述装置执行上述第一方面及其任一种可能的实现方式的方法中相应的功能。存储器用于与处理器耦合，其保存所述装置必要的程序(指令)和数据。可选的，所述装置还可以包括输入/输出接口，用于支持所述装置与其他装置之间的通信。

第六方面，提供了一种驾驶动作分析装置，包括：包括处理器、存储器；所述处理器被配置为支持所述装置执行上述第一方面及其任一种可能的实现方式的方法中相应的功能。存储器用于与处理器耦合，其保存所述装置必要的程序(指令)和数据。可选的，所述装置还可以包括输入/输出接口，用于支持所述装置与其他装置之间的通信。

第七方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面及其任一种可能的实现方式的方法。

第八方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面及其任一种可能的实现方式的方法。

本申请实施例通过提取人脸的图像的特征，基于所述特征提取可能包括预定动作的多个候选框，基于多个所述候选框确定动作目标框，再基于多个候选框获得动作目标框，并依据动作目标框对应的图像特征进行预定动作的分类，得到动作识别结果。由于本申请实施例中所述动作目标框包括人脸的局部区域和动作交互物，因此，在基于动作目标框对动作进行分类过程中，是将人脸的局部区域和动作交互物等动作的组成部分作为一个整体进行考虑，而不是割裂人体部位和动作交互的对象，并基于该整体的特征进行分类，因此可实现对精细动作的识别，特别是对人脸区域或人脸附近区域的精细动作的识别，提高识别的精度。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种动作识别方法的流程示意图；

图2为本申请实施例提供的一种目标动作框示意图；

图3为本申请实施例提供的另一种动作识别方法的流程示意图；

图4为本申请实施例提供的一种包含与预定动作相似的动作的负样本图像示意图；

图5为本申请实施例提供的一种神经网络的训练方法的流程示意图；

图6为本申请实施例提供的一种喝水的动作监督框示意图；

图7为本申请实施例提供的一种打电话的动作监督框示意图；

图8为本申请实施例提供的一种动作识别装置的结构示意图；

图9为本申请实施例提供的一种神经网络的训练装置的结构示意图；

图10为本申请实施例提供的一种驾驶动作分析装置的结构示意图；

图11为本申请实施例提供的一种动作识别装置的硬件结构示意图；

图12为本申请实施例提供的一种神经网络的训练装置的硬件结构示意图；

图13为本申请实施例提供的一种驾驶动作分析装置的硬件结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1是本申请实施例提供的一种动作识别方法的流程示意图。

101、提取包括有人脸的图像的特征。

本申请主要针对汽车驾驶员在驾驶汽车时所做的一些危险驾驶动作进行识别，并根据识别结果对驾驶员给出提醒，而这些危险驾驶动作均是与手、人脸有关的精细动作，这些动作的识别无法通过对人体关键点的检测或人体姿态的估计实现。本申请通过对待处理图像进行卷积操作提取出特征，并根据提取到的特征实现待处理图像中动作的识别。上述危险驾驶动作的特征为：手和/或人脸局部区域、动作交互物，因此，需通过车载摄像头对驾驶员进行实时拍摄，并获取包括有人脸的待处理图像。再对待处理图像进行卷积操作，提取出动作特征。

102、基于上述特征提取可能包括预定动作的多个候选框。

首先对上述危险驾驶动作的特征进行定义，神经网络再根据定义的特征和提取到的待处理图像的特征，实现对待处理图像中是否存在危险驾驶动作的判断。本实施例中的第一神经网络均是训练好的，即经第一神经网络可将待处理图像中的预定动作的特征提取出来。

若上述提取的特征有：手、人脸局部区域、动作交互物，第一神经网络会将同时包含手、人脸局部区域和动作交互物的特征区域划分出来，获得一个候选区域，再用一个矩形框将该区域框出，同理，还将用另一个矩形框将同时包含手、人脸局部区域和另一个动作交互物的特征区域框出。这样，根据上述预定动作的特征对上述特征进行划分，获得一个或多个候选区域，再根据一个或多个候选区域，即可获得上述多个候选框。

103、基于多个上述候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物。

本申请实施例识别的动作均为与人脸有关的精细动作，这类精细动作的识别无法通过对人体关键点的检测实现，而这类精细动作都至少包括人脸的局部区域和动作交互物这二个特征，例如包括人脸的局部区域和动作交互物这二个特征，或者，包括人脸的局部区域、动作交互物以及手这三个特征，等等，因此，通过识别由候选框得到的动作目标框内的特征即可实现对这类精细动作的识别。例如，如图2所示的目标动作框内包括：人脸的局部区域、手机(即动作交互物)以及手。又例如，对于抽烟动作，目标动作框内也可能包括：嘴部区域，烟(即动作交互物)。

由于候选框的位置和大小与目标动作框的位置和大小之间存在偏差，如：候选框中可能包含除预定动作的特征之外的特征，或没有将预定动作的所有特征(指任意一个预定动作的所有特征)完全包含，显然，这都会影响最终的识别结果。因此，为保证最终识别结果的精度，需要对候选框的位置进行调整。如图2所示，可根据候选框的预定动作的特征的位置和大小，得到候选框的位置偏移量和缩放倍数，再根据位置偏移量和缩放倍数调整候选框的位置和大小，实现对多个候选框的精修，完成对候选框的位置的调整，获得动作目标框。

104、基于上述动作目标框进行预定动作的分类，获得动作识别结果。

根据本申请实施例提供的一种基于物体检测的动作识别方法，通过对动作特征的提取，得到可能包括预定动作的多个候选框，再基于多个候选框获得动作目标框。由于本申请实施例中所述动作目标框包括人脸的局部区域和动作交互物，因此，在基于动作目标框对动作进行分类过程中，是将人脸的局部区域和动作交互物等动作的组成部分作为一个整体进行考虑，而不是割裂人体部位和动作交互的对象，并基于该整体的特征进行分类，因此可实现对精细动作的识别，特别是对人脸区域或人脸附近区域的精细动作的识别，提高识别的准确度和/或精度。

请参阅图3，图3是本申请实施例提供的另一种动作识别方法的流程示意图。

301、获取待处理图像。

本申请实施例主要针对汽车驾驶员在驾驶汽车时所做的一些危险驾驶动作进行识别，并根据识别结果对驾驶员给出提醒。因此，通过车载摄像头对驾驶员进行拍摄，获得包括有人脸的图像，并将其作为待处理图像进行处理。可选的，可通过车载摄像头对驾驶员进行拍照获取待处理图像，也可通过车载摄像头对驾驶员进行视频拍摄，并以拍摄的视频的每一帧画面作为待处理图像。上述车载摄像头为：RGB摄像头、红外摄像头或近红外摄像头。

RGB摄像头由三根不同的线缆给出了三个基本彩色成分，这种类型的摄像头通常是用三个独立的CCD传感器来获取三种彩色信号，RGB摄像头经常被用来做非常精确的彩色图像采集。

现实环境的光线复杂，汽车内的光线复杂程度更甚，而光照强度会直接影响摄像头的拍摄质量，尤其是当车内光照强度较低时，普通的摄像头无法拍摄清晰的照片或视频，使图像或视频丢失一部分有用的信息，进而影响后续基于待处理图像实现的处理。红外摄像头可向被拍摄的物体发射红外光线，再根据红外线反射的光线进行成像，可解决普通摄像头在暗光或黑暗条件下拍摄的图像质量较低或无法正常拍摄的问题。

302、经神经网络的特征提取分支提取包括有人脸的图像的特征，获得特征图。

通过神经网络的特征提取分支对待处理图像进行卷积操作从待处理图像中提取特征。具体地，对待处理图像做卷积操作，利用卷积核在待处理图像上滑动，将图像点上的像素灰度值与对应的卷积核上的数值相乘，然后将所有相乘后的值的和作为卷积核中间像素对应的图像上像素的灰度值，最终滑动处理完待处理图像中的所有图像点，并提取出特征。需要理解的是，第一神经网络包含多层卷积层，上一层卷积层提取到的特征将作为下一层卷积操作的输入，卷积层数越多，所提取出的特征信息就越丰富，最终提取的特征的准确率也就越高。通过神经网络的特征提取分支对待处理图像逐级进行卷积操作，即可获得一张与原图像相对应的特征图。

303、经上述神经网络的候选框提取分支在上述特征图上提取可能包括预定动作的多个候选框。

如上所述，危险驾驶动作均是与手、人脸有关的精细动作，这些动作的识别无法通过对人体关键点的检测或人体姿态的估计实现，本申请首先对上述危险驾驶动作的特征进行定义，神经网络再根据定义的特征和提取到的待处理图像的特征，实现对待处理图像中是否存在危险驾驶动作的判断。具体的，上述危险驾驶动作包括：喝水/饮料、抽烟、打电话、戴眼镜、戴口罩、化妆、使用工具、进食。喝水的动作特征包括：手、人脸局部区域、水杯；抽烟的动作特征包括：手、人脸局部区域、烟；打电话的动作特征包括：手、人脸局部区域、手机，戴眼镜的动作特征包括：手、人脸局部区域、眼镜；戴口罩的动作特征包括：手、人脸局部区域、口罩。

本实施例中所指的神经网络的特征提取分支均是训练好的，即第一神经网络会自动将待处理图像中的预定动作的特征提取出来，具体包括：手、烟、水杯、手机、眼镜、口罩、人脸局部区域。需要理解的是，虽然神经网络的特征提取分支已经是预先训练好的，但在提取待处理图像的特征时，也可能会提取出上述预定动作的特征之外的特征，如：神经网络的特征提取分支可能会将待处理图像中的花或草判断为手。

如：特征图中的特征有：手、水杯、手机、人脸局部区域，神经网络的候选框提取分支会自动将同时包含手、手机、人脸局部区域的特征区域从第一特征图中划分出来，获得一个候选区域，再用一个矩形框将该区域框出，同理，还将用另一个矩形框将同时包含手、水杯、人脸局部区域的特征区域框出。这样，根据上述预定动作的特征对上述特征图中的特征进行划分，获得多个候选区域，再根据一个或多个候选区域，即可获得上述多个候选框。

神经网络的候选框提取分支在提取出候选框的同时会以数值的形式给出该候选框为目标动作框的概率，即该候选框的第一置信度，这样，在获得一个或多个候选框的同时，还将获得多个候选框的第一置信度。需要理解的是，第一置信度为神经网络的候选框提取分支根据候选框中的特征给出的候选框为目标动作框的一个预测值。

304、将第一置信度小于第一阈值的上述候选框去除，获得多个第一候选框。

由于在获得候选框的过程中，一些与预定动作很相似的动作会给神经网络的候选框提取分支带来很大的干扰。如：图4中从左至右，依次做了与打电话、喝水和抽烟相似的动作，即将右手分别放置在脸旁，但此时手里并没手机、水杯和烟，而神经网络的候选框提取分支易误将这些动作识别为打电话、喝水和抽烟，并分别获得一个与之相应的候选框。驾驶员在驾驶汽车的过程中，会因为如：耳部区域瘙痒的原因而做挠耳朵的动作、也会因为其他原因做张嘴或手搭着嘴唇的动作，显然，这些动作并不属于危险驾驶动作，但这些动作会给神经网络的候选框提取分支在提取候选框时带来很大的干扰，进而影响后续对动作的分类，并造成误检测。

本申请通过对神经网络的候选框提取分支进行训练(训练过程具体参见神经网络的训练方法的实施例)，使其能高效的区分候选框中相似动作的候选框，进而降低误检测率，并大大提高分类结果的准确率。具体的，通过将上述候选框的第一置信度与第一阈值相比较，若该第一候选框的第一置信度小于第一阈值，视该候选框为相似动作的候选框，并将该候选框去除，这样，在将所有第一置信度小于第一阈值的候选框去除后，即可获得多个第一候选框。可选的，上述第一阈值可取0.5。

305、池化处理上述多个第一候选框，获得多个第二候选框。

第一候选框是通过对待处理图像进行处理得到的，且第一候选框的数量非常多，若直接用第一候选框中的特征去做分类将产生巨大的计算量，因此，在对第一候选框进行后续处理之前，先池化处理第一候选框，将第一候选框中的特征的维度降低到一个目标大小，以满足后续处理的需要，同时能大大减小后续处理的计算量。同303中获得候选区域一样，根据预定动作的特征对上述池化处理后的特征进行划分，获得多个第一特征区域。

池化处理的具体实现过程可参见下例：假设第一候选框中的动作特征的大小为h*w，当我们想要得到获得的特征的目标大小为H*W时，可将该目标动作特征划分成H*W个格子，这样，每一个格子的大小为(h/H)*(w/W)，然后计算每一个格子中目标动作特征的平均值或最大值，即可得到获得目标大小的特征图像。

306、基于上述第一特征区域中的预定动作的特征，获得与预定动作的特征对应的第一动作特征框。

经过305的池化处理，将待处理图像中的预定动作的特征以低维度的形式呈现于第一特征区域，为方便后续处理，将第一特征区域中的每一个预定动作的特征分别用一个对应的矩形框围起来，获得第一动作特征框。

307、根据上述第一动作特征框的几何中心坐标，获得上述多个第一候选框的第一位置偏移量。

获取上述第一动作特征框在坐标系XOY下的几何中心坐标，训练后的神经网络的检测框精修分支(训练过程具体参见神经网络的训练方法的实施例)再根据几何中心坐标给出上述第一候选框的第一位置偏移量。其中，每一个第一候选框都有一个相应的第一位置偏移，第一位置偏移包括X轴方向的位置偏移量和Y轴方向的偏移量，坐标系XOY为以第一特征区域的左上角(以输入神经网络的候选框精修分支的方位为准)为原点，水平向右为X轴的正方向，竖直向下为Y轴的正方向。

308、根据上述第一动作特征框的大小，获得上述多个第一候选框的第一缩放倍数。

获取上述第一动作特征框的长和宽，训练后的神经网络的检测框精修分支(训练过程具体参见神经网络的训练方法的实施例)再根据第一动作特征框的长和宽给出上述第一候选框的第一缩放倍数。其中，每一个第一候选框都有一个相应的第一缩放倍数。

307和308中，神经网络的检测框精修分支根据第一动作特征框给出第一位置偏移量和第一缩放倍数的能力，均是通过实际应用前的训练获得的。

309、根据上述第一位置偏移量和所述第一缩放倍数对上述多个第一候选框的位置和大小进行调整，获得多个第二候选框。

将第一候选框按上述第一位置偏移量进行移动，同时将第一候选框以几何中心为中心对其大小进行第一缩放倍数的缩放，获得第二候选框。需要理解的是，第二候选框的数量与第一候选框的数量一致。

305～309为本申请对第一候选框的进行精修的过程：由于第一候选框的位置和大小与目标动作框的位置和大小之间存在偏差，由于第一候选框中可能包含除预定动作的特征之外的特征，或没有将预定动作的所有特征(指任意一个预定动作的所有特征)完全包含。通过移动第一候选框的位置和缩放第一候选框的大小，实现对第一候选框的精修，而精修后得到的第二候选框将以尽可能小的大小包含预定动作的所有特征，有利于提高分类结果的精度。

310、根据上述多个第二候选框，确定多个动作目标框。

神经网络的检测框精修分支将上述多个第二候选框中大小和距离都非常接近的框这几个候选框合并为一个框，得到多个动作目标框。需要理解的是，对应于同一预定动作的第二候选框的大小和距离会非常接近，所以，合并后每一个预定动作只有一个动作目标框。

例如：驾驶员在打电话同时，还在抽烟，这样，待处理图像中包含打电话和抽烟两个预定动作，经过301～309的处理，得到的第二候选框中有只包含手、手机、人脸局部区域这三种预定动作特征的打电话的候选框，也有只包含手、香烟、人脸局部区域这三种预定动作特征的抽烟的候选框。虽然打电话的候选框和抽烟的候选框都有很多个，但所有打电话的候选框的大小和距离都非常接近，所有抽烟的候选框的大小和距离都非常接近，而且任意一个打电话候选框的大小和任意一个抽烟的候选框的大小差会比任意两个打电话候选框之间的大小差或任意两个打电话候选框之间的大小差大，任意一个打电话候选框的和任意一个抽烟的候选框之间的距离也会比任意两个打电话候选框之间的距离或任意两个打电话候选框之间的距离大。神经网络的检测框精修分支将所有打电话的候选框合并得到一个动作目标框，将所有抽烟的候选框合并得到另一个动作目标框。这样，最终就将得到两个动作目标框，即打电话的动作目标框和抽烟的动作目标框。

311、经所述神经网络的动作分类分支获取上述特征图上与上述动作目标框对应的区域图，并基于区域图进行预定动作的分类，获得动作识别结果。

神经网络的动作分类分支根据动作目标动作框内的特征，对该目标动作框内的动作进行分类，得到一个动作识别结果。再结合所有目标动作框的识别结果，得到待处理图像的第一动作识别结果。此外，第二神经网络在给出第一动作识别结果的同时，会给出该第一动作识别结果的第四置信度，即该第一识别结果的准确率。

如：车载摄像头对驾驶员进行拍摄，获得包括有人脸的图像，并将其作为待处理图像输入神经网络。经过302～311的处理，获得两个识别结果：打电话和喝水，打电话的第四置信度为0.8，喝水的第四置信度为0.4。若用户设置的识别结果的阈值为0.6，则通过终端对驾驶员进行提示和警告，提示和警告的方式包括：弹出对话框通过文字进行提示和警告、通过内置语音数据进行提示和警告，其中，上述终端为可选的，可配备有显示屏和/或语音提示功能。

若用户选择的预定动作为：喝水、打电话、戴眼镜。当检测到驾驶员有正在进行喝水、打电话、戴眼镜中的任意一个或多个动作，通过显示终端对驾驶员进行提示和警告，并提示危险驾驶动作的类别。当未检测到有上述预定动作中的任意一个动作，则不进行任何提示和警告。

可选的，通过车载摄像头对驾驶员进行视频拍摄，并以拍摄的视频的每一帧画面作为待处理图像。通过对摄像头拍摄的每一帧画面进行识别，获得相应的识别结果，再结合连续多帧画面的结果对驾驶员的动作进行识别。当检测到驾驶员正在进行喝水、打电话、戴眼镜中的任意一个动作时，可通过显示终端对驾驶员提出警告，并提示危险驾驶动作的类别。提出警告的方式包括：弹出对话框通过文字提出警告、通过内置语音数据提出警告。

可选的，检测到驾驶员有危险驾驶动作时，通过抬头数字显示仪(head updisplay，HUD)显示器弹出对话框，对驾驶员发出提示和警告；还可通过汽车内置的语音数据进行提示和警告，如：“请驾驶员注意驾驶动作”；还可通过释放具有的醒脑提神功效的气体，如：通过车载喷头喷出花露水喷雾，花露水的气味清香怡人，在对驾驶员进行提示和警告的同时，还能起到醒脑提神的效果；还可通座椅释放出低电流刺激驾驶员，以达到提示和警告的效果。

本申请通过神经网络的特征提取分支对待处理图像进行卷积操作，提取出预定动作的特征，神经网络的候选框提取分支再根据提取出的特征获得动作候选框，神经网络的候选框提取分支对获得的动作候选框进行判断，将与预定动作相似的动作的候选框去除，可减小与预定动作相似的动作对识别结果的干扰，并提高识别精度；神经网络的检测框精修分支通过调整动作候选框的位置和大小实现对候选框的精修，使精修后得到的目标动作框只包含预定动作的特征，可提高识别结果的准确率；最后，神经网络的动作分类分支再对目标动作框中的特征进行判断，得到待处理图像的动作识别结果；整个识别过程通过提取待处理图像中的动作特征(手、人脸局部区域、动作交互物)，并对其进行处理，可自主、快速的实现对精细动作的精确识别。

本申请实施例神经网络可由卷积层、非线性层、池化层等网络层按照一定方式堆叠设计而成，本申请实施例对具体的网络结构并不限制。设计好神经网络结构后，可基于带有标注信息的正、负样本图像，采用监督方式对设计好的神经网络进行反向梯度传播等方法进行成千上万次的迭代训练，具体的训练方式本申请实施例并不限制。可选的，请参阅图5，图5是本申请实施例提供的一种神经网络的训练方法的流程示意图。

501、获取第一待处理图像。

从训练图集中获取第一待处理图像对神经网络进行训练，上述训练图集中的训练素材分为两大类：正样本图像和负样本图像。正样本图像包含至少一个预定动作，即喝水、抽烟、打电话、戴眼镜、戴口罩这五个动作，负样本图像包含至少一个与预定动作相似的动作，如：用手搭着嘴唇、挠耳朵、摸鼻子。

502、根据上述预定动作，获得第一动作监督框。

上述预定动作均是与手、人脸有关的精细动作，这些动作的识别无法通过对人体关键点的检测或人体姿态的估计实现，本申请通过根据预定动作的特征，实现对上述精细动作的识别。首先对预定动作的特征进行定义，具体的，喝水的动作特征包括：手、人脸局部区域、水杯；抽烟的动作特征包括：手、人脸局部区域、烟；打电话的动作特征包括：手、人脸局部区域、手机，戴眼镜的动作特征包括：手、人脸局部区域、眼镜；戴口罩的动作特征包括：手、人脸局部区域、口罩。

在将第一待处理图像输入到神经网络之前，需先根据上述定义的预定动作的特征对训练素材进行标注，具体为：将第一待处理图像中的预定动作用动作监督框围起来，具体可参见图6中的喝水的动作监督框和图7中的打电话的动作监督框。

与预定动作很相似的动作往往会给神经网络的候选框提取分支提取候选框带来很大的干扰。如：图4中从左至右，依次做了与打电话、喝水和抽烟相似的动作，即将右手分别放置在脸旁，但此时手里并没手机、水杯和烟，而神经网络的候选框提取分支络易误将这些动作识别为打电话、喝水和抽烟，并分别给出一个与之相应的候选框。驾驶员在驾驶汽车的过程中，会因为如：耳部区域瘙痒的原因而做挠耳朵的动作、也会因为其他原因做张嘴或手搭着嘴唇的动作，显然，这些动作并不属于危险驾驶动作，但这些动作易造成误检测。本实施例将与预定动作很相似的动作的图像作为神经网络训练的负样本图像，通过对神经网络的候选框提取分支进行正、负样本区分训练，使训练后的神经网络的候选框提取分支能高效的将与预定动作相似的动作区分出，大大提高分类结果的精确率和鲁棒性。因此，动作监督框也包含负样本图像中与预定动作相似的动作。

503、提取包括样本图像的第一特征图。

神经网络的特征提取分支对第一待处理图像进行卷积操作从第一待处理图像中提取特征，即可获得一张与原图像相对应的第一特征图。卷积操作的具体实现过程参见302，此处不再赘述。

504、提取第一特征图可能包括预定动作的多个第三候选框。

神经网络的候选框提取分支对第一特征图中的特征进行判断，并根据判断的结果，对特征进行划分，再根据划分结果，得到候选区域。如：第二特征图中的特征有：手、水杯、手机、人脸局部区域，神经网络的候选框提取分支会自动将同时包含手、手机、人脸局部区域的特征区域从第一特征图中划分出来，获得一个第一候选区域，同理，将同时包含手、水杯、人脸局部区域的特征区域从第一特征图中划分出来，得到另一个第一候选区域。这样，根据上述预定动作的特征对第一特征图中的特征进行划分，获得多个第一候选区域。用一个矩形框将一个第一候选区域围起来，这样，根据多个第一候选区域，即可获得多个第三候选框。

神经网络的候选框提取分支在提取出第三候选框的同时会给出该第三候选框的第二置信度，第二置信度包括：该第三候选框为上述动作目标框的概率，即第一概率；以及该第三候选框非上述动作目标框的概率，即第二概率。这样，在获得多个第三候选框的同时，还将获得多个第三候选框的第二置信度。需要理解的是，第二置信度为神经网络的候选框提取分支根据第三候选框中的特征给出的第三候选框为目标动作框的一个预测值。此外，在获得第三动作候选框和第二置信度的同时，神经网络的候选框提取分支还将给出该第三动作候选框在坐标系xoy下的坐标(x3，y3)，及该第三候选框的长和宽(x4，y4)，并将第三动作候选框的集合定义为bbox(x3，y3，x4，y4)，其中，坐标系xoy为以第一待处理图像的左上角(以输入神经网络的候选框提取分支的方位为准)为原点，水平向右为x轴的正方向，竖直向下为y轴的正方向。

505、确定上述多个第三候选框与上述第一动作监督框的面积重合度。

首先，确定第三候选框集合bbox(x3，y3，x4，y4)中的每个候选框分别与监督动作框bbox_gt(x1，y1，x2，y2)的面积重合度IOU，可选的，IOU的计算公式如下：

其中，A、B分别为第三候框的面积和动作监督框的面积，A∩B为第三候选框与动作监督框重合区域的面积，A∪B为第三候选框与动作监督框包含的所有区域的面积。

506、确定上述样本图像的候选框的检测结果和检测框标注信息的第一损失。

通过候选框坐标回归损失函数smooth_l1和类别损失函数softmax对神经网络的候选框提取分支的权重参数进行更新。可选的，候选框提取的损失函数(Region ProposalLoss)的表达式如下：

其中，N和α均为神经网络的候选框提取分支的权重参数，p_i为监督变量，类别损失函数softmax和候选框坐标回归损失函数smooth_l1的具体表达式如下：

其中，x＝|x₁-x₃|+|y₁-y₃|+|x₂-x₄|+|y₂-y₄|。

损失函数是神经网络优化的目标函数，神经网络训练或者优化的过程就是最小化损失函数的过程，即损失函数值越接近于0，对应预测的结果和真实结果的值就越接近。

若第四候选框的IOU大于或等于第三阈值C，判定该第四候选框为可能包含预定动作的候选框，将该第四候选框的第二置信度取为上述第一概率；若第四候选框的IOU小于第四阈值D，判定该第四候选框为不可能包含预定动作的候选框，将该第四候选框的第二置信度取为上述第二概率。其中，0≤C≤1，0≤D≤1，且C>D，C和D的具体取值根据训练效果确定。

用第四候选框的第二置信度替换公式(2)和公式(3)中的监督变量p_i，并代入公式(2)，通过调节神经网络的候选框提取分支的权重参数N和α，改变Region Proposal Loss的值(即第一损失)，并选取使Region Proposal Loss的值最接近于0的权重参数组合N和α。

507、将上述第二置信度小于上述第一阈值的上述一个或多个第三候选框去除，获得多个第四候选框。

在506中，通过第三候选框与动作监督框的面积重合度，确定第三候选框的第二置信度，再将第二置信度小于上述第一阈值的第三候选框去除，保留其余的第三候选框，获得多个第四候选框。

若直接用第四候选框中的特征去做分类将产生巨大的计算量，因此，在对第四候选框进行后续处理之前，先池化处理第四候选框，将第四候选框中的特征的维度降低到一个目标大小，以满足后续处理的需要，同时能大大减小后续处理的计算量。同303中获得候选区域一样，根据预定动作的特征对上述池化处理后的特征进行划分，获得多个第二特征区域。池化处理的具体实现过程详见305，此处不再赘述。

经过池化处理将第四候选框中的预定动作的特征以低维度的形式呈现于第二特征区域，为方便后续处理，将第二特征区域中的每一个预定动作的特征分别用一个对应的矩形框围起来，获得第二动作特征框。将监督动作框中的每一个预定动作的特征分别用一个对应的矩形框围起来，获得第三动作特征框。

分别获取上述第二动作特征框在坐标系xoy下的几何中心坐标集合P(x_n,y_n)和第三动作特征框在坐标系xoy下的几何中心坐标Q(x,y)，再求出第二动作特征框的几何中心与第三动作特征框的几何中心的位置偏移量：Δ(x_n,y_n)＝P(x_n,y_n)-Q(x,y)，其中，n为正整数，与第二动作特征框的数量一致。Δ(x_n,y_n)即为上述多个第四候选框的第二位置偏移量。

先分别求出第二动作特征框与第三动作特征框的面积，再用第三动作特征框的面积除以第二动作特征框的面积，得到一个或多个第五候选框的第二缩放倍数ε，其中，ε包括第四候选框的长的缩放倍数δ和第四候选框的宽的缩放倍数η。

设第四候选框的几何中心坐标的集合为：

根据第二位置偏移量Δ(x_n,y_n)可得到调整位置后的第四候选框的几何中心坐标的集合为：

则：

需要理解的是，在对第四候选框的几何中心坐标进行调整的时候，第四候选框的长和宽保持不变。

在得到调整位置后的一个或多个第四候选框后，固定第四候选框的几何中心不变，将其长放大δ倍，将其宽放大η倍。即可获得多个第五候选框。

神经网络的检测框精修分支将上述多个第五候选框中大小和距离都非常接近的几个候选框合并为一个框，得到多个第六候选框。需要理解的是，对应于同一预定动作的第五候选框的大小和距离会非常接近，所以，合并后每一个第六候选框只包含一个预定动作。

神经网络的检测框精修分支在提取出第六候选框的同时会给出该第六候选框的第三置信度，第三置信度包括：该第六候选框中的动作为上述动作类别的概率，即第三概率，如：上述动作有喝水、抽烟、打电话、戴眼镜、戴口罩这五个类别，则每一个第六候选框的第三概率均包含5个概率值，分别为该第六候选框中的动作为喝水的概率a，该第六候选框中的动作为抽烟的概率b，该第六候选框中的动作为打电话的概率c，该第六候选框中的动作为戴眼镜的概率d，该第六候选框中的动作为戴口罩的概率e。

508、基于所述动作目标框进行预定动作的分类，获得第一动作识别结果。

509、确定第一动作识别结果和动作类别标注信息的第二损失。

根据第一识别结果选取相应的第三概率，得到第四概率，如：第六候选框的第三概率分别为：a＝0.65，b＝0.45，c＝0.7，d＝0.45，e＝0.88，该第六候选框的动作识别结果为戴口罩，则该第六候选框的第四概率为0.88。神经网络的检测框精修分支通过损失函数来更新网络的权重参数，损失函数(Bbox Refine Loss)的具体表达式如下：

其中，M为第六候选框的数量，β为神经网络的检测框精修分支的权重参数，p_i为监督变量，softmax损失函数和smooth_l1损失函数的表达形式可参见公式(3)和公式(4)，特别地，公式(6)中的bbox_i为精修后的第六动作候选框，bbox_gt_j为监督动作框的坐标。

用第六候选框的第四概率替换掉监督变量p_i代入公式(6)，通过调节神经网络的检测框精修分支的权重参数β，改变Bbox Refine Loss的值(即第二损失)，并选取使BboxRefine Loss的值最接近于0的权重参数β，以梯度反向传播的方式完成对神经网络的检测框精修分支的权重参数的更新。

将更新完权重参数的候选框提取分支、更新完权重参数的检测框精修分支、特征提取分支、动作分类分支一起进行训练，即向神经网络输入训练图像，经过神经网络的处理，最终由神经网络的动作分类分支输出识别结果。由于动作分类分支的输出结果与实际结果之间存在误差，将动作分类分支的输出值与实际值之间的误差从输出层向卷积层反向传播，直至传播到输入层。在反向传播的过程中，根据误差调整神经网络中的权重参数，不断迭代上述过程，直至收敛，完成对神经网络的权重参数的再次更新，整个神经网络的训练到此结束，其中上述权重参数包括：神经网络中的卷积核的数量、卷积核的大小，神经网络包括：特征提取分支、候选框提取分支、检测框精修分支及动作分类分支。

本实施例根据动作特征进行识别与手和人脸相关的驾驶员危险驾驶动作，但在实际应用时，驾驶员所作的一些与危险驾驶动作相似的动作易对神经网络的候选框提取分支造成干扰，影响后续对动作的识别，这不仅会降低识别结果的精度，同时也会使用户体验直线下降。本实施例将正样本图像(包含危险驾驶动作)和负样本图像(包含于危险驾驶动作相似的动作)作为训练素材，以损失函数进行监督，以梯度反向传播的方式更新神经网络的特征提取分支和神经网络的候选框提取分支的权重参数并完成训练，使训练后神经网络的特征提取分支能准确的提取出危险驾驶动作的特征，再通过神经网络的候选框提取分支自动将与危险动作相似的动作的候选框去除，可大大降低对危险驾驶动作的误检率。由于候选框提取分支输出的动作候选框尺寸较大，若直接对其进行后续处理，计算量较大，本实施例通过对动作候选框进行池化处理，将动作候选框中的动作特征提取出来，并缩小至预定大小的尺寸，可大大减小后续处理的计算量，加快处理速度；通过对动作候选框的位置和大小实现对候选框的精修，使精修后得到的目标动作框只包含危险驾驶动作的特征，提高识别结果的准确率；以损失函数进行监督，以梯度反向传播的方式更新检测框精修分支的权重参数并完成训练，使训练后检测框精修分支以较高的精确度对候选框进行精修，再通过动作分类分支准确的识别出动作目标框中的动作类别。

请参阅图8，图8为本申请实施例提供的一种动作识别装置的结构示意图，该识别装置1000包括：第一提取单元11、第二提取单元12、确定单元13及分类单元14。其中：

第一提取单元11，用于提取包括有人脸的图像的特征；

第二提取单元12，用于基于所述特征提取可能包括预定动作的多个候选框；

确定单元13，用于基于多个所述候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；

分类单元14，用于基于所述动作目标框进行预定动作的分类，获得动作识别结果。

进一步地，所述人脸局部区域，包括以下至少之一：嘴部区域，耳部区域，眼部区域。

进一步地，所述动作交互物，包括以下至少之一：容器、烟、手机、食物、工具、饮料瓶、眼镜、口罩。

进一步地，所述动作目标框还包括：手部区域。

进一步地，所述预定动作包括以下至少之一：打电话、抽烟、喝水/饮料、进食、使用工具、戴眼镜、化妆。

进一步地，动作识别装置1000还包括：车载摄像头，用于拍摄位于车内的人的包括有人脸的图像。

进一步地，所述车内的人包括以下至少之一：所述车的驾驶区的驾驶员，所述车的副驾驶区的人，所述车的后排座椅上的人。

进一步地，所述车载摄像头为：RGB摄像头、红外摄像头或近红外摄像头。

进一步地，所述第一提取单元11包括：神经网络的特征提取分支111，用于提取包括有人脸的图像的特征，获得特征图。

进一步地，所述第二提取单元12，包括：

所述神经网络的候选框提取分支121，用于在所述特征图上提取可能包括预定动作的多个候选框。

进一步地，所述候选框提取分支121还用于：根据所述预定动作的特征对所述特征图中的特征进行划分，获得多个候选区域；以及根据所述多个候选区域，获得所述多个候选框和所述多个候选框的第一置信度，其中，所述第一置信度为所述候选框为所述动作目标框的概率。

进一步地，所述确定单元13，包括：所述神经网络的检测框精修分支131，用于基于多个所述候选框确定动作目标框。

进一步地，所述检测框精修分支131还用于：将所述第一置信度小于第一阈值的所述候选框去除，获得多个第一候选框；以及池化处理所述多个第一候选框，获得多个第二候选框；以及根据所述多个第二候选框，确定所述一个或多个动作目标框。

进一步地，所述检测框精修分支131还用于：池化处理所述多个第一候选框，获得多个与所述多个第一候选框对应的第一特征区域；以及基于所述多个第一特征区域对所述多个第一候选框的位置和大小进行调整，获得所述多个第二候选框。

进一步地，所述检测框精修分支131还用于：基于所述第一特征区域中的所述预定动作的特征，获得与所述预定动作的特征对应的第一动作特征框；以及根据所述第一动作特征框的几何中心坐标，获得所述多个第一候选框的第一位置偏移量；以及根据所述第一动作特征框的大小，获得所述多个第一候选框的第一缩放倍数；以及根据所述多个第一位置偏移量和所述多个第一缩放倍数对所述多个第二候选框的位置和大小进行调整，获得所述多个第二候选框。

进一步地，所述分类单元14，包括：所述神经网络的动作分类分支141，用于获取所述特征图上与所述动作目标框对应的区域图，并基于区域图进行预定动作的分类，获得动作识别结果。

进一步地，所述神经网络为基于训练图像集预先监督训练而得，所述训练图像集包括多个样本图像，其中，所述样本图像的标注信息包括：动作监督框和所述动作监督框对应的动作类别。

进一步地，所述样本图像集包括正样本图像和负样本图像，所述负样本图像的动作与所述正样本图像的动作相似，所述正样本的动作监督框包括人脸的局部区域和动作交互物。

进一步地，所述正样本图像的动作包括打电话，所述负样本图像包括：扰耳朵；和/或，所述正样本图像包括抽烟、进食或喝水，所述负样本图像包括张嘴或手搭着嘴唇的动作。

请参阅图9，图9为本申请实施例提供的一种神经网络的训练装置的结构示意图，该训练装置2000包括：第一提取单元21、第二提取单元22、第一确定单元23、获取单元24、第二确定单元25及调节单元26。其中：

第一提取单元21，用于提取包括样本图像的第一特征图；

第二提取单元22，用于提取第一特征图可能包括预定动作的多个第三候选框；

第一确定单元23，用于基于多个第三候选框确定动作目标框；

获取单元24，用于基于所述动作目标框进行预定动作的分类，获得第一动作识别结果；

第二确定单元25，用于确定所述样本图像的候选框的检测结果和检测框标注信息的第一损失、以及动作识别结果和动作类别标注信息的第二损失；

调节单元26，用于根据所述第一损失和所述第二损失调节所述神经网络的网络参数。

进一步地，所述第一确定单元23包括：第一获取子单元231，用于根据所述预定动作，获得第一动作监督框，其中所述第一动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物；第二获取子单元232，用于获取所述多个第三候选框的第二置信度，其中，所述第二置信度包括：所述第四候选框为所述动作目标框的第一概率，所述第三候选框非所述动作目标框的第二概率；确定子单元233，用于确定所述多个第三候选框与所述第一动作监督框的面积重合度；选取子单元234，用于若所述面积重合度大于或等于第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第一概率；若所述面积重合度小于所述第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第二概率；去除子单元235，用于将所述第二置信度小于所述第一阈值的所述多个第三候选框去除，获得多个第四候选框；调整子单元236，用于调整所述第四候选框的位置和大小，获得所述动作目标框。

请参阅图10，图10为本申请实施例提供的一种驾驶动作分析装置的结构示意图，该分析装置3000包括：车载摄像头31、获取单元32及生成单元33。其中：

车载摄像头31，用于采集包括有驾驶员人脸图像的视频流；

第一获取单元32，用于通过如权利要求25-45任一所述的动作识别装置，获取所述视频流中至少一帧图像的动作识别结果；

生成单元33，用于响应于动作识别结果满足预定条件，生成分心或危险驾驶提示信息。

进一步地，所述预定条件包括以下至少之一：出现预定动作；在预定时长内出现预定动作的次数；所述视频流中预定动作出现维持的时长。

进一步地，所述分析装置3000还包括：第二获取单元34，用于获取设置有车载双摄像头的车辆的车速；所述生成单元33还用于：响应于所述车速大于设定阈值且所述动作识别结果满足所述预定条件，生成分心或危险驾驶提示信息。

图11为本申请实施例提供的一种动作识别装置的硬件结构示意图。该识别装置4000包括处理器41，还可以包括输入装置42、输出装置43和存储器44。该输入装置42、输出装置43、存储器44和处理器41之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。处理器还可以包括一个或多个专用处理器，专用处理器可以包括GPU、FPGA等，用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图11仅仅示出了动作识别装置的简化设计。在实际应用中，动作识别装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的动作识别装置都在本申请的保护范围之内。

图12为本申请实施例提供的一种神经网络的训练装置的硬件结构示意图。该训练装置5000包括处理器51，还可以包括输入装置52、输出装置53和存储器54。该输入装置52、输出装置53、存储器54和处理器51之间通过总线相互连接。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

存储器用于存储网络设备的程序代码和数据。

可以理解的是，图12仅仅示出了神经网络的训练装置的简化设计。在实际应用中，神经网络的训练装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的神经网络的训练装置都在本申请的保护范围之内。

图13为本申请实施例提供的一种驾驶动作分析装置的硬件结构示意图。该分析装置6000包括处理器61，还可以包括输入装置62、输出装置63和存储器64。该输入装置62、输出装置63、存储器64和处理器61之间通过总线相互连接。

存储器用于存储网络设备的程序代码和数据。

可以理解的是，图13仅仅示出了驾驶动作分析装置的简化设计。在实际应用中，驾驶动作分析装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的驾驶动作分析装置都在本申请的保护范围之内。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

Claims

1.一种动作识别方法，其特征在于，包括：

提取包括有人脸的图像的特征；

基于所述特征提取可能包括预定动作的多个候选框；

基于多个所述候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；

基于所述动作目标框进行预定动作的分类，获得动作识别结果。

2.根据权利要求1所述的方法，其特征在于，所述人脸局部区域，包括以下至少之一：嘴部区域，耳部区域，眼部区域。

3.根据权利要求1或2任一项所述的方法，其特征在于，所述提取包括有人脸的图像的特征，包括：

经神经网络的特征提取分支提取包括有人脸的图像的特征，获得特征图。

4.根据权利要求3所述的方法，其特征在于，所述基于所述特征提取可能包括预定动作的多个候选框，包括：

经所述神经网络的候选框提取分支在所述特征图上提取可能包括预定动作的多个候选框。

5.根据权利要求4所述的方法，其特征在于，所述经所述神经网络的候选框提取分支在所述特征图上提取可能包括预定动作的多个候选框，包括：

根据所述预定动作的特征对所述特征图中的特征进行划分，获得多个候选区域；

根据所述多个候选区域，获得所述多个候选框和所述多个候选框的第一置信度，其中，所述第一置信度为所述候选框为所述动作目标框的概率。

6.一种驾驶动作分析方法，其特征在于，包括：

经车载摄像头采集包括有驾驶员人脸图像的视频流；

通过如权利要求1至5任一所述的动作识别方法，获取所述视频流中至少一帧图像的动作识别结果；

响应于动作识别结果满足预定条件，生成分心或危险驾驶提示信息。

7.一种动作识别装置，其特征在于，包括：

第一提取单元，用于提取包括有人脸的图像的特征；

第二提取单元，用于基于所述特征提取可能包括预定动作的多个候选框；

确定单元，用于基于多个所述候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；

分类单元，用于基于所述动作目标框进行预定动作的分类，获得动作识别结果。

8.一种驾驶动作分析装置，其特征在于，包括：

车载摄像头，用于采集包括有驾驶员人脸图像的视频流；

第一获取单元，用于通过如权利要求7所述的动作识别装置，获取所述视频流中至少一帧图像的动作识别结果；

生成单元，用于响应于动作识别结果满足预定条件，生成分心或危险驾驶提示信息。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至5任一项所述的方法，或者权利要求6所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至5任一项所述的方法，或者权利要求6所述的方法。