CN111160237A

CN111160237A - 头部姿态估计方法和装置、电子设备和存储介质

Info

Publication number: CN111160237A
Application number: CN201911378367.6A
Authority: CN
Inventors: 魏曦; 蒋亚西
Original assignee: Zhicheauto Technology Beijing Co ltd
Current assignee: Zhicheauto Technology Beijing Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-15

Abstract

本公开实施例公开了一种头部姿态估计方法和装置、电子设备和存储介质，其中，方法包括：获取驾驶员图像序列，所述驾驶员图像序列包括多帧驾驶员图像；利用第一神经网络对所述驾驶员图像序列中的当前帧图像进行特征提取，得到第一特征；以及利用第二神经网络对所述当前帧图像和前一帧图像之间的光流图像进行特征提取，得到第二特征；将所述第一特征与所述第二特征进行拼接，得到所述当前帧图像对应的拼接特征；利用长短期记忆单元LSTM模型，基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息。本公开实施例可以提高头部姿态估计的准确性。

Description

头部姿态估计方法和装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术，尤其是一种头部姿态估计方法和装置、电子设备和存储介质。

背景技术

随着车辆的不断增多，交通事故也随之增多，当驾驶员在驾驶过程中由于顾及手机等其他事物将其注意力分散到手机等其他事物时，会导致驾驶员无法及时了解道路情况，极易发生道路交通事故，因此，驾驶员的驾驶状态对安全行车的影响非常重要，应尽可能的使驾驶员处于良好的驾驶状态。

随着汽车产业的迅速发展，人们对于汽车智能化的需求越来越大。头部姿态估计是从数字图像或视频图像中推断出人的头部偏转角度的过程，在汽车行驶过程中，通过对汽车驾驶员进行头部姿态估计，可以获知驾驶员是否发生注意力分散，以便避免交通事故，从而提高驾驶的安全性。

在实现本公开的过程中，发明人发现，现有技术通过机器学习算法对驾驶员进行头部姿态估计时，直接以采集的单帧图像提取视觉特征，基于该视觉特征估计出驾驶员的头部姿态，受驾驶室光线条件、汽车行驶稳定性对采集图像的质量影响等因素，无法得到稳定、鲁棒的头部姿态，从而导致头部姿态估计的准确性较低。

发明内容

本公开实施例提供一种头部姿态估计方法和装置、电子设备和存储介质，以提高头部姿态估计的准确性。

本公开实施例的一个方面，提供的一种头部姿态估计方法，包括：

获取驾驶员图像序列，所述驾驶员图像序列包括多帧驾驶员图像；

利用第一神经网络对所述驾驶员图像序列中的当前帧图像进行特征提取，得到第一特征；以及利用第二神经网络对所述当前帧图像和前一帧图像之间的光流图像进行特征提取，得到第二特征；其中，所述前一帧图像为所述驾驶员图像序列中在时序上位于所述当前帧图像之前的一帧图像；

将所述第一特征与所述第二特征进行拼接，得到所述当前帧图像对应的拼接特征；

利用长短期记忆单元LSTM模型，基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息；其中，N为大于0的整数。

可选地，在基于本公开上述任一实施例的方法中，所述获取驾驶员图像序列，包括：

通过车辆内至少一个位置部署的红外摄像头进行图像采集，得到所述驾驶员图像序列。

可选地，在基于本公开上述任一实施例的方法中，所述通过红外摄像头进行图像采集，包括：

在所述车辆处于行驶状态时通过红外摄像头进行图像采集；和/或，

在所述车辆的行驶速度超过预设车速时通过红外摄像头进行图像采集；和/或，

在检测到所述车辆点火后通过红外摄像头进行图像采集；和/或，

在检测到所述车辆的启动指令时通过红外摄像头进行图像采集；和/或，

在检测到对所述车辆或所述车辆中部件或***的控制指令时通过红外摄像头进行图像采集。

可选地，在基于本公开上述任一实施例的方法中，还包括：

在通过红外摄像头进行图像采集的过程中，利用红外光补偿器进行红外光补偿。

可选地，在基于本公开上述任一实施例的方法中，所述利用第二神经网络对所述当前帧图像和前一帧图像之间的光流图像进行特征提取，包括：

对所述当前帧图像和所述前一帧图像进行计算，得到所述当前帧图像和所述前一帧图像之间的光流图像，所述光流图像包括一帧横向光流图像及一帧纵向光流图像；

利用所述第二神经网络对所述当前帧图像和所述前一帧图像之间模型的光流图像进行特征提取。

可选地，在基于本公开上述任一实施例的方法中，所述基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息，包括：

基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征、以及所述当前帧图像与所述前N个历史帧图像的权重值，进行头部姿态预测，得到所述当前帧图像中的头部姿态信息。

可选地，在基于本公开上述任一实施例的方法中，所述LSTM模型包括M层LSTM，其中，M为大于0的整数；

M的取值大于1时，所述利用长短期记忆单元LSTM模型，基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息，包括：

依次通过所述LSTM模型中的前M-1层LSTM，对所述当前帧图像对应的拼接特征进行特征提取，得到第三特征；

通过所述LSTM模型中的第M层LSTM，基于所述当前帧图像的第三特征和所述前N个历史帧图像的第三特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息；其中，每个所述历史帧图像的第三特征为所述历史帧图像对应的拼接特征依次通过所述前M-1层LSTM进行特征提取得到的特征。

可选地，在基于本公开上述任一实施例的方法中，还包括：

根据所述头部姿态信息，确定驾驶员是否处于分心状态；

若确定驾驶员处于分心状态，进行报警和/或进行智能驾驶控制。

可选地，在基于本公开上述任一实施例的方法中，所述根据所述头部姿态信息，确定驾驶员是否处于分心状态，包括：

根据所述头部姿态信息确定所述驾驶员图像中驾驶员的头部位置、人脸朝向和视线方向，得到头部位置信息、人脸朝向信息和视线方向信息；

根据一段时间内的所述头部位置信息，获取头部位置偏离程度信息，根据一段时间内的人脸朝向信息获取人脸朝向偏离程度信息，根据一段时间内的视线方向信息获取视线方向偏离程度信息；

根据所述头部位置偏离程度信息、所述人脸朝向偏离程度信息和所述视线方向偏离程度信息，确定所述驾驶员是否处于分心状态。

可选地，在基于本公开上述任一实施例的方法中，所述若确定驾驶员处于分心状态，进行报警和/或进行智能驾驶控制，包括：

在所述驾驶员处于分心状态的持续时间达到第一预设时长时，输出所述驾驶员处于分心状态的提示/告警信息；和/或，

在所述驾驶员处于分心状态的持续时间达到第二预设时长时，将驾驶模式切换为自动驾驶模式；所述第二预设时长大于所述第一预设时长。

本公开实施例的另一个方面，提供的一种头部姿态估计装置，包括：

获取模块，用于获取驾驶员图像序列，所述驾驶员图像序列包括多帧驾驶员图像；

第一提取模块，用于利用第一神经网络对所述驾驶员图像序列中的当前帧图像进行特征提取，得到第一特征；

第二提取模块，用于利用第二神经网络对所述当前帧图像和前一帧图像之间的光流图像进行特征提取，得到第二特征；其中，所述前一帧图像为所述驾驶员图像序列中在时序上位于所述当前帧图像之前的一帧图像；

拼接模块，用于将所述第一特征与所述第二特征进行拼接，得到所述当前帧图像对应的拼接特征；

长短期记忆单元LSTM模型，用于基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息；其中，N为大于0的整数。

可选地，在基于本公开上述任一实施例的装置中，所述第一获取模包括车辆内至少一个位置部署的红外摄像头。

可选地，在基于本公开上述任一实施例的装置中，所述第一获取模块，具体用于：

可选地，在基于本公开上述任一实施例的装置中，还包括：

红外光补偿器，用于在所述红外摄像头进行图像采集的过程中，利用红外光补偿器进行红外光补偿。

可选地，在基于本公开上述任一实施例的装置中，所述第二提取模块包括：

计算单元，用于对所述当前帧图像和所述前一帧图像进行计算，得到所述当前帧图像和所述前一帧图像之间的光流图像，所述光流图像包括一帧横向光流图像及一帧纵向光流图像；

所述第二神经网络，用于对所述当前帧图像和所述前一帧图像之间模型的光流图像进行特征提取。

可选地，在基于本公开上述任一实施例的装置中，所述LSTM模型，具体用于：

可选地，在基于本公开上述任一实施例的装置中，所述LSTM模型包括M层LSTM，其中，M为大于0的整数；

M的取值大于1时，所述LSTM模型中的前M-1层LSTM，分别用于依次对所述当前帧图像对应的拼接特征进行特征提取，得到第三特征；

所述LSTM模型中的第M层LSTM，用于基于所述当前帧图像的第三特征和所述前N个历史帧图像的第三特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息；其中，每个所述历史帧图像的第三特征为所述历史帧图像对应的拼接特征依次通过所述前M-1层LSTM进行特征提取得到的特征。

可选地，在基于本公开上述任一实施例的装置中，所述得到所述当前帧图像中的头部姿态信息之后，还包括：

确定模块，用于根据所述头部姿态信息，确定驾驶员是否处于分心状态；

报警处理模块，用于在所述确定模块确定驾驶员处于分心状态时，进行报警和/或进行智能驾驶控制。

可选地，在基于本公开上述任一实施例的装置中，所述确定模块包括：

第一确定单元，用于根据所述头部姿态信息确定所述驾驶员图像中驾驶员的头部位置、人脸朝向和视线方向，得到头部位置信息、人脸朝向信息和视线方向信息；

第一获取单元，用于根据一段时间内的所述头部位置信息，获取头部位置偏离程度信息；

第二获取单元，用于根据一段时间内的人脸朝向信息获取人脸朝向偏离程度信息；

第二获取单元，用于根据一段时间内的视线方向信息获取视线方向偏离程度信息；

第二确定单元，用于根据所述头部位置偏离程度信息、所述人脸朝向偏离程度信息和所述视线方向偏离程度信息，确定所述驾驶员是否处于分心状态。

可选地，在基于本公开上述任一实施例的装置中，所述报警处理模块，具体用于：

本公开实施例的又一个方面，提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的方法。

本公开实施例的再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开上述任一实施例所述的方法。

基于本公开上述实施例提供的头部姿态估计方法和装置、电子设备和存储介质，获取包括多帧驾驶员图像的驾驶员图像序列，然后利用第一神经网络对所述驾驶员图像序列中的当前帧图像进行特征提取，得到第一特征，同时利用第二神经网络对所述当前帧图像和前一帧图像之间的光流图像进行特征提取，得到第二特征，之后，将所述第一特征与所述第二特征进行拼接，得到当前帧图像对应的拼接特征，进而，利用LSTM模型，基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息。本公开实施例中，同时利用了当前帧图像的特征及其前一帧图像之间的光流图像的特征来进行头部姿态预测，这样，既利用了图像的原始信息，也利用了图像的变化信息，有效保证了头部姿态估计的稳定性和准确性；另外，引入了时序神经网络LSTM模型，同时利用当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，在考虑单帧图像的同时考虑了图像之间的时域信息，能够提高头部姿态估计的稳定性和精确性。本公开实施例可以有效避免受驾驶室光线条件、汽车行驶稳定性对采集图像的质量影响等因素导致头部姿态估计对外部环境敏感、稳定性差、准确性低的技术问题，提高头部姿态估计的稳定性、准确性和精确性，以便基于头部姿态信息及时获知驾驶员是否发生注意力分散，在驾驶员发生注意力分散时及时采取相应措施避免交通事故，从而提高驾驶的安全性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开头部姿态估计方法一个实施例的流程图。

图2为本公开实施例中头部姿态估计方法一个过程示意图。

图3为本公开头部姿态估计方法另一个实施例的流程图。

图4为本公开头部姿态估计装置一个实施例的结构示意图。

图5为本公开头部姿态估计装置一个实施例的结构示意图。

图6为本公开实施例中电子设备的一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

图1为本公开头部姿态估计方法一个实施例的流程图。如图1所示，该实施例的头部姿态估计方法包括：

102，获取驾驶员图像序列，所述驾驶员图像序列包括多帧驾驶员图像。

104，利用第一神经网络对所述驾驶员图像序列中的当前帧图像进行特征提取，得到第一特征；以及利用第二神经网络对所述当前帧图像和前一帧图像之间的光流图像进行特征提取，得到第二特征。

其中，所述前一帧图像为所述驾驶员图像序列中在时序上位于所述当前帧图像之前的一帧图像，可以为所述当前帧图像在驾驶员图像序列中相邻的前一帧图像，也可以为在驾驶员图像序列中不相邻的前一帧图像，例如在驾驶员图像序列中位于所述当前帧图像之前的相邻5帧图像中的任一帧图像。

106，将所述第一特征与所述第二特征进行拼接(即，连接)，得到当前帧图像对应的拼接特征。

可选地，可以通过全连接网络(或者神经网络中的全连接层)将第一特征与第二特征进行拼接。

108，利用长短期记忆单元(long short-term memory，LSTM)模型，基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息。

其中，N为大于0的整数。

其中，循环神经网络(recurrent neural network，RNN)，是一类专门用于处理序列数据(时间序列、文本语句、语音等)的神经网络，尤其是可以处理可变长度的序列。LSTM在RNN的基础上施加了遗忘门、输入门、输出门等若干个门(gate)来控制，调整序列中t个隐层的输出h_t使其在长时间步的传递过程中减少信息失效的可能，可以实现长距离依赖，可用于时间序列的预测。LSTM可以有效记忆多个历史帧图像的特征以及历史帧图像和当前帧图像中各帧图像之间的时序关系，从而可以基于多个历史帧图像的特征和当前帧图像的特征、及其之间的时序关系预测当前帧图像中的头部姿态信息，避免当前帧图像只依靠当前帧图像的特征预测头部姿态时，由于驾驶室光线条件、汽车行驶稳定性等因素影响当前帧图像的质量时无法得到稳定、鲁棒的头部姿态信息。

基于本公开上述实施例提供的头部姿态估计方法，同时利用了当前帧图像的特征及其前一帧图像之间的光流图像的特征来进行头部姿态预测，这样，既利用了图像的原始信息，也利用了图像的变化信息，有效保证了头部姿态估计的稳定性和准确性；另外，每一时刻驾驶员的头部姿态与上一时刻甚至更早的时刻是有一定关系的，本公开实施例引入了时序神经网络LSTM模型，同时利用当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，在考虑单帧图像的同时考虑了图像之间的时域信息，结合了头部运动在时域的连续性，能够提高头部姿态估计的稳定性和精确性。本公开实施例可以有效避免受驾驶室光线条件、汽车行驶稳定性对采集图像的质量影响等因素导致头部姿态估计对外部环境敏感、稳定性差、准确性低的技术问题，提高头部姿态估计的稳定性、准确性和精确性，以便基于头部姿态信息及时获知驾驶员是否发生注意力分散，在驾驶员发生注意力分散时及时采取相应措施避免交通事故，从而提高驾驶的安全性。

可选地，在其中一些实施方式中，头部姿态可以通过正常驾驶状态下归一化球坐标系(摄像头所在的相机坐标系)中头部的姿态角/欧拉角表示，姿态角/欧拉角包括：俯仰角θ(pitch)、偏航角ψ(yaw)、滚转角Φ(roll)，头部姿态信息即包括：(pitch，yaw，roll)。其中，俯仰角用于表示竖直方向上人脸低头或仰头的角度，偏航角用于表示水平方向上人脸侧脸(即转头)的角度，滚转角用于表示竖直方向上人脸歪头(即靠向肩膀)的角度。

在人脸大小一定的情况下，以一种可能的应用场景为例，拍摄驾驶员图像的摄像头位于驾驶员位正前方、正对驾驶员位置时，偏航角度、俯仰角度、滚转角越小，人脸越正，驾驶状态员的驾驶状态更好，可以设置偏航角、俯仰角、滚转角均为0时，为基准头部姿态，驾驶员处于最佳的驾驶状态。当俯仰角和/或偏航角大于一个预设角度阈值、且持续时间大于一个预设时间阈值时可以确定驾驶员分心状态的检测结果为分心状态(即注意力不集中)。对于摄像头位于其他位置的应用场景，可以基于该位置时摄像头与摄像头位于驾驶员位正前方、正对驾驶员位置时的夹角为基准头部姿态，来确定头部姿态信息，本领域技术人员基于本公开实施例的记载可以知悉具体实现，此处不再赘述。

本公开实施例中，可以利用一些标注有准确的头部姿态信息的样本图像，预先对第一神经网络、第二神经网络、全连接网络以及LSTM模型进行端到端的训练，训练完成的第一神经网络、第二神经网络、全连接网络以及LSTM模型可以还行上述操作104-108，从而实现对头部姿态的预测。

可选地，在其中一些可能的实现方式中，操作102中，可以通过车辆内至少一个位置部署的红外(Infrared，IR)摄像头进行图像采集，得到所述驾驶员图像序列。本公开实施例中的红外摄像头包括近红外(Near Infrared，NIR)摄像头。

本公开实施例中的驾驶员图像通常为通过红外摄像头针对驾驶室摄取到的视频中的图像帧，从该视频中按照预设规则选取多个图像帧(即多帧驾驶员图像)，构成上述实施例中的驾驶员图像序列。

其中的红外摄像头的红外光的波长范围可以是0.78～1000μm，例如可以采用780nm、850nm或者940nm波长的红外光。

其中的红外摄像头可以设置在车辆驾驶室内任意可以拍摄到驾驶员的位置，例如，可以将红外摄像头部署在以下任意一个或多个位置：仪表盘上方或附近位置，中控台上方或附近位置，A柱或附近位置，后视镜或附近位置。例如，在一些可选示例中，红外摄像头可以设置在仪表盘上方(如正上方位置)，朝向正前方位置；可以设置在中控台上方(如正中间位置)，朝向正前方位置；还可以设置在A柱上(如可以贴在靠近A柱的玻璃上)，朝向驾驶员面部；还可以设置在后视镜上(如可以贴在后视镜上方的玻璃上)，朝向驾驶员面部。其中，红外摄像头设置于仪表盘上方、中控台上方的位置时，可以根据摄像头的视角和驾驶员的位置确定其具***置，例如设置于仪表盘上方的位置时，可以是红外摄像头朝向驾驶员，以保证摄像头视角不被方向盘遮挡；设置于中控台上方的位置时，如果摄像头的视角足够大，则可以针对后方，保证驾驶员在摄像机视野内，如果视角不够大，可以朝向驾驶员，以保证驾驶员出现在红外摄像头的视角中。

由于驾驶员所在区域(如车内或者驾驶室等)的光线往往较复杂，而红外摄像头所摄取的驾驶员图像的质量往往会优于普通摄像头所摄取的驾驶员图像的质量，尤其是在夜晚或者阴天或者隧道内等外部光线较暗环境下，红外摄像头所摄取到驾驶员图像通常明显优于普通摄像头所摄取的驾驶员图像的质量，从而有利于提高驾驶员头部姿态检测的准确性，进而有利于提高驾驶状态监控的准确性。

本公开实施例中，采用易部署、易使用的红外摄像头实时获取驾驶员图像，摄像头安装位置多样，在车辆的中控台、仪表盘、A柱、内后视镜等均可，利用基于深度学习技术的神经网络实现驾驶员的头部姿态预测，鲁棒性好，应用范围广，在白天、黑夜、强光、弱光等场景下均能实现较好的驾驶状态检测效果。

可选地，在其中一些可选示例中，可以预先设定，在发生以下任意一项或多项条件时，通过红外摄像头进行图像采集：在车辆处于行驶状态时通过红外摄像头进行图像采集；和/或，在车辆的行驶速度超过预设车速时通过红外摄像头进行图像采集；和/或，在检测到车辆点火后通过红外摄像头进行图像采集；和/或，在检测到车辆的启动指令时通过红外摄像头进行图像采集；和/或，在检测到对车辆或车辆中部件或***的控制指令(例如加速、加速、转向、开关车窗、开关空调、开关娱乐***等等)时通过红外摄像头进行图像采集，等等。

在其中一些应用场景中，可以在驾驶员启动车辆时、启动用于实现本公开实施例的头部姿态估计装置时，开始启动红外摄像头采集驾驶员图像。

可选地，在上述实施例中，可以通过红外摄像头进行图像采集的过程中，利用红外光补偿器进行红外光补偿。

其中的红外光补偿器可以设置在红外摄像头外部的附近位置，可以在红外摄像头从外部接收的红外光强度较弱(即低于一定阈值)时，采用主动补偿的方式，进行补光，从而降低光照等环境变化影响红外摄像头采集的图像质量，进一步提高驾驶员图像对质量，以有效保证头部姿态估计的准确性和稳定性。

可选地，在实际应用中，摄像头采集的原始图像由于受到各种条件的限制和随机干扰，往往不能直接使用，在本公开的一些可选示例中，可以对红外摄像头拍摄的驾驶员图像进行灰度化预处理，将红绿蓝(RGB)3通道的图像转成灰度图像，再通过操作104-108进行后续的头部姿态预测，可以提高头部姿态预测的准确性，并降低计算量。

可选地，在其中一些可能的实现方式中，操作104中利用第二神经网络对当前帧图像和前一帧图像之间的光流图像进行特征提取时，可以对当前帧图像和前一帧图像进行计算，得到当前帧图像和前一帧图像之间的光流图像，以表示当前帧图像相对于前一帧图像中各像素点位置的变化，其中的光流图像包括一帧横向光流图像及一帧纵向光流图像；然后，利用第二神经网络对当前帧图像和所述前一帧图像之间模型的光流图像进行特征提取。

在一些可选示例中，光流图像例如可以是单通道的灰度图像，例如基于8位位图、共256个离散的色阶的灰度图像，灰度图像的中值为128。由于光流场是一个向量场，当使用灰度图像表示光流图像时，需要用两幅标量场图片表示光流图像，即分别对应于光流图像坐标轴的X方向和Y方向幅度的两幅标量场图片。

可选地，在其中一些可能的实现方式中，操作108中，可以基于当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征、以及当前帧图像与前N个历史帧图像的权重值，进行头部姿态预测，得到当前帧图像中的头部姿态信息。

可选地，在其中一些可能的实现方式中，所述LSTM模型包括M层LSTM，其中，M为大于0的整数，即，所述LSTM模型可以是1层LSTM也可以是多层LSTM。

当M的取值大于1时，所述LSTM模型是多层LSTM，此时，在操作108的一种可选示例中，可以依次通过LSTM模型中的前M-1层LSTM，对当前帧图像对应的拼接特征进行特征提取，得到第三特征；然后通过LSTM模型中的第M层LSTM，基于当前帧图像的第三特征和前N个历史帧图像的第三特征进行头部姿态预测，得到当前帧图像中的头部姿态信息。其中，每个历史帧图像的第三特征为该历史帧图像对应的拼接特征依次通过前M-1层LSTM进行特征提取得到的特征。

如图2所示，为本公开实施例中头部姿态估计方法一个过程示意图。

图3为本公开头部姿态估计方法另一个实施例的流程图。如图3所示，在图1所示实施例的基础上，在操作108之后，还可以包括：

202，根据所述头部姿态信息，确定驾驶员是否处于分心状态。

204，若确定驾驶员处于分心状态，进行报警和/或进行智能驾驶控制。

基于该实施例，可以根据驾驶员的头部姿态信息，确定驾驶员是否处于分心状态，在驾驶员处于分心状态时，及时进行报警以提示驾驶员安全驾驶，和/或在必要时进行智能驾驶控制，将人工驾驶模式切换为自动驾驶模式，从而实现车辆的安全驾驶，避免交通事故。

可选地，在其中一些可能的实现方式中，操作202中，可以根据头部姿态信息确定驾驶员图像中驾驶员的头部位置、人脸朝向和视线方向，得到头部位置信息、人脸朝向信息和视线方向信息；根据一段时间内的头部位置信息，获取头部位置偏离程度信息，根据一段时间内的人脸朝向信息获取人脸朝向偏离程度信息，根据一段时间内的视线方向信息获取视线方向偏离程度信息；然后，根据所述头部位置偏离程度信息、所述人脸朝向偏离程度信息和所述视线方向偏离程度信息，确定驾驶员是否处于分心状态。

可选地，上述分心状态可以分为不同的等级，通过分心状态的等级来确定驾驶员是否分心以及分心的严重程度，以便采取相应的驾驶控制措施。例如，在其中一种可选示例中，可以设置分心状态包括两个等级：轻微分心状态和严重分心状态。在头部位置偏离程度、人脸朝向偏离程度和视线方向偏离程度均小于第一预设阈值时，认为驾驶员未分心，即确定驾驶员处于未分心状态；在头部位置偏离程度、人脸朝向偏离程度和视线方向偏离程度中任意一个大于第一预设阈值且均不大于第二预设阈值时，认为驾驶员发生轻微分心，确定驾驶员处于分心状态且分心状态的等级为轻微分心状态，其中，第一预设阈值小于第二预设阈值；在头部位置偏离程度、人脸朝向偏离程度和视线方向偏离程度中任意一个大于第二预设阈值时，认为驾驶员发生严重分心，确定驾驶员处于分心状态且分心状态的等级为严重分心状态。其中，第一预设阈值、第二预设阈值的具体取值可以根据需要设置并可以根据实际情况调整。

可选地，在其中一些可能的实现方式中，操作204中，可以在驾驶员处于分心状态的持续时间达到第一预设时长时，输出驾驶员处于分心状态的提示/告警信息；和/或，在驾驶员处于分心状态的持续时间达到第二预设时长时，将驾驶模式切换为自动驾驶模式。其中的第二预设时长大于第一预设时长。

本公开实施例提供的任一种头部姿态估计方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种头部姿态估计方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种头部姿态估计方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本公开头部姿态估计装置一个实施例的结构示意图。该实施例的头部姿态估计装置可用于实现本公开上述各头部姿态估计方法实施例。如图4所示，该实施例的头部姿态估计装置包括：获取模块，第一提取模块，第二提取模块，拼接模块和LSTM模型。其中：

获取模块，用于获取驾驶员图像序列，所述驾驶员图像序列包括多帧驾驶员图像。

第一提取模块，用于利用第一神经网络对所述驾驶员图像序列中的当前帧图像进行特征提取，得到第一特征。

第二提取模块，用于利用第二神经网络对所述当前帧图像和前一帧图像之间的光流图像进行特征提取，得到第二特征；其中，所述前一帧图像为所述驾驶员图像序列中在时序上位于所述当前帧图像之前的一帧图像。

拼接模块，用于将所述第一特征与所述第二特征进行拼接，得到所述当前帧图像对应的拼接特征。

LSTM模型，用于基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息；其中，N为大于0的整数。

基于本公开上述实施例提供的头部姿态估计装置，获取包括多帧驾驶员图像的驾驶员图像序列，然后利用第一神经网络对所述驾驶员图像序列中的当前帧图像进行特征提取，得到第一特征，同时利用第二神经网络对所述当前帧图像和前一帧图像之间的光流图像进行特征提取，得到第二特征，之后，将所述第一特征与所述第二特征进行拼接，得到当前帧图像对应的拼接特征，进而，利用LSTM模型，基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息。本公开实施例中，同时利用了当前帧图像的特征及其前一帧图像之间的光流图像的特征来进行头部姿态预测，这样，既利用了图像的原始信息，也利用了图像的变化信息，有效保证了头部姿态估计的稳定性和准确性；另外，引入了时序神经网络LSTM模型，同时利用当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，在考虑单帧图像的同时考虑了图像之间的时域信息，能够提高头部姿态估计的稳定性和精确性。本公开实施例可以有效避免受驾驶室光线条件、汽车行驶稳定性对采集图像的质量影响等因素导致头部姿态估计对外部环境敏感、稳定性差、准确性低的技术问题，提高头部姿态估计的稳定性、准确性和精确性，以便基于头部姿态信息及时获知驾驶员是否发生注意力分散，在驾驶员发生注意力分散时及时采取相应措施避免交通事故，从而提高驾驶的安全性。

可选地，在其中一些可能的实现方式中，所述第一获取模块，具体用于：通过车辆内至少一个位置部署的红外摄像头进行图像采集，得到所述驾驶员图像序列。

可选地，在其中一些可能的实现方式中，所述第一获取模块，具体用于：在所述车辆处于行驶状态时通过红外摄像头进行图像采集；和/或，在所述车辆的行驶速度超过预设车速时通过红外摄像头进行图像采集；和/或，在检测到所述车辆点火后通过红外摄像头进行图像采集；和/或，在检测到所述车辆的启动指令时通过红外摄像头进行图像采集；和/或，在检测到对所述车辆或所述车辆中部件或***的控制指令时通过红外摄像头进行图像采集。

可选地，在其中一些可能的实现方式中，所述第一获取模包括车辆内至少一个位置部署的红外摄像头。

图5为本公开头部姿态估计装置另一个实施例的结构示意图。如图5所示，与图4所示的实施例相比，该实施例的头部姿态估计装置还包括：红外光补偿器，用于在所述红外摄像头进行图像采集的过程中，利用红外光补偿器进行红外光补偿。

可选地，在其中一些可能的实现方式中，所述第二提取模块包括：计算单元，用于对所述当前帧图像和所述前一帧图像进行计算，得到所述当前帧图像和所述前一帧图像之间的光流图像，所述光流图像包括一帧横向光流图像及一帧纵向光流图像；所述第二神经网络，用于对所述当前帧图像和所述前一帧图像之间模型的光流图像进行特征提取。

可选地，在其中一些可能的实现方式中，所述拼接模块可以通过一个全连接网络实现，也可以通过在第一神经网络或者第二神经网络后设置一个全连接层实现，本公开实施例对此不做限制。

可选地，在其中一些可能的实现方式中，所述LSTM模型，具体用于：基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征、以及所述当前帧图像与所述前N个历史帧图像的权重值，进行头部姿态预测，得到所述当前帧图像中的头部姿态信息。

可选地，在其中一些可能的实现方式中，所述LSTM模型包括M层LSTM，其中，M为大于0的整数。

在其中一些可选示例中，M的取值大于1时，所述LSTM模型中的前M-1层LSTM，分别用于依次对所述当前帧图像对应的拼接特征进行特征提取，得到第三特征；所述LSTM模型中的第M层LSTM，用于基于所述当前帧图像的第三特征和所述前N个历史帧图像的第三特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息；其中，每个所述历史帧图像的第三特征为所述历史帧图像对应的拼接特征依次通过所述前M-1层LSTM进行特征提取得到的特征。

另外，再参见图5，该实施例的头部姿态估计装置还可以包括：

可选地，在其中一些可能的实现方式中，所述确定模块包括：第一确定单元，用于根据所述头部姿态信息确定所述驾驶员图像中驾驶员的头部位置、人脸朝向和视线方向，得到头部位置信息、人脸朝向信息和视线方向信息；第一获取单元，用于根据一段时间内的所述头部位置信息，获取头部位置偏离程度信息；第二获取单元，用于根据一段时间内的人脸朝向信息获取人脸朝向偏离程度信息；第二获取单元，用于根据一段时间内的视线方向信息获取视线方向偏离程度信息；第二确定单元，用于根据所述头部位置偏离程度信息、所述人脸朝向偏离程度信息和所述视线方向偏离程度信息，确定所述驾驶员是否处于分心状态。

可选地，在其中一些可能的实现方式中，所述报警处理模块，具体用于：在所述驾驶员处于分心状态的持续时间达到第一预设时长时，输出所述驾驶员处于分心状态的提示/告警信息；和/或，在所述驾驶员处于分心状态的持续时间达到第二预设时长时，将驾驶模式切换为自动驾驶模式；所述第二预设时长大于所述第一预设时长。

另外，本公开实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的头部姿态估计方法。

另外，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开上述任一实施例所述的头部姿态估计方法。

下面，参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图6为本公开实施例中电子设备的一个应用实施例的结构示意图。如图6所示，电子设备包括一个或多个处理器和存储器。处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现上文所述的本公开的各个实施例的头部姿态估计方法以及/或者其他期望的功能。

在一个示例中，电子设备还可以包括：输入装置和输出装置，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

此外，该输入设备还可以包括例如键盘、鼠标等等。

该输出装置可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的头部姿态估计方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的头部姿态估计方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种头部姿态估计方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取驾驶员图像序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过红外摄像头进行图像采集，包括：

4.根据权利要求2或3所述的方法，其特征在于，还包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述利用第二神经网络对所述当前帧图像和前一帧图像之间的光流图像进行特征提取，包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述基于所述当前帧图像对应的拼接特征和前N个历史帧图像对应的拼接特征进行头部姿态预测，得到所述当前帧图像中的头部姿态信息，包括：

7.根据权利要求1-5任一所述的方法，其特征在于，所述LSTM模型包括M层LSTM，其中，M为大于0的整数；

8.一种头部姿态估计装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-7任一所述的方法。