CN109493305A

CN109493305A - 一种人眼视线与前景图像叠加的方法及***

Info

Publication number: CN109493305A
Application number: CN201810991444.4A
Authority: CN
Inventors: 侯喆; 王晋玮
Original assignee: Momenta Suzhou Technology Co Ltd
Current assignee: Momenta Suzhou Technology Co Ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-03-19

Abstract

一种用于辅助驾驶领域的人眼视线与前景图像叠加的方法及装置，该方法包括有以下步骤：S1：寻找驾驶员的视线位置，得到人眼位置在相机坐标系的三维坐标；S2：利用前景相机拍摄驾驶员的前视野图像；S3：将所述步骤S1的所述相机坐标系的三维坐标与驾驶员前视野图像叠加形成叠加图像，所述叠加图像的第一层显示实时的驾驶员视线位置；所述叠加图像的第二层显示实时所述前景相机拍摄的前视野图像。还包括一采集装置，其可以采集高质量的用于神经网络训练用图像数据，为视线的捕捉提供数据支持。本发明通过该图像的叠加可以为计算机处理视线位置的检测提供多种应用。另外由于采用的高质量的神经网络训练用数据以及与其配套的神经网络，保证了视线检测的精度。

Description

一种人眼视线与前景图像叠加的方法及***

技术领域

本申请涉及人工智能的图像数据处理领域。具体地说，涉及的是计算机处理人脸图像数据与实时前景图像的融合。

背景技术

对人眼视线方向的确定包括对人眼位置的确定，人眼注视点位置的确定，当在真实三维空间中将上述两点位置确定后，两者位置的连线即为人眼视线的方向。然而在辅助驾驶领域或者是自动驾驶领域，对于人眼视线并没有完全利用。

例如CN106886759A，该现有技术中仅是关注到有于头部是否有偏转，当发现头部有偏转，人眼朝向后视镜观看时，说明司机想看到正常驾驶位置上难以看到的盲区，此时会将盲区的图像显示出来。该检测人眼的视线变化不够精细，当头部没有偏转时，***无法查觉出此时驾驶员的意图。

例如CN104619558A，该现有技术中公开的检测***也可以检测人眼视线方向的变化，检查驾驶中视线方向是否对准镜子，当检测到该视线对准镜子，则***默认此时的驾驶员需要观察后视镜，此时会分别根据驾驶员观察的是左后视镜还是右后视镜去分别调整该后视镜的角度，以方便驾驶员能够通过后视镜看到更多的视野。该现有技术存在的缺点在于：必须在人眼大范围的视线角度变换的情况下才能得到该视线方向变化的信息，即仍然存在检测视线变化不够精细的问题。

例如CN107054225A，该现有技术中公开的检测***用于检测驾驶员的人眼视线方向，当发现驾驶中凝视车辆控制面板上的显示屏和/或控制键时，说明此时驾驶员的视线方向不在驾驶室前方，此时将前方视野图像投影到该显示屏上，以方便驾驶员虽然没有注视前方，但仍然能够看到前方物体。该检测装置实际检测的是头部的偏移，仍然转动角度较大，无法做到对人眼视线方向的精确捕捉。

技术方案

为解决上述问题，并且为了将精确得到人眼视线方向与驾驶情景有效的结合，本发明提供了一种视线叠加装置及方法，以解决现有技术中无法得到人眼视线方向精确方向，从而无法与驾驶情景有效结合的技术问题。

本发明的目的是提供一种建立在高精度人眼视线定位基础上的，与前方视线图像形成叠加的方法，以及执行该方法的装置。通过该方法，计算机或者驾驶员能够实时得到此时视线在前方视野中的位置，为后继精确的人机交互以及视线追踪应用提供可能。

本发明的一个方面包括如下技术方案：

一种人眼视线位置与前景图像叠加的方法，该方法包括有以下步骤：

S1：寻找驾驶员的视线位置，得到人眼位置在内景相机(DMS相机)坐标系的三维坐标及视线方向矢量；

S2：利用前景相机拍摄驾驶员的前视野图像作为前景图像；

S3：将所述步骤S1的所述内景相机坐标系的三维坐标与所述步骤S2中的所述前景图像叠加形成叠加图像，所述叠加图像包括两层；其中第一层显示实时的驾驶员视线位置；第二层实时显示所述前景相机拍摄的前景图像；

其中所述步骤S3中，通过标定数据，将所述步骤S1中的内景相机(DMS相机)坐标系下人眼位置和所述视线方向矢量转换到前景相机坐标系下的人眼位置和/或视线方向矢量；

其中所述步骤S1中采用神经网络计算所述视线方向矢量。

优选的，所述步骤S1中得到人眼位置在相机坐标系的三维坐标的方法，包括如下步骤：

S11.固定前景相机与内景相机(DMS相机)，并且标定所述前景相机与所述内景相机的几何位置关系；

S12.采用所述内景相机(DMS相机)采集人脸图像；

S13.将所述人脸图像经过人脸特征点网络模型，得到人脸上两个内眼角，两个外眼角以及鼻尖的五个像素坐标；并计算得到双眼的中心坐标；

S14.由步骤S13得到的所述双眼的中心坐标，经过神经网络的视线位置计算，得到采集的所述人脸图像的视线方向矢量；

S15.通过步骤S13得到的所述双眼的中心坐标以及鼻尖的坐标计算出人眼三维坐标系到内景相机坐标系的旋转矩阵，进而得到所述人眼位置在所述内景相机(DMS相机)坐标系的三维坐标。

优选的，在前景相机坐标系下，已知所述双眼的中心坐标和所述视线方向矢量。以眼睛中心为起点，以所述视线矢量为方向，所述视线矢量与前景图像平面的交点即为在前景图像中驾驶员的注视点；其中人眼在内景相机坐标系下的坐标为Point(x,y,z)，人眼在前景相机下的坐标为Point(u,v,w)；内景相机根据神经网络预测出的视线矢量V(rot_x,rot_y,rot_z)，前景相机下视线矢量V(rot_u,rot_v,rot_w)；将所述内景相机坐标系下的坐标位置变换到所述前景相机坐标下的坐标位置包括以下步骤：

Point(u,v,w)＝R2*(Point(x,y,z))+T2；

V(rot_u,rot_v,rot_w)＝R2*V1(rot_x,rot_y,rot_z)；

以Point(u,v,w)为起点，以V(rot_u,rot_v,rot_w)为方向向量，构造一条射线，其与前景相机像平面存在一个交点，该点即为视线点。其中人眼坐标系到内景相机坐标系变化的旋转矩阵[R1|T1]；所述内景相机到所述前景相机的旋转矩阵[R2|T2]；R1，T1分别代表从人眼坐标系到内景相机坐标系变换的旋转和平移变换参数；R2，T2分别代表从内景相机坐标系到前景相机坐标系变换的旋转和平移变换参数。

优选的，其中步骤S1中经过神经网络的视线位置计算，得到采集的所述人脸图像的视线方向矢量；所述神经网络包含5个卷积模块，每个所述卷积模块采用ShuffleNet结构；以头部图像为输入层，将输入图像标准化为224*224的尺寸，然后使用3*3的卷积核以2个像素为步长进行卷积，使用ReLu激活函数，得到特征图的尺寸为112*112，再使用最大值池化，以2个像素为步长进行降采样，得到尺寸为56*56的特征图。

优选的，所述5个卷积模块使用了混洗单元(shuffle unit)的网络结构；在第一shuffle unit模块的右分支中，56*56的特征图先进行逐点组卷积，然后进行通道混洗(channel shuffle)，再用3*3的卷积核以2个像素为步长进行深度卷积(depthwiseconvolution)，然后进行逐点组卷积。

本发明的另一方面，提供了一种人眼视线位置与前景图像叠加的***，其执行上述的叠加方法。

优选的，其中包括有一计算装置，用于提取一采集装置采集的图像中的人眼特征点位置，并且计算该人眼位置坐标；此外还通过所述人眼凝视位置相机计算相对应的凝视位置坐标，并且计算人眼在所述内景相机(DMS相机)的坐标系下3D位置；所述计算装置包括权利要求4所述的神经网络，该神经网络用于将各角度人脸部图像中的人眼位置图像、视线凝视位置坐标输入到所述神经网络中进行训练，训练得到当输入人脸部图像时，能够精确输出人眼视线方向。

优选的，所述采集装置包括：多个支架，所述多个支架包括多个横向支架和多个纵向支架；所述多个相机固定在多个所述横向支架和纵向支架的交叉位置；一滑轨结构，其包括横向滑轨和纵向滑轨，该滑轨结构能够在支架上沿水平方向和竖直方向自由移动；一光源固定在所述横向滑轨和所述纵向滑轨的交叉位置；所述人眼凝视位置相机与该光源固定，使所述人眼凝视位置相机能随所述光源移动而移动。

优选的，所述多个相机包括有相机的光轴方向与人的面部垂直的方向呈方向45°的相机，该角度保证了拍摄到人脸扭转最大90°的所述人眼图像。

根据本发明的另一方面，还包括上述方法在自动驾驶和/辅助驾驶中的应用。

本发明对通过上述坐标变换的方法可准确的将前景相机坐标系与内景相机坐标系相统一，完成对视线方向与前景图像的叠加。通过该图像的叠加可以为视线位置的检测提供多种应用。这些应用包括例如，驾驶员的视线位置被实时的投放在前挡风玻璃上，而前挡风玻璃上预先投影，例如车内多媒体***信息界面，这些在挡风玻璃上具备两层信息，一层是车内多媒体***信息界面。该图像可以是抬头显示(HUD)方式显示，HUD的显示的透明信息界面出现在前挡风玻璃的一小块区域上；一层是驾驶员的视线位置，具体地说是该视线位置以半透明的圆点叠加在所述HUD***里。因为这两层图像都是半透明的方式，造成的效果是驾驶员既然看清楚视线位置与多媒体***信息，同时并不影响驾驶员对前方物体的观察。通过上述的改造后的HUD***，可以做到驾驶员与车辆驾驶***的精确人机交互。现有技术中对于人机交互，往往需要驾驶员使用手去触摸或点按，这增加了驾驶的危险性，由于本申请具备视线跟踪的高精度，已经可以实现通过人眼视线的变化去精确的选择显示屏上的各个选项；另外还可以用于注意力检测，当驾驶员驾驶注意力不集中时，此时的视线位置往往会在一定的时间阈值下固定在某个位置区域内，或者视线没有关注到驾驶视线前方，此时通过视线凝视位置的检测，对精力不集中进行提醒报警。这也本发明的发明点之一。

采用图像采集装置为自制的图像采集装置，可以高效的实时采集每一视线方向上各个角度的人脸图像。并且该图像采集装置采集的图像数据与后期的神经网络训练搭配使用，互相联系。这是本发明的发明点之一。

对于特定特征点的选择，只需要少量特征点就可以做到对眼睛三维坐标位置的准确确定，既减少了运算负荷，同时又保证了运算精度，这是本发明的发明点之一。

对于数据处理，摆脱了现有技术中将各角度的头部图像数据以及人眼部图像数据分别输入到神经网络中进行训练，然后人为的进行相加处理容易出现过拟合的问题。本发明将人眼图像与人头部姿势图像融合在一起输入到神经网络中，让神经网络自己去计算眼睛和头部叠加的一个过程，这就能极大的提高了精度，最终的视线误差不大于3度，这是本发明的发明点之一。

附图说明

图1所示为人眼视线与前景图像叠加的主要流程；

图2所示为人脸三维坐标系示意图1；

图3所示为内景相机坐标系和人脸坐标系对应关系；

图4a所示为本申请实施例中人脸三维坐标系示意图2；

图4b所示为本申请实施例中人脸三维坐标系示意图3；

图5是人工神经网络学习示意图；

图6是结合头部与人眼图像的神经网络学习示意图。

图7a所示为训练用人脸图像数据采集支架示意图；

图7b所示为训练用人脸图像数据采集示意图。

具体实施例

为了实现上述目的，特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

如图1所示，是将人眼视线与前景图像叠加的方法步骤。该方法包括有以下步骤：

S1：寻找驾驶员的视线位置，得到人眼位置在内景相机坐标系中的三维坐标；

S2：利用前景相机拍摄驾驶员的前视野图像；

S3：将所述步骤S1的所述内景相机坐标系的三维坐标与驾驶员的所述前视野图像叠加形成叠加图像，所述叠加图像的第一层显示实时的驾驶员视线位置；所述叠加图像的第二层显示实时所述前景相机拍摄的前视野图像。

进行坐标转换前需要对两个相机(内景DMS相机和前景相机进行标定)，具体标定的步骤可以是：假设内景相机在车里前挡风玻璃处。首先在车头放一竖直棋盘格，前景相机可以直接摆设到棋盘格图案，根据该照片可以算出前景相机到棋盘格的位置关系。其次，在DMS相机正对面放置一镜子，使得DMS相机可以通过镜子拍摄到棋盘格。另外在镜子一角贴一个棋盘格。根据镜面反射到车前棋盘格可以算出镜子到车前棋盘格位置关系，根据镜子上棋盘格，可以算出DMS相机到镜子的位置关系。因此可以间接求出DMS相机到车前棋盘格位置关系。最后根据车前棋盘格位置关系，可以求出两个相机之间的位置关系。

其中步骤S1中的得到人眼位置在内景相机坐标系的三维坐标的方法包括计算得到双眼的中心坐标，其具体步骤包括：将所述人脸图像经过人脸特征点网络模型，得到人脸上两个内眼角，两个外眼角以及鼻尖的五个像素坐标；并计算得到双眼的中心坐标。

通过人眼4个点(2个外眼角，2个内眼角)以及鼻尖，得到人眼在内景相机坐标系下的3D位置。

人脸图像通过人脸特征点网络模型，可以得到5个特征点在成像平面上的坐标。从左到右(左外眼角，左内眼角，右内眼角，右外眼角)和鼻尖分别为P1，P2，P3，P4，P5。我们采用两个眼睛中心点和鼻尖点共3个点进行计算。具体的坐标计算示例性的如下所示：

以选择5个点为例，计算方法如下：

其中，左眼中心点：l_eye_2D.x＝(P1.x+P2.x)/2

l_eye_2D.y＝(p1.y+p2.y)/2

右眼中心点：

r_eye_2D.x＝(P3.x+p4.x)/2

r_eye_2D.y＝(p3.y+p4.y)/2

鼻尖中心点：n_2D.x＝P5.x

n_2D.y＝P5.y

建立内景人脸三维坐标系，图2所示为本申请实施例中内景图像中人脸三维坐标系示意图。

以两眼中心为坐标原点(0，0，0)。

以平均脸为例子说明：在该坐标系下，

左眼中心坐标l_eye_3D(-0.03，0，0)；

右眼中心坐标r_eye_3D(0.03，0，0)；

鼻尖坐标n_3D(0，0.05，0.02)单位：米。

图3所示为内景相机坐标系和人脸三维坐标系对应关系。

可选的，如图4a所示，通过左外眼角，左内眼角，右内眼角，右外眼角，可以求得一中心点，即图4a中的射线的起点。用这点作为视线起始点，即该射线为视线方向。

如图4b所示，位于被测试者或驾驶员脸部表面的点为人脸关键点模型检测出来的点，其中中心点为眼睛外眼角，内眼角，4个点求得中心点。位于非脸部表面的点为求得的3D点投影到相机平面上的点。可以看到，基本重合，即该方法求得的人脸3D位置准确率很高。连线左外眼角，右外眼角和鼻尖三点，即确认头部平面。垂直于该平面的法向量，用来代表头部姿态。求解两眼睛中心，以及鼻尖的坐标计算出人眼三维坐标系到内景相机坐标系的旋转矩阵的具体步骤包括：

通过3组坐标映射，求解相机坐标系和上述人脸坐标系变换的旋转矩阵。

其中：

x′＝x/z；y′＝y/z；

r²＝x^′2+y^′2；

u＝f_x*x″+C_x；v＝f_y*y″+C_y；

x，y，z分别是变换后的在所述相机坐标系下3D坐标；X，Y，Z分别为所述步骤S22中得到的人脸三维坐标；x′，y′是归一化后的成像平面坐标系下的坐标；x″，y″是去畸变后的成效平面坐标系下的坐标；fx,fy分别是相机水平和纵向方向的焦距；Cx是成像平面原点与像素平面原点x轴方向差值；Cy是成像点与像素平面原点y差值；k1，k2，k3，k4，k5，k6，p₁，p₂是相机畸变参数，通过对相机标定的得到；其中的u，v为所述步骤S21中得到像素平面下人脸坐标；通过u，v值及上述公式得到x，y，z值；再通过公式(1)计算得到R，T的值。

k1，k2，k3，k4，k5，k6，p1，p2是相机畸变参数，通过对相机的标定得到；

计算人脸在前景相机坐标系下3D位置包括使用公式：

Camera(x,y,z)＝[R|T]face(x,y,z)；其中R和T分别代表旋转和平移变换参数，由所述公式(1)计算得到。

另外，上述是简化计算，是将左眼和右眼的两个眼角的4个特征点由左眼和右眼的中心点这2个特特征点位置取代。即3个特征点分别是左眼和右眼的中心以及鼻尖位置。其中以左眼和右眼的中心连线的中心作为视线的起点。上述的3组坐标映射即为左跟中心点、右眼中心点和鼻尖点的坐标映射。

所述步骤S3中的视线叠加具体包括：

得到人眼坐标系到内景相机坐标系变化的旋转矩阵[R1|T1]。通过标定，可以得到内景相机到前景相机的旋转矩阵[R2|T2]。

设人眼在内景相机下的坐标为Point(x,y,z)，人眼在前景相机下的坐标为Point(u,v,w)。

内景相机根据神经网络预测出的视线矢量V(rot_x,rot_y,rot_z)，前景相机下视线矢量V(rot_u,rot_v,rot_w)。其中关于神经网络如何预测出视线矢量可参见本说明书的神经网络部分。将内景相机坐标系下的坐标位置变换到前景相机坐标下的坐标位置包括以下步骤：

Point(u,v,w)＝R2*(Point(x,y,z))+T2

V(rot_u,rot_v,rot_w)＝R2*V1(rot_x,rot_y,rot_z)

以Point(u,v,w)为起点，以V(rot_u,rot_v,rot_w)为方向向量，构造一条射线，必然与前景相机像平面存在一个交点。该点即为视线点。

通过上述公式即可计算出在前景相机坐标***中的交点，即视线在前景相机拍摄的图像中的位置。

上述提到的图像可以是抬头显示(HUD)显示的图像，抬头显示的方式出现在前挡风玻璃的一小块区域上(显示的内容可以是多媒体内容)；一层是驾驶员的视线位置，具体地说是该视线位置以半透明的圆点叠加在所述HUD***里。因为这两层图像都是半透明的方式，造成的效果是驾驶员既然看清楚视线位置与多媒体内容，同时并不影响驾驶员对前方物体的观察。因为采用单相机采集以及神经网络深度学习算法能够做到高精度的定位视线方向，因此在驾驶过程中高精度的注意力提醒成为可以。驾驶***通过检测该视线位置是否注视到应该注视的位置。另外，通过上述的改造后的HUD***，还可以做到驾驶员与车辆驾驶***的精确人机交互。现有技术中对于人机交互，往往需要驾驶员使用手去触摸或点按，这增加了驾驶的危险性，本申请由于具体视线跟踪的高精度，已经可以实现通过人眼视线的变化去精确的选择显示屏上的各个选项。另外还可以用于注意力检测，当驾驶员驾驶注意力不集中时，此时的视线位置往往会在一定的时间阈值下固定在某个位置区域内，或者视线没有关注到驾驶视线前方，此时通过视线凝视位置的检测，对精力不集中进行提醒报警。

优选的，步骤S1中得到人眼位置在相机坐标系的三维坐标会涉及到使用神经网络精确得到视线适量，其中涉及的神经网络具体如下所示：

神经网络(Neural Networks，NN)是由大量的、简单的处理单元(神经元)广泛地互相连接而形成的复杂网络***，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性***。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、模糊信息的处理问题。

在视线方向的解算问题中，现有数据集数量过小，质量不佳，当使用包含人眼区域的头部图片训练神经网络，直接获取用户的视线凝视位置时，会造成很强的过拟合。这种过拟合在网络的实际使用过程中体现为：网络会以头部姿态作为最终输出，而不是人眼的视线方向。为了解决以上问题，本专利专门采集了大量包含人眼区域的头部图像和相应的精确视线方向数据。在深度学习这种数据驱动的方法中，训练数据的数量和质量起着至关重要的作用，本专利采集的大量高质量数据有效地抑制了上述过拟合现象。

本发明使用的网络结构主要包含5个卷积模块，每个卷积模块采用ShuffleNet结构。包含人眼区域的头部图片先标准化为224*224(单位：像素)的尺寸，标准化后的图片进入神经网络输入层，经过神经网络的处理后，最终输出预测人眼凝视位置的经纬度坐标，即人眼视线方向。在神经网络的训练过程中，根据预先定义的损失函数(loss function)，使用神经网络预测的人眼凝视位置经纬度，与数据集中人眼凝视位置的真实经纬度计算损失(loss)，通过反向传播(BP)算法对神经网络分的参数进行训练。通过本专利采集的大量优质数据，神经网络的参数得到了很好的训练，能够通过单张的包含人眼区域的头部图片，精确计算人眼视线方向。

图5是预估人眼视线方向的卷积神经网络的结构图。head_picture为输入层，将输入图像标准化为224*224的尺寸，然后使用3*3的卷积核以2个像素为步长进行卷积，使用ReLu激活函数，得到特征图的尺寸为112*112，再使用最大值池化，以2个像素为步长进行降采样，得到尺寸为56*56的特征图。接下来的5个卷积模块使用了shuffle unit的网络结构，因此仅以前两个模块进行详细说明。在第一个shuffle unit模块的右分支中，56*56的特征图先进行逐点组卷积，然后进行通道混洗(channel shuffle)，再用3*3的卷积核以2个像素为步长进行深度卷积(depthwise convolution)，然后进行逐点组卷积。在第一个shuffleunit的左分支中，56*56的特征图使用3*3的卷积核，以2个像素为步长进行平均池化。第1个shuffle unit的左右分支得到的特征图进行通道级联，得到一系列28*28的特征图。在第二个shuffle unit的右分支中，28*28的特征图先进行逐点组卷积，然后通道混洗，再用3*3的卷积核以1个像素为步长进行深度卷积(depthwise convolution)，然后进行逐点组卷积。在第一个shuffle unit的左分支中，28*28的特征图不进行任何处理。第2个shuffle unit的左右分支得到的特征图对应元素相加，然后使用ReLu激活函数，输出特征图尺寸仍然为28*28。第3个shuffle unit的结构与第1个shuffle unit的结构相同，第3个shuffle unit输出14*14的特征图。第4个shuffle unit的结构与第2个shuffle unit的结构相同，第4个shuffle unit的输出为14*14的特征图。第5个shuffle unit的结构与第1个shuffle unit的结构相同，输出为7*7的特征图。对于第5个shuffle unit输出的7*7的特征图，用7*7的卷积核进行平均池化，得到一系列1*1的特征图，即一个向量。对这个向量中的各个分量进行组合，即可输出angle_size的两个角度。

图6是使用包含人眼区域的头部图像和人眼凝视位置经纬度精确标签的数据，对图5所示神经网络进行训练的示意图。在神经网络的训练过程中，包含人眼区域的头部图像输入gaze CNN，gaze CNN即图5中所描述的网络结构，gaze CNN根据输入的图像预估人眼凝视位置经纬度angle_gaze，根据预先定义的损失函数(loss function)，使用网络预估的人眼凝视位置经纬度angle_gaze，与数据集中人眼凝视位置的真实经纬度标签gaze label计算损失Lg，通过反向传播(BP)算法对神经网络分的参数进行训练。通过本专利采集的大量优质数据，神经网络的参数得到了很好的训练，能够通过单张的包含人眼区域的头部图片，精确计算人眼视线方向。

优选的，所述人眼视线与前景图像叠加的方法还包括有一图像数据采集用装置，该装置包括有：

一采集装置，该采集装置具备多个相机，分别为人脸多角度采集相机以及光源位置相机，分别用于采集各角度的人脸部图像以及对应的人眼凝视位置拍摄的人眼图像；

一计算装置，用于提取所述采集装置采集的图像中的人眼特征点位置，并且计算该人眼位置坐标；此外还通过所述光源位置相机计算相对应的光源位置坐标；该计算装置还用于构建人工智能的神经网络，用于将各角度人脸部图像包括人眼位置图像、视线凝视位置坐标输入到所述神经网络中进行机器学习，训练得到当输入人脸部图像时，能够正确输出视线方向；

一安装于车辆驾驶室内的相机，该相机用于采集驾驶员驾驶时人脸部图像，通过训练后的所述神经网络，输出该人脸部图像实时对应的视线位置。

本发明采用的图像采集***包括有为了上述固定的相机5摆放方便而提供的固定相机5用支架10，该支架10由3个横向平行排列的支架2以及3个纵向排列的支架1组成，在每个支架上都设置有若干基座3，其上可以根据需要设置工业相机或是光源。

每个横向支架2和纵向支架1的截面都是矩形，在每个横向支架2和纵向支架1的延伸方向上，在矩形的四个面上，都设置有条形凹槽或是条形凸起，用作若干基座的导轨；而若干基座3具备与导轨形状相匹配的形状，如凸起或是凹槽。

此外横向支架2和纵向支架1还可具备有与支架延伸方向相互平行的螺纹杆4，螺纹杆4具有外螺纹，在螺纹杆4的端部具有与支架端部相结合的结合部用于固定螺纹杆4，每个螺纹杆4与相应的支架相互平行并保持一定间距，每个基座3除具备有与支架相互匹配的结合部如凸起或是凹槽使得其能够在支架上滑动，还具备螺纹通孔，其内侧壁具有内螺纹，其与螺纹杆4的外螺纹相互配合；基座3的运动原理是通过电机带动螺纹杆旋转，螺纹杆作用于基座的内螺纹，并带动其前后运动，而基座的与支架结合部保证了基座沿支架延伸方向运动。

在每个螺纹杆4的端部除了用于固定的结合部外，还具备小型电机，该小型电机可以驱动螺纹杆4进行旋转，从而控制基座3在导轨上沿导轨延伸的方向往返运动；除此之外，基座3还可以采用步进电机驱动在支架上沿支架延伸方向前后运动。

横向支架2和纵向支架1之间的位置关系也是可以调节的，由于纵向支架1的横截面为矩形，并且在矩形的四个面上，都设置有条形凹槽，横向支架2的端部具备有与该凹槽相适应凸起，使得两者可以结合在一起，并且可以根据需要调整两者之间的位置关系，在位置确定后，通过固定部件固定；与此相对的也可以是纵向支架1卡设在横向支架2的凹槽中。

此外，为了确定人眼注视位置，在支架上还安装有测试用灯；该灯为小型的Led光源，当然也可以采用其他类型的小型光源；该光源为红绿蓝三色Led灯。根据预先设置的程序，显示不同颜色。

使被试者关注某种光源，只有某种颜色的光(例如红色的光)出现才能按下拍照的按钮,其他时刻即便按下按钮也是不能拍照的。

图7b示出了利用上述采集支架的9个相机同时拍的一组图片的示意图。图中右上角为相机序号，另外被试者所举图像为标定板，可以对每个相机进行标定，该标定是通过一与被试者面部在同一平面的标定板完成标定的。每完成一次坐标的图像采集，便进行一次标定。在该采集过程中，因为与光源相连的相机需要移动等动作，这会造成支架的移动，这一移动致使各相机脱离原始位置。因此为了采集图像的准确性，需要采用一标定板对每个相机进行重新标定

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种人眼视线位置与前景图像叠加的方法，该方法包括有以下步骤：

S2：利用前景相机拍摄驾驶员的前视野图像作为前景图像；

其中所述步骤S1中采用神经网络计算所述视线方向矢量。

2.根据权利要求1所述的方法，所述步骤S1中得到人眼位置在所述内景相机坐标系的三维坐标的方法，包括如下步骤：

S12.采用所述内景相机采集人脸图像；

S14.由步骤S13得到的所述双眼的中心坐标，经过所述神经网络的视线位置计算，得到采集的所述人脸图像的视线方向矢量；

S15.通过步骤S13得到的所述双眼的中心坐标以及鼻尖的坐标计算出人眼三维坐标系到内景相机坐标系的旋转矩阵，进而得到所述人眼位置在所述内景相机坐标系的三维坐标。

3.根据权利要求1-2所述的方法，在所述前景相机坐标系下，已知所述双眼的中心坐标和所述视线方向矢量。以眼睛中心为起点，以所述视线矢量为方向，所述视线矢量与前景图像平面的交点即为在前景图像中驾驶员的注视点；其中人眼在内景相机坐标系下的坐标为Point(x,y,z)，人眼在前景相机下的坐标为Point(u,v,w)；内景相机根据神经网络预测出的视线矢量V(rot_x,rot_y,rot_z)，前景相机下视线矢量V(rot_u,rot_v,rot_w)；将所述内景相机坐标系下的坐标位置变换到所述前景相机坐标下的坐标位置包括以下公式：

Point(u,v,w)＝R2*(Point(x,y,z))+T2；

V(rot_u,rot_v,rot_w)＝R2*V1(rot_x,rot_y,rot_z)；

其中以Point(u,v,w)为起点，以V(rot_u,rot_v,rot_w)为方向向量，构造一条射线，其与前景相机像平面存在一个交点，该点即为视线点。其中人眼坐标系到内景相机坐标系变化的旋转矩阵[R1|T1]；所述内景相机到所述前景相机的旋转矩阵[R2|T2]；R1，T1分别代表从人眼坐标系到内景相机坐标系变换的旋转和平移变换参数；R2，T2分别代表从内景相机坐标系到前景相机坐标系变换的旋转和平移变换参数。

4.根据权利要求1-3所述的方法，其中步骤S1中经过所述神经网络的视线位置计算，得到采集的所述人脸图像的视线方向矢量；所述神经网络包含5个卷积模块，每个所述卷积模块采用ShuffleNet结构；以头部图像为输入层，将输入图像标准化为224*224的尺寸，然后使用3*3的卷积核以2个像素为步长进行卷积，使用ReLu激活函数，得到特征图的尺寸为112*112，再使用最大值池化，以2个像素为步长进行降采样，得到尺寸为56*56的特征图。

5.根据权利要求4所述的方法，所述5个卷积模块使用了混洗单元(shuffle unit)的网络结构；在第一shuffle unit模块的右分支中，56*56的特征图先进行逐点组卷积，然后进行通道混洗(channel shuffle)，再用3*3的卷积核以2个像素为步长进行深度卷积(depthwise convolution)，然后进行逐点组卷积。

6.一种人眼视线位置与前景图像叠加的***，其执行权利要求1-5所述的叠加方法。

7.一种人眼视线位置与前景图像叠加的***，其中包括有一计算装置，用于提取一采集装置采集的图像中的人眼特征点位置，并且计算该人眼位置坐标；此外还通过所述人眼凝视位置相机计算相对应的凝视位置坐标，并且计算人眼在所述内景相机(DMS相机)的坐标系下3D位置；所述计算装置包括权利要求4所述的神经网络，该神经网络用于将各角度人脸部图像中的人眼位置图像、视线凝视位置坐标输入到所述神经网络中进行训练，训练得到当输入人脸部图像时，能够精确输出人眼视线方向。

8.根据权利要求7所述的***，所述采集装置包括：多个支架，所述多个支架包括多个横向支架和多个纵向支架；所述多个相机固定在多个所述横向支架和纵向支架的交叉位置；一滑轨结构，其包括横向滑轨和纵向滑轨，该滑轨结构能够在支架上沿水平方向和竖直方向自由移动；一光源固定在所述横向滑轨和所述纵向滑轨的交叉位置；所述人眼凝视位置相机与该光源固定，使所述人眼凝视位置相机能随所述光源移动而移动。

9.根据权利要求8所述的***，所述多个相机包括有相机的光轴方向与人的面部垂直的方向呈方向45°的相机，该角度保证了拍摄到人脸扭转最大90°的所述人眼图像。

10.根据权利要求1-5所述的方法在自动驾驶和/辅助驾驶中的应用。