CN107909061B - 一种基于不完备特征的头部姿态跟踪装置及方法 - Google Patents
一种基于不完备特征的头部姿态跟踪装置及方法 Download PDFInfo
- Publication number
- CN107909061B CN107909061B CN201711286561.2A CN201711286561A CN107909061B CN 107909061 B CN107909061 B CN 107909061B CN 201711286561 A CN201711286561 A CN 201711286561A CN 107909061 B CN107909061 B CN 107909061B
- Authority
- CN
- China
- Prior art keywords
- face
- head
- camera
- picture
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 230000001815 facial effect Effects 0.000 claims abstract description 18
- 238000010606 normalization Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012790 confirmation Methods 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 6
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 claims description 4
- 230000008439 repair process Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 210000003128 head Anatomy 0.000 description 86
- 230000003993 interaction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 206010037714 Quadriplegia Diseases 0.000 description 1
- 208000012886 Vertigo Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 231100000889 vertigo Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2016—Rotation, translation, scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/179—Human faces, e.g. facial parts, sketches or expressions metadata assisted face recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于不完备特征的头部姿态跟踪装置及方法,基于计算机视觉的头部姿态检测***,对实时采集的视频流进行归一化处理,然后通过CNN训练的模型进行特征确认是否有面部,如检测面部失败,则通过训练过的对抗网络模型将面部特征不完整的部分进行补全;在视频中跟踪人脸的位置,然后通过受稀疏约束的模型来标记面部特征点位置,利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θxθyθz],再发送给随动云台,因而,本发明能够提供准确的头部位置姿态信息,实时性高且鲁棒性好。
Description
技术领域
本发明属于目标检测跟踪和远程控制技术领域,更为具体地讲,涉及一种基于不完备特征的头部姿态跟踪装置及方法。
背景技术
头部姿态检测广泛应用于虚拟现实与人机交互、智能机器人控制和疲劳驾驶检测等领域。
统计数据表明,25%—30%的道路交通事故是由驾驶人注意力分散造成的。研究驾驶人的头部姿态,进而对驾驶人的注意力进行分析,对于降低交通事故的发生率。因此,头部姿态检测对于分析驾驶人的驾驶行为、驾驶人的精神状态等具有重要意义。
虚拟现实应用是一个高度逼真地模拟人在自然环境中的视、听、动等行为的人机交互技术。虚拟现实的交互是通过人类自然技能与虚拟环境进行交互观察与操作,这种操作涉及视觉、听觉、触觉等多种感知功能。利用头部姿态检测与跟踪技术的人机交互***能使现实世界与虚拟世界建立有机联系,构建更加逼真的虚拟现实环境,同时也有助于对高级的主动视觉反馈***的研究
智能移动服务机器人是头部姿态检测的重要应用领域,智能轮椅作为一种具有代表性的智能移动服务机器人,是当前研究的热点。但是在目前应用的电动轮椅中,使用者还是主要靠操纵杆或按钮来手动控制轮椅的运动,而对于一些严重残疾人士如四肢瘫痪者,摇杆控制以及部分肢体控制例如手势控制等方法受到了很大的制约,因此,头势控制作为一种新型的人机交互方式成为了近年来研究的热点。
目前采用的头部姿态检测方法分为以下几类:
1、佩戴运动传感器方法:此类方法通过在测试对象头部安装加速度计和陀螺仪传感器,通过接收传感器运动数据判断头姿,此类方法但需要佩戴装置,用户体验较差,且存在零度漂移问题,每次使用之前需要校准,操作繁琐。
2、LED标定方法:通过佩戴有一定数量LED的头套,利用摄像头捕捉头套图像,再根据LED的位置判断当前的位置,同样,此方法精度高,但仍需佩戴装置并且进行校准。
3、基于图像的人脸头部姿态估计算法:主要分为基于模型的方法和基于人脸表观的方法。其中,基于模型的方法实现简单、计算高效准确、易于理解,由于受非约束坏境中的投影几何形变、背影光照变化、前景遮挡问题和低分辨率等因素的影响,而准确的特征点检测在姿态变化较大,光线条件不好的条件下仍然是一个急待解决的挑战。使得不完备特征情况下的头部姿态多自由度估计一直是一个亟需解决的问题。
为了解决上述方法存在的问题,本发明采用计算机视觉与传感器融合检测头部姿态的方法,并利用深度学习解决不完备特征时目标跟踪不准确的问题,利用深度卷积神经网络解决头部姿态检测中受非约束坏境中的投影几何形变、背影光照变化、前景遮挡问题和低分辨率等问题,较为准确地实现不完备特征情况下的头部姿态多自由度估计。
同时控制摄像头跟随操作人员头部姿态进行现场视频采集,解决操作复杂等问题,采用双目视觉摄像头,模拟人眼解决视场小、缺乏深度信息等问题。采取环幕显示与VR头盔显示等不同显示方法,对不同的检测方案与不同的需求提供解决方案。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于不完备特征的头部姿态跟踪装置及方法,基于深度学习的头部姿态识别和不完备特征的头部姿态识别,提供准确的头部位置姿态信息,实时性高且鲁棒性好。
为实现上述发明目的,本发明一种基于不完备特征的头部姿态跟踪装置,其特征在于,包括:连接本地控制台和随动云台的PC机;
所述本地控制台包括图像传感器和惯性传感器;图像传感器包括一组固定在操作人员面部前方,用于拍摄驾驶员面部图像的单目摄像头和红外摄像头,以及固定在操作人员头部左右两侧各一组的单目摄像头和红外摄像头;其中,单目摄像头用于装置白天工作,红外摄像头用于夜间工作;惯性传感器包括三轴陀螺仪、三轴磁力计和三轴加速度计;通过图像传感器和惯性传感器的互补特性,采集驾驶员头部姿态视频并上传至PC机;
所述PC机收到本地控制台上传的视频后,进行归一化处理,然后通过CNN训练的模型进行特征,确认是否有面部,如检测面部失败,则通过训练过的对抗网络模型将面部特征不完整的部分进行补全;在视频中跟踪人脸的位置,然后通过受稀疏约束的模型来标记面部特征点位置,利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz],再发送给随动云台;
所述随动云台包括双目视觉摄像头及其驱动电机,双目视觉摄像头用于实时采集工作环境图片,并上传至PC机,用于驾驶员观看,驱动电机根据头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz]驱动双目摄像头跟随操作人员头部动作。
本发明还提供一种基于不完备特征的头部姿态跟踪方法,其特征在于,包括以下步骤:
(1)、图像采集
在白天,通过单目摄像头采集驾驶员头部姿态图片,在夜间通过红外摄像头采用驾驶员头部姿态图片,再将采集的图片上传至PC机;
(2)、图片归一化
PC机收到图片后,先对图片进行空间尺度归一化和灰度幅值归一化,然后调节图像的对比度,并采用Gamma曲线校正方法进行校正;
(3)、面部特征确认
将归一化后的图片通过卷积神经网络CNN模型进行确认,如果卷积神经网络确认面部特征成功,则执行步骤(5);如果卷积神经网络确认面部特征失败,则执行步骤(4);
(4)、采用对抗网络模型对面部不完备特征进行补全
采用对抗网络模型对面部不完备特征进行去遮挡或还原,再通过对抗网络模型进行像素级别的自动修复与平滑,完成特征完备部分的图像细节保持和特征缺失部分的自动修复,然后进入步骤(5);
(5)、面部跟踪
(5.1)、通过金字塔Lucas Kannade光流法对当前帧图片中定位到的人脸特征点(xi,yi)得到下一帧的人脸特征点(xi+1,yi+1),再通过金字塔Lucas Kannade光流法反向跟踪点(xi+1,yi+1),估计出上一帧的人脸特征点(xi,yi),将(xi,yi)与(xi+1,yi+1)之间的欧式距离标记为正向反向误差di;
(6)、面部特征点描述
(6.1)、将每一帧中的人脸框划分为4×4大小相等的cell,16个相邻的cell构成一个人脸框,用block表示;
(6.2)、计算单个cell中某一像素点(x,y)的横向梯度H(x,y)和纵向梯度V(x,y),并据此计算出每个像素点的梯度方向值;
H(x,y)=v(x+1,y)-v(x-1,y)
V(x,y)=v(x,y+1)-v(x,y-1)
其中,v(x,y)为该像素点的像素值;
(6.3)、计算每个像素点(x,y)的梯度方向G(x,y)和幅值m(x,y);
m(x,y)=[H(x,y)2+V(x,y)2]1/2
G(x,y)=tan-1(V(x,y)/H(x,y))
(6.4)、然后每个cell按梯度方向G(x,y)投票,权重为幅值m(x,y),这样获得每个cell的9维向量;再将同一个block中的所有cell的向量连接起来得到一个block的特征向量,将所有的block向量连接起来得到整个人脸框的HOG特征矩阵ψk;
(6.5)、通过下式对稀疏系数γk进行估计,获得对特征的稀疏编码:
Sk+1=Sk+Rkf(γk)
其中,是第i帧人脸图像Ii的人脸形状Si提取的形状索引特征,D是人脸形状种特征点周围纹理特征的稀疏字典,T是常数,k=1,2,…,K,K为常数,循环上述算式,计算出每次迭代中的稀疏系数γk,得到线性回归矩阵Rk,s.t表示,|| ||表示求范数;
(7)、头部姿态参数估计
(7.1)、采用正交投影照相机算法将人脸特征点矩阵Sk+1投影到3D空间,构建人脸3D模型;
(7.2)、由2D、3D图像的坐标关系反解出旋转矩阵R3×3:
其中s、K、R、T分别为尺度因子常数、相机成像模型、旋转矩阵以及平移向量;
(7.3)、由欧拉角与旋转矩阵R3×3的关系,获得头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz],计算方法为:
获取到人脸与摄像头的角度关系,进而得出头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz]
(8)、装置控制与视频显示
双目视觉摄像头实时采集工作环境图片,并上传至PC机,用于驾驶员观看,同时,驱动电机根据头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz]驱动双目摄像头跟随操作人员头部动作。
本发明的发明目的是这样实现的:
本发明一种基于不完备特征的头部姿态跟踪装置及方法,基于计算机视觉的头部姿态检测***,对实时采集的视频流进行归一化处理,然后通过CNN训练的模型进行特征确认是否有面部,如检测面部失败,则通过训练过的对抗网络模型将面部特征不完整的部分进行补全;在视频中跟踪人脸的位置,然后通过受稀疏约束的模型来标记面部特征点位置,利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz],再发送给随动云台,因而,本发明能够提供准确的头部位置姿态信息,实时性高且鲁棒性好。
同时,本发明一种基于不完备特征的头部姿态跟踪装置及方法还具有以下
有益效果:
(1)、通过设计一种深层卷积神经网络结构,实现复杂函数逼近,其特有的层次结构能够对数据局部特征进行多层次抽象化的学***滑问题;
(2)、通过设计基于生成对抗网络的不完备人脸特征的修复和检测端到端的算法框架,能够检测出特定形状与分布的特征缺失,并且通过网络进行像素级别的自动修复与平滑,完成特征完备部分的图像细节保持和特征缺失部分的自动修复,使用受稀疏约束的重构模型来迭代搜索人脸特征点位置,使得后续的头部姿态识别正确率得到提高,并且提高了网络的优化速度;
(3)、同时本发明采用了一种视觉与多传感器融合的头部姿态检测方法,利用摄像头实时拍摄操作人员的头部视频,由图像处理算法实时输出头部动作角度描述,再将视觉检测输出与多传感器检测输出相融合,最终得出人体头部姿态的角度信息。这种方法可以解决单纯采用惯性测量单元检测头部姿态所面临的惯性漂移等问题,也可以补偿在负责光照条件下的计算机视觉识别不精确的问题,进一步提高对人体头部姿态的检测精度。
附图说明
图1是本发明一种基于不完备特征的头部姿态跟踪装置原理图;
图2是一种基于不完备特征的头部姿态跟踪方法流程图;
图3是人体头部姿态角度标识图;
图4是适合头部特征检测的摄像头布局;
图5是深度神经网络结构图;
图6是270度多通道环幕显示效果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种基于不完备特征的头部姿态跟踪装置原理图。
在本实施例中,如图1所示,本发明一种基于不完备特征的头部姿态跟踪装置,包括:连接本地控制台和随动云台的PC机;
其中,本地控制台包括图像传感器和惯性传感器;图像传感器包括一组固定在操作人员面部前方,用于拍摄驾驶员面部图像的单目摄像头和红外摄像头,以及固定在操作人员头部左右两侧各一组的单目摄像头和红外摄像头;其中,单目摄像头用于装置白天工作,红外摄像头用于夜间工作;惯性传感器包括三轴陀螺仪、三轴磁力计和三轴加速度计;通过图像传感器和惯性传感器的互补特性,采集驾驶员头部姿态视频并上传至PC机;
PC机收到本地控制台上传的视频后,进行归一化处理,然后通过CNN训练的模型进行特征,确认是否有面部,如检测面部失败,则通过训练过的对抗网络模型将面部特征不完整的部分进行补全;在视频中跟踪人脸的位置,然后通过受稀疏约束的模型来标记面部特征点位置,利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz],再发送给随动云台;
随动云台包括双目视觉摄像头及其驱动电机,双目视觉摄像头用于实时采集工作环境图片,并上传至PC机,用于驾驶员观看,驱动电机根据头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz]驱动双目摄像头跟随操作人员头部动作。
在本实施例中,三个模块间采用无线通信的方式,具体实现采用两个工业级路由器分别置于本地与远程端,采用5GHz频道,传输距离可达2km,不仅保障了视频传输与控制命令传输的实时性,还保障了远程控制的更大范围。
下面我们结合图2,对本发明一种基于不完备特征的头部姿态跟踪方法进行详细说明,具体包括以下步骤:
S1、图像采集
在本实施例中,分别采用计算机视觉与头戴惯性测量单元融合法头部姿态检测法。头部姿态的描述方法如图3所示,人体头部姿态可以采用Yaw、Pitch、Roll三个维度的角度来完整描述,Yaw是指头部的左右旋转产生的角度,也叫偏航角;Pitch是指头部的上下旋转产生的角度,也叫俯仰角;而Roll是指头部的平面内旋转产生的角度,也叫滚转角。
如图4所示,先进行适合头部特征检测的摄像头布局,然后采用一组固定在操作人员面部前方,用于拍摄驾驶员面部图像的单目摄像头和红外摄像头,以及固定在操作人员头部左右两侧各一组的单目摄像头和红外摄像头;在白天,通过单目摄像头采集驾驶员头部姿态图片,在夜间通过红外摄像头采用驾驶员头部姿态视频,再将采集的视频上传至PC机;
S2、图片归一化
PC机收到视频后,先对视频中的每一帧图片进行空间尺度归一化和灰度幅值归一化,处理成统一尺寸的黑白图像,然后调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时可以抑制噪音的干扰,最后采用Gamma曲线校正方法进行校正;
S3、面部特征确认
面部特征确认基础的思路是:设脸上存在的68个特殊点(被称为landmarks):下巴的顶部、眼睛的外沿、眉毛的内沿等等。采用dlib库中现有的人脸检测器对人脸进行初步识别,标定人脸的基本范围,并传输到特征提取与人脸跟踪模块。
将归一化后的图片通过卷积神经网络CNN模型进行确认,如果卷积神经网络确认面部特征成功,则执行步骤S5;如果卷积神经网络确认面部特征失败,则执行步骤S4;
在本实施例中,卷积神经网络CNN模型主要包括2个卷积层(含2个采样层),后接1个全连接层和soft-max输出层,如图5所示。为了提取能够预测输入图片中人脸头部偏转角度的多个特征,需要使用不同的卷积核进行卷积操作。
S4、采用生成对抗网络模型对面部不完备特征进行补全
采用生成对抗网络模型对面部不完备特征进行去遮挡或还原,此算法模型主要由1个生成器、2个判别器以及1个语义解析网络组成。生成器用于最终生成去遮挡的人脸图形,生成器的编码器由VGG网络顶端增加2层卷积层及1层池化层,并增加一层链接层组成;2个判别器分别为1个局部判别器与1个全局判别器,局部判别器用于判别生成器合成的图像是否正确,全局判别器用于判别整个图像的可信度;语义解析网络是1个预先已经训练好的网络,用于平滑生成部分与原始已经存在部分。
图像通过生成对抗网络模型进行像素级别的自动修复与平滑,完成特征完备部分的图像细节保持和特征缺失部分的自动修复,然后进入步骤S5;
S5、面部跟踪
S5.1、通过金字塔Lucas Kannade光流法对当前帧图片中定位到的人脸特征点(xi,yi)得到下一帧的人脸特征点(xi+1,yi+1),再通过金字塔Lucas Kannade光流法反向跟踪点(xi+1,yi+1),估计出上一帧的人脸特征点(xi,yi),将(xi,yi)与(xi+1,yi+1)之间的欧式距离标记为正向反向误差di;
S6、面部特征点描述
S6.1、将每一帧中的人脸框划分为4×4大小相等的cell,16个相邻的cell构成一个人脸框,用block表示;
S6.2、计算单个cell中某一像素点(x,y)的横向梯度H(x,y)和纵向梯度V(x,y),并据此计算出每个像素点的梯度方向值;
H(x,y)=v(x+1,y)-v(x-1,y)
V(x,y)=v(x,y+1)-v(x,y-1)
其中,v(x,y)为该像素点的像素值;
S6.3、计算每个像素点(x,y)的梯度方向G(x,y)和幅值m(x,y);
m(x,y)=]H(x,y)2+V(x,y)2]1/2
G(x,y)=tan-1(V(x,y)/H(x,y))
S6.4、然后每个cell按梯度方向G(x,y)投票,权重为幅值m(x,y),这样获得每个cell的9维向量;再将同一个block中的所有cell的向量连接起来得到一个block的特征向量,将所有的block向量连接起来得到整个人脸框的HOG特征矩阵ψk;
S6.5、通过下式对稀疏系数γk进行估计,获得对特征的稀疏编码:
Sk+1=Sk+Rkf(γk)
其中,是第i帧人脸图像Ii的人脸形状Si提取的形状索引特征,D是人脸形状种特征点周围纹理特征的稀疏字典,T是常数,k=1,2,…,K,K为常数,循环上述算式,计算出每次迭代中的稀疏系数γk,得到线性回归矩阵Rk,s.t.表示受条件约束,|| ||表示求范数;
S7、头部姿态参数估计
S7.1、采用正交投影照相机算法将人脸特征点矩阵Sk+1投影到3D空间,构建人脸3D模型;
S7.2、由2D、3D图像的坐标关系反解出旋转矩阵R3×3:
其中s、K、R、T分别为尺度因子常数、相机成像模型、旋转矩阵以及平移向量;
S7.3、由欧拉角与旋转矩阵R3×3的关系,获得头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz],计算方法为:
获取到人脸与摄像头的角度关系,进而得出头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz]
S8、装置控制与视频显示
通过无线传输将头部角度信息Pitch、Yaw、Roll三个角度值[θx θy θz]的控制信号传送到远程随动云台,由角度控制信号驱动随动云台转动,双目摄像安装在云台上,实时采集工作环境现场视频,并上传至PC机,用于操作人员观看。
在本实施例中,视频信号显示:经过视频信号的处理,视频信号的显示采用VR头盔显示与270度多通道环幕显示两种方式,两种方式可以自由切换。
VR头盔显示将人体的对外视觉、听觉封闭,并分别在左右眼屏幕上显示左右眼的图像,使人在大脑中呈现立体画面,更具有沉浸感,使得操作人员有身临其境的感觉,更好的还原现场效果。但可能会产生眩晕感,部分操作人可能不适应。
270度多通道环幕显示,在270度多通道环幕电视屏幕上通过边缘重叠、几何校正、亮度消隐的处理方式将双目摄像头视频融合为一幅画面显示到电视屏幕上。这种显示方法视场宽、视野广有立体感和沉浸感,而且人体不必佩戴显示设备,可以提供不能适应VR头盔眩晕感的用户使用,且更为舒适简洁。显示的效果如图6所示。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于不完备特征的头部姿态跟踪装置,其特征在于,包括:连接本地控制台和随动云台的PC机;
所述本地控制台包括图像传感器和惯性传感器;图像传感器包括一组固定在操作人员面部前方,用于拍摄驾驶员面部图像的单目摄像头和红外摄像头,以及固定在操作人员头部左右两侧各一组的单目摄像头和红外摄像头;其中,单目摄像头用于装置白天工作,红外摄像头用于夜间工作;惯性传感器包括三轴陀螺仪、三轴磁力计和三轴加速度计;通过图像传感器和惯性传感器的互补特性,采集驾驶员头部姿态视频并上传至PC机;
所述PC机收到本地控制台上传的视频后,进行归一化处理,然后通过CNN模型进行面部特征确认,确认是否有面部,如检测面部失败,则通过训练过的对抗网络模型将面部特征不完整的部分进行补全;在视频中跟踪人脸的位置,然后通过受稀疏约束的模型来标记面部特征点位置,利用PnP算法得出头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz],再发送给随动云台;
所述随动云台包括双目视觉摄像头及其驱动电机,双目视觉摄像头用于实时采集工作环境图片,并上传至PC机,用于驾驶员观看,驱动电机根据头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz]驱动双目摄像头跟随操作人员头部动作。
2.一种基于不完备特征的头部姿态跟踪方法,其特征在于,包括以下步骤:
(1)、图像采集
在白天,通过单目摄像头采集驾驶员头部姿态图片,在夜间通过红外摄像头采用驾驶员头部姿态图片,再将采集的图片上传至PC机;
(2)、图片归一化
PC机收到图片后,先对图片进行空间尺度归一化和灰度幅值归一化,然后调节图像的对比度,并采用Gamma曲线校正方法进行校正;
(3)、面部特征确认
将归一化后的图片通过卷积神经网络CNN模型进行确认,如果卷积神经网络确认面部特征成功,则执行步骤(5);如果卷积神经网络确认面部特征失败,则执行步骤(4);
(4)、采用对抗网络模型对面部不完备特征进行补全
采用对抗网络模型对面部不完备特征进行去遮挡或还原,再通过对抗网络模型进行像素级别的自动修复与平滑,完成特征完备部分的图像细节保持和特征缺失部分的自动修复,然后进入步骤(5);
(5)、面部跟踪
(5.1)、通过金字塔Lucas Kannade光流法对当前帧图片中定位到的人脸特征点(xi,yi)得到下一帧的人脸特征点(xi+1,yi+1),再通过金字塔Lucas Kannade光流法反向跟踪点(xi+1,yi+1),估计出上一帧的人脸特征点(xi,yi),将(xi,yi)与(xi+1,yi+1)之间的欧式距离标记为正向反向误差di;
(6)、面部特征点描述
(6.1)、将每一帧中的人脸框划分为4×4大小相等的cell,16个相邻的cell构成一个人脸框,用block表示;
(6.2)、计算单个cell中某一像素点(x,y)的横向梯度H(x,y)和纵向梯度V(x,y),并据此计算出每个像素点的梯度方向值;
H(x,y)=v(x+1,y)-v(x-1,y)
V(x,y)=v(x,y+1)-v(x,y-1)
其中,v(x,y)为该像素点的像素值;
(6.3)、计算每个像素点(x,y)的梯度方向G(x,y)和幅值m(x,y);
m(x,y)=[H(x,y)2+V(x,y)2]1/2
G(x,y)=tan-1(V(x,y)/H(x,y))
(6.4)、然后每个cell按梯度方向G(x,y)投票,权重为幅值m(x,y),这样获得每个cell的9维向量;再将同一个block中的所有cell的向量连接起来得到一个block的特征向量,将所有的block向量连接起来得到整个人脸框的HOG特征矩阵ψk;
(6.5)、通过下式对稀疏系数γk进行估计,获得对特征的稀疏编码:
Sk+1=Sk+Rkf(γk)
其中,是第i帧人脸图像Ii的人脸形状Si提取的形状索引特征,D是人脸形状种特征点周围纹理特征的稀疏字典,T是常数,k=1,2,·,K,K为常数,循环上述算式,计算出每次迭代中的稀疏系数γk,得到线性回归矩阵Rk,s.t.表示受条件约束,|| ||表示求范数;
(7)、头部姿态参数估计
(7.1)、采用正交投影照相机算法将人脸特征点矩阵Sk+1投影到3D空间,构建人脸3D模型;
(7.2)、由2D、3D图像的坐标关系反解出旋转矩阵R3×3:
其中s、K、R、T分别为尺度因子常数、相机成像模型、旋转矩阵以及平移向量;
(7.3)、由欧拉角与旋转矩阵R3×3的关系,获得头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz],计算方法为:
获取到人脸与摄像头的角度关系,进而得出头部姿态的Pitch、Yaw、Roll三个角度值[θxθy θz];
(8)、装置控制与视频显示
双目视觉摄像头实时采集工作环境图片,并上传至PC机,用于驾驶员观看,同时,驱动电机根据头部姿态的Pitch、Yaw、Roll三个角度值[θx θy θz]驱动双目摄像头跟随操作人员头部动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711286561.2A CN107909061B (zh) | 2017-12-07 | 2017-12-07 | 一种基于不完备特征的头部姿态跟踪装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711286561.2A CN107909061B (zh) | 2017-12-07 | 2017-12-07 | 一种基于不完备特征的头部姿态跟踪装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107909061A CN107909061A (zh) | 2018-04-13 |
CN107909061B true CN107909061B (zh) | 2021-03-30 |
Family
ID=61853870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711286561.2A Active CN107909061B (zh) | 2017-12-07 | 2017-12-07 | 一种基于不完备特征的头部姿态跟踪装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107909061B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963273B2 (en) | 2018-04-20 | 2021-03-30 | Facebook, Inc. | Generating personalized content summaries for users |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11307880B2 (en) | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
CN108564129B (zh) * | 2018-04-24 | 2020-09-08 | 电子科技大学 | 一种基于生成对抗网络的轨迹数据分类方法 |
CN109377448B (zh) * | 2018-05-20 | 2021-05-07 | 北京工业大学 | 一种基于生成对抗网络的人脸图像修复方法 |
CN108932693B (zh) * | 2018-06-15 | 2020-09-22 | 中国科学院自动化研究所 | 基于人脸几何信息的人脸编辑补全方法及装置 |
CN109377577A (zh) * | 2018-09-17 | 2019-02-22 | 广州杰赛科技股份有限公司 | 一种基于人脸识别的考勤方法、***及存储装置 |
CN109871794A (zh) * | 2019-01-31 | 2019-06-11 | 浙江工业大学 | 一种基于深度学习的网球发球机发球方法 |
CN109934116B (zh) * | 2019-02-19 | 2020-11-24 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
CN112069863B (zh) * | 2019-06-11 | 2022-08-19 | 荣耀终端有限公司 | 一种面部特征的有效性判定方法及电子设备 |
CN110414400B (zh) * | 2019-07-22 | 2021-12-21 | 中国电建集团成都勘测设计研究院有限公司 | 一种施工现场安全帽穿戴自动检测方法及*** |
CN110659566B (zh) * | 2019-08-15 | 2020-12-18 | 重庆特斯联智慧科技股份有限公司 | 一种遮挡状态下的目标跟踪方法及*** |
CN112825132B (zh) * | 2019-11-21 | 2022-06-03 | 腾讯美国有限责任公司 | 用于生成特征图的方法、装置和可读存储介质 |
CN111259802A (zh) * | 2020-01-16 | 2020-06-09 | 东北大学 | 一种基于头部姿态估计的辅助失语瘫痪病人需求表达方法 |
CN111486962A (zh) * | 2020-04-15 | 2020-08-04 | 易造机器人(深圳)有限公司 | 基于红外成像的远距离人体面部测温***及实现方法 |
CN111563490B (zh) * | 2020-07-14 | 2020-11-03 | 北京搜狐新媒体信息技术有限公司 | 一种人脸关键点跟踪方法、装置及电子设备 |
CN111860400B (zh) * | 2020-07-28 | 2024-06-07 | 平安科技(深圳)有限公司 | 人脸增强识别方法、装置、设备及存储介质 |
CN112347974A (zh) * | 2020-11-22 | 2021-02-09 | 上海祐云信息技术有限公司 | 人体头部姿态估计算法及操作员工作状态识别*** |
CN113096427B (zh) * | 2021-03-30 | 2022-08-26 | 北京三快在线科技有限公司 | 一种信息显示方法及装置 |
CN113297997B (zh) * | 2021-05-31 | 2022-08-02 | 合肥工业大学 | 非接触式生理检测机器人的6自由度人脸追踪方法和装置 |
CN113705440B (zh) * | 2021-08-27 | 2023-09-01 | 华中师范大学 | 一种面向教育机器人视觉理解的头部姿态估计方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270035A (zh) * | 2010-06-04 | 2011-12-07 | 三星电子株式会社 | 以非触摸方式来选择和操作对象的设备和方法 |
KR101509934B1 (ko) * | 2013-10-10 | 2015-04-16 | 재단법인대구경북과학기술원 | 정면 얼굴 자세 유도 장치, 및 정면 얼굴 자세 유도 방법 |
CN205017461U (zh) * | 2015-09-30 | 2016-02-03 | 石磊 | 远程第一视角视频监控控制*** |
CN106840112A (zh) * | 2017-01-09 | 2017-06-13 | 天津大学 | 一种利用自由空间视线凝视点测量的空间几何量测量方法 |
CN107423707A (zh) * | 2017-07-25 | 2017-12-01 | 深圳帕罗人工智能科技有限公司 | 一种基于复杂环境下的人脸情绪识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8107735B2 (en) * | 2007-04-10 | 2012-01-31 | Denso Corporation | Three dimensional shape reconstitution device and estimation device |
-
2017
- 2017-12-07 CN CN201711286561.2A patent/CN107909061B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270035A (zh) * | 2010-06-04 | 2011-12-07 | 三星电子株式会社 | 以非触摸方式来选择和操作对象的设备和方法 |
KR101509934B1 (ko) * | 2013-10-10 | 2015-04-16 | 재단법인대구경북과학기술원 | 정면 얼굴 자세 유도 장치, 및 정면 얼굴 자세 유도 방법 |
CN205017461U (zh) * | 2015-09-30 | 2016-02-03 | 石磊 | 远程第一视角视频监控控制*** |
CN106840112A (zh) * | 2017-01-09 | 2017-06-13 | 天津大学 | 一种利用自由空间视线凝视点测量的空间几何量测量方法 |
CN107423707A (zh) * | 2017-07-25 | 2017-12-01 | 深圳帕罗人工智能科技有限公司 | 一种基于复杂环境下的人脸情绪识别方法 |
Non-Patent Citations (2)
Title |
---|
Improving consistency and correctness of sequence inpainting using semantically guided generative adversarial network;avisel lahiri et al.;《computer vision and pattern recognition》;20171116;第1-5页 * |
基于自适应三维人脸模型的实时头部姿态估计;程科文;《万方硕士全文数据库》;20161014;第1-63页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107909061A (zh) | 2018-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107909061B (zh) | 一种基于不完备特征的头部姿态跟踪装置及方法 | |
EP3755204B1 (en) | Eye tracking method and system | |
CN107545302B (zh) | 一种人眼左右眼图像联合的视线方向计算方法 | |
US20180186452A1 (en) | Unmanned Aerial Vehicle Interactive Apparatus and Method Based on Deep Learning Posture Estimation | |
CN109684925B (zh) | 一种基于深度图像的人脸活体检测方法及设备 | |
CN104036488B (zh) | 一种基于双目视觉的人体姿态动作研究方法 | |
US10674139B2 (en) | Methods and systems for human action recognition using 3D integral imaging | |
CN108229440A (zh) | 一种基于多传感器融合室内人体姿态识别方法 | |
CN105631859B (zh) | 三自由度仿生立体视觉*** | |
CN109035307B (zh) | 基于自然光双目视觉的设定区域目标追踪方法及*** | |
CN113850865A (zh) | 一种基于双目视觉的人体姿态定位方法、***和存储介质 | |
CN108665484B (zh) | 一种基于深度学习的危险源识别方法与*** | |
CN111966217A (zh) | 基于手势和眼动的无人机控制方法和*** | |
CN116152439A (zh) | 一种基于多视角人体图像的人体三维姿态重建方法及*** | |
Mann et al. | An introduction to the 3rd workshop on egocentric (first-person) vision | |
CN114526728A (zh) | 一种基于自监督深度学习的单目视觉惯导定位方法 | |
CN116449947B (zh) | 一种基于tof相机的汽车座舱域手势识别***及方法 | |
CN112954313A (zh) | 一种对全景图像感知质量的计算方法 | |
CN117218192A (zh) | 一种基于深度学习与合成数据的弱纹理物***姿估计方法 | |
CN116109974A (zh) | 体积视频展示方法以及相关设备 | |
CN116012459A (zh) | 基于三维视线估计和屏幕平面估计的鼠标定位的方法 | |
CN112099330B (zh) | 基于外部相机和穿戴式显控设备的全息人体重建方法 | |
CN114415832B (zh) | 一种战斗机头盔显示瞄准***、方法、设备及终端 | |
WO2023086398A1 (en) | 3d rendering networks based on refractive neural radiance fields | |
CN116665313A (zh) | 一种基于深度学习的眼动活体检测方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |