CN109711239B

CN109711239B - 基于改进混合增量动态贝叶斯网络的视觉注意力检测方法

Info

Publication number: CN109711239B
Application number: CN201811057186.9A
Authority: CN
Inventors: 罗元; 陈雪峰; 张毅; 陈旭; 刘星遥
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2023-04-07
Anticipated expiration: 2038-09-11
Also published as: CN109711239A

Abstract

本发明请求保护一种基于改进混合增量动态贝叶斯网络的视觉注意力检测方法，该方法融合头部、视线以及预测子模型来对其进行综合估计；在传统人眼模型的基础上对视线检测子模型进行改进，以提升识别速率增加对于不同测试者进行检测时的鲁棒性；针对极端姿态和动态场景下导致的数据缺失问题，提出了预测子模型，利用高斯协方差来度量两个时刻采样图片的相关性，从而有效改善当前时刻的误识别，降低了识别误差。其次就相关子模型进行描述，利用条件概率分别建立贝叶斯回归模型；并利用增量学习的方法来对模型的参数进行动态更新，用以提升模型整体对于新输入数据的适应性。

Description

基于改进混合增量动态贝叶斯网络的视觉注意力检测方法

技术领域

本发明属于图像处理与模式识别领域，特别是一种基于改进混合增量动态贝叶斯网络的视觉注意力检测方法。

背景技术

人眼视觉注意力(Visual focus of attention,VFOA)特指人眼视线所注意的方向及目标。其代表了一个人看的方向，包含丰富的信息，例如：这个人感兴趣的东西、正在做的事情等。这些信息对于人机交互、智能辅助驾驶、医学研究、心理学以及市场分析等领域都具有很高的应用价值。近年来，特别是在人机交互方面，视觉注意力作为一种输入方式来辅助其他指令，并判断面前的是用户还是其他人物障碍，从而实现智能仿生避障，受到学术界的广泛关注。国内外对视觉的注意力检测主要是针对视频监控序列，例如对视频会议监控中人物的注意力方向进行估计，从而通过分析其注意力关注点来达到辅助视频会议高效进行的效果，而VFOA在人机交互领域上的研究尚属于起步阶段。随着人工智能的发展，基于视觉注意力的检测技术也逐渐将视觉、推理以及情感等因素融入其中，构建全方位感知的智能时代，这也是近年来人工智能的一个发展趋势。因此，VFOA检测的研究不仅具有很深的理论价值，也具有广阔的应用前景。

目前对于动态场景以及自由头势下视觉注意力的检测主要存在两个问题尚需研究：正常用眼情况下，头部姿态偏转与视线方向一致，但是不排除方向不一致的情况，因此仅仅使用头部姿态来对视觉注意力进行检测识别率较低，可靠性不高；图像分辨率较低时的影响。在进行视线检测时，当分辨率较低时眼睛的宽度所占的像素数只有几十个像素，虹膜区域大概只有几个到十几个的像素，因此很难可靠地检测到连续的虹膜轮廓和眼角位置，导致视线方向的估计结果有所偏差。基于视线估计的注意力检测对于动态变化(头部自由旋转、距离变化)的鲁棒性较差。

针对上述问题，本文提出一种改进的混合增量动态贝叶斯网络模型(ImprovedHybrid Incremental Dynamic Bayesian Network,IHDBN)的VFOA检测方法。融合改进的视线估计、头部偏转和预测子模型建立混合贝叶斯视觉注意力检测模型，将构建的网络参数进行增量更新，从而提升模型对于环境的适应性。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种可获得较高识别率、对头部自由偏转具有较好的鲁棒性的基于改进混合增量动态贝叶斯网络的视觉注意力检测方法。本发明的技术方案如下：

一种基于改进混合增量动态贝叶斯网络的视觉注意力检测方法，其包括以下步骤：

S1，实时对人脸进行定位及预处理，并提取人脸、人眼关键特征点位置，建立三维人脸坐标及建立三维视线几何模型。

S2，提取人脸特征，并进行人脸特征定位，分别建立头部偏转估计子模型和视线估计子模型的贝叶斯回归后验概率模型。

S3，提出预测模型，通过协方差矩阵，利用t-1时刻对t时刻的视觉注意力进行估计。

S4，设置权重关系对步骤S2的视线估计模型、头部估计子模型以及步骤S3的预测子模型进行融合。

S5，利用增量学习的方法来对参数进行动态更新。

进一步的，所述建立三维人脸坐标具体包括：

通过RGB-D传感器获取头部位置，由此建立三维人脸坐标，以鼻底和嘴角中心的连线作为y轴；鼻底和鼻突方向作为z轴；右手定则确定x轴方向。

进一步的，所述建立三维视线几何模型具体包括：

S22:确定左外眼眦、右外眼眦、左内眼眦、左外眼眦、左瞳孔、右瞳孔特征点(xe_l,xe_r,ie_l,ie_r,p_l,p_r)位置，建立视线几何模型；

S23:利用步骤S22中的几何模型，得到眼球大小为c＝[(xe_r-re_l)-(ie_r-ie_l)]/4，xe_l表示左外眼眦、xe_r表示右外眼眦、ie_l表示左内眼眦、ie_r表示右内眼眦，眼球中心到眉心距离表示为m_l＝(se-xe_l)-c或者m_l＝(se-ie_l)+c；

S24:利用三角余弦定理求得α、β。α表示右眼视线方向b_r的角度；同理，β表示左眼视线矢量b_l的角度，其中，b_l与b_r分别表示三维视线几何模型中左右眼视线方向矢量，左右眼视线方向矢量的交点即为视觉注意力的具体点位置，d为眉心到视觉注意力点的距离，m_l、m_r分别表示左右两眼球的中心到眉心的距离；

进一步的，所述将预处理后的人脸图像利用Haar-like矩形特征来检测人眼区域ROI，对得到的人眼区域ROI进行水平方向上的积分投影和垂直方向上的差分投影并分别计算灰度值，最终检测到在积分投影方向具有最小值以及垂直方向上具有最大值时，所对应的两极值点作为两眼的中心点(p_l,p_r)。

进一步的，在获得两眼球位置的基础上，对眼部区域进行处理，首先采用自适应二值化方法确定门限阈值，得到眼部区域的自动二值化图像，然后结合Susan算子，利用边缘和角点检测算法在眼部区域内准确定位内外眼眦点(xe_l,xe_r,ie_l,ie_r)，,获得眼部区域边缘图像，并在此基础上对眼部图像中的黑色边缘曲线进行角点提取，即可获得准确的两眼内外眼眦点位置。

进一步的，所述视线和头部的贝叶斯回归后验概率建立步骤包括:

S31:ψ_t＝(α_t,β_t)为t时刻的视线方向，α_t表示t时刻右眼视线的角度，β_t表示t时刻左眼视线的角度，基于视线估计的视觉注意力条件概率表示为

表示t时刻基于视线估计子模型的视觉注意力VFOA检测、g表示该时刻的视线估计。

S32:右眼视线方向由条件概率P(αb_r,m_r,d)求得，左眼视线方向为P(βb_l,m_l,d)；b_l与b_r分别表示三维视线几何模型中左右眼视线方向矢量。

S33：头部偏转的朝向分别表示为T_t＝[T_x,T_y,T_z]和R_t＝[R_x,R_y,R_z]，其中，T_x,T_y,T_z表示在三维人脸模型中头部的位置、R_x,R_y,R_z表示在三维人脸模型中头部的偏转朝向(由鼻尖朝向近似)，将头部可观测参数记为h_t＝(T_t,R_t)。

S34:计算S33中的可观测参数的先验概率，基于头部姿态的视觉注意力估计子模型后验概率表示为

其中

表示t时刻基于头部子模型的视觉注意力VFOA检测、h_t表示头部可观测参数，∝表示正比于。

进一步的，所述预测模型建立步骤包括:

S41:获取t时刻和t-1时刻的样本帧图片像素点p_i和p_j，利用高斯协方差矩阵c(p_i,p_j)来度量两个时刻采样图片的相关性，利用相关性来对下一时刻进行预测，t时刻和t-1时刻的样本帧图片像素点之间的相关性表示为

σ_c和l表示不同帧中特征点的变化标准差及相对距离、p_i、p_j分别表示在t时刻和t-1时刻获取的样本帧图片像素点灰度值。

S42:t时刻和t-1时刻的样本帧图片协方差矩阵表示为：

S43:利用步骤S42求得的协方差矩阵C，t时刻的预测模型注意力估计则表示为

表示t时刻基于预测模型的视觉注意力估计，F_t-1t-1时刻的预测模型注意力估计。

进一步的，所述利用增量学习的方法来对参数进行动态更新，网络增量动态更新步骤包括:

S61：S为模型读取的新数据样本，p*(h_t)表示在t时刻更新后的头部概率密度，ψ_t*表示t时刻更新后的视线参数，更新过程如下：

S62：选取贝叶斯信息准则BIC为注意力检测模型的网络评分函数，选取在设定范围内的ω_i取值得到

从而得到BIC评分函数最高的网络结构；

S63：得到更新后的网络表示为：

表示更新后的贝叶斯决策网络，ω₁、ω₂、ω₃分别表示头部估计子模型、视线估计子模型以及预测子模型在视觉注意力估计时分别所占权重。

本发明的优点及有益效果如下：

本发明对视觉注意力检测***中的相关技术进行了研究，提出了一种改进混合增量动态贝叶斯网络模型的估计方法。本发明的研究工作主要包括以下几个方面：(1)建立改进的三维几何视线检测模型；(2)针对极端姿态和动态场景下导致的数据缺失问题，提出了预测模型，从而有效改善当前时刻的误识别，降低了识别误差。(3)融合多个子模型并对相关参数进行增量动态更新，提升了对动态姿态变化的适应性。本发明提出的VFOA检测方法在相同距离不同头部姿态自由偏转时，平均误差均有所下降；不同距离下的VFOA进行检测时，本文算法也能够体现较好的的鲁棒性和实时性。

附图说明

图1是本发明提供优选实施例一种改进的混合增量动态贝叶斯网络模型图；

图2为人脸三维坐标图；

图3为视线几何模型；

图4为子模型权重设置变化图；

图5为本发明提供优选实施例基于改进混合增量动态贝叶斯网络的视觉注意力检测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明的技术方案如下：

S1，建立三维人脸坐标，利用几何关系模型来对视线进行估计。

S2，建立头部估计子模型和视线估计子的贝叶斯回归后验概率模型；

S3，为解决在连续时间以及极端姿态下存在的数据缺失问题，提出预测模型，通过协方差矩阵，利用t-1时刻对t时刻的视觉注意力进行估计；

S4，设置权重关系对视线、头部以及预测子模型进行融合。

S5，利用增量学习的方法来对参数进行动态更新，以提升模型动态适应性和实时性。

优选的，通过RGB-D传感器获取头部位置及特征点建立三维人脸坐标，直接利用瞳孔和眼眦等特征点的位置，确定双眼视轴的交点为注意力点的位置和方向。所述视线几何关系模型建立步骤包括:

S21:通过RGB-D传感器获取头部位置，由此建立三维人脸坐标，以鼻底和嘴角中心的连线作为y轴；鼻底和鼻突方向作为z轴；右手定则确定x轴方向。

S22:确定左外眼眦、右外眼眦、左内眼眦、右内眼眦、左瞳孔、右瞳孔等特征点(xe_l,xe_r,ie_l,ie_r,p_l,p_r)位置，建立视线几何模型。

S23:利用步骤S22中的几何模型，可得到眼球大小为c＝[(xe_r-re_l)-(ie_r-ie_l)]/4，因此眼球中心到眉心距离可表示为m_l＝(se-xe_l)-c或者m_l＝(se-ie_l)+c。

S24:利用三角余弦定理可以求得α、β，左右眼视轴的交点即为VFOA的具体点位置。

优选的，视线和头部姿态变化的条件概率通过高斯滤波来对其进行估计，所述视线和头部地贝叶斯回归后验概率建立步骤包括:

S31:

为t时刻的视线方向，基于视线估计的视觉注意力条件概率(CPD)表示为

S32:右眼视线方向由条件概率P(αb_r,m_r,d)求得，左眼视线方向为P(βb_l,m_l,d)。

S33：头部偏转的朝向分别表示为T_t＝[T_x,T_y,T_z]和R_t＝[R_x,R_y,R_z]，将头部可观测参数记为h_t＝(T_t,R_t)。

其中

优选的，获取t时刻和t-1时刻的样本帧图片像素点p_i和p_j，利用高斯协方差矩阵c(p_i,p_j)来度量两个时刻采样图片的相关性，利用相关性来对下一时刻进行预测。所述预测模型建立步骤包括:

S41:t时刻和t-1时刻的样本帧图片像素点之间的相关性表示为

S42:t时刻和t-1时刻的样本帧图片协方差矩阵表示为：

5、优选的，根据用户与注意力点的距离、数据缺失两种环境情况定义了子模型的权重ω_i：

在距离较近并且检测的特征信息数据完整的情况下，视线检测模型能精准地对人眼视觉注意力进行估计，因此所占权重较大，当距离相对远以至于人眼相对位置信息不能准确检测时，利用头部偏转的方向能对注意力方向进行有效判断，当距离更远或其他情况下数据存在缺失时，增大预测模型的权重可提升模型的适应性。

优选的，所述的增量动态更新网络参数(h_t,ψ_t,ω_i)，其结合权重设置，选取适当的ω_i取值得到

从而得到BIC评分函数最高的网络结构。所述网络增量动态更新步骤包括:

S61：S为模型读取的新数据样本，更新过程如下：

S62：选取贝叶斯信息准则(Bayesian Information Criterion,BIC)为注意力检测模型的网络评分函数，选取适当的ω_i取值得到

从而得到BIC评分函数最高的网络结构。

S63：得到更新后的网络表示为：

融合头部、视线以及预测子模型来对视觉注意力进行综合估计，其包括以下步骤：

S1，选定Haar特征和AdaBoost分类器来对人脸进行实时检测。

S2，得到人眼的几个关键特征点位置：左外眼眦、右外眼眦、左内眼眦、右内眼眦、左瞳孔、右瞳孔其分别表示为(xe_l,xe_r,ie_l,ie_r,p_l,p_r)：

将预处理后的人脸图像利用Haar-like矩形特征来检测人眼区域(Region ofinterest,ROI)，对得到的人眼ROI进行水平方向上的积分投影和垂直方向上的差分投影并分别计算灰度值，最终检测到在前者具有最小值以及后者具有最大值时，所对应的两极值点可作为两眼的中心点(p_l,p_r)。在获得两眼球位置的基础上，对眼部区域进行处理，首先采用自适应二值化方法确定门限阈值，得到眼部区域的自动二值化图像，然后结合Susan算子，利用边缘和角点检测算法在眼部区域内准确定位内外眼眦点(xe_l,xe_r,ie_l,ie_r)。经过上述算法可获得眼部区域边缘图像，并在此基础上对眼部图像中的黑色边缘曲线进行角点提取，即可获得准确的两眼内外眼眦点位置。

S3，通过RGB-D传感器获取头部位置，由此建立三维人脸坐标，以及三维视线几何模型。

S4，利用几何关系可得到S3中三维视线几何模型眼球大小为c＝[(xe_r-re_l)-(ie_r-ie_l)]/4，因此眼球中心到眉心距离可表示为m_l＝(se-xe_l)-c或者m_l＝(se-ie_l)+c，利用三角余弦定理可以求得α、β为两眼视线方向夹角，因此右眼视线方向由条件概率P(α|b_r,m_r,d)求得，同理左眼视线方向为P(β|b_l,m_l,d)，假设两眼视线方向的概率分布均服从

σ_n表示加入的滤波高斯噪声标准差。

S5，由S4求得两眼的视线方向后验概率，得出基于视线估计的视觉注意力条件概率(CPD)为

S6，采用随机回归森林的实时头部姿态估计***来对头部位置和朝向进行定位。头部偏转的朝向，分别表示为T_t＝[T_x,T_y,T_z]和R_t＝[R_x,R_y,R_z]，头部可观测参数记为h_t＝(T_t,R_t)。

S7，基于头部姿态的视觉注意力估计子模型后验概率表示为

其中

S8，在t时刻和t-1时刻获取的样本帧图片像素点分别表示为p_i和p_j，利用高斯协方差矩阵c(p_i,p_j)来度量两个时刻采样图片的相关性。

S9，由t-1时刻的预测结果来对t时刻的视觉注意力进行预测，t时刻的注意力估计可以表示为

t时刻的预测模型注意力估计为

S10，融合视线估计、头部偏转和预测子模型建立混合贝叶斯视觉注意力检测模型，

假设在近距离下数据缺失较少(头部和瞳孔的偏转均无极端情况出现)，在距离较近并且检测的特征信息数据完整的情况下，视线检测模型能精准地对人眼视觉注意力进行估计，因此所占权重较大，当距离相对远以至于人眼相对位置信息不能准确检测时，利用头部偏转的方向能对注意力方向进行有效判断，当距离更远或其他情况下数据存在缺失时，增大预测模型的权重可提升模型的适应性。

S11，利用增量学习的方法来对模型的参数进行动态更新，选取适当的权值ω_i，得到BIC评分函数最高的网络结构。

由于采用了上述技术方案，本发明具有如下的优点：

针对极端姿态和动态场景下导致的数据缺失问题，提出了预测模型，从而有效改善当前时刻的误识别，降低了识别误差。融合多个子模型并对相关参数进行增量动态更新，提升了对动态姿态变化的适应性。实验结果表明，该方法能有效估计人眼的视觉注意力，对头部自由偏转具有较好的鲁棒性，且最短检测时间为42ms，误差降低到1.45°；距离较远时检测的平均误差降低到3.33°，识别率提升到66.8％。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于改进的混合增量动态贝叶斯网络的视觉注意力检测方法，其特征在于，包括以下步骤：

S1，实时对人脸进行定位及预处理，并提取人脸、人眼关键特征点位置，建立三维人脸坐标及建立三维视线几何模型；

S2，通过提取的人脸特征点位置，分别建立头部偏转估计子模型和视线估计子模型的贝叶斯回归后验概率决策模型；

S3，提出预测模型，通过协方差矩阵，利用t-1时刻对t时刻的视觉注意力进行估计；

S4，设置权重关系对步骤S2的视线估计模型、头部估计子模型以及步骤S3的预测子模型进行融合；

S5，利用增量学习的方法来对参数进行动态更新；

所述建立三维视线几何模型具体包括：

S22:确定左外眼眦xe_l、右外眼眦xe_r、左内眼眦ie_l、右内眼眦ie_r、左瞳孔p_l、右瞳孔p_r特征点位置，建立视线几何模型；

S23:利用步骤S22中的几何模型，得到眼球大小c表示为c＝[(xe_r-xe_l)-(ie_r-ie_l)]/4，xe_l表示左外眼眦、xe_r表示右外眼眦、ie_l表示左内眼眦、ie_r表示右内眼眦，眼球中心到眉心距离表示为m_l＝(se-xe_l)-c或者m_l＝(se-ie_l)+c；

S24:利用三角余弦定理求得α、β，其中，b_l与b_r分别表示三维视线几何模型中左右眼视线方向矢量，α表示右眼视线方向b_r的角度；同理，β表示左眼视线矢量b_l的角度，p_r为b_lb_r的交点即为视觉注意力的具体点位置，b_l与b_r的角度分别为人眼中心位置到瞳孔位置的方向，距离分别为人眼中心位置到具体点位置的长度；

所述视线和头部的贝叶斯回归后验概率建立步骤包括:

S31:ψ_t＝(α_t,β_t)为t时刻的视线方向，α_t表示t时刻右眼视线的角度，β_t表示t时刻左眼视线的角度，基于视线估计的视觉注意力条件概率表示为表示t时刻基于视线估计子模型的视觉注意力VFOA检测、g表示该时刻的视线估计；

S32:右眼视线方向由条件概率P(α|b_r,m_r,d)求得，左眼视线方向为P(β|b_l,m_l,d)；b_l与b_r分别表示三维视线几何模型中左右眼视线方向矢量；

S33：头部偏转的朝向分别表示为T_t＝[T_x,T_y,T_z]和R_t＝[R_x,R_y,R_z]；其中，T_x,T_y,T_z表示在三维人脸模型中头部的位置、R_x,R_y,R_z表示在三维人脸模型中头部的偏转朝向，将头部可观测参数记为h_t＝(T_t,R_t)；

S34:计算S33中的可观测参数的先验概率，基于头部姿态的视觉注意力估计子模型后验概率表示为其中表示t时刻基于头部子模型的视觉注意力VFOA检测、h_t表示头部可观测参数，∝表示正比于；

所述预测模型建立步骤包括:

S41:获取t时刻和t-1时刻的样本帧图片像素点p_i和p_j，利用高斯协方差矩阵c(p_i,p_j)来度量两个时刻采样图片的相关性，利用相关性来对下一时刻进行预测，t时刻和t-1时刻的样本帧图片像素点之间的相关性表示为σ_c和l表示不同帧中特征点的变化标准差及相对距离、p_i、p_j分别表示在t时刻和t-1时刻获取的样本帧图片像素点灰度值；

S42:t时刻和t-1时刻的样本帧图片协方差矩阵表示为：

S43:利用步骤S42求得的协方差矩阵C，t时刻的预测模型注意力估计则表示为P(F_Pt|F_t-1)∝P_t-1＝CC^-1F_t-1；F_Pt表示t时刻基于预测模型的视觉注意力估计，F_t-1t-1时刻的预测模型注意力估计；

所述利用增量学习的方法来对参数进行动态更新，网络增量动态更新步骤包括:

S62：选取贝叶斯信息准则BIC为注意力检测模型的网络评分函数，选取在设定范围内的ω_i取值得到从而得到BIC评分函数最高的网络结构；

S63：得到更新后的网络表示为：

2.根据权利要求1所述的基于改进的混合增量动态贝叶斯网络的视觉注意力检测方法，其特征在于，所述建立三维人脸坐标具体包括：

3.根据权利要求1所述的基于改进的混合增量动态贝叶斯网络的视觉注意力检测方法，其特征在于，将预处理后的人脸图像利用Haar-like矩形特征来检测人眼区域ROI，对得到的人眼区域ROI进行水平方向上的积分投影和垂直方向上的差分投影并分别计算灰度值，最终检测到在积分投影方向具有最小值以及垂直方向上具有最大值时，所对应的两极值点作为两眼的中心点(p_l,p_r)。

4.根据权利要求1所述的基于改进的混合增量动态贝叶斯网络的视觉注意力检测方法，其特征在于，在获得两眼球位置的基础上，对眼部区域进行处理，首先采用自适应二值化方法确定门限阈值，得到眼部区域的自动二值化图像，然后结合Susan算子，利用边缘和角点检测算法在眼部区域内准确定位内外眼眦点(xe_l,xe_r,ie_l,ie_r)，获得眼部区域边缘图像，并在此基础上对眼部图像中的黑色边缘曲线进行角点提取，即可获得准确的两眼内外眼眦点位置。