CN106599810A - 一种基于栈式自编码的头部姿态估计方法 - Google Patents

一种基于栈式自编码的头部姿态估计方法 Download PDF

Info

Publication number
CN106599810A
CN106599810A CN201611100343.0A CN201611100343A CN106599810A CN 106599810 A CN106599810 A CN 106599810A CN 201611100343 A CN201611100343 A CN 201611100343A CN 106599810 A CN106599810 A CN 106599810A
Authority
CN
China
Prior art keywords
layer
stack
head
parameter
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611100343.0A
Other languages
English (en)
Other versions
CN106599810B (zh
Inventor
潘力立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201611100343.0A priority Critical patent/CN106599810B/zh
Publication of CN106599810A publication Critical patent/CN106599810A/zh
Application granted granted Critical
Publication of CN106599810B publication Critical patent/CN106599810B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

该发明公开了一种基于栈式自编码的头部姿态估计方法,该发明属于计算机视觉技术领域。主要思想是提出利用栈式自编码器,建立头部深度图像和姿态之间的非线性映射关系。本发明首先采集大量头部深度图像作为训练样本,同时提取梯度方向直方图特征,然后记录对应的头部姿态。之后,设计栈式自编码器,在训练样本和标定姿态数据上,利用梯度下降法学习栈式自编码器的各层参数。最后,对于待估计姿态的头部图像,提取梯度方向直方图特征,根据上述已学习的栈式自编码器估计头部姿态。与传统的头部姿态估计方法相比,该方法能够模拟输入特征到头部姿态的复杂映射关系,有效的克服了浅层模型估计准确性不高的问题。

Description

一种基于栈式自编码的头部姿态估计方法
技术领域
本发明属于计算机视觉技术领域,涉及图像中的头部姿态估计问题。
背景技术
头部姿态估计(如图1)是指根据头部的数字图像,利用机器学习和计算机视觉的方法准确快速地估计该图像中对应头部的偏转角度,也称为头部姿态。它是近年来计算机视觉和机器学习领域研究的热门问题,在人机交互、安全驾驶和关注度分析等方面都有非常广泛的应用。例如:在人机交互领域,头部的偏转角度可以用于控制电脑或机器显示的方向和位置;在安全驾驶领域,头部姿态可用于辅助视线估计,从而提示驾驶员正确的视线方向。近年来,头部姿态估计在流形学习和子空间理论发展的基础上,有了进一步的发展。现有头部姿态估计方法可以分为三个大的类别:1.基于容貌的方法,2.基于分类的方法和3.基于回归的方法。
基于容貌的头部姿态估计方法的基本原理是将输入的头部图像与数据库中已有的图像进行一一比对,并将找到的最相似的图像所对应的角度作为待估计图像的头部姿态(即角度)。该类方法最大的缺陷在于其只能输出离散的头部偏转角度,并且由于需要与所有已有图像进行依次比对,运算量巨大。参见文献:D.J.Beymer,Face Recognition underVarying Pose,IEEE Conference on Computer Vision and Pattern Recognition,pp.756-761,1994和J.Sherrah,S.Gong,and E.J.Ong,Face Distributions inSimilarity Space under Varying Head pose Image and Vision Computing,vol.19,no.12,pp.807-819,2001。
基于分类的头部姿态估计方法是指根据输入图像的特征和对应头部偏转角度训练分类器,并利用学习好的分类器区分待估计图像头部偏转角度所属的类别,从而确定头部姿态的大致范围。该类方法中常用的分类器包括支持向量机(Support Vector Machine,SVM),线性判决分析(Linear Discriminative Analysis,LDA),核线性判决分析(KernelLinear Discriminative Analysis,KLDA),这类方法的主要缺点是无法估计输出连续的头部姿态,参见文献:J.Huang,X.Shao,and H.Wechsler,Face Pose Discrimination usingSupport Vector Machines(SVM),International Conference on Pattern Recognition,pp.154-156,1998。
基于回归的头部姿态估计方法是目前最常用的估计方法,该方法的基本原理是利用已有图像特征和对应的头部角度建立映射函数,并利用映射函数估计待处理图像对应的头部姿态。该类方法解决了前述两种方法无法估计输出连续姿态的问题,同时减少了运算复杂度,参见文献G.Fanelli,J.Gall,and L.Van Gool,Real Time Head Pose Estimationwith Random Regression Forests,IEEE Conference on Computer Vision and PatternRecognition,2011,pp.617-624和文献H.Ji,R.Liu,F.Su,Z.Su,and Y.Tian,ConvexRegularized Sparse Regression for Head Pose Estimation,IEEE InternationalConference on Image Processing,pp.3617-3620,2011。
发明内容
本发明的任务是提供了一种基于栈式自编码的头部姿态估计方法。该方法以深度图像作为输入图像;并利用栈式自编码寻找深度图像和对应头部姿态之间的映射关系。通过上述建模方式,可以准确的找到深度图像和头部姿态之间的复杂映射关系,既提高了头部姿态估计的准确性,又保证了估计的效率。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:头部姿态。在三维空间中头部旋转的角度通常由一个向量表示,该向量由三个元素构成,第一个元素为俯仰角,第二个元素为偏航角,第三个元素为旋转角。
定义2:俯仰角。在图2(b)所示的x-y-z坐标系中,俯仰角是指以x轴为中心旋转的角度θ。
定义3:偏航角。在图2(a)所示的x-y-z坐标系中,偏航角是指以z轴为中心旋转的角度φ。
定义4:旋转角。在图2(c)所示的x-y-z坐标系中,旋转角是指以z′为中心旋转的角度Ψ。
定义5:梯度方向直方图特征。利用像素强度梯度或边缘的方向分布描述一幅图像中的物体的表象和形状的视觉特征提取方法。其实现方法先将图像分成小的叫做方格单元的连通区域;然后采集方格单元中各像素点的梯度方向或边缘方向直方图;最后把这些直方图组合起来就可以构成特征描述子。为了提高精确度,还可以把这些局部直方图在图像的更大的区间(block)中进行对比度归一化(contrast-normalized),此方法通过先计算各直方图在这个区间(block)中的密度,然后根据这个密度值对区间中的各个方格单元做归一化。通过该归一化能对光照变化和阴影有更强的鲁棒性。
定义6:反向传播算法。是一种监督学习算法,常被用来训练多层神经网络。一般包含两个阶段:(1)前向传播阶段将训练输入送入网络以获得激励响应;(2)反向传播阶段将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
定义7:梯度下降法。是一种无约束的优化方法,在求解目标函数最小值时,找到梯度方向,并沿着梯度反方向搜索,直到达到局部最小值的方法。
按照本发明的一种基于栈式自编码的头部姿态估计方法,包括以下步骤:
步骤1:采集N幅包含不同姿态的头部深度图像,并根据采集每幅图像时摄像头的位置,记录N幅图像各自对应的头部俯仰、偏航和旋转角度,得到头部姿态向量的第1维表示俯仰角,第2维表示倾斜角,第3维表示旋转角,下标n表示第n幅图像;
步骤2:检测步骤1采集到图像的头部区域,并提取该头部区域的梯度方向直方图特征,组成梯度方向直方图特征向量
步骤3:对步骤2中得到梯度方向直方图特征向量在每一维进行数值归一化,将数值范围压缩到[0,1]区间,将姿态的范围归一化到[0,1]区间;
所述步骤3的具体方法为:
将数值范围压缩到[0,1]区间,具体做法为:对于第n个样本,其第i维的数据归一化公式
为所有样本第i维上的最小值,为所有样本第i维上最大值;
将姿态的范围归一化到[0,1]区间,具体做法为:
其中表示第n个样本的标定姿态第j维的分量,ynj表示该维归一化后的数值;
步骤4:构建栈式自编码器(如图3)对应的映射函数,设输入为其中s1表示特征的维数,本专利使用的栈式自编码共有5层;第1层为输入层,输入层的输入为梯度方向直方图特征向量,第1层节点的个数为梯度方向直方图特征向量的维数,第2-4层为隐单元层,第5层为输出层;任意一层l的任意一个节点单元用符号表示,上标(l)表示第l层,其计算公式为:
表示连接神经网络第l层的所有sl个单元和第l+1层的第i个单元之间的参数;具体讲,表示连接第l层的第j个单元和第l+1层第i个单元之间的参数,为与第l+1层的隐单元i相关的偏差项,sl+1为第l+1层隐单元的数目;σ(·)为S形函数,其表达式为若定义则上式也可以表示为:
该栈式自编码器的输出层有3个单元,用符号表示,用以表示估计头部姿态的俯仰角、倾斜角和旋转角;整个栈式自编码模型用函数hw,b(x)表示当输入为x时的估计头部姿态,即:
步骤5:当输入为x时,假设对应的标定姿态为y,栈式自编码对姿态估计值和标定姿态之间的误差为:
同时,为了表示输出层每一个单元对误差贡献的大小定义误差项
表示的导数,利用后向传播算法,计算l=2,3,4层时每一个节点j对应的误差项;
最后得到下面两个估计误差关于的偏导数:
步骤6:利用步骤4中的栈式自编码模型,将步骤3中归一化的梯度方向直方图特征[x1,...,xN]作为栈式自编码的输入,对应的标定头部姿态值为[y1,...,yN],建立栈式自编码的优化目标函数:
其中λ约束项的强度;
步骤7:求解目标函数J(w,b)关于参数的偏导数
其中表示当输入为xn时对应的第l层的第j个单元的输出和第l+1层第i个单元对应的误差项;最后得到目标函数J(w,b)关于参数向量w,b的梯度
步骤8:为了求得最佳的栈式自编码参数w和b,我们需要先初始化参数,再利用梯度下降法进行优化,具体包含下面两个步骤:
(a)w和b初始化;首先随机初始化w和b,w表示为(w(1),...,w(4))T,其中w(l)表示第l层的参数;b表示为(b(1),...,b(4))T,之后逐层修正第1、2、3层的参数;当修正第1层参数时,利用梯度下降法优化参数w(1)和b(1),利用第1层网络重构原始输入特征,并使重构误差最小;当修正第2层参数时,利用梯度下降法优化参数w(2)和b(2),把第1层的输出作为第2层的输入,利用第2层网络重构原始输入特征,并使重构误差最小;当修正第3层参数时,利用梯度下降法优化参数w(3)和b(3),把第2层的输出作为第3层的输入,利用第3层网络重构原始输入特征,并使重构误差最小;对于第4层参数,利用第3层的输出作为第4层的输入,优化参数w(4)和b(4),使得输出和标定姿态之间的误差平方和最小;由此初始化第1到第4层网络;
(b)梯度下降法;根据初始化值,更新参数向量w和b,即:
其中上标[t]和[t+1]表示第t次和t+1次迭代;当w和b满足收敛条件时停止迭代;
步骤9:对于新的头部图像,确定头部区域并提取梯度方向直方图特征,数值归一化之后送入训练好的栈式自编码器中,得到对应的头部姿态估计值,并将数值范围还原到-180到+180。
进一步的,所述步骤3的具体方法为:
将数值范围压缩到[0,1]区间,具体做法为:对于第n个样本,其第i维的数据归一化公式
为所有样本第i维上的最小值,为所有样本第i维上最大值;
将姿态的范围归一化到[0,1]区间,具体做法为:
其中表示第n个样本的标定姿态第j维的分量,yni表示该维归一化后的数值;
进一步的,所述步骤4中提到的栈式自编码器,每一层的单元数目分别为s1=1440,s2=80,s3=80和s4=80,输出层只有3个单元,即:s5=3。
进一步的,所述步骤8中利用梯度下降法求解栈式自编码参数时,收敛条件为前后两次迭代的参数不再变化,即达到局部最优点。
本发明的创新之处在于:
提出利用栈式自编码器,建立头部深度图像和姿态之间的非线性映射关系。本发明首先采集N幅头部深度图像作为训练样本,并把深度图像归一化为大小为96*128的图像,同时提取1440维梯度方向直方图特征,然后记录对应的头部姿态。之后,设计栈式自编码器,该自编码器除输入层和输出层,共3层中间层。然后,在训练样本和标定姿态数据上,利用梯度下降法学习栈式自编码器的各层参数。最后,对于待估计姿态的头部图像,提取梯度方向直方图特征,根据上述学习好的栈式自编码器估计头部姿态。与传统的头部姿态估计方法相比,该方法能够模拟输入特征到头部姿态的复杂映射关系,有效的克服了浅层模型估计准确性不高的问题。
附图说明
图1为头部姿态估计示意图;
图2为俯仰角、偏航角和旋转角示意图;
图3为栈式自编码器示意图。
具体实施方式
根据本发明的方法,首先利用Matlab或者C语言编写栈式自编码器的训练模型;接着输入采集到的训练样本并训练栈式自编码参数;接着对采集到的图像提取梯度方向直方图特征,作为源数据输入到训练好的栈式自编码器中进行处理;得到估计的头部姿态。本发明的方法,可以用于自然场景中头部姿态估计问题中。
一种基于栈式自编码的头部姿态估计方法,包括以下步骤:
步骤1:采集N幅包含不同姿态的头部深度图像,并根据采集每幅图像时摄像头的位置,记录N幅图像各自对应的头部俯仰、偏航和旋转角度,得到头部姿态向量的第1维表示俯仰角,第2维表示倾斜角,第3维表示旋转角,下标n表示第n幅图像;
步骤2:检测步骤1采集到图像的头部区域,并提取该头部区域的梯度方向直方图特征,组成梯度方向直方图特征向量
步骤3:对步骤2中得到梯度方向直方图特征向量在每一维进行数值归一化,将数值范围压缩到[0,1]区间,将姿态的范围归一化到[0,1]区间;
步骤4:构建栈式自编码器(如图3)对应的映射函数,设输入为其中s1表示特征的维数,本专利使用的栈式自编码共有5层;第1层为输入层,输入层的输入为梯度方向直方图特征向量,第1层节点的个数为梯度方向直方图特征向量的维数,第2-4层为隐单元层,第5层为输出层;任意一层l的任意一个节点单元用符号表示,上标(l)表示第l层,其计算公式为:
表示连接神经网络第l层的所有sl个单元和第l+1层的第i个单元之间的参数;具体讲,表示连接第l层的第j个单元和第l+1层第i个单元之间的参数,为与第l+1层的隐单元i相关的偏差项,sl+1为第l+1层隐单元的数目;σ(·)为S形函数(sigmoidfunction),其表达式为若定义则上式也可以表示为:
改栈式自编码器的输出层有3个单元,用符号表示,用以表示估计头部姿态的俯仰角、倾斜角和旋转角;整个栈式自编码模型用函数hw,b(x)表示当输入为x时的估计头部姿态,即:
所述步骤4中提到的栈式自编码器,每一层的单元数目分别为s1=1440,s2=80,s3=8和s4=80,输出层只有3个单元,即:s5=3。
步骤5:当输入为x时,假设对应的标定姿态为y,栈式自编码对姿态估计值和标定姿态之间的误差为:
同时,为了表示输出层每一个单元对误差贡献的大小定义误差项
表示的导数,利用后向传播算法,计算l=2,3,4层时每一个节点j对应的误差项;
最后得到下面两个估计误差关于的偏导数:
步骤6:利用步骤4中的栈式自编码模型,将步骤3中归一化的梯度方向直方图特征xn作为栈式自编码的输入,对应的标定头部姿态值为[y1,...,yN],建立栈式自编码的优化目标函数:
其中λ约束项的强度;
步骤7:求解目标函数J(w,b)关于参数的偏导数
其中表示当输入为xn时对应的第l层的第j个单元的输出和第l+1层第i个单元对应的误差项;最后得到目标函数J(w,b)关于参数向量w,b的梯度
步骤8:为了求得最佳的栈式自编码参数w和b,我们需要先初始化参数,再利用梯度下降法进行优化,具体包含下面两个步骤:
(a)w和b初始化;首先随机初始化w和b,w表示为(w(1),...,w(4))T,其中w(l)表示第l层的参数;b表示为(b(1),...,b(4))T,之后逐层修正第1、2、3层的参数;当修正第1层参数时,利用梯度下降法优化参数w(1)和b(1),利用第1层网络重构原始输入特征,并使重构误差最小;当修正第2层参数时,利用梯度下降法优化参数w(2)和b(2),把第1层的输出作为第2层的输入,利用第2层网络重构原始输入特征,并使重构误差最小;当修正第3层参数时,利用梯度下降法优化参数w(3)和b(3),把第2层的输出作为第3层的输入,利用第3层网络重构原始输入特征,并使重构误差最小;对于第4层参数,利用第3层的输出作为第4层的输入,优化参数w(4)和b(4),使得输出和标定姿态之间的误差平方和最小;由此初始化第1到第4层网络;
(b)梯度下降法;根据初始化值,更新参数向量w和b,即:
其中上标[t]和[t+1]表示第t次和t+1次迭代;当w和b满足收敛条件时停止迭代;
所述步骤8中利用梯度下降法求解栈式自编码参数时,收敛条件为前后两次迭代的参数不再变化,即达到局部最优点。
步骤9:对于新的头部图像,确定头部区域并提取梯度方向直方图特征,数值归一化之后送入训练好的栈式自编码器中,得到对应的头部姿态估计值,并将数值范围还原到-180到+180。

Claims (4)

1.一种基于栈式自编码的头部姿态估计方法,包括以下步骤:
步骤1:采集N幅包含不同姿态的头部深度图像,并根据采集每幅图像时摄像头的位置,记录N幅图像各自对应的头部俯仰、偏航和旋转角度,得到头部姿态向量 的第1维表示俯仰角,第2维表示倾斜角,第3维表示旋转角,下标n表示第n幅图像;
步骤2:检测步骤1采集到图像的头部区域,并提取该头部区域的梯度方向直方图特征,组成梯度方向直方图特征向量
步骤3:对步骤2中得到梯度方向直方图特征向量在每一维进行数值归一化,将数值范围压缩到[0,1]区间,将姿态的范围归一化到[0,1]区间;
所述步骤3的具体方法为:
将数值范围压缩到[0,1]区间,具体做法为:对于第n个样本,其第i维的数据归一化公式
x n i = x ~ n i - m i n ( x ~ n i , n = 1 , ... , N ) m a x ( x ~ n i , n = 1 , ... , N ) - min ( x ~ n i , n = 1 , ... , N )
为所有样本第i维上的最小值,为所有样本第i维上最大值;
将姿态的范围归一化到[0,1]区间,具体做法为:
y n j = y ~ n j + 180 360
其中表示第n个样本的标定姿态第j维的分量,ynj表示该维归一化后的数值;
步骤4:构建栈式自编码器对应的映射函数,设输入为其中s1表示特征的维数,本专利使用的栈式自编码共有5层;第1层为输入层,输入层的输入为梯度方向直方图特征向量,第1层节点的个数为梯度方向直方图特征向量的维数,第2-4层为隐单元层,第5层为输出层;任意一层l的任意一个节点单元用符号表示,上标(l)表示第l层,其计算公式为:
a i ( l + 1 ) = σ ( w i 1 ( l ) a 1 ( l ) + w i 2 ( l ) a 2 ( l ) ... + w is l ( l ) a s l ( l ) + b i ( l ) ) , i = 1 , ... , s l + 1
表示连接神经网络第l层的所有sl个单元和第l+1层的第i个单元之间的参数;具体讲,表示连接第l层的第j个单元和第l+1层第i个单元之间的参数,为与第l+1层的隐单元i相关的偏差项,sl+1为第l+1层隐单元的数目;σ(·)为S形函数,其表达式为若定义则上式也可以表示为:
a i ( l + 1 ) = σ ( z i ( l + 1 ) ) , i = 1 , ... , s l + 1
改栈式自编码器的输出层有3个单元,用符号表示,用以表示估计头部姿态的俯仰角、倾斜角和旋转角;整个栈式自编码模型用函数hw,b(x)表示当输入为x时的估计头部姿态,即:
步骤5:当输入为x时,假设对应的标定姿态为y,栈式自编码对姿态估计值和标定姿态之间的误差为:
同时,为了表示输出层每一个单元对误差贡献的大小定义误差项
δ i ( 5 ) = ∂ ∂ z i ( 5 ) 1 2 | | y - h w , b ( x ) | | 2 = - ( y i - a i ( 5 ) ) σ ′ ( z i ( 5 ) )
表示的导数,利用后向传播算法,计算l=2,3,4层时每一个节点j对应的误差项;
δ j ( l ) = ( Σ k = 1 s l + 1 w j k ( l ) δ k ( l + 1 ) ) σ ′ ( z j ( l ) )
最后得到下面两个估计误差关于的偏导数:
∂ ∂ w i j ( l ) 1 2 | | y - h w , b ( x ) | | 2 = a i ( l ) δ j ( l + 1 )
∂ ∂ b i ( l ) 1 2 | | y - h w , b ( x ) | | 2 = δ i ( l + 1 )
步骤6:利用步骤4中的栈式自编码模型,将步骤3中归一化的梯度方向直方图特征xn作为栈式自编码的输入,对应的标定头部姿态值为[y1,...,yN],建立栈式自编码的优化目标函数:
J ( w , b ) = 1 N Σ n = 1 N 1 2 | | y - h w , b ( x n ) | | 2 2 + λ 2 | | w | | 2 2
其中λ约束项的强度;
步骤7:求解目标函数J(w,b)关于参数的偏导数
∂ J ( w , b ) ∂ w i j ( l ) = 1 N Σ n = 1 N a n j ( l ) δ n i ( l + 1 ) + λw i j ( l )
∂ J ( w , b ) ∂ b i ( l ) = 1 N Σ n = 1 N δ n i ( l + 1 )
其中表示当输入为xn时对应的第l层的第j个单元的输出和第l+1层第i个单元对应的误差项;最后得到目标函数J(w,b)关于参数向量w,b的梯度
步骤8:为了求得最佳的栈式自编码参数w和b,我们需要先初始化参数,再利用梯度下降法进行优化,具体包含下面两个步骤:
(a)w和b初始化;首先随机初始化w和b,w表示为(w(1),...,w(4))T,其中w(l)表示第l层的参数;b表示为(b(1),...,b(4))T,之后逐层修正第1、2、3层的参数;当修正第1层参数时,利用梯度下降法优化参数w(1)和b(1),利用第1层网络重构原始输入特征,并使重构误差最小;当修正第2层参数时,利用梯度下降法优化参数w(2)和b(2),把第1层的输出作为第2层的输入,利用第2层网络重构原始输入特征,并使重构误差最小;当修正第3层参数时,利用梯度下降法优化参数w(3)和b(3),把第2层的输出作为第3层的输入,利用第3层网络重构原始输入特征,并使重构误差最小;对于第4层参数,利用第3层的输出作为第4层的输入,优化参数w(4)和b(4),使得输出和标定姿态之间的误差平方和最小;由此初始化第1到第4层网络;
(b)梯度下降法;根据初始化值,更新参数向量w和b,即:
w [ t + 1 ] = w [ t ] - α ▿ w J ( w , b )
b [ t + 1 ] = b [ t ] - α ▿ b J ( w , b )
其中上标[t]和[t+1]表示第t次和t+1次迭代;当w和b满足收敛条件时停止迭代;
步骤9:对于新的头部图像,确定头部区域并提取梯度方向直方图特征,数值归一化之后送入训练好的栈式自编码器中,得到对应的头部姿态估计值,并将数值范围还原到-180到+180。
2.如权利要求1所述的一种基于栈式自编码的头部姿态估计方法,其特征在于所述步骤3的具体方法为:
将数值范围压缩到[0,1]区间,具体做法为:对于第n个样本,其第i维的数据归一化公式
x n i = x ~ n i - min ( x ~ n i , n = 1 , ... , N ) max ( x ~ n i , n = 1 , ... , N ) - min ( x ~ n i , n = 1 , ... , N )
为所有样本第i维上的最小值,为所有样本第i维上最大值;
将姿态的范围归一化到[0,1]区间,具体做法为:
y n j = y ~ n j + 180 360
其中表示第n个样本的标定姿态第j维的分量,ynj表示该维归一化后的数值;
3.如权利要求1所述的一种基于栈式自编码的头部姿态估计方法,其特征在于所述步骤4中提到的栈式自编码器,每一层的单元数目分别为s1=1440,s2=80,s3=80和s4=80,输出层只有3个单元,即:s5=3。
4.如权利要求1所述的一种基于栈式自编码的头部姿态估计方法,其特征在于所述步骤8中利用梯度下降法求解栈式自编码参数时,收敛条件为前后两次迭代的参数不再变化,即达到局部最优点。
CN201611100343.0A 2016-12-05 2016-12-05 一种基于栈式自编码的头部姿态估计方法 Expired - Fee Related CN106599810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611100343.0A CN106599810B (zh) 2016-12-05 2016-12-05 一种基于栈式自编码的头部姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611100343.0A CN106599810B (zh) 2016-12-05 2016-12-05 一种基于栈式自编码的头部姿态估计方法

Publications (2)

Publication Number Publication Date
CN106599810A true CN106599810A (zh) 2017-04-26
CN106599810B CN106599810B (zh) 2019-05-14

Family

ID=58596108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611100343.0A Expired - Fee Related CN106599810B (zh) 2016-12-05 2016-12-05 一种基于栈式自编码的头部姿态估计方法

Country Status (1)

Country Link
CN (1) CN106599810B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481292A (zh) * 2017-09-05 2017-12-15 百度在线网络技术(北京)有限公司 车载摄像头的姿态误差估计方法和装置
CN107506725A (zh) * 2017-08-22 2017-12-22 杭州远鉴信息科技有限公司 基于神经网络的高压隔离开关定位与状态图像识别算法
CN107749757A (zh) * 2017-10-18 2018-03-02 广东电网有限责任公司电力科学研究院 一种基于堆栈式自编码和pso算法的数据压缩方法及装置
CN107945161A (zh) * 2017-11-21 2018-04-20 重庆交通大学 基于纹理特征提取的道路表面缺陷检测方法
CN110533065A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于自编码特征和深度学习回归模型的盾构姿态预测方法
US11367197B1 (en) * 2014-10-20 2022-06-21 Henry Harlyn Baker Techniques for determining a three-dimensional representation of a surface of an object from a set of images

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392241A (zh) * 2014-11-05 2015-03-04 电子科技大学 一种基于混合回归的头部姿态估计方法
US20160070966A1 (en) * 2014-09-05 2016-03-10 Ford Global Technologies, Llc Head-mounted display head pose and activity estimation
US9292734B2 (en) * 2011-01-05 2016-03-22 Ailive, Inc. Method and system for head tracking and pose estimation
CN105760809A (zh) * 2014-12-19 2016-07-13 联想(北京)有限公司 用于头部姿态估计的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292734B2 (en) * 2011-01-05 2016-03-22 Ailive, Inc. Method and system for head tracking and pose estimation
US20160070966A1 (en) * 2014-09-05 2016-03-10 Ford Global Technologies, Llc Head-mounted display head pose and activity estimation
CN104392241A (zh) * 2014-11-05 2015-03-04 电子科技大学 一种基于混合回归的头部姿态估计方法
CN105760809A (zh) * 2014-12-19 2016-07-13 联想(北京)有限公司 用于头部姿态估计的方法和设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11367197B1 (en) * 2014-10-20 2022-06-21 Henry Harlyn Baker Techniques for determining a three-dimensional representation of a surface of an object from a set of images
US11869205B1 (en) 2014-10-20 2024-01-09 Henry Harlyn Baker Techniques for determining a three-dimensional representation of a surface of an object from a set of images
CN107506725A (zh) * 2017-08-22 2017-12-22 杭州远鉴信息科技有限公司 基于神经网络的高压隔离开关定位与状态图像识别算法
CN107481292A (zh) * 2017-09-05 2017-12-15 百度在线网络技术(北京)有限公司 车载摄像头的姿态误差估计方法和装置
CN107481292B (zh) * 2017-09-05 2020-07-28 百度在线网络技术(北京)有限公司 车载摄像头的姿态误差估计方法和装置
CN107749757A (zh) * 2017-10-18 2018-03-02 广东电网有限责任公司电力科学研究院 一种基于堆栈式自编码和pso算法的数据压缩方法及装置
CN107945161A (zh) * 2017-11-21 2018-04-20 重庆交通大学 基于纹理特征提取的道路表面缺陷检测方法
CN107945161B (zh) * 2017-11-21 2020-10-23 重庆交通大学 基于纹理特征提取的道路表面缺陷检测方法
CN110533065A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于自编码特征和深度学习回归模型的盾构姿态预测方法

Also Published As

Publication number Publication date
CN106599810B (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN108345869B (zh) 基于深度图像和虚拟数据的驾驶人姿态识别方法
CN110059558B (zh) 一种基于改进ssd网络的果园障碍物实时检测方法
CN106599810A (zh) 一种基于栈式自编码的头部姿态估计方法
CN108764065B (zh) 一种行人重识别特征融合辅助学习的方法
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN110674741B (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN104392241B (zh) 一种基于混合回归的头部姿态估计方法
CN108171112A (zh) 基于卷积神经网络的车辆识别与跟踪方法
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN108182397B (zh) 一种多姿态多尺度的人脸验证方法
CN104268539A (zh) 一种高性能的人脸识别方法及***
CN106599994A (zh) 一种基于深度回归网络的视线估计方法
CN111368759B (zh) 基于单目视觉的移动机器人语义地图构建***
CN105205449A (zh) 基于深度学习的手语识别方法
CN103279936A (zh) 基于画像的人脸伪照片自动合成及修正方法
CN104636732A (zh) 一种基于序列深信度网络的行人识别方法
CN105760898A (zh) 一种基于混合组回归方法的视觉映射方法
CN113361542A (zh) 一种基于深度学习的局部特征提取方法
CN105488541A (zh) 增强现实***中基于机器学习的自然特征点识别方法
CN112232263A (zh) 一种基于深度学习的番茄识别方法
CN107330363B (zh) 一种快速的互联网广告牌检测方法
CN108537825A (zh) 一种基于迁移学习回归网络的目标跟踪方法
CN106778579B (zh) 一种基于累计属性的头部姿态估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190514

Termination date: 20211205