WO2019011249A1

WO2019011249A1 - 一种图像中物体姿态的确定方法、装置、设备及存储介质

Info

Publication number: WO2019011249A1
Application number: PCT/CN2018/095191
Authority: WO
Inventors: 李佳
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-07-14
Filing date: 2018-07-10
Publication date: 2019-01-17
Also published as: JP6789402B2; KR20190128686A; CN107330439B; EP3576017A4; US20190355147A1; KR102319177B1; JP2020507850A; CN107330439A; US11107232B2; EP3576017A1

Abstract

本申请公开了一种图像中物体姿态的确定方法、装置、设备及存储介质。该方法包括：从服务器获取目标物体的卷积神经网络的训练模型参数；获取目标物体的实时图像，从实时图像中识别出至少一个第一图像块；根据训练模型参数，通过卷积神经网络确定与该第一图像块相匹配的标签图像块；根据每个第一图像块和每个第一图像块各自匹配的标签图像块，确定目标物体的姿态。本申请的这种方法，能够提升图像处理的时间效率，消耗较少的内存资源，提高终端设备的资源利用率。

Description

一种图像中物体姿态的确定方法、装置、设备及存储介质

本申请要求于2017年7月14日提交中国国家知识产权局、申请号为201710573908.5、发明名称为“一种图像中物体姿态的确定方法、客户端及服务器”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图像处理技术领域，特别涉及一种图像中物体姿态的确定方法、装置、设备及存储介质。

背景技术

随着计算机图形技术的飞速发展，增强现实技术将计算机产生的图形、文字等虚拟信息有机的融合到使用者所看到的真实场景中，对人的视觉***进行景象的增强或扩张。实现增强现实技术的基础是能够获取真实场景的观测角度。例如，当通过摄像机获取真实场景的图像时，需要通过二维观测图像估计出三维物体的姿态，进而通过三维物体的姿态在真实的场景中增加并显示虚拟内容。

相关技术中，常用的方法是对人工设计的特征进行检测，然后在不同的图像之间进行比较。但是，这类方法需要准确的尺度选择、旋转纠正、密度归一化等附加步骤，计算复杂度很高，耗时较长。当将增强现实技术应用于移动设备或者可穿戴设备等终端设备上时，由于此类终端设备资源受限、具备有限的信息输入和计算能力，上述方法将不再适用。

发明内容

有鉴于此，本申请实施例提供了一种图像中物体姿态的确定方法、装置、设备及存储介质，能够提升图像处理的时间效率，消耗较少的内存资源，提高终端设备的资源利用率。

一方面，本申请提供了一种图像中物体姿态的确定方法，所述方法应用于终端设备中，所述方法包括：

从服务器获取针对目标物体的卷积神经网络的训练模型参数；

获取所述目标物体的实时图像，从所述实时图像中识别出至少一个第一图像块，所述第一图像块是所述实时图像的局部图像；

根据所述训练模型参数，通过所述卷积神经网络确定与每个所述第一图像块相匹配的标签图像块，所述标签图像块是所述目标物体的标准图像的局部图像；

根据所述每个第一图像块和所述每个第一图像块相匹配的标签图像块，确定所述目标物体的姿态。

一方面，本申请提供了一种图像中物体姿态的确定方法，所述方法应用于服务器中，所述方法包括：

获取目标物体的标准图像以及所述目标物体的多张畸变图像；

将所述标准图像和所述多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数；

将所述训练模型参数发送给终端设备，以使所述终端设备获取所述目标物体的实时图像，从所述实时图像中识别出至少一个第一图像块，所述第一图像块是所述实时图像的局部的图像；根据所述训练模型参数，通过所述卷积神经网络确定与每个所述第一图像块相匹配的标签图像块，所述标签图像块是所述标准图像的局部图像；根据所述每个第一图像块和各自匹配的标签图像块，确定所述目标物体的姿态，根据所述姿态在所述实时图像中增加虚拟内容。

一方面，本申请提供了一种图像中物体姿态的确定装置，所述装置包括：

离线接收模块，用于从服务器获取目标物体的卷积神经网络的训练模型参数；

在线接收模块，用于获取所述目标物体的实时图像；

识别模块，用于从所述实时图像中识别出至少一个第一图像块，所述第一图像块是所述实时图像的局部图像；

匹配模块，用于根据所述训练模型参数确定，通过所述卷积神经网络确定与每个所述第一图像块相匹配的标签图像块，所述标签图像块是所述目标物体的标准图像的局部图像；

姿态确定模块，用于根据所述每个第一图像块和所述每个第一图像块相匹配的标签图像块，确定所述目标物体的姿态。

获取模块，用于获取目标物体的标准图像以及所述目标物体的多张畸变图像；

训练模块，用于将所述标准图像和所述多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数；

发送模块，用于将所述训练模型参数发送给终端设备，以使所述终端设备获取所述目标物体的实时图像，从所述实时图像中识别出至少一个第一图像块，所述第一图像块是所述实时图像的局部的图像；根据所述训练模型参数，通过所述卷积神经网络确定与每个所述第一图像块相匹配的标签图像块，所述标签图像块是所述标准图像的局部图像；根据所述每个第一图像块和所述每个第一图像块相匹配的标签图像块，确定所述目标物体的姿态。

一方面，本申请提供了一种终端设备，所述终端设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的应用于终端设备中的图像中物体姿态的确定方法。

一方面，本申请提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的应用于服务器中的图像中物体姿态的确定方法。

一方面，本申请提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的图像中物体姿态的确定方法。

由上述技术方案可见，本申请实施例提供的方法，通过使用卷积神经网络进行离线训练，然后在线确定物体姿态时使用训练好的训练模型参数，使得图像处理的计算复杂度大大低，时间效率高，占用内存资源少，同时还能保证确定方法的准确率，该方法尤其适用于资源受限设备上应用增强现实服务，提升了终端设备的资源使用率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例所涉及的实施环境示意图；

图2为本申请一个实施例中图像中物体姿态的确定方法的流程示意图；

图3a为本申请一个实施例中目标物体的标准图像的示意图；

图3b为本申请一个实施例中目标物体的畸变图像的示意图；

图4a为本申请另一个实施例中目标物体的标准图像的示意图；

图4b为本申请另一个实施例中目标物体的畸变图像的示意图；

图5为本申请另一个实施例中图像中物体姿态的确定方法的流程示意图；

图6为本申请一个实施例中图像中物体姿态的确定方法的流程示意图；

图7为本申请一个实施例中卷积神经网络的结构示意图；

图8为本申请一个实施例中客户端的结构示意图；

图9为本申请另一个实施例中客户端的结构示意图；

图10为本申请一个实施例中服务器的结构示意图；

图11为本申请另一个实施例中服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本申请进一步详细说明。

图1为本申请一个实施例所涉及的增强现实实施环境示意图。如图1所示，在增强现实应用***100中包括目标物体101、终端设备102和服务器103。其中，终端设备102中安装有摄像装置1021、屏幕1023、本申请实施例给出的物体姿态确定客户端，并且运行有增强现实的应用程序。

例如，用户使用摄像装置1021实时拍摄到关于目标物体101的图像1022，显示在屏幕1023上。根据本申请实施例所述的方法，从所拍摄的图像1022中估计出目标物体101的姿态，通过该姿态能够确定目标物体101在所拍摄图像1022中的位置，然后根据该姿态将虚拟内容1024加在同一位置处，从而实现真实世界和虚拟信息叠加在同一个画面中。

根据本申请的实施例，在终端设备处对实时图像进行在线检测之前，终端设备102首先从服务器103处获得对目标物体101的离线训练结果。服务器103中的数据库1031中保存有目标物体101的大量图像样本，然后离线训练子服务器1032使用卷积神经网络对这些图像样本进行离线训练，训练完成后确定出训练模型参数，然后将其发送给终端设备102用于对实时图像的在线检测。

这里，上述终端设备102是指具有图像拍摄以及处理功能的终端设备，包括但不限于智能手机、掌上电脑、平板电脑等。这些终端设备上都安装有操作***，包括但不限于：Android操作***、Symbian操作***、Windows mobile操作***、以及苹果iPhone OS操作***等等。终端设备102和服务器103之间可以通过无线网络进行通信。

图2为本申请一个实施例中图像中物体姿态的确定方法的流程示意图。该方法可以应用于单独的客户端，或者应用于具备增强现实功能的客户端，该客户端可安装于图1实施例中的终端设备102中。该方法包括但不限于以下步骤。

步骤201，从服务器获取目标物体的卷积神经网络训练模型参数。

例如，服务器获取一个场景中目标物体的标准图像以及多张畸变图像，将标准图像和多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数。然后，服务器将训练模型参数发送给客户端，安装有该客户端的终端设备通过客户端接收到该训练模型参数。

在本申请的实施例中，训练出来的训练模型参数与特定的场景相关，针对的是单一目标物体。所谓标准图像是指在一个特定场景中针对一个目标物体拍摄得到的清晰图像，而畸变图像是在该标准图像的基础上引入各种透视失真而得到的。

图3a给出了一个城市场景中针对一个目标物体的标准图像，图3b则给出了相应的3张畸变图像。该场景是河边的城市建筑群，目标物体是其中最高的楼，如图3a中椭圆所示。3张畸变图像是对图3a中的标准图像进行旋转、平移得到的，在每张畸变图像中都可以看到目标物体—楼，而在背景部分则填充了一些随机数。

图4a和图4b分别给出了另一个场景中针对一个目标物体的标准图像和3张畸变图像。目标物体是河上的桥，如图4a中方框所示。3张畸变图像也是对标准图像进行旋转、平移得到的，在每张畸变图像中都可以看到完整的或者部分的目标物体—桥。

此步骤是在用户使用增强现实服务之前执行，在客户端中事先存储获得的训练模型参数。在用户使用增强现实服务时，则读取该训练模型参数用于目标物体的姿态确定。

步骤202，获取目标物体的实时图像，从实时图像中识别出至少一个第一图像块。

此步骤中，用户处于上述场景中，希望使用增强现实服务，首先通过客户端所在的终端设备上的摄像装置拍摄得到目标物体的实时图像，将实时图像传递给客户端。然后，客户端从实时图像中识别出至少一个第一图像块，其中，第一图像块是实时图像的局部图像，识别的方法包括但不限于如下步骤：

步骤2021，对实时图像进行特征检测，获取多个局部特征。

局部特征是指图像中一些有别于其周围的地方，描述的是一块区域，使其能具有高可区分度。

步骤2022，针对每个局部特征，若判断出该局部特征的图像对比度高于预设的对比度阈值并且该局部特征并非图像的边缘，则将该局部特征确定为第一图像块。

例如，对比度指的是一幅图像中明暗区域最亮的白和最暗的黑之间不同亮度层级的测量，即指一幅图像灰度反差的大小。这样，识别出的第一图像块，能从周围环境中凸显，减少位置上的歧义。例如，实时图像为一个脸部图像，第一图像块为脸部的鼻尖、眼角等。

例如，可以使用尺度不变特征变换(SIFT)、加速鲁棒特征(SURF)识别算法、加速分段测试的特征识别(FAST)等方法。这些方法检测的准确性和速度各有不同。在实际应用时，可以根据终端设备的硬件能力在处理复杂度和时间效率之间进行折中选择。

在其他实施例中，也可以根据单个判断结果确定局部特征。例如，若判断出该局部特征的图像对比度高于预设的对比度阈值，则将该局部特征确定为第一图像块。或者，该局部特征并非图像的边缘，则将该局部特征确定为第一图像块。这里，局部特征的识别准确度将会影响后续的匹配和确定出的姿态结果。

步骤203，根据训练模型参数，通过卷积神经网络确定与该第一图像块相匹配的标签图像块。

终端设备将每个第一图像块输入至卷积神经网络中，卷积神经网络基于训练模型参数，输出每个第一图像块相匹配的标签图像块。其中，标签图像块是与第一图像块相匹配的标准图像的局部图像。

可选的，训练模型参数包括权值和从标准图像中识别出来的第二图像块，第二图像块是标准图像的局部图像。卷积神经网络包括多个卷积层，权值是指每个卷积层所使用的卷积矩阵中的各个元素值。

此步骤中，匹配的方法包括但不限于如下步骤：

步骤2031，将该第一图像块输入卷积神经网络，基于权值输出该第一图像块与每个第二图像块相匹配的概率。

卷积神经网络能够对第一图像块进行分类，每个第二图像块代表了类别标签，通过权值对第一图像块进行处理，输出的结果是第一图像块与每个第二图像块相匹配的概率。这个概率数值代表了第一图像块和第二图像块的相似度。

步骤2032，将最大概率值所对应的第二图像块确定为标签图像块。

例如，在客户端和服务器侧预先设置目标物体的标识，训练模型参数中包括该标识。那么，当客户端接收到该训练模型参数后，获知上述标识。在执行步骤202时，根据获取到的实时图像或者终端的当前定位信息，判断出该实时图像对应了哪个目标物体，那么根据该目标物体的标识就能获知在执行步骤203时使用哪个训练模型参数进行匹配。

步骤204，根据每个第一图像块和每个第一图像块相匹配的标签图像块，确定目标物体的姿态。

可选的，目标物体的姿态由仿射变换来表示，也就是说，每个标签图像块经由仿射变换与第一图像块相匹配。其中，仿射变换可以由仿射变换矩阵的形式来表示，由每个第一图像块和其相匹配的标签图像块之间对应的仿射变换矩阵构成仿射变换集群。若第一图像块为q _i，i＝1,…,N，N为第一图像块的总数，与q _i匹配的标签图像块为p _i，仿射变换由矩阵A来表示，那么有：

q _i＝Ap _i (1)

仿射变换能够体现出目标物体相对于摄像镜头的平移和旋转量，可以描述3D空间中的目标物体到2D平面图像的成像过程。仿射变换属于线性变换，即具有将平行线变换成平行线、有限点映射到有限点的一般特性。二维欧氏空间上的仿射变换可以表示为：

其中，(x,y)和(x′,y′)分别是指标准图像和实时图像中两个点(即像素)的坐标，

为旋转、伸缩、切变的合成变换的矩阵表示，(a ₀,a ₅) ^T为平移矢量，a _i均为实数。其中，6个参数组成的向量a＝(a ₀,a ₁,a ₂,a ₃,a ₄,a ₅) ^T代表了仿射变换，决定了两个点之间的坐标转换关系，包括三维旋转和平移。

可见，仿射变换具有6个自由度，根据仿射变换估计出的姿态也常称为6D姿态。根据向量中参数的具体数值，平移、旋转、缩放、反射和剪切等都是仿射变换的一种情况。

在确定目标物体的姿态时，可根据最小二乘原则从仿射变换矩阵集合中确定出仿射变换矩阵集合的矩阵估计值，其中，矩阵估计值是仿射变换矩阵集合对应的逆变换的幅角。例如，矩阵估计值

可以通过以下公式计算：

其中，||·||表示·的模值的平方，G为仿射变换矩阵集合。

确定出由

表示的姿态后，任何希望添加于实时图像中的虚拟内容都可以由

进行变换，与实时图像保持一致的观测角度，从而实现了在实时图像中增加虚拟内容，为用户展示增强现实后的混合图像效果。

本实施例中，通过从服务器接收已训练完的卷积神经网络训练模型参数，接收用户拍摄目标物体得到的实时图像，从实时图像中识别出至少一个第一图像块，将图像块作为卷积神经网络的输入，好处在于相比整幅图像，这种图像小块抗变换能力强，尤其是平移变换；并且，不需要做分割或者其它任何预先的图像语义解释。

然后，针对每个第一图像块，根据训练模型参数确定与该第一图像块相匹配的标签图像块，根据各个第一图像块和各自匹配的标签图像块，确定目标物体的姿态，根据姿态在实时图像中增加虚拟内容。使用卷积神经网络用于姿态确定的好处在于，这种网络中权值数据在多个连接中可以共享，使得上述方法的计算复杂度低，时间效率高，占用内存资源少，尤其适用于资源受限设备上应用增强现实服务，例如，电池能力受限的移动终端、可穿戴式设备等。

图5为本申请另一个实施例中图像中物体姿态的确定方法的流程示意图。如图5所示，该方法包括但不限于如下步骤：

步骤501，从服务器接收并存储已训练完的卷积神经网络的训练模型参数。

服务器针对某个特定场景下的目标物体进行离线训练，训练完毕后，将训练模型参数发送给客户端进行存储，然后客户端在实时监测时调用该训练模型参数。

步骤502，获取目标物体的实时图像。

例如，实时图像可以是用户拍摄的静态图片或者视频中的一帧图像。当接收到的是视频流时，每隔固定间隔从视频流中抽取出一帧图像作为待处理的实时图像。例如，视频流每秒包括24帧图像，可以每隔一秒从中抽取出一帧图像。

步骤503，从实时图像中识别出至少一个第一图像块，将每个第一图像块输入卷积神经网络。

步骤504，对于每个第一图像块，基于权值输出该第一图像块与每个第二图像块相匹配的概率，将最大概率值所对应的第二图像块确定为标签图像块。

参见上述步骤202、203中的描述，此处不再赘述。

步骤505，根据各个第一图像块和各自匹配的标签图像块，确定出仿射变换的矩阵估计值来表征目标物体的几何姿态。

本步骤中，第一图像块和与其匹配的标签图像块组成一个匹配对，即(q _i,p _i)。在确定姿态之前，可以进一步包括对匹配对的取舍。对于每个第一图像块，包括但不限于如下步骤：

步骤5051，将该第一图像块输入卷积神经网络，基于权值输出该第一图像块与每个第二图像块相匹配的概率。

例如，若第二图像块的总数为M，卷积神经网络的输出层输出一个1×M维的分类向量，向量中的元素取值为[0，1]，代表了上述概率。

步骤5052，若概率大于预设概率阈值的第二图像块的总数大于预设个数阈值，则将该第一图像块和与其匹配的标签图像块用于确定目标物体的姿态。

例如，预设概率阈值为0.6，预设个数阈值为200，则若数值大于0.6的元素个数大于200个，则保留该匹配对，用于姿态确定。这样选择出来的匹配对能够服从大多数的姿态。

其中，将概率大于预设概率阈值的第二图像块总数大于预设个数阈值的第一图像块称为目标图像块，终端设备根据目标图像块，以及目标图像对应的标签图像块确定目标物体的姿态。

例如，也可以使用随机抽样一致性的策略，来滤除误匹配对。

步骤506，根据矩阵估计值将虚拟内容添加在实时图像中。

通过标准图像确定出仿射变换的矩阵估计值后，可以再执行逆过程，将虚拟内容通过仿射变换再转换到实时图像的参照系中，从而可以将二者叠加在一起，实现增强现实的功能。

在上述实施例中，通过对匹配对(第一图像块，标签图像块)的取舍，由公式(3)可见，N的有效数值减少，因此，降低了计算的复杂度，同时还能提高姿态确定的准确性。此外，通过仿射变换的矩阵估计值来表征目标物体的几何姿态，处理简单，易于计算，进一步提高了算法的时间效率。

图6为本申请一个实施例中图像中物体姿态的确定方法的流程示意图。该方法可以应用于图1中的服务器103。该方法包括但不限于以下步骤。

步骤601，获取目标物体的标准图像以及目标物体的多张畸变图像。

服务器侧执行离线训练时，首先需要获取大量的训练样本。其中，标准图像是必需的，用于确定分类时使用的多个标签图像块。而畸变图像的获取方式可以有多种，例如，使用摄像装置针对同一目标物体随机拍摄获得多个畸变图像，或者，从标准图像进行各类失真处理获得多个畸变图像。对于后者，在一实施例中，图像的失真也可以通过仿射变换引入。根据标准图像获取畸变图像的方法包括但不限于如下步骤：

步骤6011，随机产生多个仿射变换矩阵。

定义矩阵

表示仿射变换，按照下式随机产生多个仿射变换矩阵：

其中，参数

和θ是从(-π,π]中均匀产生，参数t _x和f _x是从[0,w]中均匀生成，w为标准图像的宽度，参数t _y和f _y是从[0,h]中均匀生成，h为标准图像的高度，参数λ ₁和λ ₂是从[0.5,1.5]中均匀生成。

步骤6012，针对每个仿射变换矩阵，使用该仿射变换矩阵对标准图像进行仿射变换，得到一张畸变图像。

执行变换的表达式如下：

I′＝A(I)+N (5)

其中，I为输入的标准图像，I′为生成的畸变图像，N为高斯白噪声，均值为μ，方差为σ，并且满足如下的关系：

当0≤μ≤5 (6)

σ＝0.3×(μ/2-1)+0.8 (7)

步骤602，将标准图像和多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数。

步骤603，将训练模型参数发送给客户端。

这样，终端设备通过客户端接收用户拍摄目标物体得到的实时图像，从实时图像中识别出至少一个第一图像块；针对每个第一图像块，根据训练模型参数确定与该第一图像块相匹配的标签图像块；及，根据各个第一图像块和各自匹配的标签图像块，确定目标物体的姿态，根据姿态在实时图像中增加虚拟内容。

在上述步骤602中，服务器构建卷积神经网络，然后进行训练。卷积神经网络通过卷积操作进行特征提取，然后进行特征映射。卷积神经网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等，因而可以减少网络自由参数的个数。

图7为本申请一个实施例中卷积神经网络的结构示意图。如图7所示，卷积神经网络包括多层处理，分别为：

701卷积层：通过一个卷积矩阵作为过滤器，当过滤器卷积输入的图像块700时，把过滤器里面的权值和图像块里对应的像素值相乘，把所有结果加和，得到一个加和值。然后重复这个过程，从左到右、从上到下卷积图像块的每一个区域，每一步都可以得到一个值，最后的矩阵为特征图像。

702池化层：池化层通常用在卷积层之后，其作用就是简化卷积层里输出的信息，减少数据维度，降低计算开销，控制过拟合。

例如，卷积后的特征图像具有一种“静态性”的属性，这表明在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述一副大的图像，对不同位置的特征进行聚合统计，即池化过程。例如，计算图像一个区域上的某个特定特征的平均值或最大值。相比使用所有提取得到的特征，这些统计特征不仅具有低得多的维度，同时还会改善结果，不容易过拟合。

703全连接层：检测获取到的这些特征图像与哪种类别更相近。这里的类别即由M个第二图像块代表的各种可能标签。

704输出层：输出为1×M维的分类向量，向量中的元素取值为[0,1]，输出的每一维都是指该图像块属于该类别的概率。

在实际应用中，通常使用多层卷积，然后再使用全连接层进行训练。即在图7中，将701卷积层和702池化层作为一个组合，将依次执行多个该组合，这种网络被称为深度卷积神经网络。多层卷积的目的是考虑到一层卷积学到的特征往往是局部的，层数越高，学到的特征就越全局化。

当卷积神经网络包括多个卷积层时，确定卷积层的个数的方法，包括但不限于如下步骤：预设图像块个数与卷积层个数的对应关系；从标准图像中识别出至少一个第二图像块；根据第二图像块的个数和对应关系确定卷积神经网络中卷积层的个数。

例如，表1给出的实施例中，第二图像块的总数为400，整个网络包括了13层。其中，有4个卷积层，其中第1、4、7、10层是卷积层，在第1层卷积层之后紧跟着进行最大池化层和行线性整流函数(英文：Rectified Linear Unit，ReLU)激励层，在第4层卷积层之后紧跟着进行ReLU激励层和平均池化层，在第7层卷积层之后紧跟着进行ReLU激励层和平均池化层，在第10层卷积层之后紧跟着进行ReLU激励层，最后是全连接层和软最大值(英文：soft-max)输出层。

层数	类型	输入矩阵	输出矩阵
1	卷积	27×27	32×27×27
2	最大池化	32×27×27	32×14×14
3	ReLU	32×14×14	32×14×14
4	卷积	32×14×14	32×14×14
5	ReLU	32×14×14	32×14×14
6	平均池化	32×14×14	32×7×7
7	卷积	32×7×7	64×7×7
8	ReLU	64×7×7	64×7×7
9	平均池化	64×7×7	64×4×4
10	卷积	64×4×4	64×1×1
11	ReLU	64×1×1	64×1×1
12	全连接	64×1×1	1×400
13	Soft-max输出	1×400	1×400

表1深度卷积神经网络的结构

其中，激励层中将调用一种激励函数来加入非线性因素，以解决线性不可分的问题。如表1所示，选择的激励函数方式叫做ReLU，其表达式为：

f(x)＝max(0,x) (8)

即把小于零的值都归为0，这样，卷积神经网络训练的速度会更快，减少梯度消失的问题出现。

此外，卷积神经网络在训练的过程中也需要确定输入样本和理想的输出样本，然后迭代进行权值的调整。在一实施例中，从标准图像中识别出至少一个第二图像块；分别对每张畸变图像进行识别，得到至少一个第三图像块；在卷积神经网络进行训练时，将第三图像块作为输入样本，将各个第二图像块作为理想的输出样本，训练得到权值。

卷积神经网络训练时，通过反向传播算法来调整权值。反向传播算法可以分成4个不同的部分：向前传递，损失函数，反向传递，更新权重。

向前传播过程中，输入图像块，通过卷积神经网络传递它。起初，所有的权值都被随机初始化，如随机值[0.3,0.1,0.4,0.2,0.3....]。由于卷积神经网络通过初始化的权值无法提取准确特征图像，因此无法给出任何合理的结论，图片属于哪种类别。此时，通过反向传播中的损失函数来帮助卷积神经网络更新权值找到想要的特征图像。损失函数的定义方式有很多种，例如，均方误差(英文：mean squared error，MSE)。在卷积神经网络刚开始训练的时候，由于权值都是随机初始化出来的，这个损失值可能会很高。而训练的目的是希望预测值和真实值一样。为此，需要尽量减少损失值，损失值越小就说明预测结果越接近。在这一个过程中，将不断的调整权值，来寻找出哪些权值能使网络的损失减小。例如，采用梯度下降算法。

每次训练，将会完成多次的前向传递、损失函数、反向传递和参数更新的过程。当训练结束后，就得到了训练出来的一些权值。

根据本申请上述实施例给出的物体姿态确定方法，和相关技术中使用随机蕨(英文：Radom Ferns)方法确定姿态相比，表2给出了两种方法在准确率和占用内存的数值。

首先，实验数据是这样设置的：本申请实施例给出的方法中，使用表1给出的卷积神经网络架构，图像块的大小为27×27，共有27行27列个像素，对该图像块进行预处理，使其均值为0，方差为1。离线训练时根据公式(4)随机产生了2000个仿射变换矩阵，用于生成畸变图像。第二图像块的个数为400，输出向量为1×400维的分类向量。Ferns方法中Fern的个数为30，每个Fern 中特征的个数为12。

如表2所示，对于图3a、图3b给出的图像，本申请实施例给出的方法的准确率为86％，而Ferns方法的准确率为88％；对于图4a、图4b给出的图像，本申请实施例给出的方法的准确率为87％，而Ferns方法的准确率为88％。可见，本申请实施例给出的方法与Ferns方法的准确率大致相同。但是就占用内存来看，本申请实施例给出的方法由于使用卷积神经网络，占用内存仅为0.5557M，而Ferns方法占用内存93.75M，可见，本申请实施例给出的方法具有很低的内存资源消耗。

表2实验数据对比

图8为本申请一个实施例中客户端800的结构示意图。如图8所示，客户端800可以是执行图2和图5实施例中图像中物体姿态的确定方法的虚拟装置，该装置包括：

离线接收模块810，用于从服务器获取目标物体的卷积神经网络的训练模型参数；

在线接收模块820，用于获取目标物体的实时图像；

识别模块830，用于从实时图像中识别出至少一个第一图像块；

匹配模块840，用于根据训练模型参数，通过卷积神经网络确定与每个第一图像块相匹配的标签图像块；

姿态确定模块850，用于根据每个第一图像块和每个第一图像块相匹配的标签图像块，确定目标物体的姿态。

增加模块860，用于根据该姿态在实时图像中增加虚拟内容。其中，增加模块860是可选的模块。

在一个可选的实施例中，识别模块830包括：

检测单元831，用于对实时图像进行特征检测，获取多个局部特征；

判断单元832，用于将多个局部特征中图像对比度高于预设的对比度阈值，且并非图像的边缘的局部特征确定为第一图像块。

在一个可选的实施例中，训练模型参数包括权值和从标准图像中识别出来的第二图像块，匹配模块840还用于，将每个第一图像块输入卷积神经网络，基于权值输出每个第一图像块与每个第二图像块相匹配的概率；获取每个第一图像块对应的概率中大于概率阈值的数量；将数量大于预设个数的第一图像块确定为目标图像块；根据目标图像块和与目标图像块相匹配的标签图像块，确定姿态。

在一个可选的实施例中，匹配模块840还用于，获取目标图像块与每个第二图像块相匹配的概率；将概率中最大的概率对应的第二图像块确定为目标图像块相匹配的标签图像块；根据目标图像块和目标图像块相匹配的标签图像块，确定姿态。

在一个可选的实施例中，每个第一图像块是每个第一图像块相匹配的标签图像块使用仿射变换矩阵进行仿射变换得到的，每个仿射变换矩阵构成仿射变换矩阵集合；

姿态确定模块850还用于，根据最小二乘原则从仿射变换矩阵集合中确定出仿射变换矩阵集合的矩阵估计值。

在一个可选的实施例中，姿态确定模块850还用于通过以下公式计算矩阵估计值：

其中，

为矩阵估计值，q _i为第一图像块，i＝1,…,N，N为第一图像块的总数，p _i为与q _i匹配的标签图像块，A为仿射变换矩阵，||·||表示·的模值的平方，G为仿射变换矩阵集合。

图9为本申请另一个实施例中客户端900的结构示意图，该客户端900可以是图1中所示的终端设备102。如图9所示，服务器900包括：处理器910、存储器920、端口930以及总线940。处理器910和存储器920通过总线940互联。处理器910可通过端口930接收和发送数据。其中，

处理器910用于执行存储器920存储的机器可读指令模块。

存储器920存储有处理器910可执行的机器可读指令模块。处理器910可执行的指令模块包括：离线接收模块921、在线接收模块922、识别模块923、匹配模块924、姿态确定模块925和增加模块926。其中，

离线接收模块921被处理器910执行时可以为：从服务器获取目标物体的卷积神经网络的训练模型参数；

在线接收模块922被处理器910执行时可以为：获取目标物体的实时图像；

识别模块923被处理器910执行时可以为：从实时图像中识别出至少一个第一图像块；

匹配模块924被处理器910执行时可以为：根据训练模型参数，通过卷积神经网络确定与每个第一图像块相匹配的标签图像块；

姿态确定模块925被处理器910执行时可以为：根据每个第一图像块和每个第一图像块相匹配的标签图像块，确定目标物体的姿态；

增加模块926被处理器910执行时可以为：根据姿态在实时图像中增加虚拟内容。其中，增加模块926为可选的模块。

由此可以看出，当存储在存储器920中的指令模块被处理器910执行时，可实现前述各个实施例中离线接收模块、在线接收模块、识别模块、匹配模块、姿态确定模块和增加模块的各种功能。

图10为本申请一个实施例中服务器1000的结构示意图。如图10所示，服务器1000包括执行图6实施例中图像中物体姿态的确定方法的虚拟装置，该装置包括：

获取模块1010，用于获取目标物体的标准图像以及目标物体的多张畸变图像；

训练模块1020，用于将标准图像和多张畸变图像输入到卷积神经网络进行训练，获得卷积神经网络的训练模型参数；

发送模块1030，用于将训练模型参数发送给客户端，以使终端设备通过客户端获取目标物体的实时图像，从实时图像中识别出至少一个第一图像块；根据训练模型参数，通过卷积神经网络确定与每个第一图像块相匹配的标签图像块；根据每个第一图像块和每个第一图像块相匹配的标签图像块，确定目标物体的姿态。

在一个可选的实施例中，获取模块1010还用于，随机产生多个仿射变换矩阵；使用每个仿射变换矩阵对标准图像进行仿射变换，得到每张畸变图像。

在一个可选的实施例中，卷积神经网络包括多个卷积层，训练模块1020 还用于，从标准图像中识别出至少一个第二图像块；根据第二图像块的个数，以及预设的第二图像块与卷积层个数的对应关系，确定卷积神经网络中卷积层的个数。

在一个可选的实施例中，训练模块1010还用于，从标准图像中识别出至少一个第二图像块；分别对每张畸变图像进行识别，得到至少一个第三图像块；在卷积神经网络进行训练时，将第三图像块作为输入样本，将第二图像块作为理想的输出样本，训练得到权值。

图11为本申请另一个实施例中服务器1100的结构示意图。如图11所示，服务器1100包括：处理器1110、存储器1120、端口1130以及总线1140。处理器1110和存储器1120通过总线1140互联。处理器1110可通过端口1130接收和发送数据。其中，

处理器1110用于执行存储器1120存储的机器可读指令模块。

存储器1120存储有处理器1110可执行的机器可读指令模块。处理器1110可执行的指令模块包括：获取模块1121、训练模块1122和发送模块1123。其中，

获取模块1121被处理器1110执行时可以为：获取目标物体的标准图像以及多张畸变图像；

训练模块1122被处理器1110执行时可以为：将标准图像和多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数；

发送模块1123被处理器1110执行时可以为：将训练模型参数发送给客户端，以使终端设备通过客户端获取目标物体的实时图像，从实时图像中识别出至少一个第一图像块；根据训练模型参数，通过卷积神经网络确定与每个第一图像块相匹配的标签图像块；根据每个第一图像块和每个第一图像块相匹配的标签图像块，确定目标物体的姿态。

由此可以看出，当存储在存储器1120中的指令模块被处理器1110执行时，可实现前述各个实施例中获取模块、训练模块和发送模块的各种功能。

上述装置实施例中，各个模块及单元实现自身功能的示例性的方法在方法实施例中均有描述，这里不再赘述。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

另外，本申请的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请。存储介质可以使用任何类别的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此，本申请还公开了一种存储介质，其中存储有至少一段数据处理程序，该数据处理程序用于执行本申请上述方法的任何一种实施例。可选的，该存储介质中有至少一条指令、代码集或指令集，该至少一条指令、代码集或指令集由处理器加载并执行以实现本申请上述方法的任何一种实施例。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种图像中物体姿态的确定方法，其特征在于，所述方法应用于终端设备中，所述方法包括：

从服务器获取目标物体的卷积神经网络的训练模型参数；

获取所述目标物体的实时图像，从所述实时图像中识别出至少一个第一图像块，所述第一图像块是所述实时图像的局部图像；

根据所述训练模型参数，通过所述卷积神经网络确定与每个所述第一图像块相匹配的标签图像块，所述标签图像块是所述目标物体的标准图像的局部图像；

根据所述每个第一图像块和所述每个第一图像块相匹配的标签图像块，确定所述目标物体的姿态。
根据权利要求1所述的方法，其特征在于，所述从所述实时图像中识别出至少一个第一图像块，包括：

对所述实时图像进行特征检测，获取多个局部特征；

将所述多个局部特征中图像对比度高于预设的对比度阈值，且并非图像的边缘的局部特征确定为所述第一图像块。
根据权利要求1所述的方法，其特征在于，所述训练模型参数包括权值和从所述标准图像中识别出来的第二图像块，所述第二图像块是所述标准图像的局部图像，所述根据每个所述第一图像块和所述第一图像块相匹配的标签图像块，确定所述目标物体的姿态，包括：

将每个所述第一图像块输入所述卷积神经网络，基于所述权值输出所述每个第一图像块与每个所述第二图像块相匹配的概率；

获取所述每个第一图像块对应的概率中大于概率阈值的数量；

将所述数量大于预设个数的第一图像块确定为目标图像块；

根据所述目标图像块和所述目标图像块相匹配的标签图像块，确定所述姿态。
根据权利要求3所述的方法，其特征在于，所述根据所述目标图像块和所述目标图像块相匹配的标签图像块，确定所述姿态，包括：

获取所述目标图像块与所述每个第二图像块相匹配的概率；

将所述概率中最大的概率对应的第二图像块确定为所述目标图像块的标签图像块；

根据所述目标图像块和所述目标图像块相匹配的标签图像块，确定所述姿态。
根据权利要求1至4任一所述的方法，其特征在于，所述每个第一图像块是所述每个第一图像块相匹配的标签图像块使用仿射变换矩阵进行仿射变换得到的，每个所述仿射变换矩阵构成仿射变换矩阵集合；

所述根据所述每个第一图像块和所述每个第一图像块相匹配的标签图像块，确定所述目标物体的姿态，包括：

根据最小二乘原则从所述仿射变换矩阵集合中确定出所述仿射变换矩阵集合的矩阵估计值，所述矩阵估计值是所述仿射变换矩阵对应的逆变换的幅角。
根据权利要求5所述的方法，其特征在于，所述根据最小二乘原则从所述仿射变换矩阵集合中确定出所述仿射变换的矩阵估计值，包括：

通过以下公式计算所述矩阵估计值：

其中，
为所述矩阵估计值，q _i为所述第一图像块，i＝1,…,N，N为所述第一图像块的总数，p _i为与q _i匹配的标签图像块，A为所述仿射变换矩阵，||·||表示·的模值的平方，G为所述仿射变换矩阵集合。
根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

根据所述姿态在所述实时图像中增加并显示虚拟内容。
一种图像中物体姿态的确定方法，其特征在于，所述方法应用于服务器中，所述方法包括：

获取目标物体的标准图像以及多张所述目标物体的畸变图像；

将所述标准图像和所述多张畸变图像输入到卷积神经网络进行训练，获得所述卷积神经网络的训练模型参数；

将所述训练模型参数发送给终端设备，以使所述终端设备获取所述目标物体的实时图像，从所述实时图像中识别出至少一个第一图像块，所述第一图像块是所述实时图像的局部的图像；根据所述训练模型参数，通过所述卷积神经网络确定与每个所述第一图像块相匹配的标签图像块，所述标签图像块是所述标准图像的局部图像；根据所述每个第一图像块和所述每个第一图像块相匹配的标签图像块，确定所述目标物体的姿态。
根据权利要求8所述的方法，其特征在于，所述获取目标物体的标准图像以及多张所述目标物体的畸变图像，包括：

随机产生多个仿射变换矩阵；

使用每个所述仿射变换矩阵对所述标准图像进行仿射变换，得到每张所述畸变图像。
根据权利要求8所述的方法，其特征在于，所述卷积神经网络包括多个卷积层，所述方法还包括：

从所述标准图像中识别出至少一个第二图像块，所述第二图像块是所述标准图像的局部图像；根据所述第二图像块的个数，以及预设的第二图像块与卷积层个数的对应关系，确定所述卷积神经网络中卷积层的个数。
根据权利要求8至10中任一所述的方法，其特征在于，所述将所述标准图像和所述多张畸变图像输入到所述卷积神经网络进行训练，包括：

从所述标准图像中识别出至少一个第二图像块，所述第二图像块是所述标准图像的局部图像；

分别对所述每张畸变图像进行识别，得到至少一个第三图像块，所述第三图像块是所述畸变图像的局部图像；

在所述卷积神经网络进行训练时，将所述第三图像块作为输入样本，将所述第二图像块作为理想的输出样本，训练得到所述权值。
一种图像中物体姿态的确定装置，其特征在于，所述装置包括：

离线接收模块，用于从服务器获取目标物体的卷积神经网络的训练模型参数；

在线接收模块，用于获取所述目标物体的实时图像；

识别模块，用于从所述实时图像中识别出至少一个第一图像块，所述第一图像块是所述实时图像的局部图像；

匹配模块，用于根据所述训练模型参数，通过所述卷积神经网络确定与每个所述第一图像块相匹配的标签图像块，所述标签图像块是所述目标物体的标准图像的局部图像；

姿态确定模块，用于根据所述每个第一图像块和所述每个第一图像块相匹配的标签图像块，确定所述目标物体的姿态。
根据权利要求12所述的装置，其特征在于，所述识别模块，还用于对所述实时图像进行特征检测，获取多个局部特征；将所述多个局部特征中图像对比度高于预设的对比度阈值，且并非图像的边缘的局部特征确定为所述第一图像块。
根据权利要求12所述的装置，其特征在于，所述训练模型参数包括权值和从所述标准图像中识别出来的第二图像块，所述第二图像块是所述标准图像的局部图像，所述匹配模块还用于，将每个所述第一图像块输入所述卷积神经网络，基于所述权值输出所述每个第一图像块与每个所述第二图像块相匹配的概率；获取所述每个第一图像块对应的概率中大于概率阈值的数量；将所述数量大于预设个数的第一图像块确定为目标图像块；根据所述目标图像块和与所述目标图像块相匹配的标签图像块，确定所述姿态。
根据权利要求14所述的装置，其特征在于，所述匹配模块还用于获取所述目标图像块与所述每个第二图像块相匹配的概率；将所述概率中最大的概率对应的第二图像块确定为所述目标图像块相匹配的标签图像块；根据所述目标图像块和所述目标图像块相匹配的标签图像块，确定所述姿态。
根据权利要求12至15任一所述的装置，其特征在于，所述每个第一图像块是所述每个第一图像块相匹配的标签图像块使用仿射变换矩阵进行仿射变换得到的，每个所述仿射变换矩阵构成仿射变换矩阵集合；

所述姿态确定模块还用于，根据最小二乘原则从所述仿射变换矩阵集合中确定出所述仿射变换矩阵集合的矩阵估计值，所述矩阵估计值是所述仿射变换矩阵对应的逆变换的幅角。
根据权利要求16所述的装置，其特征在于，所述姿态确定模块还用于通过以下公式计算所述矩阵估计值：

其中，
为所述矩阵估计值，q _i为所述第一图像块，i＝1,…,N，N为所述第一图像块的总数，p _i为与q _i匹配的标签图像块，A为所述仿射变换矩阵，||·||表示·的模值的平方，G为所述仿射变换矩阵集合。
根据权利要求12至15任一所述的装置，其特征在于，所述装置还包括增加模块；

所述增加模块，用于根据所述姿态在所述实时图像中增加并显示虚拟内容。
一种图像中物体姿态的确定装置，其特征在于，所述装置包括：

获取模块，用于获取目标物体的标准图像以及所述目标物体多张畸变图像；

训练模块，用于将所述标准图像和所述多张畸变图像输入到卷积神经网络进行训练，获得所述卷积神经网络的训练模型参数；

发送模块，用于将所述训练模型参数发送给终端设备，以使所述终端设备获取所述目标物体的实时图像，从所述实时图像中识别出至少一个第一图像块，所述第一图像块是所述实时图像的局部的图像；根据所述训练模型参数，通过所述卷积神经网络确定与每个所述第一图像块相匹配的标签图像块，所述标签图像块是所述标准图像的局部图像；根据所述每个第一图像块和所述每个第一图像块相匹配的标签图像块，确定所述目标物体的姿态。
根据权利要求19所述的装置，其特征在于，所述获取模块还用于，随机产生多个仿射变换矩阵；使用每个所述仿射变换矩阵对所述标准图像进行仿射变换，得到每张所述畸变图像。
根据权利要求19所述的装置，其特征在于，所述卷积神经网络包括多个卷积层，所述训练模块，还用于从所述标准图像中识别出至少一个第二图像块，所述第二图像块是所述标准图像的局部图像；根据所述第二图像块的个数，以及预设的第二图像块与卷积层个数的对应关系，确定所述卷积神经网络中卷积层的个数。
根据权利要求19至21所述的装置，其特征在于，所述训练模块，还用于从所述标准图像中识别出至少一个第二图像块，所述第二图像块是所述标准图像的局部图像；分别对所述每张畸变图像进行识别，得到至少一个第三图像块，所述第三图像块是所述畸变图像的局部图像；在所述卷积神经网络进行训练时，将所述第三图像块作为输入样本，将所述第二图像块作为理想的输出样本，训练得到所述权值。
一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至7任一所述的图像中物体姿态的确定方法。
一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求8至11任一所述的图像中物体姿态的确定方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的图像中物体姿态的确定方法。