CN108986197A

CN108986197A - 3d骨架线构建方法及装置

Info

Publication number: CN108986197A
Application number: CN201711244255.2A
Authority: CN
Inventors: 张�杰; 毛河; 龙学军; 周剑
Original assignee: Chengdu Tongjia Youbo Technology Co Ltd
Current assignee: Chengdu Tongjia Youbo Technology Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-12-11
Anticipated expiration: 2037-11-30
Also published as: CN108986197B

Abstract

本发明涉及计算机视觉技术领域，提供一种3D骨架线构建方法及装置，首先，将摄像装置采集的原始图像输入预先训练好的卷积神经网络，得到2D骨架线；然后，利用标定数据对原始图像进行校正以去除畸变，并对校正后的第一图像和第二图像进行双目立体匹配，得到深度图；最后，将2D骨架线和深度图进行结合，渲染出3D骨架线，从而将骨架线的应用拓展到3D，从而进行体感交互游戏。与现有技术相比，本发明实施例利用的双目匹配方法，对设备的要求较低，成本低，具有良好的实用性。

Description

3D骨架线构建方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种3D骨架线构建方法及装置。

背景技术

现有的骨架线应用中，都比较集中于2D骨架线的应用，通过2D骨架线应用识别出物体的2D姿态，但2D姿态不能很好的表征人体的旋转等3D姿态，因此在体感游戏方面将会受限。同时在现有的商业应用中，进行3D数据的获取都是利用kinect等物理设备通过结构光、TOF等技术去获取物体表面的3D信息，这些技术需要较强的硬件支持，高价格、高功耗、大体积使得它们不满足节约成本和可携带方面的要求。

发明内容

本发明实施例的目的在于提供一种3D骨架线构建方法及装置，用以改善上述问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种3D骨架线构建方法，应用于设置有摄像装置的电子设备，所述摄像装置包括第一镜头和第二镜头，所述方法包括：获取所述摄像装置采集的原始图像，其中，所述原始图像包括第一镜头采集的第一图像、以及第二镜头采集的第二图像；将所述原始图像输入预先训练好的卷积神经网络，得到2D骨架线；利用标定数据对所述原始图像进行校正，以去除所述原始图像的畸变；对校正后的第一图像和第二图像进行双目立体匹配，得到深度图；将所述2D骨架线和所述深度图进行结合，渲染出3D骨架线。

第二方面，本发明实施例还提供了一种3D骨架线构建装置，应用于设置有摄像装置的电子设备，所述摄像装置包括第一镜头和第二镜头，所述3D骨架线构建装置包括原始图像获取模块、2D骨架线获得模块、图像校正模块、立体匹配模块及执行模块。其中，原始图像获取模块用于获取所述摄像装置采集的原始图像，其中，所述原始图像包括第一镜头采集的第一图像、以及第二镜头采集的第二图像；2D骨架线获得模块用于将所述原始图像输入预先训练好的卷积神经网络，得到2D骨架线；图像校正模块用于利用标定数据对所述原始图像进行校正，以去除所述原始图像的畸变；立体匹配模块用于对校正后的第一图像和第二图像进行双目立体匹配，得到深度图；执行模块用于将所述2D骨架线和所述深度图进行结合，渲染出3D骨架线。

相对现有技术，本发明实施例提供的一种3D骨架线构建方法及装置，首先，将摄像装置采集的原始图像输入预先训练好的卷积神经网络，得到2D骨架线；然后，利用标定数据对原始图像进行校正以去除畸变，并对校正后的第一图像和第二图像进行双目立体匹配，得到深度图；最后，将2D骨架线和深度图进行结合，渲染出3D骨架线，从而将骨架线的应用拓展到3D，从而进行体感交互游戏。与现有技术相比，本发明实施例利用的双目匹配方法，对设备的要求较低，成本低，具有良好的实用性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的电子设备的方框示意图。

图2示出了本发明实施例提供的3D骨架线构建方法流程图。

图3为图2示出的步骤S102的子步骤流程图。

图4为图2示出的步骤S104的子步骤流程图。

图5为图4示出的子步骤S1041的子步骤流程图。

图6为图4示出的子步骤S1042的子步骤流程图。

图7示出了本发明实施例提供的3D骨架线构建装置的方框示意图。

图8为图7示出的3D骨架线构建装置中2D骨架线获得模块的方框示意图。

图9为图7示出的3D骨架线构建装置中立体匹配模块的方框示意图。

图10为图9示出的立体匹配模块中特征描述单元的方框示意图。

图11为图9示出的立体匹配模块中双目视差图获得单元的方框示意图。

图标：100-电子设备；101-存储器；102-存储控制器；103-处理器；104-外设接口；105-摄像装置；106-显示屏；200-3D骨架线构建装置；201-原始图像获取模块；202-2D骨架线获得模块；2021-关节点检测单元；202-关节点分类单元；203-图像校正模块；204-立体匹配模块；2041-特征描述单元；20411-第一二进制串构建单元；20412-第一特征图获得单元；20413-第二二进制串构建单元；20414-第二特征图获得单元；2042-双目视差图获得单元；20421-第一视差图获得单元；20422-第二视差图获得单元；20423-视差噪声消除单元；20424-误匹配点消除单元；20425-初始视差图获得单元；20426-处理优化单元；2043-深度图获得单元；205-执行模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

常用的2D骨架线算法能捕获人体骨架在运动过程中的变化，但是由于其不具备深度信息导致它不能区分出骨架各个部分的前后差异，这样在体感游戏中不能模拟人体骨架在3D空间中的姿态。在现有的骨架线应用中，多数情况下都需要使用Kinect等带有深度传感器的设备进行骨架线应用。这类设备成本高且携带不方便，同时无法满足小型移动设备上的使用且使用场所需固定在室内。

有鉴于此，发明人经过长期研究发现，在2D骨架线的基础上加入该2D骨架线对应的深度信息，就可以渲染出3D骨架线。采用双目立体匹配的方式，可以将骨架线移植到安装有双目摄像头的手机和嵌入式设备等，加大了传统骨架线的应用范围。

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

请参照图1，图1示出了本发明实施例提供的电子设备100的方框示意图。电子设备100可以是，但不限于智能手机、平板电脑、膝上型便携计算机、车载电脑、个人数字助理(personal digital assistant，PDA)、穿戴式移动终端等等。所述电子设备100包括3D骨架线构建装置200、存储器101、存储控制器102、处理器103、外设接口104、摄像装置105和显示屏106。

所述存储器101、存储控制器102、处理器103、外设接口104、摄像装置105和显示屏106各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述3D骨架线构建装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述电子设备100的操作***(operating system，OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块，例如所述3D骨架线构建装置200包括的软件功能模块或计算机程序。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器101用于存储程序，所述处理器103在接收到执行指令后，执行所述程序，本发明任一实施例揭示的流程定义的服务器所执行的方法可以应用于处理器103中，或者由处理器103实现。

处理器103可以是一种集成电路芯片，具有信号处理能力。上述的处理器103可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)、语音处理器以及视频处理器等；还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。

所述外设接口104用于将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104、处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

摄像装置105用于采集原始图像，摄像装置105包括第一镜头和第二镜头，第一镜头用于采集原始图像中的第一图像，第二镜头用于采集原始图像中的第二图像。在本实施例中，摄像装置105可以是，但不限于双目摄像头或者多目摄像头等。

显示屏106用于实现用户与电子设备100之间的交互，具体可以是，但不限于显示屏106将构建出来的3D骨架线进行显示。

第一实施例

请参照图2，图2示出了本发明实施例提供的3D骨架线构建方法流程图。3D骨架线构建方法包括以下步骤：

步骤S101，获取摄像装置采集的原始图像，其中，原始图像包括第一镜头采集的第一图像、以及第二镜头采集的第二图像。

在本发明实施例中，摄像装置105可以选用双目摄像头，双目摄像头采集原始图像，返回两张对应的图像，分别为第一镜头采集的第一图像、以及第二镜头采集的第二图像，第一图像可以是双目摄像头采集的原始图像中的左图，第二图像可以是双目摄像头采集的原始图像中的右图。

步骤S102，将原始图像输入预先训练好的卷积神经网络，得到2D骨架线。

在本发明实施例中，可以将原始图像输入预先训练好的卷积神经网络，通过卷积神经网络实现人体关节点的检测和分类，从而得到2D骨架线。原始图像可以是第一图像或者第二图像。

作为一种实施方式，通过卷积神经网络实现人体关节点的检测和分类的方法，可以包括：将第一图像或者第二图像输入预先训练好的卷积神经网络中，经过该卷积神经网络对第一图像或者第二图像进行人体关节点检测，得到人体各个关节点的位置坐标以及对应的关节点标签，以得到2D骨架线。

请参照图3，步骤S102可以包括以下子步骤：

子步骤S1021，将原始图像输入预先训练好的卷积神经网络，通过卷积神经网络检测得到多个关节点。

在本发明实施例中，通过卷积神经网络检测得到的多个关节点，可以是同一人体的多个关节点，也可以是是不同人体的多个关节点。

子步骤S1022，利用卷积神经网络对多个关节点进行分类，得到2D骨架线。

在本发明实施例中，利用卷积神经网络对多个关节点进行分类，每一类的关节点具有属于同一人体的属性，作为一种实施方式，属于同一人体的属性可以通过亲和域刻画，即属于同一个人体的关节点之间存在距离亲和关系，具体的，属于同一人体的关节点之间的距离总在某一范围之内，该范围即是关节点的亲和域，总是处在同一亲和域内的关节点属于同一人。

步骤S103，利用标定数据对原始图像进行校正，以去除原始图像的畸变。

在本发明实施例中，对原始图像进行校正，也就是对第一图像和第二图像分别利用标定数据进行校正，去除原始图像的畸变。

步骤S104，对校正后的第一图像和第二图像进行双目立体匹配，得到深度图。

在本发明实施例中，对第一图像和第二图像进行校正，得到校正后的第一图像和第二图像之后，首先，对校正后的第一图像和第二图像分别进行特征描述，得到第一特征图和第二特征图；然后，将第一特征图和第二特征图通过代价计算、代价聚合、左右一致性检测、视差后处理，得到双目视差图；最后，对双目视差图进行三角测量，得到深度图。

请参照图4，步骤S104可以包括以下子步骤：

子步骤S1041，对校正后的第一图像和第二图像分别进行特征描述，得到第一特征图和第二特征图。

作为一种实施方式，对校正后的第一图像进行特征描述，得到第一特征图的方法可以包括：首先，利用第一图像中像素点之间的大小关系构造第一二进制串；然后，用该第一二进制串代替像素点的值，将像素点的灰度或者色彩信息映射为包含像素点和其邻域的大小关系的二进制特征，例如，以下表包含3*3的9个像素点的窗口为例，比较窗口中每个邻域像素

123	127	129
			126	128	129
127	131	130

点的像素值与中心像素点的像素值的大小，如果某一个邻域像素点的像素值比中心像素点的像素值小，则比较结果为1，如果某一个邻域像素点的像素值比中心像素点的像素值，则比较结果为0，故可以得到如下表的二进制编码：

1	1	0
			1	0	0
1	0	0

因此，针对中心像素点可以得到二进制串110100100，并以该二进制串110100100代替中心像素点的像素值。对于第一图像中的每一个像素点，均可以利用该像素点周围的3*3邻域的像素点得到针对该像素点的第一二进制串，并用第一二进制串代替对应像素点的像素值，这样就可以得到第一特征图。对校正后的第二图像进行特征描述，得到第二特征图的方法与得到第一特征图的方法相同，在此不再赘述。

请参照图5，子步骤S1041可以包括以下子步骤：

子步骤S10411，利用校正后的第一图像中每个像素点与其邻域像素点之间的大小关系，构造每个像素点对应的第一二进制串。

在本发明实施例中，邻域可以是3*3大小，如果第一图像中任意一个像素点的像素值大于其邻域像素点的像素值，则与该邻域像素点的比较结果为1，如果第一图像中任意一个像素点的像素值小于其邻域像素点的像素值，则与该邻域像素点的比较结果为0，之后将每个比较结果依次排列，就能得到该像素点对应的第一二进制串。

子步骤S10412，以每个第一二进制串替换对应像素点的像素值，得到第一特征图。

子步骤S10413，利用校正后的第二图像中每个像素点与其邻域像素点之间的大小关系，构造每个像素点对应的第二二进制串。

在本发明实施例中，邻域可以是3*3大小，如果第二图像中任意一个像素点的像素值大于其邻域像素点的像素值，则与该邻域像素点的比较结果为1，如果第二图像中任意一个像素点的像素值小于其邻域像素点的像素值，则与该邻域像素点的比较结果为0，之后将每个比较结果依次排列，就能得到该像素点对应的第二二进制串。

子步骤S10414，以每个第二二进制串替换对应像素点的像素值，得到第二特征图。

子步骤S1042，将第一特征图和第二特征图通过代价计算、代价聚合、左右一致性检测、视差后处理，得到双目视差图。

作为一种实施方式，将第一特征图和第二特征图通过代价计算、代价聚合、左右一致性检测、视差后处理，得到双目视差图的方法，可以包括：

1.采用汉明距离计算第一特征图中的像素点与第二特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第一视差图，第一视差图为将第一特征图作为参考图，将第二特征图作为目标图进行代价计算所得；并采用汉明距离计算第二特征图中的像素点与第一特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第二视差图，第二视差图为将第二特征图作为参考图，将第一特征图作为目标图进行代价计算所得。

2.采用代价聚合方法，消除第一视差图和第二视差图中的视差噪声，通过代价计算得到的第一视差图和第二视差图存在视差噪声，因此需要在像素点的周围建立一个像素窗口，使得像素窗口包含的像素块与像素块之间进行比较，利用像素窗口之间的相邻点的制约达到对代价计算的优化，从而消除视差噪声。代价聚合方法可以是，但不限于盒滤波、高斯滤波、非局部均值滤波、导向滤波等。

3.利用视差一致性检测来消除代价计算过程中产生的误匹配点，采用的方法可以包括：首先，视差一致性检测可以是假设第一视差图为L，第二视差图为R，第一特征图上的像素(x_r，y)与第二特征图上的像素(x_r，y)是一对匹配点，由于本发明实施例中进行立体匹配的图像都是经过校正的图像，因此只存在水平视差，该像素点在第一视差图和第二视差图中的视差值分别为d_lr(x_l，y)、d_rl(x_r，y)；然后，通过下式消除代价计算过程中产生的误匹配点：

其中，x_r＝x_l+d_lr(x_l，y)，当两幅视差图中对应点的视差误差满足|d_lr(x_l，y)+d_rl(x_r，y)|≤λ(λ为允许的视差误差阈值)时，则表明对应点视差匹配正确。当视差误差不满足|d_lr(x_l，y)+d_rl(x_r，y)|≤λ时，表明该点为误匹配点。

4.确定出误匹配点之后，将第一视差图和第二视差图进行融合，得到初始视差图，以填充误匹配点的视差信息。

5.对初始视差图进行处理优化，得到双目视差图。为了消除2D骨架中关节点靠近背景的现象，需要对初始视差图进行膨胀。通过求取初始视差图的边缘，并对该边缘进行扩展，然后结合初始视差图和边缘掩码，利用最小值滤波，使得视差变肥，减弱关节点在背景处的影响，最后就能得到一个高质量的双目视差图。

请参照图6，子步骤S1042可以包括以下子步骤：

子步骤S10421，计算第一特征图中的像素点与第二特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第一视差图，其中，第一视差图为将第一特征图作为参考图，将第二特征图作为目标图进行代价计算所得。

在本发明实施例中，采用汉明距离计算第一特征图中的像素点与第二特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第一视差图，视差搜索范围可以是与第一特征图中的像素点对应的第二特征图中的一行或者一列，汉明距离是比较两个二进制串之间的差异，例如，110011000与000011000的汉明距离是2。

子步骤S10422，计算第二特征图中的像素点与第一特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第二视差图，其中，第二视差图为将第二特征图作为参考图，将第一特征图作为目标图进行代价计算所得。

在本发明实施例中，采用汉明距离计算第二特征图中的像素点与第一特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第二视差图，视差搜索范围可以是与第二特征图中的像素点对应的第一特征图中的一行或者一列。

子步骤S10423，采用代价聚合方法，消除第一视差图和第二视差图中的视差噪声。

在本发明实施例中，通过代价计算得到的第一视差图和第二视差图存在视差噪声，因此需要在像素点的周围建立一个像素窗口，使得像素窗口包含的像素块与像素块之间进行比较，利用像素窗口之间的相邻点的制约达到对代价计算的优化，从而消除视差噪声。代价聚合方法可以是，但不限于盒滤波、高斯滤波、非局部均值滤波、导向滤波等。

子步骤S10424，利用视差一致性检测来消除代价计算过程中产生的误匹配点。

子步骤S10425，将第一视差图和第二视差图进行融合，得到初始视差图，填充误匹配点的视差信息。

子步骤S10426，对初始视差图进行处理优化，得到双目视差图。

在本发明实施例中，为了消除2D骨架中关节点靠近背景的现象，需要对初始视差图进行膨胀。通过求取初始视差图的边缘，并对该边缘进行扩展，然后结合初始视差图和边缘掩码，利用最小值滤波，使得视差变肥，减弱关节点在背景处的影响，得到双目视差图。

子步骤S1043，对双目视差图进行三角测量，得到深度图。

在本发明实施例中，根据深度值与其视差的关系其中，Z表示深度值，B表示第一镜头与第二镜头之间的间距，f为摄像装置105的焦距，D为视差，则在视差已知的情况下，计算出每个像素的深度值，从而将双目视差图转换为深度图。

步骤S105，将2D骨架线和深度图进行结合，渲染出3D骨架线。

在本发明实施例中，可以将训练第一图像得到的2D骨架线和深度图进行结合，渲染出3D骨架线，也可以将训练第二图像得到的2D骨架线和深度图进行结合，渲染出3D骨架线。作为一种实施方式，通过将2D骨架线的关节点坐标和相应的双目视差图或者深度图结合起来，利用OpenGL就可以渲染出3D骨架线。

在本发明实施例中，首先，将2D骨架线和双目立体匹配的思想进行结合以进行3D骨架线应用，从而将传统的骨架线应用拓展到3D；其次，由于双目立体匹配对设备的要求较低，从而可以在一定的范围内代替kinect等需要花费较高的成本的设备来进行体感交互游戏；最后，通过采用双目匹配的方式，可以将骨架线移植到携带双目摄像头的手机和嵌入式设备，加大了传统骨架线算法的应用范围，同时由于骨架线具有3D信息因此可以实现显著优于2D骨架线的体感交互应用。

第二实施例

请参照图7，图7示出了本发明实施例提供的3D骨架线构建装置200的方框示意图。3D骨架线构建装置200包括原始图像获取模块201、2D骨架线获得模块202、图像校正模块203、立体匹配模块204及执行模块205。

原始图像获取模块201，用于获取摄像装置采集的原始图像，其中，原始图像包括第一镜头采集的第一图像、以及第二镜头采集的第二图像。

在本发明实施例中，原始图像获取模块201可以用于执行步骤S101。

2D骨架线获得模块202，用于将原始图像输入预先训练好的卷积神经网络，得到2D骨架线。

在本发明实施例中，2D骨架线获得模块202可以用于执行步骤S102。

请参照图8，图8为图7示出的3D骨架线构建装置200中2D骨架线获得模块202的方框示意图。2D骨架线获得模块202包括关节点检测单元2021及关节点分类单元2022。

关节点检测单元2021，用于将原始图像输入预先训练好的卷积神经网络，通过卷积神经网络检测得到多个关节点。

在本发明实施例中，关节点检测单元2021可以用于执行子步骤S1021。

关节点分类单元2022，用于利用卷积神经网络对多个关节点进行分类，得到2D骨架线。

在本发明实施例中，关节点分类单元2022可以用于执行子步骤S1022。

图像校正模块203，用于利用标定数据对原始图像进行校正，以去除原始图像的畸变。

在本发明实施例中，图像校正模块203可以用于执行步骤S103。

立体匹配模块204，用于对校正后的第一图像和第二图像进行双目立体匹配，得到深度图。

在本发明实施例中，立体匹配模块204可以用于执行步骤S104。

请参照图9，图9为图7示出的3D骨架线构建装置200中立体匹配模块204的方框示意图。立体匹配模块204包括特征描述单元2041、双目视差图获得单元2042及深度图获得单元2043。

特征描述单元2041，用于对校正后的第一图像和第二图像分别进行特征描述，得到第一特征图和第二特征图。

在本发明实施例中，特征描述单元2041可以用于执行子步骤S1041。

请参照图10，图10为图9示出的立体匹配模块204中特征描述单元2041的方框示意图。特征描述单元2041包括第一二进制串构建单元20411、第一特征图获得单元20412、第二二进制串构建单元20413及第二特征图获得单元20414。

第一二进制串构建单元20411，用于利用校正后的第一图像中每个像素点与其邻域像素点之间的大小关系，构造每个像素点对应的第一二进制串。

在本发明实施例中，第一二进制串构建单元20411可以用于执行子步骤S10411。

第一特征图获得单元20412，用于以每个第一二进制串替换对应像素点的像素值，得到第一特征图。

在本发明实施例中，第一特征图获得单元20412可以用于执行子步骤S10412。

第二二进制串构建单元20413，用于利用校正后的第二图像中每个像素点与其邻域像素点之间的大小关系，构造每个像素点对应的第二二进制串。

在本发明实施例中，第二二进制串构建单元20413可以用于执行子步骤S10413。

第二特征图获得单元20414，用于以每个第二二进制串替换对应像素点的像素值，得到第二特征图。

在本发明实施例中，第二特征图获得单元20414可以用于执行子步骤S10414。

双目视差图获得单元2042，用于将第一特征图和第二特征图通过代价计算、代价聚合、左右一致性检测、视差后处理，得到双目视差图。

在本发明实施例中，双目视差图获得单元2042可以用于执行子步骤S1042。

请参照图11，图11为图9示出的立体匹配模块204中双目视差图获得单元2042的方框示意图。双目视差图获得单元2042包括第一视差图获得单元20421、第二视差图获得单元20422、视差噪声消除单元20423、误匹配点消除单元20424、初始视差图获得单元20425及处理优化单元20426。

第一视差图获得单元20421，用于计算第一特征图中的像素点与第二特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第一视差图，其中，第一视差图为将第一特征图作为参考图，将第二特征图作为目标图进行代价计算所得。

在本发明实施例中，第一视差图获得单元20421可以用于执行子步骤S10421。

第二视差图获得单元20422，用于计算第二特征图中的像素点与第一特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第二视差图，其中，第二视差图为将第二特征图作为参考图，将第一特征图作为目标图进行代价计算所得。

在本发明实施例中，第二视差图获得单元20422可以用于执行子步骤S10422。

视差噪声消除单元20423，用于采用代价聚合方法，消除第一视差图和第二视差图中的视差噪声。

在本发明实施例中，视差噪声消除单元20423可以用于执行子步骤S10423。

误匹配点消除单元20424，用于利用视差一致性检测来消除代价计算过程中产生的误匹配点。

在本发明实施例中，误匹配点消除单元20424可以用于执行子步骤S10424。

初始视差图获得单元20425，用于将第一视差图和第二视差图进行融合，得到初始视差图，填充误匹配点的视差信息。

在本发明实施例中，初始视差图获得单元20425可以用于执行子步骤S10425。

处理优化单元20426，用于对初始视差图进行处理优化，得到双目视差图。

在本发明实施例中，处理优化单元20426可以用于执行子步骤S10426。

深度图获得单元2043，用于对双目视差图进行三角测量，得到深度图。

在本发明实施例中，深度图获得单元2043可以用于执行子步骤S1043。

执行模块205，用于将2D骨架线和深度图进行结合，渲染出3D骨架线。

在本发明实施例中，执行模块205可以用于执行步骤S105。

综上所述，本发明提供的一种3D骨架线构建方法及装置，应用于设置有摄像装置的电子设备，摄像装置包括第一镜头和第二镜头，所述方法包括：获取摄像装置采集的原始图像，其中，原始图像包括第一镜头采集的第一图像、以及第二镜头采集的第二图像；将原始图像输入预先训练好的卷积神经网络，得到2D骨架线；利用标定数据对原始图像进行校正，以去除原始图像的畸变；对校正后的第一图像和第二图像进行双目立体匹配，得到深度图；将2D骨架线和深度图进行结合，渲染出3D骨架线。与现有技术相比，本发明具有以下优势：首先，将2D骨架线和双目立体匹配的思想进行结合以进行3D骨架线应用，从而将传统的骨架线应用拓展到3D；其次，由于双目立体匹配对设备的要求较低，从而可以在一定的范围内代替kinect等需要花费较高的成本的设备来进行体感交互游戏；最后，通过采用双目匹配的方式，可以将骨架线移植到携带双目摄像头的手机和嵌入式设备，加大了传统骨架线算法的应用范围，同时由于骨架线具有3D信息因此可以实现显著优于2D骨架线的体感交互应用。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种3D骨架线构建方法，其特征在于，应用于设置有摄像装置的电子设备，所述摄像装置包括第一镜头和第二镜头，所述方法包括：

获取所述摄像装置采集的原始图像，其中，所述原始图像包括第一镜头采集的第一图像、以及第二镜头采集的第二图像；

将所述原始图像输入预先训练好的卷积神经网络，得到2D骨架线；

利用标定数据对所述原始图像进行校正，以去除所述原始图像的畸变；

对校正后的第一图像和第二图像进行双目立体匹配，得到深度图；

将所述2D骨架线和所述深度图进行结合，渲染出3D骨架线。

2.如权利要求1所述的方法，其特征在于，所述对校正后的第一图像和第二图像进行双目立体匹配，得到深度图的步骤，包括：

对校正后的第一图像和第二图像分别进行特征描述，得到第一特征图和第二特征图；

将第一特征图和第二特征图通过代价计算、代价聚合、左右一致性检测、视差后处理，得到双目视差图；

对所述双目视差图进行三角测量，得到深度图。

3.如权利要求2所述的方法，其特征在于，所述对校正后的第一图像和第二图像分别进行特征描述，得到第一特征图和第二特征图的步骤，包括：

利用校正后的第一图像中每个像素点与其邻域像素点之间的大小关系，构造每个像素点对应的第一二进制串；

以每个第一二进制串替换对应像素点的像素值，得到第一特征图；

利用校正后的第二图像中每个像素点与其邻域像素点之间的大小关系，构造每个像素点对应的第二二进制串；

以每个第二二进制串替换对应像素点的像素值，得到第二特征图。

4.如权利要求2所述的方法，其特征在于，所述将第一特征图和第二特征图通过代价计算、代价聚合、左右一致性检测、视差后处理，得到双目视差图的步骤，包括：

计算所述第一特征图中的像素点与所述第二特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第一视差图，其中，所述第一视差图为将第一特征图作为参考图，将第二特征图作为目标图进行代价计算所得；

计算所述第二特征图中的像素点与所述第一特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第二视差图，其中，所述第二视差图为将第二特征图作为参考图，将第一特征图作为目标图进行代价计算所得；

采用代价聚合方法，消除所述第一视差图和所述第二视差图中的视差噪声；

利用视差一致性检测来消除代价计算过程中产生的误匹配点；

将所述第一视差图和所述第二视差图进行融合，得到初始视差图，填充所述误匹配点的视差信息；

对所述初始视差图进行处理优化，得到双目视差图。

5.如权利要求1所述的方法，其特征在于，所述将原始图像输入预先训练好的卷积神经网络，得到2D骨架线的步骤，包括：

将所述原始图像输入预先训练好的卷积神经网络，通过所述卷积神经网络检测得到多个关节点；

利用所述卷积神经网络对多个关节点进行分类，得到2D骨架线。

6.一种3D骨架线构建装置，其特征在于，应用于设置有摄像装置的电子设备，所述摄像装置包括第一镜头和第二镜头，所述3D骨架线构建装置包括：

原始图像获取模块，用于获取所述摄像装置采集的原始图像，其中，所述原始图像包括第一镜头采集的第一图像、以及第二镜头采集的第二图像；

2D骨架线获得模块，用于将所述原始图像输入预先训练好的卷积神经网络，得到2D骨架线；

图像校正模块，用于利用标定数据对所述原始图像进行校正，以去除所述原始图像的畸变；

立体匹配模块，用于对校正后的第一图像和第二图像进行双目立体匹配，得到深度图；

执行模块，用于将所述2D骨架线和所述深度图进行结合，渲染出3D骨架线。

7.如权利要求6所述的装置，其特征在于，所述立体匹配模块还包括：

特征描述单元，用于对校正后的第一图像和第二图像分别进行特征描述，得到第一特征图和第二特征图；

双目视差图获得单元，用于将第一特征图和第二特征图通过代价计算、代价聚合、左右一致性检测、视差后处理，得到双目视差图；

深度图获得单元，用于对所述双目视差图进行三角测量，得到深度图。

8.如权利要求7所述的装置，其特征在于，所述特征描述单元还包括：

第一二进制串构建单元，用于利用校正后的第一图像中每个像素点与其邻域像素点之间的大小关系，构造每个像素点对应的第一二进制串；

第一特征图获得单元，用于以每个第一二进制串替换对应像素点的像素值，得到第一特征图；

第二二进制串构建单元，用于利用校正后的第二图像中每个像素点与其邻域像素点之间的大小关系，构造每个像素点对应的第二二进制串；

第二特征图获得单元，用于以每个第二二进制串替换对应像素点的像素值，得到第二特征图。

9.如权利要求7所述的装置，其特征在于，所述双目视差图获得单元还包括：

第一视差图获得单元，用于计算所述第一特征图中的像素点与所述第二特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第一视差图，其中，所述第一视差图为将第一特征图作为参考图，将第二特征图作为目标图进行代价计算所得；

第二视差图获得单元，用于计算所述第二特征图中的像素点与所述第一特征图中对应的视差搜索范围内各个像素点的匹配代价，得到第二视差图，其中，所述第二视差图为将第二特征图作为参考图，将第一特征图作为目标图进行代价计算所得；

视差噪声消除单元，用于采用代价聚合方法，消除所述第一视差图和所述第二视差图中的视差噪声；

误匹配点消除单元，用于利用视差一致性检测来消除代价计算过程中产生的误匹配点；

初始视差图获得单元，用于将所述第一视差图和所述第二视差图进行融合，得到初始视差图，填充所述误匹配点的视差信息；

处理优化单元，用于对所述初始视差图进行处理优化，得到双目视差图。

10.如权利要求6所述的装置，其特征在于，所述2D骨架线获得模块包括：

关节点检测单元，用于将所述原始图像输入预先训练好的卷积神经网络，通过所述卷积神经网络检测得到多个关节点；

关节点分类单元，用于利用所述卷积神经网络对多个关节点进行分类，得到2D骨架线。