CN114913287B

CN114913287B - 一种三维人体模型重建方法及***

Info

Publication number: CN114913287B
Application number: CN202210362589.4A
Authority: CN
Inventors: 袁潮; 请求不公布姓名; 肖占中
Original assignee: Beijing Zhuohe Technology Co Ltd
Current assignee: Beijing Zhuohe Technology Co Ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2023-08-22
Anticipated expiration: 2042-04-07
Also published as: CN114913287A

Abstract

本申请提供的一种三维人体模型重建方法及***，涉及计算机视觉技术领域，该方法包括：获取输入图像，所述输入图像中包括目标用户的肢体；通过特征金字塔网络根据所述输入图像生成特征图金字塔；对所述输入图像进行特征提取，得到不同尺度的点云坐标，并根据所述不同尺度的点云坐标生成所述目标用户的三维参数；通过一个或多个神经网络处理从特征图金字塔中采样的感兴趣区域，以识别输入图像中的多个表面对象；基于所述目标用户的三维参数，以及所述表面对象的参数，重建所述目标用户的三维人体模型；所述三维人体模型与所述目标用户的肢体匹配。本申请实施例能够提高三维人体模型重建的准确性。

Description

一种三维人体模型重建方法及***

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种三维人体模型重建方法及***。

背景技术

检测图像中，人体的表面区域并估计三维(3D)表面的参数为理解场景的结构和上下文提供了重要信息，也可以应用到三维人体模型重建。例如，应用于虚拟现实场景、人体特效以及人体检测等方面。

然而，对于表面检测，检测表面或估计表面参数的任务从根本上具有挑战性，因为从单个2D图像进行估计是一个不适定问题。首先，3D表面重建需要丰富的先验性。其次，表面结构通常缺乏纹理，需要对图像语义的全局理解，而不是局部纹理分析。这项任务的最新方法利用了卷积神经网络(CNN)，将任务制定为表面分割任务。

并且对于人体检测，传统的三维人体模型重建方式通过将深度图的不规整点云与三维人体规则网格模型进行匹配对齐得到。但该方式匹配对齐的结果严重依赖于深度图的质量，如果深度图的分辨率比较低时，重建得到的三维人体模型并不准确。

发明内容

本发明实施例的目的在于提供一种三维人体模型重建方法及***，本申请实施例能够提高三维人体模型重建的准确性。具体技术方案如下：

在本发明实施例的第一方面，提供一种三维人体模型重建方法，包括：

获取输入图像，所述输入图像中包括目标用户的肢体；

通过特征金字塔网络根据所述输入图像生成特征图金字塔；

对所述输入图像进行特征提取，得到不同尺度的点云坐标，并根据所述不同尺度的点云坐标生成所述目标用户的三维参数；

通过一个或多个神经网络处理从特征图金字塔中采样的感兴趣区域，以识别输入图像中的多个表面对象；其中，所述一个或多个神经网络被配置为估计所述多个表面对象中的每个表面对象的参数，所述参数包括边界框参数、表面法线参数和分割掩码；

基于所述目标用户的三维参数，以及所述表面对象的参数，重建所述目标用户的三维人体模型；所述三维人体模型与所述目标用户的肢体匹配。

可选地，所述方法还包括：

所述特征图金字塔包括与许多不同尺度相关联的多个层级。

可选地，所述边界框参数定义指示表面对象的位置的边界框，其中表面法线参数指示表面对象的相对方位。

可选地，所述方法还包括：

基于为每个表面对象估计的法向量和深度图，为多个表面对象中的每个表面对象计算表面偏移参数，其中，一个或多个神经网络中包括的解码器网络被配置为处理特征金字塔估计深度图的地图。

可选地，所述方法还包括：

处理感兴趣区域以生成四元素向量来估计边界框参数，所述四元素向量表示边界框的顶点的位置以及多个锚框中的每一个的边界框的大小，均与感兴趣区域相关联。

可选地，所述方法还包括：

通过处理感兴趣区域来估计表面法线参数，以生成锚标识符和三元素向量，所述三元素向量表示与锚标识符相关联的锚法线相对应的残差向量。

可选地，所述方法还包括：

基于所述不同尺度的点云坐标确定所述图像对应的相机参数；

根据所述图像对应的相机参数，将所述三维人体模型投影为二维图像。

在本发明实施例的又一方面，提供一种三维人体模型重建***，所述***包括：

输入图像获取模块，用于获取输入图像，所述输入图像中包括目标用户的肢体；

特征图金字塔生成模块，用于通过特征金字塔网络根据所述输入图像生成特征图金字塔；

三维参数生成模块，用于对所述输入图像进行特征提取，得到不同尺度的点云坐标，并根据所述不同尺度的点云坐标生成所述目标用户的三维参数；

表面参数生成模块，用于通过一个或多个神经网络处理从特征图金字塔中采样的感兴趣区域，以识别输入图像中的多个表面对象；其中，所述一个或多个神经网络被配置为估计所述多个表面对象中的每个表面对象的参数，所述参数包括边界框参数、表面法线参数和分割掩码；

重建模块，用于基于所述目标用户的三维参数，以及所述表面对象的参数，重建所述目标用户的三维人体模型；所述三维人体模型与所述目标用户的肢体匹配。

在本发明实施例的又一方面，提供一种光场相机的光场重建装置，包括：处理器，所述处理器用于执行如权利要求1～7任一项所述的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种三维人体模型重建方法的另一流程示意图；

图2是本申请实施例提供的一种三维人体模型重建方法的流程示意图；

图3是本申请实施例提供的一种三维人体模型重建***的结构示意图；

图4是本申请实施例提供的目标用户是本申请实施例提供的一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的三维人体模型重建方法，可以应用于如图1所示的应用环境中。终端102获取输入图像，所述输入图像中包括目标用户的肢体。终端将该图像发送给服务器104，服务器104通过特征金字塔网络根据所述输入图像生成特征图金字塔；对所述输入图像进行特征提取，得到不同尺度的点云坐标，并根据所述不同尺度的点云坐标生成所述目标用户的三维参数。服务器104还通过一个或多个神经网络处理从特征图金字塔中采样的感兴趣区域，以识别输入图像中的多个表面对象；其中，所述一个或多个神经网络被配置为估计所述多个表面对象中的每个表面对象的参数，所述参数包括边界框参数、表面法线参数和分割掩码。

接着，服务器104将该目标用户的三维参数，和表面对象的参数返回给终端102。终端102基于所述目标用户的三维参数，以及所述表面对象的参数，重建所述目标用户的三维人体模型；所述三维人体模型与所述目标用户的肢体匹配。

其中，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一些实施例中，该三维人体模型重建方法可应用于人体三维人体模型重建，包括以下步骤：

获取输入图像，所述输入图像中包括目标用户的肢体；

通过特征金字塔网络根据所述输入图像生成特征图金字塔；

由上可知，本申请实施例通过训练好的神经网络模型对人体图像进行图卷积处理，快速准确地得到人体图像中的目标人体对应的三维人体参数，以及目标人体表面对象的参数，通过三维人体参数和人体表面参数实现三维人体模型的准确重建，提高三维人体模型重建的准确性和重建的效率。

图2示出了本申请实施例提供的一种三维人体模型重建方法的流程示意图，如图2所示，一种三维人体模型重建方法包括如下步骤：

步骤201、获取输入图像。

其中，输入图像可以包括目标用户的肢体。其中，目标用户可以是指需要进行三维人体模型的用户。例如，目标用户可以是输入图像中的人物。其中，输入图像可以是具有一个或多个通道的单个图像帧(例如,RGB,单色等)。输入图像也可以是彩色图像，彩色图像对于深度图而言，具有更高的分辨率以及更丰富的细节，能够更精细的重建人体的三维人体模型。

可选地，终端可通过直接拍摄目标用户得到对应的输入图像，也可以从本地或网络上或从第三设备上获取目标用户对应的输入图像，对于输入图像的获取方式，本申请实施例不作限制。

步骤202、通过特征金字塔网络根据所述输入图像生成特征图金字塔。

在一些实施例中，实现特征金字塔网络以处理输入图像并生成特征图金字塔。如本文所使用的，特征图金字塔是指相对于输入图像的比例具有不同比例的多个特征图。特征图金字塔可以包括多个级别，每个级别包括一个或多个特定比例的特征图，当从金字塔的顶部移动到底部时，比例(例如，像素空间中的分辨率)增加。在一些实施例中，特征金字塔网络基于提取图像特征的残差网络。然后对特征图进行上采样并与来自残差网络的中间特征图相结合，以生成特征图金字塔。

步骤203、对所述输入图像进行特征提取，得到不同尺度的点云坐标，并根据所述不同尺度的点云坐标生成所述目标用户的三维参数。

具体地，终端可对目标用户的输入图像进行特征提取，得到该输入图像对应的特征，得到特征图。接着，终端对该特征图进行图卷积处理，得到不同尺度的点云特征。终端对该不同尺度的点云特征进行通道数为3的卷积处理，得到不同尺度的点云坐标，该点云坐标为三维坐标。

具体地，终端可将不同尺度的点云坐标进行降采样和全连接处理，得到目标用户的三维参数，可通过基于蒙皮多人线性参数重建该人体整体的三维模型。

步骤204、通过一个或多个神经网络处理从特征图金字塔中采样的感兴趣区域，以识别输入图像中的多个表面对象。

其中，所述一个或多个神经网络被配置为估计所述多个表面对象中的每个表面对象的参数，所述参数包括边界框参数、表面法线参数和分割掩码。

将滑动窗口应用于特征图金字塔中的每个特征图，以对感兴趣的区域进行采样。感兴趣区域可以指与输入图像的特定子集相对应的特征图的区域。虽然滑动窗口可以具有固定大小，如应用于特征图金字塔中给定比例的特定特征图，但感兴趣区域与输入图像的可变大小区域相关联。例如，滑动窗口可以定义为相对于特征图金字塔中特定特征图的下采样大小的7×7像素区域。基于相对差异，特征图中的7×7像素区域可以对应于例如输入图像中的14×14像素区域、28×28像素区域或56×56像素区域(或更大)特征图和输入图像在像素空间中的比例。

步骤205、基于所述目标用户的三维参数，以及所述表面对象的参数，重建所述目标用户的三维人体模型。

其中，上述三维人体模型可以与目标用户的肢体匹配。也即，生成的三维人体模型是目标用户的三维人体模型。

具体地，该三维参数可以包括三维姿态参数和三维体型参数。该三维姿态参数为目标对象的关节点坐标，该三维体型参数为目标对象表面的特征点坐标。终端得到图像中的目标对象对应的三维姿态参数和三维体型参数之后，根据三维姿态参数对应的三维坐标和三维体型参数对应的三维坐标在三维空间构建模型，从而得到三维人体模型。

可选地，本申请实施例还可以包括以下内容。

可选地，本申请实施例的方法还包括：

除了上面讨论的表面参数之外，对各种应用程序来说另一个有用的参数是表面偏移值。如本文所使用的，表面偏移值是指从坐标系的原点到表面对象的最近距离，其中原点对应于捕获图像202的相机(或虚拟相机)的位置。其中，表面偏移值可根据下式计算：

其中K是一个3×3内在相机矩阵x_i是第i个像素，m_i是指示符，如果第i个像素属于表面对象，则为1，否则为0，z_i是像素的预测深度值，n是法向量。

也就是说，对于图像中与表面物体重叠的每个像素点，通过该像素点的投影3D位置与法向量的点积计算距离，然后通过求和的平均值来计算表面偏移量与表面对象重叠的像素数上的距离。

在一个实施例中，可以实现非投影、坐标系变换和投影。给定相机的一组内在参数K，可以根据以下等式在邻居视图中取消投影像素(uⁿ,vⁿ)。

Xⁿ＝K^-1h(uⁿ，vⁿ){circumflex over(D)}ⁿ(uⁿ，vⁿ)，

其中，{circumflex over(D)}ⁿ是相邻视图的表面实况深度图，并且h将相邻视图中的像素(uⁿ,vⁿ)转换为同质表示。然后根据以下等式，使用旋转R和平移t将未投影像素转换为扭曲模型的当前视图。

C^c＝RXⁿ+t

最后，通过投影生成翘曲像素坐标(u^w,v^w)。

(u^w，v^W)＝h^-1(KX^c)，

其中，h^-1将齐次坐标转换回二维表示。然后使用扭曲的像素坐标(uw，vw)从当前视图的深度图中采样深度值，并使用扭曲的像素坐标和邻居的真实深度图计算采样深度值之间的损失函数视图。

为实现上述方法类实施例，本申请实施例还提供一种三维人体模型重建***，图3示出了本申请实施例提供的一种三维人体模型重建***的结构示意图，所述***包括：

输入图像获取模块301，用于获取输入图像，所述输入图像中包括目标用户的肢体；

特征图金字塔生成模块302，用于通过特征金字塔网络根据所述输入图像生成特征图金字塔；

三维参数生成模块303，用于对所述输入图像进行特征提取，得到不同尺度的点云坐标，并根据所述不同尺度的点云坐标生成所述目标用户的三维参数；

表面参数生成模块304，用于通过一个或多个神经网络处理从特征图金字塔中采样的感兴趣区域，以识别输入图像中的多个表面对象；其中，所述一个或多个神经网络被配置为估计所述多个表面对象中的每个表面对象的参数，所述参数包括边界框参数、表面法线参数和分割掩码；

重建模块305，用于基于所述目标用户的三维参数，以及所述表面对象的参数，重建所述目标用户的三维人体模型；所述三维人体模型与所述目标用户的肢体匹配。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置中模块/单元/子单元/组件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储重建网络的训练数据、三维人体模型的重建数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种重建网络的训练方法和三维人体模型重建方法。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现重建网络的训练方法和三维人体模型重建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRA M)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

综上所述，本申请提供的一种三维人体模型重建方法及***，可以获取输入图像，所述输入图像中包括目标用户的肢体；通过特征金字塔网络根据所述输入图像生成特征图金字塔；对所述输入图像进行特征提取，得到不同尺度的点云坐标，并根据所述不同尺度的点云坐标生成所述目标用户的三维参数；通过一个或多个神经网络处理从特征图金字塔中采样的感兴趣区域，以识别输入图像中的多个表面对象；其中，所述一个或多个神经网络被配置为估计所述多个表面对象中的每个表面对象的参数，所述参数包括边界框参数、表面法线参数和分割掩码；基于所述目标用户的三维参数，以及所述表面对象的参数，重建所述目标用户的三维人体模型；所述三维人体模型与所述目标用户的肢体匹配。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种三维人体模型重建方法，其特征在于，包括：

获取输入图像，所述输入图像中包括目标用户的肢体；

通过特征金字塔网络根据所述输入图像生成特征图金字塔；

通过一个或多个神经网络处理从特征图金字塔中采样的感兴趣区域，以识别输入图像中的多个表面对象；其中，所述一个或多个神经网络被配置为估计所述多个表面对象中的每个表面对象的参数和表面偏移值，所述表面对象的参数包括边界框参数、表面法线参数和分割掩码，所述表面偏移值根据下式计算：

其中，其中K是一个3×3内在相机矩阵x_i是第i个像素，m_i是指示符，如果第i个像素属于表面对象，则为1，否则为0，z_i是像素的预测深度值，n是法向量；

基于所述目标用户的三维参数、所述表面偏移值，以及所述表面对象的参数，重建所述目标用户的三维人体模型；所述三维人体模型与所述目标用户的肢体匹配。

2.如权利要求1所述的方法，其特征在于，所述特征图金字塔包括与许多不同尺度相关联的多个层级。

3.如权利要求1所述的方法，其特征在于，所述边界框参数定义指示表面对象的位置的边界框，其中表面法线参数指示表面对象的相对方位。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

基于为每个表面对象估计的法向量和深度图，为多个表面对象中的每个表面对象计算所述表面偏移值，其中，一个或多个神经网络中包括的解码器网络被配置为处理特征金字塔估计深度图的地图。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，还包括：

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种三维人体模型重建***，其特征在于，所述***包括：

表面参数生成模块，用于通过一个或多个神经网络处理从特征图金字塔中采样的感兴趣区域，以识别输入图像中的多个表面对象；其中，所述一个或多个神经网络被配置为估计所述多个表面对象中的每个表面对象的参数和表面偏移值，所述表面对象的参数包括边界框参数、表面法线参数和分割掩码，所述表面偏移值根据下式计算：

重建模块，用于基于所述目标用户的三维参数、所述表面偏移值，以及所述表面对象的参数，重建所述目标用户的三维人体模型；所述三维人体模型与所述目标用户的肢体匹配。

9.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的人体三维重建方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的人体三维重建方法。