WO2022222011A1

WO2022222011A1 - 一种可驱动的隐式三维人体表示方法

Info

Publication number: WO2022222011A1
Application number: PCT/CN2021/088226
Authority: WO
Inventors: 周晓巍; 鲍虎军; 彭思达; 董峻廷
Original assignee: 浙江大学
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2022-10-27
Also published as: US20240046570A1

Abstract

一种可驱动的隐式三维人体表示方法，通过从输入的多视角视频中优化可驱动模型的三维表示进行动态重建。该方法包括：构造用于表示动态人体的隐函数；提出用神经网络表示的神经蒙皮混合权重场，实现了在从视频中学习得到可驱动隐函数，从视频中优化得到可驱动三维模型的方法；在每一视频帧学习一个神经蒙皮混合权重场，将每一视频帧的三维点变换回标准坐标系，以此整合了视频的时序信息，增加了对目标的观测，用于优化标准坐标系下的三维模型；同时在标准坐标系下学习一个神经蒙皮混合权重场，使得三维模型可被驱动生成新姿势下的三维模型。

Description

一种可驱动的隐式三维人体表示方法

技术领域

本发明属于三维重建领域，尤其涉及到一种可驱动的隐式三维人体表示方法。

背景技术

本发明提出一个可驱动隐函数来表示动态人体，可以从多视角视频中重建可驱动三维模型，用于三维模型的生成和自由视角合成。在相关技术中，传统方法重建可驱动三维模型往往需要很高的成本和大量的时间。这些方法需要复杂硬件设备进行模型重建，后期需要设计师给三维模型绑定骨架进行操控并且设计蒙皮混合权重，需要大量的时间。近期一些工作将动态人体表示为基于神经网络的隐函数。但这些方法很难只从视频中优化得到最优的隐函数，需要额外的约束条件。而且这些方法无法得到可驱动的三维模型。本发明致力于提出新的动态人体表示方法，使得从视频中学习隐函数表示可解，并且可以输出可驱动三维模型。

发明内容

本发明目的在于针对现有技术的不足，提出了一种可驱动的隐式三维人体表示方法，基于可驱动隐函数来表示人体几何和外观，并通过可微分渲染重建这一动态人体表示。

本发明的目的是通过以下技术方案来实现的：一种可驱动的隐式三维人体表示方法，所述方法包括：

(1)在标准坐标系构造一个神经网络隐函数来表示人体几何和外观，在每一个视频帧坐标系用神经网络隐函数生成任意三维点的蒙皮混合权重，构造神经蒙皮混合权重场，将视频帧的三维点变换回标准坐标系，用于表示动态人体。

(2)在标准坐标系下学习神经蒙皮混合权重场，优化神经网络隐函数，使得标准坐标系下的神经网络隐函数可被驱动生成新状态下的三维人体；具体学习过程如下：

(2.1)基于可微分体积渲染器，将神经网络隐函数渲染为二维图像。通过最小化渲染后的二维图像和多视角视频中对应图像之间的误差，优化神经网络隐函数表示。

(2.2)最小化标准坐标系和视频帧坐标系对应三维点的蒙皮混合权重的差别，优化蒙皮混合权重的神经网络隐函数表示。

(3)基于步骤(2)优化后的神经网络隐函数，进行人体的三维模型生成和视角合成。

进一步地，将构造的神经蒙皮混合权重场与一组人体的三维关键点相结合，通过线性混合蒙皮算法将视频帧坐标系下的三维点变换回标准坐标系。

进一步地，在标准坐标系下学习完成神经蒙皮混合权重场之后，在给定一组新的人体的三维关键点时，标准坐标系的神经蒙皮混合权重场可以和关键点相结合，通过线性混合蒙皮算法变换标准坐标系的三维点，从而生成新状态下的三维人体。

进一步地，所述通过可微分体积渲染器将神经网络隐函数渲染为二维图片，包括：沿相机投射至像素的光线采样一组三维点，将三维点通过线性混合蒙皮算法变换回标准坐标系，使用神经网络隐函数计算三维点的体素密度和颜色，累积光线上的体积密度和颜色得到像素颜色。

进一步地，采样标准坐标系和视频帧坐标系的对应的三维点，计算相应的蒙皮混合权重，最小化两个三维点的蒙皮混合权重的差别，从而优化蒙皮混合权重的神经网络隐函数。

进一步地，所述三维模型生成使用Marching cubes算法从优化后的神经网络隐函数中提取三维网格模型，并根据线性混合蒙皮算法驱动三维网格模型。

进一步地，所述视角合成使用可微分体积渲染器得到二维图像实现。

本发明的有益效果：本发明提出用神经网络表示的神经蒙皮混合权重场，实现了在从视频中学习得到可驱动隐函数，是第一个从视频中优化得到可驱动三维模型的方法。本发明在每一视频帧学习一个神经蒙皮混合权重场，将每一视频帧的三维点变换回标准坐标系，以此整合了视频的时序信息，增加了对目标的观测，用于优化标准坐标系下的三维模型。本发明同时在标准坐标系下学习一个神经蒙皮混合权重场，使得三维模型可被驱动生成新姿势下的三维模型。本发明可以从多视角视频中得到高质量的三维重建和视角合成效果。

附图说明

图1是本发明的一种输入和输出示意图。

图2是本发明基于可驱动隐函数生成不同视频帧的连续体素密度和颜色示意图。

具体实施方式

以下结合附图对本发明的技术细节和原理作进一步的描述：

本发明提出一种可驱动的隐式三维人体表示方法，如图1所示，本发明从一段输入的多视角视频中优化重建一个可驱动隐函数。重建后的隐函数可以用于人体的三维模型生成和视角合成。具体过程如下：

(1)在标准坐标系构造一个神经网络隐函数来表示人体几何和外观，在每一个视频帧坐标系用神经网络隐函数生成任意三维点的蒙皮混合权重，构造神经蒙皮混合权重场，将构造的神经蒙皮混合权重场与一组人体的三维关键点相结合，通过线性混合蒙皮算法将视频帧坐标系下的三维点变换回标准坐标系，用于表示动态人体。

(2)在标准坐标系下学习神经蒙皮混合权重场，优化神经网络隐函数，使得标准坐标系下的神经网络隐函数可被驱动生成新状态下的三维人体，具体为：在给定一组新的人体的三维关键点时，标准坐标系的神经蒙皮混合权重场可以和关键点相结合，通过线性混合蒙皮算法变换标准坐标系的三维点，从而生成新状态下的三维人体。

具体学习过程如下：

(2.1)基于可微分体积渲染器，将神经网络隐函数渲染为二维图像。包括：沿相机投射至像素的光线采样一组三维点，将三维点通过线性混合蒙皮算法变换回标准坐标系，使用神经网络隐函数计算三维点的体素密度和颜色，累积光线上的体积密度和颜色得到像素颜色。

通过最小化渲染后的二维图像和多视角视频中对应图像之间的误差，优化神经网络隐函数表示。

(2.2)采样标准坐标系和视频帧坐标系的对应的三维点，计算相应的蒙皮混合权重，最小化两个三维点的蒙皮混合权重的差别，从而优化蒙皮混合权重的神经网络隐函数。

(3)基于步骤(2)优化后的神经网络隐函数，进行人体的三维模型生成和视角合成。具体为，三维模型生成使用Marching cubes算法从优化后的神经网络隐函数中提取三维网格模型，并根据线性混合蒙皮算法驱动三维网格模型。视角合成使用可微分体积渲染器得到二维图像实现。

如图2所示，本发明提出的可驱动的隐式三维人体表示方法中，构造用于表示动态人体的可驱动隐函数具体步骤为：

1.本发明基于标准坐标系下的模型和视频帧坐标系的蒙皮混合权重场来表示动态人体。标准坐标系中的模型具体使用连续的体素密度和颜色来表示，其中体素密度场和颜色场由多层感知机网络实现。对于多视角视频中的特定帧i，视频帧坐标系到标准坐标系的变形场为T _i，具体构造方式在下文介绍。本发明将视频帧坐标系下空间三维点x的体素密度预测表示为如下函数：

σ _i(x),z _i(x)＝F _σ(γ _x(T _i(x)))

其中F _σ是带有4层全连接的多层感知机网络，γ _x是作用于三维点x位置编码函数，σ _i(x)和z _i(x)分别为特定帧i的三维点x的体素密度和形状特征。

关于颜色函数，本发明将形状特征z _i(x)和视角方向d作为函数的输入。此外，本发明为每一帧定义了一个全局隐变量l _i作为输入，用于编码该帧人体外观的状态。颜色函数定义如下：

c _i(x)＝F _c(z _i(x),γ _d(d),l _i)

其中F _c是带有2层全连接层的多层感知机网络，γ _d是作用于视角方向d的位置编码函数，c _i(x)为特定帧i的三维点x的颜色。

如图2所示，本发明提出的动态隐变量中，构造变形场的具体步骤为：

1.人体由人体骨架驱动运动，有K个身体部位，可以生成k个变换矩阵。在线性混合蒙皮算法中，标准坐标系下的三维点v可以由下面的公式变换为某一视频帧的坐标系的三维点v′：

其中w(v) _k是第k个身体部位的蒙皮混合权重，G _k是第k个身体部位的变换矩阵。类似的，如果对于某一视频帧的坐标系下的三维点x，如果本发明知道该三维点对应的蒙皮混合权重，本发明可以用下面的公式变换为标准坐标系下的三维点x′：

其中w ^o(x) _k是定义在视频帧坐标系下的蒙皮混合权重，G _k是第k个身体部位的变换矩阵。

2.本发明用神经网络生成视频帧坐标系下任意三维点的蒙皮混合权重。一种直接的方式是使用全连接网络将任意三维点映射为蒙皮混合权重。另一种方式是首先根据统计驱动模型计算每个三维点的初始蒙皮混合权重，然后用全连接网络生成一个残差权重，两者得到最终的蒙皮混合权重。这种方式生成的蒙皮混合权重定义为：

w _i(x)＝norm(F _Δw(x,ψ _i)+w ^s(x,S _i))

其中S _i是统计驱动模型，w ^s是基于统计驱动模型S _i计算的初始蒙皮混合权重，F _Δw(x,ψ _i)是计算残差权重的全连接网络，ψ _i是图2所示中的权重隐变量，norm是归一化函数。一个实现例子是可以根据SMPL模型生成任意三维点的初始蒙皮混合权重w ^s。

3.本发明在标准坐标系下也生成了一个蒙皮混合权重场w ^can。对于任意三维点，初始蒙皮混合权重基于标准状态下的统计驱动模型计算得到。本发明同时定义了标准坐标系下的权重隐变量ψ ^can，作为计算残差权重的全连接网络F _Δw(x,ψ _i)的输入。

本发明提出的可驱动的隐式三维人体表示方法中，通过可微分渲染优化可驱动的神经网络隐函数表示。具体的步骤为：

1.可微分体积渲染：给定一个视角，采用可微分体积渲染器将神经网络隐函数表示转换为二维RGB图像。对于图像的每一个像素，可微分体积渲染器通过积分方程累积相机射线上的体积密度和颜色，得到像素颜色。实际实现中，本发明使用数值积分进行近似。本发明首先使用相机参数计算对应的相机射线r，然后在最近点和最远点之间采样N _k个三维点

这里的最近点和最远点可以根据SMPL模型计算。然后，本发明在每个三维点使用神经网络隐函数计算三维点的体素密度和颜色。对于多视角视频中的特定帧i，像素的渲染颜色

定义为：

其中δ _k＝||x _k+1-x _k|| ₂是相邻采样点的距离，σ _i(x _k)和c _i(x _k)是特定帧i的三维点x _k的颜色,N _k是相机射线r上采样的三维点的数量。采用可微分体积渲染，本发明通过最小化各帧渲染图像和多视角视频中对应帧和对应视角图像之间的误差来优化基于结构化的隐变量的神经网络隐函数表示。

2.优化基于可驱动的神经网络隐函数表示，具体为：对于输入的多视角视频，所有相机预先标定，已知相机参数。对于每张图片，本发明使用分割方法分割前景人，将背景像素值设为0。本发明联合优化参数F _σ,F _c,F _Δw,{l _i},{ψ _i}，来最小化如下目标函数：

其中

是穿过图片像素的相机射线的集合，C _i(r)是真实像素值。

此外，为了学习标准坐标系下的蒙皮混合权重场w ^can，本发明引入了蒙皮混合权重场的一致性损失函数，即标准坐标系和视频帧坐标系中的对应点，应该具有相同的蒙皮混合权重。对于第i帧坐标系中的三维点x，可以使用上述公式映射到标准坐标系中的点T _i(x)，则一致性损失函数如下：

其中X _i是第i帧坐标系下载三维人体边界框内采样的三维点集合。另外，L _rgb和L _nsf的系数都设为1。

本发明提出的动态三维重建和视角合成，具体步骤为：

1.视角合成：为了根据给定关键点生成不同的人体并合成图片，本发明在根据输入的关键点构造了一个变形场，将该关键点下的三维点变换到标准坐标系下。给定人体新的一组关键点，本发明首先更新统计驱动模型得到S ^new，并相应计算每个三维点的初始蒙皮混合权重w ^s。然后根据下面的公式计算最终的蒙皮混合权重：

w ^new(x,ψ ^new)＝norm(F _Δw(x,ψ ^new)+w ^s(x,S ^new))

其中ψ ^new是新状态下的权重隐变量。ψ ^new的参数根据下面的公式进行优化：

其中T ^new是新状态下的坐标系到标准坐标系的变形场，x ^new是在人体三维框中采样的一组三维点。需要注意，w ^can的参数在训练中是固定住的。

2.三维模型生成：基于优化后的神经网络隐函数，本发明首先需要将连续空间离散为均匀的体素。本发明首先确定人体的空间范围，将空间划分为一组大小为5mm×5mm×5mm的体素。本发明通过为每个体素计算体素密度，最后用Marching cubes算法提取人体网格模型。然后在每个人体网格节点上计算蒙皮混合权重。最后，给定关键点，本发明驱动网格节点，得到新的三维模型。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

一种可驱动的隐式三维人体表示方法，其特征在于，所述方法包括：

(1)在标准坐标系构造一个神经网络隐函数来表示人体几何和外观，在每一个视频帧坐标系用神经网络隐函数生成任意三维点的蒙皮混合权重，构造神经蒙皮混合权重场，将视频帧的三维点变换回标准坐标系，用于表示动态人体。

(2)在标准坐标系下学习神经蒙皮混合权重场，优化神经网络隐函数，使得标准坐标系下的神经网络隐函数可被驱动生成新状态下的三维人体；具体学习过程如下：

(2.1)基于可微分体积渲染器，将神经网络隐函数渲染为二维图像。通过最小化渲染后的二维图像和多视角视频中对应图像之间的误差，优化神经网络隐函数表示。

(2.2)最小化标准坐标系和视频帧坐标系对应三维点的蒙皮混合权重的差别，优化蒙皮混合权重的神经网络隐函数表示。

(3)基于步骤(2)优化后的神经网络隐函数，进行人体的三维模型生成和视角合成。
根据权利要求1所述的一种可驱动的隐式三维人体表示方法，其特征在于，步骤(1)中，将构造的神经蒙皮混合权重场与一组人体的三维关键点相结合，通过线性混合蒙皮算法将视频帧坐标系下的三维点变换回标准坐标系。
根据权利要求1所述的一种可驱动的隐式三维人体表示方法，其特征在于，步骤(2)中，在标准坐标系下学习完成神经蒙皮混合权重场之后，在给定一组新的人体的三维关键点时，标准坐标系的神经蒙皮混合权重场可以和关键点相结合，通过线性混合蒙皮算法变换标准坐标系的三维点，从而生成新状态下的三维人体。
根据权利要求1所述的一种可驱动的隐式三维人体表示方法，其特征在于，步骤(2.1)中，所述通过可微分体积渲染器将神经网络隐函数渲染为二维图片，包括：沿相机投射至像素的光线采样一组三维点，将三维点通过线性混合蒙皮算法变换回标准坐标系，使用神经网络隐函数计算三维点的体素密度和颜色，累积光线上的体积密度和颜色得到像素颜色。
根据权利要求1所述的一种可驱动的隐式三维人体表示方法，其特征在于，步骤(2.2)中，采样标准坐标系和视频帧坐标系的对应的三维点，计算相应的蒙皮混合权重，最小化两个三维点的蒙皮混合权重的差别，从而优化蒙皮混合权重的神经网络隐函数。
根据权利要求1所述的一种可驱动的隐式三维人体表示方法，其特征在于，步骤(3)中，所述三维模型生成使用Marching cubes算法从优化后的神经网络隐函数中提取三维网格模型，并根据线性混合蒙皮算法驱动三维网格模型。
根据权利要求1所述的一种可驱动的隐式三维人体表示方法，其特征在于，步骤(3) 中，所述视角合成使用可微分体积渲染器得到二维图像实现。