CN113395476A

CN113395476A - 一种基于三维人脸重构的虚拟人物视频通话方法及***

Info

Publication number: CN113395476A
Application number: CN202110632937.0A
Authority: CN
Inventors: 杨志景; 温瑞冕; 徐永宗; 李为杰; 李凯; 凌永权
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-14

Abstract

本发明为克服视频通话流畅度低、灵活性低的缺陷，提出一种于三维人脸重构的虚拟人物视频通话方法及***，包括以下步骤：获取第一通信终端的视频流和音频流，或仅获取第一通信终端的音频流；将视频流图像帧输入三维人脸重构网络，得到预测的三维人脸模型参数；或将音频流输入音频预测网络中得到预测的三维人脸模型参数；根据预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件；将参数文件和第一通信终端的音频流传输至第二通信终端，第二通信终端根据参数文件利用三维人脸重构技术恢复对应的三维人脸模型，然后映射到二维图像平面得到恢复的视频图像帧序列；对视频图像帧序列进行渲染后与音频流合成虚拟人物视频。

Description

一种基于三维人脸重构的虚拟人物视频通话方法及***

技术领域

本发明涉及人工智能技术领域，更具体地，涉及一种基于三维人脸重构的虚拟人物视频通话方法及***。

背景技术

随着智能手机的普及以及互联网技术的飞速发展，人们之间的通话方式发生了巨大的变化，而视频通话已经成为人们之间通信的一种流行方式，但是在实际的应用中存在一定的局限性。第一，在当前视频通话中，不能够实现在通信一端不方便打开摄像头的情况下，依旧能够与另一端正常进行视频通话，使得视频通话缺乏一定的灵活性；第二，在网络传输能力低的区域进行视频通话时，会出现视频卡顿的现象，这会极大地降低用户在视频通话上的体验。

目前有提出构造虚拟人物的视频通话方法，不仅能够降低传输的数据量来增加视频通话的流畅度，还可以通过更换通信对端的人物身份来提高视频通话的趣味性。如公开号为CN110213521A(公开日2019-09-06)公开的一种虚拟即时通信方法，提出在虚拟即时通信的过程中，使用与双方表情、姿态相同的虚拟2D/3D形象模型代替通信双方的真实面貌。然而该方法需要终端摄像头时刻捕获人物面部图像，缺乏对头部姿势信息的获取，依旧没有摆脱对摄像头的过分依赖，仍然存在灵活性低、视频通话流畅度低的问题。

发明内容

本发明为克服上述现有技术中视频通话流畅度低、灵活性低的缺陷，提供一种基于三维人脸重构的虚拟人物视频通话方法，以及一种基于三维人脸重构的虚拟人物视频通话***。

为解决上述技术问题，本发明的技术方案如下：

一种基于三维人脸重构的虚拟人物视频通话方法，包括以下步骤：

S1：选择虚拟人物视频通话方式，包括视频到视频通话方式和音频到视频通话方式：

当选择视频到视频通话方式时：获取第一通信终端的视频流和音频流，将所述视频流分解为图像帧后采用三维人脸重构网络进行参数化三维人脸的模型参数预测，得到预测的三维人脸模型参数并保存为参数文件；

当选择音频到视频通话方式时：获取第一通信终端的音频流，将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测，得到预测的三维人脸模型参数；根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件；

S2：将所述参数文件和第一通信终端的音频流传输至第二通信终端，第二通信终端根据所述参数文件利用三维人脸重构技术恢复对应的三维人脸模型，然后映射到二维图像平面得到恢复的视频图像帧序列；

S3：对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频。

作为优选方案，经所述三维人脸重构网络预测得到的三维人脸模型参数包括身份模型参数S、表情模型参数E、纹理模型参数T、姿势模型参数P、光照模型参数L；经所述音频预测网络预测得到的三维人脸模型参数包括表情模型参数E、姿势模型参数P。

作为优选方案，还包括以下步骤：根据所述视频流图像帧、预测的三维人脸模型参数及恢复的三维人脸模型，对所述三维人脸重构网络进行优化训练，其表达公式如下：

式中，

表示三维人脸重构网络的网络参数，

表示原视频流图像帧，

表示三维人脸重构网络所学***面的函数。

作为优选方案，所述三维人脸重构网络包括R-Net网络。

作为优选方案，还包括以下步骤：根据所述音频流、预测的三维人脸模型参数及预设的初始三维人脸模型参数，对所述音频预测网络进行优化训练，其表达公式如下：

式中，θ₁和θ₂为所述音频预测网络的网络参数，

为预设的初始表情模型参数，

示预设的初始姿势模型参数，

表示音频流；h_E(·)表示音频预测网络所学习到的表情特征预测函数，h_P(·)表示音频预测网络所学习到的姿势特征预测函数。

作为优选方案，所述音频预测网络包括LSTM网络。

作为优选方案，所述S2步骤中，利用三维人脸重构技术恢复对应的三维人脸模型的具体步骤包括：

初始化三维人脸的顶点集

及三维人脸顶点集对应的RGB集

根据所述参数文件中的表情模型参数E和姿势模型参数P改变三维人脸顶点集位置，根据所述参数文件中的纹理模型参数T和光照模型参数L改变三维人脸顶点集对应的RGB集的颜色值，其表达公式如下：

式中，

表示三维人脸的身份基，

表示三维人脸的表情基，

表示三维人脸的纹理基；x(λ；P)表示根据姿势模型参数P改变三维人脸顶点集位置的函数，λ表示待改变位置的顶点集；c(ε；L)表示根据光照模型参数L改变三维人脸顶点集对应的RGB集的函数，ε为待改变颜色值的RGB集；N₁、N₂分别为身份基和表情基的总数，i和j下标分别为身份基和表情基的序数；

根据改变后的三维人脸的顶点集S^*和RGB集T^*构建得到恢复的三维人脸模型，再利用仿射变换将三维人脸模型中的每一个顶点映射到二维图像平面上，每个顶点的RGB颜色值对应地映射到二维图像平面上作为该映射点的像素点，得到恢复的视频图像帧。

作为优选方案，所述S2步骤中，还包括以下步骤：将所述参数文件进行压缩后，采用云服务将所述参数文件传输至第二通信终端；采用网络协议将所述第一通信终端的音频流传输至第二通信终端。

作为优选方案，还包括以下步骤：所述第二通信终端预设有其他人物的身份模型参数S，当所述第二通信终端接收第一通信终端传输的参数文件和音频流时，将所述身份模型参数S与所述参数文件中的身份模型参数进行替换，再利用三维人脸重构技术恢复对应的三维人脸模型。

本发明还提出了一种基于三维人脸重构的虚拟人物视频通话***，应用于上述任一技术方案提出的虚拟人物视频通话方法，包括第一通信终端、第二通信终端，所述第一通信终端、第二通信终端均包括视频采集模块、音频采集模块、显示模块、通信模块、主控模块；其中：

所述视频采集模块用于采集视频流并发送至所述主控模块；

所述音频采集模块用于采集音频流并发送至所述主控模块；

所述主控模块根据当前选择的虚拟人物视频通话方式，将所述视频流分解为图像帧后采用三维人脸重构网络进行参数化三维人脸的模型参数预测，得到预测的三维人脸模型参数并保存为参数文件；

或将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测，得到预测的三维人脸模型参数，然后根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件；

所述主控模块将其生成的参数文件经过所述通信模块传输至另一通信终端；

所述主控模块还用于根据经所述通信模块接收的参数文件利用三维人脸重构技术恢复对应的三维人脸模型，然后映射到二维图像平面得到恢复的视频图像帧序列；对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频，再传输至所述显示模块中进行显示。

与现有技术相比，本发明技术方案的有益效果是：

本发明利用三维人脸重构技术，将摄像头捕捉到的图像帧进行三维人脸重构得到参数化三维人脸模型参数进行传输，或从录制的音频流中预测通信终端用户的三维人脸模型参数后进行传输，能够降低通信终端的数据传输量，有效提升视频通话的流畅度；

本发明还能够仅从录制的音频流中预测通信终端用户的三维人脸模型参数，结合预设的初始三维人脸模型参数恢复完整的三维人脸，能够在关闭摄像头的情况下实现视频通话。

附图说明

图1为实施例1的基于三维人脸重构的虚拟人物视频通话方法的流程图。

图2为实施例1的虚拟人物视频通话方法的示意图。

图3为实施例1的视频到视频单向虚拟人物视频通话的示意图。

图4为实施例1的音频到视频单向虚拟人物视频通话的示意图。

图5为实施例2的替换虚拟人物身份的虚拟人物视频通话的示意图。

图6为实施例2的替换虚拟人物身份的虚拟人物视频通话的示意图。

图7为实施例3的基于三维人脸重构的虚拟人物视频通话***的结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本实施例提出的第一通信终端指代数据发送端，第二通信终端指代数据接收端。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种基于三维人脸重构的虚拟人物视频通话方法，如图1～2所示，为本实施例的基于三维人脸重构的虚拟人物视频通话方法的流程图。

本实施例提出的基于三维人脸重构的虚拟人物视频通话方法中，包括以下步骤：

步骤1：选择的视频到视频的通信方式或音频到视频的通信方式：

当选择音频到视频通话方式时：获取第一通信终端的音频流，将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测，得到预测的三维人脸模型参数，然后根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件。

其中，经所述三维人脸重构网络预测得到的三维人脸模型参数包括身份模型参数S、表情模型参数E、纹理模型参数T、姿势模型参数P、光照模型参数L；经所述音频预测网络预测得到的三维人脸模型参数包括表情模型参数E、姿势模型参数P。此外，本实施例中预设的初始三维人脸模型参数包括身份模型参数S、表情模型参数E、纹理模型参数T、姿势模型参数P、光照模型参数L，所述初始三维人脸模型参数为在进行虚拟人物视频通话前，通过预先拍摄的用户人物正面人脸图像进行三维人脸重构得到。

本步骤中的三维人脸重构网络采用R-Net网络，且该三维人脸重构网络根据所述视频流图像帧、预测的三维人脸模型参数及恢复的三维人脸模型经过优化训练，其表达公式如下：

式中，

示三维人脸重构网络的网络参数，

表示原视频流图像帧，

表示三维人脸重构网络所学***面的函数。

本步骤中的音频预测网络采用LSTM网络，且该音频预测网络根据所述音频流、预测的三维人脸模型参数及预设的初始三维人脸模型参数经过优化训练，其表达公式如下：

式中，θ₁和θ₂为所述音频预测网络的网络参数，

为预设的初始表情模型参数，

表示预设的初始姿势模型参数，

步骤2：将所述参数文件和第一通信终端的音频流传输至第二通信终端，第二通信终端根据所述参数文件利用三维人脸重构技术恢复对应的三维人脸模型，然后映射到二维图像平面得到恢复的视频图像帧序列。

本步骤中，先将所述参数文件进行压缩，再采用云服务将所述参数文件传输第二通信终端，采用网络协议将所述第一通信终端的音频流传输至第二通信终端。

进一步的，本步骤中利用三维人脸重构技术恢复对应的三维人脸模型的具体步骤包括：

初始化三维人脸的顶点集

三维人脸顶点集对应的RGB集

式中，

表示三维人脸的身份基，

表示三维人脸的表情基，

步骤3：对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频。

本步骤中，采用包括生成对抗网络的人脸渲染器对合成的视频图像帧序列进行渲染，提高视频图像帧序列的逼真性，再采用多媒体处理技术将视频图像帧序列和接收到的音频流合成得到虚拟人物视频并进行显示。

在一具体实施过程中，将本实施例提出的虚拟人物视频通话方法应用于视频到视频的通话方式，其流程示意图如图3所示。

在进行虚拟人物视频通话时，第一通信终端连续捕获视频流和音频流，采用多媒体处理技术将视频流分解为图像帧序列，再采用三维人脸重构网络进行参数化三维人脸的模型参数预测，得到预测的三维人脸模型参数，并保存为mat格式或yml格式的参数文件。将mat格式或yml格式的参数文件压缩为zip格式文件后采用云服务进行传输，将音频流压缩为mp3文件后采用网络协议进行传输。第二通信终端根据接收的参数文件利用三维人脸重构技术恢复对应的三维人脸模型，然后映射到二维图像平面得到恢复的视频图像帧序列，再对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频。

本实施例考虑到在网络不佳的区域出现视频通话流畅度差的问题，利用三维人脸重构技术，将摄像头捕捉到的图像帧进行三维人脸重构得到参数化三维人脸模型参数，由于参数化三维人脸的模型参数几乎包含了图像肖像的所有信息，而通信终端只需要将完整的三维人脸模型参数和音频流传输到通信对端就可以完成视频通话的数据量传输，从而实现降低视频通话所需要传输的数据量并提升视频通话的流畅度。当用户选择音频到视频的视频通话方式时，所需要传输的数据量依旧是完整的三维人脸模型参数和音频流。

在另一具体实施过程中，将本实施例提出的虚拟人物视频通话方法应用于音频到视频的通话方式，其流程示意图如图4所示。

在进行虚拟人物视频通话前，需要预先拍摄一张单肖像的正面人脸图像进行三维人脸重构，得到初始三维人脸模型参数，并保存在相应通信终端上。

在进行虚拟人物视频通话时，第一通信终端仅采集音频流数据，然后将音频流输入采用LSTM网络的音频预测网络中进行参数化三维人脸的模型参数预测，得到预测的表情模型参数和姿势模型参数，然后与存储在当前通信终端的初始三维人脸模型参数进行合并更新后，保存为mat格式或yml格式的参数文件。

同样地将该参数文件进行压缩后采用云服务进行传输，对音频流采用网络协议进行传输。第二通信终端根据接收的参数文件利用三维人脸重构技术恢复对应的三维人脸模型，然后映射到二维图像平面得到恢复的视频图像帧序列，再对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频。

本实施例考虑到了视频通话在应用场景中存在的局限性问题，利用三维人脸重构技术结合深度学***面得到对应的图像帧，从而实现音频到视频的视频通话方式。

实施例2

本实施例在实施例1提出的基于三维人脸重构的虚拟人物视频通话方法的基础上，提出一种替换虚拟人物身份的虚拟人物视频通话方法。如图5～6所示，为本实施例的替换虚拟人物身份的虚拟人物视频通话的示意图。

本实施例中，还包括以下步骤：所述第二通信终端预设有其他人物的身份模型参数S，当所述第二通信终端接收第一通信终端传输的参数文件和音频流时，将所述身份模型参数S与所述参数文件中的身份模型参数进行替换，再利用三维人脸重构技术恢复对应的三维人脸模型。

在具体实施过程中，通信终端可以自主选择其他的且为预先存储的虚拟人物身份，即通信终端预先存储有相应人物身份的身份模型参数S，且虚拟人物身份在视频通话过程中的任意时刻可替换。

当通信终端选择其他虚拟人物身份时，通信终端从预先存储的身份模型参数S中选取相应的身份模型参数S，将其与当前接收的参数文件中的身份模型参数进行替换，保持表情模型参数E、纹理模型参数T、姿势模型参数P、光照模型参数L不变，再利用三维人脸重构技术恢复对应的三维人脸模型。

本实施例利用参数化三维人脸模型参数可更换修改的灵活性，在视频通话的一端接收到完整的三维人脸模型参数时，只需将其中的身份模型参数S替换为预设的卡通人物或名人明星的身份参数，就能够实现在不改变通信对端人物的表情和头部姿势情况下更换为其他虚拟人物身份，从而提高视频通话的趣味性和灵活性。

实施例3

本实施例提出一种基于三维人脸重构的虚拟人物视频通话***，应用于实施例1或实施例2提出的基于三维人脸重构的虚拟人物视频通话方法。如图7所示，为本实施例的基于三维人脸重构的虚拟人物视频通话***的结构示意图。

本实施例提出的基于三维人脸重构的虚拟人物视频通话***中包括同样结构的第一通信终端和第二通信终端，所述第一通信终端、第二通信终端均包括视频采集模块1、音频采集模块2、显示模块5、通信模块3、主控模块4；其中：

所述视频采集模块1用于采集视频流并发送至所述主控模块4；

所述音频采集模块2用于采集音频流并发送至所述主控模块4；

所述主控模块4根据当前选择的虚拟人物视频通话方式对采集的视频流或音频流进行处理，具体的：

当选择视频到视频通话方式时，将所述视频流分解为图像帧后采用三维人脸重构网络进行参数化三维人脸的模型参数预测，得到预测的三维人脸模型参数并保存为参数文件；

当选择音频到视频通话方式时，将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测，得到预测的三维人脸模型参数，然后根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件；

所述主控模块4将其生成的参数文件经过所述通信模块3传输至另一通信终端；

所述主控模块4还用于根据经所述通信模块3接收的参数文件利用三维人脸重构技术恢复对应的三维人脸模型，然后映射到二维图像平面得到恢复的视频图像帧序列；对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频，再传输至所述显示模块5中进行显示。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。