CN113395476A - 一种基于三维人脸重构的虚拟人物视频通话方法及*** - Google Patents

一种基于三维人脸重构的虚拟人物视频通话方法及*** Download PDF

Info

Publication number
CN113395476A
CN113395476A CN202110632937.0A CN202110632937A CN113395476A CN 113395476 A CN113395476 A CN 113395476A CN 202110632937 A CN202110632937 A CN 202110632937A CN 113395476 A CN113395476 A CN 113395476A
Authority
CN
China
Prior art keywords
dimensional face
video
communication terminal
model parameters
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110632937.0A
Other languages
English (en)
Inventor
杨志景
温瑞冕
徐永宗
李为杰
李凯
凌永权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110632937.0A priority Critical patent/CN113395476A/zh
Publication of CN113395476A publication Critical patent/CN113395476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明为克服视频通话流畅度低、灵活性低的缺陷,提出一种于三维人脸重构的虚拟人物视频通话方法及***,包括以下步骤:获取第一通信终端的视频流和音频流,或仅获取第一通信终端的音频流;将视频流图像帧输入三维人脸重构网络,得到预测的三维人脸模型参数;或将音频流输入音频预测网络中得到预测的三维人脸模型参数;根据预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件;将参数文件和第一通信终端的音频流传输至第二通信终端,第二通信终端根据参数文件利用三维人脸重构技术恢复对应的三维人脸模型,然后映射到二维图像平面得到恢复的视频图像帧序列;对视频图像帧序列进行渲染后与音频流合成虚拟人物视频。

Description

一种基于三维人脸重构的虚拟人物视频通话方法及***
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于三维人脸重构的虚拟人物视频通话方法及***。
背景技术
随着智能手机的普及以及互联网技术的飞速发展,人们之间的通话方式发生了巨大的变化,而视频通话已经成为人们之间通信的一种流行方式,但是在实际的应用中存在一定的局限性。第一,在当前视频通话中,不能够实现在通信一端不方便打开摄像头的情况下,依旧能够与另一端正常进行视频通话,使得视频通话缺乏一定的灵活性;第二,在网络传输能力低的区域进行视频通话时,会出现视频卡顿的现象,这会极大地降低用户在视频通话上的体验。
目前有提出构造虚拟人物的视频通话方法,不仅能够降低传输的数据量来增加视频通话的流畅度,还可以通过更换通信对端的人物身份来提高视频通话的趣味性。如公开号为CN110213521A(公开日2019-09-06)公开的一种虚拟即时通信方法,提出在虚拟即时通信的过程中,使用与双方表情、姿态相同的虚拟2D/3D形象模型代替通信双方的真实面貌。然而该方法需要终端摄像头时刻捕获人物面部图像,缺乏对头部姿势信息的获取,依旧没有摆脱对摄像头的过分依赖,仍然存在灵活性低、视频通话流畅度低的问题。
发明内容
本发明为克服上述现有技术中视频通话流畅度低、灵活性低的缺陷,提供一种基于三维人脸重构的虚拟人物视频通话方法,以及一种基于三维人脸重构的虚拟人物视频通话***。
为解决上述技术问题,本发明的技术方案如下:
一种基于三维人脸重构的虚拟人物视频通话方法,包括以下步骤:
S1:选择虚拟人物视频通话方式,包括视频到视频通话方式和音频到视频通话方式:
当选择视频到视频通话方式时:获取第一通信终端的视频流和音频流,将所述视频流分解为图像帧后采用三维人脸重构网络进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数并保存为参数文件;
当选择音频到视频通话方式时:获取第一通信终端的音频流,将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数;根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件;
S2:将所述参数文件和第一通信终端的音频流传输至第二通信终端,第二通信终端根据所述参数文件利用三维人脸重构技术恢复对应的三维人脸模型,然后映射到二维图像平面得到恢复的视频图像帧序列;
S3:对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频。
作为优选方案,经所述三维人脸重构网络预测得到的三维人脸模型参数包括身份模型参数S、表情模型参数E、纹理模型参数T、姿势模型参数P、光照模型参数L;经所述音频预测网络预测得到的三维人脸模型参数包括表情模型参数E、姿势模型参数P。
作为优选方案,还包括以下步骤:根据所述视频流图像帧、预测的三维人脸模型参数及恢复的三维人脸模型,对所述三维人脸重构网络进行优化训练,其表达公式如下:
Figure BDA0003104354100000021
式中,
Figure BDA0003104354100000022
表示三维人脸重构网络的网络参数,
Figure BDA0003104354100000023
表示原视频流图像帧,
Figure BDA0003104354100000024
表示三维人脸重构网络所学***面的函数。
作为优选方案,所述三维人脸重构网络包括R-Net网络。
作为优选方案,还包括以下步骤:根据所述音频流、预测的三维人脸模型参数及预设的初始三维人脸模型参数,对所述音频预测网络进行优化训练,其表达公式如下:
Figure BDA0003104354100000025
Figure BDA0003104354100000026
式中,θ1和θ2为所述音频预测网络的网络参数,
Figure BDA0003104354100000031
为预设的初始表情模型参数,
Figure BDA0003104354100000032
示预设的初始姿势模型参数,
Figure BDA0003104354100000033
表示音频流;hE(·)表示音频预测网络所学习到的表情特征预测函数,hP(·)表示音频预测网络所学习到的姿势特征预测函数。
作为优选方案,所述音频预测网络包括LSTM网络。
作为优选方案,所述S2步骤中,利用三维人脸重构技术恢复对应的三维人脸模型的具体步骤包括:
初始化三维人脸的顶点集
Figure BDA0003104354100000034
及三维人脸顶点集对应的RGB集
Figure BDA0003104354100000035
根据所述参数文件中的表情模型参数E和姿势模型参数P改变三维人脸顶点集位置,根据所述参数文件中的纹理模型参数T和光照模型参数L改变三维人脸顶点集对应的RGB集的颜色值,其表达公式如下:
Figure BDA0003104354100000036
Figure BDA0003104354100000037
式中,
Figure BDA0003104354100000038
表示三维人脸的身份基,
Figure BDA0003104354100000039
表示三维人脸的表情基,
Figure BDA00031043541000000310
表示三维人脸的纹理基;x(λ;P)表示根据姿势模型参数P改变三维人脸顶点集位置的函数,λ表示待改变位置的顶点集;c(ε;L)表示根据光照模型参数L改变三维人脸顶点集对应的RGB集的函数,ε为待改变颜色值的RGB集;N1、N2分别为身份基和表情基的总数,i和j下标分别为身份基和表情基的序数;
根据改变后的三维人脸的顶点集S*和RGB集T*构建得到恢复的三维人脸模型,再利用仿射变换将三维人脸模型中的每一个顶点映射到二维图像平面上,每个顶点的RGB颜色值对应地映射到二维图像平面上作为该映射点的像素点,得到恢复的视频图像帧。
作为优选方案,所述S2步骤中,还包括以下步骤:将所述参数文件进行压缩后,采用云服务将所述参数文件传输至第二通信终端;采用网络协议将所述第一通信终端的音频流传输至第二通信终端。
作为优选方案,还包括以下步骤:所述第二通信终端预设有其他人物的身份模型参数S,当所述第二通信终端接收第一通信终端传输的参数文件和音频流时,将所述身份模型参数S与所述参数文件中的身份模型参数进行替换,再利用三维人脸重构技术恢复对应的三维人脸模型。
本发明还提出了一种基于三维人脸重构的虚拟人物视频通话***,应用于上述任一技术方案提出的虚拟人物视频通话方法,包括第一通信终端、第二通信终端,所述第一通信终端、第二通信终端均包括视频采集模块、音频采集模块、显示模块、通信模块、主控模块;其中:
所述视频采集模块用于采集视频流并发送至所述主控模块;
所述音频采集模块用于采集音频流并发送至所述主控模块;
所述主控模块根据当前选择的虚拟人物视频通话方式,将所述视频流分解为图像帧后采用三维人脸重构网络进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数并保存为参数文件;
或将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数,然后根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件;
所述主控模块将其生成的参数文件经过所述通信模块传输至另一通信终端;
所述主控模块还用于根据经所述通信模块接收的参数文件利用三维人脸重构技术恢复对应的三维人脸模型,然后映射到二维图像平面得到恢复的视频图像帧序列;对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频,再传输至所述显示模块中进行显示。
与现有技术相比,本发明技术方案的有益效果是:
本发明利用三维人脸重构技术,将摄像头捕捉到的图像帧进行三维人脸重构得到参数化三维人脸模型参数进行传输,或从录制的音频流中预测通信终端用户的三维人脸模型参数后进行传输,能够降低通信终端的数据传输量,有效提升视频通话的流畅度;
本发明还能够仅从录制的音频流中预测通信终端用户的三维人脸模型参数,结合预设的初始三维人脸模型参数恢复完整的三维人脸,能够在关闭摄像头的情况下实现视频通话。
附图说明
图1为实施例1的基于三维人脸重构的虚拟人物视频通话方法的流程图。
图2为实施例1的虚拟人物视频通话方法的示意图。
图3为实施例1的视频到视频单向虚拟人物视频通话的示意图。
图4为实施例1的音频到视频单向虚拟人物视频通话的示意图。
图5为实施例2的替换虚拟人物身份的虚拟人物视频通话的示意图。
图6为实施例2的替换虚拟人物身份的虚拟人物视频通话的示意图。
图7为实施例3的基于三维人脸重构的虚拟人物视频通话***的结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本实施例提出的第一通信终端指代数据发送端,第二通信终端指代数据接收端。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于三维人脸重构的虚拟人物视频通话方法,如图1~2所示,为本实施例的基于三维人脸重构的虚拟人物视频通话方法的流程图。
本实施例提出的基于三维人脸重构的虚拟人物视频通话方法中,包括以下步骤:
步骤1:选择的视频到视频的通信方式或音频到视频的通信方式:
当选择视频到视频通话方式时:获取第一通信终端的视频流和音频流,将所述视频流分解为图像帧后采用三维人脸重构网络进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数并保存为参数文件;
当选择音频到视频通话方式时:获取第一通信终端的音频流,将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数,然后根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件。
其中,经所述三维人脸重构网络预测得到的三维人脸模型参数包括身份模型参数S、表情模型参数E、纹理模型参数T、姿势模型参数P、光照模型参数L;经所述音频预测网络预测得到的三维人脸模型参数包括表情模型参数E、姿势模型参数P。此外,本实施例中预设的初始三维人脸模型参数包括身份模型参数S、表情模型参数E、纹理模型参数T、姿势模型参数P、光照模型参数L,所述初始三维人脸模型参数为在进行虚拟人物视频通话前,通过预先拍摄的用户人物正面人脸图像进行三维人脸重构得到。
本步骤中的三维人脸重构网络采用R-Net网络,且该三维人脸重构网络根据所述视频流图像帧、预测的三维人脸模型参数及恢复的三维人脸模型经过优化训练,其表达公式如下:
Figure BDA0003104354100000061
式中,
Figure BDA0003104354100000062
示三维人脸重构网络的网络参数,
Figure BDA0003104354100000063
表示原视频流图像帧,
Figure BDA0003104354100000064
表示三维人脸重构网络所学***面的函数。
本步骤中的音频预测网络采用LSTM网络,且该音频预测网络根据所述音频流、预测的三维人脸模型参数及预设的初始三维人脸模型参数经过优化训练,其表达公式如下:
Figure BDA0003104354100000065
Figure BDA0003104354100000066
式中,θ1和θ2为所述音频预测网络的网络参数,
Figure BDA0003104354100000067
为预设的初始表情模型参数,
Figure BDA0003104354100000068
表示预设的初始姿势模型参数,
Figure BDA0003104354100000069
表示音频流;hE(·)表示音频预测网络所学习到的表情特征预测函数,hP(·)表示音频预测网络所学习到的姿势特征预测函数。
步骤2:将所述参数文件和第一通信终端的音频流传输至第二通信终端,第二通信终端根据所述参数文件利用三维人脸重构技术恢复对应的三维人脸模型,然后映射到二维图像平面得到恢复的视频图像帧序列。
本步骤中,先将所述参数文件进行压缩,再采用云服务将所述参数文件传输第二通信终端,采用网络协议将所述第一通信终端的音频流传输至第二通信终端。
进一步的,本步骤中利用三维人脸重构技术恢复对应的三维人脸模型的具体步骤包括:
初始化三维人脸的顶点集
Figure BDA00031043541000000610
三维人脸顶点集对应的RGB集
Figure BDA00031043541000000611
根据所述参数文件中的表情模型参数E和姿势模型参数P改变三维人脸顶点集位置,根据所述参数文件中的纹理模型参数T和光照模型参数L改变三维人脸顶点集对应的RGB集的颜色值,其表达公式如下:
Figure BDA0003104354100000071
Figure BDA0003104354100000072
式中,
Figure BDA0003104354100000073
表示三维人脸的身份基,
Figure BDA0003104354100000074
表示三维人脸的表情基,
Figure BDA0003104354100000075
表示三维人脸的纹理基;x(λ;P)表示根据姿势模型参数P改变三维人脸顶点集位置的函数,λ表示待改变位置的顶点集;c(ε;L)表示根据光照模型参数L改变三维人脸顶点集对应的RGB集的函数,ε为待改变颜色值的RGB集;N1、N2分别为身份基和表情基的总数,i和j下标分别为身份基和表情基的序数;
根据改变后的三维人脸的顶点集S*和RGB集T*构建得到恢复的三维人脸模型,再利用仿射变换将三维人脸模型中的每一个顶点映射到二维图像平面上,每个顶点的RGB颜色值对应地映射到二维图像平面上作为该映射点的像素点,得到恢复的视频图像帧。
步骤3:对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频。
本步骤中,采用包括生成对抗网络的人脸渲染器对合成的视频图像帧序列进行渲染,提高视频图像帧序列的逼真性,再采用多媒体处理技术将视频图像帧序列和接收到的音频流合成得到虚拟人物视频并进行显示。
在一具体实施过程中,将本实施例提出的虚拟人物视频通话方法应用于视频到视频的通话方式,其流程示意图如图3所示。
在进行虚拟人物视频通话时,第一通信终端连续捕获视频流和音频流,采用多媒体处理技术将视频流分解为图像帧序列,再采用三维人脸重构网络进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数,并保存为mat格式或yml格式的参数文件。将mat格式或yml格式的参数文件压缩为zip格式文件后采用云服务进行传输,将音频流压缩为mp3文件后采用网络协议进行传输。第二通信终端根据接收的参数文件利用三维人脸重构技术恢复对应的三维人脸模型,然后映射到二维图像平面得到恢复的视频图像帧序列,再对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频。
本实施例考虑到在网络不佳的区域出现视频通话流畅度差的问题,利用三维人脸重构技术,将摄像头捕捉到的图像帧进行三维人脸重构得到参数化三维人脸模型参数,由于参数化三维人脸的模型参数几乎包含了图像肖像的所有信息,而通信终端只需要将完整的三维人脸模型参数和音频流传输到通信对端就可以完成视频通话的数据量传输,从而实现降低视频通话所需要传输的数据量并提升视频通话的流畅度。当用户选择音频到视频的视频通话方式时,所需要传输的数据量依旧是完整的三维人脸模型参数和音频流。
在另一具体实施过程中,将本实施例提出的虚拟人物视频通话方法应用于音频到视频的通话方式,其流程示意图如图4所示。
在进行虚拟人物视频通话前,需要预先拍摄一张单肖像的正面人脸图像进行三维人脸重构,得到初始三维人脸模型参数,并保存在相应通信终端上。
在进行虚拟人物视频通话时,第一通信终端仅采集音频流数据,然后将音频流输入采用LSTM网络的音频预测网络中进行参数化三维人脸的模型参数预测,得到预测的表情模型参数和姿势模型参数,然后与存储在当前通信终端的初始三维人脸模型参数进行合并更新后,保存为mat格式或yml格式的参数文件。
同样地将该参数文件进行压缩后采用云服务进行传输,对音频流采用网络协议进行传输。第二通信终端根据接收的参数文件利用三维人脸重构技术恢复对应的三维人脸模型,然后映射到二维图像平面得到恢复的视频图像帧序列,再对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频。
本实施例考虑到了视频通话在应用场景中存在的局限性问题,利用三维人脸重构技术结合深度学***面得到对应的图像帧,从而实现音频到视频的视频通话方式。
实施例2
本实施例在实施例1提出的基于三维人脸重构的虚拟人物视频通话方法的基础上,提出一种替换虚拟人物身份的虚拟人物视频通话方法。如图5~6所示,为本实施例的替换虚拟人物身份的虚拟人物视频通话的示意图。
本实施例中,还包括以下步骤:所述第二通信终端预设有其他人物的身份模型参数S,当所述第二通信终端接收第一通信终端传输的参数文件和音频流时,将所述身份模型参数S与所述参数文件中的身份模型参数进行替换,再利用三维人脸重构技术恢复对应的三维人脸模型。
在具体实施过程中,通信终端可以自主选择其他的且为预先存储的虚拟人物身份,即通信终端预先存储有相应人物身份的身份模型参数S,且虚拟人物身份在视频通话过程中的任意时刻可替换。
当通信终端选择其他虚拟人物身份时,通信终端从预先存储的身份模型参数S中选取相应的身份模型参数S,将其与当前接收的参数文件中的身份模型参数进行替换,保持表情模型参数E、纹理模型参数T、姿势模型参数P、光照模型参数L不变,再利用三维人脸重构技术恢复对应的三维人脸模型。
本实施例利用参数化三维人脸模型参数可更换修改的灵活性,在视频通话的一端接收到完整的三维人脸模型参数时,只需将其中的身份模型参数S替换为预设的卡通人物或名人明星的身份参数,就能够实现在不改变通信对端人物的表情和头部姿势情况下更换为其他虚拟人物身份,从而提高视频通话的趣味性和灵活性。
实施例3
本实施例提出一种基于三维人脸重构的虚拟人物视频通话***,应用于实施例1或实施例2提出的基于三维人脸重构的虚拟人物视频通话方法。如图7所示,为本实施例的基于三维人脸重构的虚拟人物视频通话***的结构示意图。
本实施例提出的基于三维人脸重构的虚拟人物视频通话***中包括同样结构的第一通信终端和第二通信终端,所述第一通信终端、第二通信终端均包括视频采集模块1、音频采集模块2、显示模块5、通信模块3、主控模块4;其中:
所述视频采集模块1用于采集视频流并发送至所述主控模块4;
所述音频采集模块2用于采集音频流并发送至所述主控模块4;
所述主控模块4根据当前选择的虚拟人物视频通话方式对采集的视频流或音频流进行处理,具体的:
当选择视频到视频通话方式时,将所述视频流分解为图像帧后采用三维人脸重构网络进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数并保存为参数文件;
当选择音频到视频通话方式时,将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数,然后根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件;
所述主控模块4将其生成的参数文件经过所述通信模块3传输至另一通信终端;
所述主控模块4还用于根据经所述通信模块3接收的参数文件利用三维人脸重构技术恢复对应的三维人脸模型,然后映射到二维图像平面得到恢复的视频图像帧序列;对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频,再传输至所述显示模块5中进行显示。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于三维人脸重构的虚拟人物视频通话方法,其特征在于,包括以下步骤:
S1:选择虚拟人物视频通话方式,包括视频到视频通话方式和音频到视频通话方式:
当选择视频到视频通话方式时:获取第一通信终端的视频流和音频流,将所述视频流分解为图像帧后采用三维人脸重构网络进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数并保存为参数文件;
当选择音频到视频通话方式时:获取第一通信终端的音频流,将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数;根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件;
S2:将所述参数文件和第一通信终端的音频流传输至第二通信终端,第二通信终端根据所述参数文件利用三维人脸重构技术恢复对应的三维人脸模型,然后映射到二维图像平面得到恢复的视频图像帧序列;
S3:对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频。
2.根据权利要求1所述的虚拟人物视频通话方法,其特征在于,经所述三维人脸重构网络预测得到的三维人脸模型参数包括身份模型参数S、表情模型参数E、纹理模型参数T、姿势模型参数P、光照模型参数L;经所述音频预测网络预测得到的三维人脸模型参数包括表情模型参数E、姿势模型参数P。
3.根据权利要求2所述的虚拟人物视频通话方法,其特征在于,还包括以下步骤:根据所述视频流图像帧、预测的三维人脸模型参数及恢复的三维人脸模型,对所述三维人脸重构网络进行优化训练,其表达公式如下:
Figure FDA0003104354090000011
式中,
Figure FDA0003104354090000012
表示三维人脸重构网络的网络参数,
Figure FDA0003104354090000013
表示原视频流图像帧,
Figure FDA0003104354090000014
表示三维人脸重构网络所学***面的函数。
4.根据权利要求3所述的虚拟人物视频通话方法,其特征在于,所述三维人脸重构网络包括R-Net网络。
5.根据权利要求2所述的虚拟人物视频通话方法,其特征在于,还包括以下步骤:根据所述音频流、预测的三维人脸模型参数及预设的初始三维人脸模型参数,对所述音频预测网络进行优化训练,其表达公式如下:
Figure FDA0003104354090000021
Figure FDA0003104354090000022
式中,θ1和θ2为所述音频预测网络的网络参数,
Figure FDA0003104354090000023
为预设的初始表情模型参数,
Figure FDA0003104354090000024
表示预设的初始姿势模型参数,
Figure FDA0003104354090000025
表示音频流;hE(·)表示音频预测网络所学习到的表情特征预测函数,hP(·)表示音频预测网络所学习到的姿势特征预测函数。
6.根据权利要求5所述的虚拟人物视频通话方法,其特征在于,所述音频预测网络包括LSTM网络。
7.根据权利要求2所述的虚拟人物视频通话方法,其特征在于,所述S2步骤中,利用三维人脸重构技术恢复对应的三维人脸模型的具体步骤包括:
初始化三维人脸的顶点集
Figure FDA0003104354090000026
及三维人脸顶点集对应的RGB集
Figure FDA0003104354090000027
根据所述参数文件中的表情模型参数E和姿势模型参数P改变三维人脸顶点集位置,根据所述参数文件中的纹理模型参数T和光照模型参数L改变三维人脸顶点集对应的RGB集的颜色值,其表达公式如下:
Figure FDA0003104354090000028
Figure FDA0003104354090000029
式中,
Figure FDA00031043540900000210
表示三维人脸的身份基,
Figure FDA00031043540900000211
表示三维人脸的表情基,
Figure FDA00031043540900000212
表示三维人脸的纹理基;x(λ;P)表示根据姿势模型参数P改变三维人脸顶点集位置的函数,λ表示待改变位置的顶点集;c(ε;L)表示根据光照模型参数L改变三维人脸顶点集对应的RGB集的函数,ε为待改变颜色值的RGB集;N1、N2分别为身份基和表情基的总数,i和j下标分别为身份基和表情基的序数;
根据改变后的三维人脸的顶点集S*和RGB集T*构建得到恢复的三维人脸模型,再利用仿射变换将三维人脸模型中的每一个顶点映射到二维图像平面上,每个顶点的RGB颜色值对应地映射到二维图像平面上作为该映射点的像素点,得到恢复的视频图像帧。
8.根据权利要求2所述的虚拟人物视频通话方法,其特征在于,所述S2步骤中,还包括以下步骤:将所述参数文件进行压缩后,采用云服务将所述参数文件传输至第二通信终端;采用网络协议将所述第一通信终端的音频流传输至第二通信终端。
9.根据权利要求2~8任一项所述的虚拟人物视频通话方法,其特征在于,还包括以下步骤:所述第二通信终端预设有其他人物的身份模型参数S,当所述第二通信终端接收第一通信终端传输的参数文件和音频流时,将所述身份模型参数S与所述参数文件中的身份模型参数进行替换,再利用三维人脸重构技术恢复对应的三维人脸模型。
10.一种基于三维人脸重构的虚拟人物视频通话***,应用于权利要求1~9任一项所述的虚拟人物视频通话方法,其特征在于,包括第一通信终端、第二通信终端,所述第一通信终端、第二通信终端均包括视频采集模块、音频采集模块、显示模块、通信模块、主控模块;其中:
所述视频采集模块用于采集视频流并发送至所述主控模块;
所述音频采集模块用于采集音频流并发送至所述主控模块;
所述主控模块根据当前选择的虚拟人物视频通话方式,将所述视频流分解为图像帧后采用三维人脸重构网络进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数并保存为参数文件;
或将所述音频流输入音频预测网络中进行参数化三维人脸的模型参数预测,得到预测的三维人脸模型参数,然后根据所述预测的三维人脸模型参数对预设的初始三维人脸模型参数进行合并更新后保存为参数文件;
所述主控模块将其生成的参数文件经过所述通信模块传输至另一通信终端;
所述主控模块还用于根据经所述通信模块接收的参数文件利用三维人脸重构技术恢复对应的三维人脸模型,然后映射到二维图像平面得到恢复的视频图像帧序列;对所述视频图像帧序列进行渲染后与所述音频流合成虚拟人物视频,再传输至所述显示模块中进行显示。
CN202110632937.0A 2021-06-07 2021-06-07 一种基于三维人脸重构的虚拟人物视频通话方法及*** Pending CN113395476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110632937.0A CN113395476A (zh) 2021-06-07 2021-06-07 一种基于三维人脸重构的虚拟人物视频通话方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110632937.0A CN113395476A (zh) 2021-06-07 2021-06-07 一种基于三维人脸重构的虚拟人物视频通话方法及***

Publications (1)

Publication Number Publication Date
CN113395476A true CN113395476A (zh) 2021-09-14

Family

ID=77618475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110632937.0A Pending CN113395476A (zh) 2021-06-07 2021-06-07 一种基于三维人脸重构的虚拟人物视频通话方法及***

Country Status (1)

Country Link
CN (1) CN113395476A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113900565A (zh) * 2021-10-18 2022-01-07 深圳追一科技有限公司 自助终端的交互方法、装置、设备及存储介质
CN114500912A (zh) * 2022-02-23 2022-05-13 联想(北京)有限公司 通话处理方法、电子设备以及存储介质
CN114821404A (zh) * 2022-04-08 2022-07-29 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
CN117474807A (zh) * 2023-12-27 2024-01-30 科大讯飞股份有限公司 一种图像修复方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765550A (zh) * 2018-05-09 2018-11-06 华南理工大学 一种基于单张图片的三维人脸重建方法
CN109255831A (zh) * 2018-09-21 2019-01-22 南京大学 基于多任务学习的单视图人脸三维重建及纹理生成的方法
CN109584353A (zh) * 2018-10-22 2019-04-05 北京航空航天大学 一种基于单目视频重建三维人脸表情模型的方法
CN110536095A (zh) * 2019-08-30 2019-12-03 Oppo广东移动通信有限公司 通话方法、装置、终端及存储介质
CN111445582A (zh) * 2019-01-16 2020-07-24 南京大学 一种基于光照先验的单张图像人脸三维重建方法
CN111951383A (zh) * 2020-08-12 2020-11-17 北京鼎翰科技有限公司 一种人脸重建的方法
CN112215927A (zh) * 2020-09-18 2021-01-12 腾讯科技(深圳)有限公司 人脸视频的合成方法、装置、设备及介质
CN112866586A (zh) * 2021-01-04 2021-05-28 北京中科闻歌科技股份有限公司 一种视频合成方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765550A (zh) * 2018-05-09 2018-11-06 华南理工大学 一种基于单张图片的三维人脸重建方法
CN109255831A (zh) * 2018-09-21 2019-01-22 南京大学 基于多任务学习的单视图人脸三维重建及纹理生成的方法
CN109584353A (zh) * 2018-10-22 2019-04-05 北京航空航天大学 一种基于单目视频重建三维人脸表情模型的方法
CN111445582A (zh) * 2019-01-16 2020-07-24 南京大学 一种基于光照先验的单张图像人脸三维重建方法
CN110536095A (zh) * 2019-08-30 2019-12-03 Oppo广东移动通信有限公司 通话方法、装置、终端及存储介质
CN111951383A (zh) * 2020-08-12 2020-11-17 北京鼎翰科技有限公司 一种人脸重建的方法
CN112215927A (zh) * 2020-09-18 2021-01-12 腾讯科技(深圳)有限公司 人脸视频的合成方法、装置、设备及介质
CN112866586A (zh) * 2021-01-04 2021-05-28 北京中科闻歌科技股份有限公司 一种视频合成方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
傅勇等: "改进级联卷积神经网络的平面旋转人脸检测", 《计算机工程与设计》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113900565A (zh) * 2021-10-18 2022-01-07 深圳追一科技有限公司 自助终端的交互方法、装置、设备及存储介质
CN114500912A (zh) * 2022-02-23 2022-05-13 联想(北京)有限公司 通话处理方法、电子设备以及存储介质
CN114821404A (zh) * 2022-04-08 2022-07-29 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
CN114821404B (zh) * 2022-04-08 2023-07-25 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
CN117474807A (zh) * 2023-12-27 2024-01-30 科大讯飞股份有限公司 一种图像修复方法、装置、设备及存储介质
CN117474807B (zh) * 2023-12-27 2024-05-31 科大讯飞股份有限公司 一种图像修复方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN113395476A (zh) 一种基于三维人脸重构的虚拟人物视频通话方法及***
US8072479B2 (en) Method system and apparatus for telepresence communications utilizing video avatars
US7728866B2 (en) Video telephony image processing
US9210372B2 (en) Communication method and device for video simulation image
CN113422903A (zh) 拍摄模式切换方法、设备、存储介质和程序产品
US11741616B2 (en) Expression transfer across telecommunications networks
CN112037320A (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN113206971B (zh) 一种图像处理方法及显示设备
CN115909015B (zh) 一种可形变神经辐射场网络的构建方法和装置
US11783531B2 (en) Method, system, and medium for 3D or 2.5D electronic communication
WO2024078243A1 (zh) 视频生成模型的训练方法、装置、存储介质及计算机设备
CN110536095A (zh) 通话方法、装置、终端及存储介质
EP3739870B1 (en) Depth camera based image stabilization
CN104618721B (zh) 基于特征建模的极低码率下人脸视频编解码方法
CN114255496A (zh) 视频生成方法、装置、电子设备及存储介质
CN114007099A (zh) 一种视频处理方法、装置和用于视频处理的装置
Isikdogan et al. Eye contact correction using deep neural networks
CN115239857A (zh) 图像生成方法以及电子设备
CN113515193B (zh) 一种模型数据传输方法及装置
CN115100707A (zh) 模型的训练方法、视频信息生成方法、设备以及存储介质
CN114331918A (zh) 图像增强模型的训练方法、图像增强方法及电子设备
CN101521754A (zh) 异地双人大头贴
JP5813542B2 (ja) 画像コミュニケーションシステム、AR(AugmentedReality)動画生成装置及びプログラム
US20230334754A1 (en) Method, system, and medium for artificial intelligence-based completion of a 3d image during electronic communication
CN114513647B (zh) 一种三维虚拟场景中数据的传输方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210914

RJ01 Rejection of invention patent application after publication