CN116563506A

CN116563506A - 直播场景下基于xr设备的三维表情人脸还原方法、***及设备

Info

Publication number: CN116563506A
Application number: CN202310523482.8A
Authority: CN
Inventors: 林早; 唐莹; 李万清; 张俊峰; 刘俊
Original assignee: Shaoxing Shuhong Technology Co ltd; Tianjin Satuchi Technology Co ltd
Current assignee: Shaoxing Shuhong Technology Co ltd; Tianjin Satuchi Technology Co ltd
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-08-08

Abstract

本发明公开了一种直播场景下基于XR设备的三维表情人脸还原方法、***及设备，属于图像和视频处理领域。本发明在直播场景下，使用XR设备扫描获得人脸头像数据，其中包括眼睛的眼动信息，将人脸头像数据通过人脸检测方法定位精确的人脸区域，然后使用人脸特征点提取模型提取人脸中关键点的信息，并将关键点信息输入到轻量级的三维人脸表情合成网络中实时还原高保真的3D人脸建模结果，并将眼动信息与3D人脸建模结果进行深度融合，实现人脸眼神的高度还原。本发明在图像二次传播时可以实时展示具有逼真的、无XR设备遮挡的3D人脸表情和眼神效果。

Description

直播场景下基于XR设备的三维表情人脸还原方法、***及设备

技术领域

本发明涉及实时三维表情人脸建模技术领域，具体涉及到一种基于XR设备的直播场景下图像二次传播的实时三维表情人脸还原方法。

背景技术

随着智能手机、AR/VR设备的发展和普及，三维人脸重建和面部驱动逐渐进入到人们的日常生活中，而这一技术的背后需要从图像或者视频重建出三维人脸模型，包括人脸的几何、外观、表情、眼球眼神变化、头部姿态和环境光照等复杂的人脸细节信息。

从单目图像重建三维人脸模型是一个复杂的问题，传统方法通常通过3DMM(3DMorphable Model)拟合得到人脸，但3DMM是从有限的数据中学习的一个参数化模型，其建模能力有限，同理，其纹理模型也是在受限环境下采集的数据学习得到的，因此对于自然图像时效果较差。虽然从大量自然图像学习得到的非线性3DMM可以改善这些问题，但其重建结果无法用于面部驱动。

因为基于单目三维人脸重建的约束是不充足的，所以对人脸形状和纹理的估计也是比较困难的。对于给定的人脸照片，其面部像素值受到多个属性的影响，如三维形状、皮肤反射率、相机参数和光照参数。这种容易受到多个变量影响的条件使得面部像素值难以被精确地估计。与此同时，未知的和不受约束的照明条件以及随之而来的面部自遮挡阴影进一步增加了估计的复杂性。

此外，目前大多数算法为了追求较好的模型效果，采用了很深的卷积神经网络，导致网络模型过于臃肿，只适合在大型计算设备下使用，无法兼顾轻量和实时性的要求。

在直播场景下，建立一种基于XR设备的高保真三维表情人脸还原方法是一个非常重要的方向。因为利用XR设备进行虚拟/增强/混合现实现场直播时，绝大多数的XR设备会遮挡主播的局部甚至大部分人脸，尤其是眼睛部分，极大地影响了实时直播场景下的观众的观感和交流，对于利用XR设备作为工具的主播而言也增加了许多的后期再加工环节。因此，对于能够实时捕捉并呈现播主的人脸及表情状态，利用技术手段既能够实时逼真地还原真实的去XR设备下的人脸，又能够不影响XR设备的使用，使得佩戴面部遮挡的XR设备后的人脸在视频的二次传播下实时呈现去XR设备后的真实人脸，这对于利用XR设备进行虚拟/增强/混合现实现场直播，是非常重要且实用的技术。而此技术的先进性和关键重点均体现在对三维表情人脸还原技术的实时性和高保真性能的高要求，尤其是二次传播图像中眼神的实时还原。因此，在直播场景下，建立一种基于XR设备的直播场景下图像二次传播的实时三维表情人脸还原方法是一个非常重要的方向。

发明内容

本发明的目的在于克服现有技术的不足，提出一种直播场景下基于XR设备的三维表情人脸还原方法、***及设备。

本发明所采用的具体技术方案如下：

第一方面，本发明提供了一种直播场景下基于XR设备的三维表情人脸还原方法，其包括：

S1、在目标人员佩戴XR设备进行直播的过程中，实时获取直播画面中的主播人脸画面，同步通过XR设备扫描获取目标人员的人脸照片并对人脸照片进行图像预处理，同时保存XR设备获取到的目标人员的眼球眼动数据；

S2、对S1中预处理后的人脸照片进行人脸检测，若检测到人脸，则记录人脸位置信息；

S3、根据S2中记录的人脸位置信息，将人脸区域图像输入到人脸特征点提取模型中，从中提取所有人脸关键点信息；

S4、将S3中得到的人脸关键点信息输入到包含两个信息提取分支的双线性三维表情人脸重建网络中，其中第一信息提取分支由FaceNet从输入的人脸关键点信息中提取面部轮廓信息，而第二信息提取分支由TrackNe从输入的人脸关键点信息中提取面部细节信息，两个信息提取分支各自提取的信息通过融合后作为三维表情人脸建模结果；

S5、将S1中保存的眼球眼动数据融合至S4中输出的三维表情人脸建模结果中，使建模得到的人脸表情中的眼睛位置和注视方向与所述眼球眼动数据对齐；

S6、将S5中经过数据融合后的三维表情人脸建模结果匹配至所述直播画面中的主播人脸画面上，实时替换直播画面中佩戴XR设备的主播人脸，得到实时还原人脸表情和眼神的直播画面。

作为上述第一方面的优选，所述S1中，对人脸照片进行的所述图像预处理包括裁剪操作和中值滤波操作。

作为上述第一方面的优选，所述S2中，进行人脸检测的方法为将S1中预处理后的人脸照片输入CenterFace模型中，由CenterFace模型输出人脸检测结果；所述CenterFace模型包括骨干网络、特征金字塔网络和输出头，输入的人脸照片经过MobileNet-v2骨干网络进行特征提取，再由特征金字塔网络将MobileNet-v2骨干网络中提取的多层级特征图进行特征融合，得到的融合后的特征表示送入输出头中，预测得到包括人脸中心点位置、偏置、置信度和人脸关键点的完整人脸位置信息。

作为上述第一方面的优选，所述S3中，人脸特征点提取模型采用ERT算法实现，S2中得到的人脸区域图像输入ERT算法中，由ERT算法对人脸区域提取HOG特征，并利用训练好的回归树模型对人脸关键点的坐标进行回归，得到每个关键点的位置信息，再根据回归得到的关键点位置信息，对原始图像上的人脸进行关键点定位，并得到每个关键点的坐标。

作为上述第一方面的优选，所述S4中，双线性三维表情人脸重建网络的两个信息提取分支具体如下：

所述第一信息提取分支中，先利用ResNet-50作为主干网络对S3中得到的人脸关键点信息进行特征提取，ResNet-50输出的特征向量再输入到残差块中生成512维特征向量；所述残差块中，输入残差块的特征向量一方面连续经过两层3×3的卷积和ReLU激活函数得到第一512维向量，另一方面经过1×1卷积并将通道维数降至512维得到第二512维向量，第一512维向量和第二512维向量相加后作为残差块最终输出的512维特征向量；残差块生成的512维特征向量通过全连接层输出3DMM参数，其中输出信息包括人脸形状和albedomap；

所述第二信息提取分支中，TrackNet由一个卷积编码器和多个全连接层组成，S3中得到的人脸关键点信息通过TrackNet回归得到包括表情、光照参数和姿态在内的面部细节信息。

作为上述第一方面的优选，所述S5中，S4中输出的三维表情人脸建模结果中，人脸表情中的眼睛位置和注视方向需要根据S1中保存的眼球眼动数据进行调整，使建模结果中的眼球眼动与XR设备获取到的眼球眼动数据一致。

作为上述第一方面的优选，所述S6中，S5中经过数据融合后的三维表情人脸建模结果需要预先经过旋转、缩放和裁剪操作，使其与直播画面中佩戴XR设备的主播人脸姿态相匹配，然后再执行替换操作。

第二方面，本发明提供了一种直播场景下基于XR设备的三维表情人脸还原***，其包括：

数据获取模块，用于在目标人员佩戴XR设备进行直播的过程中，实时获取直播画面中的主播人脸画面，同步通过XR设备扫描获取目标人员的人脸照片并对人脸照片进行图像预处理，同时保存XR设备获取到的目标人员的眼球眼动数据；

人脸检测模块，用于对数据获取模块中预处理后的人脸照片进行人脸检测，若检测到人脸，则记录人脸位置信息；

关键点提取模块，用于根据人脸检测模块中记录的人脸位置信息，将人脸图像输入到人脸特征点提取模型中，从中提取所有人脸关键点信息；

人脸建模模块，用于将关键点提取模块中得到的人脸关键点信息输入包含两个信息提取分支的双线性三维表情人脸重建网络中，其中第一信息提取分支由FaceNet从输入的人脸关键点信息中提取面部轮廓信息，而第二信息提取分支由TrackNe从输入的人脸关键点信息中提取面部细节信息，两个信息提取分支各自提取的信息通过融合后作为三维表情人脸建模结果；

数据融合模块，用于将数据获取模块中保存的眼球眼动数据融合至人脸建模模块中输出的三维表情人脸建模结果中，使建模得到的人脸表情中的眼睛位置和注视方向与所述眼球眼动数据对齐；

人脸替换模块，用于将数据融合模块中经过数据融合后的三维表情人脸建模结果匹配至所述直播画面中的主播人脸画面上，实时替换直播画面中佩戴XR设备的主播人脸，得到实时还原人脸表情和眼神的直播画面。

第三方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上述第一方面任一方案所述的直播场景下基于XR设备的三维表情人脸还原方法。

第四方面，本发明提供了一种计算机电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如上述第一方面任一方案所述的直播场景下基于XR设备的三维表情人脸还原方法。

本发明相对于现有技术而言，具有以下有益效果：

1)本发明所提出的基于XR设备的直播场景下图像二次传播的实时三维表情人脸还原方法，是一种可运行在XR设备中的低性能要求、轻量级、高效率性的移动端适用方法。本发明在人脸检测部分，使用轻量级的CenterFace检测模型，在保证了准确率的同时大幅地提高了检测效率，其检测速率可达227FPS，而模型大小仅7.3MB。后续的三维表情人脸建模网络，采用端到端的结构进行设计，结构简介，具有效率高、性能强的优点。

2)本发明所提出的基于XR设备的直播场景下图像二次传播的实时三维表情人脸还原方法，可以很好地应对多种复杂的外部环境，具有较强的鲁棒性。本发明的BCNN-3DFace网络采用双线性网络结构，使用FaceNet网络分支识别人脸的轮廓信息，TrackNet识别人脸的表情、光线等细节信息，不仅能对3D人脸进行建模，并且能够准确地获取到相关的光照、头部旋转、面部皱纹等其他丰富的细节信息，具有较强的鲁棒性。

3)本发明所提出的基于XR设备的直播场景下图像二次传播的实时三维表情人脸还原方法，能够精细地还原主播的面部细节甚至是眼球的眼动变化，并将主播人脸表情还原结果在直播场景图像二次传播过程中实时进行人脸内容的替换，实现对XR设备的隐藏，为观众呈现更好的直播画面。

附图说明

图1为本发明中直播场景下基于XR设备的三维表情人脸还原方法的流程图。

图2为人脸检测模型CenterFace网络结构图。

图3为双线性三维表情人脸重建网络BCNN-3DFace网络结构图。

图4为本发明中直播场景下基于XR设备的三维表情人脸还原***的模块示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

本发明的构思是设计一种基于XR设备的直播场景下图像二次传播的实时三维表情人脸还原方法，该方法在直播场景下，使用XR设备扫描获得人脸头像数据，其中包括眼睛的眼动信息，将人脸头像数据通过人脸检测方法定位精确的人脸区域，然后使用人脸特征点提取模型提取人脸中关键点的信息，并将关键点信息输入到轻量级的三维人脸表情合成网络中实时还原高保真的3D人脸建模结果，并将眼动信息与3D人脸建模结果进行深度融合，实现人脸眼神的高度还原。由此，在图像二次传播时可以实时展示具有逼真的、无XR设备遮挡的3D人脸表情和眼神效果。下面通过实施例来展示本发明上述方法的具体实现方式。

在本发明的一个较佳实施例中，提供了一种直播场景下基于XR设备的三维表情人脸还原方法，该方法包括以下步骤：

步骤一：在目标人员佩戴XR设备进行直播的过程中，实时获取直播画面中的主播人脸画面，同步通过XR设备扫描获取目标人员的人脸照片并对人脸照片进行图像预处理，同时保存XR设备获取到的目标人员的眼球眼动数据。

在本发明的实施例中，使用XR设备扫描佩戴者的人脸，获取实时的二维人脸照片后，可对获取的照片分别进行裁剪和中值滤波处理，使其满足后续图像处理的要求。裁剪和中值滤波处理的具体操作如下：

裁剪操作：将扫描到的图像统一经过裁剪操作，图片尺寸统一变换为224×224大小。

中值滤波处理：对裁剪得到的图片进行中值滤波操作，在保证不破坏图像的轮廓及边缘信息和前提下，消除图像数字化时所混入的噪声，适应图像处理的要求。

另外，在获取主播人脸画面的同时，还需要同步保存XR设备识别到的眼球眼动数据，为后续眼球眼神数据的融合做准备。

步骤二：对上述步骤一中预处理后的人脸照片通过人脸检测模型CenterNet进行人脸检测，若检测到人脸，则记录人脸位置信息，以便于进行后续的关键点检测。

需要说明的是，对步骤一中得到的人脸照片通过人脸检测模型进行人脸检测时，需要获取人脸的具***置区域信息，但是实际应用中可能存在无法检测到人脸的情况，因此当检测到人脸时才继续步骤三的操作，否则返回步骤一，继续进行人脸照片的扫描。

本发明的实施例中使用的人脸检测模型为轻量级的CenterFace模型，模型结构图如图2所示。CenterFace是基于CenterNet的一种Anchor-free人脸检测模型，模型构造比较简单，基础网络结构包括：骨干网络backbone、特征金字塔网络FPN和输出头head。下面对CenterFace的这三个网络结构部分进行简单介绍：

backbone：CenterFace网络采用了MobileNet-v2作为backbone，与其他的轻量级网络相比，MobileNet-v2在多个任务上都达到了最先进的水平。

FPN：CenterFace网络使用特征金字塔结构，将经过MobileNet-v2网络的多个卷积层和池化层得到的低分辨率的特征图通过一组特征融合层进行特征融合，得到具有高语义级别和高分辨率的特征表示。

head：FPN融合得到的特征表示需要输入head中，而CenterFace网络中的head由四个部分组成，分别为人脸的中心点位置、偏置、置信度和人脸关键点，将四个部分进行组合即可表示一个完整的人脸位置信息。根据人脸位置信息，后续可以从人脸照片中提取人脸区域图像。

步骤三：根据上述步骤二中记录的人脸位置信息，将人脸区域图像输入到人脸特征点提取模型中，从中提取所有人脸关键点信息。

本发明的实施例中执行人脸特征点提取使用的人脸特征点提取模型为ERT(Ensemble of Regression Tree，ERT)算法，该算法的流程包括特征提取和关键点定位两步，具体如下：

特征提取：将步骤二检测到的人脸区域图像输入到ERT算法中，ERT算法对人脸区域提取HOG特征，并利用训练好的回归树模型，对人脸关键点的坐标进行回归，得到每个关键点的位置信息。本实施例中对每个人脸可获取68个关键点。

关键点定位：根据回归得到的关键点位置信息，对原始图像上的人脸进行关键点定位，并返回每个关键点的坐标，从而提取得到原始图像上所有人脸关键点信息。

步骤四：将上述步骤中得到的人脸关键点信息输入到包含两个信息提取分支的双线性三维表情人脸重建网络中，其中第一信息提取分支由FaceNet从输入的人脸关键点信息中提取面部轮廓信息，而第二信息提取分支由TrackNe从输入的人脸关键点信息中提取面部细节信息，两个信息提取分支各自提取的信息通过融合后作为三维表情人脸建模结果。

本发明提出的上述双线性三维表情人脸重建网络，是一种基于人脸特征点的双线性三维表情人脸重建网络——BCNN-3DFace(Bilinear CNN for 3D Face)。如图3所示，该BCNN-3DFace使用双线性网络结构，分别为FaceNet和TrackNet两个信息提取分支。两个信息提取分支均以步骤三得到的人脸关键点信息作为输入，FaceNet负责学习捕捉面部轮廓相关的细节，包括人脸形状、albedo map信息等；TrackNet负责学习与面部细节的其他信息，如表情、光照参数、姿态等信息。下面分别对两个信息提取分支的具体数据处理过程进行介绍：

基于FaceNet的第一信息提取分支：第一信息提取分支使用ResNet-50作为主干网络，并对ResNet-50进行了改进：首先将ResNet-50输出的特征向量输入到残差块中生成512维的特征向量，该残差块中的具体做法如下：将ResNet-50输出的特征向量先进行一次3×3的卷积和ReLU激活函数，然后再次做相同的3×3卷积和ReLU激活函数从而得到一个512维向量(记为第一512维向量)，另外将ResNet-50输出的特征向量进行1×1卷积，并将通道维数将至512维，从而得到另一个512维向量(记为第二512维向量)；再将上述两个512维的向量即第一512维向量和第二512维向量相加，相加结果构成残差块最终输出的512维特征向量。残差块生成的512维特征向量通过全连接层输出3DMM参数，包括包括人脸形状和albedomap等。

基于TrackNet的第二信息提取分支：该分支中TrackNet由一个卷积编码器和多个全连接层组成，从输入信息中回归一个细节信息系数P：

P＝(W,R,t,γ)

其中，W是表情系数向量，R和t分别是头部旋转和平移，是27个表示周围环境光信息的球谐系数(Spherical Harmonics)。

最后，BCNN-3Dface的两个信息提取分支需要将各自提取的结果进行融合，即将通过FaceNet得到面部轮廓信息和通过TrackNet得到的面部细节信息进行相加，得到最终的高保真三维表情人脸建模结果。

步骤五：将步骤一中保存的眼球眼动数据融合至步骤四中输出的三维表情人脸建模结果中，使建模得到的人脸表情中的眼睛位置和注视方向与所述眼球眼动数据对齐，实现人脸表情和眼神的深度还原。

在本发明的实施例中，由于步骤四输出的三维表情人脸建模结果中眼部的位置和注视方向无法实时变化，因此可使用步骤一暂存的眼球眼神数据，针对步骤四得到的人脸表情建模结果进行眼部数据的调整，即对人脸表情建模结果的人脸表情中的眼睛位置和注视方向按照XR设备获取后暂存的眼球眼动数据进行调整，使建模结果中的眼球眼动与XR设备获取到的眼球眼动数据一致，使建模出的人脸表情中的眼睛具有眼球位置和注视方向上的变化，从而得到更逼真的人脸表情合成效果。

步骤六：使用XR设备进行虚拟/增强/混合现实现场直播时，将步骤中经过数据融合后的三维表情人脸建模结果匹配至直播画面中的主播人脸画面上，实时替换直播画面中佩戴XR设备的主播人脸，得到实时还原人脸表情和眼神的直播画面，从而实现直播画面中XR设备的消除。

在本发明的实施例中，为了保证人脸替换后的图像效果，将步骤五得到的三维表情人脸建模结果，通过适当地旋转、缩放、裁剪等操作，使其与直播画面中佩戴XR设备的主播人脸姿态相匹配，再实时地与直播画面中主播的人脸画面进行替换，从而达到隐去主播的头戴XR设备，消除了XR设备对主播人脸的遮挡，并且通过对主播人脸表情的实时还原，能够直观地看到主播表情细节和眼睛注视方向上的变化，得到更好的直播效果。

相关试验结果表明，上述S1～S6所示的人脸还原方法，具有较高的检测准确性、鲁棒性和实时性。具体而言，本发明在人脸检测部分，使用轻量级的CenterFace检测模型，在保证了准确率的同时大幅地提高了检测效率，其检测速率可达227FPS，而模型大小仅7.3MB。后续的三维表情人脸建模网络，采用端到端的结构进行设计，结构简介，具有效率高、性能强的优点。本发明的还原方法可以很好地应对多种复杂的外部环境，具有较强的鲁棒性。特别是本发明的BCNN-3DFace网络采用双线性网络结构，使用FaceNet网络分支识别人脸的轮廓信息，TrackNet识别人脸的表情、光线等细节信息，不仅能对3D人脸进行建模，并且能够准确地获取到相关的光照、头部旋转、面部皱纹等其他丰富的细节信息，具有较强的鲁棒性。最后该方法能够精细地还原主播的面部细节甚至是眼球的眼动变化，并将主播人脸表情还原结果在直播场景图像二次传播过程中实时进行人脸内容的替换，实现对XR设备的隐藏，为观众呈现更好的直播画面。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的直播场景下基于XR设备的三维表情人脸还原方法对应的一种直播场景下基于XR设备的三维表情人脸还原***，如图4所示，其包括：

具体而言，在上述直播场景下基于XR设备的三维表情人脸还原***中，各模块与前述的S1～S6是一一对应的，因此各模块中的具体实现方式亦可参见上述S1～S6。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的直播场景下基于XR设备的三维表情人脸还原方法对应的一种电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如前所述的直播场景下基于XR设备的三维表情人脸还原方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

由此，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的直播场景下基于XR设备的三维表情人脸还原方法对应的一种计算机可读存储介质，该所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如前所述的直播场景下基于XR设备的三维表情人脸还原方法。

具体而言，在上述两个实施例的计算机可读存储介质中，存储的计算机程序被处理器执行，可执行前述S1～S6的步骤。

可以理解的是，上述存储介质可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可以理解的是，上述的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

另外需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的各实施例中，所述的***和方法中对于步骤或者模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或步骤可以结合或者可以集成到一起，一个模块或者步骤亦可进行拆分。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种直播场景下基于XR设备的三维表情人脸还原方法，其特征在于，包括：

2.如权利要求1所述的直播场景下基于XR设备的三维表情人脸还原方法，其特征在于，所述S1中，对人脸照片进行的所述图像预处理包括裁剪操作和中值滤波操作。

3.如权利要求1所述的直播场景下基于XR设备的三维表情人脸还原方法，其特征在于，所述S2中，进行人脸检测的方法为将S1中预处理后的人脸照片输入CenterFace模型中，由CenterFace模型输出人脸检测结果；所述CenterFace模型包括骨干网络、特征金字塔网络和输出头，输入的人脸照片经过MobileNet-v2骨干网络进行特征提取，再由特征金字塔网络将MobileNet-v2骨干网络中提取的多层级特征图进行特征融合，得到的融合后的特征表示送入输出头中，预测得到包括人脸中心点位置、偏置、置信度和人脸关键点的完整人脸位置信息。

4.如权利要求1所述的直播场景下基于XR设备的三维表情人脸还原方法，其特征在于，所述S3中，人脸特征点提取模型采用ERT算法实现，S2中得到的人脸区域图像输入ERT算法中，由ERT算法对人脸区域提取HOG特征，并利用训练好的回归树模型对人脸关键点的坐标进行回归，得到每个关键点的位置信息，再根据回归得到的关键点位置信息，对原始图像上的人脸进行关键点定位，并得到每个关键点的坐标。

5.如权利要求1所述的直播场景下基于XR设备的三维表情人脸还原方法，其特征在于，所述S4中，双线性三维表情人脸重建网络的两个信息提取分支具体如下：

所述第一信息提取分支中，先利用ResNet-50作为主干网络对S3中得到的人脸关键点信息进行特征提取，ResNet-50输出的特征向量再输入到残差块中生成512维特征向量；所述残差块中，输入残差块的特征向量一方面连续经过两层3×3的卷积和ReLU激活函数得到第一512维向量，另一方面经过1×1卷积并将通道维数降至512维得到第二512维向量，第一512维向量和第二512维向量相加后作为残差块最终输出的512维特征向量；残差块生成的512维特征向量通过全连接层输出3DMM参数，其中输出信息包括人脸形状和albedo map；

6.如权利要求1所述的直播场景下基于XR设备的三维表情人脸还原方法，其特征在于，所述S5中，S4中输出的三维表情人脸建模结果中，人脸表情中的眼睛位置和注视方向需要根据S1中保存的眼球眼动数据进行调整，使建模结果中的眼球眼动与XR设备获取到的眼球眼动数据一致。

7.如权利要求1所述的直播场景下基于XR设备的三维表情人脸还原方法，其特征在于，所述S6中，S5中经过数据融合后的三维表情人脸建模结果需要预先经过旋转、缩放和裁剪操作，使其与直播画面中佩戴XR设备的主播人脸姿态相匹配，然后再执行替换操作。

8.一种直播场景下基于XR设备的三维表情人脸还原***，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1～7任一所述的直播场景下基于XR设备的三维表情人脸还原方法。

10.一种计算机电子设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1～7任一所述的直播场景下基于XR设备的三维表情人脸还原方法。