CN116016837A

CN116016837A - 一种沉浸式虚拟网络会议方法和装置

Info

Publication number: CN116016837A
Application number: CN202211592781.9A
Authority: CN
Inventors: 徐爱波; 肖泳; 张玉泉; 高雅玙; 李莹玉; 李海涛; 胡记伟; 张鹏
Original assignee: China University of Geosciences; Huazhong University of Science and Technology; Wuhan Fiberhome Technical Services Co Ltd
Current assignee: China University of Geosciences; Huazhong University of Science and Technology; Wuhan Fiberhome Technical Services Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-25

Abstract

本发明涉及计算机技术领域，提供了一种沉浸式虚拟网络会议方法和装置。其中所述方法包括：使用摄像头采集用户头像照片，建模生成与用户头像对应的虚拟人物模型；使用摄像头对用户进行动作图像捕捉，根据动作图像，分析得到用户的动作捕捉数据；使用摄像头对用户进行面部表情捕捉，根据表情图像，分析得到用户的面部捕捉数据；根据动作捕捉数据和面部捕捉数据，使用虚拟引擎驱动虚拟人物模型，实现与用户动作同步和表情同步的虚拟人形象。本发明通过建模得到接近于用户的高保真的虚拟人物模型，再驱动该虚拟人物模型，以构建网络会议，使参会用户在会议中以接近于现实人物的形象出现，从而营造出会议的真实感，增强用户的沉浸感。

Description

一种沉浸式虚拟网络会议方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种沉浸式虚拟网络会议方法和装置。

背景技术

随着“互联网+”的普及应用，越来越多的用户利用互联网的环境和视频会议***来进行远程协同会议，然而传统的线上视频会议形式难以达到与线下会议同样的语言传达效果。随着“元宇宙”的热潮和相关技术的成熟，很多研究者和科技公司开始研发虚拟会议***来解决这一痛点。但现有技术中虚拟会议的人物模型通常以卡通形象为主，无法与现实世界的人物有高度的相似度，并且里面的会议场景也是一个卡通化的场景，无法给人一种沉浸式的会议体验，也无法应用在严肃场景。

鉴于此，克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

发明内容

本发明要解决的技术问题是现有技术中虚拟会议的人物模型通常以卡通形象为主，无法与现实世界的人物有高度的相似度，并且里面的会议场景也是一个卡通化的场景，无法给人一种沉浸式的会议体验，也无法应用在严肃场景。

本发明采用如下技术方案：

第一方面，本发明提供了一种沉浸式虚拟网络会议方法，包括：

通过OpenCV调用摄像头，使用摄像头采集用户头像照片，根据所述用户头像照片，建模生成与用户头像对应的虚拟人物模型；

使用摄像头对用户进行动作图像捕捉，得到用户的动作图像；根据所述动作图像，分析得到用户的动作捕捉数据；

使用摄像头对用户进行面部表情捕捉，得到用户的表情图像；根据所述表情图像，分析得到用户的面部捕捉数据；

根据所述动作捕捉数据和面部捕捉数据，使用虚拟引擎驱动所述虚拟人物模型，实现与用户动作同步和表情同步的虚拟人形象，以便于根据各用户的虚拟人形象，搭建虚拟网络会议场景。

优选的，所述根据所述用户头像照片，建模生成与用户头像对应的虚拟人物模型，具体包括：

使用人脸分类器，根据第一用户头像照片生成第一用户的第一人脸数据；

使用人脸识别器，将所述第一人脸数据与数据库中的人脸数据进行比对，找到与所述第一人脸数据比对所得置信评分最低的目标人脸数据；

判断所述目标人脸数据的置信评分是否高于预设阈值，若高于预设阈值，则将所述第一人脸数据与第一用户的用户信息存储至所述数据库中，使用所述第一人脸数据建模生成与第一用户人脸对应的虚拟人物模型；

若所述目标人脸数据的置信评分不高于预设阈值，则所述目标人脸数据与所述第一人脸数据同属于第一用户，所述目标人脸数据对应的虚拟人物模型即为第一用户人脸对应的虚拟人物模型。

优选的，所述动作捕捉数据包括用户的关键骨骼关节点的空间点坐标、关键骨骼关节点的位移信息以及关键骨骼关节点的旋转角度信息。

优选的，所述面部捕捉数据包括用户的眉部形变信息、眼部形变信息、嘴部形变信息以及用户的头部旋转信息。

优选的，所述以便于根据各用户的虚拟人形象，搭建虚拟网络会议场景，具体包括：

根据参会的用户人数，搭建会议室场景；

根据用户所选定的座位号，将用户的虚拟人形象映射至对应座位坐标，以搭建虚拟网络会议场景。

优选的，当第一用户入会时，将第一用户的虚拟人物模型发送至参会的其他用户的本地终端，并获取参会的其他用户的虚拟人物模型至所述第一用户的本地终端，以进行各用户虚拟人物模型的本地同步；

在会议进行中，在网络中传输各用户的动作捕捉数据和面部捕捉数据，在用户的本地终端使用相应用户的动作捕捉数据和面部捕捉数据驱动对应虚拟人物模型，实现参会中各用户虚拟人形象的动作同步和表情同步。

优选的，所述在网络中传输各用户的动作捕捉数据和面部捕捉数据，具体包括：

在分析得到的多个动作捕捉数据和多个面部捕捉数据中，识别关键帧动作捕捉数据和关键帧面部捕捉数据，在网络中传输关键帧动作捕捉数据和关键帧面部捕捉数据。

优选的，所述在用户的本地终端使用相应用户的动作捕捉数据和面部捕捉数据驱动对应虚拟人物模型，具体包括：

在每两个关键帧动作捕捉数据中，生成中间帧动作捕捉数据，并将所述中间帧动作捕捉数据***至对应两个关键帧动作捕捉数据之间，用于共同驱动对应虚拟人模型；

在每两个关键帧面部捕捉数据中，生成中间帧面部捕捉数据，并将所述中间帧面部捕捉数据***至对应两个关键帧面部捕捉数据之间，用于共同驱动对应虚拟人模型，以使虚拟人形象流畅连贯。

优选的，所述方法还包括：

根据用户本地终端的音频采集和用户对会议UI界面的操作，判断用户所处的状态；

各用户本地终端的摄像头状态与用户所处的状态一一对应，当第一用户处于发言状态时，第一用户本地终端的摄像头对用户进行动作图像捕捉和面部表情捕捉，以便于采集分析得到第一用户的动作捕捉数据和用户的面部捕捉数据，使用所述动作捕捉数据和第一用户的面部捕捉数据驱动对应的虚拟人物模型；

当第一用户不处于发言状态时，第一用户本地终端的摄像头进入休眠状态，在其他用户的本地终端使用第一用户的默认虚拟人物形象进行显示。

第二方面，本发明还提供了一种沉浸式虚拟网络会议装置，用于实现第一方面所述的沉浸式虚拟网络会议方法，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行第一方面所述的沉浸式虚拟网络会议方法。

第三方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的沉浸式虚拟网络会议方法。

本发明通过使用摄像头采集用户图像，根据用户图像进行建模，从而得到接近于用户的高保真的虚拟人物模型，再驱动该虚拟人物模型，以构建网络会议，使参会用户在会议中以接近于现实人物的形象出现，从而营造出会议的真实感，增强用户的沉浸感。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种沉浸式虚拟网络会议方法的流程示意图；

图2是本发明实施例提供的一种沉浸式虚拟网络会议方法的流程示意图；

图3是本发明实施例提供的一种沉浸式虚拟网络会议方法的流程示意图；

图4是本发明实施例提供的一种沉浸式虚拟网络会议方法的流程示意图；

图5是本发明实施例提供的一种沉浸式虚拟网络会议***的架构示意图；

图6是本发明实施例提供的一种沉浸式虚拟网络会议方法的架构示意图；

图7是本发明实施例提供的一种沉浸式虚拟网络会议***中生成虚拟人形象的流程示意图；

图8是本发明实施例提供的一种沉浸式虚拟网络会议装置的架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1:

现有技术中虚拟会议的人物模型通常以卡通形象为主，无法与现实世界的人物有高度的相似度，并且里面的会议场景也是一个卡通化的场景，无法给人一种沉浸式的会议体验，也无法应用在严肃场景。为了解决此问题，本发明实施例1提供了一种沉浸式虚拟网络会议方法，如图1所示，包括：

在步骤201中，通过OpenCV调用摄像头，使用摄像头采集用户头像照片，根据所述用户头像照片，建模生成与用户头像对应的虚拟人物模型。

在具体实现中，通过python脚本调用相应OpenCV库实现摄像头的调用，从摄像头采集的画面中截取一帧画面保存为临时照片，即为用户头像照片。将拍摄的用户头像照片，导入至人物建模软件CharacterCreator3中，并应用其智能建模插件Headshot来建模生成与用户人脸对应的高保真的虚拟人物模型。Headshot插件基于人工智能技术，可以做到用一张照片生成3D实时数字人。所生成的虚拟人物模型被导入至虚幻引擎UE4中，以便于后续的动作同步和表情同步。

在步骤202中，使用摄像头对用户进行动作图像捕捉，得到用户的动作图像；根据所述动作图像，分析得到用户的动作捕捉数据。

在步骤203中，使用摄像头对用户进行面部表情捕捉，得到用户的表情图像；根据所述表情图像，分析得到用户的面部捕捉数据。

其中，所述动作捕捉主要使用ThreeDPoseTracker软件，面部捕捉主要使用FacewareStudio软件，两款软件分别通过各自连接的普通单目摄像头采集用户的肢体和人脸数据(及进行动作图像捕捉和面部表情捕捉)，计算输出相应的动作捕捉数据和面部捕捉数据，并通过相应的插件与通信协议，传输到虚拟引擎UE4。

所述动作捕捉数据包括用户的关键骨骼关节点的空间点坐标、关键骨骼关节点的位移信息以及关键骨骼关节点的旋转角度信息。

具体的，所述关键骨骼关节点的空间点坐标还被称作人物骨骼的基本骨骼关节点信息(Skeleton)，所述关键骨骼关节点的位移信息以及关键骨骼关节点的旋转角度信息还被合称为骨骼控制信息(BoneControls)，每一帧动作捕捉数据(即一个MopActor)包含15个关键骨骼的基本骨骼关节点信息和骨骼控制信息，这15个关键骨骼包括盆骨、大小臂和大小腿等。每一个完整的MopActor对应了虚拟人物骨骼的一帧状态，通过这些关键骨骼的信息，虚拟人物就有一个对应的姿势，通过传输大量的捕捉数据，即可实现虚拟人物姿势的转换。

所述动作捕捉数据可导出为VMC格式(Virtual Motion Capture Protocol，虚拟动作捕捉协议)，之后使用数据转换软件VMCtoMOP，将VMC格式的动作捕捉数据转换为能被UE4识别的MOP格式，通过虚幻引擎UE4中提前安装好的MOP接收蓝图插件进行接收动捕数据，传输协议是通过OpenSoundControl协议,简称OSC协议进行实现的，需要配置好传输的目的主机IP和端口号，并在UE4端，即接收端配置同样的端口号，达到通过普通摄像头就能采集用户的肢体数据并传输到虚幻引擎的功能效果。

所述面部捕捉数据包括用户的眉部形变信息、眼部形变信息、嘴部形变信息以及用户的头部旋转信息。

具体的，所述面部捕捉数据具体为人脸的48个脸部混合形变(BlendShape)，包括眉毛部位的6个混合形变(即所述眉部形变信息)、眼睛部位的8个混合形变(即所述眼部形变信息)和嘴巴部位的26个混合形变(即所述嘴部形变信息)，此外还有8个头部旋转值(即所述头部旋转信息)。所述头部旋转信息可通过上述动作图像捕捉分析得到。捕捉到的大量面部捕捉数据通过UE4的官方插件LiveLink进行连接，传输协议本质上是TCP协议，只需要在数据的发送端(即面部捕捉数据的采集端，在此为用户的本地终端)确定发送端口，在接收端的UE4上确定发送端的IP和端口号即可建立连接开始传输，达到通过普通摄像头采集用户的面部数据的功能效果。

在步骤204中，根据所述动作捕捉数据和面部捕捉数据，使用虚拟引擎驱动所述虚拟人物模型，实现与用户动作同步和表情同步的虚拟人形象，以便于根据各用户的虚拟人形象，搭建虚拟网络会议场景。

面部捕捉数据通过UE4官方插件LiveLink进行接收，接收到的数据通过一个拆分节点获取需要的脸部混合形变BlendShape，之后又因为所用的捕捉软件的BlendShape命名方式和虚幻引擎有所不同，因此需要再通过重映射节点转换为能被UE4识别的BlendShape名称，以赋值到虚拟人脸部对应的部位，驱动虚拟人形象进行表情同步；MOP格式的动作捕捉数据通过OSC协议接收，在虚幻引擎中构建相关的OSC数据接收蓝图，实现将现实人物各个骨骼的信息赋值到对应虚拟人骨架位置，之后通过UE4官方插件提供的Control Rig节点进行骨骼绑定控制驱动虚拟人身体与现实人物同步，即进行用户的动作同步。

所述虚拟人物模型可理解为用于构建虚拟人形象的基础模型，所述虚拟人形象可理解为跟随用户动作和表情变化的动态人物图像。

本实施例通过使用摄像头采集用户图像，根据用户图像进行建模，从而得到接近于用户的高保真的虚拟人物模型，再驱动该虚拟人物模型，以构建网络会议，使参会用户在会议中以接近于现实人物的形象出现，从而营造出会议的真实感，增强用户的沉浸感。

在实际使用中，建模生成虚拟人物模型相对耗费时间较长，为了提高入会效率，节省用户入会所花费的时间，本实施例还提供了以下优选的实施方式，即所述根据所述用户头像照片，建模生成与用户头像对应的虚拟人物模型，如图2所示，具体包括：

在步骤301中，使用人脸分类器，根据第一用户头像照片生成第一用户的第一人脸数据。

其中，所述人脸分类器为OpenCV提供的haar人脸分类器，所述haar人脸分类器根据第一用的头像照片，生成用户的人脸矩形数组，即为所述第一人脸数据。

在步骤302中，使用人脸识别器，将所述第一人脸数据与数据库中的人脸数据进行比对，找到与所述第一人脸数据比对所得置信评分最低的目标人脸数据。

具体的：所述人脸识别器为LBPH人脸识别器，项所述LBPH人脸识别器中载入人脸数据库的训练结果。通过LBPH人脸识别器将矩形数组数据与数据库中的人脸数据进行比对，挑选出置信评分最低的，也就是最像的那一张照片。

在步骤303中，判断所述目标人脸数据的置信评分是否高于预设阈值，若高于预设阈值，则将所述第一人脸数据与第一用户的用户信息存储至所述数据库中，使用所述第一人脸数据建模生成与第一用户人脸对应的虚拟人物模型。

具体的：若所述置信评分高于预设阈值，则说明所述目标人脸数据并非所述第一用户的人脸数据，即数据库中不存在与第一用户匹配的人脸数据。则在UI界面显示用户名为unknown，并提示该用户输入用户名，保存第一人脸数据到数据库，命名为当前人脸数据库照片序号+用户名。

在步骤304中，若所述目标人脸数据的置信评分不高于预设阈值，则所述目标人脸数据与所述第一人脸数据同属于第一用户，所述目标人脸数据对应的虚拟人物模型即为第一用户人脸对应的虚拟人物模型。所述目标用户的虚拟人物模型同样存储在数据库中。

若所述置信评分不高于阈值，则说明目标人脸数据与所述第一用户相匹配，是第一用户的人脸数据，即数据库中存在第一用户的人脸数据，则将所述第一人脸数据追加存储至数据库中，具体的，读取人脸照片名称中的用户名并显示，保存该第一人脸数据到人脸数据库，同样命名为当前人脸数据库照片序号+用户名，使用当前的数据库通过训练识别器进行训练，并保存训练结果，以用于下一次的用户人脸识别。

在此需要说明的是，所述第一用户并不带便某一特定的用户，而是为了在参会的多个用户之间进行区分，以参会的每个用户分别作为切入视角，将视角对应用户称作第一用户，如参会的有三个用户，包括用户1、用户2和用户3，当以用户1为切入视角，用户1的本地终端为执行主体时，则用户1为第一用户，用户2和用户3为其他用户。

在实际使用中，还可对用户的虚拟人形象进行调整，具体包括：

采集得到的用户头像照片，生成其高保真的虚拟人物模型置入虚幻引擎UE中，该步骤通过建模软件CharacterCreator3和其对应的官方插件Headshot进行实现，Headshot插件基于人工智能技术，可以做到用一张照片生成3D实时数字人。除了实现智能的贴图混合与头部模型建构外，生成的数字替身(即虚拟人形象)已经过完全绑定(包括骨骼与脸部形变)，可用于嘴型同步、脸部表情及全身动画，之后通过AutoHotKey脚本模拟键鼠操作，完成给虚拟人穿相应服装的操作；若用户想要更高质量的模型，则可以实现手动微调各种细节，定制各种服装、配饰及头发，实现极高保真度的数字人，数字人模型导出为fbx模型文件，导出的fbx模型通过Auto Setup for Unreal Engine插件导入到虚幻引擎UE4中，该插件能给虚拟人模型赋予相应的材质、骨骼(Skeleton)和脸部混合形变(BlendShape)，其中骨骼是虚拟人肢体能动起来的基础，脸部混合形变是虚拟人拥有丰富的脸部表情的基础。

为了给用户提供更为沉浸式的会议体验，还存在以下可选的实施方式，即所述以便于根据各用户的虚拟人形象，搭建虚拟网络会议场景，具体包括：

根据参会的用户人数，搭建会议室场景。

其中，所述会议室场景为UE4社区找的现有的高保真会议室环境，包括基础的会议桌椅和其他相关环境资产，根据参会的用户人数，确定会议室环境中的座椅数量，如当有4人参会时，提前记录好的四个座位的坐标(包括三维的位置坐标和三维的旋转坐标)，然后根据用户选择的座位号，读取已有的人物模型，将人物模型置入会议场景中会议室的椅子上，具体通过给Spawn Actor from Object节点传入对应的座位坐标实现。

在实际使用中，为了确保会议的实时性，各用户之间需实时传输各用户的虚拟人形象，虚拟人形象通常以各帧图像的形式组合形成，其体积相对较大，直接传输时对网络带宽有较高的要求，当网络带宽不充足，或网络较拥塞时，极可能导致会议的卡顿，影响用户的会议进程，为了解决此问题，本实施例提供了以下优选的实施方式，如图3所示，具体包括：

在步骤401中，当第一用户入会时，将第一用户的虚拟人物模型发送至参会的其他用户的本地终端，并获取参会的其他用户的虚拟人物模型至所述第一用户的本地终端，以进行各用户虚拟人物模型的本地同步。

在步骤402中，在会议进行中，在网络中传输各用户的动作捕捉数据和面部捕捉数据，在用户的本地终端使用相应用户的动作捕捉数据和面部捕捉数据驱动对应虚拟人物模型，实现参会中各用户虚拟人形象的动作同步和表情同步。

即在各用户的本地终端存储参会的所有用户的虚拟人物模型，在网络中仅传输参会用户的动作捕捉数据和面部捕捉数据。由于动作捕捉数据和面部捕捉数据仅仅是相应的坐标信息、旋转角度信息和形变信息，其数据大小相较虚拟人形象而言十分小，从而能够极大减少网络传输的数据量，加快会议所需数据的传输速度，且降低会议对网络带宽的要求。从而保证会议正常进行。

作为一种优选的实施方式，所述在网络中传输各用户的动作捕捉数据和面部捕捉数据，具体包括：

所述在用户的本地终端使用相应用户的动作捕捉数据和面部捕捉数据驱动对应虚拟人物模型，具体包括：

还存在更进一步的优选实施方式，如图4所示，即所述方法还包括：

在步骤501中，根据用户本地终端的音频采集和用户对会议UI界面的操作，判断用户所处的状态。

其中，当用户本地终端的麦克风采集到人声时，认为用户正在发言，或当用户点击举手时，认为用户将要发言，使摄像头开始工作。

当用户的本地终端进行会议静音时，认为用户不处于发言状态。摄像头进入休眠。

在步骤502中，各用户本地终端的摄像头状态与用户所处的状态一一对应，当第一用户处于发言状态时，第一用户本地终端的摄像头对用户进行动作图像捕捉和面部表情捕捉，以便于采集分析得到第一用户的动作捕捉数据和用户的面部捕捉数据，使用所述动作捕捉数据和第一用户的面部捕捉数据驱动对应的虚拟人物模型。

在步骤503中，当第一用户不处于发言状态时，第一用户本地终端的摄像头进入休眠状态，在其他用户的本地终端使用第一用户的默认虚拟人物形象进行显示。其中，所述默认虚拟人物形象在第一用户入会时得到，并在入会时将驱动得到默认虚拟人物形象的动作捕捉数据和面部捕捉数据传输给其他用户，并由其他用户存储于本地，后续无需再度进行传输。

当摄像头休眠时，不采集第一用户的动作捕捉数据和面部捕捉数据，网络上也不传输第一用户的这些数据，从而能够进一步减少网络传输数据量，保证会议正常进行。且在通常情况下，正在发言的用户通常为参会人员所需关注的用户，如主持人等，而对不发言用户的关注较少，由于在各用户终端所显示的为为不发言用户的默认虚拟人物形象，当不发言用户在实际参会中进行一些会议无关动作或表情时，如喝水等动作时，不显示给其他用户，而能够避免将与会议无关的信息代入会议场景，导致严肃的会议氛围被破坏，从而进一步增强会议的沉浸感。

在实际使用情况中，用户可能并非持续地关注会议，如当单次会议存在多个议题，但某一用户仅与其中的单个议题相关时，在这种情况下，用户通常会在入会后，不十分关注会议内容，而是进行其他作业，仅在会议到达与其相关的议题时，用户才会关注会议内容，结合此场景，为了进一步降低会议对网络的要求，本实施例还提出了以下优选的实施方式，具体包括：

使用摄像头定期采集用户的面部图像，根据用户的瞳孔图像和用户的头部图像，判断用户是否处于关注会议的状态。当用户瞳孔和用户面部正对网络会议的UI界面时，认为用户处于关注会议的状态。

当判断得到第一用户不关注会议时，在第一用户的本地终端请求会议数据时，即请求其他用户的动作捕捉数据和面部捕捉数据，以在第一用户的本地终端构建会议场景时，对请求的数据进行降帧处理后再进行网络传输，进一步降低网络中的传输数据量。

其中，所述对请求的数据进行降帧处理具体包括：在多帧动作捕捉数据和面部捕捉数据中，仅抽取用户动作或表情的关键帧所对应的数据进行网络传输。

在第一用户的本地终端，在按照降帧处理后的数据驱动虚拟人物模型时，根据各关键帧数据，生成并向其中添加对应的中间帧数据，以对数据进行加帧处理，使虚拟人形象流畅连贯。

对于每一位参会用户，在采集动作捕捉数据和面部捕捉数据时，判断各动作捕捉数据和面部捕捉数据为中间帧或关键帧，并对数据进行标记，以用于后续的网络传输。

所述判断各动作捕捉数据和面部捕捉数据为中间帧或关键帧具体为：根据第一数据前第一预设数量的第二数据和第一数据后第二预设数量的第三数据，判断第一数据是否为中间帧或关键帧。所述第一预设数量和第二预设数量由本领域技术人员根据会议的网络传输时效性需求和经验分析得到。

以动作捕捉数据中的单个关键骨骼的坐标位置为例，若第一预设数量为1，第二预设数量为1，第一数据中该关键骨骼的坐标点为(3，4)，第二数据中该关键骨骼的坐标点为(1，2)，第三数据中该关键骨骼的坐标点为(5，6)，可看出第一数据中该关键骨骼的坐标点可视作由第二数据坐标位置向第三数据的坐标位置过渡时所产生的数据，则认为第一数据为中间帧数据，若在第三数据后，还存在一条数据中的关键骨骼的坐标点为(2，3)，则第三数据为关键帧数据。

在实际实现中，当网络状况恶劣时，可对所有用户在网络中传输关键帧数据，在各用户本地终端生成中间帧数据，从而极大降低对网络带宽的要求。

在本实施例所述的方法中，各用户的本地终端可以多种形式存在，该本地终端包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放视频内容，一般也具备移动上网特性。该类设备包括：视频播放器，掌上游戏机，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有视频播放功能或连接互联网功能的电子设备。

实施例2:

在实施例1的一种沉浸式虚拟网络会议方法的基础上，本实施例还提供了一种沉浸式虚拟网络会议***，所述***用于执行实施例1中所述的方法。

所述***包括UI模块、核心功能模块和数据存储模块。在后续实施例中，所述UI模块也被称作用户界面。在***架构上，如图5所示，所述***被划分为用户界面层、核心功能层和数据存储层三层，***的整体工作流程如图6所示，其中，虚拟人形象的驱动流程如图7所示。

每层在***中执行各自的职能，三层之间职能分明，但层层之间又相互关联，形成最终的可展示***。

所述数据存储层，用于存放***需要保存的一些相关数据，与核心功能层进行交互，为核心功能层提供数据基础，包括构建的数字人模型数据、虚拟场景数据(包括虚拟场景本身以及其中的actor属性、蓝图等)以及用户人脸数据。

所述数字人模型数据由建模软件CharacterCreator3负责构建，通过导出为虚幻引擎能够识别的文件格式，并存放到指定文件夹下进行分类保存，数据包括最为核心的fbx人物模型文件和人物模型的材质数据。

所述虚拟场景数据可以通过虚幻引擎自带的环境搭建***进行构建，该***可以按照用户自己的想法进行高质量的创作，相关数据会自动存储到虚幻引擎的项目文件夹下，同样也可以通过寻找网上开源的环境资源素材，目前本发明***两种方式都有所采用，相关数据均由数据存储层保存在虚幻引擎的项目文件夹指定目录下，除了环境本身的一些模型数据，包括该环境内部添置的一些具有特殊功能的actor属性和相关蓝图数据均被保存下来，即达到的效果是用户在会议场景中做出的任何操作改动均被记录下来。

所述人脸数据主要保存***中已建模的用户人脸信息，便于人脸识别功能的正常工作，该部分数据通过Python脚本负责调用OpenCV库的相关操作进行实现。

核心功能层主要用于实现满足***需求的各项功能，即一个虚拟视频会议的场景，每个人在里面有自己的虚拟形象，虚拟形象能实现面部表情、肢体动作与现实中同步。包括人脸识别、智能建模、动作捕捉、面部捕捉和数字人驱动五大功能模块。

所述人脸识别功能模块，主要是通过OpenCV提供的相关接口调用摄像头拍摄用户的人脸照片，得到人脸数据，数据存储层会保存已建模的用户的人脸照片还有生成的一些人脸信息矩阵。再有用户到摄像头前进行人脸识别时，人脸识别模块会比对新用户的人脸信息与已存储的用户人脸数据，若比对后发现人脸数据库中有该用户的人脸信息，则会显示出该用户的用户名，并提示不需要执行后续的智能建模，若没有人脸信息，则执行智能建模。

所述智能建模功能模块通过人脸识别模块拍摄到的用户头像照片，生成其高保真的虚拟人物模型置入虚幻引擎UE4中，该模块通过建模软件CharacterCreator3和其对应的Headshot插件进行实现。

所述动作捕捉功能模块通过使用普通摄像头连接相动作捕捉软件ThreeDPoseTracker和其对应的传输插件进行实现，达到通过普通摄像头就能采集用户的肢体数据的功能效果。

所述面部捕捉功能模块通过摄像头连接面部捕捉软件Faceware Studio和虚幻引擎传输插件LiveLink插件实现，达到通过普通摄像头采集用户的面部数据的功能效果。

所述数字人驱动功能模块通过调用前述捕捉得到的各项数据，在UE4中通过构造相关蓝图***，实现数据驱动数字人的效果，以满足***的功能需求。

用户界面层提供***和用户进行各种功能上的交互的界面，通过集成各个模块形成的用户端界面。包括接口调用和实时交互两个部分。所述接口调用即用户可以通过一些简单的按钮，实现对***的控制，由虚幻引擎的用户界面***和相应的蓝图脚本进行实现；所述实时交互即用户在现实中改变肢体动作、面部表情，虚幻引擎中的数字人也会做出同步的变动。

所述接口调用主要包括人脸识别调用、导入模型调用、创建角色调用、自动落座调用与数字人一键配置，由虚幻引擎自带的用户界面***和相应的蓝图脚本进行实现，虚幻引擎用户界面***即控件蓝图***，可以在其中部署各种按钮、文本框、图片等小控件，并关联相应的蓝图***来实现需要的逻辑。通过提前写好调用其他相关软件的Python脚本或者蓝图，再通过UI界面布置的按钮来调用。所述人脸识别调用即通过按钮联动虚幻引擎蓝图，调用写好的Python人脸识别脚本；所述导入模型调用、创建角色调用、自动落座调用通过在虚幻引擎中创建一个名为角色生成器的编辑器工具，在其中布置导入模型、创建角色和自动落座的四个座位相关按钮，设置响应按钮的事件为之前提到的需求完成这部分的集成。导入模型按钮使用的是提前写好的Python脚本，该脚本通过调用UE4提供的Python模块unreal包里面的导入资产相关函数进行实现，达到虚幻引擎自动读取指定文件夹下的人物模型的效果；创建角色按钮通过虚幻引擎蓝图***，以新生成的虚拟人的骨架为基础，生成对应的能被驱动的Actor；自动落座按钮通过UE4的Spawn Actor from Object节点实现，即读取已有的人物模型，将人物模型置入会议场景中。会议场景为UE4社区找的现有的高保真会议室环境，包括基础的会议桌椅和其他相关环境资产，人物需要置入到会议室的椅子上，提前记录好的四个座位的坐标(包括三维的位置坐标和三维的旋转坐标)，然后根据用户选择的座位号，给Spawn Actor from Object节点传入对应的座位坐标；所述数字人一键配置即为已被置入场景的数字人配置相应的接收端口、骨骼和动画蓝图，同样通过蓝图***实现，即通过相关配置蓝图来响应一键配置按钮。

本发明具有以下优点和有益效果：

一、形式便利、传达率高。当下主要会议形式有线下集会与线上视频会议两种，线下集会语言传达效率高；线上视频会议语言传达效率低。对比之下，本发明提出的一种基于虚幻引擎的沉浸式虚拟会议演示***结合了二者的优点，规避缺点，是一种新型会议形式，线上的开展形式沉浸式的体验提高了语言传达率，整体符合未来会议场景，也是未来“元宇宙”应用软件的雏形，有利于促进会议形式更新换代。

二、沉浸体验、普及性强。现有的新型虚拟会议***一方面采用卡通的人物形象与环境，难以使用户有置身其中的沉浸体验，另一方面对硬件设备有苛刻的需求，需要VR设备或者动作捕捉服，难以实现大范围普及。对比之下，本发明提出的一种基于虚幻引擎的沉浸式虚拟会议演示***具有高保真的人物与环境，给予用户沉浸式的体验，并且捕捉设备仅需两枚普通摄像头，便于***的大范围普及。

实施例3:

如图8所示，是本发明实施例的沉浸式虚拟网络会议装置的架构示意图。本实施例的沉浸式虚拟网络会议装置包括一个或多个处理器21以及存储器22。其中，图8中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序和非易失性计算机可执行程序，如实施例1中的沉浸式虚拟网络会议方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令，从而执行沉浸式虚拟网络会议方法。

存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中，当被所述一个或者多个处理器21执行时，执行上述实施例1中的沉浸式虚拟网络会议方法。

本发明实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如图8中的一个处理器21，可使得上述一个或多个处理器可执行实施例1中的沉浸式虚拟网络会议方法。

值得说明的是，上述装置和***内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种沉浸式虚拟网络会议方法，其特征在于，包括：

2.根据权利要求1所述的沉浸式虚拟网络会议方法，其特征在于，所述根据所述用户头像照片，建模生成与用户头像对应的虚拟人物模型，具体包括：

3.根据权利要求1所述的沉浸式虚拟网络会议方法，其特征在于，所述动作捕捉数据包括用户的关键骨骼关节点的空间点坐标、关键骨骼关节点的位移信息以及关键骨骼关节点的旋转角度信息。

4.根据权利要求1所述的沉浸式虚拟网络会议方法，其特征在于，所述面部捕捉数据包括用户的眉部形变信息、眼部形变信息、嘴部形变信息以及用户的头部旋转信息。

5.根据权利要求1所述的沉浸式虚拟网络会议方法，其特征在于，所述以便于根据各用户的虚拟人形象，搭建虚拟网络会议场景，具体包括：

根据参会的用户人数，搭建会议室场景；

6.根据权利要求1所述的沉浸式虚拟网络会议方法，其特征在于，当第一用户入会时，将第一用户的虚拟人物模型发送至参会的其他用户的本地终端，并获取参会的其他用户的虚拟人物模型至所述第一用户的本地终端，以进行各用户虚拟人物模型的本地同步；

7.根据权利要求6所述的沉浸式虚拟网络会议方法，其特征在于，所述在网络中传输各用户的动作捕捉数据和面部捕捉数据，具体包括：

8.根据权利要求7所述的沉浸式虚拟网络会议方法，其特征在于，所述在用户的本地终端使用相应用户的动作捕捉数据和面部捕捉数据驱动对应虚拟人物模型，具体包括：

9.根据权利要求1-8任一所述的沉浸式虚拟网络会议方法，其特征在于，所述方法还包括：

10.一种沉浸式虚拟网络会议装置，其特征在于，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行权利要求1-9任一所述的沉浸式虚拟网络会议方法。