CN113473159B

CN113473159B - 数字人直播方法、装置、直播管理设备及可读存储介质

Info

Publication number: CN113473159B
Application number: CN202010167143.7A
Authority: CN
Inventors: 简伟华; 吴昊; 邱振谋; 许杰; 方少伟; 谢鸿华
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-08-18
Anticipated expiration: 2040-03-11
Also published as: CN113473159A

Abstract

本申请提供一种数字人直播方法、装置、直播管理设备及可读存储介质，涉及互联网直播领域。本申请通过直播管理设备获取至少一台动捕设备采集到的演员肢体动作数据以及至少一台面捕设备采集的演员面部表情数据，接着确定与目标数字人模型对应的目标动作数据及目标表情数据，而后按照目标动作数据及目标表情数据驱动目标数字人模型在预设虚拟场景中运行，并实时对目标数字人模型及预设虚拟场景进行图像渲染，最后基于数字人模型所具有的高拟真度特性及图像渲染可优化画面协调性的特性，结合虚拟场景与数字人模型向观众输出画面协调性好且主播形象拟真度高的图像画面进行直播，以增强观众的直播观看代入感，优化直播互动效果。

Description

数字人直播方法、装置、直播管理设备及可读存储介质

技术领域

本申请涉及互联网直播领域，具体而言，涉及一种数字人直播方法、装置、直播管理设备及可读存储介质。

背景技术

随着移动互联网的不断发展，网络直播技术也得到了飞速提升。在目前众多直播模式中，真人直播模式一直属于主流直播模式。但就真人直播模式而言，其在虚拟场景中与观众进行互动时，往往会因人体限制使主播无法完美地融合到虚拟场景中，画面协调性不高，导致观众的观看代入感不好，整体的直播互动效果较差。

发明内容

有鉴于此，本申请的目的在于提供一种数字人直播方法、装置、直播管理设备及可读存储介质，其能够通过将虚拟场景与具有高拟真度的数字人模型进行结合并进行图像渲染，向观众输出画面协调性好且主播形象拟真度高的图像画面，增强观众的直播观看代入感，优化直播互动效果。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种数字人直播方法，应用于直播管理设备，所述直播管理设备存储有至少一个数字人模型，所述方法包括：

获取至少一台动捕设备针对动捕演员所采集的演员肢体动作数据，并获取至少一台面捕设备针对面捕演员所采集的演员面部表情数据；

在获取到的演员肢体动作数据及演员面部表情数据中确定与目标数字人模型对应的目标动作数据及目标表情数据；

按照所述目标动作数据及所述目标表情数据驱动所述目标数字人模型在预设虚拟场景中运行，并实时对所述目标数字人模型及所述预设虚拟场景进行图像渲染；

将实时渲染得到的目标图像画面发送给观众端设备进行直播。

在可选的实施方式中，所述直播管理设备还存储有每个数字人模型所对应的模型标识，每台动捕设备所采集的演员肢体动作数据包括其针对的数字人模型的模型标识，每台面捕设备所采集的演员面部表情数据也包括其针对的数字人模型的模型标识，所述在获取到的演员肢体动作数据及演员面部表情数据中确定与目标数字人模型对应的目标动作数据及目标表情数据，包括：

对每条演员肢体动作数据所对应的模型标识及每条演员面部表情数据所对应的模型标识进行识别；

建立相同模型标识的数字人模型、演员肢体动作数据及演员面部表情数据之间的映射关系，得到与该模型标识对应的目标数字人模型的目标动作数据及目标表情数据。

在可选的实施方式中，所述按照所述目标动作数据及所述目标表情数据驱动所述目标数字人模型在预设虚拟场景中运行，包括：

直接按照所述目标动作数据驱动处于预设虚拟场景中的所述目标数字人模型执行对应的肢体动作；

直接按照所述目标表情数据驱动处于预设虚拟场景中的所述目标数字人模型调整对应的面部表情。

对所述目标动作数据与所述目标表情数据进行数据整合，得到目标驱动数据；

基于所述目标数字人模型对所述目标驱动数据进行数据修正，得到与所述目标数字人模型匹配的目标执行数据；

按照所述目标执行数据驱动处于预设虚拟场景中的所述目标数字人模型表达对应的肢体动作及面部表情。

在可选的实施方式中，所述方法还包括：

获取至少一台面捕设备针对面捕演员所采集的演员声音数据，其中来自同一台面捕设备的演员面部表情数据与演员声音数据相互关联；

在接收到的演员声音数据中确定与所述目标数字人模型对应的目标声音数据；

将所述目标声音数据发送给接收到同一目标数字人模型所对应的目标图像画面的所述观众端设备进行音频播放。

在可选的实施方式中，所述方法还包括：

获取目标真实人物的全身扫描数据；

根据获取到的所述全身扫描数据创建与所述目标真实人物匹配的数字人模型。

在可选的实施方式中，所述方法还包括：

根据场景需求构建至少一个预设虚拟场景，其中所述场景需求包括特效需求、音效需求、布景需求、灯效需求中的任意一种或多种组合；

针对待直播的每个数字人模型，为该数字人模型分配一个预设虚拟场景，并将该数字人模型加载到被分配的预设虚拟场景中。

第二方面，本申请实施例提供一种数字人直播装置，应用于直播管理设备，所述直播管理设备存储有至少一个数字人模型，所述装置包括：

演员数据获取模块，用于获取至少一台动捕设备针对动捕演员所采集的演员肢体动作数据，并获取至少一台面捕设备针对面捕演员所采集的演员面部表情数据；

目标数据确定模块，用于在获取到的演员肢体动作数据及演员面部表情数据中确定与目标数字人模型对应的目标动作数据及目标表情数据；

模型驱动渲染模块，用于按照所述目标动作数据及所述目标表情数据驱动所述目标数字人模型在预设虚拟场景中运行，并实时对所述目标数字人模型及所述预设虚拟场景进行图像渲染；

图像画面直播模块，用于将实时渲染得到的目标图像画面发送给观众端设备进行直播。

第三方面，本申请实施例提供一种直播管理设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令，以实现前述实施方式所述的数字人直播方法。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现前述实施方式所述的数字人直播方法。

本申请具有以下有益效果：

本申请通过直播管理设备获取至少一台动捕设备采集到的演员肢体动作数据以及至少一台面捕设备采集的演员面部表情数据，接着在获取到的演员肢体动作数据及演员面部表情数据中确定与目标数字人模型对应的目标动作数据及目标表情数据，而后在按照目标动作数据及目标表情数据驱动目标数字人模型在预设虚拟场景中运行，并实时对目标数字人模型及预设虚拟场景进行图像渲染，最后将实时渲染出的目标图像画面发送给观众端设备进行直播，从而基于数字人模型所具有的高拟真度特性及图像渲染可优化画面协调性的特性，结合虚拟场景与数字人模型向观众输出画面协调性好且主播形象拟真度高的图像画面，以增强观众的直播观看代入感，优化直播互动效果。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的直播管理***的***组成示意图；

图2为本申请实施例提供的直播管理设备的结构组成示意图；

图3为本申请实施例提供的数字人直播方法的流程示意图之一；

图4为本申请实施例提供的一种数字人直播画面的示意图；

图5为图3中的步骤S330包括的子步骤的流程示意图之一；

图6为图3中的步骤S330包括的子步骤的流程示意图之二；

图7为本申请实施例提供的数字人直播方法的流程示意图之二；

图8为本申请实施例提供的数字人直播方法的流程示意图之三；

图9为本申请实施例提供的数字人直播方法的流程示意图之四；

图10为本申请实施例提供的数字人直播装置的功能模块示意图之一；

图11为本申请实施例提供的数字人直播装置的功能模块示意图之二；

图12为本申请实施例提供的数字人直播装置的功能模块示意图之三；

图13为本申请实施例提供的数字人直播装置的功能模块示意图之四。

图标：10-直播管理***；11-直播管理设备；12-动捕设备；13-面捕设备；20-观众端设备；111-存储器；112-处理器；113-通信单元；100-数字人直播装置；110-演员数据获取模块；120-目标数据确定模块；130-模型驱动渲染模块；140-图像画面直播模块；150-音频数据直播模块；160-扫描数据获取模块；170-数字人模型创建模块；180-虚拟场景构建模块；190-模型场景加载模块。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

发明人通过辛苦调研发现，目前在实现虚拟场景下的真人直播时，通常采用将虚拟场景及其所包括的互动特效画面单独安置在一个图层中，并将真实主播图像作为一个图层，而后将由这两个图层叠加后得到的图像画面输出给观众进行直播观看。在这个过程中，因主播属于三维立体实物，而虚拟场景是数字化图像，图层叠加也仅是简单的图像层叠显示，最终得到的图像画面无法真实反映出主播在虚拟场景下的立体效果，存在画面协调性差的问题，导致观众的观看代入感不好，进而影响观众与主播的直播互动效果。而针对传统的虚拟形象直播模式来说，其通常存在虚拟形象仿真度不高的问题，同时也因其采用如虚拟场景下的真人直播那般的通过图层叠加的方式实现虚拟场景下的虚拟形象直播的手段，整体上存在画面协调性不好的情况，也在一定程度上影响了观众的观看代入感及最终的直播互动效果。

因此，如何提供一种能够将虚拟场景与主播形象进行深度融合以提高画面协调性的直播方案，便是对本领域技术人员而言亟需解决的技术难题。为此，发明人通过提供本申请所对应的数字人直播方法、装置、直播管理设备及可读存储介质解决上述技术难题。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1是本申请实施例提供的直播管理***10的***组成示意图。在本申请实施例中，所述直播管理***10可用于向观众提供画面协调性好且主播形象拟真度高的直播画面，以增强观众的直播观看代入感，优化直播互动效果。具体地，所述直播管理***10包括至少一台动捕设备12、至少一台面捕设备13及直播管理设备11，所述直播管理设备11与所述至少一台动捕设备12通信连接，所述直播管理设备11与所述至少一台面捕设备13通信连接，所述直播管理设备11与至少一台观众端设备20通信连接。

其中，所述动捕设备12用于捕捉动捕演员的肢体动作数据，所述面捕设备13用于捕捉面捕演员的面部表情数据。所述直播管理设备11在接收到每台动捕设备12发送的肢体动作数据及每台面捕设备13发送的面部表情数据后，会确定出与其存储的数字人模型对应的肢体动作数据及面部表情数据，而后按照确定出的肢体动作数据及面部表情数据驱动对应的数字人模型在对应的虚拟场景中运行，并实时地对数字人模型及其所在的虚拟场景进行图像渲染，加深数字人模型与其所在的虚拟场景之间的融合度，从而基于数字人模型所具有的高拟真度特性及图像渲染可优化画面协调性的特性，结合虚拟场景与数字人模型向观众端设备20输出画面协调性好且主播形象拟真度高的图像画面，使观众得以通过观众端设备20观看以数字人模型作为主播的直播画面，增强观众的直播观看代入感，优化直播互动效果。其中，所述肢体动作数据包括对应演员的肢体活动数据、手部活动数据、脚部活动数据及头部活动数据。

在本实施例中，数字人模型是以真实人物为原型进行虚拟仿真得到的可视化模型，其具有人物拟真度高的特性。所述动捕设备12为能够对安装在动捕演员身上的光学点进行光学捕捉以获取对应的肢体动作数据的电子设备，其可以是，但不限于，可穿戴动作捕捉服、光学捕捉摄像机等。所述面捕设备13为能够对面捕演员的面部表情进行捕捉的设备，其可以是，但不限于，摄像机、智能手机、平板电脑等。所述直播管理设备11可以是，但不限于，服务器、个人计算机等。所述观众端设备20为登录有观众账号并可进行画面显示的电子设备，其可以是，但不限于，智能手机、平板电脑、VR(Virtual Reality，虚拟现实)设备等。其中，所述直播管理设备11可以是通过单个电子设备(例如，一台服务器)实现该直播管理设备11所具有的所有功能，也可以是通过多个电子设备各自执行一部分功能，并通过这多个电子设备相互配合实现该直播管理设备11所具有的所有功能(例如，通过一台服务器专门获取每台动捕设备12所采集的肢体动作数据及每台面捕设备13所采集的面部表情数据，并确定出每个数字人模型所对应的肢体动作数据及面部表情数据，而后通过另外一台服务器针对存在对应关系的数字人模型、肢体动作数据及面部表情数据，驱动对应的数字人模型在被分配的虚拟场景中运行，并实时地对数字人模型及其所在的虚拟场景进行图像渲染，向观众端设备20输出画面协调性好且主播形象拟真度高的图像画面)。

可以理解的是，图1所示的***组成示意图仅为直播管理***10的一种***组成示意图，所述直播管理***10还可包括比图1中所示更多或者更少的设备组成，或者具有与图1所示不同的配置。图1中所示的各设备组成可以采用硬件、软件或其组合实现。

可选地，请参照图2，图2是本申请实施例提供的直播管理设备11的结构组成示意图。在本申请实施例中，所述直播管理设备11包括数字人直播装置100、存储器111、处理器112及通信单元113。所述存储器111、所述处理器112及所述通信单元113各个元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，所述存储器111、所述处理器112及所述通信单元113这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

在本实施例中，所述存储器111可用于存储程序，所述处理器112在接收到执行指令后，可相应地执行所述程序。其中，所述存储器111可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。其中，所述存储器111还可用于存储已创建的至少一个数字人模型、每个数字人模型的用于表示其身份的模型标识，以及至少一个预设虚拟场景。其中，不同预设虚拟场景相互之间存在差异，所述预设虚拟场景采用3D建模的方式进行构建。

在本实施例中，所述处理器112可以是一种具有信号的处理能力的集成电路芯片。所述处理器112可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)及网络处理器(Network Processor，NP)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

在本实施例中，所述通信单元113用于通过网络建立所述直播管理设备11与其他电子设备之间的通信连接，并通过网络进行数据交互。

在本实施例中，所述数字人直播装置100包括至少一个能够以软件或固件的形式存储于所述存储器111中或固化在所述直播管理设备11的操作***中的软件功能模块。所述处理器112可用于执行所述存储器111存储的可执行模块，例如所述数字人直播装置100所包括软件功能模块及计算机程序等。所述直播管理设备11通过所述数字人直播装置100将虚拟场景与主播形象进行深度融合，并向观众提供对应的画面协调性好且主播形象拟真度高的直播画面，以增强观众的直播观看代入感，优化直播互动效果。

可以理解的是，图2所示的方框示意图仅为直播管理设备11的一种结构组成示意图，所述直播管理设备11还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

在本申请中，为确保上述直播管理***10能够将虚拟场景与主播形象进行深度融合，并确保其向观众提供的直播画面具有极好的画面协调性及主播形象拟真度，以提高观众的直播观看代入感，优化直播互动效果，本申请通过提供应用于上述直播管理***10中的直播管理设备11的数字人直播方法实现上述功能。下面对本申请提供的数字人直播方法进行详细描述。

可选地，请参照图3，图3是本申请实施例提供的数字人直播方法的流程示意图之一。在本申请实施例中，图3所示的数字人直播方法可以包括步骤S310～步骤S340。

步骤S310，获取至少一台动捕设备针对动捕演员所采集的演员肢体动作数据，并获取至少一台面捕设备针对面捕演员所采集的演员面部表情数据。

在本实施例中，每台动捕设备12用于采集动捕演员的肢体动作数据，并通过网络将采集到的肢体动作数据实时传输给所述直播管理设备11。每台面捕设备13用于采集面捕演员的面部表情数据，并通过网络将采集到的面部表情数据实时传输给所述直播管理设备11。其中，一个演员可单独作为动捕演员，也可单独作为面捕演员，还可同时作为动捕演员和面捕演员。

步骤S320，在获取到的演员肢体动作数据及演员面部表情数据中确定与目标数字人模型对应的目标动作数据及目标表情数据。

在本实施例中，当直播管理设备11接收到各动捕设备12发送的演员肢体动作数据及各面捕设备13发送的演员面部表情数据后，会确定每条演员肢体动作数据所对应的数字人模型，以及每条演员面部表情数据所对应的数字人模型，并在确定同一数字人模型当前对应有演员肢体动作数据及演员面部表情数据时，将该数字人模型作为当前需要进行直播的目标数字人模型，将与该数字人模型对应的演员肢体动作数据及演员面部表情数据分别作为所述目标数字人模型的目标动作数据及目标表情数据。其中，同一数字人模型在同一时刻仅会对应一条演员面部表情数据以及一条演员肢体动作数据。

以图1所示的直播管理***10为例，假设所述直播管理设备11存储有数字人模型X1及数字人模型X2，当所述直播管理设备11从动捕设备a及动捕设备c处分别获取到了演员肢体动作数据a1及演员肢体动作数据c1，并从面捕设备b及面捕设备d处分别获取到演员面部表情数据b1及演员面部表情数据d1时，该直播管理设备11会相应地确定演员肢体动作数据a1、演员肢体动作数据c1、演员面部表情数据b1及演员面部表情数据d1各自对应数字人模型X1还是数字人模型X2。如果该直播管理设备11确定出演员肢体动作数据a1与演员面部表情数据b1同时对应数字人模型X1时，该直播管理设备11会将数字人模型X1作为一个目标数字人模型，并将演员肢体动作数据a1作为该目标数字人模型的目标动作数据，将演员面部表情数据b1作为该目标数字人模型的目标表情数据。

可选地，为确保所述直播管理设备11能够准确且快速地确认其接收到的每条演员肢体动作数据对应哪个数字人模型，以及每条演员面部表情数据对应哪个数字人模型，每台动捕设备12在发送采集到的演员肢体动作数据时会在该演员肢体动作数据中携带其针对的数字人模型的模型标识，每台面捕设备13在发送采集到的演员面部表情数据时也会在该演员面部表情数据中携带其针对的数字人模型的模型标识，则所述步骤S320可以包括：

其中，所述直播管理设备11通过识别每条演员肢体动作数据的模型标识及每条演员面部表情数据的模型标识，将具有相同模型标识的数字人模型、演员肢体动作数据及演员面部表情数据进行数据绑定，并以完成数据绑定操作的模型标识所对应的数字人模型作为当前需要进行直播的一个目标数字人模型，从而确定出该目标数字人模型所对应的目标动作数据及目标表情数据，达到准确且快速地确定出需要进行直播的目标数字人模型及其对应的目标动作数据和目标表情数据的目的。

在此过程中，每台动捕设备12及每台面捕设备13可通过扫码或发送请求的方式向所述直播管理设备11申请其负责的数字人模型的模型标识，而所述直播管理设备11会按照同一数字人模型在同一时刻仅由一台动捕设备12及一台面捕设备13负责的原则，向各动捕设备12及各面捕设备13告知对应的申请结果是申请成功，还是申请失败。同时，所述直播管理设备11也可直接选定某台动捕设备12负责为某个数字人模型提供演员肢体动作数据，并直接选定某台面捕设备13负责为该数字人模型提供演员面部表情数据。

步骤S330，按照目标动作数据及目标表情数据驱动目标数字人模型在预设虚拟场景中运行，并实时对目标数字人模型及预设虚拟场景进行图像渲染。

在本实施例中，当所述直播管理设备11确定出当前需要进行直播的目标数字人模型及其对应的目标动作数据及目标表情数据后，会在针对该目标数字人模型预先分配的预设虚拟场景下采用所述目标动作数据及所述目标表情数据驱动该目标数字人模型执行相应的运动操作(包括肢体动作调整及面部表情调整)，确保该目标数字人模型的肢体动作与所述目标动作数据实时匹配，该目标数字人模型的面部表情与所述目标表情数据实时匹配。

而所述直播管理设备11在驱动所述目标数字人模型运行的同时，会实时地通过渲染引擎对该目标数字人模型及其所处的预设虚拟场景进行图像渲染，使该预设虚拟场景实时地配合该目标数字人模型的肢体动作及面部表情进行匹配的特效表达、灯效表达、关照表达及AR(Augmented Reality，增强现实)效果表达，并使该目标数字人模型在运动时的各部位在具体预设虚拟场景下表现出与真实环境下相同或相似的画面特征，从而实现虚拟场景与主播形象的深度融合。其中，所述直播管理设备11所执行的图像渲染操作至少包括对目标数字人模型的表情渲染操作、头发渲染操作、皮肤纹理渲染操作和服饰纹理渲染操作，以及对虚拟场景的全局光照渲染操作、AR渲染操作和特效渲染操作。

此外，本申请可通过采用一个动捕演员提供一个数字人模型所需的演员肢体动作数据，一个面捕演员提供同一个数字人模型所需的演员面部表情数据的方式，通过两个演员的相互配合来驱动同一数字人模型在其所在的预设虚拟场景中执行相应的肢体动作及面部表情，以达到两人分摊直播互动压力，提高直播互动能力上限的效果。

步骤S340，将实时渲染得到的目标图像画面发送给观众端设备进行直播。

在本实施例中，所述直播管理设备11会针对当前需要进行直播的每个目标数字人模型及其预先分配的预设虚拟场景创建一个数字人直播间。而后当所述直播管理设备11实时渲染出某个目标数字人模型所对应的图像画面时，会将渲染出的该图像画面发送给访问有该目标数字人模型所对应的数字人直播间的观众端设备20进行直播显示，从而达到向观众输出画面协调性好且主播形象拟真度高的图像画面的目的，以增强观众的直播观看代入感，优化直播互动效果。以图4所示的一种数字人直播画面的示意图为例，该图中的主播形象即为一个数字人模型在执行跳舞动作时的外在表现，该图中除去主播形象外的背景内容即为一个预设虚拟场景配合该数字人模型表达出的场景效果，该主播形象在整个背景内容中并不会显得比较突兀，整体的画面协调性好，能够有效地提高观众观看数字人直播画面的观看代入感，进而优化整个直播互动流程中的直播互动效果。

以图1所示的直播管理***10为例，假设所述直播管理设备11确定以数字人模型X1作为一个目标数字人模型，而观众端设备e和观众端设备f中的观众端设备e确定访问数字人模型X1所对应的数字人直播间时，所述直播管理设备11会将实时渲染出的与数字人模型X1对应的图像画面发送给该观众端设备e进行直播。

在本申请实施例中，所述直播管理设备11通过执行上述的数字人直播方法，将虚拟场景与数字人模型所对应的主播形象进行深度融合，并基于数字人模型所具有的高拟真度特性及图像渲染可优化画面协调性的特性，结合虚拟场景与数字人模型向观众提供的直播画面具有极好的画面协调性及主播形象拟真度，以提高观众的直播观看代入感，优化直播互动效果。

在本申请中，为确保所述直播管理设备11能够快速地实现对目标数字人模型的驱动操作，本申请通过提供一种应用于所述直播管理***10中的直播管理设备11的数字人模型驱动方案实现上述功能，下面对上述数字人模型驱动方案进行相应描述。

请参照图5，图5是图4中的步骤S330包括的子步骤的流程示意图之一。在本申请实施例中，上述步骤S330包括的按照目标动作数据及目标表情数据驱动目标数字人模型在预设虚拟场景中运行的步骤可以包括子步骤S331及子步骤S332。

子步骤S331，直接按照目标动作数据驱动处于预设虚拟场景中的目标数字人模型执行对应的肢体动作。

子步骤S332，直接按照目标表情数据驱动处于预设虚拟场景中的目标数字人模型调整对应的面部表情。

其中，所述直播管理设备11在按照所述目标动作数据驱动目标数字人模型执行对应的肢体动作时，可通过将所述目标动作数据转换为与所述目标数字人模型的骨骼框架对应的骨骼动画数据，而后以转换得到的骨骼动画数据驱动目标数字人模型执行对应的肢体动作。所述直播管理设备11通过执行上述子步骤S331及所述子步骤S332，达到快速驱动目标数字人模型运行的效果。

在本申请中，为确保所述直播管理设备11在驱动目标数字人模型运行时能够表达出流畅且协调的动作行为，本申请通过提供另一种应用于所述直播管理***10中的直播管理设备11的数字人模型驱动方案实现上述功能，下面对上述数字人模型驱动方案进行相应描述。

请参照图6，图6是图3中的步骤S330包括的子步骤的流程示意图之二。在本申请实施例中，上述步骤S330包括的按照目标动作数据及目标表情数据驱动目标数字人模型在预设虚拟场景中运行的步骤可以包括子步骤S333～子步骤S335。

子步骤S333，对目标动作数据与目标表情数据进行数据整合，得到目标驱动数据。

在本实施例中，所述直播管理设备11通过将目标数字人模型所对应的目标动作数据与目标表情数据归化到同一数字人模型框架下，并进行数据整合，以初步得到动作协调性好的目标驱动数据。

子步骤S334，基于目标数字人模型对目标驱动数据进行数据修正，得到与目标数字人模型匹配的目标执行数据。

在本实施例中，所述直播管理设备11存储有与目标数字人模型对应的人物原型的面部表情库及肢体动作库，其中所述面部表情库保存有对应人物原型在表情表达方面的相关数据，所述肢体动作库保存有对应人物原型在肢体动作表达方面的相关数据。所述直播管理设备11可基于与目标数字人模型对应的面部表情库及肢体动作库对所述目标驱动数据进行数据修正，以保证修正后的目标驱动数据在表情表达方面的相关数据与对应人物原型相互贴合，保证修正后的目标驱动数据在肢体动作表达方面的相关数据与对应人物原型相互贴合，从而得到与目标数字人模型匹配的目标执行数据。

子步骤S335，按照目标执行数据驱动处于预设虚拟场景中的目标数字人模型表达对应的肢体动作及面部表情。

在本实施例中，所述直播管理设备11通过直接按照所述目标执行数据驱动驱动目标数字人模型在对应的预设虚拟场景中运行，使该目标数字人模型得以执行与对应人物原型匹配的肢体动作及面部表情，提高目标数字人模型的行为表达流畅性。

在本申请中，所述直播管理设备11通过执行上述子步骤S333～子步骤S335，使目标数字人模型在被驱动时能够表达出流畅且协调的动作行为，从而进一步地优化直播互动效果。

在本申请中，为确保所述直播管理设备11在向观众端设备20提供数字人直播画面的同时达到实现同步音频直播的效果，以进一步优化整体的直播互动效果，本申请通过提供一种应用于所述直播管理***10中的直播管理设备11的音频同步直播方案实现上述功能，下面对上述音频同步直播方案进行相应描述。

请参照图7，图7是本申请实施例提供的数字人直播方法的流程示意图之二。在本申请实施例中，图7所示的数字人直播方法与图3所示的数字人直播方法相比，图7所示的数字人直播方法还可以包括步骤S350～步骤S370。

步骤S350，获取至少一台面捕设备针对面捕演员所采集的演员声音数据，其中来自同一台面捕设备的演员面部表情数据与演员声音数据相互关联。

在本实施例中，与所述直播管理设备11通信连接的每台面捕设备13在采集面捕演员的面部表情数据的同时，会将该面捕演员作为一名配音演员，并相应地通过自身携带的拾音器件(比如，麦克风)采集该面捕演员的声音数据，而后将采集到的演员声音数据实时传输给所述直播管理设备11。其中，来自于同一台面捕设备13的演员面部表情数据与演员声音数据均是针对于同一个数字人模型的。

步骤S360，在接收到的演员声音数据中确定与目标数字人模型对应的目标声音数据。

在本实施例中，当所述直播管理设备11接收到每台面捕设备13所发送的演员声音数据后，会按照上文中确定目标数字人模型及其对应的目标动作数据及目标表情数据的执行结果，针对每个目标数字人模型确定出与其对应的目标声音数据。在本实施例的一种实施方式中，每台面捕设备13所发送的演员声音数据中也包括有其针对的数字人模型的模型标识，同一台面捕设备13所发送的演员声音数据及演员面部表情数据均包括有相同模型标识，所述直播管理设备11可根据每条演员声音数据所对应的模型标识，确定出每个目标数字人模型所对应的目标声音数据。

步骤S370，将目标声音数据发送给接收到同一目标数字人模型所对应的目标图像画面的观众端设备进行音频播放。

在本实施例中，所述直播管理设备11在针对某个目标数字人模型进行面部表情方面的驱动操作，并完成图像渲染操作的情况下，会根据演员面部表情数据与演员声音数据之间的关联关系，确定出与渲染出的目标图像画面所需的目标表情数据相对应的目标声音数据，而后将相互对应的目标图像画面及目标声音数据发送给同一观众端设备20，使该观众端设备20在对接收到的目标图像画面进行播放显示的同时，对接收到的目标声音数据进行音频播放，从而达到音频与画面的同步直播效果。

在本申请中，所述直播管理设备11通过执行步骤S350～步骤S370，确保自身能够在向观众端设备20提供数字人直播画面的同时，达到实现同步音频直播的效果，从而进一步优化整体的直播互动效果。

在本申请中，为确保所述直播管理设备11所存储的数字人模型与对应的人物原型匹配，本申请通过提供一种应用于所述直播管理***10中的直播管理设备11的数字人模型构建方案实现上述功能，下面对上述数字人模型构建方案进行相应描述。

请参照图8，图8是本申请实施例提供的数字人直播方法的流程示意图之三。在本申请实施例中，图8所示的数字人直播方法与图7或图3所示的数字人直播方法相比，图8所示的数字人直播方法还可以包括步骤S380～步骤S390。

步骤S380，获取目标真实人物的全身扫描数据。

在本实施例中，所述直播管理设备11可通过与扫描设备通信连接的方式，获取该扫描设备针对目标真实人物所扫描得到的全身扫描数据。

步骤S390，根据获取到的全身扫描数据创建与目标真实人物匹配的数字人模型。

在本实施例中，当所述直播管理设备11获取到目标真实人物的全身扫描数据后，会基于该全身扫描数据执行模型拓扑操作，并从表情拆分、表情绑定、骨骼构建、骨骼绑定、皮肤纹理贴图烘焙、服饰制作及毛发制作等方面进行模型素材制作，并对制作出的各项模型素材进行模型整合，而后对整合得到的模型结构进行材质灯光效果调节，从而输出与目标真实人物匹配的高拟真度的数字人模型。

在本申请中，所述直播管理设备11通过执行步骤S380～步骤S390，确保构建出的数字人模型与对应的人物原型匹配，具有高拟真度的特性。

在本申请中，为确保数字人模型所处的虚拟场景能够达到预期的直播互动效果，本申请通过提供一种应用于所述直播管理***10中的直播管理设备11的场景构建分配方案实现上述功能，下面对上述场景构建分配方案进行相应描述。

请参照图9，图9是本申请实施例提供的数字人直播方法的流程示意图之四。在本申请实施例中，图9所示的数字人直播方法与图3、图7及图8中任意一附图所示的数字人直播方法相比，图9所示的数字人直播方法还可以包括步骤S410～步骤S420。

步骤S410，根据场景需求构建至少一个预设虚拟场景，其中场景需求包括特效需求、音效需求、布景需求、灯效需求中的任意一种或多种组合。

在本实施例中，所述场景需求用于表示直播平台对虚拟场景所能达到的节目效果的总体需求，所述特效需求用于表示对应虚拟场景在进行特效表达时的效果需求，所述音效需求用于表示对应虚拟场景在进行音效表达时的效果需求，所述布景需求用于表示对应虚拟场景在场景布局方面上的效果需求，灯效需求用于表示对应虚拟场景在灯光照射方面的效果需求。所述直播管理设备11会根据不同的场景需求通过3D建模的方式构建出合适匹配的至少一个预设虚拟场景。

步骤S420，针对待直播的每个数字人模型，为该数字人模型分配一个预设虚拟场景，并将该数字人模型加载到被分配的预设虚拟场景中。

在本实施例中，所述直播管理设备11会响应直播平台对数字人模型与预设虚拟场景的配对操作，为待直播的每个数字人模型分配与配对操作匹配的预设虚拟场景，并将该数字人模型加载到被分配的预设虚拟场景中，以确保该数字人模型在对应分配的预设虚拟场景中驱动时能够达到预期的直播互动效果。

在本申请中，所述直播管理设备11通过执行步骤S410及步骤S420，为待直播的数字人模型确定出其对应的预设虚拟场景，以确保该数字人模型在对应分配的预设虚拟场景中驱动时能够达到预期的直播互动效果。

在本申请中，为确保所述直播管理设备11所包括的数字人直播装置100能够正常实施，本申请通过对所述数字人直播装置100进行功能模块划分的方式实现其功能。下面对本申请提供的数字人直播装置100的具体组成进行相应描述。

可选地，请参照图10，图10是本申请实施例提供的数字人直播装置100的功能模块示意图之一。在本申请实施例中，所述数字人直播装置100包括演员数据获取模块110、目标数据确定模块120、模型驱动渲染模块130及图像画面直播模块140。

演员数据获取模块110，用于获取至少一台动捕设备针对动捕演员所采集的演员肢体动作数据，并获取至少一台面捕设备针对面捕演员所采集的演员面部表情数据。

目标数据确定模块120，用于在获取到的演员肢体动作数据及演员面部表情数据中确定与目标数字人模型对应的目标动作数据及目标表情数据。

模型驱动渲染模块130，用于按照目标动作数据及目标表情数据驱动目标数字人模型在预设虚拟场景中运行，并实时对目标数字人模型及预设虚拟场景进行图像渲染。

图像画面直播模块140，用于将实时渲染得到的目标图像画面发送给观众端设备进行直播。

可选地，请参照图11，图11是本申请实施例提供的数字人直播装置100的功能模块示意图之二。在本申请实施例中，所述数字人直播装置100还可以包括音频数据直播模块150。

演员数据获取模块110，还用于获取至少一台面捕设备针对面捕演员所采集的演员声音数据，其中来自同一台面捕设备的演员面部表情数据与演员声音数据相互关联。

目标数据确定模块120，还用于在接收到的演员声音数据中确定与目标数字人模型对应的目标声音数据。

音频数据直播模块150，用于将目标声音数据发送给接收到同一目标数字人模型所对应的目标图像画面的观众端设备进行音频播放。

可选地，请参照图12，图12是本申请实施例提供的数字人直播装置100的功能模块示意图之三。在本申请实施例中，所述数字人直播装置100还可以包括扫描数据获取模块160及数字人模型创建模块170。

扫描数据获取模块160，用于获取目标真实人物的全身扫描数据。

数字人模型创建模块170，用于根据获取到的全身扫描数据创建与目标真实人物匹配的数字人模型。

可选地，请参照图13，图13是本申请实施例提供的数字人直播装置100的功能模块示意图之四。在本申请实施例中，所述数字人直播装置100还可以包括虚拟场景构建模块180及模型场景加载模块190。

虚拟场景构建模块180，用于根据场景需求构建至少一个预设虚拟场景，其中场景需求包括特效需求、音效需求、布景需求、灯效需求中的任意一种或多种组合。

模型场景加载模块190，用于针对待直播的每个数字人模型，为该数字人模型分配一个预设虚拟场景，并将该数字人模型加载到被分配的预设虚拟场景中。

需要说明的是，本申请实施例所提供的数字人直播装置100，其基本原理及产生的技术效果与前述应用于直播管理设备11的数字人直播方法相同，为简要描述，本实施例部分未提及之处，可参考上述的针对数字人直播方法的描述内容。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，在本申请实施例提供的一种数字人直播方法、装置、直播管理设备及可读存储介质中，本申请通过直播管理设备获取至少一台动捕设备采集到的演员肢体动作数据以及至少一台面捕设备采集的演员面部表情数据，接着在获取到的演员肢体动作数据及演员面部表情数据中确定与目标数字人模型对应的目标动作数据及目标表情数据，而后在按照目标动作数据及目标表情数据驱动目标数字人模型在预设虚拟场景中运行，并实时对目标数字人模型及预设虚拟场景进行图像渲染，最后将实时渲染出的目标图像画面发送给观众端设备进行直播，从而基于数字人模型所具有的高拟真度特性及图像渲染可优化画面协调性的特性，结合虚拟场景与数字人模型向观众输出画面协调性好且主播形象拟真度高的图像画面，以增强观众的直播观看代入感，优化直播互动效果。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数字人直播方法，其特征在于，应用于直播管理设备，所述直播管理设备存储有至少一个数字人模型，其中所述直播管理设备还存储有每个数字人模型所对应的模型标识，每台动捕设备所采集的演员肢体动作数据包括其针对的数字人模型的模型标识，每台面捕设备所采集的演员面部表情数据也包括其针对的数字人模型的模型标识，所述方法包括：

将实时渲染得到的目标图像画面发送给观众端设备进行直播；

其中，所述在获取到的演员肢体动作数据及演员面部表情数据中确定与目标数字人模型对应的目标动作数据及目标表情数据，包括：

2.根据权利要求1所述的方法，其特征在于，所述按照所述目标动作数据及所述目标表情数据驱动所述目标数字人模型在预设虚拟场景中运行，包括：

3.根据权利要求1所述的方法，其特征在于，所述按照所述目标动作数据及所述目标表情数据驱动所述目标数字人模型在预设虚拟场景中运行，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4中任意一项所述的方法，其特征在于，所述方法还包括：

获取目标真实人物的全身扫描数据；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种数字人直播装置，其特征在于，应用于直播管理设备，所述直播管理设备存储有至少一个数字人模型，其中所述直播管理设备还存储有每个数字人模型所对应的模型标识，每台动捕设备所采集的演员肢体动作数据包括其针对的数字人模型的模型标识，每台面捕设备所采集的演员面部表情数据也包括其针对的数字人模型的模型标识，所述装置包括：

图像画面直播模块，用于将实时渲染得到的目标图像画面发送给观众端设备进行直播；

其中，所述目标数据确定模块在获取到的演员肢体动作数据及演员面部表情数据中确定与目标数字人模型对应的目标动作数据及目标表情数据的方式，包括：

8.一种直播管理设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令，以实现权利要求1-6中任意一项所述的数字人直播方法。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-6中任意一项所述的数字人直播方法。