CN112527115B

CN112527115B - 用户形象生成方法、相关装置及计算机程序产品

Info

Publication number: CN112527115B
Application number: CN202011469031.3A
Authority: CN
Inventors: 杨新航; 陈睿智
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2023-08-04
Anticipated expiration: 2040-12-15
Also published as: CN112527115A

Abstract

本申请实施例公开了用户形象生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及人工智能技术领域，具体涉及计算机视觉、深度学习和语音技术领域。该方法的一具体实施方式包括：获取用户的形象模型和对应的表情驱动信息后，根据表情驱动信息驱动形象模型，生成动态形象，最后将该动态形象作为语音直播时该用户的替代形象展示给其他用户。该实施方式提供了一种基于表情驱动信息对用户的形象模型进行驱动的方法，用户可以使用驱动后的用户形象模型，即动态形象来配合语音直播，不仅可以降低沟通成本、保护用户隐私，还可以增加互动性、提升语音直播质量。

Description

用户形象生成方法、相关装置及计算机程序产品

技术领域

本申请涉及人工智能技术领域，具体涉及计算机视觉、深度学习和语音技术领域，尤其涉及用户形象生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

现有技术中，随着互联网的兴起和社交需求的发展，为方便人与人之间沟通、降低沟通成本，越来越多的用户通过互联网实现线上沟通。

目前利用网络直播实现通信互动的过程中，为了表征用户的形象，通常根据用户的选择使用用户的静态头像，并且在用户进行语音互动的同时，仅为其他用户提供声音和该静态头像的内容。

发明内容

本申请实施例提出了一种用户形象生成方法、装置、电子设备及计算机可读存储介质。

第一方面，本申请实施例提出了一种用户形象生成方法，包括：获取用户的形象模型和对应的表情驱动信息；根据该表情驱动信息驱动该形象模型生成动态形象；将该动态形象作为语音直播时该用户的替代形象展示给其他用户。

第二方面，本申请实施例提出了一种用户形象生成装置，包括：用户形象获取单元，被配置成获取用户的形象模型；驱动信息获取单元，被配置成获取与该形象模型对应的表情驱动信息；动态形象生成单元，被配置成根据该表情驱动信息驱动该形象模型生成动态形象；动态形象呈现单元，被配置成将该动态形象作为语音直播时该用户的替代形象展示给其他用户。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用户形象生成方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用户形象生成方法。

第五方面，本申请实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的用户形象生成方法。

本申请实施例提供的用户形象生成方法、装置、电子设备及计算机可读存储介质，获取用户的形象模型和对应的表情驱动信息后，根据表情驱动信息驱动形象模型，生成动态形象，最后将该动态形象作为语音直播时该用户的替代形象展示给其他用户。

本申请通过表情驱动信息对用户的形象模型进行驱动，生成与用户对应的动态形象，以使得用户使用该动态形象来配合语音直播，不仅可以降低沟通成本、保护用户隐私，还可以增加互动性、提升语音直播质量。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性***架构；

图2为本申请实施例提供的一种用户形象生成方法的流程图；

图3为本申请实施例提供的另一种用户形象生成方法的流程图；

图4为本申请实施例提供的在一应用场景下的用户形象生成方法的流程示意图；

图5-1和5-2为本申请实施例提供的在一应用场景下的用户形象生成方法的效果示意图；

图6为本申请实施例提供的一种用户形象生成装置的结构框图；

图7为本申请实施例提供的一种适用于执行用户形象生成方法的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用户形象生成方法、装置、电子设备及计算机可读存储介质的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以进行语音直播的互动等目的。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用，例如直播类应用、录像播放类应用、即时通讯类应用等。

终端设备101、102、103和服务器105可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等；当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器105通过内置的各种应用可以提供各种服务，以可以提供语音直播服务的即时通讯类应用为例，服务器105在为该即时通讯类应用为例应用时可实现如下效果：首先，通过网络104从语音直播用户所使用的终端(例如终端设备101)中获取该用户的形象模型和表情驱动信息，然后根据该表情驱动信息驱动该形象模型生成对应的动态形象后，将该动态形象发送给其他用户所使用的终端(例如终端设备102、103)，作为语音直播时该用户的替代形象展示给其他用户。

需要指出的是，形象模型除可以从终端设备101、102、103通过网络104获取到之外，也可以通过各种方式预先存储在服务器105本地。因此，当服务器105检测到本地已经存储有这些数据时，可选择直接从本地获取这些数据，此时只需额外从终端设备101、102、103中获取对应的表情驱动信息或者用于生成表情驱动信息的素材即可。

由于用户形象生成方法需要占用较多的运算资源和较强的运算能力，因此本申请后续各实施例所提供的用户形象生成方法一般由拥有较强运算能力、较多运算资源的服务器105来执行，相应地，用户形象生成装置一般也设置于服务器105中。但同时也需要指出的是，在终端设备101、102、103也具有满足要求的运算能力和运算资源时，终端设备101、102、103也可以完成上述本交由服务器105做的各项运算，进而输出与服务器105同样的结果。尤其是在同时存在多种具有不同运算能力的终端设备的情况下，相应的，用户形象生成装置也可以设置于终端设备101、102、103中。在此种情况下，终端设备之间可以直接进行语音直播的内容展示，对应的示例性***架构100中也可以不包括服务器105和用于服务器和终端设备101、102、103之间实现通信的网络104。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，图2为本申请实施例提供的一种用户形象生成方法的流程图，其中流程200包括以下步骤：

步骤201，获取用户的形象模型和对应的表情驱动信息。

在本实施例中，用户形象生成方法的执行主体(例如图1所示的服务器105)获取可以从用户所使用的终端设备(例如图1所示的101)处获取该用户的形象模型，也可以基于用户的指示或者本地的分析结果从本地或非本地的存储设备中预先保存中的形象中提取出于用户对应的形象模型。

在此基础上，上述执行主体获取与该形象模型对应的表情驱动信息，表情驱动信息指的是用于驱动该形象模型的相关参数信息，以使得该形象模型可以根据该表情驱动信息执行相应的动作，达到表征用户的实际动作的目的，表情驱动信息可以根据用户的实际姿态进行确定，也可以根据用户的行为信息进行相关的还原进行得到，例如为了还原用户说话时唇部的动作，可以根据用户的语音内容进行还原，以得到用户叙说该段语音内容时的唇部动作。

应当理解的是，本地的存储设备可以是设置在上述执行主体内的一个数据存储模块，例如服务器硬盘，在此种情况下，用户的形象模型可以在本地快速读取到；非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备，例如一些用户终端等，在此情况下，上述执行主体可以通过向该电子设备发送获取命令来获取所需的用户形象模型。

此外，用户的形象模型通常为根据用户的真实头像确定得到的形象模型，可以是预先准备好的形象模型，也可以是用户自行制作、并上传的形象模型。

在此过程中为了增强生成的形象模型的活动性以及保护用户隐私考虑，本实施例中示例性的示出了一种可以基于用户的真实头像基于用户的真实头像和预设的三维形象模板进行融合以得到用户形象的方式，即上述执行主体可以用户上传的真实人脸图像和用户选定的目标三维形象模板后，将两者进行融合生成对应的形象模型，以对应的实现上述目的。

应当理解的是，在上述执行主体体现为服务器时，目标三维形象模板也可以是直接提供给用户所使用的终端设备，以实现在用户终端设备生成形象模型的目的，不过考虑到运算成本，通常会选择在服务器处进行形象模型的生成后，以生成标记、标识的方式提供给用户所使用的用户终端设备，以便于用户根据标记、标识的来选择期望的目标三维形象模板后将对应的标记、标识发送给服务器，以在达到相同目的的前提下节约通信资源。

步骤202，根据表情驱动信息驱动形象模型生成动态形象。

在本实施例中，在上述步骤201中获取到表情驱动信息后，根据该表情驱动信息对形象模型进行驱动，以实现形象模型受到该表情驱动信息的指示进行相应的动作，对用户的行为、动作等进行对应的模拟、还原后，生成该用户的动态形象。

实践中，通常可以在形象模型中设置有骨架、肌肉信息等驱动结构信息和/或在形象模型中预先确定有多个驱动点，在获取到对应各个驱动点的表情驱动信息后对这些驱动点进行对应的驱动，以达到根据表情驱动信息驱动形象模型的目的。

步骤203，将动态形象作为语音直播时用户的替代形象展示给其他用户。

在本实施例中，在得到该用户的动态形象后，在该用户进行语音直播时，将该动态形象替换目前用于表征用户的形象信息例如静态头像、用户照片或者其他背景图像的静态图片，以实现将该动态形象展示给其他观看本次其他用户，以实现其他观看用户可以根据该动态形象了解到该用户进行直播时的动态信息的目的。

本申请实施例提供的用户形象生成方法，通过表情驱动信息对用户的形象模型进行驱动，生成与用户对应的动态形象，以使得用户使用该动态形象来配合语音直播，不仅可以降低沟通成本、保护用户隐私，还可以增加互动性、提升语音直播质量。

在本实施例的一些可选实现方式中，为了向用户提供更多的选择、以满足用户的多元化需求，目标三维形象模板还可以通过以下步骤生成：获取用户选定的自定义三维形象模板；根据用户的自定义调整参数对该自定义三维形象模板进行调整，生成目标三维形象模板；其中，自定义三维形象模板向用户提供有可视化的细节调整面板。

具体的，自定义三维形象模板指的是支持用户根据自身需求进行调整的三维形象模板，该自定义三维形象模板中存在有多个与三维形象模板中特定部位对应的调节参数，用户可以根据对这些调节参数进行变更以实现对三维形象的内容进行调整，得到对应的目标三维形象模板，此外，还可以在用户选择了自定义三维形象模板后，为用户提供具有可视化的细节调整模板，以使得用户可以直接使用该细节调整模板实现对自定义三维形象模板的调整，便于用户调整操作的实现。

此外，在上述图2所示实施例的基础上，若基于摄像头采集的姿态信息来获取与用户的形象模型对应的表情驱动信息时，为了达到进一步提升获取到的姿态信息的价值，避免获取过多无用信息的目的时，本申请还提出了一种具体的获取与用户的形象模型对应的表情驱动信息的实现方式：

具体的，可以预先对该用户的形象模型进行解析，并根据该形象模型的具体大小和可驱动范围确定目标采集区域，例如该形象模型仅包括头部信息或该形象模型中可用于驱动的部分仅在于面部的嘴部、鼻子等部分时，则可对应的确定目标采集区域为用户的头部或者嘴部、鼻子等，然后通过摄像头采集该用户与该目标采集区域对应的目标姿态信息后，根据该目标姿态信息生成表情驱动参数，以实现对摄像头采集到的内容进行筛选，减少参与后续生成表情驱动参数时所使用的摄像头中的内容，降低运算压力、提升运算效率。

在本实施例的一些可选实现方式中，获取与用户的形象模型对应的表情驱动信息，包括：利用拾音器采集用户的语音信息；根据该语音信息确定语音内容；根据语音内容和语音内容与表情动作的对应关系生成表情驱动信息。

具体的，如在本实施例步骤201中部分的说明，在基于用户输入的语音信息确定表情驱动信息时，可以利用拾音器对用户的语音信息进行获取，并对应的通过语义识别神经网络、语音识别模型或文字读取等算法生成该语音信息中存在的语音内容，在确定该语音内容后采用深度学习技术、仿生模拟技术等确定人在叙说该段语音内容时对应的以唇部动作为核心的面部动作变化，并根据两者的对应关系生成表情驱动信息，以便于后续根据该表情驱动信息驱动形象模型，对用户的叙说过程进行还原，以在摄像头采集、还原不便或效率不如预期时，可以基于用户的语音信息实现还原，以保证后续生成动态形象的质量。

在本实现方式中，优选的可以通过循环神经网络RNN(Recurrent NeuralNetwork，简称RNN)产生与语音内容对应的表情驱动信息，RNN是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness)，因此在对序列的非线性特征进行学习时具有一定优势。在此基础上，基于历史数据中的样本语音内容和与该样本语音内容对应样本表情动作训练对RNN进行训练后，可以基于该训练后的RNN高质量的输出与语音内容对应的表情驱动信息，以提升得到表情驱动信息的质量。

请参考图3，图3为本申请实施例提供的另一种用户形象生成方法的流程图，其中流程300包括以下步骤：

步骤301，获取用户的形象模型和对应的表情驱动信息。

步骤302，响应于表情驱动信息包括姿态驱动信息和语音驱动信息，分别确定姿态驱动信息和语音驱动信息对形象模型的第一驱动区域和第二驱动区域。

在本实施例中，在确定与该形象模型对应的表情驱动信息中同时具有姿态驱动信息和语音驱动信息时，确定姿态驱动信息和语音驱动信息中对应所包含的区域，即与姿态驱动信息对应的第一驱动区域和与语音驱动信息对应的第二驱动区域，以便于后续分别根据姿态驱动信息驱动该第一驱动区域，根据语音驱动信息驱动该第二驱动区域。

步骤303，按姿态驱动信息驱动该第一驱动区域。

步骤304，按语音驱动信息驱动第二驱动区域，生成动态形象。

步骤305，将该动态形象作为语音直播时该用户的替代形象展示给其他用户。

此外，在实践中，第一驱动区域和第二驱动区域可能存在部分或完全重叠的情况，此时可以采用质量评价的方式对目标姿态信息和语音信息对应的驱动效果进行预判，例如对获取目标姿态信息的摄像头的码率、质量进行评价，和对获取到的语音信息中的完整度、内容连贯程度等方式进行评价，以确定基于目标姿态信息或语音信息生成的表情驱动信息中的更优者对重叠部分进行驱动，以保证生成的动态形象的质量。

应当理解的是，因目标姿态信息和语音信息本质上还原的是用户的当前行为，因此两者之间具有同一性，在第一驱动区域和第二驱动区域可能存在部分或完全重叠时，也可以比较目标姿态信息和语音信息对该重叠部分的驱动结果，若两者相似度满足预先确定的阈值要求时，可以联合使用目标姿态信息和语音信息来进行驱动。

以上步骤301和305与如图2所示的步骤201和203一致，相同部分内容请参见上一实施例的相应部分，此处不再进行赘述，在本实施例中，可以分别基于目标姿态信息和语音信息确定的表情驱动信息来生成动态图像，以不仅可以扩大生成表情驱动信息的识别范围，还可以实现目标姿态信息和语音信息存在问题时的互补，针对性采用更为优选的内容。

为加深理解，本申请还结合一个具体应用场景，给出了一种具体的实现方案，可参见图4示出的流程400，具体如下：

步骤401，为用户提供自定义三维形象模板，并确定对应的目标三维形象模板。

具体的，可以为用户提供如图5-1所示的自定义三维形象模板，在为用户提供该自定义三维形象模板后，用户可以根据其中提供的可视化的细节调整面板实现调整，以得到目标三维形象模板。

步骤402，融合用户真实人脸图像后，生成用户的形象模型。

步骤403，获取用户的形象模型和对应的表情驱动信息。

具体的，根据该自定义三维形象模板，确定目标采集区域为用户的头部信息，然后采用摄像头采集该用户与该目标采集区域对应的目标姿态信息，并生成表情驱动信息。

步骤404，根据表情驱动信息驱动形象模型生成动态形象。

具体的，根据上述步骤403中得到的表情驱动信息驱动该形象模型，生成动态图像，可参考图5-2所示，此时还可以对应的在该动态图像中添加摄像头采集到的用户图像并呈现给该用户，以便于用户进行真实图像和动态图像的比对、评价动态形象。

步骤405，将动态形象作为语音直播时用户的替代形象展示给其他用户。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种用户形象生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用户形象生成装置600可以包括：用户形象获取单元601、驱动信息获取单元602、动态形象生成单元603和动态形象呈现单元604。其中，用户形象获取单元601，被配置成获取用户的形象模型；驱动信息获取单元602，被配置成获取与该形象模型对应的表情驱动信息；动态形象生成单元603，被配置成成根据该表情驱动信息驱动该形象模型生成动态形象；动态形象生成单元604，被配置成将该动态形象作为语音直播时该用户的替代形象展示给其他用户。

在本实施例中，用户形象生成装置600中：用户形象获取单元601、驱动信息获取单元602、动态形象生成单元603和动态形象呈现单元604的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，用户形象获取单元601中包括：素材获取子单元，被配置成获取该用户上传的真实人脸图像和该用户选定的目标三维形象模板；形象融合子单元，被配置成融合该真实人脸图像和该目标三维形象模板，生成该形象模型。

在本实施例的一些可选的实现方式中，素材获取子单元中包括：自定义模板获取模块，被配置成获取该用户选定的自定义三维形象模板；自定义模板调整模块，被配置成根据该用户自定义调整参数对该自定义三维形象模板进行调整，生成该目标三维形象模板；其中，该自定义三维形象模板向该用户提供有可视化的细节调整面板。

在本实施例的一些可选的实现方式中，驱动信息获取单元602包括：采集区域确定子单元，被配置成在该形象模型上确定目标采集区域；姿态信息采集子单元，被配置成通过摄像头采集该用户与该目标采集区域对应的目标姿态信息；第一表情驱动信息生成子单元，被配置成根据该目标姿态信息生成该表情驱动信息。

在本实施例的一些可选的实现方式中，驱动信息获取单元602包括：语音信息采集子单元，被配置成利用拾音器采集该用户的语音信息；语音内容确定子单元，被配置成根据该语音信息确定语音内容；第二表情驱动信息生成子单元，被配置成根据该语音内容和语音内容与表情动作的对应关系生成该表情驱动信息。

在本实施例的一些可选的实现方式中，第二表情驱动信息生成子单元进一步被配置成，通过循环神经网络RNN产生与该语音内容所对应的该表情驱动信息；其中，该循环神经网络RNN基于历史数据中的样本语音内容和与该样本语音内容对应样本表情动作训练得到。

在本实施例的一些可选的实现方式中，动态形象生成单元603包括：驱动区域划分子单元，被配置成响应于该表情驱动信息包括姿态驱动信息和语音驱动信息，分别确定该姿态驱动信息和该语音驱动信息对该形象模型的第一驱动区域和第二驱动区域；第一区域驱动子单元，被配置成按该姿态驱动信息驱动该第一驱动区域；第二区域驱动子单元，被配置成按该语音驱动信息驱动该第二驱动区域，生成该动态形象。

本实施例作为对应于上述方法实施例的装置实施例存在，本实施例提供的用户形象生成装置通过表情驱动信息对用户的形象模型进行驱动，生成与用户对应的动态形象，以使得用户使用该动态形象来配合语音直播，不仅可以降低沟通成本、保护用户隐私，还可以增加互动性、提升语音直播质量。

根据本申请的实施例，本申请还提供了一种电子设备、一种计算机可读存储介质及一种计算机程序产品。

图7示出了可以用来实施本申请的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如用户形象生成方法。例如，在一些实施例中，用户形象生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的用户形象生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行用户形象生成方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，通过表情驱动信息对用户的形象模型进行驱动，生成与用户对应的动态形象，以使得用户使用该动态形象来配合语音直播，不仅可以降低沟通成本、保护用户隐私，还可以增加互动性、提升语音直播质量。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用户形象生成方法，包括：

获取用户的形象模型和对应的表情驱动信息；

根据所述表情驱动信息驱动所述形象模型生成动态形象；

将所述动态形象作为语音直播时所述用户的替代形象展示给其他用户；

其中，获取与用户的形象模型对应的表情驱动信息，包括：在所述形象模型上确定目标采集区域；通过摄像头采集所述用户与所述目标采集区域对应的目标姿态信息；根据所述目标姿态信息生成所述表情驱动信息；利用拾音器采集所述用户的语音信息；根据所述语音信息确定语音内容；

其中，根据所述表情驱动信息驱动所述形象模型生成动态形象，包括：响应于所述表情驱动信息包括姿态驱动信息和语音驱动信息，分别确定所述姿态驱动信息和所述语音驱动信息对所述形象模型的第一驱动区域和第二驱动区域；按所述姿态驱动信息驱动所述第一驱动区域；按所述语音驱动信息驱动所述第二驱动区域，生成所述动态形象；以及响应于所述第一驱动区域和第二驱动区域部分重叠或完全重叠，采用质量评价的方式对目标姿态信息和语音信息对应的驱动效果进行预判，以确定基于目标姿态信息或语音信息生成的表情驱动信息中的更优者对重叠的部分进行驱动。

2.根据权利要求1所述的方法，其中，所述形象模型的生成步骤包括：

获取所述用户上传的真实人脸图像和所述用户选定的目标三维形象模板；

融合所述真实人脸图像和所述目标三维形象模板，生成所述形象模型。

3.根据权利要求2所述的方法，其中，所述用户选定的目标三维形象模板的生成步骤包括：

获取所述用户选定的自定义三维形象模板；

根据所述用户的自定义调整参数对所述自定义三维形象模板进行调整，生成所述目标三维形象模板；其中，所述自定义三维形象模板向所述用户提供有可视化的细节调整面板。

4.根据权利要求1所述的方法，其中，所述根据所述语音内容和语音内容与表情动作的对应关系生成所述表情驱动信息包括：

通过循环神经网络RNN产生与所述语音内容所对应的所述表情驱动信息；其中，所述RNN基于历史数据中的样本语音内容和与所述样本语音内容对应样本表情动作训练得到。

5.一种用户形象生成装置，包括：

用户形象获取单元，被配置成获取用户的形象模型；

驱动信息获取单元，被配置成获取与所述形象模型对应的表情驱动信息；

动态形象生成单元，被配置成根据所述表情驱动信息驱动所述形象模型生成动态形象；

动态形象呈现单元，被配置成将所述动态形象作为语音直播时所述用户的替代形象展示其他用户；

其中，驱动信息获取单元包括：

采集区域确定子单元，被配置成在所述形象模型上确定目标采集区域；

姿态信息采集子单元，被配置成通过摄像头采集所述用户与所述目标采集区域对应的目标姿态信息；

第一表情驱动信息生成子单元，被配置成根据所述目标姿态信息生成所述表情驱动信息

语音信息采集子单元，被配置成利用拾音器采集所述用户的语音信息；

语音内容确定子单元，被配置成根据所述语音信息确定语音内容；

第二表情驱动信息生成子单元，被配置成根据所述语音内容和语音内容与表情动作的对应关系生成所述表情驱动信息；

所述动态形象生成单元包括：驱动区域划分子单元，被配置成响应于所述表情驱动信息包括姿态驱动信息和语音驱动信息，分别确定所述姿态驱动信息和所述语音驱动信息对所述形象模型的第一驱动区域和第二驱动区域；第一区域驱动子单元，被配置成按所述姿态驱动信息驱动所述第一驱动区域；第二区域驱动子单元，被配置成按所述语音驱动信息驱动所述第二驱动区域，生成所述动态形象；以及被配置成响应于所述第一驱动区域和第二驱动区域部分重叠或完全重叠，采用质量评价的方式对目标姿态信息和语音信息对应的驱动效果进行预判，以确定基于目标姿态信息或语音信息生成的表情驱动信息中的更优者对重叠的部分进行驱动。

6.根据权利要求5所述的装置，其中，所述用户形象获取单元中包括：

素材获取子单元，被配置成获取所述用户上传的真实人脸图像和所述用户选定的目标三维形象模板；

形象融合子单元，被配置成融合所述真实人脸图像和所述目标三维形象模板，生成所述形象模型。

7.根据权利要求6所述的装置，其中，所述素材获取子单元中包括：

自定义模板获取模块，被配置成获取所述用户选定的自定义三维形象模板；

自定义模板调整模块，被配置成根据所述用户的自定义调整参数对所述自定义三维形象模板进行调整，生成所述目标三维形象模板；其中，所述自定义三维形象模板向所述用户提供有可视化的细节调整面板。

8.根据权利要求5所述的装置，其中，所述第二表情驱动信息生成子单元进一步被配置成，通过循环神经网络RNN产生与所述语音内容所对应的所述表情驱动信息；其中，所述循环神经网络RNN基于历史数据中的样本语音内容和与所述样本语音内容对应样本表情动作训练得到。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的用户形象生成方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的用户形象生成方法。