CN114999440A

CN114999440A - 虚拟形象生成方法、装置、设备、存储介质以及程序产品

Info

Publication number: CN114999440A
Application number: CN202210572328.5A
Authority: CN
Inventors: 郭紫垣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-09-02

Abstract

本公开提供了一种虚拟形象生成方法、装置、设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：对初始语音数据中包括的噪声音频进行过滤处理，得到过滤后的第一语音数据，其中，初始语音数据包括噪声音频；确定第一语音数据包括的各语音单元的语音单元时长和第一语音数据对应的语音文本，语音单元时长用于表征语音单元对应的发音时长；将语音文本进行语音转换，得到第二语音数据；基于第一语音数据中各语音单元的语音单元时长，调整第二语音数据中相应语音单元的语音单元时长，得到目标语音数据；以及根据目标语音数据，生成虚拟形象。

Description

虚拟形象生成方法、装置、设备、存储介质以及程序产品

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，具体涉及一种虚拟形象生成方法、装置、设备、存储介质以及程序产品。

背景技术

随着计算机技术和互联网技术的发展，可以通过虚拟形象提供生活、娱乐等方面的各项功能服务。例如，一些虚拟形象可以结合视觉显示和语音输出提供语音播报等视听功能服务。对于视听功能服务，如何使得虚拟形象作出的面部表情与输出的语音数据保持同步是一个亟需解决的问题。

发明内容

本公开提供了一种虚拟形象生成方法、装置、设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种虚拟形象生成方法，包括：对初始语音数据中包括的噪声音频进行过滤处理，得到过滤后的第一语音数据，其中，初始语音数据包括噪声音频；确定第一语音数据包括的各语音单元的语音单元时长和第一语音数据对应的语音文本，语音单元时长用于表征语音单元对应的发音时长；将语音文本进行语音转换，得到第二语音数据；基于第一语音数据中各语音单元的语音单元时长，调整第二语音数据中相应语音单元的语音单元时长，得到目标语音数据；以及根据目标语音数据，生成虚拟形象。

根据本公开的另一方面，提供了一种虚拟形象生成装置，包括：第一语音数据确定模块、语音单元时长和语音文本确定模块、第二语音数据确定模块、目标语音数据确定模块以及虚拟形象生成模块。第一语音数据确定模块，用于对初始语音数据中包括的噪声音频进行过滤处理，得到过滤后的第一语音数据，其中，初始语音数据包括噪声音频；语音单元时长和语音文本确定模块，用于确定第一语音数据包括的各语音单元的语音单元时长和第一语音数据对应的语音文本，语音单元时长用于表征语音单元对应的发音时长；第二语音数据确定模块，用于将语音文本进行语音转换，得到第二语音数据；目标语音数据确定模块，用于基于第一语音数据中各语音单元的语音单元时长，调整第二语音数据中相应语音单元的语音单元时长，得到目标语音数据；虚拟形象生成模块，用于根据目标语音数据，生成虚拟形象。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和与至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开实施例的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的虚拟形象生成方法和装置的***架构图；

图2示意性示出了根据本公开实施例的虚拟形象生成方法的流程图；

图3示意性示出了根据本公开一实施例的生成虚拟形象以及确定面部参数的示意图；

图4示意性示出了根据本公开一实施例的获得面部姿态特征的示意图；

图5示意性示出了根据本公开又一实施例的虚拟形象生成方法的示意图；

图6示意性示出了根据本公开一实施例的生成虚拟形象的示意图；

图7示意性示出了根据本公开一实施例的得到目标语音数据的示意图；

图8示意性示出了根据本公开实施例的虚拟形象生成装置的框图；以及

图9示意性示出了可以实现本公开实施例的虚拟形象生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。

随着计算机技术和互联网技术的发展，通过虚拟形象可以提供生活、娱乐等方面的各项功能服务。一些虚拟形象可以结合视觉显示和语音输出提供语音播报等视听功能服务。

对于视听功能服务，如何确保虚拟形象作出的面部表情与输出的语音保持同步是一个亟需解决的问题。虚拟形象的唇形与语音能否同步一致是影响虚拟形象仿真效果的一个重要要素。

一些实施方式中，基于语音驱动虚拟形象作出相应表情时，唇形变化与语音输出并不一致。究其原因，是这些语音-面部唇形模型输入的是包括噪声音频的语音数据，在处理时虽然可以将语音数据中的噪声音频过滤，但是实际应用时并不能完全将噪声音频过滤，得到纯净的语音数据，这就导致语音-面部唇形模型输出的驱动面部唇形变化的数据并不准确。具体的，准确性不够例如体现在***音闭嘴唇形异常以及连续帧的唇形序列不稳定等。该方式就导致驱动的唇形变化与语音输出不一致。

图1示意性示出了根据本公开一实施例的虚拟形象生成方法和装置的***架构。需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。

如图1所示，根据该实施例的***架构100可以包括客户端101、102、103，网络104和服务器105。网络104用以在客户端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用客户端101、102、103通过网络104与服务器105交互，以接收或发送消息等。客户端101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

客户端101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。本公开实施例的客户端101、102、103例如可以运行应用程序。

服务器105可以是提供各种服务的服务器，例如对用户利用客户端101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给客户端。另外，服务器105还可以是云服务器，即服务器105具有云计算功能。

需要说明的是，本公开实施例所提供的虚拟形象生成方法可以由服务器105执行。相应地，本公开实施例所提供的虚拟形象生成装置可以设置于服务器105中。本公开实施例所提供的虚拟形象生成方法也可以由不同于服务器105且能够与客户端101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的虚拟形象生成装置也可以设置于不同于服务器105且能够与客户端101、102、103和/或服务器105通信的服务器或服务器集群中。

在一种示例中，服务器105可以通过网络104获取来自客户端101、102、103的初始语音数据。

应该理解，图1中的客户端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端、网络和服务器。

应注意，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

本公开实施例提供了一种虚拟形象生成方法，下面结合图1的***架构，参考图2～图7来描述根据本公开示例性实施方式的虚拟形象生成方法。本公开实施例的虚拟形象生成方法例如可以由图1所示的服务器105来执行。

图2示意性示出了根据本公开一实施例的虚拟形象生成方法的流程图。

如图2所示，本公开实施例的虚拟形象生成方法200例如可以包括操作S210～操作S250。

在操作S210，对初始语音数据中包括的噪声音频进行过滤处理，得到过滤后的第一语音数据。

初始语音数据包括噪声音频。噪声音频可以理解对于得到第一语音数据产生干扰的数据。第一语音数据是一种语音数据，语音数据是语言的音频形式。噪声音频例如可以包括环境杂音等。例如，在初始语音数据为歌曲语音数据时，歌曲语音数据包括唱歌的人声语音，还包括伴奏音频，伴奏音频会对得到第一语音数据产生干扰，则伴奏音频也可以理解为一种噪声音频。

示例性地，初始语音数据还可以包括非噪声语音。非噪声语音可以理解为一种“纯净”的语音数据。例如，仍以初始语音数据为歌曲为例，非噪声语音数据例如可以是唱歌的人声语音。

示例性地，可以利用语音提取模型对初始语音数据中包括的噪声音频进行过滤，得到过滤后的第一语音数据。

在操作S220，确定第一语音数据包括的各语音单元的语音单元时长和第一语音数据对应的语音文本。

语音单元时长用于表征语音单元对应的发音时长。

由于第一语音数据是一种语音数据，语音数据是语言的音频形式，因此，可以根据第一语音数据确定第一语音数据包括的各语音单元的语音单元时长和第一语音数据对应的语音文本。语音单元时长可以理解为语音单元的发音时长。语音单元例如可以是字、词等。

在操作S230，将语音文本进行语音转换，得到第二语音数据。

示例性地，可以通过文本-语音转换模型实现将语音文本进行语音转换，得到第二语音数据，其中，文本-语音转换模型即TTS模型(Text To Speech，简称为TTS)。

在操作S240，基于第一语音数据中各语音单元的语音单元时长，调整第二语音数据中相应语音单元的语音单元时长，得到目标语音数据。

在操作S250，根据目标语音数据，生成虚拟形象。

根据初始语音数据生成虚拟形象时，初始语音数据中的第一语音数据与虚拟形象的唇形变化强相关。

一些实施方式中，无法将初始语音数据包括的噪声音频完全过滤，根据初始语音数据得到的第一语音数据还会包括一些噪声音频，因此，第一语音数据并不是“纯净”的语音数据。

由本公开实施例的虚拟形象生成方法，通过对初始语音数据中包括的噪声音频进行过滤处理，可以至少过滤部分噪声音频，得到过滤后的第一语音数据。通过将第一语音数据对应的语音文本进行语音转换，得到的第二语音数据是相比于第一语音数据更加“纯净”的语音数据；通过基于第一语音数据中各语音单元的语音单元时长，调整第二语音数据中相应语音单元的语音单元时长，得到的目标语音数据与第一语音数据的语音单元时长匹配。由此，通过本公开实施例得到的目标语音数据兼具“纯净”以及与第一语音数据的语音单元时长匹配这两个特点。

根据“纯净”的目标语音数据生成的虚拟形象的唇形更加准确，至少可以减少虚拟形象的***音唇形闭嘴异常情况的发生。

此外，由于语音单元时长与唇形变化序列相关，因此，根据与第一语音数据的语音单元时长匹配的目标语音数据生成的虚拟形象至少可以提高唇形序列稳定性。

本公开实施例的虚拟形象生成方法可以应用于虚拟形象面部口型捕捉、虚拟形象唱歌、影视动画、互动游戏娱乐等应用场景下。由于本公开实施例的虚拟形象生成方法生成的虚拟形象的唇形更加准确、唇形序列稳定性更高，因此本公开实施例的虚拟形象生成方法具有更好的虚拟形象仿真效果，可以提高用户的沉浸式体验。还可以替换例如直播场景下复杂昂贵的面部口型捕捉设备，降低设备投入成本和后期修改虚拟形象异常唇形的人力成本。

图3示意性示出了根据本公开另一实施例的虚拟形象生成方法中生成虚拟形象的示意图。

根据本公开另一实施例的虚拟形象生成方法，可以通过以下实施例来实现根据目标语音数据，生成虚拟形象的具体示例。

在操作S351，根据目标语音数据301的语音特征302，获得面部姿态特征303。

目标语音数据的语音特征可以理解为对目标语音数据进行特征参数提取后得到的、可支持计算机处理的特征，语音特征例如可以是特征向量的形式。

面部姿态特征可以理解为表征面部姿态的特征，面部姿态特征例如可以映射虚拟形象的面部表情。

在操作S352，对面部姿态特征303进行特征拆分，得到多个姿态拆分特征304。

示例性地，可以通过由相关人员设置的拆分逻辑进行特征拆分。例如，可以按照等量拆分或者按照特征部位的拆分逻辑进行特征拆分。

拆分后的特征例如还可以通过随机算法进行打乱，得到随机的姿态拆分特征。

在操作S353，基于多个姿态拆分特征304，确定面部参数305。

在操作S354，根据面部参数305，生成虚拟形象306。

姿态拆分特征是相对于面部姿态特征更加细粒度的特征，通过细粒度的姿态拆分特征，确定的面部参数更加准确，由此，针对本公开实施例的虚拟形象生成的应用场景，后续根据面部参数，生成的虚拟形象的面部表情更加准确和真实，虚拟形象具有更好的仿真效果。

图3还示意性示出了根据本公开实施例的虚拟形象生成方法中确定面部参数的示意图。

如图3所示，根据本公开实施例的虚拟形象生成方法，可以利用以下实施例实现基于多个姿态拆分特征，确定面部参数的具体示例。

在操作S355，基于多个姿态拆分特征304，确定拆分特征相关性参数307。

拆分特征相关性参数用于表征多个姿态拆分特征之间的相关性。

在操作S356，根据拆分特征相关性参数307和面部姿态特征303，确定面部参数305。

可以理解，发音会引起面部产生相应变化。例如，在姿态拆分特征以面部部位拆分时，例如，在发“A”的音时，会引起唇形变化，还会引起面部的两腮扩张，唇形与面部的两腮之间具有相对更高的相关性；而发“B”的音时会引起唇形变化，但是不会引起面部的两腮扩张，唇形与面部的两腮之间具有相对较低的相关性。

根据拆分特征相关性参数，本公开实施例的虚拟形象生成方法可以学习到针对某一个发音，姿态拆分特征之间的关联程度，对确定面部参数的过程进行自监督。由此，根据拆分特征相关性参数和面部姿态特征确定的面部参数的准确性更高。

图4示意性示出了根据本公开又一实施例虚拟形象生成方法中获得面部姿态特征的示意图。

根据本公开又一实施例的虚拟形象生成方法，可以通过以下实施例来实现根据目标语音数据的语音特征，获得面部姿态特征的具体示例。

在操作S411，获取目标语音数据401的梅尔倒谱系数402。

梅尔频率倒谱系数即Mel-scale Frequency Cepstral Coefficients，简称MFCC。基于梅尔频率倒谱系数确定的参数具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

示例性地，可以通过：预加重→分帧→加窗→快速傅里叶变换→三角带通滤波器→梅尔频率滤波器组→计算每个滤波器组输出的对数能量→经离散余弦变换得到MFCC。可以通过将目标语音数据通过高通滤波器的方式实现预加重。通过预加重可以提升高频部分，使得信号的频谱变得平坦，信号保持在低频到高频的整个频带中。通过预加重还可以消除发声过程中声带和嘴唇的效应，来补偿语音信号被发声***抑制的高频部分，突出高频的共振峰。

目标语音数据的语音特征可以包括目标语音数据的梅尔倒谱系数。

在操作S412，根据梅尔倒谱系数402，获得音素特征403。

音素特征用于表征发音动作单元。音素特征可以理解为利用特征向量表征的音素。音素可以理解为根据语音的自然属性划分出来的最小语音单位，音节里的每一个发音动作可以构成一个音素。因此，音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。

在操作S413，根据音素特征403，获得面部姿态特征404。

由于梅尔倒谱系数与音素强相关，音素与唇形强相关，根据本公开实施例的虚拟形象生成方法，根据目标语音数据的梅尔倒谱系数，可以得到与唇形强相关的音素特征，由音素特征得到的面部姿态特征可以映射准确的唇形。

图5示意性示出了根据本公开又一实施例的虚拟形象生成方法的示意图。在本公开实施例中，通过卷积神经网络Net实现根据目标语音数据，生成虚拟形象的具体示例。

示例性地，可以通过添加语音窗口的方式对目标语音数据Audi_o进行初步划分，每一个语音窗口可以进一步划分为m个语音片段，可以提取每一个语音片段的n个MFCC分量，从而得到m*n维的模型输入Input。示例性地，m可以取值为64，n可以取值为32。

由于语音在短时间内具有连续性，因此，本公开实施例的虚拟形象生成方法可以对目标语音数据添加能够覆盖多个音帧的语音窗口，提取连续多个音帧的特征作为输入，可以更好地学习到连续多个音帧的特征，符合短时间内的语音特点，从而可以更好地拟合面部参数。

示例性地，语音窗口可以设置为385ms。

可以将m*n维的模型输入Input输入至卷积神经网络Net中，卷积神经网络Net可以包括语音分析网络N1、面部姿态分析网络N2、自监督网络N3、全连接层CF和输出层OL。

语音分析网络N1可以用于对模型输入Input的n维特征进行语音特征提取，得到音素特征。

面部姿态分析网络N2可以对模型输入Input的m维特征进行特征提取，分析特征的时间演化，输出面部姿态特征。

自监督网络N3可以用于对面部姿态特征进行特征拆分，得到拆分后的多个姿态拆分特征，并基于多个姿态拆分特征，确定拆分特征相关性参数；全连接层CF可以用于根据面部姿态特征和拆分特征相关性参数拟合面部参数，其中，全连接层设置为至少两层。可以理解，仅通过一个全连接层可以得到一个二分类的数值结果，而一个数值并不能表征面部参数，至少两个全连接层可以拟合多维向量，因此可以利用至少两个全连接层拟合得到的多维向量表征面部参数。

输出层OL可以用于输出面部参数。可以根据面部参数生成虚拟形象Vi，具体地，生成虚拟形象的面部模型。

示例性地，面部参数可以包括混合形状系数权重(混合形状系数即BlendShape)。混合形状系数可以用于表征参数化的初始面部模型，混合形状系数权重表征混合形状系数的权重取值，混合形状系数权重在0-1之间，通过调整混合形状系数权重的数值，可以对初始面部模型进行调整，得到具有相应表情的面部模型。

卷积神经网络Net的模型参数包括网络权重，卷积神经网络模型在回归例如混合形状系数权重等数值较小的面部参数的数值时，网络权重对面部参数的影响较大，在一些情况下，会直接导致回归面部参数的数值异常。以混合形状系数权重为面部参数为例，拆分特征相关性参数例如可以表征多个姿态拆分特征之间的混合形状系数权重相关性，对根据面部姿态特征确定面部参数的过程进行自监督，可以理解为通过拆分特征相关性参数对面部姿态特征进行无标签监督信号的特征学习，根据面部姿态特征和拆分特征相关性参数确定的面部参数更加准确和稳定，根据面部参数生成的虚拟形象也更加生动，仿真效果更好。

示例性地，在对卷积神经网络Net的训练阶段，可以对网络输出的面部参数中与唇形变化不相关的部分进行降低权重的处理。例如，训练样本Ts经卷积神经网络Net输出面部参数Fd，可以由该训练样本Ts的标签La与面部参数Fd计算损失数值，在计算损失数值时，可以降低与唇形变化不相关的部分的权重。与唇形变化不相关的部分例如可以包括眉毛、眼睛等部分。

图6示意性示出了根据本公开又一实施例的虚拟形象生成方法的生成虚拟形象的示意图。

根据本公开又一实施例的虚拟形象生成方法，可以通过以下实施例来实现根据面部参数，生成虚拟形象的具体示例。

在操作S651，获取初始面部模型602。

初始面部模型602根据初始面部参数601生成。

在操作S652，根据面部参数603对初始面部模型602的初始面部参数601进行更新，生成目标面部模型604。

在操作S653，根据目标面部模型604，获得虚拟形象605。

本公开实施例的虚拟形象生成方法，通过面部参数对初始面部参数进行更新的方式可以基于初始面部模型快速、高效地生成虚拟形象。

图7示意性示出了根据本公开又一实施例的虚拟形象生成方法中得到目标语音数据的示意图。

如图7所示，可以根据第二语音数据Am，确定第二语音数据Am的语音单元时长，并基于第一语音数据Ai的各语音单元的语音单元时长，调整第二语音数据Am中相应语音单元的语音单元时长，得到目标语音数据At。

图7示意性示出了A、B、C、D和E共计五个语音单元、第二语音数据Am的t1、t2、t3、t4和t5共计五个语音单元时长以及第一语音数据Ai的t1’、t2’、t3’、t4’和t5’共计五个语音单元时长。可以理解，针对每一个语音单元，基于第一语音数据Ai的语音单元时长，调整第二语音数据Am相应的语音单元时长，直至目标语音数据At与第一语音数据Ai的语音单元时长保持一致，可以得到目标语音数据At。

根据本公开实施例的虚拟形象生成方法，通过基于第一语音数据包括的各语音单元的语音单元时长，调整第二语音数据中相应语音单元的语音单元时长，可以得到与第一语音数据具有语音单元时长匹配关系的目标语音数据，根据目标语音数据，生成的虚拟形象的唇形序列更加稳定和准确，具有更好的虚拟形象仿真效果。

示例性地，根据本公开另一实施例的虚拟形象生成方法，可以通过以下实施例来实现根据目标语音数据，生成虚拟形象的具体示例：确定目标节奏参数；基于目标节奏参数，对目标语音数据进行节奏调整，得到节奏调整后的目标语音数据；根据节奏调整后的目标语音数据，生成虚拟形象。。

示例性地，目标节奏参数可以包括旋律、频率和音调中的至少一个。

示例性地，可以利用语音风格转换模型对目标语音数据进行节奏调整。

本公开实施例的虚拟形象生成方法，通过对目标语音数据进行节奏调整，得到的节奏调整后的目标语音数据具有与目标节奏参数一致的节奏，根据节奏调整后的目标语音数据生成的虚拟形象具有更优的仿真效果。

示例性地，根据本公开又一实施例的虚拟形象生成方法，可以利用以下实施例实现确定目标节奏参数的具体示例：获取初始语音数据中的节奏参数，作为目标节奏参数。

根据本公开实施例的虚拟形象生成方法，通过将初始语音数据中的节奏参数作为目标节奏参数，使得节奏调整后的目标语音数据是一种“纯净”的语音数据，并且复原了初始语音数据的语音单元时长和节奏参数。

例如，初始语音数据可以包括乐曲，乐曲包括节奏参数，乐曲包括伴奏音频和人声语音数据，伴奏音频与确定语音文本无关，因此伴奏音频是一种噪声音频，人声语音数据可以确定语音文本，因此人声语音数据是一种第一语音数据。根据本公开实施例的虚拟形象生成方法，例如可以利用生成的虚拟形象提供输出乐曲的唱歌等视听功能服务，并且虚拟形象的唇形更加准确。

图8示意性示出了根据本公开一实施例的虚拟形象生成装置的框图。

如图8所示，本公开实施例的虚拟形象生成装置800例如包括第一语音数据确定模块810、语音单元时长和语音文本确定模块820、第二语音数据确定模块830、目标语音数据确定模块840以及虚拟形象生成模块850。

第一语音数据确定模块810，用于对初始语音数据中包括的噪声音频进行过滤处理，得到过滤后的第一语音数据。其中，初始语音数据包括噪声音频。

语音单元时长和语音文本确定模块820，用于确定第一语音数据包括的各语音单元的语音单元时长和第一语音数据对应的语音文本，语音单元时长用于表征语音单元对应的发音时长。

第二语音数据确定模块830，用于将语音文本进行语音转换，得到第二语音数据。

目标语音数据确定模块840，用于基于第一语音数据中各语音单元的语音单元时长，调整第二语音数据中相应语音单元的语音单元时长，得到目标语音数据。

虚拟形象生成模块850，用于根据目标语音数据，生成虚拟形象。

根据本公开实施例，虚拟形象生成模块包括：面部姿态特征确定子模块、姿态拆分特征确定子模块、面部参数确定子模块以及虚拟形象第一生成子模块。

面部姿态特征确定子模块，用于根据目标语音数据的语音特征，获得面部姿态特征。

姿态拆分特征确定子模块，用于对面部姿态特征进行特征拆分，得到拆分后的多个姿态拆分特征。

面部参数确定子模块，用于基于多个姿态拆分特征，确定面部参数。

虚拟形象第一生成子模块，用于根据面部参数，生成虚拟形象。

根据本公开实施例，面部参数确定子模块包括：拆分特征相关性参数确定单元以及面部参数确定单元。

拆分特征相关性参数确定单元，用于基于多个姿态拆分特征，确定拆分特征相关性参数。其中，拆分特征相关性参数用于表征多个姿态拆分特征之间的相关性。

面部参数确定单元，用于根据拆分特征相关性参数和面部姿态特征，确定面部参数。

根据本公开实施例，面部姿态特征确定子模块包括：梅尔倒谱系数确定单元、音素特征确定单元以及面部姿态特征确定单元。

梅尔倒谱系数确定单元，用于获取目标语音数据的梅尔倒谱系数；

音素特征确定单元，用于根据梅尔倒谱系数，获得音素特征；以及

面部姿态特征确定单元，用于根据音素特征，获得面部姿态特征。

根据本公开实施例，虚拟形象第一生成子模块包括：初始面部模型确定单元、目标面部模块确定单元以及虚拟形象确定单元。

初始面部模型确定单元，用于获取初始面部模型，其中，初始面部模型根据初始面部参数生成。

目标面部模块确定单元，用于根据面部参数对初始面部模型的初始面部参数进行更新，生成目标面部模型。

虚拟形象确定单元，用于根据目标面部模型，获得虚拟形象。

根据本公开实施例，虚拟形象确定模块还包括：目标节奏参数确定子模块、节奏调整子模块以及虚拟形象第二生成子模块。

目标节奏参数确定子模块，用于确定目标节奏参数。

节奏调整子模块，用于基于目标节奏参数，对目标语音数据进行节奏调整，得到节奏调整后的目标语音数据。

虚拟形象第二生成子模块，用于根据节奏调整后的目标语音数据，生成虚拟形象。

根据本公开实施例，目标节奏参数确定子模块包括：目标节奏参数确定单元

目标节奏参数确定单元，用于获取初始语音数据中的节奏参数，作为目标节奏参数。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，本公开在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如虚拟形象生成方法。例如，在一些实施例中，虚拟形象生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的虚拟形象生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行虚拟形象生成方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种虚拟形象生成方法，包括：

对初始语音数据中包括的噪声音频进行过滤处理，得到过滤后的第一语音数据，其中，所述初始语音数据包括噪声音频；

确定所述第一语音数据包括的各语音单元的语音单元时长和所述第一语音数据对应的语音文本，所述语音单元时长用于表征语音单元对应的发音时长；

将所述语音文本进行语音转换，得到第二语音数据；

基于所述第一语音数据中所述各语音单元的语音单元时长，调整所述第二语音数据中相应语音单元的语音单元时长，得到目标语音数据；以及

根据所述目标语音数据，生成虚拟形象。

2.根据要求1所述的方法，其中，根据所述目标语音数据，生成虚拟形象包括：

根据所述目标语音数据的语音特征，获得面部姿态特征；

对所述面部姿态特征进行特征拆分，得到拆分后的多个姿态拆分特征；

基于所述多个姿态拆分特征，确定面部参数；以及

根据所述面部参数，生成所述虚拟形象。

3.根据权利要求2所述的方法，其中，所述基于所述多个姿态拆分特征，确定面部参数，包括：

基于所述多个姿态拆分特征，确定拆分特征相关性参数，其中，所述拆分特征相关性参数用于表征所述多个姿态拆分特征之间的相关性；以及

根据所述拆分特征相关性参数和所述面部姿态特征，确定所述面部参数。

4.根据权利要求2所述的方法，其中，所述根据所述目标语音数据的语音特征，获得面部姿态特征包括：

获取所述目标语音数据的梅尔倒谱系数；

根据所述梅尔倒谱系数，获得音素特征；以及

根据所述音素特征，获得所述面部姿态特征。

5.根据权利要求2所述的方法，其中，所述根据所述面部参数，生成所述虚拟形象包括：

获取初始面部模型，其中，所述初始面部模型根据初始面部参数生成；

根据所述面部参数对所述初始面部模型的初始面部参数进行更新，生成目标面部模型；以及

根据所述目标面部模型，获得所述虚拟形象。

6.根据权利要求1所述的方法，所述根据所述目标语音数据，生成虚拟形象还包括：

确定目标节奏参数；

基于所述目标节奏参数，对所述目标语音数据进行节奏调整，得到节奏调整后的目标语音数据；

根据所述节奏调整后的目标语音数据，生成所述虚拟形象。

7.根据权利要求6所述的方法，其中，所述确定目标节奏参数包括：

获取所述初始语音数据中的节奏参数，作为所述目标节奏参数。

8.一种虚拟形象生成装置，包括：

第一语音数据确定模块，用于对初始语音数据中包括的噪声音频进行过滤处理，得到过滤后的第一语音数据，其中，所述初始语音数据包括噪声音频；

语音单元时长和语音文本确定模块，用于确定所述第一语音数据包括的各语音单元的语音单元时长和所述第一语音数据对应的语音文本，所述语音单元时长用于表征语音单元对应的发音时长；

第二语音数据确定模块，用于将所述语音文本进行语音转换，得到第二语音数据；

目标语音数据确定模块，用于基于所述第一语音数据中所述各语音单元的语音单元时长，调整所述第二语音数据中相应语音单元的语音单元时长，得到目标语音数据；以及

虚拟形象生成模块，用于根据所述目标语音数据，生成虚拟形象。

9.根据要求8所述的装置，其中，所述虚拟形象生成模块包括：

面部姿态特征确定子模块，用于根据所述目标语音数据的语音特征，获得面部姿态特征；

姿态拆分特征确定子模块，用于对所述面部姿态特征进行特征拆分，得到拆分后的多个姿态拆分特征；

面部参数确定子模块，用于基于所述多个姿态拆分特征，确定面部参数；以及

虚拟形象第一生成子模块，用于根据所述面部参数，生成所述虚拟形象。

10.根据权利要求9所述的装置，其中，所述面部参数确定子模块包括：

拆分特征相关性参数确定单元，用于基于所述多个姿态拆分特征，确定拆分特征相关性参数，其中，所述拆分特征相关性参数用于表征所述多个姿态拆分特征之间的相关性；以及

面部参数确定单元，用于根据所述拆分特征相关性参数和所述面部姿态特征，确定所述面部参数。

11.根据权利要求9所述的装置，其中，所述面部姿态特征确定子模块包括：

梅尔倒谱系数确定单元，用于获取所述目标语音数据的梅尔倒谱系数；

音素特征确定单元，用于根据所述梅尔倒谱系数，获得音素特征，其中，所述音素特征用于表征发音动作单元；以及

面部姿态特征确定单元，用于根据所述音素特征，获得所述面部姿态特征。

12.根据权利要求9所述的装置，其中，所述虚拟形象第一生成子模块包括：

初始面部模型确定单元，用于获取初始面部模型，其中，所述初始面部模型根据初始面部参数生成；

目标面部模块确定单元，用于根据所述面部参数对所述初始面部模型的初始面部参数进行更新，生成目标面部模型；以及

虚拟形象确定单元，用于根据所述目标面部模型，获得所述虚拟形象。

13.根据权利要求8所述的装置，所述虚拟形象确定模块还包括：

目标节奏参数确定子模块，用于确定目标节奏参数；

节奏调整子模块，用于基于所述目标节奏参数，对所述目标语音数据进行节奏调整，得到节奏调整后的目标语音数据；

虚拟形象第二生成子模块，用于根据所述节奏调整后的目标语音数据，生成所述虚拟形象。

14.根据权利要求13所述的装置，其中，所述目标节奏参数确定子模块包括：

目标节奏参数确定单元，用于获取所述初始语音数据中的节奏参数，作为所述目标节奏参数。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。