CN114071204A

CN114071204A - 一种数据处理方法及装置

Info

Publication number: CN114071204A
Application number: CN202111354441.8A
Authority: CN
Inventors: 向钊豫; 范贤武
Original assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Current assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-18
Anticipated expiration: 2041-11-16
Also published as: CN114071204B

Abstract

本发明公开了一种数据处理方法及装置，可以获得目标视频在预定义时段中的文本序列数据，获得口型生成器基于图片序列数据和音频序列数据输出的口型图序列数据，图片序列数据、音频序列数据与文本序列数据相匹配，将文本序列数据与口型图序列数据的同步损失值确定为第一同步损失值，基于第一同步损失值，更新口型生成器。本发明可以在获得文本序列数据和口型图序列数据之后，计算文本序列数据与音频序列数据的第一同步损失值，基于第一同步损失值更新口型生成器，优化口型生成器的模型性能，提高口型生成器基于音频和图片的口型图生成性能，提高口型生成器所生成的口型图与音频的匹配度即同步性，从而优化目标视频的音画同步效果。

Description

一种数据处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理方法及装置。

背景技术

随着科学技术的发展，人工智能(Artificial Intelligence，AI)技术不断提高，人工智能模型的种类不断增多。

当前，研究人员已设计出一种可以对口型的AI模型。具体的，该AI模型可以在获得一段音频和一段视频时，可以基于该段音频对该段视频中目标角色的口型进行相应转换，之后输出目标角色口型与音频相匹配的视频。比如，该AI在获得第一音频以及某个动画角色正进行演讲的第一视频时，可以基于第一段音频对第一视频中该动画角色的口型进行相应转换，之后输出已进行口型转换，即该动画角色正演讲第一音频的第一视频。

但是，现有AI模型基于音频对视频中目标角色的口型进行转换的性能较弱，口型转换准确度较低。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置，技术方案如下：

一种数据处理方法，所述方法包括：

获得目标视频在预定义时段中的文本序列数据；

获得口型生成器基于图片序列数据和音频序列数据输出的口型图序列数据，所述图片序列数据、所述音频序列数据与所述文本序列数据相匹配；

将所述文本序列数据与所述口型图序列数据的同步损失值确定为第一同步损失值；

基于所述第一同步损失值，更新所述口型生成器。

可选的，所述将所述文本序列数据与所述口型图序列数据的同步损失值确定为第一同步损失值，包括：

将所述文本序列数据与所述口型图序列数据输入至第一判别器，所述第一判别器为用于计算文本与口型图的同步损失值的模型；

获得所述第一判别器输出的所述第一同步损失值。

可选的，所述图片序列数据与所述音频序列数据在同一序列位置上的数据相匹配；所述口型生成器基于所述图片序列数据和所述音频序列数据输出所述口型图序列数据，包括：

所述口型生成器分别基于各组视频数据，生成所述口型图序列数据中的各帧口型图，所述视频数据包括所述图片序列数据与所述音频序列数据分别在同一序列位置上的数据。

可选的，所述口型生成器基于第一视频数据生成第一口型图，包括：

所述口型生成器分别从所述第一视频数据中的图片和音频采样点数据中，提取出图片特征和音频特征；

所述口型生成器利用多次下采样、多次上采样和多次残差连接的方式，对所述音频特征和所述图片特征进行数据处理，获得处理后数据；

所述口型生成器对所述处理后数据进行上采样，生成并输出所述第一口型图。

可选的，所述口型生成器包括：音频特征提取层、图片特征提取层、音频采样层、第一图片采样层、第二图片采样层、合并层、第一上采样层、第一连接层、第二上采样层、第二连接层和第三上采样层。

可选的，所述口型生成器分别从所述第一视频数据中的图片和音频采样点数据中，提取出图片特征和音频特征，包括：

所述图片特征提取层从所述第一视频数据中的图片中提取出图片特征；

所述音频特征提取层从所述第一视频数据中的音频采样点数据中提取出音频特征。

可选的，所述口型生成器利用多次下采样、多次上采样和多次残差连接的方式，对所述音频特征和所述图片特征进行数据处理，获得处理后数据，包括：

所述音频采样层对所述音频特征进行下采样，获得第一下采样数据，对所述第一下采样数据进行下采样，获得第二下采样数据；

所述第一图片采样层对所述图片特征进行下采样，获得第三下采样数据；

所述第二图片采样层对所述第三下采样数据进行下采样，获得第四下采样数据；

所述合并层对所述第二下采样数据和所述第四下采样数据进行合并处理，获得合并数据；

所述第一上采样层对所述合并数据进行上采样，获得第一上采样数据；

所述第一连接层对所述第一上采样数据与所述第三下采样数据进行残差连接，获得第一连接数据；

所述第二上采样层对所述第一连接数据进行上采样，获得第二上采样数据；

所述第二连接层对所述第二上采样数据与所述第四下采样数据进行残差连接，获得所述处理后数据。

可选的，所述方法还包括：

将所述完整图片序列数据和所述口型图序列数据输入至第二判别器，获得所述第二判别器输出的图片损失值，所述完整图片序列数据包括所述图片序列数据中各图片分别对应的完整图片；

将所述音频序列数据和所述口型图序列数据输入至第三判别器，获得所述第三判别器输出的第二同步损失值；

所述基于所述第一同步损失值，更新所述口型生成器，包括：

基于所述第一同步损失值、图片损失值和第二同步损失值，获得最终损失值；

基于所述最终损失值，更新所述口型生成器。

一种数据处理装置，所述装置包括：第一获得单元、第二获得单元、第一确定单元和第一更新单元；其中：

所述第一获得单元，用于获得目标视频在预定义时段中的文本序列数据；

所述第二获得单元，用于获得口型生成器基于图片序列数据和音频序列数据输出的口型图序列数据，所述图片序列数据、所述音频序列数据与所述文本序列数据相匹配；

所述第一确定单元，用于将所述文本序列数据与所述口型图序列数据的同步损失值确定为第一同步损失值；

所述第一更新单元，用于基于所述第一同步损失值，更新所述口型生成器。

可选的，所述第一确定单元，包括：第一输入单元和第三获得单元；

所述第一输入单元，用于将所述文本序列数据与所述口型图序列数据输入至第一判别器，所述第一判别器为用于计算文本与口型图的同步损失值的模型；

所述第三获得单元，用于获得所述第一判别器输出的所述第一同步损失值。

可选的，所述图片序列数据与所述音频序列数据在同一序列位置上的数据相匹配；所述口型生成器基于所述图片序列数据和所述音频序列数据输出所述口型图序列数据，设置为：

可选的，所述口型生成器基于第一视频数据生成第一口型图，设置为：

可选的，所述口型生成器分别从所述第一视频数据中的图片和音频采样点数据中，提取出图片特征和音频特征，设置为：

可选的，所述口型生成器利用多次下采样、多次上采样和多次残差连接的方式，对所述音频特征和所述图片特征进行数据处理，获得处理后数据，设置为：

可选的，所述装置还包括：第二输入单元、第四获得单元、第三输入单元和第五获得单元；所述所述第一更新单元，包括：第六获得单元和第二更新单元；其中：

所述第二输入单元，用于将所述完整图片序列数据和所述口型图序列数据输入至第二判别器，所述完整图片序列数据包括所述图片序列数据中各图片分别对应的完整图片；

所述第四获得单元，用于获得所述第二判别器输出的图片损失值；

所述输入单元，用于将所述音频序列数据和所述口型图序列数据输入至第三判别器；

所述第五获得单元，用于获得所述第三判别器输出的第二同步损失值；

所述第六获得单元，用于基于所述第一同步损失值、图片损失值和第二同步损失值，获得最终损失值；

所述第二更新单元，用于基于所述最终损失值，更新所述口型生成器。

本实施例提出的数据处理方法及装置，可以获得目标视频在预定义时段中的文本序列数据，获得口型生成器基于图片序列数据和音频序列数据输出的口型图序列数据，图片序列数据、音频序列数据与文本序列数据相匹配，将文本序列数据与口型图序列数据的同步损失值确定为第一同步损失值，基于第一同步损失值，更新口型生成器。本发明可以在获得文本序列数据和口型图序列数据之后，计算文本序列数据与音频序列数据的第一同步损失值，基于第一同步损失值更新口型生成器，优化口型生成器的模型性能，提高口型生成器基于音频和图片的口型图生成性能，提高口型生成器所生成的口型图与音频的匹配度即同步性，从而优化目标视频的音画同步效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚地了解本发明的技术手段，可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的第一种数据处理方法的流程图；

图2示出了本发明实施例提供的一种口型生成器生成口型图过程的示意图；

图3示出了本发明实施例提供的第二种数据处理方法的流程图；

图4示出了本发明实施例提供的第一种数据处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本实施例提出了第一种数据处理方法，该方法可以包括以下步骤：

S101、获得目标视频在预定义时段中的文本序列数据；

需要说明的是，本发明可以应用于电子设备，如平板电脑和台式电脑。

其中，目标视频可以为某个或多个角色在某段时长内进行说话的视频。

可选的，上述角色可以为真实角色，如真实的人物或动物，此时目标视频可以为摄像头对角色进行拍摄所生成的视频，比如新闻主播播报新闻的视频；可选的，上述角色也可以为虚拟角色，如虚拟的人物或动物，此时目标视频可以为经影视特效所制造出的视频。

可选的，目标视频中可以包括能在时间上同步播放的文本、图片和音频。

其中，预定义时段可以是目标视频中的某个时段。可选的，预定义时段可以为目标视频的整个时段，也可以为目标视频中的部分时段。

其中，文本序列数据可以为目标视频在预定义时段内的文本数据，在按照时间顺序排列后生成的序列数据。

可选的，本发明可以通过在目标视频中进行数据提取，来提取出文本序列数据；可选的，本发明可以通过使用音频转文本工具，将目标视频中的音频转换为相应的文本；可选的，本发明也可以直接获得已提取好的文本序列数据，比如从其它电子设备处获得已提取好的文本序列数据。

具体的，本发明在对目标视频中进行数据提取的过程中，可以提取出目标视频在预定义时段内的全部文本数据，之后将该全部文本数据确定为文本序列数据。

S102、获得口型生成器基于图片序列数据和音频序列数据输出的口型图序列数据，图片序列数据、音频序列数据与文本序列数据相匹配；

其中，口型生成器可以为能基于图片和音频输出相应口型图的模型。可选的，口型生成器可以为现有的口型生成器；可选的，口型生成器可以为处于训练过程中的口型生成器，也可以是已训练好的口型生成器，本发明对此不作限定。

其中，口型图可以为对图片序列数据中的图片进行口型匹配之后的图片。

可以理解的是，上述AI模型的口型转换性能较弱时，可能会导致AI模型所输出视频的画面与音频存在不同步的问题。具体的，本发明可以通过图1所示方法，对口型生成器的结构参数进行更新，优化口型生成器的模型结构，提高口型生成器基于音频和图片的口型图生成性能，提高口型生成器所生成的口型图与音频的匹配度即同步性，从而优化目标视频的音画同步效果。

其中，图片序列数据可以是基于目标视频在预定义时段中的各帧完整图片生成的序列数据。

可选的，图片序列数据中的图片均可以为已遮挡住角色口型的图片。可选的，已遮挡住角色口型的图片可以为遮挡住嘴巴部分的角色面部图片；可选的，已遮挡住角色口型的图片也可以为只包含角色面部上半部分的图片。

可选的，本发明可以先行获得目标视频在预定义时段中的各帧完整图片，之后分别从各帧完整图片中提取出已遮挡住角色口型的图片，按照时间顺序对已提取出的各遮挡住角色口型的图片进行排列，从而生成图片序列数据；具体的，本发明也可以直接获得已生成好的图片序列数据，比如从其它电子设备处获得已生成好的图片序列数据。

其中，音频序列数据可以是基于目标视频在预定义时段中的音频数据生成的序列数据。

可选的，本发明可以先行获得目标视频在预定义时段内的全部音频数据，之后按照预设的音频采样率对该全部音频数据进行音频采样，获得相应数量的音频采样点数据，之后按照时间顺序对该数量的音频采样点数据进行排序，从而获得音频序列数据。具体的，本发明也可以直接获得音频序列数据，比如从其他电子设备处直接获得音频序列数据。

需要说明的是，文本序列数据、图片序列数据和音频序列数据在预定义时段内的同一时间所对应的数据，可以分别为目标视频在该同一时间对应的文本数据、图片数据和音频数据。因此，文本序列数据、图片序列数据和音频序列数据在同一时间所对应的数据可以是相匹配的，文本序列数据、图片序列数据和音频序列数据在同一序列位置上的数据可以是相匹配的。

具体的，口型生成器可以基于图片序列数据和音频序列数据，输出口型图序列数据。需要说明的是，口型图序列数据、图片序列数据和音频序列数据在同一序列位置上的数据可以相匹配。

可选的，在本实施例提出的其它数据处理方法中，图片序列数据与音频序列数据在同一序列位置上的数据相匹配；口型生成器基于图片序列数据和音频序列数据输出口型图序列数据，包括：

口型生成器分别基于各组视频数据，生成口型图序列数据中的各帧口型图，视频数据包括图片序列数据与音频序列数据分别在同一序列位置上的数据。

需要说明的是，本发明所采用的口型生成器可以通过进行多次图片特征采样和残差连接的方式，来生成口型图，提高口型图与音频的匹配度，从而可以提高口型生成器的模型性能，提高口型生成器所生成的口型图的精准度。

可选的，口型生成器基于第一视频数据生成第一口型图，包括：

口型生成器分别从第一视频数据中的图片和音频采样点数据中，提取出音频特征和图片特征；

口型生成器利用多次下采样、多次上采样和多次残差连接的方式，对音频特征和图片特征进行数据处理，获得处理后数据；

口型生成器对处理后数据进行上采样，生成并输出第一口型图。

其中，第一视频数据可以包括图片序列数据与音频序列数据分别在同一序列位置上的一帧图片和一个音频采样点数据。比如，第一视频数据可以包括图片序列数据在第一序列位置上的一帧图片，和音频序列数据在第一序列位置上的一个音频采样点数据。

需要说明的是，本发明对于图片特征和音频特征的提取方式不作限定。比如，本发明可以基于梅尔频谱的方式来提取音频特征。

可选的，口型生成器包括：音频特征提取层、图片特征提取层、音频采样层、第一图片采样层、第二图片采样层、合并层、第一上采样层、第一连接层、第二上采样层、第二连接层和第三上采样层。

可选的，口型生成器分别从第一视频数据中的图片和音频采样点数据中，提取出图片特征和音频特征，包括：

图片特征提取层从第一视频数据中的图片中提取出图片特征；

音频特征提取层从第一视频数据中的音频采样点数据中提取出音频特征。

可选的，口型生成器利用多次下采样、多次上采样和多次残差连接的方式，对音频特征和图片特征进行数据处理，获得处理后数据，包括：

音频采样层对音频特征进行下采样，获得第一下采样数据，对第一下采样数据进行下采样，获得第二下采样数据；

第一图片采样层对图片特征进行下采样，获得第三下采样数据；

第二图片采样层对第三下采样数据进行下采样，获得第四下采样数据；

合并层对第二下采样数据和第四下采样数据进行合并处理，获得合并数据；

第一上采样层对合并数据进行上采样，获得第一上采样数据；

第一连接层对第一上采样数据与第三下采样数据进行残差连接，获得第一连接数据；

第二上采样层对第一连接数据进行上采样，获得第二上采样数据；

第二连接层对第二上采样数据与第四下采样数据进行残差连接，获得处理后数据。

可选的，口型生成器对处理后数据进行上采样，生成并输出第一口型图，可以包括：

第三上采样层对处理后数据进行上采样，生成并输出第一口型图。

为更好的介绍本实施例中口型生成器生成口型图的过程，本实施例提出并结合图2进行说明。在图2中，本发明可以将相匹配的第一音频采样点数据和第一图片输入至口型生成器，口型生成器中的音频采样层和图片采样层可以分别从第一音频采样点数据和第一图片中，提取出音频特征和图片特征；

之后，音频采样层可以将音频特征输出至音频采样层，音频采样层可以对音频特征进行下采样，获得第一下采样数据，音频采样层可以继续对第一下采样数据进行下采样，获得第二下采样数据；图片采样层可以将图片特征输出至第一图片采样层，第一图片采样层可以对图片特征进行下采样，获得第三下采样数据并输出第二图片采样层；第二图片采样层可以对第三下采样数据进行下采样，获得第四下采样数据；

之后，音频采样层可以将第二下采样数据输出至合并层，第二图片采样层可以将第四下采样数据输出合并层，合并层可以对第二下采样数据和第四下采样数据进行合并，获得合并数据并输出至第一上采样层；第一上采样层可以对合并数据进行上采样，获得第一上采样数据；

之后，第一连接层可以分别从第一上采样层和第一图片采样层处获得第一上采样数据和第三下采样数据，并对第一上采样数据和第三下采样数据进行残差连接，获得第一连接数据，并输出至第二上采样层；第二上采样层对第一连接数据进行上采样，获得第二上采样数据；

之后，第二连接层可以分别从第二图片采样层和第二上采样层处获得第四下采样数据和第二上采样数据，并对第四下采样数据和第二上采样数据进行残差连接，获得处理后数据并输出至第三上采样层；第三上采样层对处理后数据进行上采样，从而可以生成并输出一帧口型图。

S103、将文本序列数据与口型图序列数据的同步损失值确定为第一同步损失值；

其中，同步损失值可以用于衡量文本与口型图在同步性上的差距。

需要说明的是，由于文本序列数据、图片序列数据和音频序列数据在同一序列位置上的数据可以相匹配，且口型图序列数据、图片序列数据和音频序列数据在同一序列位置上的数据可以相匹配，因此，口型图序列数据与文本序列数据在同一序列位置上的数据可以相匹配。

可选的，本发明可以通过预先定义好的损失函数，分别计算口型图序列数据与文本序列数据在各序列位置上的数据的同步损失值，之后将计算出的各个同步损失值进行相加，将相加所获得的值确定为第一同步损失值。比如，当口型图序列数据和文本序列数据中包括有两个序列位置时，计算口型图序列数据与文本序列数据在第一序列位置上的数据的同步损失值，计算口型图序列数据与文本序列数据在第二序列位置上的数据的同步损失值，之后将计算出的两个同步损失值进行相加，将相加所获得的值确定为第一同步损失值。

可选的，步骤S103可以包括：

将文本序列数据与口型图序列数据输入至第一判别器，第一判别器为用于计算文本与口型图的同步损失值的模型；

获得第一判别器输出的第一同步损失值。

其中，第一判别器可以为用于衡量文本与口型图在同步性上的差距的模型。

需要说明的是，本发明可以先行通过机器学习，对第一判别器进行训练，将第一判别器训练至满足要求的模型，之后再利用训练好的第一判别器来计算第一同步损失值。

可选的，本发明在对第一判别器进行训练过程中，可以将同步性高或者完全同步的文本与音频作为正样本，并标记为1，对第一判别器进行训练；也可以将同步性低的文本与音频作为负样本，并标记为0，对第一判别器进行训练。

具体的，第一判别器可以在接收到文本序列数据与口型图序列数据之后，可以分别计算口型图序列数据与文本序列数据在各序列位置上的数据的同步损失值，之后将计算出的各个同步损失值进行相加，将相加所获得的值确定为第一同步损失值。

S104、基于第一同步损失值，更新口型生成器。

具体的，本发明可以基于第一同步损失值，对口型生成器的结构参数进行更新，优化口型生成器的模型结构，从而优化口型生成器的模型性能，提高口型生成器所生成口型图中的口型与音频的同步性。

可选的，本发明可以在对口型生成器进行更新之后，再执行图1所示方法对口型生成器进行更新，直至口型生成器的模型性能满足要求。

可选的，本发明可以结合更新后的口型生成器所输出的口型图序列数据与音频序列数据，进行视频的输出，提高目标视频的音画同步效果。

可选的，本发明可以在口型生成器中接收输入数据的结构处设置一层卷积层，该卷积层可以接收维度更大的数据(如从可以接收96*96的数据，调整至可以接收132*132的数据)，提高数据的可接收数据量，从而可以利用更多的数据进行口型生成图的生成，提高口型生成图的准确度。

可选的，本发明还可以在口型生成器中设置图片增强器，通过图片增强器来提高口型图的清晰度和分辨率等效果。

具体的，本发明可以将经图1所示方法更新后的口型生成器应用于现有的对口型的AI模型(如wav2lip模型)，提高AI模型所生成口型图的精准度，从而提高AI模型基于音频和视频中目标角色进行口型转换的能力，优化AI模型所输出视频的画面与音频的同步性。

需要说明的是，本发明可以在获得与图片序列数据、音频序列数据相匹配的文本序列数据，与图片序列数据、音频序列数据相匹配的口型图序列数据之后，计算文本序列数据与音频序列数据的第一同步损失值，基于第一同步损失值对口型生成器的结构参数进行更新，优化口型生成器的模型结构和模型性能，提高口型生成器基于音频和图片的口型图生成性能，提高口型生成器所生成的口型图与音频的匹配度即同步性，从而优化目标视频的音画同步效果。

本实施例提出的数据处理方法，可以获得目标视频在预定义时段中的文本序列数据，获得口型生成器基于图片序列数据和音频序列数据输出的口型图序列数据，图片序列数据、音频序列数据与文本序列数据相匹配，将文本序列数据与口型图序列数据的同步损失值确定为第一同步损失值，基于第一同步损失值，更新口型生成器。本发明可以在获得与图片序列数据、音频序列数据相匹配的文本序列数据，与图片序列数据、音频序列数据相匹配的口型图序列数据之后，计算文本序列数据与音频序列数据的第一同步损失值，基于第一同步损失值对口型生成器的结构参数进行更新，优化口型生成器的模型结构和模型性能，提高口型生成器基于音频和图片的口型图生成性能，提高口型生成器所生成的口型图与音频的匹配度即同步性，从而优化目标视频的音画同步效果。

基于图1所示步骤，如图3所示，本实施例提出第二种数据处理方法。该方法可以包括以下步骤：

S201、获得目标视频在预定义时段中的文本序列数据；

S202、获得口型生成器基于图片序列数据和音频序列数据输出的口型图序列数据，图片序列数据、音频序列数据与文本序列数据相匹配；

S203、将文本序列数据与口型图序列数据的同步损失值确定为第一同步损失值；

需要说明的是，步骤S201、S202和S203分别与上述步骤S101、S102和S103的内容一致，此处不再赘述。

S204、将完整图片序列数据和口型图序列数据输入至第二判别器，获得第二判别器输出的图片损失值，完整图片序列数据包括图片序列数据中各图片分别对应的完整图片；

具体的，图片序列数据中各图片分别对应的完整图片，均可以为目标视频中的完整图片。

其中，完整图片序列数据可以是各帧完整图片按照时间顺序排列而成的序列数据。可以理解的是，完整图片序列数据与口型图序列数据在同一序列位置上的数据可以是相匹配的。

其中，第二判别器可以用于衡量完整图片与口型图的差距。

其中，图片损失值可以为完整图片序列数据和口型图序列数据的损失值。

需要说明的是，本发明可以引入完整图片序列数据和第二判别器，计算图片损失值，结合图片损失值来更新口型生成器。

具体的，第二判别器可以在接收到完整图片序列数据与口型图序列数据之后，可以分别计算口型图序列数据与完整图片序列数据在各序列位置上的数据的损失值，之后将计算出的各个损失值进行相加，将相加所获得的值确定为图片损失值。

S205、将音频序列数据和口型图序列数据输入至第三判别器，获得第三判别器输出的第二同步损失值；

其中，第三判别器可以用于衡量音频与口型图的同步性差距。

其中，第二同步损失值可以为音频序列数据与口型图序列数据的损失值。

需要说明的是，本发明可以引入音频序列数据和第三判别器，计算第二同步损失值，结合第二同步损失值来更新口型生成器。

具体的，第三判别器可以在接收到音频序列数据与口型图序列数据之后，可以分别计算口型图序列数据与音频序列数据在各序列位置上的数据的同步损失值，之后将计算出的各个同步损失值进行相加，将相加所获得的值确定为第二同步损失值。

可选的，第一判别器、第二判别器和第三判别器可以为同一判别器，此时本发明可以通过该同一判别器来完成对第一同步损失值、图片损失值和第二同步损失值的计算，此时本发明可以将文本序列数据、音频序列数据、图片序列数据和口型图序列数据一并输入至该同一判别器中，由该同一判别器分别计算出第一同步损失值、图片损失值和第二同步损失值；可选的，第一判别器、第二判别器和第三判别器也可以为不同的判别器。

S206、基于第一同步损失值、图片损失值和第二同步损失值，获得最终损失值；

具体的，本发明可以在计算出第一同步损失值、图片损失值和第二同步损失值后，基于第一同步损失值、图片损失值和第二同步损失值进行数学运算，比如可以直接将第一同步损失值、图片损失值和第二同步损失值进行相加，之后可以将进行数学运算后所获得的值确定为最终损失值。

可选的，本发明在进行数学运算过程中，也可以先行对第一同步损失值、图片损失值和第二同步损失值进行赋权，之后再基于第一同步损失值、图片损失值和第二同步损失值和各权重进行求和运算。需要说明的是，本发明对于数学运算的具体运算方式和运算过程不作限定。

S207、基于最终损失值，更新口型生成器。

需要说明的是，上述步骤S206和S207可以为上述步骤S104的一种实施方式。

具体的，本发明可以在获得最终损失值之后，基于最终损失值来对口型生成器的结构参数进行更新，优化口型生成器的模型结构。

需要说明的是，本发明通过引入图片损失值和第二同步损失值，可以进一步提高口型生成器的模型性能，进一步提高口型生成器基于音频和图片的口型图生成性能，提高口型生成器所生成的口型图与音频的匹配度即同步性，从而优化目标视频的音画同步效果。

本实施例提出的数据处理方法，可以通过引入图片损失值和第二同步损失值，可以进一步提高口型生成器的模型性能，进一步提高口型生成器基于音频和图片的口型图生成性能，提高口型生成器所生成的口型图与音频的匹配度即同步性，从而优化目标视频的音画同步效果。

与图1所示方法相对应，如图4所示，本实施例提出了第一种数据处理装置，该装置可以包括：第一获得单元101、第二获得单元102、第一确定单元103和第一更新单元104；其中：

第一获得单元101，用于获得目标视频在预定义时段中的文本序列数据；

第二获得单元102，用于获得口型生成器基于图片序列数据和音频序列数据输出的口型图序列数据，图片序列数据、音频序列数据与文本序列数据相匹配；

第一确定单元103，用于将文本序列数据与口型图序列数据的同步损失值确定为第一同步损失值；

第一更新单元104，用于基于第一同步损失值，更新口型生成器。

需要说明的是，第一获得单元101、第二获得单元102、第一确定单元103和第一更新单元104的具体处理及其带来的技术效果可分别参考图1中的步骤S101、S102、S103和S104。

可选的，第一确定单元103，包括：第一输入单元和第三获得单元；

第一输入单元，用于将文本序列数据与口型图序列数据输入至第一判别器，第一判别器为用于计算文本与口型图的同步损失值的模型；

第三获得单元，用于获得第一判别器输出的第一同步损失值。

可选的，图片序列数据与音频序列数据在同一序列位置上的数据相匹配；口型生成器基于图片序列数据和音频序列数据输出口型图序列数据，设置为：

可选的，口型生成器基于第一视频数据生成第一口型图，设置为：

口型生成器分别从第一视频数据中的图片和音频采样点数据中，提取出图片特征和音频特征；

可选的，口型生成器分别从第一视频数据中的图片和音频采样点数据中，提取出图片特征和音频特征，设置为：

可选的，口型生成器利用多次下采样、多次上采样和多次残差连接的方式，对音频特征和图片特征进行数据处理，获得处理后数据，设置为：

可选的，上述装置还包括：第二输入单元、第四获得单元、第三输入单元和第五获得单元；第一更新单元104，包括：第六获得单元和第二更新单元；其中：

第二输入单元，用于将完整图片序列数据和口型图序列数据输入至第二判别器，完整图片序列数据包括图片序列数据中各图片分别对应的完整图片；

第四获得单元，用于获得第二判别器输出的图片损失值；

输入单元，用于将音频序列数据和口型图序列数据输入至第三判别器；

第五获得单元，用于获得第三判别器输出的第二同步损失值；

第六获得单元，用于基于第一同步损失值、图片损失值和第二同步损失值，获得最终损失值；

第二更新单元，用于基于最终损失值，更新口型生成器。

本实施例提出的数据处理装置，可以在获得与图片序列数据、音频序列数据相匹配的文本序列数据，与图片序列数据、音频序列数据相匹配的口型图序列数据之后，计算文本序列数据与音频序列数据的第一同步损失值，基于第一同步损失值对口型生成器的结构参数进行更新，优化口型生成器的模型结构和模型性能，提高口型生成器基于音频和图片的口型图生成性能，提高口型生成器所生成的口型图与音频的匹配度即同步性，从而优化目标视频的音画同步效果。

基于图4，本实施例提出第二种数据处理装置。该装置还包括：第二输入单元、第四获得单元、第三输入单元和第五获得单元；第一更新单元104，包括：第六获得单元和第二更新单元；其中：

第四获得单元，用于获得第二判别器输出的图片损失值；

第二更新单元，用于基于最终损失值，更新口型生成器。

需要说明的是，第二输入单元、第四获得单元、第三输入单元、第五获得单元、第六获得单元和第二更新单元，可以参照图3中的步骤，此处再赘述。

本实施例提出的数据处理装置，可以通过引入图片损失值和第二同步损失值，可以进一步提高口型生成器的模型性能，进一步提高口型生成器基于音频和图片的口型图生成性能，提高口型生成器所生成的口型图与音频的匹配度即同步性，从而优化目标视频的音画同步效果。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获得目标视频在预定义时段中的文本序列数据；

基于所述第一同步损失值，更新所述口型生成器。

2.根据权利要求1所述的数据处理方法，其特征在于，所述将所述文本序列数据与所述口型图序列数据的同步损失值确定为第一同步损失值，包括：

获得所述第一判别器输出的所述第一同步损失值。

3.根据权利要求1所述的数据处理方法，其特征在于，所述图片序列数据与所述音频序列数据在同一序列位置上的数据相匹配；所述口型生成器基于所述图片序列数据和所述音频序列数据输出所述口型图序列数据，包括：

4.根据权利要求3所述的数据处理方法，其特征在于，所述口型生成器基于第一视频数据生成第一口型图，包括：

5.根据权利要求4所述的数据处理方法，其特征在于，所述口型生成器包括：音频特征提取层、图片特征提取层、音频采样层、第一图片采样层、第二图片采样层、合并层、第一上采样层、第一连接层、第二上采样层、第二连接层和第三上采样层。

6.根据权利要求5所述的数据处理方法，其特征在于，所述口型生成器分别从所述第一视频数据中的图片和音频采样点数据中，提取出图片特征和音频特征，包括：

7.根据权利要求5所述的数据处理方法，其特征在于，所述口型生成器利用多次下采样、多次上采样和多次残差连接的方式，对所述音频特征和所述图片特征进行数据处理，获得处理后数据，包括：

8.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

基于所述最终损失值，更新所述口型生成器。

9.一种数据处理装置，其特征在于，所述装置包括：第一获得单元、第二获得单元、第一确定单元和第一更新单元；其中：

10.根据权利要求9所述的装置，其特征在于，所述第一确定单元，包括：第一输入单元和第三获得单元；