CN115996303A

CN115996303A - 视频生成方法、装置、电子设备和存储介质

Info

Publication number: CN115996303A
Application number: CN202310290547.9A
Authority: CN
Inventors: 雷新宇; 何山; 疏坤; 周良; 殷兵; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-04-21
Anticipated expiration: 2043-03-23
Also published as: CN115996303B

Abstract

本发明涉及图像处理技术领域，提供一种视频生成方法、装置、电子设备和存储介质。方法包括：获取混合语音和多人画面，并对所述多人画面进行人脸检测，获得多个人脸图像，所述混合语音包括至少一人的语音；基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像；将所述多个目标人脸图像组与所述多人画面进行融合，得到多帧目标多人同屏画面，并将所述多帧目标多人同屏画面与所述混合语音进行融合，得到多人会话视频。本发明无需对多个人的视频进行合成即可自动生成多人同屏的多人会话视频，从而节省人工成本，提高多人会话视频的制作效率。

Description

视频生成方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频生成方法、装置、电子设备和存储介质。

背景技术

随着科技的迅速发展，针对虚拟人进行视频驱动的应用范围越来越广泛。目前，大多只能播放单个虚拟人的视频，而在一些应用场景中，需要播放多人同屏的多人会话视频。

目前，对于多人同屏的对话场景，需要对多个人的视频进行合成，从而耗费大量时间在视频剪辑上，且视频剪辑工作量大，其需要依赖大量人工，导致人工成本高，多人会话视频的制作效率低。

发明内容

本发明提供一种视频生成方法、装置、电子设备和存储介质，用以解决现有技术中多人会话视频的制作效率低的缺陷，实现高效的视频生成。

本发明提供一种视频生成方法，包括：

获取混合语音和多人画面，并对所述多人画面进行人脸检测，获得多个人脸图像，所述混合语音包括至少一人的语音；

基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像；

将所述多个目标人脸图像组与所述多人画面进行融合，得到多帧目标多人同屏画面，并将所述多帧目标多人同屏画面与所述混合语音进行融合，得到多人会话视频。

根据本发明提供的一种视频生成方法，所述多个目标人脸图像组是由视频生成模型生成的，所述视频生成模型是基于如下步骤训练：

获取多个人对应的样本视频，以及样本多人混合语音；

对多个所述样本视频进行人脸检测，获得多个样本人脸图像序列，任一所述样本人脸图像序列包括多帧样本人脸图像；

将所述多个样本人脸图像序列和所述样本多人混合语音的语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，任一所述样本目标人脸图像组包括一个人在不同帧的样本目标人脸图像；

基于所述多个样本目标人脸图像组和所述多个样本目标人脸图像组对应的样本人脸图像组，联合图像判别模型对所述视频生成模型进行对抗训练，任一所述样本人脸图像组包括一个人在不同帧的样本人脸图像。

根据本发明提供的一种视频生成方法，所述将所述多个样本人脸图像序列和所述样本多人混合语音的语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，包括：

对所述多个样本人脸图像序列分别进行口鼻遮罩处理，得到多个样本遮罩图像序列；

将所述多个样本遮罩图像序列和所述样本多人混合语音的语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组。

根据本发明提供的一种视频生成方法，所述将所述多个样本遮罩图像序列和所述样本多人混合语音的语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，包括：

从所述多个人中确定出多个目标人，并对所述多个目标人对应的所述样本视频进行语音特征提取，得到多个目标语音特征；

将所述多个目标语音特征与所述样本多人混合语音的语音特征进行融合处理，得到多个融合语音特征；

将所述多个样本遮罩图像序列和所述多个融合语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组。

根据本发明提供的一种视频生成方法，所述将所述多个样本遮罩图像序列和所述多个融合语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，包括：

对所述多个样本遮罩图像序列和所述多个融合语音特征进行对齐，得到对齐结果；

基于所述对齐结果，将所述多个样本遮罩图像序列的图像特征和所述多个融合语音特征分别进行融合处理，得到多个融合特征；

将所述多个融合特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组。

根据本发明提供的一种视频生成方法，多个所述样本人脸图像组是基于如下步骤确定：

获取所述多个人对应的样本静默视频，并对多个所述样本静默视频进行人脸检测，获得多个静默人脸图像序列，所述样本静默视频是对不说话的人进行拍摄得到的，任一所述静默人脸图像序列包括多帧静默人脸图像；

基于所述多个静默人脸图像序列和多个目标人对应的样本人脸图像序列，确定多个所述样本人脸图像组，所述多个目标人是从所述多个人中确定得到的。

根据本发明提供的一种视频生成方法，所述样本多人混合语音是基于如下步骤获取：

获取所述多个人对应的样本语音；

将多个所述样本语音进行混合，得到所述样本多人混合语音。

根据本发明提供的一种视频生成方法，所述基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，包括：

对所述多个人脸图像分别进行口鼻遮罩处理，得到多个遮罩图像；

基于所述多个遮罩图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组。

本发明还提供一种视频生成装置，包括：

获取模块，用于获取混合语音和多人画面，并对所述多人画面进行人脸检测，获得多个人脸图像，所述混合语音包括至少一人的语音；

生成模块，用于基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像；

融合模块，用于将所述多个目标人脸图像组与所述多人画面进行融合，得到多帧目标多人同屏画面，并将所述多帧目标多人同屏画面与所述混合语音进行融合，得到多人会话视频。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视频生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频生成方法。

本发明提供的视频生成方法、装置、电子设备和存储介质，基于多个人脸图像的图像特征和混合语音的语音特征生成多个目标人脸图像组，从而将多个目标人脸图像组与多人画面进行融合，得到多帧目标多人同屏画面，并将多帧目标多人同屏画面与混合语音进行融合，得到多人会话视频，从而无需对多个人的视频进行合成即可自动生成多人同屏的多人会话视频，从而节省人工成本，提高多人会话视频的制作效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的视频生成方法的流程示意图之一；

图2为本发明提供的视频生成方法的流程示意图之二；

图3为本发明提供的视频生成装置的结构示意图；

图4为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着科技的迅速发展，针对虚拟人进行视频驱动的应用范围越来越广泛。目前，大多只能播放单个虚拟人的视频，而在一些应用场景中，需要播放多人同屏的多人会话视频。例如，在游戏领域中，需要利用多个虚拟角色进行多人会话；又例如，在虚拟直播领域中，需要多个虚拟形象进行多人对话直播。

现有技术中，大多对单个虚拟人进行视频驱动，即使对多个虚拟人进行视频驱动，也仅仅是在数据展示页面中，呈现多个虚拟形象的待选项，从而在视频驱动时仍然只能播放单个虚拟形象的视频；即使通过三维建模的方式对多个虚拟人物进行渲染，多个虚拟人物的语音可以通过不同文本生成不同类型播报风格的语音，从而再渲染得到包括语音的多人会话视频，然而，其过于依赖于文本，针对真人原始语音驱动、背景嘈杂音频驱动等场景，并无法适用。

针对上述问题，本发明提出以下各实施例。图1为本发明提供的视频生成方法的流程示意图之一，如图1所示，该视频生成方法包括：

步骤110，获取混合语音和多人画面，并对所述多人画面进行人脸检测，获得多个人脸图像，所述混合语音包括至少一人的语音。

此处，混合语音包括单人语音和多人混合语音。多人混合语音为多个说话人进行对话的语音。例如，多人混合语音为三个说话人进行对话的语音，该多人混合语音的时长为30秒，在第0秒至第10秒为第一说话人的语音，在第10秒至第15秒为第二说话人的语音，在第15秒至第20秒为第三说话人的语音，在第20秒至第25秒为第一说话人的语音，在第25秒至第30秒为第二说话人的语音。

该混合语音为需要驱动的语音，即最后生成的多人会话视频所包括的语音为该混合语音，换言之，驱动得到该多人会话视频。该多人会话视频的时长与混合语音的时长一致。该混合语音可以为真人原始语音，其可以包括背景嘈杂音。

在一实施例中，需要驱动的混合语音可以由用户自行确定，即由用户输入该混合语音。

此处，多人画面可以为多人同屏画面，也可以为多人不同屏画面。一个多人同屏画面包括多个人的画面，该多个人在同一画面中呈现，每个人的画面至少包括人脸部分。多人不同屏画面即不同人在不同图像中展示。该多人画面所包括的人数为本发明实施例能够驱动的最多人数，即本发明实施例生成的多人会话视频所能包括的最多人数，换言之，多人画面所包括的人数为视频生成模型所能驱动的最多人数。

具体地，基于人脸检测模型，对多人画面进行人脸检测，确定多人画面中的多个人脸区域，基于该多个人脸区域，对多人画面进行分割截取，得到多个人脸图像。其中，人脸检测模型的具体结构可以根据实际需要进行设定，例如，yolox网络模型，本发明实施例对此不做具体限定。该多个人脸图像的数量与多人画面所包括的人数相同。

步骤120，基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组。

具体地，将多个人脸图像和混合语音的语音特征输入至视频生成模型，得到视频生成模型输出的多个目标人脸图像组。

其中，任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像。

此处，语音特征可以表征混合语音有多少说话人在说话，以及表征哪些人在说话。在一实施例中，该语音特征为混合语音的时频掩码特征。在一实施例中，基于语音特征提取模型，对混合语音进行特征提取，得到语音特征；该语音特征提取模型的具体结构可以根据实际需要进行设定，例如，三层LSTM（Long Short Term Memory，长短期记忆）网络模型，本发明实施例对此不做具体限定。

此处，多个目标人脸图像组包括多个人对应的目标人脸图像组，该多个目标人脸图像组的数量与多个人脸图像的数量一致，即其与多人画面所包括的人数相同。任一目标人脸图像组所包括的目标人脸图像的数量是基于混合语音的时长确定的。该目标人脸图像至少包括人脸部分。

其中，视频生成模型用于基于多个人脸图像的图像特征和混合语音的语音特征，生成多个目标人脸图像组，即结合混合语音的语音特征，将多个人脸图像转换为多个目标人脸图像组。

该视频生成模型是基于多个样本人脸图像序列和多个样本人脸图像序列对应的样本人脸图像组训练得到的。进一步地，该视频生成模型是基于多个样本人脸图像序列和多个样本人脸图像组，联合图像判别模型对视频生成模型进行对抗训练得到的。

需要说明的是，不同混合语音的语音特征，会使视频生成模型生成的多个目标人脸图像组不同。该语音特征可以驱动对应的说话人的人脸，使该人脸呈现为讲话状态，其他未驱动的说话人则为静默状态。

步骤130，将所述多个目标人脸图像组与所述多人画面进行融合，得到多帧目标多人同屏画面，并将所述多帧目标多人同屏画面与所述混合语音进行融合，得到多人会话视频。

具体地，基于多个目标人脸图像组，对多人画面的每个人的人脸进行替换，得到多帧目标多人同屏画面。进一步地，基于多个目标人脸图像组，对多人画面的每个人的***进行替换，得到多帧目标多人同屏画面。例如，任一目标人脸图像组包括100帧目标人脸图像，则对于每一帧图像而言，将多人画面的每个人的人脸替换为该帧对应的多个目标人脸图像对应的人脸，得到该帧对应的目标多人同屏画面。

此处，目标多人同屏画面包括多个人的画面，该多个人在同一画面中呈现，每个人的画面至少包括人脸部分。该目标多人同屏画面所包括的人数与多人画面的人数相同。目标多人同屏画面与多人画面相比，只是人脸进行了替换，且将多人画面融合为同屏画面，进一步地，只是***进行了替换。

具体地，多帧目标多人同屏画面与混合语音一同经过视频编码器合成多人会话视频。该多人会话视频的语音为混合语音，该多人会话视频可以展示每一帧是谁在讲话，以及讲什么内容。可以理解的是，该多人会话视频所包括的人数与多人画面所包括的人数相同，但多人会话视频中并不一定所有人都讲话。

本发明实施例提供的视频生成方法，基于多个人脸图像的图像特征和混合语音的语音特征生成多个目标人脸图像组，从而将多个目标人脸图像组与多人画面进行融合，得到多帧目标多人同屏画面，并将多帧目标多人同屏画面与混合语音进行融合，得到多人会话视频，从而无需对多个人的视频进行合成即可自动生成多人同屏的多人会话视频，从而节省人工成本，提高多人会话视频的制作效率。

基于上述实施例，图2为本发明提供的视频生成方法的流程示意图之二，如图2所示，所述多个目标人脸图像组是由视频生成模型生成的，所述视频生成模型是基于如下步骤训练：

步骤210，获取多个人对应的样本视频，以及样本多人混合语音。

此处，样本视频是对说话人进行拍摄得到的，该样本视频的数量与多个人的数量一致，即单独对每一说话人进行拍摄得到多个人对应的样本视频。具体地，确定需要驱动的多人会话视频所包括的人数，基于该人数，确定多个人的数量。

在一实施例中，对多个人对应的样本视频分别进行人物ID标注，以供后续基于标注的人物ID，确定每个人对应的样本视频，并确定样本视频的排序。

此处，样本多人混合语音为多个说话人进行对话的语音。例如，样本多人混合语音为三个说话人进行对话的语音，该样本多人混合语音的时长为30秒，在第0秒至第5秒为第一说话人的语音，在第5秒至第10秒为第二说话人的语音，在第10秒至第20秒为第三说话人的语音，在第20秒至第25秒为第一说话人的语音，在第25秒至第30秒为第二说话人的语音。

步骤220，对多个所述样本视频进行人脸检测，获得多个样本人脸图像序列，任一所述样本人脸图像序列包括多帧样本人脸图像。

具体地，对一个样本视频进行人脸检测，获得一个样本人脸图像序列。更为具体地，对该样本视频的每一帧样本图像进行人脸检测，获得多帧样本人脸图像。

在一实施例中，基于人脸检测模型，对任一帧样本图像进行人脸检测，确定该任一帧样本图像中的人脸区域，基于该人脸区域，对该任一帧样本图像进行分割截取，得到该任一帧对应的样本人脸图像。其中，人脸检测模型的具体结构可以根据实际需要进行设定，例如，yolox网络模型，本发明实施例对此不做具体限定。

该多个样本人脸图像序列的数量与样本视频的数量一致，即其与多个人的数量一致。该任一样本人脸图像序列所包括的样本人脸图像数量是基于样本视频的时长确定的，即其是基于样本多人混合语音的时长确定的。

步骤230，将所述多个样本人脸图像序列和所述样本多人混合语音的语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组。

其中，任一所述样本目标人脸图像组包括一个人在不同帧的样本目标人脸图像。

此处，语音特征可以表征样本多人混合语音有多少说话人在说话，以及表征哪些人在说话。在一实施例中，该语音特征为样本多人混合语音的时频掩码特征。在一实施例中，基于语音特征提取模型，对样本多人混合语音进行特征提取，得到语音特征；该语音特征提取模型的具体结构可以根据实际需要进行设定，例如，三层LSTM网络模型，本发明实施例对此不做具体限定。

此处，多个样本目标人脸图像组包括多个人对应的样本目标人脸图像组，该多个样本目标人脸图像组的数量与多个样本人脸图像序列的数量一致，即其与多个人的数量相同。任一样本目标人脸图像组所包括的样本目标人脸图像的数量是基于样本多人混合语音的时长确定的。该样本目标人脸图像至少包括人脸部分。

在一实施例中，从多个人中确定出多个目标人，并对多个目标人对应的样本视频进行语音特征提取，得到多个目标语音特征；将多个目标语音特征与样本多人混合语音的语音特征进行融合处理，得到多个融合语音特征；将多个样本人脸图像序列和多个融合语音特征输入至视频生成模型，得到视频生成模型输出的多个样本目标人脸图像组。具体的执行过程，参照下述实施例，此处不再一一赘述。

在一实施例中，对多个样本人脸图像序列和多个融合语音特征进行对齐，得到对齐结果；基于对齐结果，将多个样本人脸图像序列的图像特征和样本多人混合语音的语音特征分别进行融合处理，得到多个融合特征；将多个融合特征输入至视频生成模型，得到视频生成模型输出的多个样本目标人脸图像组。具体的执行过程，参照下述实施例，此处不再一一赘述。

步骤240，基于所述多个样本目标人脸图像组和所述多个样本目标人脸图像组对应的样本人脸图像组，联合图像判别模型对所述视频生成模型进行对抗训练。

其中，任一所述样本人脸图像组包括一个人在不同帧的样本人脸图像。

具体地，将多个样本目标人脸图像组和多个样本人脸图像组输入至图像判别模型，得到图像判别模型输出的判别结果，基于该判别结果对视频生成模型进行训练。更为具体地，将视频生成模型生成的样本目标人脸图像输入至图像判别模型，并将该样本目标人脸图像对应的样本人脸图像输入至图像判别模型，以供图像判别模型判别该样本目标人脸图像是否准确。

此处，图像判别模型为预先训练得到的判别模型，该图像判别模型可以准确地进行图像判别。

此处，样本人脸图像组的数量与多个样本目标人脸图像组的数量一致，即其与多个人的数量相同。任一样本人脸图像组所包括的样本人脸图像的数量是基于样本多人混合语音的时长确定的。该样本人脸图像至少包括人脸部分。

需要说明的是，视频生成模型的测试步骤、验证步骤与该视频生成模型的训练步骤基本相同，此处不再一一赘述。

本发明实施例提供的视频生成方法，将多个样本人脸图像序列和样本多人混合语音的语音特征输入至视频生成模型，得到视频生成模型输出的多个样本目标人脸图像组，从而基于多个样本目标人脸图像组和多个样本目标人脸图像组对应的样本人脸图像组，联合图像判别模型对视频生成模型进行对抗训练，从而为视频生成模型的训练提供支持，以供基于视频生成模型自动生成多人同屏的多人会话视频，从而节省人工成本，提高多人会话视频的制作效率。

基于上述任一实施例，该方法中，上述步骤230包括：

具体地，对多个样本人脸图像序列的每一样本人脸图像进行口鼻遮罩处理，即将样本人脸图像的口鼻位置进行遮挡，以供视频生成模型生成新的口鼻图像特征。

在一实施例中，先对多个样本人脸图像序列的每一样本人脸图像进行预设维度的截取，再对截取后的多个样本人脸图像序列分别进行口鼻遮罩处理。例如，对多个样本人脸图像序列的每一样本人脸图像截取256*256维的图像并进行口鼻遮罩处理。

此处，多个样本遮罩图像序列包括多个人对应的样本遮罩图像序列，该多个样本遮罩图像序列的数量与多个样本人脸图像序列的数量一致，即其与多个人的数量相同。任一样本遮罩图像序列包括一个人在不同帧的样本遮罩图像；任一样本遮罩图像序列所包括的样本遮罩图像的数量是基于样本多人混合语音的时长确定的。该样本遮罩图像的口鼻位置被遮挡。

本发明实施例提供的视频生成方法，对多个样本人脸图像序列分别进行口鼻遮罩处理，再将多个样本遮罩图像序列输入至视频生成模型，以供视频生成模型重点关注口鼻位置的图像特征生成，从而提高目标人脸图像组的生成准确性，进而提高多人会话视频的生成准确性。

基于上述任一实施例，该方法中，所述将所述多个样本遮罩图像序列和所述样本多人混合语音的语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，包括：

需要说明的是，考虑到在实际场景中，并不一定需要对所有人进行驱动。例如，本发明实施例能够驱动的最多人数为10，则可以从10个人中确定出两个目标人。基于此，可以基于不同目标人数量，以及不同目标人的场景对视频生成模型进行训练，以提高视频生成模型的泛化性，以适用于各种场景。

此处，目标语音特征可以表征有多少目标人在说话，以及表征哪些目标人在说话。在一实施例中，该目标语音特征为样本视频的音频的时频掩码特征。在一实施例中，基于语音特征提取模型，对样本视频的音频进行特征提取，得到目标语音特征；该语音特征提取模型的具体结构可以根据实际需要进行设定，例如，三层LSTM网络模型，本发明实施例对此不做具体限定。该多个目标语音特征的数量与多个目标人对应的样本视频的数量一致，即其与多个目标人的数量一致。

在一实施例中，假设本发明实施例能够驱动的最多人数为10，多个目标人的数量为2，可以对两个目标语音特征进行补齐处理，以使补齐得到的语音特征的维度为10个人所对应的维度，进而将补齐后的语音特征与样本多人混合语音的语音特征进行融合处理，得到多个融合语音特征。

具体地，将多个目标语音特征与样本多人混合语音的语音特征进行相乘处理，得到多个融合语音特征。该多个融合语音特征的数量与多个目标语音特征的数量一致，即其与多个目标人的数量一致。该多个融合语音特征仅含有多个目标人对应的语音特征。

在一实施例中，可以对多个融合语音特征进行自回归处理，得到处理后的多个融合语音特征。例如，通过两层LSTM网络层对多个融合语音特征进行自回归处理。

本发明实施例提供的视频生成方法，将多个目标人的多个目标语音特征与样本多人混合语音的语音特征进行融合处理，得到仅含有多个目标人对应的多个融合语音特征，以训练得到可以生成只有该多个目标人说话的多人会话视频的视频生成模型，从而提高多人会话视频的生成准确性。

基于上述任一实施例，该方法中，所述将所述多个样本遮罩图像序列和所述多个融合语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，包括：

需要说明的是，多个样本遮罩图像序列包括多个人对应的样本遮罩图像序列，多个融合语音特征包括多个目标人对应的融合语音特征，基于此，确定同一人对应的样本遮罩图像序列和融合语音特征，进而将同一人对应的样本遮罩图像序列和融合语音特征进行对齐，以基于对齐结果，将同一人对应的样本遮罩图像序列的图像特征和融合语音特征进行融合处理，得到融合特征。

此处，融合处理的方式可以包括但不限于：拼接（concat）、相加、相乘等等。

此处，多个融合特征的数量与多个样本遮罩图像序列的数量相同，即其与多个人的数量相同。若样本遮罩图像序列没有对应的融合语音特征与其进行融合，则直接将该样本遮罩图像序列的图像特征确定为融合特征。

在一实施例中，任一融合特征是基于如下步骤确定：将样本遮罩图像序列的图像特征按照时间维度进行拼接（concat）成一个拼接特征，将该拼接特征与对应的融合语音特征进行融合处理，得到该任一融合特征。

本发明实施例提供的视频生成方法，对多个样本遮罩图像序列和多个融合语音特征进行对齐，得到对齐结果，以基于该对齐结果，将多个样本遮罩图像序列的图像特征和多个融合语音特征分别进行融合处理，得到多个融合特征，进而将同一人对应的样本遮罩图像序列和融合语音特征进行融合，以将多个融合特征输入至视频生成模型，更为准确得到多个人对应的样本目标人脸图像组，从而进一步提高多人会话视频的生成准确性。

基于上述任一实施例，该方法中，多个所述样本人脸图像组是基于如下步骤确定：

此处，样本静默视频是对未说话的说话人进行拍摄得到的，该样本静默视频的数量与多个人的数量一致，即单独对每一说话人进行拍摄得到多个人对应的样本静默视频。

在一实施例中，对多个人对应的样本静默视频分别进行人物ID标注，以供后续基于标注的人物ID，确定每个人对应的样本静默视频，并确定样本静默视频的排序。

具体地，对一个样本静默视频进行人脸检测，获得一个静默人脸图像序列。更为具体地，对该样本静默视频的每一帧样本静默图像进行人脸检测，获得多帧静默人脸图像。

在一实施例中，基于人脸检测模型，对任一帧样本静默图像进行人脸检测，确定该任一帧样本静默图像中的人脸区域，基于该人脸区域，对该任一帧样本静默图像进行分割截取，得到该任一帧对应的静默人脸图像。其中，人脸检测模型的具体结构可以根据实际需要进行设定，例如，yolox网络模型，本发明实施例对此不做具体限定。

该多个静默人脸图像序列的数量与样本静默视频的数量一致，即其与多个人的数量一致。该任一静默人脸图像序列所包括的静默人脸图像数量是基于样本静默视频的时长确定的，即其是基于样本多人混合语音的时长确定的。

具体地，对多个静默人脸图像序列和多个目标人对应的样本人脸图像序列进行对齐，得到对齐结果；基于该对齐结果，确定多个样本人脸图像组。

需要说明的是，多个静默人脸图像序列包括多个人对应的静默人脸图像序列，基于此，确定同一人对应的静默人脸图像序列和样本人脸图像序列，进而将同一人对应的静默人脸图像序列替换为该人对应的样本人脸图像序列，并保留未被替换的静默人脸图像序列，最终得到多个人对应的样本人脸图像组。例如，多个人的数量为10，多个目标人的数量为2，则将10个静默人脸图像序列中的两个静默人脸图像序列替换为该两个目标人对应的样本人脸图像序列，从而得到10个人对应的样本人脸图像组。

本发明实施例提供的视频生成方法，获取多个人对应的样本静默视频，并对多个样本静默视频进行人脸检测，获得多个静默人脸图像序列，从而基于多个静默人脸图像序列和多个目标人对应的样本人脸图像序列，准确确定多个样本人脸图像组，进而准确得到训练的真实标签，以提高模型训练效果，进而提高视频生成模型的鲁棒性，最终进一步提高多人会话视频的生成准确性。

基于上述任一实施例，该方法中，所述样本多人混合语音是基于如下步骤获取：

获取所述多个人对应的样本语音；

此处，样本语音是对说话人进行采集得到的，该样本语音的数量与多个人的数量一致，即单独对每一说话人进行采集得到多个人对应的样本语音。该样本语音是与上述样本视频同步采集得到的。

在一实施例中，对多个人对应的样本语音分别进行人物ID标注，以供后续基于标注的人物ID，确定每个人对应的样本语音，并确定样本语音的排序。

具体地，将各样本语音进行排列组合及重叠混合，以生成大量的样本多人混合语音，从而提高模型训练效果。例如，将第三个人的第10秒到第11秒的样本语音，以及第十个人的第1秒到第2秒的样本语音混合进第一个人的第3秒至第4秒的样本语音，从而得到一个样本多人混合语音。

本发明实施例提供的视频生成方法，获取多个人对应的样本语音；将多个样本语音进行混合，得到样本多人混合语音，从而对训练集进行数据增广，以使样本多人混合语音充分涵盖不同数量、不同音长的说话人的语音，从而提高模型训练效果，进而提高视频生成模型的鲁棒性，最终进一步提高多人会话视频的生成准确性。

基于上述任一实施例，该方法中，上述步骤120包括：

具体地，对多个人脸图像分别进行口鼻遮罩处理，即将人脸图像的口鼻位置进行遮挡，以供视频生成模型生成新的口鼻图像特征。将多个遮罩图像和混合语音的语音特征输入至视频生成模型，得到视频生成模型输出的多个目标人脸图像组。

在一实施例中，先对多个人脸图像分别进行预设维度的截取，再对截取后的多个人脸图像分别进行口鼻遮罩处理。例如，对多个人脸图像截取256*256维的图像并进行口鼻遮罩处理。

此处，多个遮罩图像的数量与多个人脸图像的数量一致，即其与多人画面所包括的人数相同。

此处，视频生成模型用于基于多个遮罩图像和混合语音的语音特征，生成多个目标人脸图像组，即结合混合语音的语音特征，将多个遮罩图像转换为多个目标人脸图像组。

本发明实施例提供的视频生成方法，对多个人脸图像分别进行口鼻遮罩处理，得到多个遮罩图像，再将多个遮罩图像和混合语音的语音特征输入至视频生成模型，以供视频生成模型重点关注口鼻位置的图像特征生成，从而提高目标人脸图像组的生成准确性，进而提高多人会话视频的生成准确性。

在实际应用过程中，通过上述各实施例，可以使得视频生成流程简便，去除视频剪辑步骤，使得多人会话视频更加连贯自然。

下面对本发明提供的视频生成装置进行描述，下文描述的视频生成装置与上文描述的视频生成方法可相互对应参照。

图3为本发明提供的视频生成装置的结构示意图，如图3所示，该视频生成装置，包括：

获取模块310，用于获取混合语音和多人画面，并对所述多人画面进行人脸检测，获得多个人脸图像，所述混合语音包括至少一人的语音；

生成模块320，用于基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像；

融合模块330，用于将所述多个目标人脸图像组与所述多人画面进行融合，得到多帧目标多人同屏画面，并将所述多帧目标多人同屏画面与所述混合语音进行融合，得到多人会话视频。

本发明实施例提供的视频生成装置，基于多个人脸图像的图像特征和混合语音的语音特征生成多个目标人脸图像组，从而将多个目标人脸图像组与多人画面进行融合，得到多帧目标多人同屏画面，并将多帧目标多人同屏画面与混合语音进行融合，得到多人会话视频，从而无需对多个人的视频进行合成即可自动生成多人同屏的多人会话视频，从而节省人工成本，提高多人会话视频的制作效率。

基于上述任一实施例，该装置还包括模型训练模块，该模型训练模块包括：

视频获取单元，用于获取多个人对应的样本视频，以及样本多人混合语音；

人脸检测单元，用于对多个所述样本视频进行人脸检测，获得多个样本人脸图像序列，任一所述样本人脸图像序列包括多帧样本人脸图像；

图像生成单元，用于将所述多个样本人脸图像序列和所述样本多人混合语音的语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，任一所述样本目标人脸图像组包括一个人在不同帧的样本目标人脸图像；

模型训练单元，用于基于所述多个样本目标人脸图像组和所述多个样本目标人脸图像组对应的样本人脸图像组，联合图像判别模型对所述视频生成模型进行对抗训练，任一所述样本人脸图像组包括一个人在不同帧的样本人脸图像。

基于上述任一实施例，该图像生成单元还用于：

基于上述任一实施例，该模型训练模块还包括：

人脸检测单元，还用于获取所述多个人对应的样本静默视频，并对多个所述样本静默视频进行人脸检测，获得多个静默人脸图像序列，所述样本静默视频是对不说话的人进行拍摄得到的，任一所述静默人脸图像序列包括多帧静默人脸图像；

图像确定单元，用于基于所述多个静默人脸图像序列和多个目标人对应的样本人脸图像序列，确定多个所述样本人脸图像组，所述多个目标人是从所述多个人中确定得到的。

基于上述任一实施例，该视频获取单元还用于：

获取所述多个人对应的样本语音；

基于上述任一实施例，该生成模块320包括：

遮罩处理单元，用于对所述多个人脸图像分别进行口鼻遮罩处理，得到多个遮罩图像；

视频生成单元，用于基于所述多个遮罩图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行视频生成方法，该方法包括：获取混合语音和多人画面，并对所述多人画面进行人脸检测，获得多个人脸图像，所述混合语音包括至少一人的语音；基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像；将所述多个目标人脸图像组与所述多人画面进行融合，得到多帧目标多人同屏画面，并将所述多帧目标多人同屏画面与所述混合语音进行融合，得到多人会话视频。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视频生成方法，该方法包括：获取混合语音和多人画面，并对所述多人画面进行人脸检测，获得多个人脸图像，所述混合语音包括至少一人的语音；基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像；将所述多个目标人脸图像组与所述多人画面进行融合，得到多帧目标多人同屏画面，并将所述多帧目标多人同屏画面与所述混合语音进行融合，得到多人会话视频。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视频生成方法，该方法包括：获取混合语音和多人画面，并对所述多人画面进行人脸检测，获得多个人脸图像，所述混合语音包括至少一人的语音；基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像；将所述多个目标人脸图像组与所述多人画面进行融合，得到多帧目标多人同屏画面，并将所述多帧目标多人同屏画面与所述混合语音进行融合，得到多人会话视频。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的视频生成方法，其特征在于，所述多个目标人脸图像组是由视频生成模型生成的，所述视频生成模型是基于如下步骤训练：

获取多个人对应的样本视频，以及样本多人混合语音；

3.根据权利要求2所述的视频生成方法，其特征在于，所述将所述多个样本人脸图像序列和所述样本多人混合语音的语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，包括：

4.根据权利要求3所述的视频生成方法，其特征在于，所述将所述多个样本遮罩图像序列和所述样本多人混合语音的语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，包括：

5.根据权利要求4所述的视频生成方法，其特征在于，所述将所述多个样本遮罩图像序列和所述多个融合语音特征输入至所述视频生成模型，得到所述视频生成模型输出的多个样本目标人脸图像组，包括：

6.根据权利要求2所述的视频生成方法，其特征在于，多个所述样本人脸图像组是基于如下步骤确定：

7.根据权利要求2所述的视频生成方法，其特征在于，所述样本多人混合语音是基于如下步骤获取：

获取所述多个人对应的样本语音；

8.根据权利要求1所述的视频生成方法，其特征在于，所述基于所述多个人脸图像的图像特征和所述混合语音的语音特征，生成多个目标人脸图像组，包括：

9.一种视频生成装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述视频生成方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述视频生成方法。