CN109819313B

CN109819313B - 视频处理方法、装置及存储介质

Info

Publication number: CN109819313B
Application number: CN201910023976.3A
Authority: CN
Inventors: 田元
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2021-01-08
Anticipated expiration: 2039-01-10
Also published as: CN109819313A

Abstract

本申请实施例公开了一种视频处理方法、装置及存储介质，其中视频处理方法包括：获取用户输入的配音音频数据；从视频文件中得到多帧视频图像；从多帧视频图像中确定出包含目标人脸的初始视频图像，将初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像；对配音音频数据与至少目标视频图像进行合成处理，得到音视频合成文件。本方案将用户配音和用户人像等元素有机融合到视频制作中，提升视频制作中用户深度融入程度、及视频个性化强度。

Description

视频处理方法、装置及存储介质

技术领域

本申请涉及信息处理技术领域，具体涉及一种视频处理方法、装置及存储介质。

背景技术

随着互联网的发展和移动通信网络的发展，同时也伴随着终端的处理能力和存储能力的迅猛发展，海量的应用程序得到了迅速传播和使用，尤其是视频类应用。

视频泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过一定帧数画面以上时，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。网络技术的发达也促使视频的纪录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放。相关技术中，还可允许用户对视频素材进行剪辑、重组、转换格式等操作。

发明内容

本申请实施例提供一种视频处理方法、装置及存储介质，可以提升视频制作中用户深度融入程度、及视频个性化强度。

本申请实施例提供了一种视频处理方法，包括：

获取用户输入的配音音频数据；

从视频文件中得到多帧视频图像；

从所述多帧视频图像中确定出包含目标人脸的初始视频图像，将所述初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像；

对所述配音音频数据与至少所述目标视频图像进行合成处理，得到音视频合成文件。

相应的，本申请实施例还提供了一种视频处理装置，包括：

音频获取单元，获取用户输入的配音音频数据；

图像获取单元，用于从视频文件中得到多帧视频图像；

处理单元，用于从所述多帧视频图像中确定出包含目标人脸的初始视频图像，将所述初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像；

合成单元，用于对所述配音音频数据与至少所述目标视频图像进行合成处理，得到音视频合成文件。

相应的，本申请实施例还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上所述的视频处理方法中的步骤。

本申请实施例在播放视频文件的过程中，首先获取用户输入的配音音频数据，从视频文件中得到多帧视频图像。然后，从所述多帧视频图像中确定出包含目标人脸的初始视频图像，并将所述初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像。最后，对所述配音音频数据与至少所述目标视频图像进行合成处理，得到音视频合成文件。本方案可以将用户配音和用户人像等元素有机融合到视频制作中，提升视频制作中用户深度融入程度、及视频个性化强度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频处理方法的一种架构示意图。

图2是本申请实施例提供的视频处理方法的流程示意图。

图3是本申请实施例提供的视频处理方法的另一流程示意图。

图4是本申请实施例提供的视频处理方法的一种应用场景示意图。

图5是本申请实施例提供的视频处理方法的另一种架构示意图。

图6a～6e是本申请实施例提供的视频处理方法的界面交互示意图。

图7是本申请实施例提供的视频处理方法的又一种架构示意图。

图8是本申请实施例提供的视频处理装置的结构示意图。

图9是本申请实施例提供的视频处理装置的另一结构示意图。

图10是本申请实施例提供的终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频处理方法、装置及存储介质。

其中，该视频处理装置具体可以集成在平板PC(Personal Computer)、手机等具备储存单元并安装有微处理器而具有运算能力的终端机中。例如，以该视频处理装置具体集成在手机为例，参见图1，手机在播放视频文件的过程中，获取用户输入的配音音频数据，同时按照预定帧率时间间隔捕获所播放视频，以将视频抽帧成图像。接着，从多帧视频图像中确定待处理的目标人脸，将目标人脸与用户选取的人脸图像融合处理，得到处理后的目标视频图像(即人脸融合图像)。然后，对处理后的目标视频图像进行编码，得到视频码流，并对音频数据进行编码，得到音频码流。最后，将视频码流与音频码流合成输出，得到音视频合成文件。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

本申请实施例提供一种视频处理方法，包括：获取用户输入的配音音频数据；从视频文件中得到多帧视频图像；从所述多帧视频图像中确定出包含目标人脸的初始视频图像，将所述初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像；对所述配音音频数据与至少所述目标视频图像进行合成处理，得到音视频合成文件。

请参阅图2，图2为本申请实施例提供的视频处理方法的流程示意图。该视频处理方法的具体流程可以如下：

101、获取用户输入的配音音频数据。

具体的，可以在播放视频文件的过程中获取用户输入的配音音频数据，也可以由用户提前录制好配音音频数据。例如，该配音音频数据可以是在播放视频文件的过程中，用户通过终端的麦克风、受话器等设备实时录制的语音信息。该视频文件可以为全消音版视频文件(即视频文件中不带有音频数据)、部分消音版视频文件(即视频文件中仅保留了部分音频数据)，或者未消音版视频文件。

本实施例中，所述配音音频数据，可以包括用户音频数据、原始音频数据、以及背景音频数据，其中所述用户音频数据为用户针对特定影视角色录制的用户真实声音，也可以为用户针对影视内容而录制的旁白声音；所述原始音频数据为非特定影视角色的原始声音；所述背景音频数据为影视背景音。例如，该视频文件中包含影视角色A和影视角色B，则在播放该视频文件时，配音音频数据可以保留影视角色A发出的原始声音，配音用户可对特定的影视角色B需要配音的台词进行配音录制，除此之外所述配音音频数据中还可以包括影视背景音，如背景音乐，背景特效音等。

102、从视频文件中得到多帧视频图像。

在本申请实施例中，该视频文件中包括至少一个具有人脸图像的影视角色。通过对视频文件进行抽帧处理，可从该视频文件中得到多帧视频图像。

103、从多帧视频图像中确定出包含目标人脸的初始视频图像，将初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像。

其中，所述初始视频图像中的目标人脸可以为用户需要对之配音的特定影视角色的人脸，所述选取的人脸图像为用户通过打开相册选取的照片中的人脸，或者通过拍照手段直接拍摄得到的人脸。

人脸图像融合是指将所述选取的人脸图像替换或覆盖所述目标人脸图像，或者基于目标人脸与选取的人脸图像的特点而得到的外貌变形人脸。具体实施时，可以首先对初始视频图像中的目标人脸进行检测，获取所述目标人脸的完整性信息、朝向信息、表情信息等，例如检测所述目标人脸是否被遮挡，是否侧面或正面朝向镜头，是否嘶吼或哭泣。在获取上述信息之后，结合上述信息对选取的人脸图像进行相应的处理。例如当目标人脸被遮挡时，对所述选取的人脸图像进行相适应的遮挡处理；当目标人脸为侧面人脸时，从选取的人脸图像中获取相适应的侧面人脸图像；当目标人脸处于哭泣状态时，对选取的人脸图像进行哭泣图像处理，使得选取的人脸图像能够更加自然的融入到所述视频图像之中，得到更为自然的目标视频图像。

其中，所选取的人脸图像可以指通过手机拍摄得到的人脸图像，也可以是已经保存在手机中的本地人脸图像。实际应用中，该选取的人脸图像可以为上述配音用户的人脸图像。而初始视频图像中包含目标人脸则是所捕获的多帧视频图像中的某一或某些影视角色的人脸。实际应用中，则是将配音用户的人脸图像与初始视频图像中的目标人脸进行人脸融合，得到具备配音用户人脸特征及目标人脸特征的人脸融合图像。然后，将人脸融合图像替换初始视频图像中的目标人脸，从而得到处理后的目标视频图像。

在一些实施例中，在从视频文件中得到多帧视频图像之前，还可以包括以下流程：

对视频文件进行解析，从中提取至少一个人脸图像；

接收用户的样本选择指令，并基于样本选择指令从所述至少一个人脸图像中选取样本人脸图像。

具体的，终端可以对视频文件智能解析，识别出视频素材中出现的所有影视角色(仅限具有人脸的角色)的人脸图像，并为每一角色匹配人物身份。然后，将识别出的影视角色提取到显示界面供用户选择。最后，由用户选择需要替换人脸的一个或多个影视角色。

可以理解的，在所捕获的多帧视频图像中可能存在不包含目标人脸图像的视频图像。因此，为了提升人脸图像融合的效率，可以从多帧视频图像中筛选出包含目标人脸图像的目标视频图像，以便后续只针对所筛选出的目标视频图像执行人脸融合操作。则，步骤“从多帧视频图像中确定出包含目标人脸的初始视频图像”，可以包括以下流程：

捕捉多帧视频图像的每一帧中的人脸；

判断视频图像中是否包含与样本人脸图像匹配的目标人脸；

若是，则将该视频图像作为初始视频图像。

具体的，将用户所选择的影视角色的人脸图像，与捕获的每一帧视频图像中的人脸进行匹配，以在多帧视频图像中筛选出需要进行人脸替换的视频图像。

具体实施过程中，可以搭建残差网络检测单帧视频图像中的人脸位置，如深度网络(Residual Network，简称ResNet)，以找到单帧图像中所有的人脸位置。然后，进行人脸关键点检测，通过人脸关键点位置匹配人物身份。例如，在从多帧视频图像中确定目标人脸图像时，可以包括以下步骤：

(11)搭建29层的ResNet网络；

(12)基于方向梯度直方图提取人脸特征；

(13)训练300万张图片完成网络训练；

(14)计算多帧视频图像中检测的影视角色的人脸关键点特征；

(15)在数据库中检索检测的人脸图像；

(16)返回匹配的人脸身份。

其中，ResNet网络的层数越多，识别精确度越高。本实施例中ResNet网络的层数可以根据实际情况进行设定，并不限于上述的29层。

104、对配音音频数据与至少目标视频图像进行合成处理，得到音视频合成文件。

具体的，合成处理指将配音音频数据与至少目标视频图像叠加编码，进而得到合成后的音视频合成文件。

在一些实施方式中，得到的音视频合成文件的播放时长可以等于所述初始的视频文件的时长，即所述音视频合成文件包括含有人脸的目标视频图像与其他未包含人脸的图像，通过将所述配音音频数据与所述目标视频图像叠加编码，使得得到的该音视频合成文件剧情更丰富。

在另一些实施方式中，得到的音视频合成文件的播放时长可以小于所述初始的视频文件的时长，即所述音视频合成文件可以仅包括含有人脸的目标视频图像，通过将所述配音音频数据与所述目标视频图像叠加编码，使得得到的该音视频合成文件具有特定影视角色的配音剪辑效果。

本实施例提供的一种视频处理方法，通过获取用户输入的配音音频数据；从视频文件中得到多帧视频图像；从所述多帧视频图像中确定出包含目标人脸的初始视频图像，将所述初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像；对所述配音音频数据与至少所述目标视频图像进行合成处理，得到音视频合成文件。本方案将用户配音和用户人像等元素有机融合到视频制作中，提升视频制作中用户深度融入程度、及视频个性化强度。

在上述实施例的基础上，以下将对一些步骤进一步详细说明。

参考图3，实际应用中，需要对获取的配音音频及处理后的视频图像重新编码，以合成音视频文件输出。同时，结合图1，在一些实施例中，步骤“对配音音频数据与至少目标视频图像进行合成处理”，可以包括以下流程：

1041、基于目标视频图像对多帧视频图像进行更新；

1042、对更新后的多帧视频图像进行编码，得到视频码流；

1043、对配音音频数据进行编码，得到音频码流；

1044、将视频码流与音频码流合成输出。

在本实施例中，将配音音频数据与更换人脸后的目标视频图像、及多帧视频图像中未被筛选出的视频图像，共同合成音视频文件输出，得到完整的配音视频。

其中，对处理后的视频图像进行编码的方式可以有多种，只要是产品***支持的格式即可。例如，可基于.mpg、.mpeg、.mp4、.rmvb、.wmv、.asf、.avi、.asx等视频格式，对处理后的视频图像进行编码，形成视频码流，从而将处理后的多帧视频图像封装成视频文件。

实际应用中，可以基于不同编码方式对视频码流的播放时间进行控制。优选的，可将播放时间控制在15秒以内。

同样的，对处理后的视频图像进行编码的方式可以有多种，只要是产品***支持的格式即可。例如，可基于.act、.mp3、.wma、.wav等音频格式，对用户输入的配音音频数据进行编码，形成音频码流，从而将音频码流封装成与视频文件匹配的音频文件。

在一些实施例中，可以分别计算视频码流和音频码流各帧或采样点的时间点，通过音视频合成***，将编码完成的视频码流和音频码流同步播放输出，从而得到音视频合成文件。也即，在一些实施例中，步骤“从视频文件中得到多帧视频图像”，可以包括以下流程：

按照预定帧率时间间隔从视频文件中捕获视频图像，得到多帧视频图像。

其中，在将视频抽帧成图像时，预定帧率时间间隔可以由产品生产厂商或本领域技术人员进行设定。例如，该帧率可以为20帧/秒、50帧/秒等，相应的帧率时间间隔为50毫秒、20毫秒等。

则，步骤“对配音音频数据进行编码，得到音频码流”，可以包括以下流程：

获取目标时间段内所捕获的视频图像帧数，其中，目标时间段为配音音频数据输入的起始时刻至结束时刻的时间；

确定视频码流的总播放时长；

根据该帧数及总播放时长，计算该配音音频数据的目标播放时长；

基于目标播放时长及目标时间段对应的时长确定采样频率，并基于该采样频率对该配音音频数据编码，得到音频码流。

需要说明的是，本实施例中可在播放视频文件的过程中，让配音用户输入多段音频数据。其中，该起始时刻至结束时刻的时间，为配音用户输入的其中一段音频的时间。

具体的，基于目标时间段内所捕获的视频图像帧数、以及编码后视频码流的总播放时长，可以计算出编码后播放上述帧数的视频图像需消耗的时长。若需要实现音频码流、视频码流同步播放，则要求编码后播放上述帧数的视频图像消耗的时长与上述配音音频数据的目标播放时长相等。因此，将计算出编码后播放上述帧数的视频图像需消耗的时长，作为该配音音频数据的目标播放时长。

在获知配音音频数据的目标播放时长、及目标时间段对应的时长后，通过计算两者的比例来确定采样频率，并基于该采样频率对该配音音频数据进行采样编码，以将配音音频数据进行压缩，实现音频与视频的同步播放，可避免音频与视频中影视角色对不上口型的问题。

在一些实施例在，步骤“将视频码流与所述音频码流合成输出”，可以包括以下流程：

确定该视频码流中，目标时间段内所捕获的视频图像对应的播放起始时间点和结束时间点；

将该播放起始时间点和结束时间点配置为该音频码流的播放起始时间点和结束时间点，并将该视频码流与该音频码流合成输出。

具体的，在输出数据时，将视频码流与音频码流的播放起始时间点和结束时间点同步，以实现音频与视频的同步播放。

例如，一段视频素材中，目标时间段内所捕获的视频图像对应的播放起始时间点和结束时间点分别00:00:05和00:00:10，则将该音频码流的播放起始时间点和结束时间点也分别设定在00:00:05和00:00:10。

在一些实施例中，步骤“将初始视频图像中的目标人脸与选取的人脸图像融合”，可以包括以下流程：

对初始视频图像中目标人脸的面部关键点、以及选取的人脸图像中的面部关键点进行检测和定位；

通过仿射变换将选取的人脸图像与目标人脸对齐；

基于对齐后的人脸图像对目标人脸的面部特征进行更新。

具体的，可以利用级联的残差回归树的机器学习算法，如梯度提升决策树(Gradient Boosting Decision Tree，简称GBDT)算法，对面部关键点进行检测。以GBDT为例，具体算法模型搭建步骤如下：

(21)使用训练的N张图的真实形状，构建回归初始形状；

(22)利用像素差作为特征，***树结构，使每张图片落入一叶子结点；

(23)计算每个叶子结点中所有图片形状与当前树形状的差值，取平均之后存放到叶节点；

(24)利用叶子中的取值更新树的形状；

(25)建立足够多的子树，直到GBDT树形状表示真实形状。

在算法模型搭建完成后，可利用其检测初始视频图像中目标人脸、选取的人脸图像中的人脸面部关键点。然后，基于检测到的目标人脸和选取的人脸图像中人脸关键点位置，通过普氏分析(Procrustes analysis)，利用最小二乘法计算得到预设人脸图像到目标人脸图像的仿射变换矩阵。从而，基于所得到的仿射变换矩阵对所选取的人脸进行平移、旋转、缩放等图形变换，以将初始视频图像中的目标人脸与预设人脸图像进行人脸位置对齐，使两者面部特征点尽可能地接近。例如，可以参考图4中预设人脸图像a，经仿射变换后，得到变换后的图像d。

在一些实施例中，步骤“基于对齐后的人脸图像对目标人脸的面部特征进行更新”，可以包括以下流程：

基于目标人脸中的面部关键点划分进行人脸区域划分，得到目标人脸的面部特征区域；

根据预设算法对面部特征区域进行处理，得到面部特征区域的面部特征模板；

利用面部特征模板，将对齐后的人脸图像与目标人脸融合，得到人脸融合图像。

具体的，可以利用人脸的几何特征，提取具有尺寸、旋转和位移不变性的人脸特征点，比如可以提取出如眼睛、鼻子以及嘴唇等部位的关键特征点位置。例如，选取人脸的9个特征点，这些特征点的分布具有角度不变性，分别为2个眼球中心点、4个眼角点、两鼻孔的中点以及2个嘴角点。

例如，在本实施例中，可以通过人脸特征点得到面部三角轮廓模版(即眼嘴鼻模板，参考图4中c)作为面部特征模板，并利用该上交轮廓模版勾出输入图细节，然后叠加预设人脸图像和目标人脸图像两种输入图完成图像融合。

参考图4，其中，a为预设人脸图像，b为目标人脸图像，c为基于目标人脸图像b中的人脸特征区域生成的人脸掩膜，d为目标图像a经仿射变换后得到的图像，最终输出人脸融合后的融合图像e。

但是，在进行人脸特征提取时，由于无法将局部的边缘信息有效地组织起来，传统的边缘检测算子不能可靠地提取人脸的特征，比如眼睛或者嘴唇的区域，所以可以采用如Susan算子的算法来提取人脸的特征。Susan算子的原理为：以像素为半径的圆形区域，即面积覆盖像素位置为掩膜，考察人脸图像中的每个点在该区域范围内的所有点的像素值，与当前点的像素值的一致程度。

在一些实施例中，在利用面部模板，将对齐后的人脸图像与目标人脸融合，得到人脸融合图像之后，还可以包括以下流程：

计算目标人脸与选取的人脸图像之间面部特征的像素差值；

根据像素差值生成颜色调整参数；

基于颜色调整参数对人脸融合图像进行调整。

其中，颜色调整参数具体可以为像素点RGB值之间的差异值。

具体的，由于所选取的人脸图像与初始视频图像中的目标人脸在肤色上可能存在较大差异，导致在人脸图像融合后，替换区域与原有人脸区域的融合边界锯齿效果较为明显。因此，需要通过调节融合区域与原有区域之间的像素差值来降低边缘锯齿效果，以增强面部融合度。

例如，在一些实施方式中，可以通过模糊效果来降低像素差值。具体实现如下：

(31)计算目标人脸与选取的人脸图像中面部特征的像素差值；

(32)通过像素差值计算模糊效果；

(33)通过高斯模糊降低目标人脸与选取的人脸图像之间的像素差值。

利用上述操作，从而实现将融合区域的肤色更改成较为接近目标人脸的人脸肤色。

参考图5、图6a～6e及图7，图5是本申请实施例提供的视频处理方法的另一种架构示意图；图6a～6e是本申请实施例提供的视频处理方法的界面交互示意图；图7是本申请实施例提供的视频处理方法的又一种架构示意图。

首先，用户可以通过账户登录接口登录在配音应用中注册的账户，以进入配音主界面。如图6a所示，当用户打开配音主界面时，可以在当前界面显示热门素材、以及其他素材，用户可以通过点击素材的显示控件触发选取当前视频素材进行视频预览、或直接进入配音阶段。另外，该主界面还可以包括搜索栏，通过在搜索栏输入关键字词，可以从视频素材库中查找到匹配的视频素材，提升视频素材的检索速度。

参考6b，当选中某一视频素材进行配音时，可以对该视频素材中进行人脸识别，识别视频中的角色，从该视频素材中解析出具有人脸的视频角色。如图6b中，从选中的视频素材中解析出三个视频角色并显示角色图像。在本申请实施例中，可以在角色图像中设置可见或不可见的选择控件，通该选择控件可以选中需要进行人脸替换的视频角色。例如，图6b中角色图像右上角的选择图标，通过该选择图标选中第一个视频角色。

另外，在当前界面还可设置有图像添加接口，通过该接口可添加替换人脸图像。实际应用中，可以通过该图像天界接口从本地图片库中添加替换人脸素材。具体实施时，替换人脸素材要求是真人人脸的正脸(无抬头、低头、侧转)、脸部与五官无遮挡。如果所添加图像不满足要求则无法进行下一步，并可生成提示信息提示重新添加图像。

若图像选择完成，则可通过云端算法，后台融合用户从本地添加的替换人脸图像到视频素材中选择的视频角色中，得到人脸融合图像。

在一些实施例中，为了便于配音用户精准配音，可以在用户配音的过程中播放视频文件，并可在视频播放界面中显示各影视角色的台词所对应的文本信息，以便于提示配音用户台词，避免忘词。也即，该视频处理方法还可以包括以下流程：

获取样本文本；

在获取用户输入的配音音频数据时显示样本文本。

其中，样本文本可以是预先编辑好的文本信息，可以任意字体、大小、颜色等文本格式进行显示。例如，参考图6c中的“字幕”所在区域，该样本文本可以在虚线处排布。另外，在视频素材播放过程中可以通过进度条显示播放进度、播放时长等信息。

进一步的，还可进行台词的进度提示以提醒用户准备输入配音。例如，通过颜色变化标记当前正在播放的字幕。

在一些实施例中，还可以在配音界面设置文本编辑接口，用户可通过该文本编辑接口对已存在的样本文本进行编辑调整，以满足某些用户的文本自定义需求。

继续参考图5，在一些实施例中，为了渲染配音用户的配音氛围，可以根据视频内容对该视频文件添设相应风格的背景音乐，在播放视频文件的同时播放该背景音乐，以使配音用户尽快投入到视频剧情中。也即，该视频处理方法还可以包括以下流程：

获取样本背景音频数据；

在获取用户输入的配音音频数据时播放样本背景音频数据。

其中，背景音频数据可以是实体乐器(如钢琴，小提琴等)或电子乐器等演奏出纯音乐，也可以是带有人声与乐器的混合音乐。继续参考图6c，该配音界面中可设置有音乐选择接口(如图6c所示的音符图标控件)，通过该音乐选择接口可以从背景音乐库中选择风格多变的音乐风格。其中，该背景音乐库可以是存储于云端的音频数据，也可以是终端本地的音频数据。

实际应用中，可在配音界面设置录音控制接口(如图6c中的麦克风图标控件)，通过该录音控制接口可驱动调用终端麦克风接收用户发出的配音人声，并可实现开始录音、暂停录音、继续录音等功能。

在本申请实施例中，可选择性的选取是否需要进行人脸替换、文本显示或背景音乐添加等操作。

参考图6d，在配音完成后，用户可通过当前界面设置的预览接口、字幕显示接口、人声设置接口、背景音乐设置接口等，自主调节录制好的音视频合成文件。在调节完成后，可预览新的人脸融合的视频、音乐和配音，并可通过设置的保存接口保存该音视频合成文件。

最后，参考图6e，可通过用户个人主页查看已配音的视频作品。实际应用中，该界面可设置有分享接口，可对相关社交应用或平台进行授权，将录制好的配音视频文件分享到其他社交平台。

本方案可以将用户配音和用户人像等元素有机融合到视频制作中，提升视频制作中用户深度融入程度、及视频个性化强度。

为便于更好的实施本申请实施例提供的视频处理方法，本申请实施例还提供一种基于上述视频处理方法的装置(简称处理装置)。其中名词的含义与上述视频处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图8，图8为本申请实施例提供的视频处理装置的结构示意图，其中该处理装置可以包括获取单元301、处理单元302、视频编码子单元303、音频编码子单元304以及合成单元305，具体可以如下：

音频获取单元301，用于获取用户输入的配音音频数据；

图像获取单元302，用于从视频文件中得到多帧视频图像；

处理单元303，用于从多帧视频图像中确定出包含目标人脸的初始视频图像，将初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像；

合成单元304，用于将对配音音频数据与至少目标视频图像进行合成处理，得到音视频合成文件。

在一些实施例中，参考图9，视频处理装置300还可以包括：

提取单元305，用于在从视频文件中得到多帧视频图像之前，对视频文件进行解析，从中提取至少一个人脸图像；

选择单元306，用于接收用户的样本选择指令，并基于样本选择指令从至少一个人脸图像中选取样本人脸图像；

处理单元304具体可以用于：

捕捉多帧视频图像的每一帧中的人脸图像；

判断视频图像中是否包含与样本人脸图像匹配的目标人脸；

若是，则将该视频图像作为初始视频图像。

在一些实施例中，处理单元304具体可以用于：

通过仿射变换将选取的人脸图像与目标人脸对齐；

基于对齐后的人脸图像对目标人脸的面部特征进行更新。

在一些实施例中，合成单元304可以包括：

更新子单元，用于基于所述目标视频图像对所述多帧视频图像进行更新；

视频编码子单元，用于对更新后的多帧视频图像进行编码，得到视频码流；

音频编码子单元，用于对所述配音音频数据进行编码，得到音频码流；

合成子单元，用于将所述视频码流与所述音频码流合成输出。

在一些实施例中，图像获取单元302具体可以用于：

按照预定帧率时间间隔从视频文件中捕获视频图像，得到多帧视频图像；

音频编码子单元可以用于：

确定视频码流的总播放时长；

根据所述帧数及总播放时长，计算配音音频数据的目标播放时长；

基于目标播放时长及目标时间段对应的时长确定采样频率，并基于采样频率对所述配音音频数据编码。

本申请实施例提供的视频处理装置，通过获取单元301获取用户输入的配音音频数据；图像获取单元302从视频文件中得到多帧视频图像；处理单元303从多帧视频图像中确定目标人脸图像，将目标人脸图像与预设人脸图像融合，得到处理后的视频图像；视频编码子单元303用于从多帧视频图像中确定出包含目标人脸的初始视频图像，将初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像；合成单元304对配音音频数据与至少目标视频图像进行合成处理，得到音视频合成文件。本方案可以将用户配音和用户人像等元素有机融合到视频制作中，提升视频制作中用户深度融入程度、及视频个性化强度。

本申请实施例还提供一种终端，如图10所示，该终端可以包括射频(RF，RadioFrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图10中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图10中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理***与处理器608逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

获取用户输入的配音音频数据；从视频文件中得到多帧视频图像；从多帧视频图像中确定出包含目标人脸的初始视频图像，将初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像；对配音音频数据与至少目标视频图像进行合成处理，得到音视频合成文件。

本申请实施例在播放视频文件的过程中，获取用户输入的配音音频数据；从视频文件中得到多帧视频图像；从多帧视频图像中确定出包含目标人脸的初始视频图像，将初始视频图像中的目标人脸与选取的人脸图像融合，得到目标视频图像；对配音音频数据与至少所述目标视频图像进行合成处理，得到音视频合成文件。本方案将用户配音和用户人像等元素有机融合到视频制作中，提升视频制作中用户深度融入程度、及视频个性化强度。本方案可以将用户配音和用户人像等元素有机融合到视频制作中，提升视频制作中用户深度融入程度、及视频个性化强度。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频处理方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取用户输入的配音音频数据；

从视频文件中得到多帧视频图像；

从多帧视频文件中识别出所有具有人脸的候选人物，将识别出的候选人物提取到显示界面，并由用户通过所述显示界面确定需要替换人脸的一个或多个目标人物；

从所述多帧视频图像中确定出包含目标人脸的所有初始视频图像，对所有初始视频图像中的目标人脸进行检测，获取每一初始视频图像中目标人脸的完整性信息、朝向信息和/或表情信息，根据每一初始视频图像中目标人脸的完整性信息、朝向信息和/或表情信息分别对选取的人脸图像进行相应的处理，得到每一初始视频图像对应的处理后人脸图像，将每一初始视频图像中的目标人脸与对应的处理后人脸图像融合，得到目标视频图像，其中，所述选取的人脸图像为从相册中选取照片上的人脸或者通过拍照手段直接拍摄得到的人脸，所述目标人脸为目标人物的人脸，融合处理包括：将处理后人脸图像替换或覆盖所述初始视频图像中的目标人脸，或者基于处理后人脸图像的特点对所述初始视频图像中的目标人脸进行变形处理；

2.根据权利要求1所述的视频处理方法，其特征在于，在从视频文件中得到多帧视频图像之前，还包括：

对视频文件进行解析，从中提取至少一个人脸图像；

接收用户的样本选择指令，并基于所述样本选择指令从所述至少一个人脸图像中选取样本人脸图像；

所述从所述多帧视频图像中确定出包含目标人脸的初始视频图像，包括：

捕捉所述多帧视频图像的每一帧中的人脸；

判断所述视频图像中是否包含与所述样本人脸图像匹配的目标人脸；

若是，则将所述视频图像作为初始视频图像。

3.根据权利要求1所述的视频处理方法，其特征在于，所述将每一初始视频图像中的目标人脸与对应的处理后人脸图像融合，包括：

对所述初始视频图像中目标人脸的面部关键点、以及对应的处理后人脸图像中的面部关键点进行检测和定位；

通过仿射变换将处理后人脸图像与所述目标人脸对齐；

基于对齐后的人脸图像对所述目标人脸的面部特征进行更新。

4.根据权利要求3所述的视频处理方法，其特征在于，所述基于对齐后的人脸图像对所述目标人脸的面部特征进行更新，包括：

基于所述目标人脸中的面部关键点进行人脸区域划分，得到所述目标人脸的面部特征区域；

根据预设算法对所述面部特征区域进行处理，得到所述面部特征区域的面部特征模板；

利用所述面部特征模板，将所述对齐后的人脸图像与所述目标人脸融合，得到人脸融合图像。

5.根据权利要求4所述的视频处理方法，其特征在于，在利用所述面部特征模板，将所述对齐后的人脸图像与所述目标人脸融合，得到人脸融合图像之后，还包括：

计算所述目标人脸与处理后人脸图像之间面部特征的像素差值；

根据所述像素差值生成颜色调整参数；

基于所述颜色调整参数对所述人脸融合图像进行调整。

6.根据权利要求1所述的视频处理方法，其特征在于，所述对所述配音音频数据与至少所述目标视频图像进行合成处理，包括：

基于所述目标视频图像对所述多帧视频图像进行更新；

对更新后的多帧视频图像进行编码，得到视频码流；

对所述配音音频数据进行编码，得到音频码流；

将所述视频码流与所述音频码流合成输出。

7.根据权利要求6所述的视频处理方法，其特征在于，所述从视频文件中得到多帧视频图像，包括：

所述对所述配音音频数据进行编码，得到音频码流，包括：

确定所述视频码流的总播放时长；

根据所述帧数及所述总播放时长，计算所述配音音频数据的目标播放时长；

基于所述目标播放时长及目标时间段对应的时长确定采样频率，并基于所述采样频率对所述配音音频数据编码，得到音频码流。

8.根据权利要求7所述的视频处理方法，其特征在于，所述将所述视频码流与所述音频码流合成输出，包括：

确定所述视频码流中，目标时间段内所捕获的视频图像对应的播放起始时间点和结束时间点；

将所述播放起始时间点和结束时间点配置为所述音频码流的播放起始时间点和结束时间点，并将所述视频码流与所述音频码流合成输出。

9.根据权利要求1-8任一项所述的视频处理方法，其特征在于，还包括：

获取样本背景音频数据和/或样本文本；

在用户输入的配音音频数据的过程中播放所述视频文件，同时播放所述样本背景音频数据和/或显示所述样本文本。

10.一种视频处理装置，其特征在于，包括：

音频获取单元，获取用户输入的配音音频数据；

图像获取单元，用于从视频文件中得到多帧视频图像；

处理单元，用于从所述多帧视频图像中确定出包含目标人脸的所有初始视频图像，对所有初始视频图像中的目标人脸进行检测，获取每一初始视频图像中目标人脸的完整性信息、朝向信息和/或表情信息，根据每一初始视频图像中目标人脸的完整性信息、朝向信息和/或表情信息分别对选取的人脸图像进行相应的处理，得到每一初始视频图像对应的处理后人脸图像，将每一初始视频图像中的目标人脸与对应的处理后人脸图像融合，得到目标视频图像，其中，所述选取的人脸图像为从相册中选取照片上的人脸或者通过拍照手段直接拍摄得到的人脸，所述目标人脸为目标人物的人脸，融合处理包括：将处理后人脸图像替换或覆盖所述初始视频图像中的目标人脸，或者基于处理后人脸图像的特点对所述初始视频图像中的目标人脸进行变形处理；

11.根据权利要求10所述的视频处理装置，其特征在于，所述装置还包括：

提取单元，用于在播放视频文件之前，对视频文件进行解析，从中提取至少一个人脸图像；

选择单元，用于接收用户的样本选择指令，并基于所述样本选择指令从所述至少一个人脸图像中选取样本人脸图像；

所述处理单元用于：

捕捉所述多帧视频图像的每一帧中的人脸；

若是，则将所述视频图像作为初始视频图像。

12.根据权利要求10所述的视频处理装置，其特征在于，所述处理单元用于：

通过仿射变换将处理后人脸图像与所述目标人脸对齐；

13.根据权利要求10所述的视频处理装置，其特征在于，所述合成单元包括：

14.根据权利要求13所述的视频处理装置，其特征在于，所述图像获取单元用于：

所述音频编码子用于：

确定所述视频码流的总播放时长；

基于所述目标播放时长及目标时间段对应的时长确定采样频率，并基于所述采样频率对所述配音音频数据编码。

15.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的视频处理方法中的步骤。