CN110290425A

CN110290425A - 一种视频处理方法、装置及存储介质

Info

Publication number: CN110290425A
Application number: CN201910691577.4A
Authority: CN
Inventors: 段聪; 吴江红
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-09-27
Anticipated expiration: 2039-07-29
Also published as: CN110290425B

Abstract

本发明提供了一种视频处理方法、装置及存储介质；方法包括：获取目标视频；响应于针对所述目标视频中目标对象的分割操作，从所述目标视频中获取以所述目标对象为前景的前景视频；所述前景视频包括至少一个前景视频帧；获取背景视频；所述背景视频包括至少一个背景视频帧；响应于针对所述前景视频和所述背景视频的合成操作，将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进行叠加，并将叠加得到的视频帧封装为合成视频。通过本发明，能够进行动态视频的合成。

Description

一种视频处理方法、装置及存储介质

技术领域

本申请涉及多媒体技术，尤其涉及一种视频处理方法、装置及存储介质。

背景技术

随着通信与移动互联网的不断发展，以文字和图片为主的时代已经成为过去，网络直播和短视频业务开始飞速增长，各种视频类应用程序的出现，极大地降低了人们制作视频的门槛，越来越多的用户开始参与视频创作。

但相关技术中的视频制作方案，仅能够静态的对象合成到模板视频中，无法进行动态视频的合成。

发明内容

本发明实施例提供一种视频处理方法、装置及存储介质，能够进行动态视频的合成。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种视频处理方法，包括：

获取目标视频；

响应于针对所述目标视频中目标对象的分割操作，从所述目标视频中获取以所述目标对象为前景的前景视频；所述前景视频包括至少一个前景视频帧；

获取背景视频；所述背景视频包括至少一个背景视频帧；

响应于针对所述前景视频和所述背景视频的合成操作，将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进行叠加，并

将叠加得到的视频帧封装为合成视频。

本发明实施例提供一种视频处理装置，包括：

第一获取单元，用于获取目标视频；

分割单元，用于响应于针对所述目标视频中目标对象的分割操作，从所述目标视频中获取以所述目标对象为前景的前景视频；所述前景视频包括至少一个前景视频帧；

第二获取单元，用于获取背景视频；所述背景视频包括至少一个背景视频帧；

合成单元，用于响应于针对所述前景视频和所述背景视频的合成操作，将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进叠加，并

将叠加得到的视频帧封装为合成视频。

在上述方案中，所述分割单元，还用于：

接收针对至少两个目标视频的批量分割操作；

响应于所述批量分割操作，从每个所述目标视频中获取以所述目标对象为前景的视频片段，并确定为相应的前景视频。

在上述方案中，所述合成单元，还用于：

接收针对至少两个所述前景视频和所述背景视频的批量合成操作；

响应于所述批量合成操作，将所述至少两个前景视频中的前景视频帧分别叠加到所述背景视频中的背景视频帧中。

在上述方案中，所述第二获取单元，还用于：

加载显示有备选的背景视频的视频选择窗口；

接收针对所述视频选择窗口的视频选择操作；

获取所述视频选择操作选定的背景视频。

在上述方案中，所述装置还包括：预览单元，用于：

响应于针对所述前景视频和所述背景视频的预览操作，呈现所述前景视频帧与所述背景视频帧的叠加效果。

在上述方案中，所述分割单元，还用于：

从所述目标视频的视频帧中识别所述目标对象所在的目标区域，并将所述视频帧中所述目标区域之外的区域透明化处理；

将透明化处理后的视频帧封装为所述前景视频。

在上述方案中，所述分割单元，还用于：

识别所述目标视频的视频帧中所述目标对象所在的目标区域，并根据所述目标区域得到所述目标视频的视频帧对应的图像矩阵；所述图像矩阵中的元素分别表征对应的视频帧的像素属于所述目标区域的概率；

将所述图像矩阵与对应的视频帧进行掩膜处理，以将所述视频帧中除所述目标区域之外的区域透明化。

在上述方案中，所述合成单元，还用于：

获取所述前景视频帧与背景视频帧的时间戳对齐关系；

将所述前景视频中的前景视频帧、与所述背景视频中符合所述时间戳对齐关系对应的背景视频帧进行叠加。

在上述方案中，所述合成单元，还用于：

响应于针对所述前景视频和所述背景视频设定合成参数的编辑操作，将所述前景视频帧覆盖所述背景视频帧，且所述前景视频帧在所述背景视频帧中的覆盖区域符合设定的合成参数。

在上述方案中，所述合成单元，还用于：

构造与所述前景视频帧大小相同的初始矩阵；

根据所述编辑操作对所述初始矩阵中的元素进行调整，得到表征设定的合成参数的变化量的目标矩阵。

在上述方案中，所述合成单元，还用于：

将所述目标矩阵与所述前景视频中的前景视频帧相乘，得到调整后的前景视频帧；

将所述调整后的前景视频帧覆盖所述背景视频帧。

本发明实施例提供一种视频处理装置，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的视频处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的视频处理方法。

将目标视频中以目标对象为前景视频从目标视频中分割出来，并将所分割的前景视频的前景视频帧与背景视频的背景视频帧合成的视频帧封装为合成视频，从而基于视频的内容，将目标视频中的目标对象作为前景并将背景视频的视频帧作为背景合成新的视频，得到画面内容协调的动态视频。

附图说明

图1是本发明实施例提供的视频处理***架构的一个可选的结构示意图；

图2是本发明实施例提供的视频处理装置的一个可选的结构示意图；

图3是本发明实施例提供的视频处理方法的一个可选的流程示意图；

图4是本发明实施例提供一个可选的显示界面示意图；

图5A是本发明实施例提供一个可选的叠加效果示意图；

图5B是本发明实施例提供一个可选的叠加效果示意图；

图6是本发明实施例提供的视频处理方法的一个可选的流程示意图；

图7是本发明实施例提供一个可选的训练样本示意图；

图8是本发明实施例提供一个可选的编辑界面示意图；

图9是本发明实施例提供一个可选的编辑界面示意图；

图10是本发明实施例提供的视频编码器的一个可选的编解码架构示意图；

图11是相关技术中视频处理方法的一个可选的流程示意图；

图12是相关技术中视频处理方法的合成效果示意图；

图13是相关技术中视频处理方法的一个可选的流程示意图；

图14是本发明实施例提供的视频处理方法的一个可选的流程示意图；

图15是本发明实施例提供的视频处理方法的一个可选的流程示意图；

图16是本发明实施例提供的一个可选的显示界面示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)背景，视频的画面中主体背后的景物，能够表现人物或事件所处的时空环境，例如人物后方的建筑物、墙壁、地面等。

2)前景，视频画面中较背景更靠近镜头的内容，是视频展现的主体，例如站立在建筑物前的人。

3)目标视频，进行视频合成时用于提取前景的视频。

4)背景视频，进行视频合成时用于提取背景的视频。

5)叠加，将一张(或多张图像)中的部分区域作为前景，并将另一张图像作为背景进行合成，得到新的图像。比如：将图像A中的某一个区域和图像B进行合成，得到图像C。这里，图像可为视频中的视频帧。

6)掩膜(mask)，是用于对待处理的图像中的(部分或者全部像素)进行屏蔽的图像矩阵，以使特定图像中的部分突出显示。掩膜可以是二维矩阵数组，有时也用多值矩阵数据。

7)掩膜处理，基于掩膜对图像中某些区域作屏蔽(例如透明化)的处理。图像中的每个像素和掩膜中相同位置的二进制数(也称为掩码)进行与运算，比如1&1＝1；1&0＝0。

8)封装，基于一定的帧率和视频格式将多个视频帧转换为视频文件。其中，帧率表示每秒的帧数，比如：25帧/每秒(fps)、60fps等。视频格式可包括：Matroska多媒体容器(Matroska Multimedia Container，MLV)、音频视频交错格式(Audio Video Interleaved，AVI)、动态图像专家组(Moving Picture Experts Group，MPEG)-4等视频文件格式。

首先对相关技术中针对视频合成的技术方案进行分析说明。

技术方案1)静态图像与动态视频的合成

对静态图像进行AI分割，分割出目标对象对应的区域，将所分割的区域作为与作为背景的背景视频进行融合，得到合成后的视频。这里，融合的对象为静态的图像和动态的视频，合成后的视频中的目标对象为静态的，也就是说，在合成后的视频中，每一视频帧中的目标对象是静态的。

技术方案2)视频画面的整体拼接

将两个视频的视频帧左右拼接在一起，合成一个更大的视频，为对视频的背景进行处理，合成的视频的画面在内容上并未进行融合。

针对上述几种技术方案存在的问题，本发明实施例提供一种视频处理方法，将目标视频中以目标对象为前景视频从目标视频中分割出来，并将所分割的前景视频的前景视频帧与背景视频的背景视频帧合成的视频帧封装为合成视频，从而基于视频的内容对动态的视频进行合成，得到画面内容协调的动态视频。

下面说明实现本发明实施例的视频处理装置的示例性应用，本发明实施例提供的视频处理装置可以集成到各种形式的电子设备中，本发明实施提供的电子设备可以实施为各种终端，例如移动电话(手机)、平板电脑、笔记本电脑等具有无线通信能力的移动终端，又例如台式计算机、桌面电脑等。另外，电子设备也可以实施为一台服务器或由多台服务器构成的服务器集群，在此不加以限定。

参见图1，图1是本发明实施例提供的视频处理***100的一个可选的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。在终端400中运行有视频处理应用程序，且视频处理应用程序提供有界面410，以接收用户的合成视频的相关操作。

以服务器200中设置有本发明实施例提供的视频处理装置为例，在一个示例性应用中，当终端400需要合成视频时，目标视频和背景视频可以是利用终端录制的视频，此时，终端400可以将目标视频和背景视频发送给服务器，请求服务器200进行视频合成。此时，服务器200在接收到目标视频和背景视频后，利用本发明实施例提供的视频处理方法，将目标视频中的目标对象分割出来，以分割出来的前景视频为前景并以背景视频为背景，将前景视频中的前景视频帧和背景视频中的背景视频帧进行叠加，并将叠加后的视频帧进行封装，得到合成视频，最后再将封装后的合成视频发送给终端400。

例如：如图1所示，目标视频为视频101，背景视频为视频102，终端400将视频101和视频102发送至服务器200，服务器200从视频101中提取以人像103为前景的前景视频104，并将前景视频104的前景视频帧1041(包括1041-1至1041-n)和背景视频102的背景视频帧1021(包括1021-1至1021-n)分别进行叠加，得到合成视频105的视频帧1051(包括1051-1至1051-n)，其中，n为大于1的整数。

以服务器200中设置有本发明实施例提供的视频处理装置的又一个示例性应用中，当终端400需要合成视频时，可以向服务器200发送目标视频和背景视频的标识信息。服务器200基于所接收的标识信息确定出对应的目标视频和背景视频，利用本发明实施例提供的视频处理方法，将目标视频中的目标对象分割出来，以分割出来的前景视频为前景并以背景视频为背景，将前景视频中的前景视频帧和背景视频中的背景视频帧进行叠加，并将叠加后的视频帧进行封装，得到合成视频，最后再将封装后的视频发送给终端400。终端400可以将合成后的视频发布出去。

以终端400作为电子设备的一示例中，目标视频和背景视频可以是终端400中已经封装的视频文件，由终端400自身利用本发明实施例提供的在视频处理的方法，将前景视频中的前景视频帧和背景视频中的背景视频帧进行叠加，并将叠加后的视频帧进行封装，得到合成后的视频文件。

上文分别以服务器和终端中设置有本发明实施例提供的视频处理装置为例进行说明，可以理解地，本发明实施例提供的视频处理装置可以分布设置在终端和服务器中，从而由终端和服务器协同完成本发明实施例提供的视频处理方法。

需要说明的是，在本发明实施例中，目标视频和背景视频的类型可相同，也可不同。比如：目标视频和背景视频均为已经封装的视频文件。再比如：目标视频为视频流，背景视频为已经封装的视频文件。

本发明实施例提供的视频处理装置可以实施为硬件、软件或者软硬件结合的方式。

作为软件实施的示例，视频处理装置可以包括一个或多个的软件模块，用于单独或协同实现本发明实施例提供的视频处理方法，软件模块可以采用各种前端或后端的各种编程语言。

作为硬件实施的示例，视频处理装置可以包括一个或多个硬件模块，硬件模块可以采用(ASIC，Application Specific Integrated Circuit)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(F PGA，Field-ProgrammableGate Array)等硬件译码器，其被编程以单独或协同实现本发明实施例提供的视频处理方法。

下面再以软硬件结合为例，说明本发明实施例提供的视频处理装置的示例性实施。

参见图2，图2是本发明实施例提供的视频处理装置20一个可选的结构示意图，根据图2示出的视频处理装置20的结构，可以预见视频处理装置20的其他的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

图2所示的视频处理装置20包括：至少一个处理器210、存储器240、至少一个网络接口220和用户接口230。视频处理装置20中的各个组件通过总线***250耦合在一起。可理解，总线***250用于实现这些组件之间的连接通信。总线***250除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***250。

存储器240可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器240旨在包括任意适合类型的存储器。

本发明实施例中的存储器240能够存储数据以支持服务器200的操作。这些数据的示例包括：用于在视频处理装置20上操作的任何计算机程序，如操作***和应用程序。其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本发明实施例提供的视频处理方法采用软硬件结合实施的示例，本发明实施例所提供的方法可以直接体现为由处理器210执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器240，处理器210读取存储器240中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器210以及连接到总线250的其他组件)完成本发明实施例提供的视频处理方法。

将结合前述的实现本发明实施例的视频处理装置的示例性应用和实施，说明实现本发明实施例的视频处理方法。可以理解地，图3所示的视频处理方法可由各种电子设备执行，例如由终端或服务器执行，又或者，由终端和服务器协同执行。

参见图3，图3是本发明实施例提供的视频处理方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

步骤S301，获取目标视频。

目标视频可为已经封装的视频文件。目标视频也可为视频流，例如：直播视频的流媒体数据。

目标视频的数量可为一个或多个。

终端上运行有视频处理应用程序，在视频处理应用程序中提供有目标视频选择窗口，在目标视频选择窗口中提供有备选的目标视频的标识信息，比如：视频缩略图、视频名称等。终端接收用户的选择操作，将选择操作选定的标识信息对应的视频作为目标视频。其中，当电子设备为服务器时，终端上运行的视频处理应用程序为服务器的客户端。

对于用户选择的目标视频，可将目标视频呈现在终端上，使得用户对所选择的目标视频进行预览，以确定所选择的目标视频是否为所需要的目标视频，如果不是用户所需要的目标视频时，可基于目标视频选择窗口进行目标视频的重新选择。

示例性地，目标视频选择窗口可如图4中窗口401所示，窗口401中的图标401、图标402、图标403分别为备选的目标视频的图标，当选择操作选定图标402，则图标402对应的视频为目标视频。窗口401中还包括：触发更多备选的目标视频的更多选项404，当更多选项404接收到用户的触控操作时，可呈现更多的备选的目标视频的标识信息。当获取目标视频后，可将窗口405作为预览窗口，在窗口405中呈现目标视频的画面。

步骤S302，响应于针对所述目标视频中目标对象的分割操作，从所述目标视频中获取以所述目标对象为前景的前景视频。

终端上可加载用于接收针对目标对象的分割操作的分割入口。终端可基于接收到的分割操作生成指示从目标视频中获取以所述目标对象为前景的前景视频的分割指令。

在一示例中，电子设备为终端时，终端基于分割指令在本地从目标视频中获取前景视频。

在又一示例中，电子设备为服务器时，终端将分割指令发送至服务器，服务器基于接收到的分割指令从目标视频中获取前景视频。

电子设备基于分割指令，可调用视频编码器的接口，基于所调用的接口将目标视频输入视频编码器，通过视频编码器将目标视频帧分解为视频帧。电子设备对各视频帧进行图像识别，从各视频帧中识别出目标对象，基于目标对象所在的区域得到构成前景视频的前景视频帧。目标对象可为人、动物等目标视频的视频帧中的前景中的对象。这里，将构成前景视频的视频帧称为前景视频帧，所述前景视频包括至少一个前景视频帧。

从目标视频中识别以目标对象为前景的视频视，可通过以下方式中的至少一种识别目标视频的视频帧中的目标对象：

识别方式一、标定方式

接收用户针对目标视频中的视频帧的标定操作，将用户的标定操作所标定出的对象确定为目标对象。其中，用户的标定操作所标定出的对象可以为特定的对象，例如，多个人中的一个人，也可以是一类对象，例如，男性、女性。

识别方式二、图像识别模型自动识别

通过图像识别模型自动识别视频帧的前景(例如人、动物)作为目标对象。

步骤S303，获取背景视频。

背景视频可为已经封装的视频文件。背景视频也可为视频流。

终端上运行的视频处理应用程序可提供有视频选择窗口以接收用户选择背景视频的视频选择操作，基于用户的视频选择操作确定背景视频的标识信息。

这里，将背景视频中的视频帧称为背景视频帧，所述背景视频包括至少一个背景视频帧。

需要说明的是，在本发明实施例中，步骤S301、步骤S302与步骤S303的执行顺序不分先后，可先执行步骤S301、步骤S302，也可先执行步骤S303。

步骤S304，响应于针对所述前景视频和所述背景视频的合成操作，将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进行叠加，并将叠加得到的视频帧封装为合成视频。

终端上运行的视频处理应用程序可提供有触发视频合成的交互入口，以接收指示将前景视频与背景视频进行合成的合成操作，并基于合成操作生成合成指令。

当电子设备为服务器时，终端将合成指令发送至服务器，服务器基于合成指令进行前景视频中的前景视频帧和背景视频中的背景视频帧的叠加，以实现前景视频和背景视频的合成。

如图5A所示，例如：当前景视频包括：视频A'，背景视频为视频D时，将视频A'的视频帧与背景视频中的背景视频帧进行叠加，叠加效果可如图5A所示，其中，背景区域501为视频D的画面，对象502为视频A中的前景中的对象a对应的区域。

电子设备将前景视频的前景视频帧与背景视频的背景视频帧根据合成参数进行叠加。这里，可将目标对象在目标视频中的相对位置和/或相对成像尺寸作为合成参数，也可基于编辑页面接收用户的编辑操作，使得用户对合成参数进行调整。

需要说明的是，本发明实施例中的选择操作、分割操作、合成操作等用户操作的操作方式可为：触控、语音、手势等，本发明实施例对用户的操作方式不进行任何限定。

在本发明实施例提供的视频处理方法中，将以目标对象为前景的前景视频从目标视频中分割出来，并将所分割的前景视频的前景视频帧与背景视频的背景视频帧叠加的视频帧封装为合成视频，从而基于视频的内容对动态的视频进行合成，得到画面内容协调的动态视频。这里，基于图像分割技术，将目标对象实时从一个视频中提取出来，与另外一个视频进行合成，实现两个视频自动融合效果，能极大提升用户视频制作的效率，并且激发用户创作出更多有趣的视频，让普通用户也能制作出类似电影特效的视频。

在一些实施例中，当目标视频的数量为至少两个，步骤S302可以执行为：接收针对至少所述两个目标视频的批量分割操作；响应于所述批量分割操作，从每个所述目标视频中获取以所述目标对象为前景的视频片段，并确定为相应的前景视频。

当目标视频的数量为多个时，分割操作可为批量分割操作。对于多个目标视频，每个目标视频作为前景的目标对象可相同，也可不相同。其中，不同的目标视频对应的目标对象可为同一类对象。这里，分割出的前景视频为目标视频中的目标对象构成的视频片段。

此时，步骤S303可以执行为：接收针对至少两个所述前景视频和所述背景视频的批量合成操作；响应于所述批量合成操作，将所述至少两个前景视频中的前景视频帧分别与所述背景视频中的背景视频帧进行叠加。

例如：当前景视频包括：视频A'、视频B'和视频C'，背景视频为视频D时，将视频A'、视频B'和视频C'的视频帧共同与背景视频中的背景视频帧进行叠加，叠加效果可如图5B所示，其中，背景区域501为视频D的画面，对象502、对象503和对象504分别为视频A、视频B和视频C中的前景中的对象a、对象b和对象c对应的区域。

在一些实施例中，当步骤S303可以这样执行：加载显示有备选的背景视频的视频选择窗口；接收针对所述视频选择窗口的视频选择操作；获取所述视频选择操作选定的背景视频。

终端上运行的视频处理应用程序中提供有视频选择窗口，视频选择窗口中显示有备选的背景视频的标识信息。视频选择窗口中备选的背景视频的标识信息可从本地获取，也可从网络侧获取。终端基于视频选择窗口接收视频选择操作，使得用户基于视频选择操作从备选的背景视频中选择进行视频合成的背景视频。

对于用户选择的背景视频，可将背景视频呈现在终端上，使得用户对所选择的背景视频进行预览，以确定所选择的背景视频是否为所需要的背景视频，如果不是用户所需要的背景视频时，可基于视频选择窗口进行背景视频的重新选择，以对所选择的背景视频进行更换。示例性地，视频选择窗口可如图4中窗口401所示，这里对背景视频的选择过程不再进行赘述。

在一些实施例中，响应于针对所述前景视频和所述背景视频的预览操作，呈现所述前景视频帧与所述背景视频帧的叠加效果。

终端上运行的视频处理应用程序可提供有接收预览操作的交互入口，以接收指示预览前景视频与背景视频的叠加效果的预览操作。

在一些实施例中，如图6所示，步骤S302中接收到分割操作后，可以通过以下步骤从目标视频帧中分割出前景视频：

步骤S3021，从所述目标视频的视频帧中识别所述目标对象所在的目标区域，并将所述视频帧中所述目标区域之外的区域透明化处理；

通过图像识别模型或标定的方式从目标视频的视频帧中识别出目标对象的目标区域，识别出目标区域后，保持属于目标区域的像素点的像素值不变，将属于目标区域以外的区域的像素点的像素值设置为0，从而目标区域之外的区域透明化处理，分割出目标视频的视频帧中的目标对象。

步骤S3022，将透明化处理后的视频帧封装为所述前景视频。

基于视频编解码器将透明化处理的前景视频帧封装为前景视频。

在一些实施例中，步骤S3021可以这样实现：

识别所述目标视频的视频帧中所述目标对象所在的目标区域，并根据所述目标区域得到所述目标视频的视频帧对应的图像矩阵；所述图像矩阵中的元素分别表征对应的视频帧的像素属于所述目标区域的概率；将所述图像矩阵与对应的视频帧进行掩膜处理，以将所述视频帧中除所述目标区域之外的区域透明化。

这里，可通过图像识别模型识别目标视频帧中的目标对象所在的目标区域，图像识别模型基于识别出的目标区域输出二值化的图像矩阵。也可通过用户的标定识别出目标视频帧中的目标对象所在的目标区域，并根据确定的目标区域得到二值化的图像矩阵。在图像矩阵中，目标区域以外的像素点对应的元素为0，表征该像素不属于目标区域，目标区域的像素点对应的元素为1，表征该像素属于目标区域。将图像矩阵与目标视频的视频帧进行掩膜处理，目标区域的像素点的像素值不变，目标区域以外的区域的像素点的像素值为0，从而将视频帧中除所述目标区域之外的区域透明化。

这里，可通过进行目标对象标注的样本集对图像识别模型进行训练。当目标对象为人像时，样本集中的训练样本可如图7所示，在人像图片701中对人像702进行标注。

在一些实施例中，所述将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进行叠加，包括：

获取所述前景视频帧与背景视频帧的时间戳对齐关系；将所述前景视频中的前景视频帧、与所述背景视频中符合所述时间戳对齐关系的背景视频帧进行叠加。

这里，在将前景视频帧和背景视频帧叠加之前，获取前景视频中各前景视频帧的时间戳，并获取背景视频中各背景视频帧的时间戳，并根据获取的时间戳，确定前景视频帧和背景视频帧的时间戳对齐关系，也就是说，前景视频的时段与背景视频的时段之间的关系，并将具有时间戳对齐关系的前景视频帧和背景视频帧进行叠加。其中，时间戳对齐关系可以是根据各前景视频帧在时间轴上的位置和各背景视频帧在时间轴上的位置自动确定，也可以基于视频处理应用程序提供的编辑功能确定。其中，视频处理应用程序提供的编辑功能能够基于用户的时间戳调整操作调整前景视频帧在时间轴上的位置或前景视频帧在时间轴上的位置。

比如：背景视频的时长为2分钟，时间轴上的时段为0至2分钟，前景视频的时长为30秒，并且其时间戳与背景视频的第1分16秒至第1分45秒这一时段对齐，则前景视频帧中的第一帧与背景视频第1分16秒的第一帧具有时间戳对齐关系，并逐帧对应，将前景视频帧中各前景视频帧和背景视频中第1分16秒至第1分45秒中各背景视频帧进行叠加。这里，前景视频帧和背景视频帧的帧率可相同。

又比如：同上例，对前景视频帧与背景视频帧的时间戳对齐关系进行调整如图8所示，在调整之前，前景视频的起始时间与背景视频的T1对齐，其中，T1为1分16秒，前景视频与背景视频的第1分16秒至第1分45秒这一时段对齐。用户基于虚线所示的可滑动控件延箭头所示的方向进行调整，将前景视频的起始时间调整至背景视频的T2，其中，T2为1分06秒，则通过时间调整操作将前景视频帧在背景视频的时间轴中的起始位置由第1分16秒调整至第1分06秒，此时前景视频帧的时段与背景视频帧的第1分06-第1分35秒对齐，则将前景视频帧中各前景视频帧和背景视频中第1分06秒至第1分35秒中各背景视频帧进行叠加。

在本发明实施例中，终端可以在用户界面提供可滑动控件等时间调整接口，使得用户在用户界面上通过可滑动控件等时间调整接口选择前景视频与背景视频合成的起始时间、合成的结束时间。需要说明的是，合成的起始时间或合成的结束时间介于背景视频的起始时间和结束时间之间。在电子设备将前景视频帧和背景视频帧叠加时，基于所选择的合成的起始时间开始分别解码背景视频为背景视频帧，并基于所分解的背景视频帧与前景视频帧逐帧进行叠加，直到合成的结束时间。如果合成的起始时间与合成的结束时间的间隔比前景视频的时长，则以前景视频的结束时间为准。如果合成的起始时间与合成的结束时间的间隔比前景视频时间短，则以选择的合成的结束时间为准，即还未到前景视频结尾就结束合成。

响应于针对所述前景视频和所述背景视频设定合成参数的编辑操作；将所述前景视频帧覆盖所述背景视频帧，且所述前景视频帧在所述背景视频帧中的覆盖区域符合设定的合成参数。合成参数包括以下参数至少之一：位置、尺寸等，以表征前景视频帧在背景视频帧中的相对位置、相对大小等叠加位置。

终端上运行的视频处理应用程序可提供编辑页面，在编辑页面中，可显示前景视频的前景视频帧和背景视频中的背景视频帧，这里，可显示具有时间戳对齐关系的前景视频帧和背景视频帧。

在编辑界面上加载有编辑交互接口，接收设定合成参数的编辑操作，以设定合成参数。其中，编辑操作可为平移、旋转、缩放等操作。

在实际应用中，进行编辑操作的编辑界面可如图9所示，在编辑界面901中提供一与前景视频帧中的目标对象的大小相同的矩形框902，基于该矩形框接收用户对前景视频的编辑操作。

当确定用户完成编辑操作后，可自动触发合成操作，也可基于用户在显示界面上运行的交互入口接收合成操作。响应于合成操作，基于编辑操作设定的合成参数，将前景视频帧覆盖所述背景视频帧，使得前景视频在背景视频帧中的覆盖符合设定的合成参数。

在一些实施例中，所述确定所述前景视频帧在所述背景视频帧中的合成参数，包括：构造与所述前景视频帧大小相同的初始矩阵；根据所述编辑操作对所述初始矩阵中的元素进行调整，得到表征所述合成参数的变化量的目标矩阵。

这里，构造的和前景视频帧中目标对象高宽相同的矩阵，称为初始矩阵。根据编辑操作对初始矩阵进行调整，得到表征合成参数的变化量的目标矩阵。当编辑操作为平移时，则将平移的位置所在的像素对应的元素的值修改为位移大小。当编辑操作为缩放时，则将缩放的位置所在的像素对应的元素的值修改为缩放比例。当编辑操作为旋转时，则将旋转的位置所在的像素对应的元素的值修改为缩放的角度函数。

示例地，当前景视频帧的高宽为3时，初始矩阵可为3*3的矩阵平移时的目标矩阵可为平移时的目标矩阵可为旋转时的目标矩阵可为其中，t_x、t_y分别表示沿x、y方向平移的位移大小，s_x、s_y分别表示沿x、y方向缩放的比例，sin(q)/cos(q)中的q表示旋转的角度。其中，沿x、y方向缩放的比例为表示s_x、s_y表示二维空间坐标(x,y)以(0,0)为中心在水平方向上缩放s_x倍，在垂直方向上缩放s_y倍，也就是说，变换后坐标位置距离(0,0)的水平距离变为原坐标离位置中心点的水平距离的s_x倍，垂直距离变为原坐标离位置中心点的垂直距离的s_y倍。其中，1、0为没有实际意义，是将计算表示为数学矩阵时得到的默认参数。

在一些实施例中，所述将所述前景视频帧覆盖所述背景视频帧，且所述前景视频帧在所述背景视频帧中的覆盖区域符合设定的合成参数，包括：

将所述目标矩阵与所述前景视频中的前景视频帧相乘，得到调整后的前景视频帧；将所述调整后的前景视频帧覆盖所述背景视频帧。

这里，可将目标矩阵与前景视频帧的位图相乘，得到调整后的前景视频帧的位图。位图(Bitmap)以RGBA像素的二维数组方式进行存储。前景视频帧中坐标位置为p0(x0,y0)的像素进行变换时，将变换的位移、缩放大小等参数输入参考矩阵，得到对应的目标矩阵M(x0,y0)，则调整之后的前景视频帧中该像素的坐标位置为p1(x1,y1)，p1(x1,y1)的计算公式为：

p1(x1,y1)＝p0(x0,y0)*M(x0,y0)；

其中，p0(x0,y0)以矩阵[x y]的转置[x y]^T进行计算。

比如：当一空间坐标p0(x0,y0)先延x方向平移t_x，再延y方向平移t_y最后得到的坐标p1(x1,y1)＝(x0+t_x，y0+t_y)，用矩阵的形式表示时，可为：

前景视频帧中每个像素都可以得到一个新的坐标位置，从而得到一个新的像素二维数组，通过这个二维数组就可以还原为新的Bitmap，也就是调整之后的bitmap。

本发明实施例提供的视频处理方法，能够提供编辑页面，并基于编辑页面接收用户对前景视频帧的编辑操作，调整前景视频帧与背景视频帧合成时，相对于背景视频帧的相对位置和成像尺寸。

示例地，以电子设备采用Android平台为例，对本发明实施例中涉及的视频编码器进行说明，视频编码器的编解码架构如图10所示：

编解码器可以处理输入数据来产生输出数据，编解码器使用一组输入缓冲器和输出缓冲器来异步处理数据。可以通过输入器创建一个空的输入缓冲区，以填充数据后发送到编解码器进行处理。编解码器对客户端提供的输入数据进行转换，然后输出到一个空的输出缓冲区。最后客户端获取到输出缓冲区的数据，消耗掉里面的数据，将占用的输出缓冲区释放回编解码器。如果后续还有数据需要继续处理，编解码器就会重复这些操作。

编解码器能处理的数据类型可包括：压缩数据和原始视频数据。可以通过缓冲区(ByteBuffers)处理这些数据，此时需要屏幕缓冲区(Surface)对原始的视频数据进行展示，这样也能提高编解码的性能。Surface可使用本地的视频缓冲区，这个缓冲区不映射或拷贝到ByteBuffers。这样的机制让编解码器的效率更高。通常在使用Surface的时候，无法访问原始的视频数据，但是可以使用图像读取器(ImageReader)访问解码后的原始视频帧。

下面，以目标对象为人像，电子设备为终端为实际的应用场景，将说明本发明实施例在实际的应用场景中的示例性应用。

相关技术，视频合成方案可如图11所示，包括：选择背景模板1101。背景模板1101为一背景视频。选取图像内容包括人像的人像图片1102，通过用户涂抹的方式选择人像图片1102的人像区域，基于用户选择的人像区域，通过AI分割，将人像图片1102分割为人像和背景两部分，从而抠出人像1103，在背景模板1101上显示人像1103形成编辑图像1104，并对编辑图像1104中显示人像1103和背景模板1101的位置进行编辑，在编辑完成后，并基于编辑的合成参数对将人像1103与背景模板1101进行融合，得到图像内容包括人像的合成视频1105。

图11所示的视频合成方案的合成效果如图12所示，将静态的人像图片1102中的人像1103合成到背景模板1101中，得到合成视频1104的显示页面1105。图11所示的视频合成方案，是对静态的图片进行人像背景分割，然后合成到视频中，局限性较大，一是必须要有特定制作好的模板背景视频，二是只能针对静态图片进行分割，抠出的人像是静止的，丧失了很多趣味性。另外对于图片的人像分割需要手动进行区域涂抹选择，对于处理具有多帧图像的视频效率太低。

相关技术中，用户在观看某个短视频时，可以发起视频合拍功能，将两个视频进行合成，组合成一个同框的视频。视频合拍的技术实现方案是直接将两个视频进行左右拼接，两个视频因为场景不同，会显得较为生硬。视频合拍的效果如图13所示，其中，画面1301为视频合拍的其中一个视频的画面，画面1302是另一个视频的画面。

因此，视频合拍功能的方案是简单地将两个视频左右拼接在一起，合成一个更大的视频，没有对两个视频的背景进行处理，合成的视频有两个场景，显得比较突兀。

为了解决上述仅能将静态的图片合成到视频中的视频合成方案的局限定大，或将两个视频进行拼接的视频合成方案场景突兀的技术缺陷，本发明实施例提供一种视频处理方法，包括：视频选择、视频解码、人像分割、图像编辑、视频合成等步骤，如图14所示，包括：

从本地的视频中进行视频选择，得到背景视频1401和人像视频1402即目标视频。对背景视频1401进行视频解码，得到视频帧1403即背景视频帧。对人像视频1402进行视频解码，得到视频帧1404。将视频帧1404输入神经网络模型1405进行人像分割，输出人像的mask图1406，通过人像的mask图1406与视频帧1404的掩膜处理，得到人像图像1407即前景视频帧。

当接收到开始编辑操作时，将背景视频帧1402和人像图像1407显示在编辑界面上。在编辑界面上的人像图像1407接收用户的编辑操作，基于用户的编辑操作对人像图像1407相对视频帧1402的相对位置和相对大小进行调整，得到相对关系，并基于相对关系人像图像进行编辑。其中，对人像图像1407进行的编辑操作可包括：平移、缩放和旋转等处理。在接收到预览操作时，对编辑后的人像图像1408和视频帧1402进行渲染，输出作为人像图像1407和视频帧1402的叠加效果1409。当接收到合成操作时，再次通过渲染对编辑后的人像图像1408和视频帧1402进行渲染，得到合成帧1410，再次通过多媒体编码器将合成帧1410封装成合成视频1411。其中，输出叠加效果1409后，还可继续接收编辑操作，对人像图像1407相对视频帧1402的相对位置和相对大小进行调整。

终端设备可通过***相册或自定义相册页面显示视频选择选项，基于所显示的选项选择背景视频1401和人像视频1402。终端设备通过MediaCodec将背景视频1401和人像视频1402分别解码成多个单帧图像。对人像视频1402所解码的每一帧图像进行人像分割，得到人像图像1407。终端设备通过表征合成参数的目标Matrix对分割的每一帧人像图像1407的Bitmap进行矩阵变换，得到编辑之后的人像图像的Bitmap，再将编辑之后Bitmap通过OpenGL ES API上传到图形处理单元(Graphic Process Unit，GPU)的纹理单元，终端设备的GPU通过着色器将背景视频帧702对应的纹理与编辑之后的人像图像的纹理进行图像混合操作，得到最终的合成帧，并通过MediaCodec将合成帧编码成合成视频。

下面，对本发明实施例提供的视频处理方法中的以下阶段进行描述：人像分割、图片编辑、渲染、视频的解码与合成。

1、人像分割

在服务器中，以包括多个人工标注的人像类图片的集合作为训练集，对神经网络模型进行训练，将训练后的神经网络模型并保存，并将训练后的神经网络模型移植到终端设备上。

服务器可收集人像类图片，并通过人工的方式对收集的人像类图片进行标注，将人像类图片中人像对应的区域作为前景，并将人像以外的区域作为背景，将前景和背景的每个像素点区分开。人工标注的人像类图片可如图7所示，在人像图片701中对人像702进行标注。

对于动态的目标视频，通过视频解码器(MediaCodec)实时将目标视频解码成静态帧，然后将静态帧输入训练的神经网络模型进行处理，返回分割的图片mask(二值图)，通过mask与目标视频帧中的原始图像进行透明度混合，可以裁剪出分割后的人像即前景视频中的前景视频帧。

2、图片编辑

用户可分割出的人像图片进行平移、缩放、旋转等编辑。用户可根据自身需求对编辑的位置和大小进行控制。

分割出的人像图片在内存中以Bitmap方式进行存储，可通过Matrix矩阵对存储的Bitmap进行变换。通过构造一个与人像图片宽高相等的矩形框，然后在图形界面上提供给用户拖动和旋转的交互入口，可以获取用户编辑矩形框产生的Matrix即目标矩阵，将原始的人像图片像素与Matrix进行相乘，可以得到平移、缩放和旋转等变换之后的Bitmap。

3、渲染

人像从目标视频中分割出来之后，可进行实时预览。另外在编辑大小和位置信息之后，也可实时预览。在实时预览时，在终端中采有OpenGL ES进行渲染，将每一帧的图像的RGB数据上传到GPU的纹理单元，然后通过GPU的渲染管线进行渲染，最终GPU会将输出的图像数据渲染到屏幕的Frame Buffer中，从而显示到屏幕上。

基于GPU具备高效的并行处理与渲染架构，非常适合图像的处理与渲染，因此，通过OpenGL ES的API来利用GPU进行渲染，可以实现达到实时渲染特效的目的。

4、视频解码与合成

通过对视频进行解码得到视频中的视频帧，从而对视频逐帧进行处理。在融合最终的视频时，需要采用视频合成技术，也就是视频编码。

以Android平台为例，可以基于Android上的MediaCodec模块进行视频编解码。

本发明实施例提供的视频处理方法可在手机视频和直播类的视频处理应用程序中，用于快速合成多个视频，提升趣味视频编辑效率。如图15所示，用户在使用时，可以依次选择多个视频，比如：视频151-1、视频151-2…视频151-m，其中，视频151-2为模板视频(即背景视频)。用户点击视频处理应用程序提供的用于一键抠人像的交互接口，图像应用程序对处视频151-2以外的视频151-1、…视频151-m中各视频进行人像分割，对应生成多个人像视频：人像视频152-1…人像视频152-m。其中，人像视频中，非人像的背景区域为透明。用户可依次调整人像视频相对于模板视频(可包含一个背景)的大小和相对位置，并实时预览融合效果。当图像应用成图接收到用户点击合成按钮时，进行视频合成，将人像视频152-1…人像视频152-m共同合成至视频151-2中，得到合成视频153，并可将合成完成的视频153保存到本地。

视频处理应用程序提供的视频抠图界面可如图16中的1601，窗口1602是当前在工作区的所有待抠人像视频列表，另外有一个“抠人像”的按钮1603和“开始编辑”的按钮1604。当用户点击“抠人像”按钮1603，可以将当前选择的视频中的人像提取出来，并实时显示在预览区域，点击“开始编辑”按钮1604，进去编辑界面1605。编辑界面1605用于编辑人像视频1606与背景视频1607的相对位置和大小，另外有一个“更换背景视频”按钮1608和一个“开始合成”按钮1609，“更换背景视频”按钮1608用于替换当前选择的背景视频，“开始合成”按钮1609用于开始最终的视频合成。

本发明实施例提供的视频处理方法通过对动态的视频进行自动人像背景分割，这样抠出的人像是运动和鲜活的形象，并且允许用户选择任意的背景视频，将人像合成到该视频中，从而实现两段甚至多段视频的融合。例如，使用两段用户在室内表演舞蹈的视频，将其中分别的两个人像抠出，合成到另外一个舞台的场景视频中，从而实现两人异地合作演出的效果。由于进行了人像背景分割，最终合成的视频场景统一，因此本方案引入了更多的创作空间，能充分激发用户的想象力和创造力，从而提升软件整体的可玩性及趣味性。

下面说明软件模块的示例性结构，在一些实施例中，如图2所示，视频处理装置中的软件模块可以包括：

第一获取单元2401，用于获取目标视频；

分割单元2402，用于响应于针对所述目标视频中目标对象的分割操作，从所述目标视频中获取以所述目标对象为前景的前景视频；所述前景视频包括至少一个前景视频帧；

第二获取单元2403，用于获取背景视频；所述背景视频包括至少一个背景视频帧；

合成单元2404，用于响应于针对所述前景视频和所述背景视频的合成操作，将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进行叠加，并将叠加得到的视频帧封装为合成视频。

在一些实施例中，分割单元2402，还用于：

接收针对至少所述两个目标视频的批量分割操作；响应于所述批量分割操作，从每个所述目标视频中获取以所述目标对象为前景的视频片段，并确定为相应的前景视频。

在一些实施例中，合成单元2404，还用于：

接收针对至少两个所述前景视频和所述背景视频的批量合成操作；响应于所述批量合成操作，将所述至少两个前景视频中的前景视频帧分别叠加到所述背景视频中的背景视频帧中。

在一些实施例中，第二获取单元2403，还用于：

加载显示有备选的背景视频的视频选择窗口；接收针对所述视频选择窗口的视频选择操作；获取所述视频选择操作选定的背景视频。

在一些实施例中，所述装置还包括：预览单元，用于：

在一些实施例中，分割单元2402，还用于：

从所述目标视频的视频帧中识别所述目标对象所在的目标区域，并将所述视频帧中所述目标区域之外的区域透明化处理；将透明化处理后的视频帧封装为所述前景视频。

在一些实施例中，分割单元2402，还用于：

在一些实施例中，合成单元2403，还用于：

在一些实施例中，所述合成单元2403，还用于：

在一些实施例中，合成单元2403，还用于：

构造与所述前景视频帧大小相同的初始矩阵；根据所述编辑操作对所述初始矩阵中的元素进行调整，得到表征所述合成参数的变化量的目标矩阵。

在一些实施例中，合成单元2403，还用于：

作为本发明实施例提供的方法采用硬件实施的示例，本发明实施例所提供的方法可以直接采用硬件译码处理器形式的处理器410来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的方法。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图3示出的方法。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本发明实施例，将目标视频中以目标对象为前景视频从目标视频中分割出来，并以所分割的前景视频的前景视频帧为前景并以背景视频的背景视频帧为背景进行视频帧的合成，将合成的视频帧封装为合成视频，从而基于视频的内容对动态的视频进行合成，得到画面内容协调的动态视频。基于显示界面的一键操作，对多个目标视频进行批量化目标对象的分割处理。并且，向用户提供编辑界面，基于用户的编辑操作，对前景视频相对于背景视频的位置和成像尺寸进行编辑。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

获取目标视频；

获取背景视频；所述背景视频包括至少一个背景视频帧；

将叠加得到的视频帧封装为合成视频。

2.根据权利要求1所述的方法，其特征在于，所述响应于针对所述目标视频中目标对象的分割操作，从所述目标视频中获取以所述目标对象为前景的前景视频，包括：

接收针对至少两个目标视频的批量分割操作；

3.根据权利要求1所述的方法，其特征在于，所述响应于针对所述前景视频和所述背景视频的合成操作，将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进行叠加，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取背景视频，包括：

加载显示有备选的背景视频的视频选择窗口；

接收针对所述视频选择窗口的视频选择操作；

获取所述视频选择操作选定的背景视频。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述从所述目标视频中获取以所述目标对象为前景的前景视频，包括：

将透明化处理后的视频帧封装为所述前景视频。

7.根据权利要求6所述的方法，其特征在于，所述从所述目标视频的视频帧中识别所述目标对象所在的目标区域，并将所述视频帧中所述目标区域之外的区域透明化处理，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进行叠加，包括：

获取所述前景视频帧与背景视频帧的时间戳对齐关系；

将所述前景视频中的前景视频帧、与所述背景视频中符合所述时间戳对齐关系的背景视频帧进行叠加。

9.根据权利要求1至7任一项所述的方法，其特征在于，所述将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进行叠加，包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

构造与所述前景视频帧大小相同的初始矩阵；

根据所述编辑操作对所述初始矩阵中的元素进行调整，得到表征所述合成参数的变化量的目标矩阵。

11.根据权利要求10所述的方法，其特征在于，所述将所述前景视频帧覆盖所述背景视频帧，且所述前景视频帧在所述背景视频帧中的覆盖区域符合设定的合成参数，包括：

将所述调整后的前景视频帧覆盖所述背景视频帧。

12.一种视频处理装置，其特征在于，包括：

第一获取单元，用于获取目标视频；

合成单元，用于响应于针对所述前景视频和所述背景视频的合成操作，将所述前景视频中的前景视频帧与所述背景视频中的背景视频帧进行叠加，并将叠加得到的视频帧封装为合成视频。

13.一种视频处理装置，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的视频处理方法。

14.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至11任一项所述的视频处理方法。