CN110163188B

CN110163188B - 视频处理以及在视频中嵌入目标对象的方法、装置和设备

Info

Publication number: CN110163188B
Application number: CN201910495416.8A
Authority: CN
Inventors: 陈博恒; 殷泽龙; 李文俊; 谢年华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2023-08-08
Anticipated expiration: 2039-06-10
Also published as: CN110163188A

Abstract

本申请公开了一种视频处理以及在视频中嵌入目标对象的方法、装置和设备，属于计算机技术领域，用于提供一种从视频中提取出前景区域的方式，为视频的后续分析和加工奠定基础。该方法包括：获取待处理视频中参考帧图片以及所述参考帧图片的前景掩码图片；根据所述参考帧图片和所述参考帧图片的前景掩码图片，以及非参考帧图片的相邻一帧图片和所述相邻一帧图片的前景掩码图片，从所述参考帧相邻的非参考帧开始，分别预测非参考帧图片的前景掩码图片；分别根据各前景掩码图片对应的图片在所述待处理视频中的位置，将所有前景掩码图片合成得到所述待处理视频的前景掩码视频。

Description

视频处理以及在视频中嵌入目标对象的方法、装置和设备

技术领域

本申请涉及计算机技术领域，特别涉及一种视频处理以及在视频中嵌入目标对象的方法、装置和设备。

背景技术

前景检测(video foreground detection)，是指通过特定的算法和模型将感兴趣的前景区域从视频图像序列中提取出来，以便后续对视频进行分析与加工。其中，背景是指场景中非兴趣物体组成的较为稳定的场景结构，前景是指场景中感兴趣的运动目标组成的场景结构。前景与背景是相对的概念，以高速公路场景为例，如果对高速公路上来往的汽车感兴趣，则汽车是前景，而路面以及周围的环境是背景；如果仅对闯入高速公路的行人感兴趣，则闯入者是前景，而包括汽车在内的其他事物均为背景。

前景检测在视频广告、视频美化、安防监控和交通监控等领域中被广泛使用，例如针对视频广告来说，若是直接在视频中***广告，广告可能会遮挡住前景物体，例如走动的行人，影响用户观看体验，而若是对视频进行前景检测，将前景区域从场景中提取出来，进而后续在***广告时则可以选择避开前景区域。可见，从视频场景中提取前景区域是后续应用的基础，因此如何实现视频的前景检测是目前亟待解决的问题。

发明内容

本申请实施例提供一种视频处理以及在视频中嵌入目标对象的方法、装置和设备，用于提供一种从视频中提取出前景区域的方式，为视频的后续分析和加工奠定基础。

一方面，提供一种视频处理方法，所述方法包括：

获取待处理视频中参考帧图片以及所述参考帧图片的前景掩码图片；

根据所述参考帧图片和所述参考帧图片的前景掩码图片，以及非参考帧图片的相邻一帧图片和所述相邻一帧图片的前景掩码图片，从所述参考帧相邻的非参考帧开始，分别预测非参考帧图片的前景掩码图片；

分别根据各前景掩码图片对应的图片在所述待处理视频中的位置，将所有前景掩码图片合成得到所述待处理视频的前景掩码视频。

一方面，提供一种在视频中嵌入目标对象的方法，所述方法包括：

采用上述方面所述的方法获取待嵌套目标对象的视频对应的前景掩码视频；

在位于所述前景掩码视频的后侧，将所述目标对象嵌套至所述视频中。

一方面，提供一种视频处理装置，所述装置包括：

掩码图片获取单元，用于获取待处理视频中参考帧图片以及所述参考帧图片的前景掩码图片；

掩码图片预测单元，根据所述参考帧图片和所述参考帧图片的前景掩码图片，以及非参考帧图片的相邻一帧图片和所述相邻一帧图片的前景掩码图片，从所述参考帧相邻的非参考帧开始，分别预测非参考帧图片的前景掩码图片；

视频合成单元，用于分别根据各前景掩码图片对应的图片在所述待处理视频中的位置，将所有前景掩码图片合成得到所述待处理视频的前景掩码视频。

可选的，所述掩码图片获取单元，具体用于：

通过预先训练的前景掩码提取模型，提取所述参考帧图片中包括的各前景物体的前景掩码；所述前景掩码提取模型是通过多个图片训练样本训练得到的，每一个图片训练样本标注了图片的前景掩码和包围前景掩码所在位置的边框；

根据各所述前景掩码在所述参考帧图片中的位置，将各所述前景掩码进行融合，获得所述前景掩码图片。

可选的，所述掩码图片获取单元，具体用于：

对所述参考帧图片进行特征提取，得到所述参考帧图片在N个尺度上的初始特征图；

基于在所述N个尺度上的所述初始特征图，获取在所述N个尺度上的含框特征图，其中，每一个尺度对应多个含框特征图，每一个框内包括一个或者多个候选前景物体；

将不同尺度且框的位置相同的含框特征图进行融合，得到多个融合特征图；

基于多个所述融合特征图获取所述参考帧图片中包括的各前景物体的前景掩码。

可选的，所述掩码图片获取单元，具体用于：

按照尺度从高到低的顺序，依次提取在所述N个尺度上的第一特征图，其中，在进行每一次特征提取时，对第i尺度的第一特征图进行特征提取，得到第i+1尺度的第一特征图，1＜i≤N，且i的值越大，尺度越小；

从尺度最小的第一特征图开始，通过逐级叠加的方式得到在所述N个尺度上的所述初始特征图；其中，在进行每一级叠加时，对第i尺度的第一特征图进行上采样，使得上采样得到的特征图与第i-1尺度的第一特征图的尺度相同后，将上采样得到的特征图与所述第i-1尺度的第一特征图进行叠加，得到第i-1尺度的初始特征图，1＜i≤N。

可选的，所述掩码图片获取单元，具体用于：

对尺度最大的初始特征图进行画框操作，得到多个尺度最大的含框特征图；

针对每一个尺度最大的含框特征图，通过逐级叠加的方式得到在所述N个尺度上的含框特征图；其中，在进行每一级叠加时，将每个第i尺度的含框特征图缩小至与第i+1尺度的初始特征图的尺度相同后，将缩小后的含框特征图与所述第i+1尺度的初始特征图进行叠加，得到第i+1尺度的含框特征图，1＜i≤N。

可选的，所述掩码图片获取单元，具体用于：

分别从各尺度的所述含框特征图中提取出边框特征图，并对不同尺度对应的边框特征图进行池化操作，以使得各尺度对应的池化后的边框特征图的大小相同；

将各尺度对应的池化后的边框特征图进行融合，得到所述融合特征图。

可选的，所述掩码图片获取单元，具体用于：

针对每一个融合特征图，基于所述融合特征图对所述边框内的物体进行分类，得到所述融合特征图对应的物体类别掩码；以及，

基于所述融合特征图对所述边框内的区域进行分类，且确定所述边框内的区域类型为前景时，获取所述融合特征图对应的前背景类别掩码；

将所述物体类别掩码与所述前背景类别掩码进行叠加，以得到所述前景掩码。

可选的，所述掩码图片预测单元，具体用于：

通过包含多个特征图尺度逐渐减小的特征提取层的特征提取模块，逐级提取所述参考帧图片和所述参考帧图片的前景掩码图片的多种尺度的第一特征图集合；

通过所述特征提取模块，逐级提取非参考帧图片的相邻一帧图片和该相邻一帧图片的前景掩码图片的多种尺度的第二特征图集合；

将尺度最小的第一特征图集合与尺度最小的第二特征图集合进行级联后，通过包含多个特征图尺度逐渐增大的掩码预测层的掩码预测模块，逐级将级联得到的特征图集合恢复至与所述待处理视频中原始图片的尺度相同的图片，以得到非参考帧图片的前景掩码图片。

可选的，所述特征提取模块包括的任意相邻两个特征提取层的尺度缩小倍数，与所述掩码预测模块包括的任意两个相邻掩码预测层的放大倍数相同。

可选的，所述掩码图片预测单元，具体用于：

按照所述掩码预测层设定的放大倍数将输入的特征图集合进行放大，将放大的特征图集合与相同尺度的第二特征图集合进行叠加。

可选的，所述参考帧图片为首帧图片，所述非参考帧图片的相邻一帧图片为所述非参考帧图片的前一帧图片。

一方面，提供一种在视频中嵌入目标对象的装置，所述装置包括：

掩码视频获取单元，用于采用上述方面所述的方法获取待嵌套目标对象的视频对应的前景掩码视频；

目标对象嵌入单元，用于在位于所述前景掩码视频的后侧，将所述目标对象嵌套至所述视频中。

一方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方面所述的方法。

一方面，提供一种计算机可读存储介质，存储有处理器可执行指令，所述处理器可执行指令用于执行上述方面所述的方法。

本申请实施例中，首先获取视频中参考帧图片的前景掩码图片，而在获取后续的非参考帧图片的前景掩码图片时，则可以根据参考帧图片的前景掩码图片以及该非参考帧图片的相邻一帧图片的前景掩码图片，来预测得到该非参考帧图片的前景掩码图片，针对视频中的所有非参考帧图片，均可以通过该方式预测得到前景掩码图片，最后将各前景掩码图片按照原始图片在视频中的位置合成为前景掩码视频，最终得到的前景掩码视频即为从视频中提取出来的一系列前景区域，这样，通过本申请实施例的方法，则可以从视频中提取得到前景区域，从而为后续的应用奠定基础。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的前景掩码的示意图；

图2为本申请实施例提供的前景掩码图片的示意图；

图3为本申请实施例提供的一种场景示意图；

图4为本申请实施例提供的另一种场景示意图；

图5为本申请实施例提供的视频处理方法的流程示意图；

图6为本申请实施例提供的前景掩码提取模型的网络架构示意图；

图7为本申请实施例提供的前景掩码和边框的示意图；

图8为本申请实施例提供的逐级叠加得到下一尺度的含框特征图的示意图；

图9为本申请实施例提供的适应性特征池化层的处理过程的示意图；

图10为本申请实施例提供的全连接融合层的处理过程的示意图；

图11为本申请实施例提供的前景掩码预测模型的一种网络架构图；

图12为本申请实施例提供的掩码预测层进行一次跨层相加的示意图；

图13为本申请实施例提供的视频的一种前景检测过程的流程示意图；

图14为本申请实施例提供的在视频中嵌入目标对象的方法的流程示意图；

图15为本申请实施例提供的嵌入广告的示意图；

图16为本申请实施例提供的视频处理装置的一种结构示意图；

图17为本申请实施例提供的在视频嵌入目标对象的装置的一种结构示意图；

图18为本申请实施例提供的计算机设备的一种结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

前景物体：组成前景的各个元素，即视频中的感兴趣物体，针对于不同的应用场景，前景物体的设定可以不同，例如以高速公路场景为例，如果对高速公路上来往的汽车感兴趣，则每一辆汽车为一个前景物体，所有汽车构成的画面即为前景，而路面以及周围的环境是背景；如果仅对闯入高速公路的行人感兴趣，则每一个闯入者为一个前景物体，所有闯入者构成的画面即为前景物体，而包括汽车在内的其他事物均为背景。

前景掩码(Mask)：或称前景区域，针对一帧图片而言，前景掩码为前景物体所在区域，前景掩码的外形轮廓与前景物体的外形轮廓保持一致。在实际应用中，由于前景物体与其临近的非前景物体的联系很密切，无法将这些物体分离对待，那么前景掩码除了包括前景物体之外，还可以包括与该前景物体联系密切的非前景物体。如图1所示，为一帧图像的示意图，若是前景物体为人，那么图1中总共包括两个人，这两个人可以分别得到一个前景掩码，即图1中所示的前景掩码1和前景掩码2。且可以看到，前景掩码1中的人物由于与其他非前景物体均独立，因此得到的前景掩码1可以仅包括人物，而前景掩码2中的任务由于手中持有物体，该物体并非为设定的前景物体，但是由于该物体与任务的关系比较密切，不好单独分割，进行得到的前景掩码2可以包括该物体。

前景掩码图片：包括一帧图片中的所有前景掩码的图片。同样以图1的图片为例，当前景物体为人物时，则图1所示的图片对应的前景掩码图片可以如图2所示，在前景掩码图片中，仅包括前景掩码，例如前景掩码1和前景掩码2在内，而不会包括背景。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

目前，前景检测在视频广告、视频美化、安防监控和交通监控等领域中被广泛使用，并且，从视频场景中提取前景区域是后续应用的基础，因此视频的前景检测是其中一项必不可少且极为重要的环节。而对于前景检测，目前大致有如下几种方法：

(1)基于混合高斯背景建模的前景检测方法，该方法的主旨在于利用像素在视频序列中大量样本值的高斯分布表示背景像素的特征，如果当前帧中的某一像素的特征与高斯分布相匹配，则被判定为背景像素，否则为前景像素，但是这种方法对于缓慢背景是较为有效的，但是针对变化剧烈的场景或者光照变化剧烈的场景，由于背景像素的变化较大，判定的结果则不太准确，并且该方法由于需要针对视频序列进行分析，计算复杂度也较大。

(2)视觉背景提取(Visual Background extractor，VIBE)方法，该方法利用单帧视频序列初始化背景模型，对于一个像素点，结合相邻像素点拥有相近像素值的空间分布特性，随机的选择它的邻域点的像素值作为它的模型样本值，进而通过比对背景模型和当前输入像素值来检测前景。但是该方法由于可能采用了运动物体的像素初始化样本集，容易引入拖影(Ghost)区域，前景检测效果不佳。

(3)非参数核密度估计方法，该方法是基于像素颜色空间的非参数背景建模方法，其主旨在于由视频序列图像像素的采样背景样本估计背景像素的概率密度函数，从而判断当前像素概率值是否属于背景的概率，来判断当前像素属于前景还是背景，但是该方法需要存储大量的背景样本，且计算复杂度相当高，消耗时间较长。

鉴于现有技术中前景检测所存在的问题，本申请实施例提供了一种视频处理方法，该方法提出了一种新的视频前景检测方式，在该方法中，首先获取视频中参考帧图片的前景掩码图片，而在获取后续的非参考帧图片的前景掩码图片时，则可以根据参考帧图片的前景掩码图片以及该非参考帧图片的相邻一帧图片的前景掩码图片，来预测得到该非参考帧图片的前景掩码图片，针对视频中的所有非参考帧图片，均可以通过该方式预测得到前景掩码图片，最后将各前景掩码图片按照原始图片在视频中的位置合成为前景掩码视频，从而达到视频前景检测的效果，进而为后续的应用奠定基础。

本申请实施例在获取参考帧图片的前景掩码图片时，可以利用预先训练的模型进行前景掩码的提取，该模型是利用大规模的具有前景掩码标注的训练样本集训练得到的，以使得通过该模型能够准确的预测出参考帧图片的前景掩码，从而使得后续的非参考帧图片的前景掩码图片预测更加准确，提高视频前景掩码预测的准确性。

本申请实施例中，为了提升非参考帧图片的前景掩码图片的获取速度，非参考帧图片的前景掩码图片的获取无需继续通过与参考帧图片相同的方式获取，而是可以结合参考帧图片和相邻一帧的前景掩码图片来预测该帧图片的前景掩码图片，例如可以利用一个浅层的编码-解码(encoder-decoder)网络来进行预测。这样，由于只有参考帧图片的前景掩码图片是直接采用上述模型提取得到的，非参考帧图片的前景掩码图片可以都是通过一个浅层网络预测得到的，这样的方案可以保证视频前景检测拥有较快的速度，并且非参考帧图片的前景掩码图片的预测都是基于相邻图片进行的，这样，视频的前景预测实质上可以是一个按序渐进的过程，例如从第一帧开始，依次获取各帧的前景掩码图片，这样，将视频的时序关系融入到了前景检测的过程中，进而使得前景检测效果更佳。

在介绍完本发明实施例的设计思想之后，下面对本发明实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本发明实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本发明实施例提供的技术方案。

请参见图3所示，为发明实施例能够适用的一种场景示意图，该场景中可以包括第一视频处理设备101以及第二视频处理设备102。

其中，第一视频处理设备101与第二视频处理设备102均可以为具有一定处理能力的计算机设备，例如可以为个人计算机(personal computer，PC)、笔记本电脑或者服务器等。

第一视频处理设备101包括一个或多个处理器1011、存储器1012以及与第二视频处理设备102交互的I/O接口1013等。此外，第一视频处理设备101还可以配置数据库1014，数据库1014可以用于存储视频数据以及提取的前景掩码视频数据等信息。其中，第一视频处理设备101的存储器1012中可以存储本申请实施例提供的视频处理方法的程序指令，这些程序指令被处理器1011执行时能够用以实现本发明实施例提供的视频处理方法的步骤，以提取待处理视频的前景掩码视频。

第二视频处理设备102可以包括一个或多个处理器1021、存储器1022、与第一视频处理设备101交互的I/O接口1023以及显示面板1024等。其中，第二视频处理设备102的存储器1022中可以存储本申请实施例提供的在视频中嵌入目标对象的方法的程序指令，这些程序指令被处理器1021执行时能够用以实现视频中嵌入目标对象的方法的步骤，以在视频中嵌入目标对象。

第一视频处理设备101可以利用本发明实施例提供的视频处理方法，得到待处理视频的前景掩码视频，并存储在数据库1014中，后续需要在该待处理视频中嵌入目标对象时，则第二视频处理设备102可以从数据库1014中获取待处理视频以及前景掩码视频，这样，在嵌入目标对象时，则可以将目标对象嵌入前景掩码视频后侧，以避免目标对象遮挡前景区域。具体的，目标对象可以为广告、静态表情或者动态表情等内容，以提升视频的可观看性。

在实际应用时，第一视频处理设备101与第二视频处理设备102除了可以为不同的设备之外，还可以为相同的设备，即提取前景掩码视频的过程与嵌入目标对象的过程可以是通过同一设备来完成的。

第一视频处理设备101与第二视频处理设备102之间可以通过一个或者多个网络103进行通信连接。该网络103可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真(WIreless-Fidelity，WIFI)网络，当然还可以是其他可能的网络，本发明实施例对此不做限制。

请参见图4所示，为发明实施例能够适用的另一种场景示意图，该场景中可以包括摄像头201以及视频处理设备202。

视频处理设备202可以为具有一定处理能力的计算机设备，例如可以为服务器等，服务器的规模可以根据需要处理的视频流的数量进行规划，本申请实施例对此不做限制。

其中，摄像头201可以为设置在道路上的摄像头，用于拍摄道路上车辆行驶画面，并将拍摄的视频流传输给视频处理设备202。在实际应用中，摄像头201的数量可以是很多的，例如可以在不同的道路上设置摄像头201。当然，摄像头201还可以不直接将拍摄的视频流传输给视频处理设备202，而是传输至指定存储设备进行存储，视频处理设备202可以从该存储设备中读取视频流进行后续处理。

视频处理设备202包括一个或多个处理器2021、存储器2022以及与摄像头201交互的I/O接口2023等。此外，视频处理设备202还可以配置数据库2024，数据库2024可以用于存储视频数据以及提取的前景掩码视频数据等信息。其中，视频处理设备202的存储器2022中可以存储本申请实施例提供的视频处理方法的程序指令，这些程序指令被处理器2021执行时能够用以实现本发明实施例提供的视频处理方法的步骤，以提取待处理视频的前景掩码视频。

在该应用场景中，所针对的前景物体可以为车辆，那么视频处理设备202提取的车辆掩码，并可以将车辆掩码等信息存储至数据库2024，以备后续处理之需。例如，在查找某一车辆踪迹时，可以将该车辆图片与数据库2024中的车辆掩码进行比对，从而确定该车辆的踪迹，以辅助公安机构进行案件追踪；例如还可以基于提取的车辆掩码对车流量进行统计，从而辅助交通部门指挥交通。当然，除此之外，还可以应用与其他的用途，本申请实施例对此不做限制。

摄像头201与视频处理设备202之间可以通过一个或者多个网络203进行通信连接。该网络203可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真(WIreless-Fidelity，WIFI)网络，当然还可以是其他可能的网络，本发明实施例对此不做限制。

当然，本发明实施例提供的方法并不限用于图3和图4所示的应用场景中，还可以用于其他可能的应用场景，本发明实施例并不进行限制。对于图3和图4所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

请参见图5，为本发明实施例提供的视频处理方法的流程示意图，该方法可以通过图3中的第一视频处理设备101或者图4中的视频处理设备202来执行。

步骤501：对待处理视频进行预处理。

本申请实施例中，待处理视频可以是固定时长的视频，例如从视频网站获取的视频，或者待上传至视频网站的视频；或者，待处理视频还可以是实时传输的视频流，例如监控摄像头拍摄的视频。

在对待处理视频进行前景检测之前，需要对待处理视频进行一定的预处理，具体的，由于在进行前景检测时，都是针对待处理视频的每一帧图片进行的处理，因此可以通过图像处理技术对待处理视频进行分帧操作，以将待处理视频拆分为多帧图片。其中，可以利用视频分帧软件或者视频截图软件对待处理视频进行分帧操作，例如可以采用Opencv库的videocapture功能。

当然，预处理还可以包括其他可能的处理，例如针对一个待处理视频，可以提取完整的待处理视频对应的前景掩码视频，也可以是提取待处理视频中部分视频片段的前景掩码视频，因此针对提取待处理视频中部分视频片段的前景掩码视频的情况，还可以将需要提取前景掩码视频的视频片段从待处理视频中截取出来，再对其进行分帧操作。

步骤502：获取参考帧图片以及参考帧图片的前景掩码图片。

本申请实施例中，参考帧图片为待处理视频中的其中一帧图片，例如可以为待处理视频的首帧图片，或者可以为待处理视频的最后一帧图片，或者还可以为待处理视频中任意一帧图片。

具体的，参考帧图片的前景掩码图片可以是利用预先训练的前景掩码提取模型，提取参考帧图片中包括的各前景物体的前景掩码后，将各前景掩码按照其在参考帧图片中的位置进行融合得到的。其中，前景掩码提取模型是通过多个图片训练样本训练得到的，每一个图片训练样本标注了图片的前景掩码和包围前景掩码所在位置的框(Box)区域。前景掩码提取模型可以是一个预先训练得到的深度学习卷积神经网络，图片训练样本的数量也是很庞大的，从而使得训练得到的深度学习卷积神经网络能够有效的提取新输入的图片的前景掩码，其中，深度学习卷积神经网络例如可以是路径聚合网络(path aggregationnetwork，PANet)、掩码-区域卷积神经网络(mask-region convolutional neuralnetworks，Mask-RCNN)或者快速-区域卷积神经网络(fast-region convolutional neuralnetworks，Fast-RCNN)等，当然，还可以为其他可能的深度学习卷积神经网络，本申请实施例对此不做限制。

下面具体以前景掩码提取模型为基于PANet的深度学习卷积神经网络为例，对获取参考帧图片的前景掩码图片的过程进行介绍。请参见图6，为前景掩码提取模型的网络架构示意图，其中，该前景掩码提取模型可以包括特征提取层、特征增强层、适应性特征池化层(adaptive feature pooling)、边框预测层以及全连接融合层。本申请实施例中，该前景掩码提取模型实质上是一种改进的Mask-RCNN，通过双塔结构提取多尺度的特征图，再通过适应性特征池化层将不同层次的特征融合起来，从而通过全连接融合层获取最终的前景掩码。

在实际应用时，在使用前景掩码提取模型进行前景掩码提取之前，还需要对该模型进行训练，训练完成得到的前景掩码提取模型才能够投入使用，用于图片的前景掩码提取。具体的，前景掩码提取模型训练所使用的图片训练样本集合可以包括多个图片训练样本，且每一个图片训练样本标注了该图片的前景掩码和包围前景掩码所在位置的边框。如图7所示，针对一张图片，可以将所有前景物体对应的前景掩码和边框均标注出来，边框即为包围前景掩码的一个方形框，然后再通过前景掩码提取模型对前景掩码和边框进行预测，再将预测得到的前景掩码和边框与实际标注的前景掩码和边框进行比较，进而根据差异度对前景掩码提取模型的参数进行调整，调整后继续进行训练，直至最后一次得到的前景掩码提取模型满足设定的要求，例如前景掩码提取模型的准确度不大于一定阈值，或者前景掩码提取模型获取的前景掩码和边框与实际标注的前景掩码和边框的差异度不大于一定阈值，则可以停止训练。在对前景掩码提取模型的参数进行调整时，可以利用模型调整算法来对模型参数进行调整，其中，模型调整算法例如可以是梯度下降(GradientDescent，GD)算法，以计算参数调整的梯度，从而基于梯度对模型参数进行调整，或者，模型调整算法还可以是反向传播(back propagation，BP)算法，当然，模型调整算法还可以是其他可能的算法，本发明实施例对此不做限制。

本申请实施例中，同时利用标注的边框和前景掩码对前景掩码提取模型进行训练，能够使得获取的前景掩码提取模型对于前景掩码的预测更加准确，提升视频前景检测的整体准确度。

下面将分别针对前景掩码提取模型的各层的处理过程进行介绍。

特征提取层输入的图片为参考帧图片，即图6所示的M₁，通过特征提取层对参考帧图片进行特征提取，可以得到参考帧图片在N个尺度上的初始特征图(feature map)，N为正整数，图6中具体以N为4进行示出，即得到的初始特征图为P₂～P₅，当然，在实际应用时，N的值并不限于为4，还可以为其他可能的值，本申请实施例对此不做限制。

具体的，可以按照尺度从高到低的顺序，依次提取在N个尺度上的第一特征图，即图6中所示的M₂～M₅。其中，在进行每一次特征提取时，对第i尺度的第一特征图进行特征提取，得到第i+1尺度的第一特征图，1＜i≤N，例如，对参考帧图片进行特征提取，即可以得到比参考帧图片的尺度更小的M₂，继续对M₂进行特征提取，即可以得到比参考帧图片的尺度更小的M₃，依次类推，即可以得到所有设定尺度的第一特征图。

其中，特征提取的具体方式可以是通过卷积层进行提取，例如通过至少一个卷积层对M₁进行卷积运算，则可以得到M₂。当然，除了卷积运算之外，在各个卷积层之间还可以掺杂其他的网络层。

示例性的，M₂的尺度可以为M₁的1/8，M₃的尺度可以为M₁的1/16，M₄的尺度可以为M₁的1/32，M₅的尺度可以为M₁的1/64，M₂～M₅的特征提取过程是一个自顶向下的过程，通过多个网络层的特征传递，最终提取得到的多为图片的高层特征信息。当然，对于各层的尺度，还可以为其他可能的值，本申请实施例对此不做限制。

具体的，获取N个尺度上的第一特征图之后，还可以从尺度最小的第一特征图开始，通过逐级叠加的方式得到在N个尺度上的初始特征图。其中，在进行每一级叠加时，对第i尺度的第一特征图进行上采样，使得上采样得到的特征图与第i-1尺度的第一特征图的尺度相同后，将上采样得到的特征图与第i-1尺度的第一特征图进行叠加，得到第i-1尺度的初始特征图，1＜i≤N，i的值越大，尺度越小。

例如，对M₅进行上采样后，则可以得到尺度大于M₅的P₅，再将P₅与其尺度相同的第一特征图，即与M₄进行叠加，既可以得到P₄，同理可以得到P₃和P₂。其中，上采样采用的方式可以是在特征图中进行插值，以增大特征图的尺度。将两张特征图进行叠加时，具体可以是将两张特征图中位于相同像素位置的值进行相加。

特征增强层用于基于特征提取层输出的在N个尺度级别上的初始特征图，获取在N个尺度级别上的含框特征图。其中，特征提取层由于自底向上的特征提取过程，不可避免的会丢掉浅层特征，而浅层特征多是边缘形状等特征，对于前景检测是比较重要的，因此可以通过特征增强层自底向上的金字塔结构使得浅层特征得以保留。

具体的，特征增强层首先针对尺度最大的初始特征图，即图6所示的P₂进行画框操作，从而得到多个尺度最大的含框特征图，即N₂，实质上是与P₂相同的，不同之处在于N₂中包括物体边框。其中，通过画框操作将候选的前景物体在特征图中标识出来，针对每一个初始特征图，通过画框操作都可以得到多张含框特征图，即N₂的数量为多个，每一张含框特征框包括一个边框。

针对每一个含框特征图N₂，通过逐级叠加的方式可以得到该含框特征图对应的在N个尺度上的含框特征图。如图8所示，为逐级叠加得到下一尺度的含框特征图的示意图，可见，在进行每一级叠加时，将每个第i尺度的含框特征图缩小至与第i+1尺度的初始特征图的尺度相同后，将缩小后的含框特征图与第i+1尺度的初始特征图进行叠加，得到第i+1尺度的含框特征图，1＜i≤N。

例如，将N₂与P₃叠加得到N₃时，则是将N₂缩小至与P₃的尺度相同后，再将缩小后的N₂与P₃叠加，以得到N₃，同理可得到N₄和N₅。其中，缩小的过程可以通过卷积操作来实现。

通过特征增强层，可以得到不同尺度的多个含框特征图，例如，尺度数量为4，且画框操作得到了100个框，即100个含框特征图，那么特征增强层最终可以得到4*100个含框特征图。

适应性特征池化层用于将不同尺度的特征进行融合。具体的，适应性特征池化层分别从各尺度的含框特征图中提取出边框特征图，并对不同尺度对应的边框特征图进行池化操作，以使得各尺度对应的池化后的边框特征图的大小相同，再将各尺度对应的池化后的边框特征图进行融合，得到融合特征图。其中，边框特征图是指仅包括边框内区域的特征图。

如图9所示，为适应性特征池化层的处理过程的示意图。图9中所示的N₂～N₅为一组边框位置相同的含框特征图，由于适应性特征池化层针对每一组边框位置相同的含框特征图的处理过程均是相同的，因此下面即以一组为例对该过程进行介绍。如图9所示，可以对N₂～N₅中每一个含框特征图进行感兴趣区域对齐(region of interest，ROI Align)操作，ROI Align操作会将含框特征图中边框内区域提取出来，并池化至设定大小的特征图，进而使得N₂～N₅对应的池化后的特征图尺度相同，然后再将各个尺度对应的池化后的特征图拉直，得到特征向量fc1。拉直的过程即使指将特征图中每一行链接至上一行末尾，或者每一列连接至上一列末尾的过程。

得到特征向量fc1后，则可以将N₂～N₅对应的特征向量fc1进行融合，以得到融合特征向量fc2。具体的，融合的过程可以是指选择N₂～N₅对应的特征向量fc1中相同位置上的最大值，以组成融合特征向量fc2；或者将N₂～N₅对应的特征向量fc1中相同位置上的最大值相加或者相乘，以组成融合特征向量fc2。得到融合特征向量fc2后，还可以将融合特征向量fc2再反拉直，即执行拉直过程相反的操作来得到融合特征图。当然，对于各个尺度对应的池化后的特征图而言，也可以直接进行融合操作，从而得到融合特征图。

由于边框预测层用于边框的预测，而本申请实施例需要获取前景掩码，因此对于边框预测层的过程不过多介绍。

全连接融合层用于前景掩码的预测。具体的，针对于每一个融合特征图，全连接融合层可以基于融合特征图对边框内的物体进行分类，得到融合特征图对应的物体类别掩码；以及，还可以基于融合特征图对边框内的区域进行分类，且确定边框内的区域类型为前景时，获取融合特征图对应的前背景类别掩码，进而将物体类别掩码与前背景类别掩码进行叠加，以得到最终的前景掩码。

如图10所示，为全连接融合层的处理过程的示意图。其中，ROI特征图即为融合特征图，融合特征图通过两条支路可以分别得到物体类别掩码与前背景类别掩码。

上面这条支路，用于输出针对每个类别的二分类mask，因此输出的通道就是类别的数量，例如类别数为K时，mask的尺度为28*28时，则最终可以输出维度28*28*K的物体类别掩码。具体的，将融合特征图通过多个卷积层即conv1～conv4处理后，通过一个反卷积层Deconv，将融合特征图的尺度放大，再对每个像素点进行分类，从而得到物体类别掩码。

下面这条支路，通过多个卷积层即conv1～conv3处理后，在通过卷积层conv4_fc和卷积层conv5_fc，其中，为了降低计算量，可以将卷积层conv5_fc的通道缩减为conv4_fc的一半，然后通过一个全连接层，进行每个像素点的前景和背景的二分类，再经过reshape操作得到维度和上面支路相同的前背景类别掩码，由于下面这条支路做的是前景和背景的二分类，因此输出维度为1，例如mask的尺度为28*28时，那么下面最终输出的则为28*28*1的前背景类别掩码。

最终，将这两条支路的输出的物体类别掩码和前背景类别掩码进行融合得到最终的Mask，即前景掩码。

通过上述的前景掩码预测模型，可以得到参考帧图片中的所有前景掩码，再按照前景掩码在参考帧图片中的位置，将获取的前景掩码进行融合，即可得到参考帧图片的前景掩码图片。

步骤503：根据参考帧图片和参考帧图片的前景掩码图片，以及非参考帧图片的相邻一帧图片和相邻一帧图片的前景掩码图片，从参考帧相邻的非参考帧开始，分别预测非参考帧图片的前景掩码图片。

本申请实施例中，当参考帧图片为首帧图片时，则非参考帧图片则为第二帧图片至最后一帧图片，那么在获取非参考帧图片的前景掩码图片时，相邻一帧图片可以为非参考帧图的前一帧图片，这样，可以从前往后依次获取到各个非参考帧的前景掩码图片，例如，第2帧图片的前景掩码可以基于首帧图片和其前景掩码图片获取，第3帧图片的前景掩码可以基于首帧图片和其前景掩码图片，以及第2帧图片和其前景掩码图片来获取，第4帧图片的前景掩码可以基于首帧图片和其前景掩码图片，以及第3帧图片和其前景掩码图片来获取，依次类推，直至最后一帧图片。

当参考帧图片为最后一帧图片时，则非参考帧图片则为首帧图片至倒数第2帧图片，那么在获取非参考帧图片的前景掩码图片时，相邻一帧图片可以为非参考帧图的后一帧图片，这样，可以依次获取到从后往前依次获取到各个非参考帧的前景掩码图片，例如，倒数第2帧图片的前景掩码可以基于最后一帧图片和其前景掩码图片获取，倒数第3帧图片的前景掩码可以基于最后一帧图片和其前景掩码图片，以及倒数第2帧图片和其前景掩码图片来获取，倒数第4帧图片的前景掩码可以基于最后一帧图片和其前景掩码图片，以及倒数第3帧图片和其前景掩码图片来获取，依次类推，直至第一帧图片。

具体的，非参考帧图片的前景掩码图片可以是利用预先训练的前景掩码预测模型，根据参考帧图片和参考帧图片的前景掩码图片，以及非参考帧图片的相邻一帧图片和相邻一帧图片的前景掩码图片预测得到的。其中，前景掩码预测模型同样是通过多个图片训练样本训练得到的，每一个图片训练样本可以包括一个视频中的两帧图片以及这两帧图片的前景掩码图片，以及标注的其中一张图片的相邻一帧图片的前景掩码图片。前景掩码预测模型可以是一个预先训练得到的encoder-decoder网络，如图11所示，为前景掩码预测模型的一种网络架构图，当然，图11所示仅为一种可能的网络架构，除此之外，其他的encoder-decoder网络也可能适用，本申请实施例对此不做限制。

针对每一个参考帧图片，其处理过程是类似的，因此下面具体以一个参考帧图片的前景掩码图片获取过程为例进行介绍。

前景掩码预测模型的输入为参考帧图片和参考帧图片的前景掩码图片，即图11中所示的A₀，以及非参考帧图片的相邻一帧图片和该相邻一帧图片的前景掩码图片，即图11中所示B₀。其中，再输入时，可以将参考帧图片的RGB三通道与前景掩码图片的单通道在通道维度上级联起来，得到一个3通道的特征图集合A₀输入至前景掩码预测模型，同理可得到B₀。

具体的，前景掩码预测模型包括特征提取模块encoder和掩码预测模块decoder。

特征提取模块包含多个特征图尺度逐渐减小的特征提取层，例如，特征提取模块可以为特征图尺度逐渐减小的卷积神经网络。通过特征提取模块的特征提取层逐级提取参考帧图片和参考帧图片的前景掩码图片的多种尺度的第一特征图集合，即图11中所示的第一特征图集合A₁～A₅，A₁～A₅的尺度是逐渐减小的。例如，A₁的尺度可以为A₀的1/2，A₂的尺度可以为A₀的1/4，A₃的尺度可以为A₀的1/8，A₄的尺度可以为A₀的1/16，A₅的尺度可以为A₀的1/32。

同理，通过特征提取模块的特征提取层也可以逐级提取上述相邻一帧图片和该相邻一帧图片的前景掩码图片的多种尺度的第二特征图集合，即图11中所示的第二特征图集合B₁～B₅，B₁～B₅的尺度是逐渐减小的。例如，与第二特征图集合相对应的，B₁的尺度可以为B₀的1/2，B₂的尺度可以为B₀的1/4，B₃的尺度可以为B₀的1/8，B₄的尺度可以为B₀的1/16，B₅的尺度可以为B₀的1/32。

通过特征提取模块进行特征提取后，可以提取得到的尺度最小的第一特征图集合与尺度最小的第二特征图集合进行级联，也就是将最后一个特征提取层输出的特征图集合，即图11中所示的A₅与B₅进行级联。级联操作用于在通道维度上将两个特征图集合，例如A₅与B₅的通道数量为4时，级联后则可得到通道数为8的特征图集合C₅。

本申请实施例中，特征提取层具体可以通过卷积层来实现。

本申请实施例中，掩码预测模块可以包含多个特征图尺度逐渐增大的掩码预测层，通过掩码预测模块可以逐级将级联得到的特征图集合恢复至与待处理视频中原始图片的尺度相同的图片，以得到非参考帧图片的前景掩码图片。

具体的，级联得到的特征图集合C₅通过一个或者多个卷积层将通道数量进行压缩，得到特征图集合C′₅，再通过逐级跨层相加的方式将特征图集合C′₅恢复至与待处理视频中原始图片的尺度相同的图片。如图12所示，为掩码预测层进行一次跨层相加的示意图，在每一次跨层相加时，按照掩码预测层设定的放大倍数将输入的特征图集合进行放大，并将放大的特征图集合与相同尺度的第二特征图集合进行叠加。其中，放大可以采用反卷积层对特征图进行上采样来实现。

具体而言，特征提取模块与掩码预测模块的结构对称，即特征提取模块包括的任意相邻两个特征提取层的尺度缩小倍数，与掩码预测模块包括的任意两个相邻掩码预测层的放大倍数相同。例如，B₁的尺度可以为B₀的1/2，B₂的尺度可以为B₀的1/4，B₃的尺度可以为B₀的1/8，B₄的尺度可以为B₀的1/16，B₅的尺度可以为B₀的1/32，相对应的，C′₅的尺度可以为C₀的1/32，C₄的尺度可以为C₀的1/16，C₃的尺度可以为C₀的1/8，C₂的尺度可以为C₀的1/4，C₁的尺度可以为C₀的1/2。

示例性的，将特征图集合C′₅得到特征图集合C₄的过程即是将特征图集合C′₅放大至与第二特征图集合B₄的尺度相同后，再与第二特征图集合B₄进行叠加，从而得到特征图集合C₄。

在最后一层掩码预测层进行跨层叠加后，即可得到C₁，再通过一个反卷积层，即可将C₁恢复至与原图的尺度相同，得到C₀，最终得到的C₀仍然是多通道的特征图，每个通道表示一种类别，因此可以通过选择每个通道的特征图上相同像素位置上的最大值，将多通道的特征图集合变换为单通道的特征图，最终得到的特征图即为前景掩码图片。

步骤504：分别根据各前景掩码图片对应的图片在待处理视频中的位置，将所有前景掩码图片合成得到待处理视频的前景掩码视频。

通过上述的前景掩码图片的预测过程，可以得到所有非参考帧图片的前景掩码图片，再按照各前景掩码图片对应的图片在待处理视频中的位置，再将所有前景掩码图片合成即可得到待处理视频的前景掩码视频。

请参见图13，为视频的前景检测过程的流程示意图。其中，图13中针对一个视频的前景检测过程进行介绍。

步骤1301：获取待处理视频。

步骤1302：对待处理视频进行分帧操作，得到待处理视频的视频序列图片。

步骤1303：按照视频序列的顺序依次读取图片。

步骤1304：判断当前读取的图片是否为首帧图片。

本申请实施例中，可以对首帧图片进行标识，从而根据标识判断是否为首帧图片。此外，还可以通过计数器的值进行判断，例如将计数器的初始值设为零，没读取一帧图片就加一，进而可以根据计算器的值是否为零判断是否为首帧图片，若为零，则是首帧图片，否则就不是首帧图片。

步骤1305：若步骤1304的判断结果为是，则通过前景掩码提取模型获取首帧图片的前景掩码图片。

步骤1306：若步骤1304的判断结果为否，则读取首帧图片和首帧图片的前景掩码图片，以及当前读取的图片的前一帧图片和前一帧图片的前景掩码图片。

步骤1307：通过前景掩码预测模型预测当前读取的图片的前景掩码图片。

步骤1308：判断当前读取的图片是否为最后一帧图片。

步骤1309：若步骤1308的判断结果为是，则将所有前景掩码图片进行融合得到前景掩码视频。

若步骤1308的判断结果为否，则跳转至步骤1303，继续读取下一帧图片。

本申请实施例中，获取的前景掩码或者前景掩码视频可应用于许多领域中。请参见图14所示，为一种在视频中嵌入目标对象的方法的流程示意图。

步骤1401：采用图5或者图13所示的视频处理方法获取待嵌套目标对象的视频对应的前景掩码视频。

步骤1402：在位于前景掩码视频的后侧，将目标对象嵌套至视频中。

本申请实施例中，目标对象例如为广告，那么将广告嵌到视频前景视频的后侧，可以使得视频广告显得更加自然，避免影响用户的视频观感，提升用户的视频观看体验。如图15所示，为嵌入广告的示意图。其中，画面中包括房屋和两个人，房屋的墙面上嵌入有某品牌的汽车广告，那么在生成最终的含广告的视频时，则会将广告嵌入至前景掩码视频的后侧，即图示中两个人的后侧，这样，当画面中任务走动时，则可以避免广告遮挡人物，如图15所示，当右侧的人向左侧的人行进，且右侧的人在画面与广告重叠时，则人会位于广告的前方或者说上方，使得嵌入的广告不会遮挡人物。

综上所述，本申请实施例可以在一个大规模的具有物体掩码标注的图片数据集上训练一个深度卷积神经网络，以使得这个深度网络能够有效预测出一个新图片的物体掩码。为了能够快速和准确地得到一个视频的前景区域，首先提取该视频的参考帧图片的前景掩码图片。对于视频中的其他非参考帧图片，通过参考帧和前一帧的掩码融合信息通过一个浅层的encoder-decoder网络来预测该帧的所有物体掩码，从而提取该帧图片的感兴趣前景区域。重复这个过程，可以得到视频中每一帧图片的前景区域，从而实现视频的前景检测。由于只有参考帧掩码是直接采用深度网络预测得到的，后面的视频帧掩码都是通过一个浅层网络预测得到的，这样的方案不仅保证了视频前景检测有较快的速度，并且由于考虑了视频的时序关系，其前景检测性能也较好。

其次，通过提取视频的前景物体区域，区分视频中的遮挡物和前景物体，这样在将广告植入视频的过程中，使得广告表现得更加原生，同时在复杂场景和动态区域，广告显得更加自然，并且能极大地减少视频广告植入的人工干预，不影响用户在观看视频时的体验。

请参见图16，基于同一发明构思，本发明实施例还提供了一种视频处理装置160，该装置包括：

掩码图片获取单元1601，用于获取待处理视频中参考帧图片以及参考帧图片的前景掩码图片；

掩码图片预测单元1602，根据参考帧图片和参考帧图片的前景掩码图片，以及非参考帧图片的相邻一帧图片和相邻一帧图片的前景掩码图片，从参考帧相邻的非参考帧开始，分别预测非参考帧图片的前景掩码图片；

视频合成单元1603，用于分别根据各前景掩码图片对应的图片在待处理视频中的位置，将所有前景掩码图片合成得到待处理视频的前景掩码视频。

可选的，掩码图片获取单元1601，具体用于：

通过预先训练的前景掩码提取模型，提取参考帧图片中包括的各前景物体的前景掩码；前景掩码提取模型是通过多个图片训练样本训练得到的，每一个图片训练样本标注了图片的前景掩码和包围前景掩码所在位置的边框；

根据各前景掩码在参考帧图片中的位置，将各前景掩码进行融合，获得前景掩码图片。

可选的，掩码图片获取单元1601，具体用于：

对参考帧图片进行特征提取，得到参考帧图片在N个尺度上的初始特征图；

基于在N个尺度上的初始特征图，获取在N个尺度上的含框特征图，其中，每一个尺度对应多个含框特征图，每一个框内包括一个或者多个候选前景物体；

基于多个融合特征图获取参考帧图片中包括的各前景物体的前景掩码。

可选的，掩码图片获取单元1601，具体用于：

按照尺度从高到低的顺序，依次提取在N个尺度上的第一特征图，其中，在进行每一次特征提取时，对第i尺度的第一特征图进行特征提取，得到第i+1尺度的第一特征图，1＜i≤N，且i的值越大，尺度越小；

从尺度最小的第一特征图开始，通过逐级叠加的方式得到在N个尺度上的初始特征图；其中，在进行每一级叠加时，对第i尺度的第一特征图进行上采样，使得上采样得到的特征图与第i-1尺度的第一特征图的尺度相同后，将上采样得到的特征图与第i-1尺度的第一特征图进行叠加，得到第i-1尺度的初始特征图，1＜i≤N。

可选的，掩码图片获取单元1601，具体用于：

针对每一个尺度最大的含框特征图，通过逐级叠加的方式得到在N个尺度上的含框特征图；其中，在进行每一级叠加时，将每个第i尺度的含框特征图缩小至与第i+1尺度的初始特征图的尺度相同后，将缩小后的含框特征图与第i+1尺度的初始特征图进行叠加，得到第i+1尺度的含框特征图，1＜i≤N。

可选的，掩码图片获取单元1601，具体用于：

分别从各尺度的含框特征图中提取出边框特征图，并对不同尺度对应的边框特征图进行池化操作，以使得各尺度对应的池化后的边框特征图的大小相同；

将各尺度对应的池化后的边框特征图进行融合，得到融合特征图。

可选的，掩码图片获取单元1601，具体用于：

针对每一个融合特征图，基于融合特征图对边框内的物体进行分类，得到融合特征图对应的物体类别掩码；以及，

基于融合特征图对边框内的区域进行分类，且确定边框内的区域类型为前景时，获取融合特征图对应的前背景类别掩码；

将物体类别掩码与前背景类别掩码进行叠加，以得到前景掩码。

可选的，掩码图片预测单元1602，具体用于：

通过包含多个特征图尺度逐渐减小的特征提取层的特征提取模块，逐级提取参考帧图片和参考帧图片的前景掩码图片的多种尺度的第一特征图集合；

通过特征提取模块，逐级提取非参考帧图片的相邻一帧图片和该相邻一帧图片的前景掩码图片的多种尺度的第二特征图集合；

将尺度最小的第一特征图集合与尺度最小的第二特征图集合进行级联后，通过包含多个特征图尺度逐渐增大的掩码预测层的掩码预测模块，逐级将级联得到的特征图集合恢复至与待处理视频中原始图片的尺度相同的图片，以得到非参考帧图片的前景掩码图片。

可选的，特征提取模块包括的任意相邻两个特征提取层的尺度缩小倍数，与掩码预测模块包括的任意两个相邻掩码预测层的放大倍数相同。

可选的，掩码图片预测单元1602，具体用于：

按照掩码预测层设定的放大倍数将输入的特征图集合进行放大，将放大的特征图集合与相同尺度的第二特征图集合进行叠加。

可选的，参考帧图片为首帧图片，非参考帧图片的相邻一帧图片为非参考帧图片的前一帧图片。

该装置可以用于执行图5～图13所示的实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图5～图13所示的实施例的描述，不多赘述。

请参见图17，基于同一发明构思，本发明实施例还提供了一种在视频嵌入目标对象的装置170，该装置包括：

掩码视频获取单元1701，用于采用图5～图13所示的实施例的方法获取待嵌套目标对象的视频对应的前景掩码视频；

目标对象嵌入单元1702，用于在位于前景掩码视频的后侧，将目标对象嵌套至视频中。

该装置可以用于执行图13和图14所示的实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图13和图14所示的实施例的描述，不多赘述。

请参见图18，基于同一技术构思，本发明实施例还提供了一种计算机设备180，可以包括存储器1801和处理器1802。

所述存储器1801，用于存储处理器1802执行的计算机程序。存储器1801可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1802，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本发明实施例中不限定上述存储器1801和处理器1802之间的具体连接介质。本发明实施例在图18中以存储器1801和处理器1802之间通过总线1803连接，总线1803在图18中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线1803可以分为地址总线、数据总线、控制总线等。为便于表示，图18中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1801可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1801也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1801可以是上述存储器的组合。

处理器1802，用于调用所述存储器1801中存储的计算机程序时执行如图5～图13或者图13和图14中所示的实施例中设备所执行的方法。

在一些可能的实施方式中，本发明提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行如图5～图13或者图13和图14中所示的实施例中设备所执行的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

根据所述参考帧图片和所述参考帧图片的前景掩码图片，以及非参考帧图片的相邻一帧图片和所述相邻一帧图片的前景掩码图片，从所述参考帧相邻的非参考帧开始，分别预测非参考帧图片的前景掩码图片；其中，针对各个非参考帧图片，分别执行如下操作：

将尺度最小的第一特征图集合与尺度最小的第二特征图集合进行级联后，通过包含多个特征图尺度逐渐增大的掩码预测层的掩码预测模块，逐级将级联得到的特征图集合恢复至与所述待处理视频中原始图片的尺度相同的图片，以得到非参考帧图片的前景掩码图片；

2.如权利要求1所述的方法，其特征在于，所述获取待处理视频中参考帧图片以及所述参考帧图片的前景掩码图片，包括：

3.如权利要求2所述的方法，其特征在于，所述通过预先训练的前景掩码提取模型，提取所述参考帧图片中包括的各前景物体的前景掩码，包括：

对所述参考帧图片进行特征提取，得到所述参考帧图片在N个尺度级别上的初始特征图；

基于在所述N个尺度级别上的所述初始特征图，获取在所述N个尺度级别上的含框特征图，其中，每一个尺度级别对应多个含框特征图，每一个框内包括一个或者多个候选前景物体；

将不同尺度级别且框的位置相同的含框特征图进行融合，得到多个融合特征图；

4.如权利要求3所述的方法，其特征在于，所述对所述参考帧图片进行特征提取，得到所述参考帧图片在N个尺度上的初始特征图，包括：

从尺度最小的第一特征图开始，通过逐级叠加的方式得到在所述N个尺度上的所述初始特征图；其中，在进行每一级叠加时，对第i尺度的第一特征图进行上采样，使得上采样得到的特征图与第i-1尺度的特征图的尺度相同后，将上采样得到的特征图与所述第i-1尺度的第一特征图进行叠加，得到第i-1尺度的初始特征图，1＜i≤N。

5.如权利要求3所述的方法，其特征在于，所述基于在N个尺度上的初始特征图，获取在N个尺度上的含框特征图，包括：

6.如权利要求3所述的方法，其特征在于，所述将不同尺度且框的位置相同的含框特征图进行融合，得到多个融合特征图，包括：

7.如权利要求6所述的方法，其特征在于，所述基于多个所述融合特征图获取所述参考帧图片中包括的各前景物体的前景掩码，包括：

8.如权利要求1所述的方法，其特征在于，所述特征提取模块包括的任意相邻两个特征提取层的尺度缩小倍数，与所述掩码预测模块包括的任意两个相邻掩码预测层的放大倍数相同。

9.如权利要求1所述的方法，其特征在于，每一个所述掩码预测层的处理如下：

10.如权利要求1～9任一所述的方法，其特征在于，所述参考帧图片为首帧图片，所述非参考帧图片的相邻一帧图片为所述非参考帧图片的前一帧图片。

11.一种在视频中嵌入目标对象的方法，其特征在于，所述方法包括：

采用权利要求1～10任一项所述的方法获取待嵌套目标对象的视频对应的前景掩码视频；

12.一种视频处理装置，其特征在于，所述装置包括：

掩码图片预测单元，根据所述参考帧图片和所述参考帧图片的前景掩码图片，以及非参考帧图片的相邻一帧图片和所述相邻一帧图片的前景掩码图片，从所述参考帧相邻的非参考帧开始，分别预测非参考帧图片的前景掩码图片；其中，针对各个非参考帧图片，分别执行如下操作：

13.一种在视频中嵌入目标对象的装置，其特征在于，所述装置包括：

掩码视频获取单元，用于采用权利要求1～10任一项所述的方法获取待嵌套目标对象的视频对应的前景掩码视频；

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～10或者11中任一所述的方法。