CN112669324A

CN112669324A - 基于时序特征聚合和条件卷积的快速视频目标分割方法

Info

Publication number: CN112669324A
Application number: CN202011643939.1A
Authority: CN
Inventors: 张勇东; 林凡超; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-16
Anticipated expiration: 2040-12-31
Also published as: CN112669324B

Abstract

本发明公开了一种基于时序特征聚合和条件卷积的视频目标分割方法，包括：获取待分割视频的多帧图像；对多帧图像按时间顺序排列，获取记忆帧图像及查询帧图像，查询帧图像为最后一帧记忆帧图像的下一帧图像；对记忆帧图像和查询帧图像处理得到记忆帧图像特征和查询帧图像特征，对记忆帧图像的目标掩膜处理得到记忆帧掩膜特征；将记忆帧图像特征、查询帧图像特征和记忆帧掩膜特征进行特征聚合得到聚合的目标特征；根据聚合的目标特征和查询帧图像特征确定卷积核参数；通过解码网络对查询帧图像的特征和卷积核参数处理得到查询帧图像的目标分割预测结果，能高效地获取目标特征和目标自适应的卷积核，快速准确地进行视频目标分割。

Description

基于时序特征聚合和条件卷积的快速视频目标分割方法

技术领域

本发明涉及智能视频目标分割技术领域，尤其是涉及一种基于时序特征聚合和条件卷积的快速视频目标分割方法。

背景技术

视频目标分割是多媒体领域的新兴课题，在视频会议、视频监控和自动驾驶等领域中被广泛应用。半监督的视频目标分割技术通过给出视频中特定目标的第一帧分割掩膜标签，自动进行后续每帧图像中的目标分割，可以有效提取出关键信息，促进对视频内容的理解，且大大节省对视频目标的人工标注时间。已有的半监督视频目标分割方法不能快速获取充分的目标信息，且以固定的模式对目标信息进行处理，忽略了视频目标的动态特性。

因此，目前亟待解决的技术问题是，提出一种高效率、高准确性的视频目标分割方法。

发明内容

为了解决上述技术问题，充分考虑目标的动态变化，兼顾速度和精度，本发明提供一种基于时序特征聚合和条件卷积的快速视频目标分割方法，能快速高效地得到准确的预测结果，能高效率、高准确性地对视频目标分割，具体方案如下。

本发明公开了一种基于时序特征聚合和条件卷积的视频目标分割方法，包括：

获取待分割视频的多帧图像；

对所述多帧图像按时间顺序排列，获取记忆帧图像及查询帧图像，所述查询帧图像为所述记忆帧图像中最后一帧图像的下一帧图像，所述记忆帧图像中第一帧图像包括目标掩膜；

对所述记忆帧图像和查询帧图像处理得到记忆帧图像特征和查询帧图像特征，对所述记忆帧图像的目标掩膜处理得到记忆帧掩膜特征；

将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征进行特征聚合得到聚合的目标特征；

根据所述聚合的目标特征和所述查询帧图像特征确定卷积核参数；以及

通过解码网络对所述查询帧图像的特征和所述卷积核参数处理得到所述查询帧图像的目标分割预测结果。

根据本发明的一些实施例，所述获取记忆帧图像包括：

从按时间顺序排列的所述多帧图像的t-1帧中获取n帧图像，并将所述n帧图像、所述多帧图像中的第一帧图像和第t-1帧图像作为记忆帧图像，其中，从第一帧图像起每隔m帧图像取一帧图像加入到所述记忆帧图像，其中，n、m、t均为整数，n≥2，t≥n+1，m≥1。

根据本发明的一些实施例，所述记忆帧图像数量上限为N帧，当所述记忆帧图像数量达到N帧之后，每加入一帧新的记忆帧图像，则从所述记忆帧图像中移除除第一帧图像之外的时序最小的一帧图像，其中，N为整数，N＞n+2。

根据本发明的一些实施例，所述对所述记忆帧图像和所述查询帧图像处理得到记忆帧图像特征和查询帧图像特征，所述记忆帧图像的目标掩膜处理得到记忆帧掩膜特征包括：

将所述记忆帧图像输入到图像编码器提取特征得到第一通道特征，将每一帧记忆帧图像的第一通道特征按通道方向连接得到记忆帧图像特征；

将所述记忆帧图像中所有具有目标掩膜的记忆帧图像的目标掩膜输入到目标掩膜编码器提取特征得到第二通道特征，将每一帧记忆帧图像的第二通道特征按通道方向连接得到记忆帧掩膜特征；以及

将所述查询帧图像输入所述图像编码器提取特征得到查询帧图像特征；

其中，所述目标掩膜为分割标签图数据。

根据本发明的一些实施例，所述将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征进行特征聚合得到聚合的目标特征包括：

将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征输入到目标掩膜编码聚合模块进行特征聚合。

根据本发明的一些实施例，所述根据所述聚合的目标特征和所述查询帧图像特征确定卷积核参数包括：

将所述聚合的目标特征和所述查询帧图像特征输入条件卷积核控制器，按通道方向连接得到第三通道特征；以及

通过残差模块对所述第三通道特征处理得到i个条件卷积核参数；

其中，i为整数，i≥1。

根据本发明的一些实施例，所述通过残差模块对所述第三通道特征处理得到i个条件卷积核参数包括：

对所述第三通道特征进行三次3*3卷积以及两次线性整流函数激活函数的处理，将处理结果与所述第三通道特征进行相加，并输出相加结果；以及

将所述相加结果输入一个可变形卷积模块进行卷积处理得到卷积核偏置特征，其中，所述可变形卷积模块包括可变形卷积层。

根据本发明的一些实施例，所述通过残差模块对所述第三通道特征处理得到i个条件卷积核参数还包括：

将所述卷积核偏置特征输入到条件卷积核生成器进行通道层面的全局最大池化操作和通道层面的全局平均池化操作；以及

将所述全局最大池化操作的输出结果与所述全局平均池化操作的输出结果按通道方向连接得到特征向量，将所述特征向量与全连接层连接后输出所述i个条件卷积核参数。

根据本发明的一些实施例，所述通过解码网络对查询帧图像的特征和所述卷积核参数处理得到所述查询帧图像的目标分割预测结果包括：

所述解码网络的处理过程依次分为阶段四、阶段三和阶段二，所述阶段四、所述阶段三和所述阶段二均包括条件卷积模块、解码模块和残差模块；

在所述阶段四中，将所述卷积核偏置特征进行1*1卷积处理，将处理结果输入到第四条件卷积模块依次经过3*3卷积和第四残差模块的处理并输出；

在所述阶段三中，将所述第四残差模块的输出和所述查询帧图像在图像编码器三阶段的输出特征输入第三解码模块进行解码，将解码结果输入到第三条件卷积模块进行处理并输出；以及

在所述阶段二中，将所第三条件卷积模块的输出和所述查询帧图像在所述图像编码器二阶段的输出特征输入第二解码模块进行解码，将解码结果输入到第二条件卷积模块进行处理，将处理结果进行3*3卷积得到单通道的热力图，对所述单通道的热力图进行归一化得到对查询帧图像的目标分割预测结果。

根据本发明的一些实施例，所述条件卷积模块包括k个1*1卷积层和线性整流函数激活函数；

在所述解码模块中，将查询帧图像编码器中输出的中间特征通过跳线连接输入，先通过1*1卷积将特征通道数调整为与所述解码网络中对应阶段特征通道相同，再用残差模块进行处理，将处理结果与所述解码网络对应的阶段特征图的2倍上采样结果进行逐像素相加，将相加结果经过残差模块处理得到当前阶段解码模块的输出；以及

所述残差模块中，将输入的特征图经过两次线性整流函数激活函数处理以及3*3卷积处理后，与所述输入的特征图相加，将相加结果输出；

其中，k为整数，k≥1。

通过上述技术方案，本发明通过对数据集图像按照时间排序，通过特征聚合和条件卷积的快速端到端框架，无需针对给定的数据集在线微调，能够高效地获取目标特征和预测目标自适应的卷积核，实现快速准确的半监督视频目标分割。

附图说明

图1示意性示出了本公开实施例的基于时序特征聚合和条件卷积的视频目标分割方法的流程图；

图2示意性示出了本公开实施例的基于时序特征聚合和条件卷积的视频目标分割方法的框架图；

图3示意性示出了本公开实施例的基于时序特征聚合和条件卷积的视频目标分割方法的目标掩膜编码聚合流程示意图；

图4示意性示出了本公开实施例的基于时序特征聚合和条件卷积的视频目标分割方法件卷积核控制器的结构示意图；

图5示意性示出了本公开实施例的基于时序特征聚合和条件卷积的视频目标分割方法的解码网络结构与连接方式示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”表明了特征、步骤、操作的存在，但是并不排除存在或添加一个或多个其他特征。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

图1示意性示出了本公开实施例的基于时序特征聚合和条件卷积的视频目标分割方法的流程图。

根据本发明的一些实施例，如图1所示，本发明公开了一种基于时序特征聚合和条件卷积的视频目标分割方法，包括如下步骤：

S1：获取待分割视频的多帧图像；

S2：对多帧图像按时间顺序排列，获取记忆帧图像及查询帧图像，查询帧图像为记忆帧图像中最后一帧图像的下一帧图像，记忆帧图像中第一帧图像包括目标掩膜；

S3：对记忆帧图像和查询帧图像处理得到记忆帧图像特征和查询帧图像特征，对所述记忆帧图像的目标掩膜处理得到记忆帧掩膜特征；

S4：将记忆帧图像特征、查询帧图像特征和记忆帧掩膜特征进行特征聚合得到聚合的目标特征；

S5：根据聚合的目标特征和查询帧图像特征确定卷积核参数；以及

S6：通过解码网络对查询帧图像的特征和卷积核参数处理得到查询帧图像的目标分割预测结果。

根据本发明的一些实施例，获取待分割视频的多帧图像以及每一帧图像对应的目标掩膜可以通过构建数据集实现。

根据本发明的一些实施例，可选的，数据集可以用于训练使用，也可以用于测试使用。

根据本发明的一些实施例，可选的，数据集采用公开数据集YouTube-VOS和DAVIS2017的训练集部分。

根据本发明的一些实施例，将训练集内每帧图像及其对应分割标签图用双线性插值法缩小到360*640。

根据本发明的一些实施例，测试时，将原始视频的序列图像采用双线性插值法缩小到H_raw*W_raw。确定需要分割的目标，在目标第一次出现的那一帧图像(记为第1帧和模板帧)中，标注出目标的初始分割标签(目标所在区域内标签值置为255，其他区域的标签值置为0)，将该二值标签图像用最近邻法缩小到H_raw*W_raw。

根据本发明的一些实施例，获取记忆帧图像包括：从按时间顺序排列的多帧图像的t-1帧中获取n帧图像，并将n帧图像、多帧图像中的第一帧图像和第t-1帧图像作为记忆帧图像，其中，从第一帧图像起每隔m帧图像取一帧图像加入到记忆帧图像，其中，n、m、t均为整数，n≥2，t≥n+1，m≥1。

根据本发明的一些实施例，记忆帧图像数量上限为N帧，当记忆帧图像数量达到N帧之后，每加入一帧新的记忆帧图像，则从记忆帧图像中移除除第一帧图像之外的时序最小的一帧图像，其中，N为整数，N＞n+2。

根据本发明的一些实施例，记忆帧的数量N随时间增加，记忆帧的数量N设置有上限，如N＝10，其中m为一个常数，可取为5，当视频帧率较高时可适当增大；当N＝10时，每加入一帧新的记忆帧，从所有记忆帧中移除除了第1帧外的时序最小的帧，保证此后的记忆帧数量固定为N＝10。

根据本发明的一些实施例，分别取所有记忆帧图像、所有记忆帧图像对应的目标二值分割图(简称为目标掩膜)和第t帧图像(查询帧)构成一组数据，作为整个网络框架的输入(其中，对于第1帧记忆帧，目标掩膜为给定的分割标签；对于后续所有记忆帧，其目标掩膜为预测的分割结果)。

图2示意性示出了本公开实施例的基于时序特征聚合和条件卷积的视频目标分割方法的框架图。

根据本发明的一些实施例，如图2所示，对记忆帧图像处理得到记忆帧图像特征包括：将记忆帧图像输入到图像编码器提取特征得到第一通道特征，将每一帧记忆帧图像的第一通道特征按通道方向连接得到记忆帧图像特征。

根据本发明的一些实施例，将所有记忆帧图像输入RGB图像编码器(红：R、黄：G、蓝：B，RGB)提取特征，分别得到长(H)、宽(W)为原图1/16的256通道特征，并将每一帧的特征按通道方向连接得到记忆帧图像特征

(此时总特征通道数为256*N)。

根据本发明的一些实施例，对记忆帧图像处理得到记忆帧掩膜特征包括：将记忆帧图像中所有具有目标掩膜的记忆帧图像的目标掩膜输入到目标掩膜编码器提取特征得到第二通道特征，将每一帧记忆帧图像的第二通道特征按通道方向连接得到记忆帧掩膜特征。

根据本发明的一些实施例，将记忆帧图像中所有具有目标掩膜的记忆帧图像的目标掩膜输入目标掩膜编码器提取特征，分别得到长、宽为原图1/16的256通道的特征，并将每一帧的特征按通道方向连接得到记忆帧掩膜特征F_mask(此时总特征通道数为256*N)。

根据本发明的一些实施例，对查询帧图像处理得到查询帧图像特征包括：将查询帧图像输入图像编码器提取特征得到查询帧图像特征。

根据本发明的一些实施例，将当前的查询帧图像输入同样的RGB图像编码器提取特征，得到长、宽为原图像1/16的256通道查询帧图像特征

根据本发明的一些实施例，RGB图像编码器由公开的ResNet50网络的前4个阶段卷积网络和一个额外的1*1卷积层组成，该1*1卷积层将ResNet50网络第4阶段输出的1024通道特征降维到256通道；目标掩膜编码器由公开的ResNet18网络的前4个阶段卷积网络和一个额外的1*1卷积层组成，该1*1卷积层将ResNet18网络第4阶段输出的1024通道特征降维到256通道。

根据本发明的一些实施例，所用的ResNet50网络的四个阶段分别为第一阶段(输出64通道特征，特征图分辨率变为原始输入的1/2)，第二阶段(输出256通道特征，特征图分辨率变为原始输入的1/4)，第三阶段(输出512通道特征，特征图分辨率为变原始输入的1/8)和第四阶段(输出1024通道特征，特征图分辨率变为原始输入的1/16)。

根据本发明的一些实施例，目标掩膜为分割标签图数据。

图3示意性示出了本公开实施例的基于时序特征聚合和条件卷积的视频目标分割方法的目标掩膜编码聚合流程示意图。

根据本发明的一些实施例，如图3所示，将记忆帧图像特征、查询帧图像特征和记忆帧掩膜特征进行特征聚合得到聚合的目标特征包括：将记忆帧图像特征、查询帧图像特征和记忆帧掩膜特征输入到目标掩膜编码聚合模块进行特征聚合。

图4示意性示出了本公开实施例的基于时序特征聚合和条件卷积的视频目标分割方法件卷积核控制器的结构示意图。

根据本发明的一些实施例，如图4所示，根据聚合的目标特征和查询帧图像特征确定卷积核参数包括：

将聚合的目标特征和查询帧图像特征输入条件卷积核控制器，按通道方向连接得到第三通道特征；以及

通过残差模块对第三通道特征处理得到i个条件卷积核参数；

其中，i为整数，i≥1。

根据本发明的一些实施例，将记忆帧的掩膜特征F_mask和图像特征

查询帧的图像特征

输入目标掩膜编码聚合模块进行特征聚合，从多帧中联合获取目标信息。

将记忆帧图像特征

展开成256*(N*H*W)的特征图，与展开成(H*W)*256矩阵的查询帧图像特征

相乘，得到(H*W)*(N*H*W)矩阵的相关性矩阵C。

将矩阵C经过softmax函数(归一化指数函数)在列方向上进行归一化后，与展开成(N*H*W)*256矩阵的记忆帧掩膜特征F_mask相乘得到聚合的目标特征F_agg(Featureaggregation，聚合特征)，将F_agg变形成H*W*256的特征图。

根据本发明的一些实施例，将聚合的目标特征F_agg和查询帧图像特征

输入条件卷积核控制器，按通道方向连接得到512通道特征，然后经过一个残差模块进行处理。

根据本发明的一些实施例，通过残差模块对第三通道特征处理得到i个条件卷积核参数包括：

对第三通道特征进行三次3*3卷积以及两次线性整流函数激活函数的处理，将处理结果与第三通道特征进行相加，并输出相加结果；以及

将相加结果输入一个可变形卷积模块进行卷积处理得到卷积核偏置特征，其中，可变形卷积模块包括可变形卷积层。

根据本发明的一些实施例，该可变形卷积层采用一个DCN_v2网络模块的方式实现。该模块中，对输入特征用一个3*3卷积处理，得到与输入特征分辨率相同的卷积核偏置特征图，用于预测常规卷积核在横向和纵向的采样位置偏置参数，构成可变形卷积核，然后用该可变形卷积核处理输入特征，输出的特征大小(长、宽、通道数)与输入时相同。该可变形卷积层可以改变常规卷积的采样位置，以得到更适合于目标预测的特征表示。

根据本发明的一些实施例，通过残差模块对第三通道特征处理得到i个条件卷积核参数还包括：

将卷积核偏置特征输入到条件卷积核生成器进行通道层面的全局最大池化操作和通道层面的全局平均池化操作；以及

将全局最大池化操作的输出结果与全局平均池化操作的输出结果按通道方向连接得到特征向量，将特征向量与全连接层连接后输出i个条件卷积核参数。

根据本发明的一些实施例，在条件卷积核生成器中，输入特征并行地经过一个max分支(对特征进行通道层面的全局最大池化操作，即每一张特征图(通道)中取最大值作为该特征图(通道)的输出)和一个avg分支(对特征进行通道层面的全局平均池化操作，即对每一张特征图(通道)取平均值作为该特征图(通道)的输出)的处理，其中max分支对特征进行全局最大池化得到1*512的特征向量，avg分支对特征进行全局平均池化得到1*512的特征向量。

根据本发明的一些实施例，将max和avg两个分支的输出连接成1*1024的特征向量，输入一个1024*i的全连接层，输出i个条件卷积核参数。

根据本发明的一些实施例，将所预测的条件卷积核参数平均分为三部分，每部分参数分别分配到解码网络的一个阶段构成条件卷积层。

根据本发明的一些实施例，i个条件卷积核参数中包含卷积核权重参数ω和卷积核偏移参数b，将参数ω和b分别均分为三部分，每部分参数分别分配到解码网络的一个阶段构成条件卷积层。

根据本发明的一些实施例，如图5所示，通过解码网络对查询帧图像的特征和卷积核参数处理得到查询帧图像的目标分割预测结果包括：

解码网络的处理过程依次分为阶段四、阶段三和阶段二，阶段四、阶段三和阶段二均包括条件卷积模块、解码模块和残差模块；

在阶段四中，将卷积核偏置特征进行1*1卷积处理，将处理结果输入到第四条件卷积模块依次经过3*3卷积和第四残差模块的处理并输出；

在阶段三中，将第四残差模块的输出和查询帧图像在图像编码器三阶段的输出特征输入第三解码模块进行解码，将解码结果输入到第三条件卷积模块进行处理并输出；以及

在阶段二中，将所第三条件卷积模块的输出和查询帧图像在图像编码器二阶段的输出特征输入第二解码模块进行解码，将解码结果输入到第二条件卷积模块进行处理，将处理结果进行3*3卷积得到单通道的热力图，对单通道的热力图进行归一化得到对查询帧图像的目标分割预测结果。

根据本发明的一些实施例，解码网络的三个阶段分别与图像编码器中的4、3、2阶段相对应(对应阶段特征分辨率相同)。

根据本发明的一些实施例，条件卷积模块包括k个1*1卷积层和线性整流函数激活函数；

在解码模块中，将查询帧图像编码器中输出的中间特征通过跳线连接输入，先通过1*1卷积将特征通道数调整为与解码网络中对应阶段特征通道相同，再用残差模块进行处理，将处理结果与解码网络对应的阶段特征图的2倍上采样结果进行逐像素相加，将相加结果经过残差模块处理得到当前阶段解码模块的输出；以及

残差模块中，将输入的特征图经过两次线性整流函数激活函数处理以及3*3卷积处理后，与输入的特征图相加，将相加结果输出；

其中，k为整数，k≥1。

根据本发明的一些实施例，分配到每个阶段的卷积参数构成k个1*1卷积层，分配给每个卷积层的参数又分为卷积核权重参数ω和卷积核偏移参数b。若使用条件卷积层前后特征通道数保持为c，则每个1*1条件卷积层预测和分配的参数量为：权重参数ω所需参数量为c*c，核偏移参数b所需参数量为c。因此，解码网络的三个阶段共需要n＝3*k*(c*c+c)个条件卷积核参数。

根据本发明的一些实施例，条件卷积核生成器预测的卷积核参数为每个1*1卷积层的卷积核赋值。在解码模块中，将查询帧图像在RGB图像编码器中输出的中间特征通过跳线连接输入，先用一个1*1卷积将特征通道数调整为与解码网络中对应阶段(阶段2或3)特征相同，再用一个残差模块进行处理，然后将解码网络中对应阶段的特征图用双线性插值法上采样2倍并与残差模块的输出相加，之后再经过一个残差模块，得到当前阶段解码模块的输出。

根据本发明的一些实施例，中间特征指RGB图像编码器(即Resnet50网络)在阶段2和阶段3输出的特征图。

根据本发明的一些实施例，解码网络整体处理流程如下：

在阶段四中，将可变形卷积模块输出的特征F_c先经过一个1*1卷积处理，将特征通道数调整为c，然后输入一个条件卷积模块，再经过3*3卷积和一个残差模块的处理。

在阶段三中，将阶段四残差模块的输出和RGB图像编码器第三阶段的输出特征输入一个解码模块，再用一个条件卷积模块进行处理。

在阶段二中，将阶段三条件卷积模块的输出和RGB图像编码器第三阶段的输出特征输入一个解码模块，再用一个条件卷积模块进行处理，最后用一个3*3卷积得到单通道的热力图，用一个sigmoid函数对热力图进行归一化，使热力图上每个像素的值被归一化到0到1之间，再用双线性插值法上采样回原始图像大小，得到解码网络的输出结果，也即对当前查询帧的目标分割预测结果。将当前查询帧图像及其目标分割预测结果保存为新的记忆帧和记忆帧掩膜，参与后续帧的预测。

根据本发明的一些实施例，单通道的热力图，是一种通俗说法，可以直接理解为特征图：

最后用一个3*3卷积得到单通道的特征图，该特征图分辨率(长、宽)为输入图像的1/4。用一个sigmoid函数对该特征图进行归一化，使特征图上每个像素的值被映射到0到1之间。

根据本发明的一些实施例，本发明公开的网络框架的总体损失函数为：

L(M_p，M_l)＝-M_tlogM_p-(1-M_l)log(1-M_p)

其中，L(M_p，M₁)为二值交叉熵损失函数；M_p为目标的分割预测结果；M_l为目标的分割掩膜标签，目标掩膜内部值为255，外部值为0。

根据本发明的一些实施例，计算网络损失时，将M_l除以255来归一化标签值。求出损失函数值(误差)后，依据链式法则求出其对应于网络中每个神经元的梯度，也即据链式法则求出其对应于网络中每个可训练参数的梯度，通过误差反向传播更新参数，学习率由Adam算法自动调节。网络的参数学习过程一直持续到损失函数值收敛为止。

根据本发明的一些实施例，每个神经元指的是网络中所有的可训练参数(包括卷积核参数、全连接层参数等)。

根据本发明的一些实施例，测试时，在第1帧内给出待分割目标的分割标签。假设第t帧为查询帧，若t＝2，将第1帧作为记忆帧，将第1帧图像及其标签和第2帧图像(查询帧)输入视频目标分割网络；若t＞2，采样记忆帧，将所有记忆帧图像及其分割掩膜和第t帧图像(查询帧)输入视频目标分割网络。无论t的取值，最终网络输出都为单通道的目标分割热力图，把热力图中预测值大于0.5的点置为255，其余点置为0，得到二值化目标分割结果，其中值为255的部分(白色)为所分割的目标区域。

根据本发明的一些实施例，查询帧图像在RGB图像编码器中得到的中间特征包含图像中丰富的低层细节信息，通过跳线连接可以将这些细节信息与解码网络中的特征相结合，得到更好的分割结果。

基于本发明公开的上述方法，在单目标分割公开数据集DAVIS2016上测试，视频目标分割结果的性能达到：Jaccard平均区域相似度为87.1％，F-measure平均边界准确度为87.5％，在一块Tesla V100显卡上处理速度达到28帧/秒。在多目标分割公开数据集DAVIS2017上测试，视频目标分割结果的性能达到：Jaccard平均区域相似度为75.2％，F-measure平均边界准确度为81.3％。在当前最大的多目标分割公开数据集YouTube-VOS上测试，性能达到：综合准确度为75.7％，处理速度达到18帧/秒。

与现有技术相比，本发明公开的方法是基于时序特征聚合和条件卷积的快速端到端框架，无需针对给定的数据集在线微调，能够高效地获取目标特征和预测目标自适应的卷积核，最终实现快速准确的半监督视频目标分割。所设计的目标掩膜编码聚合模块能够聚合多个记忆帧的掩膜编码特征，高效地得到当前帧目标掩膜的特征表示。所引入的条件卷积模块能够基于聚合的目标特征预测目标自适应的动态卷积核，提升对特定目标的分割处理能力。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各零部件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

还需要说明的是，在本公开的具体实施例中，除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本公开的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的尺寸、范围条件等等的数字，应理解为在所有情况中是受到“约”的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时序特征聚合和条件卷积的视频目标分割方法，其特征在于，包括：

获取待分割视频的多帧图像；

2.根据权利要求1所述的方法，其特征在于，所述获取记忆帧图像包括：

3.根据权利要求2所述的方法，其特征在于，所述记忆帧图像数量上限为N帧，当所述记忆帧图像数量达到N帧之后，每加入一帧新的记忆帧图像，则从所述记忆帧图像中移除除第一帧图像之外的时序最小的一帧图像，其中，N为整数，N＞n+2。

4.根据权利要求1所述的方法，其特征在于，所述对所述记忆帧图像和所述查询帧图像处理得到记忆帧图像特征和查询帧图像特征，对所述记忆帧图像的目标掩膜处理得到记忆帧掩膜特征包括：

将所述记忆帧图像中所有具有目标掩膜的记忆帧图像的目标掩膜输入到目标掩膜编码器提取特征得到第二通道特征，将所有的第二通道特征按通道方向连接得到记忆帧掩膜特征；以及

其中，所述目标掩膜为分割标签图数据。

5.根据权利要求1所述的方法，其特征在于，所述将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征进行特征聚合得到聚合的目标特征包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述聚合的目标特征和所述查询帧图像特征确定卷积核参数包括：

其中，i为整数，i≥1。

7.根据权利要求6所述的方法，其特征在于，所述通过残差模块对所述第三通道特征处理得到i个条件卷积核参数包括：

8.根据权利要求7所述的方法，其特征在于，所述通过残差模块对所述第三通道特征处理得到i个条件卷积核参数还包括：

9.根据权利要求8所述的方法，其特征在于，所述通过解码网络对查询帧图像的特征和所述卷积核参数处理得到所述查询帧图像的目标分割预测结果包括：

10.根据权利要求9所述的方法，其特征在于，

所述条件卷积模块包括k个1*1卷积层和线性整流函数激活函数；

其中，k为整数，k≥1。