CN113283283A

CN113283283A - 基于掩码指导特征净化的非监督视频目标分割方法

Info

Publication number: CN113283283A
Application number: CN202110293552.6A
Authority: CN
Inventors: 段立娟; 恩擎; 王文健; 乔元华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-08-20

Abstract

本发明公开了一种基于掩码指导的特征净化视频目标分割方法，属于特征学***均池化操作，得到全局目标特征。将其通过注意力传播操作得到经过前景增强后的嵌入特征并与嵌入特征进行拼接后，输入反馈解码器生成反馈重估计预测掩码。通过融合得到目标分割结果。本发明保证有意义信息能够输入到解码器中而无用信息被过滤，克服了中层特征忽视语意内容这一缺陷，使神经网络提取的特征在视频目标分割任务上取得了更加优秀的效果。

Description

基于掩码指导特征净化的非监督视频目标分割方法

技术领域

本发明涉及深度学习领域和视频目标分割领域，尤其是涉及到视频目标分割中的特征表达方法，该方法能够在视频目标分割数据集上得到更加准确的分割结果。

背景技术

随着多媒体和网络技术的发展，视频已经成为重要的多媒体信息载体。如何从海量的中视频提取有价值的信息，从而完成视频分析以及语意解析，已经成为计算机视觉领域的研究热点。出色的特征表达不仅能够表示视频场景的类别信息，而且能够获取视频的目标语意信息。随着海量的视频数据被采集，如何将视频分析与计算机视觉问题相结合，从而得到出色的特征表达能力是进行视频语意分析的重中之重。现有视频分析任务给社会与学术发展带来便利的同时，也带来了一定的挑战。例如如何有效在缺乏在线指导的情况下，对视频目标进行正确分割以提取视频中关键目标信息，从而应用于视频监控、跟踪领域。缺乏在线指导的非监督视频目标分割在过去一些年在相关领域取得了广泛的研究和长足的进展。目前大量互联网公司和研究机构纷纷投入巨资加入到了非监督视频目标分割任务中，通过上述相关方法完成该任务，这也意味着该任务已经成为了研究的主流。非监督视频目标分割任务具有很高的应用价值，在视频监控方面可以帮助筛选显著运动目标；在自动驾驶方面可以辅助驾驶；在生物医学方面可以帮助医生进行辅助治疗识别等工作。

人类具有出色的视觉自我视觉净化能力，其视觉净化机制在一般情况下会遵从预定义的视觉通路，而当反馈信息进入视觉通路时，能够自觉调整通过反馈信息指导的视觉语义信息。除此以外，认知心理学表明，感知语义和注意力信息能够调节神经响应，从而进一步调整从浅层到深层次的侧向连接。从而经过内部分析有选择性地在他们的视觉范围中关注不同目标部位来迭代地反复修正视觉信息，该能力可以视为人类的视觉净化能力。该感知机制能够通过没有外界指导的条件下，多次分析输入信息并对其进行重要性筛选，经过自我反馈修正信息对输入信号进行优先级别划分。在此情况下，优先级别高的信息会被优先处理，从而提升视觉信息处理的效果。其中获得自我反馈修正的方式有多种，针对于分割任务来说，人类通过不断聚焦重估计的过程利用历史注意信息指导后续认知特征的净化，逐步筛选出有价值特征进行后续分割。

非监督视频目标分割是计算机视觉中重要的一个基础问题，其目的旨在确定输入视频中主要目标所对应的掩码信息或者目标对应的语义信息。该任务主要面对的挑战在于视频中的遮挡问题以及复杂背景问题等。本方法主要解决在仅有训练集分割标签而缺少任何测试集先验的情况下，进行目标分割。为了完成上述目标，，相关工作通常使用孪生网络提取视频中相关性信息或者使用外部记忆机制来进行完成目标分割任务。但是这些方法首先都需要同时输入多帧的帮助当前帧进行分割，这在一定程度上使计算量加倍；此外这些方法通常都在整个图像上传播信息，而目标在大多数视频中都只占很小的区域，这也会一定程度造成背景扰乱前景的现象。

基于以上分析，两种对于真实场景的观测驱动本方法提出了本章模型：1)为了更好地分割图像中的主要目标，人类通常需要从底层到高层且从高层到底层地对语义进行解析。2)在视觉处理的过程中，人眼的聚焦过程可以看成从关注图像整体忽略背景而逐步专注于前景的过程。基于上述真实场景观察，本方法期望将图像自身的中间分割过程看成是得到最终精细分割结果过程中的一个精细语义选择算子，该精细选择算子得益于粗分割结果从而能够达到修正分割结果的效果。

发明内容

本发明的目的在于，针对上述已有前向神经网络对于视频表达能力的不足，提出了一种基于掩码指导的特征净化非监督视频目标分割方法。本发明将净化机制以一种端到端的方式概念化为三个连续的模块化方法来解决目标分割问题。该方法与现有方法的不同在于探索了分割掩码和中间特征表达之间的内在联系，从而保证有意义信息能够输入到解码器中而无用信息被过滤。以这种方式实现净化仿了“聚焦和净化”过程，克服了“堆叠不同类型的前向网络层造成的忽视语意内容和蕴涵在分割掩码中的任务指定因素”这一缺陷。本章提出的掩码指导的特征净化机制能够以迭代的方式帮助量化目标的中间特征表达，从而使模型能够基于历史的特征表达和任务目标选择关注的目标区域。

实现本发明方法的主要思路是：首先通过图像数据集及其对应目标分割结果构造训练图像数据集。将图像输入编码网络得到该图像对应的嵌入特征，将嵌入特征输入前向解码器生成前向预测掩码。随后使用前向预测掩码与嵌入特征对输入的两者进行掩码平均池化操作，得到初始预测指导目标的全局目标特征并将其上采样到与嵌入特征同样尺寸。将其通过使用注意力传播操作得到经过前景增强后的嵌入特征，与嵌入特征进行稠密比较操作，随后输入反馈解码器生成反馈重估计预测掩码，最后融合得到最终的目标分割结果。

根据上述主要思路，本发明方法的具体实现包括如下步骤，包括训练和测试两个阶段，训练阶段包括步骤1-6

步骤1：构造数据集

构造数据集，以视频帧为输入，视频帧对应分割掩码为训练目标，构造出训练视频对应的目标分割图像集；

步骤2：提取输入视频帧的嵌入特征和前向预测掩码

将视频帧输入特征编码网络，提取视频帧对应的嵌入特征，随后将该嵌入特征输入前向解码网络，解码得到该视频帧的前向预测掩码；

步骤3：使用掩码平均池化得到全局目标特征

将步骤2得到的前向预测掩码进行双线性插值操作缩放为与嵌入特征相同尺寸大小，随后对步骤2得到的嵌入特征与经过缩放后的前向预测解码进行哈达马乘积操作，计算特征对应每个通道非零区域的平均值并将其进行上采样操作到与嵌入特征相同尺寸，得到全局目标特征。

步骤4：通过注意力传播得到增强嵌入特征

使用步骤3的到的全局目标特征与步骤2得到的嵌入特征计算得到相似性矩阵。将该相似性矩阵与嵌入特征进行矩阵相乘操作，得到增强嵌入特征。

步骤5：嵌入特征与增强嵌入特征拼接融合并进行净化重估计

拼接嵌入特征与增强嵌入特征实现拼接，使用卷积操作将两者进行融合。随后将融合后的特征输入到净化重估计解码器，解码得到净化重估计掩码。

步骤6：计算分割损失，更新分割网络参数

将步骤2计算前向预测掩码和净化重估计掩码分别与分割目标计算损失，并方向传播更新分割网络权重。

实测阶段

步骤7：输出视频目标分割结果

针对输入视频帧将其输入分割网络，将步骤2得到的前向预测掩码与步骤5得到的净化重估计掩码进行融合，得到最终目标分割结果。

本发明与现有技术相比，具有以下明显的优势和有益效果：本发明提出了一种基于掩码指导的特征净化非监督视频目标分割方法，深度探索了分割掩码和中间特征表达之间的内在联系，从而保证有意义信息能够输入到解码器中而无用信息被过滤。以这种方式实现了目标聚焦和特征净化过程，克服了传统前向网络造成的中层特征忽视语意内容这一缺陷，进一步提升了神经网络针对视频目标分割任务的特征学习和表达能力，从而使得训练出神经网络提取的特征在视频目标分割任务上取得了更加优秀的效果。

附图说明

图1为本发明所涉及方法总流程框图；

图2为本发明所涉及算法总架构图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，并参照详细附图，对本发明进一步详细说明。但所描述的实施例子仅旨在便于对本发明的理解，而对其不起任何限定作用。图1是本发明的方法流程图，如图1所示，本方法包括以下几个步骤，训练阶段包括步骤1到步骤6，测试阶段包括步骤7。

步骤1：构造数据集

本发明所述方法实施过程中的数据库来源于公开视频目标分割标准数据集DAVIS2016。其中DAVIS-2016由50个类别对应的高质量视频序列组成，共有3455个稠密掩码标注的视频帧。其中30个类别作为训练，20个类别作为测试。构造训练集的视频帧和其对应的目标分割标注为

其中I^t表示视频帧RGB图像，Y^t表示I^t对应的分割标注。

步骤2：提取输入视频帧的嵌入特征和前向预测掩码

从

中选择一个RGB图像表示为I。使用编码器Encoder提取输入嵌入特征 X：

X＝Encoder(I)

其中

其中H和W表示输入图像的高和宽，c表示嵌入特征的通道数，h和w表示深度网络特征的高和宽。在得到反馈指导特征后，将嵌入特征X输入前向预测解码器D_F生成前向预测掩码S_F∈[0,1]^1*h*w：

S_F＝σ(D_F(X))

其中σ表示sigmoid函数。在实施过程中，编码器和前向预测解码器的选择没有限制，可以采用任意卷积神经网络结构，附表1、附表2仅作为具体实施选用结构。

步骤3：使用掩码平均池化得到全局目标特征

对S_F进行双线性插值操作，获得与嵌入特征X相同尺寸的大小，记为

为了获得目标对应的特征表达而忽略背景信息，本部分使用掩码平均池化的方法来提取目标特征：

其中(i,j)表示空间位置的索引，

表示指示函数。在该操作中，分子表示先将嵌入特征X和上采样后的前向预测掩码S_FG进行哈达马乘积操作，得到预测前景特征并求和，与此同时背景区域对应的特征都为零；分母表示使用前景区域对应的面积。最后将得到的目标特征v_F上采样到和深度网络特征X大小一致，将其看作为全局目标特征V_FG。

步骤4：通过注意力传播得到增强嵌入特征

首先计算X和V_FG对应的相似性矩阵

该转换矩阵建立了从V_FG到X的稠密相关性。随后使用相似性矩阵

将深度网络特征X映射到一个新的全局目标特征表达

其特征权重分布是根据表示相似性的转换矩阵来决定的：

该过程明显增强了前景区域的同时，弱化了背景区域。相比于简单的拼接X和V_FG，上述特征传播过程能够明显获得更好的前景位置信息。对于定义相似性矩阵P：

其中V_FGX^T表示X和V_FG的点积操作。随后对点积后的结果使用因子

进行缩放，其中c 为X和V_FG的通道数。由于高维嵌入特征在通过矩阵相乘计算时会产生巨大的计算量，从而使得softmax的输出很容易位于很小的梯度区域中，所以使用该缩放因子解决以上问题。其中的 softmax操作规则化每一行，使

和为1，从而保留特征的尺度不变形。

步骤5：嵌入特征与增强嵌入特征稠密比较并进行净化重估计在获得新的全局目标特征表达

后，将

与X所对应的所有空间位置对其后进行拼接：

其中，Concat(.)为拼接操作。该操作旨在比较所有

与X对应的空间位置信息。将X_DC经过3*3 的卷积层实现稠密比较，得到特征向量X_B，将其看作反馈指导传播增强特征。随后将X_B输入净化解码器生成净化重估计掩码S_B∈[0,1]^1*h*w：

S_B＝σ(D_B(X_B))

其中σ表示sigmoid函数。本部分提出的净化解码器D_B与前向解码器D_F并不共享权重，可以采用任意卷积神经网络结构，附表2仅作为实施选用结构。

步骤6：计算分割损失，更新非监督视频目标分割网络参数

使用

通过反向传播算法更新特征提取网络权重，使用二元交叉熵损失函数训练：

其中，log(.)为logarithmic函数；T为训练数据集视频帧数。

步骤7：测试阶段，输出视频目标分割结果

将输入视频帧输入由步骤6训练得到的非监督视频目标分割网络，分别得到步骤2和步骤 5分别得到前向预测掩码和净化重估计掩码，计算两者平均值，得到最终视频目标分割结果。

从附表3可以看出，以本发明提出的方法在视频目标分割数据集上有用比最新方法更好的分割效果。

表1

表2

表3

Claims

1.基于掩码指导的特征净化非监督视频目标分割方法，其特征在于包括训练和测试两个阶段，

分割网络训练阶段包括：

步骤1：构造数据集

以视频帧为输入，视频帧对应分割掩码为训练目标，构造出训练视频对应的目标分割图像集，其中，构造训练集的视频帧和其对应的目标分割标注记为为

I^t表示视频帧RGB图像，Y^t表示I^t对应的分割标注；

步骤2：提取输入视频帧的嵌入特征X和前向预测掩码S_F；

步骤3：使用掩码平均池化得到全局目标特征V_FG；

步骤4：通过注意力传播得到增强嵌入特征

步骤5：嵌入特征X与增强嵌入特征

稠密比较并进行净化重估计，生成净化重估计掩码S_B；

步骤6：计算分割损失，更新分割网络参数

分割网络实测阶段包括：

步骤7：分割网络训练完成后，重复步骤2-5，步骤2和步骤5分别得到前向预测掩码S_F和净化重估计掩码S_B，计算两者平均值，得到最终视频目标分割结果。

2.根据权利要求1所述的基于掩码指导的特征净化非监督视频目标分割方法，其特征在于：步骤2具体为：

从

中选择一个RGB图像表示为I，利用编码器Encoder提取输入嵌入特征X，表示如下，

X＝Encoder(I)

其中

H和W表示输入图像的高和宽，c表示嵌入特征的通道数，h和w表示嵌入特征的高和宽；

将嵌入特征X输入前向预测解码器D_F生成前向预测掩码S_F∈[0,1]^1*h*w，表示如下，

S_F＝σ(D_F(X))

其中σ表示sigmoid函数。

3.根据权利要求1所述的基于掩码指导的特征净化非监督视频目标分割方法，其特征在于：步骤3具体为：

使用掩码平均池化的方法来提取目标特征，公式如下：

其中(i,j)表示空间位置的索引，

表示指示函数；在该操作中，分子表示先将嵌入特征X和上采样后的前向预测掩码S_FG进行哈达马乘积操作得到预测前景特征并求和，与此同时背景区域对应的特征都为零；分母表示使用前景区域对应的面积；

最后将得到的目标特征v_F上采样到和嵌入特征X大小一致，将其看作为全局目标特征V_FG。

4.根据权利要求1所述的基于掩码指导的特征净化非监督视频目标分割方法，其特征在于：步骤4具体为：

首先计算X和V_FG对应的相似性矩阵

具体公式如下：

其中V_FGX^T表示X和V_FG的点积操作，

c为X和V_FG的通道数，softmax操作规则化每一行，使

和为1，用于保留特征的尺度不变形；

使用相似性矩阵

将嵌入特征X映射到一个新的全局目标特征表达，即增强嵌入特征

公式如下：

5.根据权利要求1所述的基于掩码指导的特征净化非监督视频目标分割方法，其特征在于：步骤5具体为：

将

与X所对应的所有空间位置对其后进行拼接，表示如下：

其中，Concat(.)为拼接操作，将X_5C经过卷积层实现稠密比较，得到经过拼接融合后的特征向量X_B，将其看作反馈指导传播增强特征；

随后将X_B输入净化解码器D_B生成净化重估计掩码S_B∈[0,1]^1*h*w，公式如下：

S_B＝σ(D_B(X_B))

其中σ表示sigmoid函数。

6.根据权利要求1所述的基于掩码指导的特征净化非监督视频目标分割方法，其特征在于：步骤6具体为：

使用

通过反向传播算法更新分割网络权重，使用二元交叉熵损失函数训练，具体公式如下：

其中，log(.)为logarithmic函数；T为训练数据集视频帧数。