CN110910391B

CN110910391B - 一种双模块神经网络结构视频对象分割方法

Info

Publication number: CN110910391B
Application number: CN201911125917.3A
Authority: CN
Inventors: 汪粼波; 陈彬彬; 方贤勇
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-08-18
Anticipated expiration: 2039-11-15
Also published as: CN110910391A

Abstract

本发明提供一种双模块神经网络结构视频对象分割的方法，用来解决视频对象分割过程中由噪声干扰而造成视频对象分割结果不理想的问题。步骤包括：对第一帧图和第一帧的掩模输入变换网络中生成图像对；对每幅图像对进行目标提议框生成，来确定图像对是否为感兴区域；感兴区域添加***输入到感兴分割网络中训练学习模型并输出；从感兴分割网络最后层卷积输出特征图，分别输入到空间关注模块和通道关注模块；最后将两个关注模块输出的特征图进行融合，经过卷积层操作输出最终的分割掩码结果；本发明在DAVIS视频数据集上取得了较好的分割实验结果。

Description

一种双模块神经网络结构视频对象分割方法

技术领域

本发明是在计算机视觉领域，尤其涉及视频中大规模变化和动态外观变化不准确的视频对象分割处理，具体为一种双模块神经网络结构视频对象分割的方法。

背景技术

近年来随着计算机视觉技术的突飞猛进的发展，深度学习中卷积神经网络在各个研究领域得到极大的重视，视频对象分割技术更是近些年来科研人员关注的重要内容。视频分割技术越来越彰显出它的重要的地位。其应用在场景理解、视频标签，无人驾驶汽车和物体检测等都在视频分割技术得到快速的发展。可以说视频分割技术的进步带动计算机视觉技术整体的发展。但是视频对象分割不仅是研究热点，同时也是研究难点。分割的目标是对视频中的对象找到精准的位置关系，然而其实现过程受到多种的限制，例如运动速度，物体变形，实例之间的遮挡和混乱的背景，可以来自不同的摄像设备，不同的场景影像。这使得视频对象分割面临很大挑战性。仍然在现实世界场景分割中表现出差的结果。这些影像无疑给视频对象分割技术带来巨大的挑战性。

最近几年来看。广大学者已经对视频分割技术进行了大量的研究，并取得较好的学术成果。无监督的视频对象分割。无监督的方法主要是在没有任何事先知道目标的情况下从背景中分割移动物体，无监督的视频对象分割的方法旨在自动发现和分离突出的对象与背景。这些方法基于概率模型，动作和对象提议。现有的方法通常依靠视觉线索(如超像素。显著性图像或者光流)来获取初始对象区域，并且需要以批处理模式处理整个视频以提供对象分割。此外，在每个帧中生成和处理数千个候选区域通常是消耗大量的时间。由于不同实例和动态背景之间的运动混淆，这些无监督方法无法分割特定对象。用于半监督视频对象分割的许多方法依赖于使用第一帧地面实况的微调，使用卷积网络，对前景和背景分割进行训练，并在测试时将其调整到目标视频的第一帧上(如在线自适应自适应机制和实例分割网络的语义信息)。它们提供了目标的关键视觉线索。因此，这些方法可以处理多实例情况，并且通常比无监督方法执行得更好。然而，许多半监督方法在很大程度上依赖于第一帧中的分割掩模。这些方法通常用第一帧进行数据增强，模型自适应严重依赖微调模型，在视频中出现背景复杂，出现遮挡或者快速运动、摄像抖动振荡都无法实现高效的分割问题。

发明内容

针对以上视频分割方法存在的问题，本发明提供了一种基于双关注模块结构的空间和通道信息的视频分割方法。与现有技术相比较，本发明方法能够灵活利用特征图中空间和通道信息，并在优化的过程中简化了计算量，大大提高了视频目标对象分割的精准度。

发明目的：本发明所要解决的是现在视频对象分割方法中存在不足问题，提出了一种双模块神经网络结构视频对象分割的方法，来解决视频对象分割中的一些问题。

技术方案：本发明一种双模块神经网络结构视频对象分割的方法，该方法为了确保近目标域的足够数量的训练数据，为像素级视频对象分割场景量身定制的训练数据。

首先，第一帧及其注释掩模输入变换网路生成未来可能图像对，解决了数据前期的准备和训练数据增强需要额外处理时间的问题。产生合理逼真图像的训练集。捕获未来视频帧中目标可能的预期变化轨迹及外观。其次，图像对输入目标提议操作，通过目标提议来确定可以候选的感兴区域，感兴区域确定可以筛选一些不需要的图像对。使得感兴分割网络在计算上节省一些不必要的开销。然后，将感兴区域添加***输入感性分割网络进行训练模型并输分割结果。由于视频帧追踪到目标出现干扰影响，导致跟踪分割不准确。最后，设计了一种双关注模块方法。空间关注模块来捕获任意两个空间位置之间的空间依赖性，通道关注模块来捕获任意两个通道映射之间的通道依赖关系。再将两个关注模块输出进行融合操作，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。增强了视频对象分割中特征表示的判别能力。再执行一次卷积层的操作。输出最终的分割掩模结果图。本发明的视频对象分割的方法经过实验结果证明如图4和图5结果，取得有效的效果成果。具体包括以下步骤：

步骤1，在视频中第一帧记作为I₀，第一帧的掩模记作为M₀。由已知第一帧I₀和第一帧掩模M₀输入变换网络，通过变换网络能够生成多张不同图像对。图像对，是一张图像和对应一个掩码。变换网络是旋转、平移、翻转、缩放等一些操作。不同图像对为未来视频帧可能出现对象的掩模训练数据，数据集来源于DAVIS公开视频图像分割数据集。本发明使用的方法，是视频帧和对应一个辅助掩码进行数据处理。获得大量的图像对，该图像对用以改善视频训练数据不足。从而可以为训练得到足够多数据，能够准确的预测视频结果。

步骤2，对步骤1中根据第一帧的像素I₀和第一帧的掩模M₀通过变换网络生成不同图像对，并使用目标提议获得感兴区域。目标提议，是一个典型的全卷积网络，将一个图像任意大小作为输入，输出矩形目标提议框的集合。在第一帧中的目标周围生成目标提议，上述步骤1中变换网络生成的图像对目标周围随机生成目标提议，对生成图像目标提议和第一帧目标提议比值IoU分数。或者对生成图象掩码与初始掩码比值IoU分数。通过IoU比值选择大于0.35分数具有代表性图像对，称作为感兴区域(region of interest简称RoI)。初始掩码，是第一帧掩码M₀。所述IoU全称是交并比，是预测区域与实际区域之间的交并比值。然后，对感兴区域添加一个***，***能在下一帧中定位目标有效的方法。所述***，是输入当前帧掩模和下一帧图像，能够预测下一帧目标掩摸的位置。使用***来获取下一帧图像的掩模区域。为后续的帧感兴区域提供时间一致性。

步骤3，一旦感兴区域被定位在下一帧中，把感兴区域添加***输入到本发明中的感兴分割网络(RoISeg)经行训练预测目标。本发明中感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101框架网络基础上，创新本发明中网络框架，称作为感兴分割网络。下文中RoISeg表示感兴分割网络。所述CNN，是深度学习中卷积神经网络。ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差网络。感兴区域上添加***并输入RoISeg中进行训练模型，输出得到粗略目标识别位置和分割掩模的结果。

步骤4，由步骤3中感兴区域添加***输入到RoISeg预测输出目标结果的存在较大误差，为了减少噪声分割的部分。因此，本发明构建一种“双关注模块的方法。在RoISeg的最后卷积层输出的特征图，把特征图输入到双关注模块。所述双关注模块，分别为空间关注模块和通道关注模块”。

空间关注模块，引入空间关注机制，来捕获任意两个空间位置之间的空间依赖性。所述空间关注机制，是空间关注模块中一些函数的操作。对于帧中的目标位置特征，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定。换而言之，具有相似特征的任何两个位置可以促进相互改进，而不管它们在空间维度上的距离。

通道关注模块，通过通道关注机制，来捕获任意两个通道映射之间通道依赖关系。并使用所有通道映射的加权和来更新每个通道映射。所述通道关注机制，是通道关注模块中一些函数的操作。

最后，将上述两个关注模块融合操作。融合操作，是并行策略，将这两个特征向量组合成复向量。融合在一起丰富目标对象的前后帧之间的信息，从而获得更好的视频对象分割的特征效果。通过双关注模块中空间维度信息和通道维度信息之间的特征捕获依赖关系，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。在经过一次卷积层，输出最终的分割掩模结果。

详细具体的步骤如下：

步骤1，向计算机输入一段视频，视频的每一帧是一张图片。该图片为RGB格式，记为RGB图片I。该图像中目标标签，记为掩模M。所述掩模，为图像的二进制前景和背景。

首先，输入一段视频和第一帧的掩码，将第一帧I₀和第一掩码M₀输入变换网络G中。得到大量变换图像对D。具体表达式如下：

D_n＝G(I₀，M₀)

其中G表示变换网络，是旋转、平移、翻转、缩放等一些操作。D_n＝{d₁m₁，d₂m₂，...，d_nm_n}，D_n表示有n个图像对。d_im_i表示第i个图像对，其中d_i表示第i个变换网络生成的图像，m_i表示第i个变换网络生成的掩码。通过变换网络生成图像对，对图像对进行筛选是否作为感兴区域。

步骤2的具体步骤为：

通过变换网络生成的图像对，图像对进行筛选是否作为感兴区域。使用目标提议获得感兴区域。目标提议，是一个典型的全卷积网络，将一个图像任意大小作为输入，输出矩形目标提议框的集合。在第一帧中的目标周围进行目标提议操作，并记为gt_box，所述gt_box是第一帧的目标周围真实标记的边界框。图像对目标周围进行目标提议操作生成的边界框，并记为b_box，所述b_box是将图像对输入到目标提议，输出图像对中目标提议框，如图2中5号标记处所示。对生成图像目标提议和第一帧目标提议比值IoU分数。具体表达式如下：

S＝IoU(b_box，gt_box)

其中，IoU是交并比的函数表达式。S得分，是图像对中目标提议框和第一帧中目标提议框交并比值分数。通过IoU比值S＞0.75部分具有代表性图像对作为感兴区域。然后，对感兴区域添加一个***，***能在下一帧中定位目标有效的方法。所述***，是输入当前帧掩模和下一帧图像，能够预测下一帧目标掩摸的位置。使用***来获取下一帧图像的掩模区域。为后续的帧感兴区域提供时间一致性。已知一段视频序列R，R＝{I₀，I₁，I₂，I₃，...It...，I_n}和第一帧I₀的掩模M₀。I_t是视频序列中第t帧。t∈{1，2，3，...，n}。求视频序列中剩下帧的掩模{M₁，M₂，M₃，...，M_n}，根据***函数表达式如下：

M_t+1＝f(I_t+1，M_t)

其中，f表示为***函数，已知I_t+1表示为第t+1帧的图像，已知M_t表示第t帧图像的掩模，求M_t+1表示为第t+1帧的掩摸。视频第二帧图像和第一帧图像的掩模是已知的，通过***求出第二帧图像的掩模。由于目标在空间具有平滑移动的趋势，视频帧与帧之间几乎变化很小特性，相对具有一定的关联性。通过M_t掩模和I_t+1帧，预测I_t+1帧的掩模M_t+1。预测I_t+1帧的掩模和真实的掩模M_gt存在很大的误差。所述M_gt表示真实准确的掩模。然后把感兴区域添加***输入到感兴分割网络中。

步骤3的具体步骤为：

基于步骤2通过感兴区域添加***输入到感兴分割网络中。把感兴区域添加***输入到本发明中的感兴分割网络(RoISeg)经行训练预测目标。本发明中感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101框架网络基础上，创新本发明中网络框架，称作为感兴分割网络。ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差网络。本发明RoISeg网络中由卷积层、池化层、激活函数、批量规范化、反卷积等组合。其中RoISeg中一些初始参数设置。学习率为0.0001、权重衰减项为0.005。RoISeg最终输出使用加权交叉熵损失进行约束。所述交叉生损失表达式如下所示：

其中，L(θ)表示加权交叉熵损失，θ取值范围[0，1]，表示与网络中当前预测相关的权重参数。X₊和X_-分别代表具有目标正样本和负样本标签的像素集。正样本是真实的正确样本，负样本是预测错误样本。话句话说，视频帧掩码的正样本和负样本的像素集。β是权重衰减项，在训练期间惩罚有偏差采样。卷积层的激活输出来计算概率函数P表示概率分布，P∈[0，1]。所述激活函数，使用常用的非线性的激活函数Sigmoid取值范围[0，1]。感性分割网络训练输出层使用交叉熵损失的约束，再经过反向传播到网络中继续训练，当训练的过程损失逐渐变小，收敛变足够小并且稳定。输出得到目标分割结果。输出结果，是掩模前景和背景的分割图。

由步骤3中RoISeg网络预测输出目标结果的存在较大误差，为了减少噪声分割的部分。因此，本发明构建一种“双关注模块的方法。在RoISeg的最后卷积层输出的特征图，把特征图分别输入到两个关注模块。两个关注模块分别为空间关注模块和通道关注模块。

空间关注模块：引入空间关注机制，为视频帧中目标丰富上下文特征的依赖关系。引入空间关注机制操作进行详细说明。在图3中11所示为空间关注模块。从RoISeg的卷积层输出特征图记为A，A∈R^C×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度。首先由特征图A共享分别生成三个新的特征映射B、D和F，其中{B，D，F}∈R^C ^×H×W。然后将它们形状大小重新改变为R^C×N，其中N＝H×W，N表示为高度和宽度的乘积。之后，B进行矩阵转置和D执行矩阵乘法，并应用soffmax层来计算空间维度信息关注特征图S∈R^N×N，具体表达式如下所示：

其中S_ij测量第i^th空间位置对第j^th空间位置的影响。exp表示两个位置之间距离，距离越小它们之间位置越相似。所述前文中，来捕获任意两个空间位置之间的空间依赖性。换句话说，两个位置的更相似的特征。表示有助于它们之间特征更大的相似性。上述中F形状大小为R^C×N。然后在F和S矩阵转置之间执行矩阵乘法操作，矩阵乘法结果特征图大小形状为R^C×N，再把特征图的形状大小重新改变为R^C×H×W。最后，乘以一个尺度参数α，并用特征A执行元素和运算操作，得到输出特征图结果E₁，具体表达式如下：

其中，α为权重系数初始化设置为0，α∈[0，1]，并逐渐分配更多权重。相加操作结果特征图E₁，形状大小E₁∈R^C×H×W。对于视频帧中的目标特征位置，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定。换而言之，具有相似特征的任何两个位置可以促进相互改进，而不管它们在空间维度上的距离。并根据空间关注映射选择性地聚合上下文特征表示，从而提升了相同类之间信息相互依赖关系。

通道关注模块，通过通道关注机制一些操作，来捕获任意两个通道映射之间通道依赖关系。通道关注机制一些操作。从RoISeg的卷积层输出特征图也记为A，A∈R^C×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度。特征图A共享分别生成两个新的特征映射M和N，其中{M，N}∈R^C×H×W。然后将它们形状大小重新改变为R^C×N。M与N转置之间执行矩阵乘法，直接计算出通道特征图X∈R^C×C。使用soffmax层来获取通道关注信息特征图X∈R^C×C，具体表达式如下所示：

其中X_ji测量第i^th通道对第j^th通道之间影响，前文提到通道关注模块捕获任意两个通道映射之间通道依赖关系。另外，在X和A矩阵转置之间执行矩阵乘法，矩阵乘法操作结果特征图，重新塑形为R^C×H×W。然后乘以一个尺度权重参数β，并与A执行元素和运算，得到输出特征图E₂，具体表达式如下所示：

其中，β为权重系数，初始化设置为0.3，β∈[0，1]。相加操作结果特征图E₂，E₂形状大小E₂∈R^C×H×W。模拟了特征图通道映射之间通道依赖关系。从而有助于提高模型功能的可辨性。通过通道关注模块的增强通道目标特征更为突出，使得视频帧在网络中能够识别目标。

将上述两个关注模块融合操作。融合操作，是将这两个特征向量组合成复向量。上述空间关注模块输出的特征特E₁，通道关注模块输出的特征图E₂，经过融合操作得到新的特征图O：具体表达式如下所示：

O＝f(E₁，E₂)

其中，O是融合特征图输出的结果，O输出特征图大小为O∈R^C×H×W。函数f表示为融合操作。E₁特征图的大小为E₁∈R^C×H×W。E₂特征图的大小为E₂∈R^C×H×W。融合在一起丰富目标对象的前后帧之间的特征信息更加明显，从而获得更好的视频目标对象分割的特征效果。

通过关注模块中空间维度信息和通道维度信息之间的特征融合捕获依赖关系，充分利用空间和通道之间的上下文特征信息。具体而言，通过感兴分割网络的卷积层输出，分别输入到两个关注模块。经过各自的关注机制操作，空间关注模块得到显著的空间信息特征，通道关注模块得到显著的通道信息的特征。把这两个关注模块融合特征操作，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。再执行一次卷积层的操作。输出最终的分割掩模结果图。本发明的视频对象分割的方法经过实验结果证明如图4和图5结果，取得有效的效果成果，由此证明了本发明的是有意义。

有益的技术效果

本发明所提供的一种双关注模块的卷积神经网络视频对象分割的方法，是用来解决视频对象分割过程中一下问题，如数据不足、处理开销大、复杂背景、快速移动、抖动和振荡等干扰性的问题。因出现这些干扰的问题，本发明设计变换网络、感兴区域添加***和双关注模块有效的解决这些问题。通过变换网络方法，解决在网络训练过程因数据不足的问题学习模型泛化能力差。通过目标提议来确定感兴区域，并在感兴区域添加***来预测下一帧可能出现的目标的位置信息。能够解决快速移动或者相机移动出现的抖动和振荡提问，找出目标可能出现的位置。感兴区域添加***输入本发明设计的感兴分割网络(RoISeg)进行训练模型并输分割结果。由于视频帧追踪到目标出现干扰影响，导致跟踪分割不准确。为此设计了一种双关注模块方法。空间关注模块来捕获任意两个空间位置之间的空间依赖性，通道关注模块来捕获任意两个通道映射之间的通道依赖关系。将两个关注模块输出特征图进行融合操作，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。增强了视频对象分割中特征表示的判别能力。再执行一次卷积层的操作。输出最终的分割掩模结果图。

附图说明

图1为本发明方法的基本流程图

图2为本发明的网络结构图

图3为双关注模块网络关系表示图

图4，图5为实验效果图

在图2中1为表示第一帧图像。2为为第一帧图像对应的掩模图。3为变换网络操作做。4为变换网络生成的图像对。5为目标提议生成来确定感兴区域，6为本发明RoISeg网络框架，7为RoISeg网络输出特征图，8为特征图，9为特征图，10为通道关注模块，11为空间关注模块，12为输出特征图经行融合，13最终实验分割结果。

具体实施方法

现结合附图详细说明本发明的技术特点。

参见图1，一种双模块神经网络结构视频对象分割的方法，该方法通过为像素级视频对象分割场景收集处理数据，确保近目标域有足够量的训练数据，其方法为：

获取视频的第一帧及其注释掩模，用于生成未来视频帧的掩模，产生合理逼真图像的训练集，进而获得未来视频帧中的预期外观变化，得到接近目标域。

此外，引入一种关注模块机制，分别捕获空间和通道关注模块中的目标特征依赖性。该注模块机制是在扩张的全卷积神经网络的架构附加两个平行模块：一个是空间位置维度模块，另一个是通道信息维度模块。经过对前述两个平行模块处理，空间位置维度模块得到准确的位置信息依赖关系，通道维度模块得到通道映射之间依赖关系。

最后，把来自两个维度模块的输出特征图进行融合，获得更好的像素级预测的特征表示并在经过一层卷积层输出分割结果。分割结果，是由1和0分别表示前景和背景组成分割结果。

进一步说，本发明的方法是：通过计算机并按如下步骤进行：

步骤1，在视频中，将第一帧图记作为I₀，第一帧图的掩模记作为M₀。由已知第一帧图I₀和第一帧掩模M₀输入变换网络，通过变换网络生成图像对。前述的图像对，是一张图像和对应一个掩码。变换网络是包含旋转、平移、翻转和/或缩放操作的网络。所述图像对，是指能够为视频帧输入网络训练模型解决数据不足的情况。在本步骤中，输入的视频来自于数据集，该数据集可以来源于DAVIS公开视频图像分割数据集。本发明使用的方法，是视频帧和对应一个辅助掩码进行数据处理。获得大量的图像对，该图像对用以改善视频训练数据不足。从而可以为训练得到足够多数据，能够准确的预测视频结果。

步骤2，将步骤1中第一帧图I₀的像素和第一帧的掩模M₀通过变换网络生成一组以上的图像对，图像对不相同，并通过目标提议获得感兴区域。

所述的目标提议，是在全卷积网络中，输入任意大小的图像，输出图像目标矩形提议框的集合。目标提议通过对候选框评分得到感兴区域。。具体步骤如下：

在第一帧图I₀中的目标周围生成目标提议。

采用如下方式获得IoU。所述IoU全称是交并比，是预测区域与实际区域之间的交并比值。

其一：用由步骤1中变换网络生成的图像对目标周围随机生成目标提议，获得生成图像目标提议和第一帧图I₀目标提议的比值IoU。

其二：对生成图象掩码与初始掩码比值IoU分数。所述初始掩码，是第一帧掩码M₀。

通过IoU比值选择大于0.75分数具有代表性的图像对，称作为感兴区域(regionof interest简称RoI)。

然后，对感兴区域添加一个***，由***在下一帧中定位目标有效。所述***，是输入当前帧掩模和下一帧图像，能够预测下一帧目标掩摸的位置。使用***来获取下一帧图像的掩模区域，为后续的帧感兴区域提供时间一致性。

步骤3，一旦感兴区域被定位在下一帧中，把感兴区域添加***输入到本发明中的感兴分割网络(RoISeg)经行训练预测目标。所述感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101框架网络基础上，构成本发明中网络框架，简称RoISeg。所述CNN，是深度学习中卷积神经网络。ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差网络。感兴区域上添加***并输入RoISeg中进行训练模型，输出得到粗略目标识别位置和分割掩模的结果。

步骤4，由步骤3中感兴区域添加***输入到RoISeg预测输出目标结果的存在较大误差，为了减少噪声分割的部分。因此，本发明构建一种“双关注模块的方法：在RoISeg的最后卷积层输出的特征图，把特征图输入到双关注模块。所述双关注模块，包括空间关注模块和通道关注模块，详见图1和图3。

空间关注模块，是引入空间关注机制，来捕获任意两个空间位置之间的空间依赖性。所述空间关注机制，是空间关注模块中的函数操作。对于帧中的目标位置特征，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定。换而言之，具有相似特征的任何两个位置可以促进相互改进，而不管它们在空间维度上的距离。

通道关注模块，是通过通道关注机制，来捕获任意两个通道映射之间通道依赖关系，并使用所有通道映射的加权和来更新每个通道映射。所述通道关注机制，是通道关注模块中的函数操作。

更进一步说，步骤1，向计算机输入一段视频，视频的每一帧是一张图片。该图片为RGB格式，记为RGB图片I。该图像中目标标签，记为掩模M。所述掩模，为图像的二进制前景和背景。

首先，输入一段视频和第一帧的掩码，将第一帧I₀和第一掩码M₀输入变换网络G中，得到变换图像对D。具体表达式如下：

D_n＝G(I₀，M₀)

其中G表示变换网络。图像对集合D_n＝{d₁m₁，d₂m₂，...，d_nm_n}，D_n表示有n个图像对。d_im_i表示第i个图像对，其中d_i表示第i个变换网络生成的图像，m_i表示第i个变换网络生成的掩码。通过变换网络生成图像对，对图像对进行筛选是否作为感兴区域。

更进一步说，步骤2的具体步骤为：

通过变换网络生成的图像对，图像对进行筛选是否作为感兴区域。使用目标提议获得感兴区域。目标提议，是一个典型的全卷积网络，输入任意大小图像，输出图像目标矩形提议框的集合。在第一帧中的目标周围进行目标提议操作，并记为gt_box，所述gt_box是第一帧的目标周围真实标记的边界框。图像对目标周围进行目标提议操作生成的边界框，并记为b_box，所述b_box是将图像对输入到目标提议，输出图像对中目标提议框，如图2中5号标记处所示。对生成图像目标提议和第一帧目标提议比值IoU分数。具体表达式如下：

S＝IoU(b_box，gt_box)

其中，IoU是交并比的函数表达式。S得分，是图像对中目标提议框和第一帧中目标提议框交并比值分数。通过IoU比值S＞0.75部分具有代表性图像对作为感兴区域。然后，对感兴区域添加一个***，***能在下一帧中定位目标有效的方法。所述***，是输入当前帧掩模和下一帧图像，能够预测下一帧目标掩摸的位置。使用***来获取下一帧图像的掩模区域。为后续的帧感兴区域提供时间一致性。已知一段视频序列R，R＝{I₀，I₁，I₂，I₃，...I_t...，I_n}和第一帧I₀的掩模M₀。I_t是视频序列中第t帧。t∈{1，2，3，...，n}。求视频序列中剩下帧的掩模{M₁，M₂，M₃，...，M_n}，根据***函数表达式如下：

M_t+1＝f(I_t+1，M_t)

更进一步说，步骤3的具体步骤为：

基于步骤2通过感兴区域添加***输入到感兴分割网络中。把感兴区域添加***输入到本发明中的感兴分割网络(RoISeg)经行训练预测目标。本发明中感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101框架网络基础上，创新本发明中网络框架，称作为感兴分割网络。ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差网络。本发明RoISeg网络中由卷积层、池化层、激活函数、批量规范化、反卷积等组合。其中RoISeg中初始参数设置为：学习率为0.0001、权重衰减项为0.005。RoISeg最终输出使用加权交叉熵损失进行约束。所述交叉生损失表达式如下所示：

其中，上(θ)表示加权交叉熵损失，θ取值范围[0，1]，表示与网络中当前预测相关的权重参数。X₊和X_-分别代表具有目标正样本和负样本标签的像素集。正样本是真实的正确样本，负样本是预测错误样本。话句话说，视频帧掩码的正样本和负样本的像素集。β是权重衰减项，在训练期间惩罚有偏差采样。卷积层的激活输出来计算概率函数P表示概率分布，P∈[0，1]。所述激活函数，使用常用的非线性的激活函数Sigmoid取值范围[0，1]。感性分割网络训练输出层使用交叉熵损失的约束，再经过反向传播到网络中继续训练，当训练的过程损失逐渐变小，收敛变足够小并且稳定。输出得到目标分割结果。输出结果，是掩模前景和背景的分割图。

更进一步说，步骤4的具体步骤为：

由步骤3中RoISeg网络预测输出目标结果的存在较大误差，为了减少噪声分割的部分。因此，本发明构建一种“双关注模块的方法。在RoISeg的最后卷积层输出的特征图，把特征图分别输入到两个关注模块。两个关注模块分：别为空间关注模块和通道关注模块，具体如下：

空间关注模块：引入空间关注机制，为视频帧中目标丰富上下文特征的依赖关系。引入空间关注机制操作进行详细说明。在图3中空间关注模块所示s。从RoISeg的卷积层输出特征图记为A，A∈R^C×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度。首先由特征图A共享分别生成三个新的特征映射B、D和F，其中{B，D，F}∈R^C ^×H×W。然后将它们形状大小重新改变为R^C×N，其中N＝H×W，N表示为高度和宽度的乘积。之后，B进行矩阵转置和D执行矩阵乘法，并应用softmax层来计算空间维度信息关注特征图S∈R^N×N，具体表达式如下所示：

通道关注模块：通过通道关注机制操作，来捕获任意两个通道映射之间通道依赖关系。从RoISeg的卷积层输出特征图也记为A，A∈R^C×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度。特征图A共享分别生成两个新的特征映射M和N，其中{M，N}∈R^C×H×W。然后将它们形状大小重新改变为R^C×N。M与N转置之间执行矩阵乘法，直接计算出通道特征图X∈R^C×C。使用softmax层来获取通道关注信息特征图X∈R^C×C，具体表达式如下所示：

其中X_ji测量第i^th通道对第j^th通道之间影响，前文提到通道关注模块捕获任意两个通道映射之间通道依赖关系。另外，把X矩阵和A特征图形状重塑为R^C×N矩阵之间执行矩阵乘法，矩阵乘法得到的结果形状为R^C×N，再重新塑形为R^C×H×W。然后乘以一个尺度权重参数β，并与A执行元素和运算，得到输出特征图E₂，具体表达式如下所示：

将上述两个关注模块融合操作。所述的融合操作，是将这两个特征向量组合成复向量。上述空间关注模块输出的特征特E₁，通道关注模块输出的特征图E₂，经过融合操作得到新的特征图O：具体表达式如下所示：

O＝f(E₁，E₂)

通过关注模块中空间维度信息和通道维度信息之间的特征融合捕获依赖关系，充分利用空间和通道之间的上下文特征信息。具体而言，通过感兴分割网络的卷积层输出，分别输入到两个关注模块。经过各自的关注机制操作，空间关注模块得到显著的空间信息特征，通道关注模块得到显著的通道信息的特征。把这两个关注模块融合特征操作，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。再执行一次卷积层的操作。输出最终的分割掩模结果图。

本发明的视频对象分割的方法经过实验结果证明如图4和图5结果，取得有效的效果成果，由此证明了本发明的是有意义。

实施例

本发明实验硬件环境是：3.4GHz Intel(R)Core(TM)i5-7500 CPU和GTX 1080TiGPU的PC上，16内存，Ubuntu18.04操作***下实现，基于开源框架Pytorch深度框架实现的。训练和测试使用854x480的图像大小。测试结果(如图4图5)数据集来源于DAVIS公开视频图像分割的数据集。

首先对给定的第一帧和第一帧的掩模(如图2中1和2所示)。通过变换网络生成1～100张的图像对(图2中4所示)。通过目标提议框选择候选感兴区域(图2中5所示)。感兴区域添加***后输入RoISeg网络中训练(图2中6所示)。从RoISeg网络中最后卷积层输出特征图(图2中7所示)分别输入空间关注模块和通道关注模块。最后把空间关注模块和通道关注模块输出的特征图进行融合(图2中12所示)，最后输出分割结果图。本发明的视频对象分割的方法经过实验结果证明如图4和图5结果，取得有效的效果成果，由此证明了本发明的是有意义。

Claims

1.一种双模块神经网络结构视频对象分割的方法，其特征在于：该方法为像素级视频对象分割场景收集处理数据，确保近目标域有足够量的训练数据，包括：

步骤1：获取视频的第一帧及其掩模，用于生成未来视频帧的掩模，产生合理逼真的图像训练集，进而获得未来视频帧中的预期外观变化，得到接近目标域；获取第一帧图像和第一帧图像的掩模，输入变换网络中生成图像对；

步骤2：对变换网络生成的图像对进行筛选，判断是否作为感兴趣区域，使用目标提议获得感兴趣区域；目标提议，是一个全卷积网络，将一个任意大小的图像作为输入，输出矩形目标提议框的集合；在第一帧图像的目标周围进行目标提议操作，并记为gt_box，所述gt_box是第一帧图像的目标周围真实标记的边界框；对图像对目标周围进行目标提议操作生成边界框，并记为b_box，所述b_box是将图像对输入到目标提议，输出图像对的目标提议框；计算生成图像目标提议和第一帧图像目标提议的IoU分数；具体表达式如下：

S＝IoU(b_box,gt_box)

其中，IoU是交并比的函数表达式；S得分，是图像对中目标提议框和第一帧图像中目标提议框的交并比值分数；通过将IoU分数S>0.75的具有代表性的图像对作为感兴趣区域；

步骤3：为感兴趣区域添加***，并输入到感兴趣区分割网络中进行训练：所述***，输入当前帧掩模和下一帧图像，能够预测下一帧目标掩模的位置；使用***来获取下一帧图像的掩模区域；为后续帧的感兴趣区域提供时间一致性；已知一段视频序列R，R＝{I₀,I₁,I₂,I₃,...I_t...,I_n}和第一帧图像I₀的掩模M₀；I_t是视频序列中第t帧图像；t∈{1,2,3,...,n}；求视频序列中剩下帧的掩模{M₁,M₂,M₃，...,M_n}，***函数表达式如下：

M_t+1＝f(I_t+1,M_t)

其中，f表示为***函数，已知I_t+1表示为第t+1帧图像，已知M_t表示第t帧图像的掩模，M_t+1表示为第t+1帧图像的掩模；视频第二帧图像和第一帧图像的掩模是已知的，通过***求出第二帧图像的掩模；由于目标在空间具有平滑移动的趋势，视频帧与帧之间变化很小，具有一定的关联性；通过M_t掩模和I_t+1帧，预测I_t+1帧的掩模M_t+1；预测I_t+1帧的掩模和真实的掩模M_gt存在很大的误差；所述M_gt表示真实准确的掩模；然后把感兴趣区域添加***输入到感兴趣区分割网络中；

步骤4：引入一种关注模块机制，所述关注模块机制是在扩张的全卷积神经网络的架构的基础上附加两个平行模块：一个是空间关注模块，另一个是通道关注模块；将感兴趣区分割网络的最后一层卷积层输出的特征图输入到空间关注模块和通道关注模块，空间关注模块得到准确的位置信息依赖关系，通道关注模块得到通道映射之间的依赖关系；将两个关注模块输出的特征图进行融合，为了获得更好的像素级预测的特征表示，再经过一层卷积层输出分割结果；该分割结果，是由1和0分别表示前景和背景组成分割结果。

2.根据权利要求1所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：

步骤1的具体步骤为：向计算机输入一段视频，视频的每一帧是一张图片；该图片为RGB格式，记为RGB图片I；该图像中目标标签，记为掩模M；所述掩模，为图像的二进制前景和背景；

首先，输入第一帧图像I₀和第一帧图像的掩模M₀，将I₀和M₀输入变换网络G中，得到变换图像对D；具体表达式如下：

D_n＝G(I₀,M₀)

其中G表示变换网络；图像对集合D_n＝{d₁m₁,d₂m₂,...,d_nm_n}，D_n表示有n个图像对；d_im_i表示第i个图像对，其中d_i表示第i个变换网络生成的图像，m_i表示第i个变换网络生成的掩模。

3.根据权利要求2所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：步骤3的具体步骤为：

把感兴趣区域添加***输入到感兴趣区分割网络中进行训练；所述感兴趣区分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101框架网络的基础上，创新网络框架；ResNet101框架网络，是一个通过深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差；所述RoISeg网络由卷积层、池化层、激活函数、批量规范化、反卷积组合；其中RoISeg初始参数设置为：学习率为0.0001、权重衰减项为0.005；所述RoISeg的最终输出使用加权交叉熵损失进行约束；所述交叉熵损失表达式如下所示：

其中，L(θ)表示加权交叉熵损失，θ取值范围[0，1]，表示与网络中当前预测相关的权重参数；X₊和X_-分别代表具有目标正样本和负样本标签的像素集；正样本是真实的正确样本，负样本是预测错误样本；即视频帧掩模的正样本和负样本的像素集；β是权重衰减项，在训练期间惩罚有偏差采样；卷积层的激活函数计算输出P，P表示概率分布，P∈[0,1]；所述激活函数，使用常用的非线性的激活函数Sigmoid，取值范围[0,1]；感兴趣区分割网络的输出层使用交叉熵损失进行约束，再经过反向传播到网络中继续训练，训练的过程中损失逐渐变小，收敛变足够小并且稳定；输出得到目标分割结果；输出结果，是掩模前景和背景的分割图。

4.根据权利要求3所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：步骤4的具体步骤为：

空间关注模块：引入空间关注机制，来捕获任意两个空间位置之间的空间依赖性；从RoISeg的卷积层输出的特征图记为A，A∈R^C×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度；首先由特征图A共享分别生成三个新的特征映射B、D和F，其中{B，D，F}∈R^C×H×W；然后将它们的形状大小重新改变为R^C×N，其中N＝H×W，N表示为高度和宽度的乘积；之后，对B进行矩阵转置和对D执行矩阵乘法，并应用softmax层来计算空间维度信息关注特征图S∈R^N×N，具体表达式如下所示：

其中S_ij测量第i^th空间位置对第j^th空间位置的影响；exp表示两个位置之间的距离，距离越小它们之间位置越相似；F形状大小为R^C×N；然后在F和S矩阵转置之间执行矩阵乘法操作，矩阵乘法结果特征图的大小形状为R^C×N，再把特征图的形状大小重新改变为R^C×H×W；最后，乘以一个尺度参数α，并用特征A执行元素和运算操作，得到输出特征图结果E₁，具体表达式如下：

其中，α为权重系数初始化设置为0，α∈[0,1]，并逐渐分配更多权重；E₁为相加操作结果特征图，E₁∈R^C×H×W；对于视频帧中的目标特征位置，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定；具有相似特征的任何两个位置能促进相互改进，而不管它们在空间维度上的距离；并根据空间关注映射选择性地聚合上下文特征表示，从而提升了相同类之间的信息相互依赖关系。

5.根据权利要求4所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：步骤4的具体步骤为：

通道关注模块：通过通道关注机制操作，来捕获任意两个通道映射之间的通道依赖关系；从RoISeg的卷积层输出的特征图也记为A，A∈R^C×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示高度，W表示宽度；特征图A共享分别生成两个新的特征映射M和N，其中{M，N}∈R^C×H×W；然后将它们的形状大小重新改变为R^C×N；M与N转置之间执行矩阵乘法，直接计算出通道特征图X∈R^C×C；使用softmax层来获取通道关注信息特征图X∈R^C×C，具体表达式如下所示：

其中X_ji测量第i^th通道对第j^th通道的影响；另外，把X矩阵和A特征图的形状大小重塑为R^C×N，矩阵之间执行矩阵乘法，矩阵乘法得到的结果形状大小为R^C×N，再重新塑形为R^C×H×W；然后乘以一个尺度权重参数β，并与A执行元素和运算，得到输出特征图E₂，具体表达式如下所示：

其中，β为权重系数，初始化设置为0.3，β∈[0,1]；E₂为相加操作结果特征图，E₂∈R^C ^×H×W；模拟了特征图通道映射之间的通道依赖关系；从而有助于提高模型功能的可辨性；通过通道关注模块的增强，通道目标特征更为突出，使得视频帧在网络中能够识别目标；

将上述两个关注模块执行融合操作；所述融合操作，是将这两个特征向量组合成复向量；上述空间关注模块输出的特征图E₁，通道关注模块输出的特征图E₂，经过融合操作得到新的特征图O：具体表达式如下所示：

O＝f(E₁,E₂)

其中，O是融合特征图输出的结果，O∈R^C×H×W；函数f表示为融合操作；E₁∈R^C×H×W；E₂∈R^C ^×H×W。