CN110222595A

CN110222595A - 一种基于时空卷积神经网络的视频目标分割方法

Info

Publication number: CN110222595A
Application number: CN201910421126.9A
Authority: CN
Inventors: 李国荣; 徐凯; 黄庆明
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2019-09-10

Abstract

本发明涉及计算机视觉的技术领域，特别是涉及一种基于时空卷积神经网络的视频目标分割方法，其不需要依赖光流标注信息来训练光流模型，节省人力资源，提高视频分割准确度；包括：使用ResNet‑101网络，前部均为卷积层，并且最后三个为反卷积层；使用三个跳过连接来连接低位图层功能以保留每个决议中的时空信息；输入为N幅连续的帧(I_t‑N，I_t‑(N‑1)，……，I_t‑1)，输出为预测的当前帧的图像I；并将此步骤设置为时间一致性分支；使用ResNet‑101网络，其中均为卷积层；并且使用步长为1的空洞卷积替换卷积最后两个残余块中的层；使用金字塔池化模型来利用全局不同区域上下文信息；并将此步骤设置为空间分割分支。

Description

一种基于时空卷积神经网络的视频目标分割方法

技术领域

本发明涉及计算机视觉的技术领域，特别是涉及一种基于时空卷积神经网络的视频目标分割方法。

背景技术

视频对象分割(VOS)是许多视频分析任务的关键步骤，如视频摘要，视频编辑和场景理解。VOS旨在从视频剪辑中提取前景对象。现有的VOS方法可以根据人类参与的程度分为两种设置，即无监督和半监督。无监督的VOS方法不需要任何手动注释，而半监督方法依赖于第一帧中对象的带注释的掩码以保持对象分割结果的时间关联。

现有的方法通常使用光流来模拟整个时间内的像素一致性以获得平滑度。然而，光流标注是一项艰巨的任务，需要大量人力，此外光流估计非常难，因此光流估计的结果往往准确较差。

发明内容

为解决上述技术问题，本发明提供一种不需要依赖光流标注信息来训练光流模型，节省人力资源，提高视频分割准确度的基于时空卷积神经网络的视频目标分割方法。

本发明的一种基于时空卷积神经网络的视频目标分割方法，包括：

使用ResNet-101网络，前部均为卷积层，并且最后三个为反卷积层；使用三个跳过连接来连接低位图层功能以保留每个决议中的时空信息；输入为N幅连续的帧(I_t-N，I_t-(N-1)，……，I_t-1)，输出为预测的当前帧的图像I；并将此步骤设置为时间一致性分支；

使用ResNet-101网络，其中均为卷积层；并且使用步长为1的空洞卷积替换卷积最后两个残余块中的层；使用金字塔池化模型来利用全局不同区域上下文信息；并将此步骤设置为空间分割分支；

使用元素添加来利用高级上下文，并连接时间相干特征以集成时间约束；使用来自先前粗尺度特征图的预测掩模来指导网络的集中，即使用逐元素乘法来掩盖中的特征映射；增强对象区域周围的特征，使网络逐渐集中在对象区域以获得准确的结果；并将此步骤设置为特征融合。

本发明的一种基于时空卷积神经网络的视频目标分割方法，还包括：

预训练时间一致性分支，使用对抗性方式通过预测未来帧来训练时间一致性分支，具体包括：将时间相干分支设置为生成器G，并构造鉴别器D以从G和真实视频帧中识别所生成的视频帧；并且使用预训练的Inception-v3网络，最后一个完全连接(FC)层被随机初始化的2级FC层替换为鉴别器D；并且利用对抗性损失函数及视频帧预测损失函数和已有视频数据集训练该网络。

预训练空间分割分支，使用现有的图像分割数据集或显著性物体数据集来预训练空间分割分支。

线下迭代训练整个时空卷积网络，并利用DAVIS2016训练数据集来微调整体的参数，并且迭代训练时间一致性分支和空间分割分支：保持空间分割分支的参数固定不变，优化时间一致性分支的参数；之后保持时间一致网络的参数不变，优化空间分割分支。

本发明的有益效果为：时间一致分支以对抗方式预训练，用于预测视频序列中的外观和运动信息以引导对象分割，避免使用光流模型，空间分割分支基于来自时间一致分支的预测外观和运动信息来准确地分割对象实例，并且在空间分割分支中的多尺度特征图上迭代地应用粗到细的过程以改进预测，并且整体训练好后，在进行视频目标分割时，不需要调整模型，从而能够快速的得到视频目标分割结果，不需要依赖光流标注信息来训练光流模型，节省人力资源，提高视频分割准确度。

附图说明

图1是本发明的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

使用ResNet-101网络，前部均为卷积层，并且最后三个为反卷积层；使用三个跳过连接来连接低位图层功能以保留每个决议中的时空信息；输入为N幅连续的帧(I_t-N，I_t-(N-1)，……，I_t-1)，输出为预测的当前帧的图像I；并将此步骤设置为时间一致性分支。

使用ResNet-101网络，其中均为卷积层；并且使用步长为1的空洞卷积替换卷积最后两个残余块中的层；使用金字塔池化模型来利用全局不同区域上下文信息；并将此步骤设置为空间分割分支。

预训练时间一致性分支，使用对抗性方式通过预测未来帧来训练时间一致性分支，具体包括：将时间相干分支设置为生成器G，并构造鉴别器D以从G和真实视频帧中识别所生成的视频帧；并且使用预训练的Inception-v3网络，最后一个完全连接(FC)层被随机初始化的2级FC层替换为鉴别器D；并且利用对抗性损失函数及视频帧预测损失函数和已有视频数据集如ILSVRC 2015 VID来训练该网络。

预训练空间分割分支，使用现在图像分割数据集如PASCAL VOC 2012或显著性物体数据集如MSRA10K来预训练空间分割网络。

时间一致分支以对抗方式预训练，用于预测视频序列中的外观和运动信息以引导对象分割，避免使用光流模型，空间分割分支基于来自时间一致分支的预测外观和运动信息来准确地分割对象实例，并且在空间分割分支中的多尺度特征图上迭代地应用粗到细的过程以改进预测，并且整体训练好后，在进行视频目标分割时，不需要调整模型，从而能够快速的得到视频目标分割结果，不需要依赖光流标注信息来训练光流模型，节省人力资源，提高视频分割准确度。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于时空卷积神经网络的视频目标分割方法，其特征在于，包括：

2.如权利要求1所述的一种基于时空卷积神经网络的视频目标分割方法，其特征在于，还包括：

3.如权利要求2所述的一种基于时空卷积神经网络的视频目标分割方法，其特征在于，还包括：

4.如权利要求3所述的一种基于时空卷积神经网络的视频目标分割方法，其特征在于，还包括：