CN110222595A - 一种基于时空卷积神经网络的视频目标分割方法 - Google Patents

一种基于时空卷积神经网络的视频目标分割方法 Download PDF

Info

Publication number
CN110222595A
CN110222595A CN201910421126.9A CN201910421126A CN110222595A CN 110222595 A CN110222595 A CN 110222595A CN 201910421126 A CN201910421126 A CN 201910421126A CN 110222595 A CN110222595 A CN 110222595A
Authority
CN
China
Prior art keywords
space
branch
time
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910421126.9A
Other languages
English (en)
Inventor
李国荣
徐凯
黄庆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN201910421126.9A priority Critical patent/CN110222595A/zh
Publication of CN110222595A publication Critical patent/CN110222595A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉的技术领域,特别是涉及一种基于时空卷积神经网络的视频目标分割方法,其不需要依赖光流标注信息来训练光流模型,节省人力资源,提高视频分割准确度;包括:使用ResNet‑101网络,前部均为卷积层,并且最后三个为反卷积层;使用三个跳过连接来连接低位图层功能以保留每个决议中的时空信息;输入为N幅连续的帧(It‑N,It‑(N‑1),……,It‑1),输出为预测的当前帧的图像I;并将此步骤设置为时间一致性分支;使用ResNet‑101网络,其中均为卷积层;并且使用步长为1的空洞卷积替换卷积最后两个残余块中的层;使用金字塔池化模型来利用全局不同区域上下文信息;并将此步骤设置为空间分割分支。

Description

一种基于时空卷积神经网络的视频目标分割方法
技术领域
本发明涉及计算机视觉的技术领域,特别是涉及一种基于时空卷积神经网络的视频目标分割方法。
背景技术
视频对象分割(VOS)是许多视频分析任务的关键步骤,如视频摘要,视频编辑和场景理解。VOS旨在从视频剪辑中提取前景对象。现有的VOS方法可以根据人类参与的程度分为两种设置,即无监督和半监督。无监督的VOS方法不需要任何手动注释,而半监督方法依赖于第一帧中对象的带注释的掩码以保持对象分割结果的时间关联。
现有的方法通常使用光流来模拟整个时间内的像素一致性以获得平滑度。然而,光流标注是一项艰巨的任务,需要大量人力,此外光流估计非常难,因此光流估计的结果往往准确较差。
发明内容
为解决上述技术问题,本发明提供一种不需要依赖光流标注信息来训练光流模型,节省人力资源,提高视频分割准确度的基于时空卷积神经网络的视频目标分割方法。
本发明的一种基于时空卷积神经网络的视频目标分割方法,包括:
使用ResNet-101网络,前部均为卷积层,并且最后三个为反卷积层;使用三个跳过连接来连接低位图层功能以保留每个决议中的时空信息;输入为N幅连续的帧(It-N,It-(N-1),……,It-1),输出为预测的当前帧的图像I;并将此步骤设置为时间一致性分支;
使用ResNet-101网络,其中均为卷积层;并且使用步长为1的空洞卷积替换卷积最后两个残余块中的层;使用金字塔池化模型来利用全局不同区域上下文信息;并将此步骤设置为空间分割分支;
使用元素添加来利用高级上下文,并连接时间相干特征以集成时间约束;使用来自先前粗尺度特征图的预测掩模来指导网络的集中,即使用逐元素乘法来掩盖中的特征映射;增强对象区域周围的特征,使网络逐渐集中在对象区域以获得准确的结果;并将此步骤设置为特征融合。
本发明的一种基于时空卷积神经网络的视频目标分割方法,还包括:
预训练时间一致性分支,使用对抗性方式通过预测未来帧来训练时间一致性分支,具体包括:将时间相干分支设置为生成器G,并构造鉴别器D以从G和真实视频帧中识别所生成的视频帧;并且使用预训练的Inception-v3网络,最后一个完全连接(FC)层被随机初始化的2级FC层替换为鉴别器D;并且利用对抗性损失函数及视频帧预测损失函数和已有视频数据集训练该网络。
本发明的一种基于时空卷积神经网络的视频目标分割方法,还包括:
预训练空间分割分支,使用现有的图像分割数据集或显著性物体数据集来预训练空间分割分支。
本发明的一种基于时空卷积神经网络的视频目标分割方法,还包括:
线下迭代训练整个时空卷积网络,并利用DAVIS2016训练数据集来微调整体的参数,并且迭代训练时间一致性分支和空间分割分支:保持空间分割分支的参数固定不变,优化时间一致性分支的参数;之后保持时间一致网络的参数不变,优化空间分割分支。
本发明的有益效果为:时间一致分支以对抗方式预训练,用于预测视频序列中的外观和运动信息以引导对象分割,避免使用光流模型,空间分割分支基于来自时间一致分支的预测外观和运动信息来准确地分割对象实例,并且在空间分割分支中的多尺度特征图上迭代地应用粗到细的过程以改进预测,并且整体训练好后,在进行视频目标分割时,不需要调整模型,从而能够快速的得到视频目标分割结果,不需要依赖光流标注信息来训练光流模型,节省人力资源,提高视频分割准确度。
附图说明
图1是本发明的示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
使用ResNet-101网络,前部均为卷积层,并且最后三个为反卷积层;使用三个跳过连接来连接低位图层功能以保留每个决议中的时空信息;输入为N幅连续的帧(It-N,It-(N-1),……,It-1),输出为预测的当前帧的图像I;并将此步骤设置为时间一致性分支。
使用ResNet-101网络,其中均为卷积层;并且使用步长为1的空洞卷积替换卷积最后两个残余块中的层;使用金字塔池化模型来利用全局不同区域上下文信息;并将此步骤设置为空间分割分支。
使用元素添加来利用高级上下文,并连接时间相干特征以集成时间约束;使用来自先前粗尺度特征图的预测掩模来指导网络的集中,即使用逐元素乘法来掩盖中的特征映射;增强对象区域周围的特征,使网络逐渐集中在对象区域以获得准确的结果;并将此步骤设置为特征融合。
预训练时间一致性分支,使用对抗性方式通过预测未来帧来训练时间一致性分支,具体包括:将时间相干分支设置为生成器G,并构造鉴别器D以从G和真实视频帧中识别所生成的视频帧;并且使用预训练的Inception-v3网络,最后一个完全连接(FC)层被随机初始化的2级FC层替换为鉴别器D;并且利用对抗性损失函数及视频帧预测损失函数和已有视频数据集如ILSVRC 2015 VID来训练该网络。
预训练空间分割分支,使用现在图像分割数据集如PASCAL VOC 2012或显著性物体数据集如MSRA10K来预训练空间分割网络。
线下迭代训练整个时空卷积网络,并利用DAVIS2016训练数据集来微调整体的参数,并且迭代训练时间一致性分支和空间分割分支:保持空间分割分支的参数固定不变,优化时间一致性分支的参数;之后保持时间一致网络的参数不变,优化空间分割分支。
时间一致分支以对抗方式预训练,用于预测视频序列中的外观和运动信息以引导对象分割,避免使用光流模型,空间分割分支基于来自时间一致分支的预测外观和运动信息来准确地分割对象实例,并且在空间分割分支中的多尺度特征图上迭代地应用粗到细的过程以改进预测,并且整体训练好后,在进行视频目标分割时,不需要调整模型,从而能够快速的得到视频目标分割结果,不需要依赖光流标注信息来训练光流模型,节省人力资源,提高视频分割准确度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (4)

1.一种基于时空卷积神经网络的视频目标分割方法,其特征在于,包括:
使用ResNet-101网络,前部均为卷积层,并且最后三个为反卷积层;使用三个跳过连接来连接低位图层功能以保留每个决议中的时空信息;输入为N幅连续的帧(It-N,It-(N-1),……,It-1),输出为预测的当前帧的图像I;并将此步骤设置为时间一致性分支;
使用ResNet-101网络,其中均为卷积层;并且使用步长为1的空洞卷积替换卷积最后两个残余块中的层;使用金字塔池化模型来利用全局不同区域上下文信息;并将此步骤设置为空间分割分支;
使用元素添加来利用高级上下文,并连接时间相干特征以集成时间约束;使用来自先前粗尺度特征图的预测掩模来指导网络的集中,即使用逐元素乘法来掩盖中的特征映射;增强对象区域周围的特征,使网络逐渐集中在对象区域以获得准确的结果;并将此步骤设置为特征融合。
2.如权利要求1所述的一种基于时空卷积神经网络的视频目标分割方法,其特征在于,还包括:
预训练时间一致性分支,使用对抗性方式通过预测未来帧来训练时间一致性分支,具体包括:将时间相干分支设置为生成器G,并构造鉴别器D以从G和真实视频帧中识别所生成的视频帧;并且使用预训练的Inception-v3网络,最后一个完全连接(FC)层被随机初始化的2级FC层替换为鉴别器D;并且利用对抗性损失函数及视频帧预测损失函数和已有视频数据集训练该网络。
3.如权利要求2所述的一种基于时空卷积神经网络的视频目标分割方法,其特征在于,还包括:
预训练空间分割分支,使用现有的图像分割数据集或显著性物体数据集来预训练空间分割分支。
4.如权利要求3所述的一种基于时空卷积神经网络的视频目标分割方法,其特征在于,还包括:
线下迭代训练整个时空卷积网络,并利用DAVIS2016训练数据集来微调整体的参数,并且迭代训练时间一致性分支和空间分割分支:保持空间分割分支的参数固定不变,优化时间一致性分支的参数;之后保持时间一致网络的参数不变,优化空间分割分支。
CN201910421126.9A 2019-05-20 2019-05-20 一种基于时空卷积神经网络的视频目标分割方法 Pending CN110222595A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910421126.9A CN110222595A (zh) 2019-05-20 2019-05-20 一种基于时空卷积神经网络的视频目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910421126.9A CN110222595A (zh) 2019-05-20 2019-05-20 一种基于时空卷积神经网络的视频目标分割方法

Publications (1)

Publication Number Publication Date
CN110222595A true CN110222595A (zh) 2019-09-10

Family

ID=67821564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910421126.9A Pending CN110222595A (zh) 2019-05-20 2019-05-20 一种基于时空卷积神经网络的视频目标分割方法

Country Status (1)

Country Link
CN (1) CN110222595A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291663A (zh) * 2020-01-22 2020-06-16 中山大学 一种利用时空信息的快速视频目标物体分割方法
CN111582483A (zh) * 2020-05-14 2020-08-25 哈尔滨工程大学 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN113065650A (zh) * 2021-04-02 2021-07-02 中山大学 一种长期记忆学习的多通道神经网方法
CN113591868A (zh) * 2021-07-30 2021-11-02 南开大学 一种基于全双工策略的视频目标分割方法及***
CN114764811A (zh) * 2022-03-14 2022-07-19 什维新智医疗科技(上海)有限公司 一种基于动态超声视频的病灶区域实时分割装置
CN115442660A (zh) * 2022-08-31 2022-12-06 杭州影象官科技有限公司 自监督对抗视频摘要提取方法及装置
CN115695950A (zh) * 2023-01-04 2023-02-03 石家庄铁道大学 一种基于内容感知的视频摘要生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833184A (zh) * 2017-10-12 2018-03-23 北京大学深圳研究生院 一种基于多曝光生成再融合框架的图像增强方法
CN107844797A (zh) * 2017-09-27 2018-03-27 华南农业大学 一种基于深度图像的哺乳母猪姿态自动识别的方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108388925A (zh) * 2018-03-06 2018-08-10 天津工业大学 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法
CN108510535A (zh) * 2018-03-14 2018-09-07 大连理工大学 一种基于深度预测和增强子网络的高质量深度估计方法
CN108764298A (zh) * 2018-04-29 2018-11-06 天津大学 基于单分类器的电力图像环境影响识别方法
CN109583340A (zh) * 2018-11-15 2019-04-05 中山大学 一种基于深度学习的视频目标检测方法
CN109711426A (zh) * 2018-11-16 2019-05-03 中山大学 一种基于gan和迁移学习的病理图片分类装置及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844797A (zh) * 2017-09-27 2018-03-27 华南农业大学 一种基于深度图像的哺乳母猪姿态自动识别的方法
CN107833184A (zh) * 2017-10-12 2018-03-23 北京大学深圳研究生院 一种基于多曝光生成再融合框架的图像增强方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108388925A (zh) * 2018-03-06 2018-08-10 天津工业大学 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法
CN108510535A (zh) * 2018-03-14 2018-09-07 大连理工大学 一种基于深度预测和增强子网络的高质量深度估计方法
CN108764298A (zh) * 2018-04-29 2018-11-06 天津大学 基于单分类器的电力图像环境影响识别方法
CN109583340A (zh) * 2018-11-15 2019-04-05 中山大学 一种基于深度学习的视频目标检测方法
CN109711426A (zh) * 2018-11-16 2019-05-03 中山大学 一种基于gan和迁移学习的病理图片分类装置及方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JAE SHIN YOON等: "Pixel-Level Matching for Video Object Segmentation using Convolutional Neural Networks", 《ARXIV:1708.05137V1》 *
JINGCHUN CHENG等: "Learning to Segment Instances in Videos with Spatial Propagation Network", 《ARXIV:1709.04609V1》 *
K V SAI SUNDAR等: "Evaluating Training Time of Inception-v3 and Resnet-50,101Models using TensorFlow across CPU and GPU", 《2018 SECOND INTERNATIONAL CONFERENCE ON ELECTRONICS,COMMUNICATION AND AEROSPACE TECHNOLOGY (ICECA)》 *
KAI XU等: "Spatiotemporal CNN for Video Object Segmentation", 《ARXIV:1904.02363V1》 *
杨超宇: "基于计算机视觉的目标检测跟踪及特征分类研究", 《中国博士学位论文全文数据库 信息科技辑》 *
王春峰 等: "《基于卷积神经网络的时空融合的无参考视频质量评价方法》", 《中国科学院大学学报》 *
邓志新 等: "基于时空双流全卷积网络的视频目标分割算法研究及改进", 《工业控制计算机》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291663A (zh) * 2020-01-22 2020-06-16 中山大学 一种利用时空信息的快速视频目标物体分割方法
CN111291663B (zh) * 2020-01-22 2023-06-20 中山大学 一种利用时空信息的快速视频目标物体分割方法
CN111582483A (zh) * 2020-05-14 2020-08-25 哈尔滨工程大学 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN113065650A (zh) * 2021-04-02 2021-07-02 中山大学 一种长期记忆学习的多通道神经网方法
CN113065650B (zh) * 2021-04-02 2023-11-17 中山大学 一种基于长期记忆学习的多通道神经网络实例分隔方法
CN113591868A (zh) * 2021-07-30 2021-11-02 南开大学 一种基于全双工策略的视频目标分割方法及***
CN113591868B (zh) * 2021-07-30 2023-09-01 南开大学 一种基于全双工策略的视频目标分割方法及***
CN114764811A (zh) * 2022-03-14 2022-07-19 什维新智医疗科技(上海)有限公司 一种基于动态超声视频的病灶区域实时分割装置
CN115442660A (zh) * 2022-08-31 2022-12-06 杭州影象官科技有限公司 自监督对抗视频摘要提取方法及装置
CN115442660B (zh) * 2022-08-31 2023-05-19 杭州影象官科技有限公司 自监督对抗视频摘要提取方法、装置、设备和存储介质
CN115695950A (zh) * 2023-01-04 2023-02-03 石家庄铁道大学 一种基于内容感知的视频摘要生成方法
CN115695950B (zh) * 2023-01-04 2023-03-28 石家庄铁道大学 一种基于内容感知的视频摘要生成方法

Similar Documents

Publication Publication Date Title
CN110222595A (zh) 一种基于时空卷积神经网络的视频目标分割方法
CN110111366A (zh) 一种基于多级损失量的端到端光流估计方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
CN110084836A (zh) 基于深度卷积特征分层响应融合的目标跟踪方法
CN106469314A (zh) 一种基于时空共生双流网络的视频图像分类方法
CN110765854A (zh) 一种视频动作识别方法
CN111368846A (zh) 一种基于边界语义分割的道路积水识别方法
CN112258557B (zh) 一种基于空间注意力特征聚合的视觉跟踪方法
CN110008961A (zh) 文字实时识别方法、装置、计算机设备及存储介质
CN104484040A (zh) 一种多媒体互动教学控制***及教学控制方法
CN113052755A (zh) 一种基于深度学习的高分辨率图像智能化抠图方法
CN111582342A (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN112990222A (zh) 一种基于图像边界知识迁移的引导语义分割方法
CN110348492A (zh) 一种基于上下文信息及多特征融合的相关滤波目标跟踪方法
CN111581568B (zh) 一种网页端人物换背景的方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN108595014A (zh) 一种基于视觉的实时动态手势识别***及方法
CN111626296A (zh) 基于深度神经网络的医学图像分割***及方法、终端
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法
Boutin et al. Diffusion models as artists: are we closing the gap between humans and machines?
CN117137435B (zh) 一种基于多模态信息融合的康复动作识别方法和***
CN106096615A (zh) 一种基于随机游走的图像显著区域提取方法
CN115546491A (zh) 一种跌倒报警方法、***、电子设备及存储介质
CN115690115A (zh) 一种基于重建预训练的肺部医学图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910