CN115565108A - 一种基于解耦自监督的视频伪装和显著性对象检测方法 - Google Patents

一种基于解耦自监督的视频伪装和显著性对象检测方法 Download PDF

Info

Publication number
CN115565108A
CN115565108A CN202211232708.0A CN202211232708A CN115565108A CN 115565108 A CN115565108 A CN 115565108A CN 202211232708 A CN202211232708 A CN 202211232708A CN 115565108 A CN115565108 A CN 115565108A
Authority
CN
China
Prior art keywords
video
supervision
self
training
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211232708.0A
Other languages
English (en)
Inventor
黄明江
李文丽
孙德生
薛豪奇
赵鑫
陈伟
邢星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuchang University
Original Assignee
Xuchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuchang University filed Critical Xuchang University
Priority to CN202211232708.0A priority Critical patent/CN115565108A/zh
Publication of CN115565108A publication Critical patent/CN115565108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于解耦自监督的视频伪装和显著性对象检测方法,包括以下步骤:1,构建了一种自监督形式的帧路由机制,可以帮助网络识别出一段视频中哪些视频帧的运动信息丰富,哪些视频帧的运动信息不丰富。2,构建自监督形式的运动分割网络和图像分割网络,当某帧视频中的运动信息充分时,利用运动分割网络来检测伪装/显著对象;当某帧中的运动信息不充分时,利用图像分割网络来检测伪装/显著对象;3,本文搭建的解耦自监督网络框架,可以同时完成视频伪装对象和显著对象的检测,而且不依赖任何数据标注。

Description

一种基于解耦自监督的视频伪装和显著性对象检测方法
技术领域
本发明涉及一种视频伪装和显著性对象检测方法,特别是一种基于解耦自监督的视频伪装和显著性对象检测方法。
背景技术
近年来,随着深度卷积网络的快速发展,伪装和显著性对象检测取得了极大的突破。相比传统伪装和显著性对象检测算法,基于深度学习的伪装和显著性对象检测方法在准确率上获得了大幅提升,且基于深度学习的方法能够通过深度神经网络获取图像的高层语义信息,利用这些信息能够更准确地检测出视频中的伪装和显著对象。例如文献XiankaiLu,Wenguan Wang,Chao Ma,Jianbing Shen,Ling Shao,and FatihPorikli,“See More,Know More:Unsupervised Video Object Segmentation With Co-Attention SiameseNetworks”,in CVPR,2019,文献HalaLamdouar,Charig Yang,WeidiXie,and AndrewZisserman,“Betrayedby Motion:Camouflaged Object Discovery via MotionSegmentation”,in ACCV,2020,以及文献Miao Zhang,Jie Liu,Yifei Wang,Yongri Piao,Shunyu Yao,Wei Ji,Jingjing Li,Huchuan Lu,and Zhongxuan Luo,“Dynamic Context-Sensitive FilteringNetwork for Video Salient Object Detection”,in ICCV,2021,都在尝试设计各种卷积神经网络,从而充分利用视频序列中的运动信息和上下文信息,通过直接结合这两种信息,从而得到一个比较鲁棒的检测结果。
虽然上述方法对网络结构的改进能够进一步提升伪装和显著性对象检测的准确率,但是这些方法的缺陷就是无法正确识别出一段视频序列中哪些帧的运动信息是不充分的,而直接将这些不充分的光流信息和上下文信息融合,会降低网络的检测性能。所以,为了解决这个问题,本文提出了解耦的思想,不是直接融合上下文信息和运动信息完成检测,而是设计了两个独立的网络,分别利用视频序列中的光流信息和上下文信息完成检测。同时为了进一步拓宽网络的使用场景,本文设计了一种自监督形式的网络模型,使得本文提出的网络模型不需要标注数据就可以完成检测任务。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于解耦自监督的视频伪装和显著性对象检测方法。
为了解决上述技术问题,本发明公开了一种基于解耦自监督的视频伪装和显著性对象检测方法。
本发明公开的方法首先设计了一种帧路由机制,从而正确识别出一段视频序列中哪些帧的运动信息是不充分的,那些帧的运动信息是充分的。同时,本文设计两个独立的网络,运动分割网络和图像分割网络。其中,运动分割网络用于处理光流信息充足的视频帧,输入这些视频帧的光流信息得到对应的检测结果。而图像分割网络用于处理光流信息不充足的视频帧,输入这些视频帧的RGB图像信息,得到对应的检测结果。
本发明具体步骤如下:
步骤1,构建解耦自监督的视频伪装和显著性对象检测模型;所述模型包括:自适应帧路由机制、运动分割网络和图像分割网络;
其中,所述自适应帧路由机制,对目标视频中,视频帧的运动信息进行充分性判断;
将由所述自适应帧路由机制选择出的运动信息充分的视频帧,送入所述运动分割网络进行处理;将由所述自适应帧路由机制选择出的运动信息不充分的视频帧,送入所述图像分割网络进行处理;
将运动分割网络和图像分割网络的处理结果拼合到一起,得到所述目标视频中视频帧的对应检测结果;
步骤2,对所述解耦自监督的视频伪装和显著性对象检测模型进行训练:将伪装和显著性对象训练视频集输入到所述的解耦自监督的视频伪装和显著性对象检测模型中,训练自适应帧路由机制、运动分割网络和图像分割网络,并对所述解耦自监督的视频伪装和显著性对象检测模型进行迭代优化;
步骤3,将待测目标视频输入到训练好的解耦自监督的视频伪装和显著性对象检测模型中进行检测,完成基于解耦自监督的视频伪装和显著性对象检测。
步骤1中所述的自适应帧路由机制AFR的训练和构建方法,包括以下步骤:
步骤1-1,生成用于训练自适应帧路由机制AFR的训练样本;
步骤1-2,训练自适应帧路由机制AFR;
步骤1-3,用训练完成的自适应帧路由机制AFR来识别目标视频中每一帧的运动信息是否充分。
步骤1-1中所述的训练样本,包括:容易分解的光流图EDP帧,这些帧中包含的光流信息比较清晰,因此比较容易分解;以及不容易分解的光流图HDP帧,这些帧中的光流信息比较杂乱,不易被分解;
其中,对于容易分解的光流图EDP(Easily Decomposed)帧,直接取自训练集中的视频对应的光流图,因为训练集中大部分的视频帧的运动信息都是充分的,也是易于分解的;对于不容易分解的光流图HDP(Hardly Decomposed)帧,则通过一个伪动作生成模块PMG(Pseudo Motion Generation)生成,所述生成过程包括:
选择一张静态图片作为输入图像,裁剪出一个序列u′∈RN×L×L,N和L分别为裁剪出的序列帧数和图像尺寸,R表示序列u的分辨率;速度参数a=(vx,vy)决定裁剪出的帧在水平和垂直方向的移动距离;水平方向的移动速度vx和垂直方向的移动速度vy从集合S={-K,…,-1,0,1,…,K}中选择;其中K表示速度的最大值;
对于大小为H×W的输入图像,移动距离
Figure BDA0003882111240000031
定义为:
Figure BDA0003882111240000032
Figure BDA0003882111240000033
其中,Dx表示水平x方向上的位移,Dy表示垂直y方向上的位移;
在所述输入图像上随机选择裁剪起点pstart,则裁剪终点为
Figure BDA0003882111240000034
通过裁剪得到图像序列u′;最后,使用现有的光流检测算法将图像序列u′转化为光流序列u′f,得到不容易分解的光流图HDP帧。
经过以上步骤,得到了一系列HDP帧和EDP帧,用来训练AFR。值得注意的是,如果一帧视频的运动信息是充分的,那么其对应的光流图就是易于分解的。如果运动信息不充分,那么其对应的光流图也是难以分解的。所以,通过使用HDP帧和EDP帧训练AFR后,AFR便可以判断某帧图像的运动信息是否充分
步骤1-2中所述的训练自适应帧路由机制AFR的方法包括:
使用非对称损失训练所述自适应帧路由机制AFR,非对称损失定义为:
Lq(u)=[(a+1)b-(a+u)b]/b
其中第一参数a=1和第二参数b=2;u是交叉熵损失,表示为:
Figure BDA0003882111240000041
其中,y表示某一个训练样本的真实标签,
Figure BDA0003882111240000042
表示某一个训练样本的预测标签。
步骤1-3中所述的识别方法包括:
所述解耦自监督的视频伪装和显著性对象检测模型的输入是一个视频序列
Figure BDA0003882111240000043
Figure BDA0003882111240000044
及其对应的光流序列
Figure BDA0003882111240000045
其中,Ta为输入的帧数,H和W为输入帧的图像大小,
Figure BDA0003882111240000046
表示视频帧的分辨率大小;
利用所述自适应帧路由机制AFR,选择出包含充足运动信息的帧
Figure BDA0003882111240000047
以及运动信息不充足的帧
Figure BDA0003882111240000048
其中Ta=Tm+Tc;Tm表示运动信息充足帧的数量,Tc表示运动信息不充足帧的数量。
步骤1中所述的运动分割网络和图像分割网络的构建方法,包括如下步骤:
步骤1-4,构建运动分割网络MS;用于从运动表示中分割前景对象;
步骤1-5,构建图像分割网络CS;用于从RGB图像中分割前景对象。
步骤1-4中所述的运动分割网络MS包含三个组件:卷积神经网络(ConvolutionalNeural Networks,CNN,卷积神经网络)编码器,用于提取特征表示;生成模型,用于生成前景和背景表示;CNN解码器,用于解码前景和背景表示到最终输出;
设Xf为单张光流图,首先将光流图Xf发送到一个CNN编码器φenc,输出一个低分辨率的特征:
Figure BDA0003882111240000049
其中,H0和W0分别表示输出特征的空间维度,D表示通道尺寸;
对于该特征F,更新查询向量
Figure BDA00038821112400000410
共T次,其中
Figure BDA00038821112400000411
表示第t次更新后的查询向量,q∈[0,1]是与该查询嵌入相关的类别,0表示背景,1表示前景;查询向量是可学习的,并使用随机权值进行初始化;
Figure BDA00038821112400000412
其中,μ和σ为高斯分布的均值和方差,d为权值向量的大小;用Z(t)∈R2×d来表示所有类别的查询向量;在之后的过程中,
Figure BDA0003882111240000051
Figure BDA0003882111240000052
作为一个整体Z(t)同时被更新;
查询向量Z(t+1)使用特征F和Z(t)进行更新;
首先,使用1×1的卷积层来减少F的通道,并使F的空间维度变平,得到特征F′:
Figure BDA0003882111240000053
其中,特征长度L=H0×W0;同时,将位置向量添加到F′中来增强空间信息的提取;即
Figure BDA0003882111240000054
其中PE是位置向量,
Figure BDA0003882111240000055
是将位置向量添加到F′后新的特征表示;然后使用两个多层感知器MLP层
Figure BDA0003882111240000056
Figure BDA0003882111240000057
每个层都有三个全连接层层和修正线性单元层;使用自注意力机制计算查询值query,健值key:
Figure BDA0003882111240000058
经过归一化指数函数Softmax函数获得注意图A(t)
Figure BDA0003882111240000059
Attention机制通过以下方法计算空间维度上的特征的加权和:
Figure BDA00038821112400000510
查询向量Z(t)最终通过循环门单元GRU(Gate Recurrent Unit,GRU,循环门单元)更新为:
Z(t+1)=GRU(U(t),Z(t))
记U(t)和Z(t)为输入状态和隐藏状态;对生成模型进行迭代3次,输出为O:
Figure BDA00038821112400000511
其中,
Figure BDA00038821112400000512
表示前景查询向量,
Figure BDA00038821112400000513
表示背景查询向量;在解码过程中,这两个向量被广播到一个空间位置编码的二维网格上;
最后,CNN解码器φdec分别解码{Of,Ob}到原始分辨率:
Figure BDA00038821112400000514
Figure BDA00038821112400000515
其中,
Figure BDA0003882111240000061
是重建的光流场,
Figure BDA0003882111240000062
是重建出来的前景光流场,
Figure BDA0003882111240000063
是重建出来的背景光流场。αfore是前景光流场对应的MASK图像,αback是背景光流场对应的MASK图像。最终的重建出来的图可以表示为:
Figure BDA0003882111240000064
其中,对{αforeback}使用Softmax来确保αforeback=1;MS分支以自监督的形式完成训练,损失函数包含包括重构损失Lrec和熵正则化损失Lent
Figure BDA0003882111240000065
Lent(Lent的目的是让掩模是二进制的,可以得到最终的分割结果。)被定义为:
Lent=-(αfore·log(αfore))+(1-αbacb)·log(1-αback)
alpha掩模α为独热编码码形式;当αfore和αback能够明确表示前景和背景时,Lent为零;当αfore和αback无法表示前景和背景,而且他们表示的值相近Lent为最大;
最终,通过以上的训练方式,得到序列XF对应的结果OF
步骤1-5中所述的图像分割网络CS的输入为视频序列XR,通过单图像伪装对象检测方法(参考:YunqiuLv,Jing Zhang,Yuchao Dai,Aixuan Li,Bowen Liu,Nick Barnes,and Dengping Fan,“Simultaneously localize,segment and rank the camouflagedobjects,”in CVPR,2021.)或者单图像显著对象检测方法(参考:Qibin Hou,Ming-MingCheng,Xiaowei Hu,Ali Borji,and Zhuowen Tu,“Deeply supervised salient objectdetection with short connections,”TPAMI,2019)输出为OR
步骤2所述的对解耦自监督的视频伪装和显著性对象检测模型进行训练的方法,包括:
步骤2-1,数据预处理:将要输入到对解耦自监督的视频伪装和显著性对象检测模型的伪装和显著性对象训练集进行随机翻转和随机裁剪的数据增强;
步骤2-2,使用一个伪动作生成模块PMG模块成数据训练AFR分类器,使其能区分一段视频信息包含的运动信息是否充分;
对于运动分割网络MS进行自监督训练,使其能根据光流图完成完整准确的物体检测;
使用运动分割网络MS的生成结果对图像分割网络CS块进行监督训练,使图像分割网络CS能通过RGB图像完成完整准确的物体检测;
利用运动分割网络MS和图像分割网络CS的结果相互交叉监督,使得网络逐渐能够生成完整和准确的伪装和显著性对象图,往复训练网络多轮后保存最终的网络模型参数。
步骤3中所述的将待测目标视频输入到训练好的解耦自监督的视频伪装和显著性对象检测模型中进行检测的方法包括:将待测目标图像输入至训练好的解耦自监督的视频伪装和显著性对象检测模型中进行推理,得到对应的伪装和显著性对象分割图像。
有益效果:
本文提出了解耦的思想,不是直接融合上下文信息和运动信息完成检测,而是设计了两个独立的网络,分别利用视频序列中的光流信息和上下文信息完成检测。同时为了进一步拓宽网络的使用场景,本文设计了一种自监督形式的网络模型,使得本文提出的网络模型不需要标注数据就可以完成检测任务。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的处理流程示意图。
图2是伪运动生成过程示意图。
图3是本发明的检测结果示意图。
具体实施方式
一种基于解耦自监督的视频伪装和显著性对象检测方法,如图1所示,包括如下步骤:
步骤1,构建自适应帧路由机制(AFR):搭建自适应帧路由机制,区分一段视频中,哪些视频帧的运动信息不充分,那些视频帧的运动信息充分;
步骤2,构建运动分割网络和图像分割网络:利用步骤1中的AFR机制,选择出运动信息充分的视频帧,送入运动分割网络。同时,利用AFR选择出运动信息不充分的视频帧,送入图像分割网络。最后,将运动分割网络和图像分割网络的结果拼合到一起,得到一段视频帧的检测结果;
步骤3,本文提出的解耦自监督的视频伪装和显著性对象检测模型,分为训练阶段和测试阶段:在模型训练阶段,将一段伪装和显著性对象训练视频集输入到解耦自监督网络中,从而训练帧路由机制(AFR),运动分割网络和图像分割网络。在模型的测试阶段,将需要检测的包含显著/伪装对象的视频输入到训练好的模型中,得到对应的显著/伪装对象检测结果;
其中,步骤1包括以下步骤:
步骤1-1,生成用于训练AFR的训练样本。
本文使用光流信息来代表每一个样本的运动信息,其中,某一个帧的运动信息充足时候,其对应的光流图是容易分解的(EDP)。而如果某一帧的运动信息不充足的时候,其对应的光流图是不容易分解的(HDP)。所以,为了训练AFR,本文需要创建其对应的训练样本。对于EDP帧,直接取自训练视频对应的光流图;HDP帧通过一个全新的伪动作生成模块(PMG)生成,过程如图2所示。PMG的具体流程如下所示:
选择一张静态图片和速度参数s,从中裁剪出一个序列u∈RN×L×L,N和L分别为裁剪出的序列帧数和图像尺寸。速度参数s=(vx,vy)决定裁剪出的帧在水平和垂直方向的移动距离。vx、vy从集合S={-K,…,-1,0,1,…,K}中选择。其中K表示速度的最大值。
对于大小为H×W的输入图像,移动距离
Figure BDA0003882111240000081
定义为:
Figure BDA0003882111240000082
Figure BDA0003882111240000083
然后,在图像上随机选择裁剪起点pstart,则裁剪终点为pend=pstart+D。裁剪出序列u后,将序列u覆盖在原图的pstart位置上得到序列u′∈RN×H×W。最后,使用RAFT将图像序列u′转化为光流序列u′f,从而得到HDP帧。最后,我们使用非对称损失训练AFR,它被定义为:
Lq(u)=[(a+1)b-(a+u)b]/b
其中a=1和b=2,u是交叉熵损失,可以表示为:
Figure BDA0003882111240000084
步骤1-2,用训练完成的AFR来识别一段视频中每一帧的运动信息是否充分。
所述解耦自监督网络模型的输入是一个视频序列
Figure BDA0003882111240000091
及其对应的光流序列
Figure BDA0003882111240000092
其中Ta为输入的帧数,H、W为输入帧的图像大小。我们利用AFR,选择出包含充足运动信息的帧
Figure BDA0003882111240000093
以及运动信息不充足的帧
Figure BDA0003882111240000094
Figure BDA0003882111240000095
其中Ta=Tm+Tc
步骤2包括如下步骤:
步骤2-1,构造运动分割网络MS,用于从运动表示中分割前景对象;
所述运动分割网络MS包含三个组件:1.CNN编码器提取特征表示;2.生成模型,
用于生成前景和背景表示;CNN解码器,分别解码前景和背景表示到最终输出。为了简化说明流程,我们以单张光流图Xf为例。首先将光流图Xf发送到一个CNN编
码器φenc,它输出一个低分辨率的特征:
Figure BDA0003882111240000096
其中,H0和W0分别表示输出特征的空间维度。D表示通道尺寸。
对于该特征F,我们提出的生成模型更新查询向量
Figure BDA0003882111240000097
供T次,其中
Figure BDA0003882111240000098
表示第t次更新后的查询向量,q∈[0,1]是与该查询嵌入相关的类别。“0”表示背景,“1”表示前景。查询向量是可学习的,并使用随机权值进行初始化:
Figure BDA0003882111240000099
其中,μ和σ为高斯分布的均值和方差,d为权值向量的大小。用Z(t)∈R2×d来表示所有类别的查询向量。在之后的过程中,
Figure BDA00038821112400000910
Figure BDA00038821112400000911
将作为一个整体Z(t)同时被更新。
查询向量Z(t+1)使用特征F和Z(t)进行更新。首先,使用1×1的卷积层来减少F的通道,并使F的空间维度变平,得到特征F′:
Figure BDA00038821112400000912
其中,L=H0×W0。同时,将位置向量添加到F′中来增强空间信息的提取。即
Figure BDA00038821112400000913
Figure BDA00038821112400000914
其中PE是位置向量。然后使用两个MLP层
Figure BDA00038821112400000915
Figure BDA00038821112400000916
每个层都有三个FC层和ReLU层。本设计是为了使self-attention机制计算query和key时具有更高的灵活性:
Figure BDA00038821112400000917
经过Softmax函数获得注意图A(t)
Figure BDA0003882111240000101
Attention机制通过以下方法计算空间维度上的特征的加权和:
Figure BDA0003882111240000102
查询向量Z(t)最终通过GRU更新为:
Z(t+1)=GRU(U(t),Z(t))
记U(t)和Z(t)为输入状态和隐藏状态。本文对生成模型进行迭代3次,输出为O:
Figure BDA0003882111240000103
其中,
Figure BDA0003882111240000104
表示前景查询向量,
Figure BDA0003882111240000105
表示背景查询向量。在解码过程中,这两个向量被广播到一个具有可学习的空间位置编码的二维网格上。
最后,CNN解码器φdec分别解码{Of,Ob}到原始分辨率:
Figure BDA0003882111240000106
Figure BDA0003882111240000107
其中,
Figure BDA0003882111240000108
是重建的光流场,αfore是对应的MASK图像。因此,最终的重建出的图像为:
Figure BDA0003882111240000109
其中,对{αforeback}使用Softmax来确保αforeback=1。为了使得MS分支可以以自监督的形式完成训练,损失函数包含包括重构损失Lrec和熵正则化损失Lent
Figure BDA00038821112400001010
Lenet的目的是让掩模是二进制的,我们可以得到最终的分割结果。Lent被定义为:
Lent=-(αfore·log(αfore))+(1-αbacb)·log(1-αback)
从这个损失中可以看出,当alpha掩模为独热码形式(one-hot)时,Lent将为零,当它们的概率相等时,Lent将为最大。最后,通过这种方式,本文可以得到序列XF对应的结果OF
步骤2-2,构造图像分割网络CS,用于从RGB图像中分割前景对象。
CS的输入为视频序列XR,通过现有的单图像伪装对象检测方法或者单图像显著对象检测方法方法输出为OR
步骤3包含了训练阶段和测试阶段:
步骤3-1,数据预处理:将要输入到解耦自监督网络的伪装和显著性对象训练集进行随机翻转和随机裁剪等数据增强;
步骤3-2,第一,使用PMG模块根生成数据训练AFR分类器,使其能区分一段视频信息包含的运动信息是否充分;第二,对于MS模块进行自监督训练,使其能根据光流图完成完整准确的物体检测。第三,使用MS模块的生成结果对CS模块进行监督训练,使CS模块能通过RGB图像完成完整准确的物体检测。第四,利用MS和CS的结果相互交叉监督,使得网络逐渐能够生成完整和准确的伪装和显著性对象图,往复训练网络多轮后保存最终的网络模型参数;
步骤3-3,模型框架测试:将图像输入至训练好的解耦自监督网络中进行推理,得到对应的伪装和显著性对象分割图像。
实施例:
一种基于解耦自监督的视频伪装和显著性对象检测方法,具体按照以下步骤实施如图1:
1、构建解耦自监督网络G:
输入:伪装或者显著性对象的视频集。
输出:对应的伪装或者显著性对象分割图像,以及损失函数。
1.1构建解耦自监督网络模型骨架来进行光流提取;
所述解耦自监督网络模型骨架提出的网络输入是一个视频序列
Figure BDA0003882111240000111
及其对应的光流序列
Figure BDA0003882111240000112
XF提取自光流估计算法RAFT。其中Ta为输入的帧数,H、W为输入帧的图像大小。
1.2设计自适应帧路由机制AFR来区分哪些帧的光流信息充足,哪些帧的光流信息不充足。光流信息充足的帧送入运动分割网络(MS),利用光流信息得到对应的分割结果。光流信息不充足的帧送入图像分割网络(CS),利用RGB图像信息得到对应的分割结果。然后利用分割结果,计算损失函数,进行参数优化。
2、整体框架训练;
基于双分支的深度学习卷积神经网络训练参数,包括数据预处理、模型框架训练及测试阶段。
3.1数据预处理;
将输入的伪装和显著性对象的视频集进行拉升、反转等调整后输入到解耦自监督网络中。
输入:伪装和显著性对象的视频集。
输出:数据增强后的伪装和显著性对象的视频集。
几何增强:平移,旋转,剪切等对图像几何改变的方法,可以增强模型的泛化能力;
3.2模型框架训练
输入:数据增强后的伪装和显著性对象的视频集
输出:伪装和显著性对象的视频集分割结果以及损失函数。
在训练过程中,可以使用batchsize为32,momentum为0.9,权重衰减为1e-5的小批量随机梯度下降(SGD)优化算法。学习率设置为1e-4,最大epoch设置为100。训练图像被调整到352×352作为整个网络的输入。
3.3模型框架测试;
输入:伪装和显著性对象的视频集;
输出:对应的伪装和显著性对象切割图像;
本发明中的模型检测效果如图3所示,一共展示了6个视频序列。其中,序列1到序列3代表显著性检测视频序列,序列4到序列6代表伪装检测视频序列。对于每一个序列,第一行代表输入的视频序列,第二行代表分割结果,第三行代表每帧视频的光流信息。其中前三列的光流信息充足,模型利用光流信息,在MS中完成分割,而后两列的视频信息运动不充足,模型利用RGB图片信息,在CS中完成分割。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于解耦自监督的视频伪装和显著性对象检测方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机。MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种基于解耦自监督的视频伪装和显著性对象检测方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,包括如下步骤:
步骤1,构建解耦自监督的视频伪装和显著性对象检测模型;所述模型包括:自适应帧路由机制、运动分割网络和图像分割网络;
其中,所述自适应帧路由机制,对目标视频中,视频帧的运动信息进行充分性判断;
将由所述自适应帧路由机制选择出的运动信息充分的视频帧,送入所述运动分割网络进行处理;将由所述自适应帧路由机制选择出的运动信息不充分的视频帧,送入所述图像分割网络进行处理;
将运动分割网络和图像分割网络的处理结果拼合到一起,得到所述目标视频中视频帧的对应检测结果;
步骤2,对所述解耦自监督的视频伪装和显著性对象检测模型进行训练:将伪装和显著性对象训练视频集输入到所述的解耦自监督的视频伪装和显著性对象检测模型中,训练自适应帧路由机制、运动分割网络和图像分割网络,并对所述解耦自监督的视频伪装和显著性对象检测模型进行迭代优化;
步骤3,将待测目标视频输入到训练好的解耦自监督的视频伪装和显著性对象检测模型中进行检测,完成基于解耦自监督的视频伪装和显著性对象检测。
2.根据权利要求1所述的一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,步骤1中所述的自适应帧路由机制AFR的训练和构建方法,包括以下步骤:
步骤1-1,生成用于训练自适应帧路由机制AFR的训练样本;
步骤1-2,训练自适应帧路由机制AFR;
步骤1-3,用训练完成的自适应帧路由机制AFR来识别目标视频中每一帧的运动信息是否充分。
3.根据权利要求2所述的一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,步骤1-1中所述的训练样本,包括:容易分解的光流图EDP帧和不容易分解的光流图HDP帧;
其中,对于容易分解的光流图EDP帧,直接取自训练集中的视频对应的光流图;对于不容易分解的光流图HDP帧,则通过一个伪动作生成模块PMG生成,所述生成过程包括:
选择一张静态图片作为输入图像,裁剪出一个序列u′∈RN×L×L,N和L分别为裁剪出的序列帧数和图像尺寸,R表示序列u的分辨率;速度参数s=(vx,vy)决定裁剪出的帧在水平和垂直方向的移动距离;水平方向的移动速度vx和垂直方向的移动速度vy从集合S={-K,...,-1,0,1,...,K}中选择;其中K表示速度的最大值;
对于大小为H×W的输入图像,移动距离
Figure FDA0003882111230000021
定义为:
Figure FDA0003882111230000022
Figure FDA0003882111230000023
其中,Dx表示水平x方向上的位移,Dy表示垂直y方向上的位移;
在所述输入图像上随机选择裁剪起点pstart,则裁剪终点为
Figure FDA0003882111230000024
通过裁剪得到图像序列u′;最后,将图像序列u′转化为光流序列u′f,得到不容易分解的光流图HDP帧。
4.根据权利要求3所述的一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,步骤1-2中所述的训练自适应帧路由机制AFR的方法包括:
使用非对称损失训练所述自适应帧路由机制AFR,非对称损失定义为:
Lq(u)=[(a+1)b-(a+u)b]/b
其中第一参数a=1和第二参数b=2;u是交叉熵损失,表示为:
Figure FDA0003882111230000025
其中,y表示某一个训练样本的真实标签,
Figure FDA0003882111230000026
表示某一个训练样本的预测标签。
5.根据权利要求4所述的一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,步骤1-3中所述的识别方法包括:
所述解耦自监督的视频伪装和显著性对象检测模型的输入是一个视频序列
Figure FDA0003882111230000027
Figure FDA0003882111230000028
及其对应的光流序列
Figure FDA0003882111230000029
其中,Ta为输入的帧数,H和W为输入帧的图像大小,
Figure FDA00038821112300000210
表示视频帧的分辨率大小;
利用所述自适应帧路由机制AFR,选择出包含充足运动信息的帧
Figure FDA0003882111230000031
以及运动信息不充足的帧
Figure FDA0003882111230000032
其中Ta=Tm+Tc;Tm表示运动信息充足帧的数量,Tc表示运动信息不充足帧的数量。
6.根据权利要求5所述的一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,步骤1中所述的运动分割网络和图像分割网络的构建方法,包括如下步骤:
步骤1-4,构建运动分割网络MS;用于从运动表示中分割前景对象;
步骤1-5,构建图像分割网络CS;用于从RGB图像中分割前景对象。
7.根据权利要求6所述的一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,步骤1-4中所述的运动分割网络MS包含三个组件:卷积神经网络编码器,用于提取特征表示;生成模型,用于生成前景和背景表示;CNN解码器,用于解码前景和背景表示到最终输出;
设Xf为单张光流图,首先将光流图Xf发送到一个CNN编码器φenc,输出一个低分辨率的特征:
Figure FDA0003882111230000033
其中,H0和W0分别表示输出特征的空间维度,D表示通道尺寸;
对于该特征F,更新查询向量
Figure FDA0003882111230000034
共T次,其中
Figure FDA0003882111230000035
表示第t次更新后的查询向量,q∈[0,1]是与该查询嵌入相关的类别,0表示背景,1表示前景;查询向量使用随机权值进行初始化;
Figure FDA0003882111230000036
其中,μ和σ为高斯分布的均值和方差,d为权值向量的大小;用Z(t)∈R2×d来表示所有类别的查询向量;在之后的过程中,
Figure FDA0003882111230000037
Figure FDA0003882111230000038
作为一个整体Z(t)同时被更新;
查询向量Z(t+1)使用特征F和Z(t)进行更新;
首先,使用1×1的卷积层来减少F的通道,并使F的空间维度变平,得到特征F′:
Figure FDA0003882111230000039
其中,特征长度L=H0×W0;同时,将位置向量添加到F′中来增强空间信息的提取;即
Figure FDA0003882111230000041
其中PE是位置向量,
Figure FDA0003882111230000042
是将位置向量添加到F′后新的特征表示;然后使用两个多层感知器MLP层
Figure FDA0003882111230000043
Figure FDA0003882111230000044
每个层都有三个全连接层层和修正线性单元层;使用自注意力机制计算查询值query,健值key:
Figure FDA0003882111230000045
经过归一化指数函数Softmax函数获得注意图A(t)
Figure FDA0003882111230000046
Attention机制通过以下方法计算空间维度上的特征的加权和:
Figure FDA0003882111230000047
查询向量Z(t)最终通过循环门单元GRU更新为:
Z(t+1)=GRU(U(t),Z(t))
记U(t)和Z(t)为输入状态和隐藏状态;对生成模型进行迭代3次,输出为O:
Figure FDA0003882111230000048
其中,
Figure FDA0003882111230000049
表示前景查询向量,
Figure FDA00038821112300000410
表示背景查询向量;在解码过程中,这两个向量被广播到一个空间位置编码的二维网格上;
最后,CNN解码器φdec分别解码{Of,Ob}到原始分辨率:
Figure FDA00038821112300000411
Figure FDA00038821112300000412
其中,
Figure FDA00038821112300000413
是重建的光流场,
Figure FDA00038821112300000414
是重建出来的前景光流场,
Figure FDA00038821112300000415
是重建出来的背景光流场;αfore是前景光流场对应的MASK图像,αback是背景光流场对应的MASK图像;最终的重建出来的图可以表示为:
Figure FDA00038821112300000416
其中,对{αfore,αback}使用Softmax来确保αforeback=1;MS分支以自监督的形式完成训练,损失函数包含包括重构损失Lrec和熵正则化损失Lent
Figure FDA0003882111230000051
Lent被定义为:
Lent=-(αfore·log(αfore))+(1-αback)·log(1-αback)
alpha掩模α为独热编码码形式;当αfore和αback能够明确表示前景和背景时,Lent为零;当αfore和αback无法表示前景和背景,而且他们表示的值相近Lent为最大;
最终,通过以上的训练方式,得到序列XF对应的结果OF
8.根据权利要求7所述的一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,步骤1-5中所述的图像分割网络CS的输入为视频序列XR,通过单图像伪装对象检测方法或者单图像显著对象检测方法输出为OR
9.根据权利要求8所述的一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,步骤2所述的对解耦自监督的视频伪装和显著性对象检测模型进行训练的方法,包括:
步骤2-1,数据预处理:将要输入到对解耦自监督的视频伪装和显著性对象检测模型的伪装和显著性对象训练集进行随机翻转和随机裁剪的数据增强;
步骤2-2,使用一个伪动作生成模块PMG模块成数据训练AFR分类器,使其能区分一段视频信息包含的运动信息是否充分;
对于运动分割网络MS进行自监督训练,使其能根据光流图完成完整准确的物体检测;
使用运动分割网络MS的生成结果对图像分割网络CS块进行监督训练,使图像分割网络CS能通过RGB图像完成完整准确的物体检测;
利用运动分割网络MS和图像分割网络CS的结果相互交叉监督,使得网络逐渐能够生成完整和准确的伪装和显著性对象图,往复训练网络多轮后保存最终的网络模型参数。
10.根据权利要求9所述的一种基于解耦自监督的视频伪装和显著性对象检测方法,其特征在于,步骤3中所述的将待测目标视频输入到训练好的解耦自监督的视频伪装和显著性对象检测模型中进行检测的方法包括:将待测目标图像输入至训练好的解耦自监督的视频伪装和显著性对象检测模型中进行推理,得到对应的伪装和显著性对象分割图像。
CN202211232708.0A 2022-10-10 2022-10-10 一种基于解耦自监督的视频伪装和显著性对象检测方法 Pending CN115565108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211232708.0A CN115565108A (zh) 2022-10-10 2022-10-10 一种基于解耦自监督的视频伪装和显著性对象检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211232708.0A CN115565108A (zh) 2022-10-10 2022-10-10 一种基于解耦自监督的视频伪装和显著性对象检测方法

Publications (1)

Publication Number Publication Date
CN115565108A true CN115565108A (zh) 2023-01-03

Family

ID=84745836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211232708.0A Pending CN115565108A (zh) 2022-10-10 2022-10-10 一种基于解耦自监督的视频伪装和显著性对象检测方法

Country Status (1)

Country Link
CN (1) CN115565108A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935189A (zh) * 2023-09-15 2023-10-24 北京理工导航控制科技股份有限公司 一种基于神经网络的伪装目标检测方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935189A (zh) * 2023-09-15 2023-10-24 北京理工导航控制科技股份有限公司 一种基于神经网络的伪装目标检测方法、装置及存储介质
CN116935189B (zh) * 2023-09-15 2023-12-05 北京理工导航控制科技股份有限公司 一种基于神经网络的伪装目标检测方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112750140B (zh) 基于信息挖掘的伪装目标图像分割方法
CN106960206B (zh) 字符识别方法和字符识别***
CN109711463B (zh) 基于注意力的重要对象检测方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN112884802B (zh) 一种基于生成的对抗攻击方法
CN112801068B (zh) 一种视频多目标跟踪与分割***和方法
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及***
CN116311214B (zh) 车牌识别方法和装置
Chen et al. Finding arbitrary-oriented ships from remote sensing images using corner detection
CN113065550A (zh) 基于自注意力机制的文本识别方法
CN114037640A (zh) 图像生成方法及装置
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN111325766A (zh) 三维边缘检测方法、装置、存储介质和计算机设备
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
US20230154139A1 (en) Systems and methods for contrastive pretraining with video tracking supervision
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
Zheng et al. Deep Learning‐Driven Gaussian Modeling and Improved Motion Detection Algorithm of the Three‐Frame Difference Method
CN115565108A (zh) 一种基于解耦自监督的视频伪装和显著性对象检测方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及***
CN115965968A (zh) 基于知识引导的小样本目标检测识别方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
Hughes et al. A semi-supervised approach to SAR-optical image matching
CN114494433A (zh) 图像处理方法、装置、设备和计算机可读存储介质
CN117726954A (zh) 一种遥感图像海陆分割方法及***
CN117171746A (zh) 恶意代码同源性分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination