CN115565108A

CN115565108A - 一种基于解耦自监督的视频伪装和显著性对象检测方法

Info

Publication number: CN115565108A
Application number: CN202211232708.0A
Authority: CN
Inventors: 黄明江; 李文丽; 孙德生; 薛豪奇; 赵鑫; 陈伟; 邢星
Original assignee: Xuchang University
Current assignee: Xuchang University
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-01-03

Abstract

本发明提供了一种基于解耦自监督的视频伪装和显著性对象检测方法，包括以下步骤：1，构建了一种自监督形式的帧路由机制，可以帮助网络识别出一段视频中哪些视频帧的运动信息丰富，哪些视频帧的运动信息不丰富。2，构建自监督形式的运动分割网络和图像分割网络，当某帧视频中的运动信息充分时，利用运动分割网络来检测伪装/显著对象；当某帧中的运动信息不充分时，利用图像分割网络来检测伪装/显著对象；3，本文搭建的解耦自监督网络框架，可以同时完成视频伪装对象和显著对象的检测，而且不依赖任何数据标注。

Description

一种基于解耦自监督的视频伪装和显著性对象检测方法

技术领域

本发明涉及一种视频伪装和显著性对象检测方法，特别是一种基于解耦自监督的视频伪装和显著性对象检测方法。

背景技术

近年来，随着深度卷积网络的快速发展，伪装和显著性对象检测取得了极大的突破。相比传统伪装和显著性对象检测算法，基于深度学习的伪装和显著性对象检测方法在准确率上获得了大幅提升，且基于深度学习的方法能够通过深度神经网络获取图像的高层语义信息，利用这些信息能够更准确地检测出视频中的伪装和显著对象。例如文献XiankaiLu,Wenguan Wang,Chao Ma,Jianbing Shen,Ling Shao,and FatihPorikli,“See More,Know More:Unsupervised Video Object Segmentation With Co-Attention SiameseNetworks”,in CVPR,2019,文献HalaLamdouar,Charig Yang,WeidiXie,and AndrewZisserman,“Betrayedby Motion:Camouflaged Object Discovery via MotionSegmentation”,in ACCV,2020,以及文献Miao Zhang,Jie Liu,Yifei Wang,Yongri Piao,Shunyu Yao,Wei Ji,Jingjing Li,Huchuan Lu,and Zhongxuan Luo,“Dynamic Context-Sensitive FilteringNetwork for Video Salient Object Detection”,in ICCV,2021，都在尝试设计各种卷积神经网络，从而充分利用视频序列中的运动信息和上下文信息，通过直接结合这两种信息，从而得到一个比较鲁棒的检测结果。

虽然上述方法对网络结构的改进能够进一步提升伪装和显著性对象检测的准确率，但是这些方法的缺陷就是无法正确识别出一段视频序列中哪些帧的运动信息是不充分的，而直接将这些不充分的光流信息和上下文信息融合，会降低网络的检测性能。所以，为了解决这个问题，本文提出了解耦的思想，不是直接融合上下文信息和运动信息完成检测，而是设计了两个独立的网络，分别利用视频序列中的光流信息和上下文信息完成检测。同时为了进一步拓宽网络的使用场景，本文设计了一种自监督形式的网络模型，使得本文提出的网络模型不需要标注数据就可以完成检测任务。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于解耦自监督的视频伪装和显著性对象检测方法。

为了解决上述技术问题，本发明公开了一种基于解耦自监督的视频伪装和显著性对象检测方法。

本发明公开的方法首先设计了一种帧路由机制，从而正确识别出一段视频序列中哪些帧的运动信息是不充分的，那些帧的运动信息是充分的。同时，本文设计两个独立的网络，运动分割网络和图像分割网络。其中，运动分割网络用于处理光流信息充足的视频帧，输入这些视频帧的光流信息得到对应的检测结果。而图像分割网络用于处理光流信息不充足的视频帧，输入这些视频帧的RGB图像信息，得到对应的检测结果。

本发明具体步骤如下：

步骤1，构建解耦自监督的视频伪装和显著性对象检测模型；所述模型包括：自适应帧路由机制、运动分割网络和图像分割网络；

其中，所述自适应帧路由机制，对目标视频中，视频帧的运动信息进行充分性判断；

将由所述自适应帧路由机制选择出的运动信息充分的视频帧，送入所述运动分割网络进行处理；将由所述自适应帧路由机制选择出的运动信息不充分的视频帧，送入所述图像分割网络进行处理；

将运动分割网络和图像分割网络的处理结果拼合到一起，得到所述目标视频中视频帧的对应检测结果；

步骤2，对所述解耦自监督的视频伪装和显著性对象检测模型进行训练：将伪装和显著性对象训练视频集输入到所述的解耦自监督的视频伪装和显著性对象检测模型中，训练自适应帧路由机制、运动分割网络和图像分割网络，并对所述解耦自监督的视频伪装和显著性对象检测模型进行迭代优化；

步骤3，将待测目标视频输入到训练好的解耦自监督的视频伪装和显著性对象检测模型中进行检测，完成基于解耦自监督的视频伪装和显著性对象检测。

步骤1中所述的自适应帧路由机制AFR的训练和构建方法，包括以下步骤：

步骤1-1，生成用于训练自适应帧路由机制AFR的训练样本；

步骤1-2，训练自适应帧路由机制AFR；

步骤1-3，用训练完成的自适应帧路由机制AFR来识别目标视频中每一帧的运动信息是否充分。

步骤1-1中所述的训练样本，包括：容易分解的光流图EDP帧，这些帧中包含的光流信息比较清晰，因此比较容易分解；以及不容易分解的光流图HDP帧，这些帧中的光流信息比较杂乱，不易被分解；

其中，对于容易分解的光流图EDP(Easily Decomposed)帧，直接取自训练集中的视频对应的光流图，因为训练集中大部分的视频帧的运动信息都是充分的，也是易于分解的；对于不容易分解的光流图HDP(Hardly Decomposed)帧，则通过一个伪动作生成模块PMG(Pseudo Motion Generation)生成，所述生成过程包括：

选择一张静态图片作为输入图像，裁剪出一个序列u′∈R^N×L×L，N和L分别为裁剪出的序列帧数和图像尺寸，R表示序列u的分辨率；速度参数a＝(v_x,v_y)决定裁剪出的帧在水平和垂直方向的移动距离；水平方向的移动速度v_x和垂直方向的移动速度v_y从集合S＝{-K,…,-1,0,1,…,K}中选择；其中K表示速度的最大值；

对于大小为H×W的输入图像，移动距离

定义为：

其中，D_x表示水平x方向上的位移，D_y表示垂直y方向上的位移；

在所述输入图像上随机选择裁剪起点p_start，则裁剪终点为

通过裁剪得到图像序列u′；最后，使用现有的光流检测算法将图像序列u′转化为光流序列u′_f，得到不容易分解的光流图HDP帧。

经过以上步骤，得到了一系列HDP帧和EDP帧，用来训练AFR。值得注意的是，如果一帧视频的运动信息是充分的，那么其对应的光流图就是易于分解的。如果运动信息不充分，那么其对应的光流图也是难以分解的。所以，通过使用HDP帧和EDP帧训练AFR后，AFR便可以判断某帧图像的运动信息是否充分

步骤1-2中所述的训练自适应帧路由机制AFR的方法包括：

使用非对称损失训练所述自适应帧路由机制AFR，非对称损失定义为：

L_q(u)＝[(a+1)^b-(a+u)^b]/b

其中第一参数a＝1和第二参数b＝2；u是交叉熵损失，表示为：

其中，y表示某一个训练样本的真实标签，

表示某一个训练样本的预测标签。

步骤1-3中所述的识别方法包括：

所述解耦自监督的视频伪装和显著性对象检测模型的输入是一个视频序列

及其对应的光流序列

其中，T_a为输入的帧数，H和W为输入帧的图像大小，

表示视频帧的分辨率大小；

利用所述自适应帧路由机制AFR，选择出包含充足运动信息的帧

以及运动信息不充足的帧

其中T_a＝T_m+T_c；T_m表示运动信息充足帧的数量，T_c表示运动信息不充足帧的数量。

步骤1中所述的运动分割网络和图像分割网络的构建方法，包括如下步骤：

步骤1-4，构建运动分割网络MS；用于从运动表示中分割前景对象；

步骤1-5，构建图像分割网络CS；用于从RGB图像中分割前景对象。

步骤1-4中所述的运动分割网络MS包含三个组件：卷积神经网络(ConvolutionalNeural Networks，CNN，卷积神经网络)编码器，用于提取特征表示；生成模型，用于生成前景和背景表示；CNN解码器，用于解码前景和背景表示到最终输出；

设X_f为单张光流图，首先将光流图X_f发送到一个CNN编码器φ_enc，输出一个低分辨率的特征：

其中，H₀和W₀分别表示输出特征的空间维度，D表示通道尺寸；

对于该特征F，更新查询向量

共T次，其中

表示第t次更新后的查询向量，q∈[0,1]是与该查询嵌入相关的类别，0表示背景，1表示前景；查询向量是可学习的，并使用随机权值进行初始化；

其中，μ和σ为高斯分布的均值和方差，d为权值向量的大小；用Z^(t)∈R^2×d来表示所有类别的查询向量；在之后的过程中，

和

作为一个整体Z^(t)同时被更新；

查询向量Z^(t+1)使用特征F和Z^(t)进行更新；

首先，使用1×1的卷积层来减少F的通道，并使F的空间维度变平，得到特征F′：

其中，特征长度L＝H₀×W₀；同时，将位置向量添加到F′中来增强空间信息的提取；即

其中PE是位置向量，

是将位置向量添加到F′后新的特征表示；然后使用两个多层感知器MLP层

和

每个层都有三个全连接层层和修正线性单元层；使用自注意力机制计算查询值query，健值key：

经过归一化指数函数Softmax函数获得注意图A^(t)：

Attention机制通过以下方法计算空间维度上的特征的加权和：

查询向量Z^(t)最终通过循环门单元GRU(Gate Recurrent Unit，GRU，循环门单元)更新为：

Z^(t+1)＝GRU(U^(t),Z^(t))

记U^(t)和Z^(t)为输入状态和隐藏状态；对生成模型进行迭代3次，输出为O：

其中，

表示前景查询向量，

表示背景查询向量；在解码过程中，这两个向量被广播到一个空间位置编码的二维网格上；

最后，CNN解码器φ_dec分别解码{O_f,O_b}到原始分辨率：

其中，

是重建的光流场，

是重建出来的前景光流场，

是重建出来的背景光流场。α^fore是前景光流场对应的MASK图像，α^back是背景光流场对应的MASK图像。最终的重建出来的图可以表示为：

其中，对{α^fore,α^back}使用Softmax来确保α^fore+α^back＝1；MS分支以自监督的形式完成训练，损失函数包含包括重构损失L_rec和熵正则化损失L_ent：

L_ent(L_ent的目的是让掩模是二进制的，可以得到最终的分割结果。)被定义为：

L_ent＝-(α^fore·log(α^fore))+(1-α^bacb)·log(1-α^back)

alpha掩模α为独热编码码形式；当α^fore和α^back能够明确表示前景和背景时，L_ent为零；当α^fore和α^back无法表示前景和背景，而且他们表示的值相近L_ent为最大；

最终，通过以上的训练方式，得到序列X_F对应的结果O_F。

步骤1-5中所述的图像分割网络CS的输入为视频序列X_R，通过单图像伪装对象检测方法(参考：YunqiuLv,Jing Zhang,Yuchao Dai,Aixuan Li,Bowen Liu,Nick Barnes,and Dengping Fan,“Simultaneously localize,segment and rank the camouflagedobjects,”in CVPR,2021.)或者单图像显著对象检测方法(参考：Qibin Hou,Ming-MingCheng,Xiaowei Hu,Ali Borji,and Zhuowen Tu,“Deeply supervised salient objectdetection with short connections,”TPAMI,2019)输出为O_R。

步骤2所述的对解耦自监督的视频伪装和显著性对象检测模型进行训练的方法，包括：

步骤2-1，数据预处理：将要输入到对解耦自监督的视频伪装和显著性对象检测模型的伪装和显著性对象训练集进行随机翻转和随机裁剪的数据增强；

步骤2-2，使用一个伪动作生成模块PMG模块成数据训练AFR分类器，使其能区分一段视频信息包含的运动信息是否充分；

对于运动分割网络MS进行自监督训练，使其能根据光流图完成完整准确的物体检测；

使用运动分割网络MS的生成结果对图像分割网络CS块进行监督训练，使图像分割网络CS能通过RGB图像完成完整准确的物体检测；

利用运动分割网络MS和图像分割网络CS的结果相互交叉监督，使得网络逐渐能够生成完整和准确的伪装和显著性对象图，往复训练网络多轮后保存最终的网络模型参数。

步骤3中所述的将待测目标视频输入到训练好的解耦自监督的视频伪装和显著性对象检测模型中进行检测的方法包括：将待测目标图像输入至训练好的解耦自监督的视频伪装和显著性对象检测模型中进行推理，得到对应的伪装和显著性对象分割图像。

有益效果：

本文提出了解耦的思想，不是直接融合上下文信息和运动信息完成检测，而是设计了两个独立的网络，分别利用视频序列中的光流信息和上下文信息完成检测。同时为了进一步拓宽网络的使用场景，本文设计了一种自监督形式的网络模型，使得本文提出的网络模型不需要标注数据就可以完成检测任务。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的处理流程示意图。

图2是伪运动生成过程示意图。

图3是本发明的检测结果示意图。

具体实施方式

一种基于解耦自监督的视频伪装和显著性对象检测方法，如图1所示，包括如下步骤：

步骤1，构建自适应帧路由机制(AFR)：搭建自适应帧路由机制，区分一段视频中，哪些视频帧的运动信息不充分，那些视频帧的运动信息充分；

步骤2，构建运动分割网络和图像分割网络：利用步骤1中的AFR机制，选择出运动信息充分的视频帧，送入运动分割网络。同时，利用AFR选择出运动信息不充分的视频帧，送入图像分割网络。最后，将运动分割网络和图像分割网络的结果拼合到一起，得到一段视频帧的检测结果；

步骤3，本文提出的解耦自监督的视频伪装和显著性对象检测模型，分为训练阶段和测试阶段：在模型训练阶段，将一段伪装和显著性对象训练视频集输入到解耦自监督网络中，从而训练帧路由机制(AFR)，运动分割网络和图像分割网络。在模型的测试阶段，将需要检测的包含显著/伪装对象的视频输入到训练好的模型中，得到对应的显著/伪装对象检测结果；

其中，步骤1包括以下步骤：

步骤1-1，生成用于训练AFR的训练样本。

本文使用光流信息来代表每一个样本的运动信息，其中，某一个帧的运动信息充足时候，其对应的光流图是容易分解的(EDP)。而如果某一帧的运动信息不充足的时候，其对应的光流图是不容易分解的(HDP)。所以，为了训练AFR，本文需要创建其对应的训练样本。对于EDP帧，直接取自训练视频对应的光流图；HDP帧通过一个全新的伪动作生成模块(PMG)生成，过程如图2所示。PMG的具体流程如下所示：

选择一张静态图片和速度参数s，从中裁剪出一个序列u∈R^N×L×L，N和L分别为裁剪出的序列帧数和图像尺寸。速度参数s＝(v_x,v_y)决定裁剪出的帧在水平和垂直方向的移动距离。v_x、v_y从集合S＝{-K,…,-1,0,1,…,K}中选择。其中K表示速度的最大值。

对于大小为H×W的输入图像，移动距离

定义为：

然后，在图像上随机选择裁剪起点p_start，则裁剪终点为p_end＝p_start+D。裁剪出序列u后，将序列u覆盖在原图的p_start位置上得到序列u′∈R^N×H×W。最后，使用RAFT将图像序列u′转化为光流序列u′_f，从而得到HDP帧。最后，我们使用非对称损失训练AFR，它被定义为：

L_q(u)＝[(a+1)^b-(a+u)^b]/b

其中a＝1和b＝2,u是交叉熵损失，可以表示为:

步骤1-2，用训练完成的AFR来识别一段视频中每一帧的运动信息是否充分。

所述解耦自监督网络模型的输入是一个视频序列

及其对应的光流序列

其中T_a为输入的帧数，H、W为输入帧的图像大小。我们利用AFR，选择出包含充足运动信息的帧

以及运动信息不充足的帧

其中T_a＝T_m+T_c。

步骤2包括如下步骤：

步骤2-1，构造运动分割网络MS,用于从运动表示中分割前景对象；

所述运动分割网络MS包含三个组件：1.CNN编码器提取特征表示；2.生成模型，

用于生成前景和背景表示；CNN解码器，分别解码前景和背景表示到最终输出。为了简化说明流程，我们以单张光流图X_f为例。首先将光流图X_f发送到一个CNN编

码器φ_enc，它输出一个低分辨率的特征：

其中，H₀和W₀分别表示输出特征的空间维度。D表示通道尺寸。

对于该特征F，我们提出的生成模型更新查询向量

供T次，其中

表示第t次更新后的查询向量，q∈[0,1]是与该查询嵌入相关的类别。“0”表示背景，“1”表示前景。查询向量是可学习的，并使用随机权值进行初始化:

其中，μ和σ为高斯分布的均值和方差，d为权值向量的大小。用Z^(t)∈R^2×d来表示所有类别的查询向量。在之后的过程中，

和

将作为一个整体Z^(t)同时被更新。

查询向量Z^(t+1)使用特征F和Z^(t)进行更新。首先，使用1×1的卷积层来减少F的通道，并使F的空间维度变平，得到特征F′：

其中，L＝H₀×W₀。同时，将位置向量添加到F′中来增强空间信息的提取。即

其中PE是位置向量。然后使用两个MLP层

和

每个层都有三个FC层和ReLU层。本设计是为了使self-attention机制计算query和key时具有更高的灵活性：

经过Softmax函数获得注意图A^(t)：

Attention机制通过以下方法计算空间维度上的特征的加权和：

查询向量Z^(t)最终通过GRU更新为：

Z^(t+1)＝GRU(U^(t),Z^(t))

记U^(t)和Z^(t)为输入状态和隐藏状态。本文对生成模型进行迭代3次，输出为O：

其中，

表示前景查询向量，

表示背景查询向量。在解码过程中，这两个向量被广播到一个具有可学习的空间位置编码的二维网格上。

最后，CNN解码器φ_dec分别解码{O_f,O_b}到原始分辨率：

其中，

是重建的光流场，α^fore是对应的MASK图像。因此，最终的重建出的图像为：

其中，对{α^fore,α^back}使用Softmax来确保α^fore+α^back＝1。为了使得MS分支可以以自监督的形式完成训练，损失函数包含包括重构损失L_rec和熵正则化损失L_ent。

L_enet的目的是让掩模是二进制的，我们可以得到最终的分割结果。L_ent被定义为：

L_ent＝-(α^fore·log(α^fore))+(1-α^bacb)·log(1-α^back)

从这个损失中可以看出，当alpha掩模为独热码形式(one-hot)时，L_ent将为零，当它们的概率相等时，L_ent将为最大。最后，通过这种方式，本文可以得到序列X_F对应的结果O_F。

步骤2-2，构造图像分割网络CS,用于从RGB图像中分割前景对象。

CS的输入为视频序列X_R，通过现有的单图像伪装对象检测方法或者单图像显著对象检测方法方法输出为O_R。

步骤3包含了训练阶段和测试阶段：

步骤3-1，数据预处理：将要输入到解耦自监督网络的伪装和显著性对象训练集进行随机翻转和随机裁剪等数据增强；

步骤3-2，第一，使用PMG模块根生成数据训练AFR分类器，使其能区分一段视频信息包含的运动信息是否充分；第二，对于MS模块进行自监督训练，使其能根据光流图完成完整准确的物体检测。第三，使用MS模块的生成结果对CS模块进行监督训练，使CS模块能通过RGB图像完成完整准确的物体检测。第四，利用MS和CS的结果相互交叉监督，使得网络逐渐能够生成完整和准确的伪装和显著性对象图，往复训练网络多轮后保存最终的网络模型参数；

步骤3-3，模型框架测试：将图像输入至训练好的解耦自监督网络中进行推理，得到对应的伪装和显著性对象分割图像。

实施例：

一种基于解耦自监督的视频伪装和显著性对象检测方法，具体按照以下步骤实施如图1：

1、构建解耦自监督网络G：

输入：伪装或者显著性对象的视频集。

输出：对应的伪装或者显著性对象分割图像，以及损失函数。

1.1构建解耦自监督网络模型骨架来进行光流提取；

所述解耦自监督网络模型骨架提出的网络输入是一个视频序列

及其对应的光流序列

X_F提取自光流估计算法RAFT。其中T_a为输入的帧数，H、W为输入帧的图像大小。

1.2设计自适应帧路由机制AFR来区分哪些帧的光流信息充足，哪些帧的光流信息不充足。光流信息充足的帧送入运动分割网络(MS)，利用光流信息得到对应的分割结果。光流信息不充足的帧送入图像分割网络(CS)，利用RGB图像信息得到对应的分割结果。然后利用分割结果，计算损失函数，进行参数优化。

2、整体框架训练；

基于双分支的深度学习卷积神经网络训练参数，包括数据预处理、模型框架训练及测试阶段。

3.1数据预处理；

将输入的伪装和显著性对象的视频集进行拉升、反转等调整后输入到解耦自监督网络中。

输入：伪装和显著性对象的视频集。

输出：数据增强后的伪装和显著性对象的视频集。

几何增强：平移，旋转，剪切等对图像几何改变的方法，可以增强模型的泛化能力；

3.2模型框架训练

输入：数据增强后的伪装和显著性对象的视频集

输出：伪装和显著性对象的视频集分割结果以及损失函数。

在训练过程中，可以使用batchsize为32，momentum为0.9，权重衰减为1e-5的小批量随机梯度下降(SGD)优化算法。学习率设置为1e-4，最大epoch设置为100。训练图像被调整到352×352作为整个网络的输入。

3.3模型框架测试；

输入：伪装和显著性对象的视频集；

输出：对应的伪装和显著性对象切割图像；

本发明中的模型检测效果如图3所示，一共展示了6个视频序列。其中，序列1到序列3代表显著性检测视频序列，序列4到序列6代表伪装检测视频序列。对于每一个序列，第一行代表输入的视频序列，第二行代表分割结果，第三行代表每帧视频的光流信息。其中前三列的光流信息充足，模型利用光流信息，在MS中完成分割，而后两列的视频信息运动不充足，模型利用RGB图片信息，在CS中完成分割。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于解耦自监督的视频伪装和显著性对象检测方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机，服务器，单片机。MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种基于解耦自监督的视频伪装和显著性对象检测方法的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，步骤1中所述的自适应帧路由机制AFR的训练和构建方法，包括以下步骤：

步骤1-1，生成用于训练自适应帧路由机制AFR的训练样本；

步骤1-2，训练自适应帧路由机制AFR；

3.根据权利要求2所述的一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，步骤1-1中所述的训练样本，包括：容易分解的光流图EDP帧和不容易分解的光流图HDP帧；

其中，对于容易分解的光流图EDP帧，直接取自训练集中的视频对应的光流图；对于不容易分解的光流图HDP帧，则通过一个伪动作生成模块PMG生成，所述生成过程包括：

选择一张静态图片作为输入图像，裁剪出一个序列u′∈R^N×L×L，N和L分别为裁剪出的序列帧数和图像尺寸，R表示序列u的分辨率；速度参数s＝(v_x，v_y)决定裁剪出的帧在水平和垂直方向的移动距离；水平方向的移动速度v_x和垂直方向的移动速度v_y从集合S＝{-K，...，-1，0，1，...，K}中选择；其中K表示速度的最大值；

对于大小为H×W的输入图像，移动距离

定义为：

在所述输入图像上随机选择裁剪起点p_start，则裁剪终点为

通过裁剪得到图像序列u′；最后，将图像序列u′转化为光流序列u′_f，得到不容易分解的光流图HDP帧。

4.根据权利要求3所述的一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，步骤1-2中所述的训练自适应帧路由机制AFR的方法包括：

L_q(u)＝[(a+1)^b-(a+u)^b]/b

其中，y表示某一个训练样本的真实标签，

表示某一个训练样本的预测标签。

5.根据权利要求4所述的一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，步骤1-3中所述的识别方法包括：

及其对应的光流序列

其中，T_a为输入的帧数，H和W为输入帧的图像大小，

表示视频帧的分辨率大小；

以及运动信息不充足的帧

6.根据权利要求5所述的一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，步骤1中所述的运动分割网络和图像分割网络的构建方法，包括如下步骤：

7.根据权利要求6所述的一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，步骤1-4中所述的运动分割网络MS包含三个组件：卷积神经网络编码器，用于提取特征表示；生成模型，用于生成前景和背景表示；CNN解码器，用于解码前景和背景表示到最终输出；

对于该特征F，更新查询向量

共T次，其中

表示第t次更新后的查询向量，q∈[0，1]是与该查询嵌入相关的类别，0表示背景，1表示前景；查询向量使用随机权值进行初始化；

和

作为一个整体Z^(t)同时被更新；

查询向量Z^(t+1)使用特征F和Z^(t)进行更新；

其中PE是位置向量，

和

经过归一化指数函数Softmax函数获得注意图A^(t)：

Attention机制通过以下方法计算空间维度上的特征的加权和：

查询向量Z^(t)最终通过循环门单元GRU更新为：

Z^(t+1)＝GRU(U^(t)，Z^(t))

其中，

表示前景查询向量，

最后，CNN解码器φ_dec分别解码{O_f，O_b}到原始分辨率：

其中，

是重建的光流场，

是重建出来的前景光流场，

是重建出来的背景光流场；α^fore是前景光流场对应的MASK图像，α^back是背景光流场对应的MASK图像；最终的重建出来的图可以表示为：

其中，对{α^fore，α^back}使用Softmax来确保α^fore+α^back＝1；MS分支以自监督的形式完成训练，损失函数包含包括重构损失L_rec和熵正则化损失L_ent：

L_ent被定义为：

L_ent＝-(α^fore·log(α^fore))+(1-α^back)·log(1-α^back)

最终，通过以上的训练方式，得到序列X_F对应的结果O_F。

8.根据权利要求7所述的一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，步骤1-5中所述的图像分割网络CS的输入为视频序列X_R，通过单图像伪装对象检测方法或者单图像显著对象检测方法输出为O_R。

9.根据权利要求8所述的一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，步骤2所述的对解耦自监督的视频伪装和显著性对象检测模型进行训练的方法，包括：

10.根据权利要求9所述的一种基于解耦自监督的视频伪装和显著性对象检测方法，其特征在于，步骤3中所述的将待测目标视频输入到训练好的解耦自监督的视频伪装和显著性对象检测模型中进行检测的方法包括：将待测目标图像输入至训练好的解耦自监督的视频伪装和显著性对象检测模型中进行推理，得到对应的伪装和显著性对象分割图像。