CN112149459A - 一种基于交叉注意力机制的视频显著性物体检测模型及*** - Google Patents
一种基于交叉注意力机制的视频显著性物体检测模型及*** Download PDFInfo
- Publication number
- CN112149459A CN112149459A CN201910566667.0A CN201910566667A CN112149459A CN 112149459 A CN112149459 A CN 112149459A CN 201910566667 A CN201910566667 A CN 201910566667A CN 112149459 A CN112149459 A CN 112149459A
- Authority
- CN
- China
- Prior art keywords
- frame
- level
- feature
- features
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于交叉注意力机制的视频显著性物体检测方法及***。所述方法包括:A、将输入相邻帧图像输入到共享参数的相似网络结构中,抽取高级和低级特征;B、利用自注意力模块对单帧图像内部的显著性特征进行特征的重新配准和对齐;C、利用帧间交叉注意力机制,获取帧间时空关系上显著性物***置上的关系依赖,作为权重作用到高级特征上,捕获时空关系上的显著性物体检测的一致性;D、对抽取的相邻帧帧内高级特征、低级特征以及具有帧间依赖关系的时空特征进行融合;E、将输入的特征进行特征降维,利用分类器输出像素级分类结果;F、建立一个基于交叉注意力机制的深度视频显著性物体检测模型,并使用GPU并行计算来加速模型的训练。
Description
技术领域
本发明属于视频显著性物体检测与视频分割领域,尤其涉及一 种基于交叉注意力机制的视频显著性物体检测模型及***,所述模 型及***使用交叉注意力机制的短时记忆功能,保持进内显著性检 测准确性的同时,捕捉连续相邻帧间的显著相关性和一致性信息, 从而完成视频显著性物体检测这一像素级分类任务。
背景技术
人眼视觉***可以快速精准地定位到视野中高区分度的物体或 是场景区域(也称显著性物体)引发了视觉领域对人眼视觉感知能 力的模拟、研究与探索。研究表明,人眼视觉注意力机制对视觉空 间内的部分信息进行分析整合,进而建立对整个场景的理解。显著 性物体检测也旨在高效过滤视觉场景中的非重要信息,抽取、模拟 与预测人眼视觉感知中的高级信息,探索与模拟人类视觉感知*** 的机制。
目前,由于时空信息建模的复杂度以及视频显著性物体检测数 据集的缺乏,基于视频数据的显著性物体检测模型的研究并没有大 量展开。加之,处理视频数据通常要面临复杂场景、相机抖动、目 标位置多变等问题,使得视频显著性检测问题相较于静态图像将更 具有挑战性。
从整体上讲,现有的视频显著性物体检测方法分为传统方法和 深度卷积神经网络方法。传统方法的性能受限于传统特征抽取方法 和时空信息建模等方面。近年来,随着深度学习在许多视觉任务上 取得了不错的成果,基于卷积神经网络的视频显著性物体检测的方 法的提出促进了这一领域的发展,并在性能和时空信息建模方面超 越了传统方法。
然而,基于卷积循环神经网络的方法在长程时序关系建模方面 的能力已损失单帧模型的检测精度为代价。而引入光流场时空信息 的双股网络则因为引入额外的网络分支导致整体模型训练过程的割 裂。本发明旨在综合考虑帧内显著性物体检测的准确性以及帧间显 著性物体的一致性,在相似网络(Siamese network)框架下,利用交 叉注意力机制对时空信息进行建模,形成端到端的基于时空信息融 合的编码译码框架;在此框架下,以相邻且具有先后顺序的前后帧 数据作为输入,利用多级特征抽取,交叉注意力模块,及时空特征 融合等模块,对输入帧对儿进行准确且一致的显著性物体检测,并 且可以将所有模块统一联合进行端到端的训练,获得视频显著性物 体检测模型。
发明内容
本发明的目的在于提出了一种基于交叉注意力机制的视频显著 性物体检测模型及***,旨在解决现有技术中模型精度和时序特征 建模的问题。
本发明通过以下技术方案实现:一种基于交叉注意力机制的视 频显著性物体检测方法,包括以下步骤:
A、多级特征抽取步骤:利用深度卷积神经网络对视频原始帧图 像进行多级特征抽取,并生成高级、低级特征图;在卷积神经网络 中,高级特征图通常包含高级语义信息,低级特征图通常包含更多 的纹理、边缘等细节信息;直观上讲,高级特征通常从网络深层特 征抽取获得,而低级特征图通常可由网络的浅层部分获得;
B、自注意力生成步骤:采用自注意力机制,利用帧内高级特征 图各像素位置上的特征关系,对帧内特征进行重新配准和对齐,使 得特征包含帧内上下文的语义和位置信息,提升模型对帧内显著性 物体检测的响应;
C、交叉注意力生成步骤:利用帧间交叉注意力机制,获取帧间 时空关系上显著性物体语义及位置上的关系依赖,作为配准权重作 用到高级特征上,保持时空关系上的显著性物体检测的一致性;
D、时空特征融合步骤:对抽取的相邻帧帧内高级特征、低级特 征以及具有帧间依赖关系的时空特征进行融合;
E、输出步骤:将输入的融合特征进行特征降维,利用分类器输 出相邻两帧图像的像素级分类结果;
F、联合检测步骤:建立一个基于交叉注意力机制的深度视频显 著性物体检测模型(CASNet),并使用GPU并行计算来加速模型的训 练。
进一步地,所述步骤A包括以下步骤:
A1、视频帧数据准备:利用视频帧及与之对应的逐帧标定的像 素级显著性掩模真值图,通过抽取相邻或具有一定时序间隔的视频 帧对儿,建立模型训练数据;
A2、基于卷积神经网络编码译码结构的预训练:设计基于静态 图像的深度卷积编码译码网络D(E(·)),利用已有的静态图像数据集 进行模型预训练,使得深度卷积编码译码网络具备静态图像的显著 性检测能力;
A3、多级特征抽取:在A2步骤中预训练的主干网络基础上,对 输入的前后帧对儿分别抽取多尺度高级与低级特征表达。将t和 t+Δt时刻的输入帧(It,It+△t)输入权值共享的预训练主干网络中 D(E(·)),得到多级特征表达这样就完成了在相似网络 结构下的多级特征抽取。
进一步地,所述步骤B包括以下步骤:
B1、静态特征准备:利用抽取的高级特征数据,构建像素级键 值关系(key-value)对儿以及输出(output)特征,分别通过投影 变换得到低维嵌入空间的特征表达;
B2、帧内像素级自注意力权重生成:利用矩阵乘法获得像素级 键值关系矩阵,并利用softmax函数得到像素i与其他相关像素间 的关系权重并进行权重配分,输出注意力权重;
B3、帧内高级特征重配准:利用生成的注意力权重,作用到输 出特征上,实现特征的配准,通过引入残差链接,保证深层网络的 信息流通畅以及训练时的梯度回传。
进一步地,所述步骤C包括以下步骤:
C1、时空特征准备:利用生成的两帧各自的帧内配准特征,重 新构建像素级键值源(source)关系对儿,利用目标帧特征(target) 作为输出,分别通过投影变换矩阵得到低维嵌入空间的特征表达;
C2、帧间像素级注意力权重生成:利用矩阵乘法获得源帧特征 的像素级键值关系矩阵,并利用softmax函数对像素i与其他相关 像素间的关系权重进行权重配分,输出注意力权重;
C3、双向帧间交叉注意力特征重配准:将从源帧特征得到的注 意力权重作用到目标帧的输出特征上,进行帧间特征重配准,并利 用同时残差链接,保证深层网络的信息流通畅。之后,通过交换源 帧和目标帧特征的输入,实现t到t+Δt帧和t+Δt到t帧的双向 交叉注意力特征配准,输出配准特征(Zt+△t→t,Zt→t+△t)。
进一步地,所述步骤D包括以下步骤:
D1、帧内高级和低级特征融合:根据每帧内抽取的高级和低级 特征利用特征图的上采样和特征图沿通道维度方向的级联操作进行 特征融合,得到帧内多尺度空间特征;
D2、帧间时空特征融合:利用交叉注意力模块输出的时序特征, 利用特征图的上采样和级联操作进行特征融合,得到帧间时空特征。
进一步地,所述步骤E包括以下步骤:
E1、特征降维:输出模块首先接收融合了时空信息的特征,利 用卷积层进行降维;
E2、像素级分类:最后将降维后的特征输入分类器输出每个像 素点上显著性的概率,实现像素级分类;
进一步地,所述步骤F包括以下步骤:
F1、形成基于相似(Siamese)网络的短时视频显著性物体检测 模型;
F2、通过对编码译码结构,交叉注意力模块以及时空特征融合 模块进行端到端训练,利用GPU并行计算技术加速模型的训练过程;
F3、利用训练好的模型,通过规定输入的待检测视频帧对儿, 可以实现视频显著性物体检测。
另一方面,本发明还提供了一种基于交叉注意力机制的视频显 著性物体检测***,包括:
多级特征抽取模块:利用深度卷积神经网络对视频原始帧图像 进行多级特征抽取,并生成高级、低级特征图,此模块属于基于卷 积神经网络的编码译码结构特征抽取器;
自注意力模块:采用自注意力机制,利用帧内高级特征图各像 素位置上的特征关系,对帧内特征进行重新配准和对齐,使得特征 包含帧内上下文的语义和位置信息,提升模型对帧内显著性物体检 测的响应;
交叉注意力模块:利用帧间交叉注意力机制,获取帧间时空关 系上显著性物体语义及位置上的关系依赖,作为配准权重作用到高 级特征上,保持时空关系上的显著性物体检测的一致性;
时空特征融合模块:对抽取的相邻帧帧内高级特征、低级特征、 以及具有帧间依赖关系的时空特征进行融合;
输出模块:将输入的融合特征进行特征降维,利用分类器输出 相邻两帧图像的像素级分类结果;
联合检测模块:将上述5个网络模块联合起来,建立一个基于 交叉注意力机制的深度视频显著性物体检测模型(CASNet),并使用 GPU并行计算来加速模型的训练。
进一步地,所述多级特征抽取模块包括:
视频帧数据准备子模块:利用视频帧及与之对应的逐帧标定的 像素级显著性掩模真值图,通过抽取相邻或具有一定时序间隔的视 频帧对儿,建立模型训练数据;
基于卷积神经网络编码译码结构的预训练模块:设计基于静态 图像的深度卷积编码译码网络D(E(·)),利用已有的静态图像数据集 进行模型预训练,使得深度卷积编码译码网络具备静态图像的显著 性检测能力;
多级特征抽取模块:在预训练的主干网络基础上,对输入的前 后帧对儿分别抽取多尺度高级与低级特征表达。将t和t+Δt时刻 的输入帧(It,It+△t),输入权值共享的预训练主干网络中D(E(·)),得 到多级特征表达这样就完 成了在相似网络结构下的多级特征抽取。
进一步地,所述自注意力模块包括:
静态特征准备子模块:利用抽取的高级特征数据,构建像素级 键值关系(key-value)对儿以及输出(output)特征,分别通过投 影变换得到低维嵌入空间的特征表达;
帧内像素级自注意力权重生成子模块:利用矩阵乘法获得像素 级键值关系矩阵,并利用softmax函数得到像素i与其他相关像素 间的关系权重并进行权重配分,输出注意力权重;
帧内高级特征重配准子模块:利用生成的注意力权重,作用到 输出特征上,实现特征的配准,通过引入残差链接,保证深层网络 的信息流通畅以及训练时的梯度回传。
进一步地,所述交叉注意力模块包括:
时空特征准备子模块:利用生成的两帧各自的帧内配准特征, 重新构建像素级键值源(source)关系对儿,利用目标帧特征 (target)作为输出,分别通过投影变换矩阵得到低维嵌入空间的 特征表达;
帧间像素级注意力权重生成子模块:利用矩阵乘法获得源帧特 征的像素级键值关系矩阵,并利用softmax函数对像素i与其他相 关像素间的关系权重进行权重配分,输出注意力权重;
双向帧间交叉注意力特征重配准子模块:将从源帧特征得到的 注意力权重作用到目标帧的输出特征上,进行帧间特征重配准,并 利用同时残差链接,保证深层网络的信息流通畅。之后,通过交换 源帧和目标帧特征的输入,实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准,输出配准特征(Zt+△t→t,Zt→t+△t)。
进一步地,所述时空特征融合模块包括:
帧内高级和低级特征融合子模块:根据每帧内抽取的高级和低 级特征利用特征图的上采样和特征图沿通道维度方向的级联操作进 行特征融合,得到帧内多尺度空间特征;
帧间时空特征融合子模块:利用交叉注意力模块输出的时序特 征,利用特征图的上采样和级联操作进行特征融合,得到帧间时空 特征。
进一步地,所述输出模块包括:
特征降维子模块:输出模块首先接收融合了时空信息的特征, 利用卷积层进行降维;
像素级分类子模块:最后将降维后的特征输入分类器输出每个 像素点上显著性的概率,实现像素级分类。
进一步地,所述联合检测模块包括:
将上述5个模块联合起来形成基于相似(Siamese)网络的短时 视频显著性物体检测模型;通过对编码译码结构,交叉注意力模块 以及时空特征融合模块进行端到端训练,利用GPU并行计算技术加 速模型的训练过程;利用训练好的模型,通过给定待检测视频帧对 儿,可以实现视频显著性物体检测;
本发明的有益效果是:本发明提供的基于交叉注意力机制的视 频显著性物体检测模型,以相邻且具有先后顺序的前后帧数据作为 输入,对于网络结构,与基于循环神经网络的方法相比,更注重于 短时帧内的显著性检测精度。与引入额外光流信息的多分支网络相 比,更注重通过交叉注意力模块获得帧间显著性物体检测的相关性 和一致性。同时,在相似网络的框架下,设计并构造视频显著性物 体检测模型中的各个子模块,(包括“多级特征抽取”,“自注意力模 块”,“交叉注意力模块”,“时空特征融合等模块”,以及“输出模块”),并且将所有模块统一联合,形成一个统一的基于卷积神经网 络的时空编码译码结构,称之为“CASNet模型”。整体结构可以进 行端到端的训练,获得视频显著性物体检测模型。在多级特征抽取 部分,利用深度卷积神经网络抽取出具有前后关系的视频帧对儿的多尺度特征表达。通过自注意力模块,获取帧内高级特征图各像素 点之间的空间相关信息。之后,利用交叉注意力模块,捕获帧间显 著性特征的像素级相关性特征。在时空特征融合部分,帧内多级特 征与帧间时空相关性特征融合在一起,并被送入输出模块,进行像 素级分类,获得预测结果。所有训练过程都是由设计并构造的神经 网络模型自动完成,不需要额外对数据进行离线特征抽取、抑或是 数据统计工作。利用GPU并行计算加速技术,可以实现高速的训练 和测试过程。
附图说明
图1是本发明基于交叉注意力机制的视频显著性物体检测方法 的流程图;
图2是本发明基于交叉注意力机制的视频显著性物体检测*** 的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结 合附图及实施例,对本发明进行进一步详细说明。应当理解,此处 所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的设计灵感来源于对视频帧短时依赖关系进行建模。考 虑当前基于循环神经网络结构的模型对长序列训练的难度较大,在 精细化分割要求的场景下不能满足高精确度的需求。考虑从短时依 赖关系入手,在相似网络的框架下,通过综合考虑帧内显著性物体 检测的准确性和保持帧间显著性物体的一致性,设计并实现一种基 于交叉注意力机制的视频显著性物体检测模型及***。
附图1示出了本发明提供的基于交叉注意力机制的视频显著性 物体检测模型的流程图,其详述如下:
步骤S1:多级特征抽取步骤。本步骤需要利用现有的深度卷积 神经网络作为主干模型对输入的具有先后关系的视频帧进行多级特 征抽取。数据集可以选用逐帧标注的视频显著性物体检测公开数据 集,例如,DAVIS数据集,UVSD数据集,以及SegTrack数据集等。具体步骤如下:
(S11)视频帧数据准备:对于给定的具有逐帧标注的视频数据 集,利用视频帧及与之对应的逐帧标定的像素级显著性掩模真值图, 通过抽取相邻或具有一定时序间隔的视频帧对儿(It,It+△t),建立训 练数据集。通常,帧间隔Δt的选取是为了提高具有一定帧间变动 的样本对儿多样性。给定的一个序列长度为N视频数据,通过设定 帧间隔,穷举具有先后顺序的视频帧对儿,共可以得到(N-1)·△t个 样本对儿。此外,在模型训练之前,还可以通过随机水平镜像、对 输入图像添加随机扰动、噪声等方式进行数据增广,获取更加丰富 的训练数据。
(S12)基于卷积神经网络编码译码结构的预训练:本步骤通过 设计基于静态图像的深度卷积编码译码网络D(E(·)),利用已有的静 态图像数据集进行模型预训练,使得深度卷积编码译码网络具备静 态图像的显著性检测能力;通常,可以选取生成多级多尺度特征表 达的网络进行模型的预训练。这里选取一种感知一致性解析网络 (UnifiedPerceptual Parsing Network,简称UPerNet)作为特 征抽取的主干网络进行模型预训练,获得具有显著性物体检测泛化 能力的预训练模型。本步骤为后续抽取视频帧内蕴含语义和细节信 息的高级低级特征,以及模型能力迁移做准备。
(S13)多级特征抽取:在(S12)步骤中获得的预训练主干网 络基础上,对输入的前后帧对儿分别抽取多尺度高级与低级特征表 达。具体地,将t和t+Δt时刻的输入帧对儿(It,It+△t)输入到权 值共享的预训练主干网络D(E(·)),得到多级特征表达这里,在具体实现中,分 别抽取了1/4,1/8,1/16,以及1/32尺度上的多级特征图。在应 用中,可根据具体问题及实际设备运算能力,考虑增加或去除某些 尺度。通常,低级特征图中包含更多的细节特征,高级特征图蕴涵 了显著性的语义及位置信息。这些特征均为生成精确的帧内显著性 物体检测结果提供重要依据。
步骤S2:自注意力生成步骤。本步骤以帧内显著性的空间相关 性为建模对象,通过生成基于帧内高级特征图的像素级关系注意力 权重,并根据注意力权重对原高级特征图进行重配准和特征增强, 生成更准确的阵内显著性特征图。具体步骤如下:
(S21)静态特征准备:首先,利用步骤S1中抽取得到的帧内 高级特征,构建像素级键值关系(key-value)对儿以及输出(output) 特征,分别通过投影变换得到低维嵌入空间的特征表达;这里,为 简化符号表示,将特征约简为具体地,给定t帧的高级特 征图首先利用投影变换,原始特征像素点上的特征进行投影, 此过程可表示为:
si,j=(Wfxi)T(Wgxj),
其中,Wf和Wg分别表示两个投影变换矩阵,xi和xj分别表示i和j 像素位置上的特征向量。在具体实现中,可以通过设定Wf和Wg的维 度将原始特征投影到低维空间中,从而降低特征维度和后续像素级 关系的注意力权重计算复杂度。
(S22)帧内像素级自注意力权重生成:获得投影后的关系矩阵 之后,利用softmax函数对像素j相对i元素的注意力权重进行配 分,具体过程可表示为:
其中,exp表示以自然常数e为底的指数函数,分母表示与所 有与j像素相关的所有权重之和。通过此步骤,可以将权重配分到 0~1之间,并可得到和为1,并输出重新分配的注意力权重。
(S23)帧内高级特征重配准:利用生成的注意力权重,对每个 像素位置上的输入特征,利用与之相关的所有特征间的关系注意力 权重,通过加权求和的方式对原始特征进行重配准。此过程可以表 示为:
其中,δ(xi)=Wδxi表示输出端的投影过程,Wδ表示投影矩阵。在具 体实现中,可以引入残差链接,保证深层网络的信息流通畅以及训 练时的梯度回传。具体形式可以表示为:
yj=oj+xj
为简化后续的表述过程,将自注意力生成步骤利用符号表示为:
Y=Satt(X).
步骤S3:交叉注意力生成步骤。
(S31)时空特征准备:经过步骤S2中生成的自注意力权重, 分别对两视频帧的帧内高级特征进行配准,获得具有像素级空间相 关性的显著性特征,为交叉注意力步骤生成时空注意力特征做好数 据准备。
(S32)帧间像素级注意力权重生成:通过重新构建像素级键值 源(source)到目标(target)关系对儿,利用目标帧特征(target) 作为输出,分别通过投影变换矩阵得到低维嵌入空间的特征表达, 并利用步骤S2中的相似步骤生成基于像素级关系的注意力权重。具体地,利用矩阵乘法获得源帧特征的像素级键值关系矩阵,并利用softmax函数对像素i与其他相关像素间的关系权重进行权重配分, 输出注意力权重;并利用此注意力权重进行导向型的特征配准,生 成融合了时空信息的特征。因此,t到t+Δt帧的时空特征生成过 程可以表示为:
(S33)双向帧间交叉注意力特征重配准:将从源帧特征得到的 注意力权重作用到目标帧的输出特征上,进行帧间特征重配准,并 利用同时残差链接,保证深层网络的信息流通畅。之后,通过交换 源帧和目标帧特征的输入,实现t到t+Δt帧和t+Δt到t帧的双 向交叉注意力特征配准,输出配准特征(Zt+△t→t,Zt→t+△t)。
步骤S4:时空特征融合步骤。本步骤将上述生成的帧内多尺度 特征以及帧间的时空关系特征进行特征融合,为后续像素级分类提 供数据输入。具体步骤如下:
(S41)帧内高级和低级特征融合:根据每帧内抽取的高级和低 级特征利用特征图的上采样和特征图沿通道维度方向的级联操作进 行特征融合,得到帧内多尺度空间特征;在具体实现中,可以利用 多尺度特征金字塔网络结构,对阵内的多尺度特征进行特征融合。 给定t时刻的帧内多级特征为融合过程为:
其中,ν(·)表示相应尺度上的1x1卷积降维操作,τ(·)表示对应 尺度上利用卷积层进行特征融合操作,κ(·)表示上采样操作,用于 将高级特征上采样到相应的低级特征的尺度上。最终得到t时刻帧 内融合特征(Yt 1/4,Yt 1/8,Yt 1/16,Yt)。同理对t+Δt时刻的帧内多尺度特征进 行高级和低级特征融合,得到
D2、帧间时空特征融合:利用交叉注意力模块输出的时序特征 (Zt+△t→t,Zt→t+△t),利用特征图的上采样和级联操作进行特征融合, 得到帧间时空特征。具体实现的时空特征融合过程可表示为:
其中,κ(·)表示上采样操作,Ω(·)表示沿通道维度的特征图级联操作。 这样就得到了融合了帧内多尺度特征以及帧间时空信息的特征图。
步骤S5:输出步骤。本步骤用于将输入的融合特征进行特征降 维,最终,利用分类器输出两帧图像的像素级分类结果;具体实现 步骤包括:
(S51)特征降维步骤:输出模块首先接收融合了时空信息的特 征St+△t→t以及St→t+△t,利用卷积层进行特征降维;
(S52)像素级分类步骤:最后将降维后的特征输入分类器中, 输出每个像素点上显著性的概率或得分,并利用设定的阈值实现像 素级分类;
步骤S6:联合上述各个子模块,形成基于相似网络(Siamese network)的短时视频显著性物体检测模型;通过对编码译码结构, 交叉注意力模块以及时空特征融合模块进行端到端训练。在具体实 现中,首先联合模型,将上述各个步骤中涉及到的卷积神经网络模块链接起来,构建出相似网络框架,统一训练参数模型。在具体实 现中,对于编码译码模型的编码部分的各层权重,可以通过加载在 静态图像数据集上预训练好的模型进行参数初始化。自注意力和交 叉注意力模块,以及多尺度特征融合及最终的输出模块通过设定通用的初始化策略为参数进行赋值,例如Xavier初始化、MSRA初始 化等。这里采用MSRA初始化方法。在模型训练过程中,模型优化使 用批量梯度下降算法。设置批输入样本对儿个数为8。初始学习率 设置为0.02,设定学习率以Poly策略衰减。梯度更新方式利用带 动量的梯度下降算法,动量值设置为0.9。利用多卡GPU工作站或 计算集群等设备进行并行计算,加速模型的训练过程;利用训练好 的模型,通过给定待检测视频帧对儿,可以实现视频显著性物体检 测。
附图2所示为本发明的基于交叉注意力机制的视频显著性物体 检测***,所述视频显著性物体检测***包括:
多级特征抽取模块:利用深度卷积神经网络对视频原始帧图像 进行多级特征抽取,并生成高级、低级特征图,此模块属于基于卷 积神经网络的编码译码结构特征抽取器;
自注意力模块:采用自注意力机制,利用帧内高级特征图各像 素位置上的特征关系,对帧内特征进行重新配准和对齐,使得特征 包含帧内上下文的语义和位置信息,提升模型对帧内显著性物体检 测的响应。
交叉注意力模块:利用帧间交叉注意力机制,获取帧间时空关 系上显著性物体语义及位置上的关系依赖,作为配准权重作用到高 级特征上,保持时空关系上的显著性物体检测的一致性。
时空特征融合模块:对抽取的相邻帧帧内高级特征、低级特征、 以及具有帧间依赖关系的时空特征进行融合;
输出模块:将输入的融合特征进行特征降维,利用分类器输出 相邻两帧图像的像素级分类结果;
联合检测模块:将上述5个网络模块联合起来,建立一个基于 交叉注意力机制的深度视频显著性物体检测模型(CASNet),并使用 GPU并行计算来加速模型的训练。
所述多级特征抽取模块包括:
视频帧数据准备子模块:利用视频帧及与之对应的逐帧标定的 像素级显著性掩模真值图,通过抽取相邻或具有一定时序间隔的视 频帧对儿,建立模型训练数据;
基于卷积神经网络编码译码结构的预训练子模块:设计基于静 态图像的深度卷积编码译码网络D(E(·)),利用已有的静态图像数据 集进行模型预训练,使得深度卷积编码译码网络具备静态图像的显 著性检测能力;
多级特征抽取子模块:在预训练的主干网络基础上,对输入的 前后帧对儿分别抽取多尺度高级与低级特征表达。将t和t+Δt时 刻的输入帧(It,It+△t),输入权值共享的预训练主干网络中D(E(·)), 得到多级特征表达这样就 完成了在相似网络结构下的多级特征抽取。
所述自注意力模块包括:
静态特征准备子模块:利用抽取的高级特征数据,构建像素级 键值关系(key-value)对儿以及输出(output)特征,分别通过投 影变换得到低维嵌入空间的特征表达;
帧内像素级自注意力权重生成子模块:利用矩阵乘法获得像素 级键值关系矩阵,并利用softmax函数得到像素i与其他相关像素 间的关系权重并进行权重配分,输出注意力权重;
帧内高级特征重配准子模块:利用生成的注意力权重,作用到 输出特征上,实现特征的配准,通过引入残差链接,保证深层网络 的信息流通畅以及训练时的梯度回传。
所述交叉注意力模块包括:
时空特征准备子模块:利用生成的两帧各自的帧内配准特征, 重新构建像素级键值源(source)关系对儿,利用目标帧特征 (target)作为输出,分别通过投影变换矩阵得到低维嵌入空间的 特征表达;
帧间像素级注意力权重生成子模块:利用矩阵乘法获得源帧特 征的像素级键值关系矩阵,并利用softmax函数对像素i与其他相 关像素间的关系权重进行权重配分,输出注意力权重;
双向帧间交叉注意力特征重配准子模块:将从源帧特征得到的 注意力权重作用到目标帧的输出特征上,进行帧间特征重配准,并 利用同时残差链接,保证深层网络的信息流通畅。之后,通过交换 源帧和目标帧特征的输入,实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准,输出配准特征(Zt+△t→t,Zt→t+△t)。
所述时空特征融合模块包括:
帧内高级和低级特征融合子模块:根据每帧内抽取的高级和低 级特征利用特征图的上采样和特征图沿通道维度方向的级联操作进 行特征融合,得到帧内多尺度空间特征;
帧间时空特征融合子模块:利用交叉注意力模块输出的时序特 征,利用特征图的上采样和级联操作进行特征融合,得到帧间时空 特征。
所述输出模块包括:
特征降维子模块:输出模块首先接收融合了时空信息的特征, 利用卷积层进行降维;
像素级分类子模块:最后将降维后的特征输入分类器输出每个 像素点上显著性的概率,实现像素级分类;
所述联合检测模块包括:
将上述5个模块联合起来形成基于相似(Siamese)网络的短时 视频显著性物体检测模型;通过对编码译码结构,交叉注意力模块 以及时空特征融合模块进行端到端训练,利用GPU并行计算技术加 速模型的训练过程;利用训练好的模型,通过给定待检测视频帧对 儿,可以实现视频显著性物体检测;
本发明的主要贡献有以下两点:(1)首先,本发明提供的基于 交叉注意力机制的视频显著性物体检测模型,从短时时序依赖关系 入手,以相邻且具有先后顺序的前后帧数据作为输入,通过自注意 力和交叉注意力模块分别用于提升帧内显著性物体检测的准确性, 同时捕捉帧间显著性物体的一致性;(2)在相似网络的框架下,设 计并构造视频显著性物体检测模型中的多级特征抽取模块、自注意 力模块、交叉注意力模块、时空特征融合等模块和输出模块联合起 来,形成一个统一的基于卷积神经网络的时空编码译码模型“CASNet”。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明, 凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等, 均应包含在本发明的保护范围之内。
Claims (15)
1.一种基于交叉注意力机制的视频显著性物体检测方法,其特征在于:所述方法包括以下步骤:
A、多级特征抽取步骤:利用深度卷积神经网络对视频原始帧图像进行多级特征抽取,并生成高级、低级特征图;在卷积神经网络中,高级特征图通常包含高级语义信息,低级特征图通常包含更多的纹理、边缘等细节信息;直观上讲,高级特征通常从网络深层特征抽取获得,而低级特征图通常可由网络的浅层部分获得;
B、自注意力生成步骤:采用自注意力机制,利用帧内高级特征图各像素位置上的特征关系,对帧内特征进行重新配准和对齐,使得特征包含帧内上下文的语义和位置信息,提升模型对帧内显著性物体检测的响应;
C、交叉注意力生成步骤:利用帧间交叉注意力机制,获取帧间时空关系上显著性物体语义及位置上的关系依赖,作为配准权重作用到高级特征上,保持时空关系上的显著性物体检测的一致性;
D、时空特征融合步骤:对抽取的相邻帧帧内高级特征、低级特征以及具有帧间依赖关系的时空特征进行融合;
E、输出步骤:将输入的融合特征进行特征降维,利用分类器输出相邻两帧图像的像素级分类结果;
F、联合检测步骤:建立一个基于交叉注意力机制的深度视频显著性物体检测模型(CASNet),并使用GPU并行计算来加速模型的训练。
2.根据权利要求1所述的方法,其特征在于:所述步骤A包括以下步骤:
A1、视频帧数据预处理:利用视频帧及与之对应的逐帧标定的像素级显著性掩模真值图,通过抽取相邻或具有一定时序间隔Δt的视频帧对儿(It,It+△t),建立模型训练数据;
A2、基于卷积神经网络编码译码结构的预训练:设计基于静态图像的深度卷积编码译码网络D(E(·)),利用已有的静态图像数据集进行模型预训练,使得深度卷积编码译码网络具备静态图像的显著性检测能力;
3.根据权利要求1所述的方法,其特征在于:所述步骤B包括以下步骤:
B1、静态特征准备:利用抽取的高级特征数据,构建像素级键值关系(key-value)对儿以及输出(output)特征,分别通过投影变换得到低维嵌入空间的特征表达;
B2、帧内像素级自注意力权重生成:利用矩阵乘法获得像素级键值关系矩阵,并利用softmax函数得到像素i与其他相关像素间的关系权重并进行权重配分,输出注意力权重;
B3、帧内高级特征重配准:利用生成的注意力权重,作用到输出特征上,实现特征的配准,通过引入残差链接,保证深层网络的信息流通畅以及训练时的梯度回传。
4.根据权利要求1所述的方法,其特征在于:所述步骤C包括以下步骤:
C1、时空特征准备:利用生成的两帧各自的帧内配准特征,重新构建像素级键值源(source)关系对儿,利用目标帧特征(target)作为输出,分别通过投影变换矩阵得到低维嵌入空间的特征表达;
C2、帧间像素级注意力权重生成:利用矩阵乘法获得源帧特征的像素级键值关系矩阵,并利用softmax函数对像素i与其他相关像素间的关系权重进行权重配分,输出注意力权重;
C3、双向帧间交叉注意力特征重配准:将从源帧特征得到的注意力权重作用到目标帧的输出特征上,进行帧间特征重配准,并利用同时残差链接,保证深层网络的信息流通畅。之后,通过交换源帧和目标帧特征的输入,实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准,输出配准特征Zt+△t→t,Zt→t+△t。
5.根据权利要求1所述的方法,其特征在于:所述步骤D包括以下步骤:
D1、帧内高级和低级特征融合:根据每帧内抽取的高级和低级特征利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合,得到帧内多尺度空间特征;
D2、帧间时空特征融合:利用交叉注意力步骤中输出的时序特征,利用特征图的上采样和级联操作进行特征融合,得到帧间时空特征。
6.根据权利要求1所述的方法,其特征在于:所述步骤E包括以下步骤:
E1、特征降维:输出模块首先接收融合了时空信息的特征,利用卷积层进行降维;
E2、像素级分类:最后将降维后的特征输入分类器输出每个像素点上显著性的概率,实现像素级分类。
7.根据权利要求1所述的方法,其特征在于:所述步骤F包括以下步骤:
F1、形成基于相似(Siamese)网络的短时视频显著性物体检测模型;
F2、通过对编码译码结构,交叉注意力模块以及时空特征融合模块进行端到端训练,利用GPU并行计算技术加速模型的训练过程;
F3、利用训练好的模型,通过规定输入的待检测视频帧对儿,实现视频显著性物体检测。
8.一种基于交叉注意力机制的视频显著性物体检测***,其特征在于:所述***包括:
多级特征抽取模块:利用深度卷积神经网络对视频原始帧图像进行多级特征抽取,并生成高级、低级特征图,此模块属于基于卷积神经网络的编码译码结构特征抽取器;
自注意力模块:采用自注意力机制,利用帧内高级特征图各像素位置上的特征关系,对帧内特征进行重新配准和对齐,使得特征包含帧内上下文的语义和位置信息,提升模型对帧内显著性物体检测的响应。
交叉注意力模块:利用帧间交叉注意力机制,获取帧间时空关系上显著性物体语义及位置上的关系依赖,作为配准权重作用到高级特征上,保持时空关系上的显著性物体检测的一致性。
时空特征融合模块:对抽取的相邻帧帧内高级特征、低级特征、以及具有帧间依赖关系的时空特征进行融合;
输出模块:将输入的融合特征进行特征降维,利用分类器输出相邻两帧图像的像素级分类结果;
联合检测模块:将上述5个网络模块联合起来,建立一个基于交叉注意力机制的深度视频显著性物体检测模型(CASNet),并使用GPU并行计算来加速模型的训练。
9.根据权利要求8所述的基于交叉注意力机制的视频显著性物体检测模型及***,其特征在于:所述多级特征抽取模块包括:
视频帧数据预处理子模块:利用视频帧及与之对应的逐帧标定的像素级显著性掩模真值图,通过抽取相邻或具有一定时序间隔的视频帧对儿,建立训练数据;
基于卷积神经网络编码译码结构的预训练子模块:设计基于静态图像的深度卷积编码译码网络D(E(·)),利用已有的静态图像数据集进行模型预训练,使得深度卷积编码译码网络具备静态图像的显著性检测能力;
10.根据权利要求8所述的基于交叉注意力机制的视频显著性物体检测模型及***,其特征在于:所述自注意力模块包括:
静态特征准备子模块:利用抽取的高级特征数据,构建像素级键值关系(key-value)对儿以及输出(output)特征,分别通过投影变换得到低维嵌入空间的特征表达;
帧内像素级自注意力权重生成子模块:利用矩阵乘法获得像素级键值关系矩阵,并利用softmax函数得到像素i与其他相关像素间的关系权重并进行权重配分,输出注意力权重;
帧内高级特征重配准子模块:利用生成的注意力权重,作用到输出特征上,实现特征的配准,通过引入残差链接,保证深层网络的信息流通畅以及训练时的梯度回传。
11.根据权利要求8所述的基于交叉注意力机制的视频显著性物体检测模型及***,其特征在于:所述交叉注意力模块包括:
时空特征准备子模块:利用生成的两帧各自的帧内配准特征,重新构建像素级键值源(source)关系对儿,利用目标帧特征(target)作为输出,分别通过投影变换矩阵得到低维嵌入空间的特征表达;
帧间像素级注意力权重生成子模块:利用矩阵乘法获得源帧特征的像素级键值关系矩阵,并利用softmax函数对像素i与其他相关像素间的关系权重进行权重配分,输出注意力权重;
双向帧间交叉注意力特征重配准子模块:将从源帧特征得到的注意力权重作用到目标帧的输出特征上,进行帧间特征重配准,并利用同时残差链接,保证深层网络的信息流通畅。之后,通过交换源帧和目标帧特征的输入,实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准,输出配准特征Zt+△t→t,Zt→t+△t。
12.根据权利要求8所述的基于交叉注意力机制的视频显著性物体检测模型及***,其特征在于:所述时空特征融合模块包括:
帧内高级和低级特征融合子模块:根据每帧内抽取的高级和低级特征利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合,得到帧内多尺度空间特征;
帧间时空特征融合子模块:利用交叉注意力模块输出的时序特征,利用特征图的上采样和级联操作进行特征融合,得到帧间时空特征。
13.根据权利要求8所述的基于交叉注意力机制的视频显著性物体检测模型及***,其特征在于:所述输出模块包括:
特征降维子模块:输出模块首先接收融合了时空信息的特征,利用卷积层进行降维;
像素级分类子模块:最后将降维后的特征输入分类器输出每个像素点上显著性的概率,实现像素级分类。
14.根据权利要求8所述的基于交叉注意力机制的视频显著性物体检测模型及***,其特征在于,所述联合检测模块包括:
将上述5个模块联合起来形成基于相似(Siamese)网络的短时视频显著性物体检测模型;通过对编码译码结构,交叉注意力模块以及时空特征融合模块进行端到端训练,利用GPU并行计算技术加速模型的训练过程;利用训练好的模型,通过给定待检测视频帧对儿,可以实现视频显著性物体检测。
15.根据权利要求8-14任一项所述的基于交叉注意力机制的视频显著性物体检测模型及***,其特征在于:所述利用具有先后顺序的视频帧对儿数据作为输入,通过训练基于相似神经网络和编码译码构造的视频显著性物体检测模型“CASNet模型”进行训练,可以对输入的新视频序列进行实时显著性物体检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910566667.0A CN112149459B (zh) | 2019-06-27 | 2019-06-27 | 一种基于交叉注意力机制的视频显著性物体检测模型及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910566667.0A CN112149459B (zh) | 2019-06-27 | 2019-06-27 | 一种基于交叉注意力机制的视频显著性物体检测模型及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149459A true CN112149459A (zh) | 2020-12-29 |
CN112149459B CN112149459B (zh) | 2023-07-25 |
Family
ID=73868498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910566667.0A Active CN112149459B (zh) | 2019-06-27 | 2019-06-27 | 一种基于交叉注意力机制的视频显著性物体检测模型及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149459B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381076A (zh) * | 2021-01-18 | 2021-02-19 | 西南石油大学 | 一种视频显著性检测任务中图片预处理的方法 |
CN112819037A (zh) * | 2021-01-12 | 2021-05-18 | 广东石油化工学院 | 基于交叉注意力和自注意力的分类参数分布的故障诊断方法 |
CN112906609A (zh) * | 2021-03-05 | 2021-06-04 | 清华大学 | 基于双路交叉注意力网络的视频重要区域预测方法和装置 |
CN112966626A (zh) * | 2021-03-16 | 2021-06-15 | 三星(中国)半导体有限公司 | 人脸识别方法和装置 |
CN112989958A (zh) * | 2021-02-22 | 2021-06-18 | 哈工大机器人集团(无锡)科创基地研究院 | 基于YOLOv4与显著性检测的安全帽佩戴识别方法 |
CN112990126A (zh) * | 2021-04-27 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 视频分类方法、装置、计算机设备和介质 |
CN113435578A (zh) * | 2021-06-25 | 2021-09-24 | 重庆邮电大学 | 基于互注意力的特征图编码方法、装置及电子设备 |
CN113436100A (zh) * | 2021-06-28 | 2021-09-24 | 北京百度网讯科技有限公司 | 用于修复视频的方法、装置、设备、介质和产品 |
CN113591868A (zh) * | 2021-07-30 | 2021-11-02 | 南开大学 | 一种基于全双工策略的视频目标分割方法及*** |
CN114926760A (zh) * | 2022-05-10 | 2022-08-19 | 东北大学 | 基于时空卷积神经网络的视频显著性目标检测***及方法 |
WO2023282847A1 (en) * | 2021-06-15 | 2023-01-12 | Lemon Inc. | Detecting objects in a video using attention models |
JP2023095313A (ja) * | 2021-12-24 | 2023-07-06 | 株式会社アイレップ | 広告動画の注視領域を予測する装置、方法およびプログラム |
CN117058723A (zh) * | 2023-10-11 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 掌纹识别方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157319A (zh) * | 2016-07-28 | 2016-11-23 | 哈尔滨工业大学 | 基于卷积神经网络的区域和像素级融合的显著性检测方法 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN109376611A (zh) * | 2018-09-27 | 2019-02-22 | 方玉明 | 一种基于3d卷积神经网络的视频显著性检测方法 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109784183A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于级联卷积网络和光流的视频显著性目标检测方法 |
-
2019
- 2019-06-27 CN CN201910566667.0A patent/CN112149459B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157319A (zh) * | 2016-07-28 | 2016-11-23 | 哈尔滨工业大学 | 基于卷积神经网络的区域和像素级融合的显著性检测方法 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109376611A (zh) * | 2018-09-27 | 2019-02-22 | 方玉明 | 一种基于3d卷积神经网络的视频显著性检测方法 |
CN109784183A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于级联卷积网络和光流的视频显著性目标检测方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819037A (zh) * | 2021-01-12 | 2021-05-18 | 广东石油化工学院 | 基于交叉注意力和自注意力的分类参数分布的故障诊断方法 |
CN112819037B (zh) * | 2021-01-12 | 2024-01-30 | 广东石油化工学院 | 基于交叉注意力和自注意力的分类参数分布的故障诊断方法 |
CN112381076A (zh) * | 2021-01-18 | 2021-02-19 | 西南石油大学 | 一种视频显著性检测任务中图片预处理的方法 |
CN112989958A (zh) * | 2021-02-22 | 2021-06-18 | 哈工大机器人集团(无锡)科创基地研究院 | 基于YOLOv4与显著性检测的安全帽佩戴识别方法 |
CN112906609B (zh) * | 2021-03-05 | 2022-06-07 | 清华大学 | 基于双路交叉注意力网络的视频重要区域预测方法和装置 |
CN112906609A (zh) * | 2021-03-05 | 2021-06-04 | 清华大学 | 基于双路交叉注意力网络的视频重要区域预测方法和装置 |
CN112966626A (zh) * | 2021-03-16 | 2021-06-15 | 三星(中国)半导体有限公司 | 人脸识别方法和装置 |
CN112990126A (zh) * | 2021-04-27 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 视频分类方法、装置、计算机设备和介质 |
WO2023282847A1 (en) * | 2021-06-15 | 2023-01-12 | Lemon Inc. | Detecting objects in a video using attention models |
US11804043B2 (en) | 2021-06-15 | 2023-10-31 | Lemon Inc. | Detecting objects in a video using attention models |
CN113435578B (zh) * | 2021-06-25 | 2022-04-05 | 重庆邮电大学 | 基于互注意力的特征图编码方法、装置及电子设备 |
CN113435578A (zh) * | 2021-06-25 | 2021-09-24 | 重庆邮电大学 | 基于互注意力的特征图编码方法、装置及电子设备 |
CN113436100A (zh) * | 2021-06-28 | 2021-09-24 | 北京百度网讯科技有限公司 | 用于修复视频的方法、装置、设备、介质和产品 |
WO2023273342A1 (zh) * | 2021-06-28 | 2023-01-05 | 北京百度网讯科技有限公司 | 用于修复视频的方法、装置、设备、介质和产品 |
CN113436100B (zh) * | 2021-06-28 | 2023-11-28 | 北京百度网讯科技有限公司 | 用于修复视频的方法、装置、设备、介质和产品 |
CN113591868A (zh) * | 2021-07-30 | 2021-11-02 | 南开大学 | 一种基于全双工策略的视频目标分割方法及*** |
CN113591868B (zh) * | 2021-07-30 | 2023-09-01 | 南开大学 | 一种基于全双工策略的视频目标分割方法及*** |
JP7387703B2 (ja) | 2021-12-24 | 2023-11-28 | 株式会社アイレップ | 広告動画の注視領域を予測する装置、方法およびプログラム |
JP2023095313A (ja) * | 2021-12-24 | 2023-07-06 | 株式会社アイレップ | 広告動画の注視領域を予測する装置、方法およびプログラム |
CN114926760A (zh) * | 2022-05-10 | 2022-08-19 | 东北大学 | 基于时空卷积神经网络的视频显著性目标检测***及方法 |
CN117058723B (zh) * | 2023-10-11 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 掌纹识别方法、装置及存储介质 |
CN117058723A (zh) * | 2023-10-11 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 掌纹识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112149459B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149459A (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及*** | |
Montserrat et al. | Deepfakes detection with automatic face weighting | |
US11176381B2 (en) | Video object segmentation by reference-guided mask propagation | |
Oh et al. | Fast video object segmentation by reference-guided mask propagation | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN110751649B (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN112699786B (zh) | 一种基于空间增强模块的视频行为识别方法及*** | |
Rozumnyi et al. | Defmo: Deblurring and shape recovery of fast moving objects | |
Zhang et al. | Single image dehazing via dual-path recurrent network | |
Bescos et al. | Empty cities: Image inpainting for a dynamic-object-invariant space | |
CN112132847A (zh) | 模型训练方法、图像分割方法、装置、电子设备和介质 | |
CN111985281B (zh) | 图像生成模型的生成方法、装置及图像生成方法、装置 | |
CN114463218B (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN112464851A (zh) | 一种基于视觉感知的智能电网异物入侵检测方法及*** | |
CN112597824A (zh) | 行为识别方法、装置、电子设备和存储介质 | |
CN112818904A (zh) | 一种基于注意力机制的人群密度估计方法及装置 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
CN113570689A (zh) | 人像卡通化方法、装置、介质和计算设备 | |
Wu et al. | Cross-fiber spatial-temporal co-enhanced networks for video action recognition | |
CN114419102A (zh) | 一种基于帧差时序运动信息的多目标跟踪检测方法 | |
Zhang et al. | Video extrapolation in space and time | |
CN113191301A (zh) | 融合时序和空间信息的视频密集人群计数方法及*** | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |