CN109993096B - 一种面向视频目标检测的光流多层帧特征传播及聚合方法 - Google Patents
一种面向视频目标检测的光流多层帧特征传播及聚合方法 Download PDFInfo
- Publication number
- CN109993096B CN109993096B CN201910230235.2A CN201910230235A CN109993096B CN 109993096 B CN109993096 B CN 109993096B CN 201910230235 A CN201910230235 A CN 201910230235A CN 109993096 B CN109993096 B CN 109993096B
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- layer
- frame
- optical flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种面向视频目标检测的光流多层帧特征传播及聚合方法,涉及计算机视觉技术领域。该方法首先通过特征网络提取相邻帧的多层特征、光流网络提取光流,然后利用光流将当前帧的前一帧和当前帧的后一帧的多层帧级别特征传播到当前帧,步长不同的层需要对光流做上采样或下采样,获取多层传播特征;然后逐层依次聚合每层的传播特征,最后生成多层聚合的帧级别特征用于最后的视频目标检测。本发明提供的面向视频目标检测的光流多层帧特征传播及聚合方法,使得输出的帧级别聚合特征兼顾了浅层网络分辨率高和深层网络高维语义特征的优点,能提升检测性能,而且多层特征聚合的方法对小目标的检测性能有所提升。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种面向视频目标检测的光流多层帧特征传播及聚合方法。
背景技术
目前国内外视频目标检测方法主要可以划分为两类,一类为框水平的方法,另一类为基于光流的特征水平的方法。近些年,研究者关注于深层神经网络提取的高语义特征层次,通过光流对视频帧之间的运动信息建模,利用帧间的光流将相邻帧的特征传播到当前帧,预测或增强当前帧的特征,这种方法的优点是思路清晰,简单有效,并且可以端到端的训练模型。尽管光流可以用于特征层次的空间变换,但是利用光流信息传播帧间的特征存在误差,比如DFF和FGFA在传播帧之间的特征时,使用了残差网络最后一个残差块res5提取的特征,但是由于光流网络存在误差,导致局部特征不对齐,造成了两个问题:一是res5提取的特征分辨率低、语义层次高,每个像素点包含的语义信息都很丰富,如果在这些存在误差的传播特征上直接进行检测或聚合之后再进行检测,而不用一些方法矫正这些误差的像素点,会直接影响检测的性能;二是残差块res5提取特征的每个像素点在原始图像上的感受野较大,视频中的一些较小的目标低于64×64分辨率,在残差块res5对应的特征值范围低于4×4,单个像素点的误差对这些小目标的检测产生的影响远大于对较大的高于150×150分辨率的大目标检测。图像目标检测领域中,通常同时使用特征网络多层的特征进行检测,以提高检测精度,尤其是小目标的检测精度,称为特征金字塔,典型的方法如SSD、FPN,以上方法证明了特征网络不同层次的特征各有优点,联合多层一起检测能有效提升检测精度。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种面向视频目标检测的光流多层帧特征传播及聚合方法,实现对光流特征的传播与聚合。
为解决上述技术问题,本发明所采取的技术方案是:一种面向视频目标检测的光流多层帧特征传播及聚合方法,包括基于光流的多层帧级别特征提取与传播过程和基于多层传播特征的帧级别特征聚合过程两部分;
所述基于光流的多层帧级别特征提取与传播过程,包括以下步骤:
步骤S1:提取视频相邻帧的多层特征;
使用残差网络ResNet-101网络作为提取帧级别特征的特征网络;所述ResNet-101网络在不同的层上有不同的步长,修改残差块res5的最后三层输出步长为16,并在网络的最后添加一个扩张卷积层,将残差块res5输出的特征降维;
步骤S2:采用FlowNet光流网络提取视频的光流,并对光流进行后处理,使其针对特征网络各层不同尺寸的特征进行尺寸变换;
步骤S2.1:使用FlowNet网络的Simple版本提取视频的光流;直接从通道维度上串联视频图像的相邻两帧,将串联后的6通道图像输入到FlowNet网络中提取光流;
步骤S2.2:为了匹配特征的尺寸,对光流进行上采样和下采样;
步骤S2.2.1:给定视频的当前帧图像Ii和它的相邻帧图像Ii-t,则FlowNet网络输出的光流如下公式所示:
步骤S2.2.2:对光流进行上采样,得到对应特征步长为4的光流,如下公式所示:
步骤S2.2.3:对光流进行下采样,得到对应特征步长为16的光流,如下公式所示:
其中,s表示特征步长;
则第i+t帧的多层传播特征通过下式计算得到:
所述的基于多层传播特征的帧级别特征聚合过程,包括以下步骤:
步骤C3:重复以上聚合过程,逐一聚合特征网络每层的帧级别特征,并将上一层输出的聚合特征作为下一层的当前帧特征,直到获得特征网络最后一层的聚合特征,如下公式所示:
所述聚合第n层特征的放缩余弦相似性权重的计算方法为:
(1)、使用余弦相似性权重建模光流的质量分布;
给定当前帧特征fi和相邻帧传播的特征fi-t→i,则在空间位置p处它们之间的余弦相似性为:
公式(14)输出的权重沿通道求和,使输出的权重维度变为二维矩阵,维度为W×H,W和H分别为特征的宽度和高度,以减少需要学习的权重参数数量,使网络更容易训练;
(2)、直接从视频帧的外观特征中提取放缩因子,对视频帧的质量分布建模,得到帧级别的放缩余弦相似性权重,并将其作为步骤4的帧级别聚合权重;
由于λi-t为通道级别的向量,而余弦相似性权重wi-t→i为2维平面的矩阵,为了获得像素级别的权重,通过通道级的乘法结合两者;对于输出的放缩后的权重每个通道c,每个空间位置p处的像素值,通过下式计算得到:
通过公式(14)、(15)、(16)得到放缩后的余弦相似性权重;
相应地,第i+t帧传播特征的权重为:
所述映射网络和权重放缩网络共享前两层,在ResNet-101输出的1024维向量后使用1×1卷积和3×3卷积两个连续的卷积层,然后连接两个分支子网;第一个分支为1×1卷积,作为映射网络,用于输出映射后的特征第二个分支同样为1×1卷积,然后连接一个全局平均池化层,作为权重放缩网络,生成一个1024维的特征向量,对应ResNet-101输出特征向量的每个通道,用于衡量特征的重要性程度,控制特征时间聚合权重的放缩尺度。
采用上述技术方案所产生的有益效果在于:本发明提供的一种面向视频目标检测的光流多层帧特征传播及聚合方法,在特征网络的浅层输出(res3层、res4层)上传播特征,一方面浅层网络分辨率高,特征传播时,对小目标的容错率较高;另一方面浅层网络的传播误差可以通过后续网络减弱,甚至逐渐矫正。然后,在特征网络的浅层和深层同时传播特征并聚合深层与浅层特征,这样既利用了深层网络的高语义特征,又保留了浅层特征的高分辨率。使得输出的帧级别聚合特征兼顾了浅层网络分辨率高和深层网络高维语义特征的优点,能提升检测性能,而且多层特征聚合的方法对小目标的检测性能有所提升。
附图说明
图1为本发明实施例提供的一种面向视频目标检测的光流多层帧特征传播及聚合方法的流程图;
图2为本发明实施例提供的基于光流的多层特征传播及其聚合过程的示意图;
图3为本发明实施例提供的FlowNet网络结构(simple版本)的示意图;
图4为本发明实施例提供的不同网络层检测性能的对比图;
图5为本发明实施例提供的ImageNet VID验证集的真实框面积分布直方图及其分组划分。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施以视频数据集ImageNet VID为例,采用本发明的一种面向视频目标检测的光流多层帧特征传播及其聚合方法对该视频数据进行验证;
一种面向视频目标检测的光流多层帧特征传播及聚合方法,如图1和图2所示,包括基于光流的多层帧级别特征提取与传播过程和基于多层传播特征的帧级别特征聚合过程两部分;
所述基于光流的多层帧级别特征提取与传播过程,包括以下步骤:
步骤S1:提取视频相邻帧的多层特征;
使用残差网络ResNet-101网络作为提取帧级别特征的特征网络;所述ResNet-101网络在不同的层上有不同的步长,参考R-FCN网络,并修改残差块res5的最后三层输出步长为16,并在网络的最后添加一个扩张卷积层,将res5输出的特征降维;
本实施例,使用修改的ResNet-101网络作为提取帧级别特征的特征网络,各层的详细步长和空间尺度统计数据见表1。ResNet-101在网络不同的层上有不同的步长,修改最后三层res5a_relu、res5a_relu、res5b_relu的输出步长为16,并添加一个dilate=6,kernel=3,pad=6,num_filters=1024的扩张卷积层feat_conv_3×3_relu。
表1 ResNet-101各层步长统计
编号 | ResNet-101各层 | 步长 | 尺寸 |
1 | res2a_relu | 4 | 1/4 |
2 | res2b_relu | 4 | 1/4 |
3 | res2c_relu | 4 | 1/4 |
4 | res3a_relu | 8 | 1/8 |
5 | res3b1_relu | 8 | 1/8 |
6 | res3b2_relu | 8 | 1/8 |
7 | res3b3_relu | 8 | 1/8 |
8 | res4a_relu | 16 | 1/16 |
9 | res4b1_relu | 16 | 1/16 |
10 | res4b2_relu | 16 | 1/16 |
… | … | … | … |
30 | res4b22_relu | 16 | 1/16 |
31 | res5a_relu | 16 | 1/16 |
32 | res5b_relu | 16 | 1/16 |
33 | feat_conv_3×3_relu | 16 | 1/16 |
由于残差网络的结构特性,本实施例只统计了残差模块的输出层,内部层不统计,也不会用于特征传播,Number表示对应的网络层的编号,Layers列举了ResNet-101除前两层外的所有网络层输出,stride表示对应网络层输出的特征步长,spatial_scale表示对应层输出的尺度/原始图片尺度;本实施例中,使用res2b_relu层、res3b3_relu层、res4b22_relu层和feat_conv_3×3_relu层进行多层特征传播。
步骤S2:采用FlowNet光流网络提取视频的光流,并对光流进行后处理,使其针对特征网络各层不同尺寸的特征进行尺寸变换;
步骤S2.1:使用如图3所示的FlowNet网络的Simple版本提取视频的光流;直接从通道维度上串联视频图像的相邻两帧,将串联后的6通道图像输入到FlowNet网络中提取光流;
所述FlowNet网络通过下采样CNN提取两帧图像的包含高维语义信息的特征;
首先使用一个窗口大小为2×2,步长为2的平均池化层将原始输入图片尺寸减半,然后通过9个连续的卷积层使特征抽象水平提升,同时特征尺寸变为原来的1/32;
下采样CNN的输出特征图具有很高的语义,但是它的分辨率低,相对于原图来说,特征图在采用的过程中,丢失了很多图像之间的细节信息,这样的特征学出来的光流效果很差,因此FlowNet网络在下采样CNN后引入精炼模块,提高特征分辨率,学习图像间高质量的光流;
所述精炼模块基于FCN思想,采用了类似于FCN的反卷积操作,提升特征的分辨率,同时结合前面层的输出特征补充丢失的细节信息,最后输出双通道的光流;所述精炼模块网络结构为:首先通过一个反卷积将特征图尺寸增大一倍,然后和下采样CNN中对应的卷积层输出特征图沿着通道维度串联到一起,作为下一层的输入,后面的过程基本同样如此,不同之处在于后面每次都用一个流分支学习一个对应尺寸的光流,并将此光流沿着通道维度串联到输出特征图,继续作为下一层输入;
步骤S2.2:为了匹配特征的尺寸,对光流进行上采样和下采样;
步骤S2.2.1:给定视频的当前帧图像Ii和它的相邻帧图像Ii-t,则FlowNet网络输出的光流如下公式所示:
步骤S2.2.2:对光流进行上采样,得到对应特征步长为4的光流,如下公式所示:
步骤S2.2.3:对光流进行下采样,得到对应特征步长为16的光流,如下公式所示:
其中,s表示特征步长;
本实施例中,为了传播多层特征,对同一步长的各层使用相同的光流;例如,将res4a_relu层到扩张卷积层feat_conv_3×3_relu层都是用步长为16的光流传播特征。
其中,l表示层数,l∈(1,n),n为特征网络的总层数,与表1中第一列Number对应,表示特征网络的第l层输出;表示warp映射函数,其将第i-t帧特征fi-t中位置p的值映射到当前帧i的对应位置p+δp处,6p表示位置偏移;
则第i+t帧的多层传播特征通过下式计算得到:
所述的基于多层传播特征的帧级别特征聚合过程,包括以下步骤:
步骤C 3:重复以上聚合过程,逐一聚合特征网络每层的帧级别特征,并将上一层输出的聚合特征作为下一层的当前帧特征,直到获得特征网络最后一层的聚合特征,如下公式所示:
所述聚合第n层特征的放缩余弦相似性权重的计算方法为:
(1)、使用余弦相似性权重建模光流的质量分布;
给定当前帧特征fi和相邻帧传播的特征fi-t→i,则在空间位置p处它们之间的余弦相似性为:
公式(14)输出的权重沿通道求和,使输出的权重维度变为二维矩阵,维度为W×H,W和H分别为特征的宽度和高度,以减少需要学习的权重参数数量,使网络更容易训练;
(2)、直接从视频帧的外观特征中提取放缩因子,对视频帧的质量分布建模,得到帧级别的放缩余弦相似性权重,并将其作为步骤4的帧级别聚合权重;
由于λi-t为通道级别的向量,而余弦相似性权重wi-t→i为2维平面的矩阵,为了获得像素级别的权重,通过通道级的乘法结合两者;对于输出的放缩后的权重每个通道c,每个空间位置p处的像素值,通过下式计算得到:
通过公式(14)、(15)、(16)得到放缩后的余弦相似性权重;
相应地,第i+t帧传播特征的权重为:
所述映射网络和权重放缩网络共享前两层,在ResNet-101输出的1024维向量后使用1×1卷积和3×3卷积两个连续的卷积层,然后连接两个分支子网;第一个分支为1×1卷积,作为映射网络,用于输出映射后的特征第二个分支同样为1×1卷积,然后连接一个全局平均池化层,作为权重放缩网络,生成一个1024维的特征向量,对应ResNet-101输出特征向量的每个通道,用于衡量特征的重要性程度,控制特征时间聚合权重的放缩尺度。
本实施例选择ResNet-101的三个标准块的输出测试,即对res3块的输出res3c_relu,res4块的输出res4b22_relu和res5块的输出conv_3×3_feat进行测试,本实施例在res3c_relu附近,每隔5层采样一次,在res4块中每隔3层采样一次,最后采样出9层进行测试,对应的层数number为(2,7,12,19,21,24,27,30,33),检测的均值平均精度对比如图4所示。从图4可以看出,res4b22_relu的准确率最好,conv_3×3_feat的性能次之,res3c_relu的性能最差。并且从第17层开始,前面的层性能下降较快,后面的层均值平均精度的差距缩小,在第30层的检测精度达到最高。验证了浅层网络较深层网络特征传播性能更好,但是随着网络层数的变浅,这种性能会饱和,甚至由于分辨率的增加,导致光流预测难度增加,整体检测性能下降。
本实施例在ImageNet VID验证集上进行了测试。调整FGFA的特征传播层数,使其作为每个层级的baseline,测试结果如表2所示。
表2多层与单层传播特征聚合精度对比
通过表2的实验结果,可以看出,使用res4最后一层(res4b22_relu)传播的特征聚合要好于使用res5最后一层(FGFA),因此使用浅层网络较深层网络传播特征的性能更好。同样从结果可以看出,传播res4和res5的特征并聚合,能够进一步提升检测的性能(72.1→73.6↑1.5),验证了多层特征聚合对检测精度的提升。
为了更进一步证明多层特征聚合的方法对小目标的检测性能的提升,将VID验证集按照真实框面积划分为小、中、大三个分组,如图5所示。目标大小的划分标准为面积介于(0,642)之间的分类为小,介于(642,1502)之间的分类为中,大于1502的分类为大。本实施例统计了验证集中的各分组的占比分布,如图5所示。从图5中可以看出,VID验证集中大目标占大多数(60.0%),小目标数量很少(13.5%),本实施例分别在ImageNet VID验证集的这三个分组上测试了单一的深层(res5最后一层)特征传播、单一的浅层(res4最后一层)特征传播和融合多层(res4+res5最后一层)传播特征的性能对比,测试结果如表3所示。
表3不同方法在ImageNet VID验证集不同大小目标上的检测精度
方法 | 均值平均精度(%)(小) | 均值平均精度(%)(中) | 均值平均精(%)(大) |
FGFA(res5) | 26.9 | 51.4 | 83.0 |
FGFA(res4) | 29.5 | 50.8 | 84.1 |
FGFA(res4+res5) | 30.1 | 51.9 | 84.5 |
由表3可知,浅层特征聚合对小目标的检测性能高于深层特征聚合(26.9%→29.5%↑2.6%),说明对于小目标检测来说,浅层特征传播的误差比深层特征传播的误差影响更小。同时聚合浅层与深层的特征,在验证集的所有子部分中都取得了最好的检测性能,说明融合深层、浅层的特征能更加全面的提升检测性能,且证明了本发明的多层特征聚合算法能很好的融合多层特征各自的优点。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (4)
1.一种面向视频目标检测的光流多层帧特征传播及聚合方法,其特征在于:包括基于光流的多层帧级别特征提取与传播过程和基于多层传播特征的帧级别特征聚合过程两部分;
所述基于光流的多层帧级别特征提取与传播过程,包括以下步骤:
步骤S1:提取视频相邻帧的多层特征;
使用残差网络ResNet-101网络作为提取帧级别特征的特征网络,ResNet-101网络在不同的层上有不同的步长,并修改残差块res5的最后三层输出步长为16,并在网络的最后添加一个扩张卷积层,将残差块res5输出的特征降维;
步骤S2:采用FlowNet光流网络提取视频的光流,并对光流进行后处理,使其针对特征网络各层不同尺寸的特征进行尺寸变换;
步骤S2.1:使用FlowNet网络的Simple版本提取视频的光流;直接从通道维度上串联视频图像的相邻两帧,将串联后的6通道图像输入到FlowNet网络中提取光流;
步骤S2.2:为了匹配特征的尺寸,对光流进行上采样和下采样,得到适用于多层特征传播的光流;
所述的基于多层传播特征的帧级别特征聚合过程,包括以下步骤:
步骤C3:重复以上聚合过程,逐一聚合特征网络每层的帧级别特征,并将上一层输出的聚合特征作为下一层的当前帧特征,直到获得特征网络最后一层的聚合特征,如下公式所示:
所述聚合第n层特征的放缩余弦相似性权重的计算方法为:
(1)、使用余弦相似性权重建模光流的质量分布;
(2)、从视频帧的外观特征中提取放缩因子,对视频帧的质量分布建模,得到帧级别的放缩余弦相似性权重,并将其作为帧级别聚合权重。
2.根据权利要求1所述的一种面向视频目标检测的光流多层帧特征传播及聚合方法,其特征在于:所述步骤S2.2的具体方法为:
步骤S2.2.1:给定视频的当前帧图像Ii和它的相邻帧图像Ii-t,则FlowNet网络输出的光流如下公式所示:
步骤S2.2.2:对光流进行上采样,得到对应特征步长为4的光流,如下公式所示:
步骤S2.2.3:对光流进行下采样,得到对应特征步长为16的光流,如下公式所示:
其中,s表示特征步长。
4.根据权利要求1所述的一种面向视频目标检测的帧级别特征聚合方法,其特征在于:步骤C3所述使用余弦相似性权重建模光流的质量分布的具体方法为:
所述从视频帧的外观特征中提取放缩因子,对视频帧的质量分布建模,得到帧级别的放缩余弦相似性权重的具体方法为:
给定当前帧特征fi和相邻帧传播的特征fi-t→i,则在空间位置p处它们之间的余弦相似性为:
公式(14)输出的权重沿通道求和,使输出的权重维度变为二维矩阵,维度为W×H,W和H分别为特征的宽度和高度,以减少需要学习的权重参数数量,使网络更容易训练。
由于λi-t为通道级别的向量,而余弦相似性权重wi-t→i为2维平面的矩阵,为了获得像素级别的权重,通过通道级的乘法结合两者;对于输出的放缩后的权重的每个通道c,每个空间位置p处的像素值,通过下式计算得到:
通过公式(14)、(15、(16)得到放缩后的余弦相似性权重;
相应地,第i+t帧传播特征的权重为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910230235.2A CN109993096B (zh) | 2019-03-26 | 2019-03-26 | 一种面向视频目标检测的光流多层帧特征传播及聚合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910230235.2A CN109993096B (zh) | 2019-03-26 | 2019-03-26 | 一种面向视频目标检测的光流多层帧特征传播及聚合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109993096A CN109993096A (zh) | 2019-07-09 |
CN109993096B true CN109993096B (zh) | 2022-12-20 |
Family
ID=67131468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910230235.2A Active CN109993096B (zh) | 2019-03-26 | 2019-03-26 | 一种面向视频目标检测的光流多层帧特征传播及聚合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109993096B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400305A (zh) * | 2019-07-26 | 2019-11-01 | 哈尔滨理工大学 | 一种基于深度学习的目标检测方法 |
CN110852199A (zh) * | 2019-10-28 | 2020-02-28 | 中国石化销售股份有限公司华南分公司 | 一种基于双帧编码解码模型的前景提取方法 |
CN110866509B (zh) | 2019-11-20 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、计算机存储介质和计算机设备 |
CN111144376B (zh) * | 2019-12-31 | 2023-12-05 | 华南理工大学 | 视频目标检测特征提取方法 |
CN113673545A (zh) * | 2020-05-13 | 2021-11-19 | 华为技术有限公司 | 光流估计方法、相关装置、设备及计算机可读存储介质 |
CN112307872A (zh) * | 2020-06-12 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 用于检测目标对象的方法的和装置 |
CN111860293B (zh) * | 2020-07-16 | 2023-12-22 | 中南民族大学 | 遥感场景分类方法、装置、终端设备及存储介质 |
CN111950612B (zh) * | 2020-07-30 | 2021-06-01 | 中国科学院大学 | 基于fpn的融合因子的弱小目标检测方法 |
CN112307889B (zh) * | 2020-09-22 | 2022-07-26 | 北京航空航天大学 | 一种基于小型辅助网络的人脸检测算法 |
CN112394356B (zh) * | 2020-09-30 | 2024-04-02 | 桂林电子科技大学 | 一种基于U-Net的小目标无人机检测***及方法 |
CN111968064B (zh) * | 2020-10-22 | 2021-01-15 | 成都睿沿科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN112966581B (zh) * | 2021-02-25 | 2022-05-27 | 厦门大学 | 一种基于内外语义聚合的视频目标检测方法 |
CN113223044A (zh) * | 2021-04-21 | 2021-08-06 | 西北工业大学 | 一种结合特征聚合和注意力机制的红外视频目标检测方法 |
CN113570608B (zh) * | 2021-06-30 | 2023-07-21 | 北京百度网讯科技有限公司 | 目标分割的方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108242062A (zh) * | 2017-12-27 | 2018-07-03 | 北京纵目安驰智能科技有限公司 | 基于深度特征流的目标跟踪方法、***、终端及介质 |
CN109376611A (zh) * | 2018-09-27 | 2019-02-22 | 方玉明 | 一种基于3d卷积神经网络的视频显著性检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152627B2 (en) * | 2017-03-20 | 2018-12-11 | Microsoft Technology Licensing, Llc | Feature flow for video recognition |
-
2019
- 2019-03-26 CN CN201910230235.2A patent/CN109993096B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108242062A (zh) * | 2017-12-27 | 2018-07-03 | 北京纵目安驰智能科技有限公司 | 基于深度特征流的目标跟踪方法、***、终端及介质 |
CN109376611A (zh) * | 2018-09-27 | 2019-02-22 | 方玉明 | 一种基于3d卷积神经网络的视频显著性检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109993096A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993096B (zh) | 一种面向视频目标检测的光流多层帧特征传播及聚合方法 | |
CN111583109B (zh) | 基于生成对抗网络的图像超分辨率方法 | |
CN109118432B (zh) | 一种基于快速循环卷积网络的图像超分辨率重建方法 | |
CN109087273B (zh) | 基于增强的神经网络的图像复原方法、存储介质及*** | |
WO2018161775A1 (zh) | 一种用于图像处理的神经网络模型的训练方法、装置和存储介质 | |
CN109035142B (zh) | 一种对抗网络结合航拍图像先验的卫星图像超分辨方法 | |
CN107274347A (zh) | 一种基于深度残差网络的视频超分辨率重建方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN111402129A (zh) | 一种基于联合上采样卷积神经网络的双目立体匹配方法 | |
CN111179167A (zh) | 一种基于多阶段注意力增强网络的图像超分辨方法 | |
Li et al. | FilterNet: Adaptive information filtering network for accurate and fast image super-resolution | |
CN110060204B (zh) | 一种基于可逆网络的单一图像超分辨率方法 | |
CN110889895A (zh) | 一种融合单帧重建网络的人脸视频超分辨率重建方法 | |
CN108830812A (zh) | 一种基于网格结构深度学习的视频高帧率重制方法 | |
CN112365514A (zh) | 基于改进PSPNet的语义分割方法 | |
CN110136067B (zh) | 一种针对超分辨率b超影像的实时影像生成方法 | |
CN108765282B (zh) | 基于fpga的实时超分辨方法及*** | |
CN102915527A (zh) | 基于形态学成分分析的人脸图像超分辨率重建方法 | |
CN111931857B (zh) | 一种基于mscff的低照度目标检测方法 | |
CN111145102A (zh) | 一种基于卷积神经网络的合成孔径雷达图像去噪方法 | |
Sun et al. | Learning local quality-aware structures of salient regions for stereoscopic images via deep neural networks | |
CN114842216A (zh) | 一种基于小波变换的室内rgb-d图像语义分割方法 | |
CN111986085A (zh) | 一种基于深度反馈注意力网络***的图像超分辨率方法 | |
CN115760814A (zh) | 一种基于双耦合深度神经网络的遥感图像融合方法及*** | |
CN115526779A (zh) | 一种基于动态注意力机制的红外图像超分辨率重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |