CN109583340B - 一种基于深度学习的视频目标检测方法 - Google Patents
一种基于深度学习的视频目标检测方法 Download PDFInfo
- Publication number
- CN109583340B CN109583340B CN201811374255.9A CN201811374255A CN109583340B CN 109583340 B CN109583340 B CN 109583340B CN 201811374255 A CN201811374255 A CN 201811374255A CN 109583340 B CN109583340 B CN 109583340B
- Authority
- CN
- China
- Prior art keywords
- network
- frame
- detection
- feature
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 claims abstract description 13
- 230000003287 optical effect Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 238000011160 research Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的视频目标检测方法,应用于视频目标检测领域。方法利用卷积神经网络进行图像特征的提取,提出了时间‑空间特征提取网络,用于提取视频的空间上下文和时间上下文信息,并将图像特征与时间、空间上下文信息融合,更新骨干网络输出的特征图,最后将所得特征图输入检测网络,得到最终的检测结果,兼顾了目标检测的准确性和实时性。这种方法有效的提升了检测的准确性和实时性。
Description
技术领域
本发明涉及目标检测领域,更具体地,涉及一种基于深度学习的视频目标检测方法。
背景技术
近年来,深度学习在计算机视觉领域取得了前所未有的突破,通过多层神经网络的结构,整合图像的整体信息,从更高、更抽象的层次对图像特征进行表达。当前,基于卷积神经网络(CNN)的深度学习模型被广泛应用在目标检测当中,并被证明具有优于传统手工特征方法的效果。
当前,目标检测方式主要分为两大类:一类是基于手工特征提取的目标检测方法,另一类是基于深度学习特征提取的目标检测方法。典型的手工特征包括了形状、轮廓信息等,也可以是具有统计特性的Haar特征、Hog特征等。这些特征能够在一定程度上描述图像,结合传统的有监督机器学习分类器,在某些任务上能够满足检测需要。然而现有的技术存在以下缺陷:(1)基于人工设计的特征提取方法通常需要相关领域知识或大量统计数据,因而需要极大的研究成本;另外,手工特征的泛化能力较弱,一定程度上影响其准确性。(2)基于深度学习的特征提取方法计算量一般较为巨大,妨碍了实际场景中的应用。(3)当前目标检测研究更为注重静态图像的检测,在视频上仅利用视频的冗余信息,对检测结果进行后处理,或利用光流重新计算特征,没有充分融合视频的时间、空间上下文信息,因此兼顾准确率和实时性的视频目标检测仍是目前相关研究和应用的重要挑战。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种更加准确和实时的基于深度学习的视频目标检测方法。
为解决上述技术问题,本发明的技术方案如下:一种更加准确和实时的基于深度学习的视频目标检测方法,包括以下步骤:
S1:归一化训练图像尺寸,以及初始化骨干网络、时间-空间特征提取网络和检测网络的参数;
S2:将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数;
S3:将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果。
本发明利用骨干网络进行图像特征的提取,主要通过时间-空间特征提取网络,用于提取视频的空间上下文和时间上下文信息,并将图像特征与时间、空间上下文信息融合,更新骨干网络输出的特征图,最后将所得特征图输入检测网络,得到最终的检测结果。
优选地,步骤S1中的训练图像统一归一化为同样像素大小的图像。
优选地,步骤S2将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数的具体步骤为:
S21:选取同一视频相距n帧内的两帧图像作为训练样本,将两帧图像中的前一帧作为参考帧Ik,后一帧作为预测帧Ii;
S22:将参考帧Ik作为输入,经过骨干网络Nfeat,提取图像特征,输出对应的参考帧特征图fk,其公式表示如下:
fk=Nfeat(Ik)
S23:将参考帧和预测帧同时输入时间-空间特征提取网络Ntime-space,得到帧间的光流信息Ti,k和空间显著度概率图Si,k,其公式表示如下:
Ti,k,Si,k=Ntime-space(Ii,Ik);
S24:利用光流信息和参考帧的特征图,通过双线性插值的方法生成预测帧的初始特征图fi′,再与空间显著度概率图做基于元素的相乘,作为预测帧最终的特征图fi,其公式表示如下:
fi′=Bilinear(fk,Ti,k)
其中Bilinear表示双线性插值处理;
S25:将特征图fi,经过检测网络Ndet,输出最终的检测结果y:
y=Ndet(fi);
S26:结合检测结果和真实的标注信息,计算损失函数,并通过随机梯度下降法分别更新骨干网络、时间-空间特征提取网络以及检测网络的参数。
优选地,步骤S3将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果的具体步骤为:
S31:处理待检测视频,按固定间隔d选取关键帧,即每隔d帧选取1个关键帧,其余为非关键帧;
S32:输入视频首帧I0,记作最初的关键帧,即Ik=I0,将其输入到骨干网络中得到f0,将f0作为关键帧的特征图,即fk=f0,将其输入到检测网络中得到检测结果y0;
S33:依次处理视频中的每一帧,若当前帧Ii为关键帧,将其输入到骨干网络中得到fi′,通过时间-空间特征提取网络更新特征图得到fi,再将其输入到检测网络中得到检测结果yi,最后更新参考关键帧及其特征图信息,使Ik=Ii,fk=fi′;
S34:若当前帧Ii为非关键帧,将其与关键帧Ik输入到时间-空间特征提取网络得到帧间的光流信息Ti,k和空间显著度概率图Si,k,利用光流信息对关键帧的特征图进行双线性插值,得到当前帧特征图fi′,再利用空间信息更新当前帧特征图得到fi,最后将其输入到检测网络中得到检测结果yi。
优选地,所述的骨干网络采用了ResNet-101模型,包括若干个卷积层和池化层,用于提取关键帧的图像特征。
优选地,所述的时间-空间特征提取网络包括主干部分、空间特征提取分支和时间特征提取分支;主干部分以关键帧和当前帧在RGB通道拼接后的图像作为输入,主干部分包括若干个卷积层,并且通过若干个卷积层提取帧间不同层次的特征信息,空间特征提取分支和时间特征提取分支共享这若干个卷积层的参数。
优选地,所述主干部分包括6个卷积层,分别是conv1、conv2、conv3、conv3_1、conv4、conv4_1,其中conv1的卷积核尺寸为7×7,conv2、conv3的卷积核尺寸为5×5,conv3_1、conv4、conv4_1的卷积核尺寸为3×3。
优选地,空间特征提取分支包括conv8、通道池化和Si,k,该网络以主干部分提取的特征图作为输入,经过1个卷积层和通道池化后得到空间显著度概率图Si,k,其中conv8卷积核大小为3×3,移动步长为1;
优选地,时间特征提取分支包括卷积层conv5、conv5_1、conv6、conv7,反卷积层deconv1、deconv2;该网络以主干部分提取的特征图作为输入,经过卷积层和反卷积层后,输出与特征图同样大小,通道数为2的光流图像,表示当前图像特征在关键帧特征图x、y轴上的迁移信息;其中卷积层conv5、conv5_1、conv6、conv7的卷积核大小都是3×3,conv5_1和conv7的卷积核移动步长为1,conv5,conv6的卷积核移动步长为2;反卷积层deconv1和deconv2,卷积核大小为4×4,移动步长为2。
与现有技术相比,本发明技术方案的有益效果是:首先本发明合理地利用了视频的空间上下文信息,提出了空间显著度的概念,提升了检测的准确率;其次,设计了时间-空间特征提取网络,高效地提取了邻近帧存在的上下文信息,时间上下文特征和空间上下文特征共同训练,共享参数,有效控制了神经网络模型的大小,兼顾了目标检测的准确性和实时性。
附图说明
图1为本发明流程图。
图2为本发明中目标检测流程示意图。
图3为本发明骨干网络以及时间-空间特征提取网络示意图。
图4卷积神经网络整体结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示的流程图,本发明的步骤包括:
S1:将训练图像统一归一化到600×1000像素大小,并初始化卷积神经网络的参数;
S2:训练骨干网络、时间-空间特征提取网络以及检测网络;
S21:随机选取同一视频相距n帧内的两帧图像作为训练样本,在本发明具体实施例中n取10,由于在训练中不存在关键帧和非关键帧的概念,训练中将两帧图像中的前一帧作为参考帧Ik,后一帧作为预测帧Ii;
S22:将参考帧Ik作为输入,经过骨干网络Nfeat,提取图像特征,输出对应的参考帧特征图fk,其公式表示如下:
fk=Nfeat(Ik)
S23:将参考帧和预测帧图像同时输入时间-空间特征提取网络Ntime-space,得到帧间的光流信息Ti,k和空间显著度概率图Si,k,分别代表时间维度和空间维度的信息,其公式表示如下:
Ti,k,Si,k=Ntime-space(Ii,Ik);
S24:利用光流信息和参考帧的特征图,通过双线性插值的方法生成预测帧的初始特征图fi′,再与空间显著度概率图做基于元素的相乘,作为预测帧最终的特征图fi,其公式表示如下:
fi′=Bilinear(fk,Ti,k)
其中Bilinear表示双线性插值处理;
S25:将特征图fi,经过检测网络Ndet,输出最终的检测结果y:
y=Ndet(fi);
S26:结合检测结果和真实的标注信息,计算损失函数,并通过随机梯度下降法分别更新骨干网络、时间-空间特征提取网络以及检测网络的参数。
S3:对待检测视频进行目标检测并输出最终的预测框以及分类结果,其具体步骤如图2所示。
S31:处理待检测视频,按固定间隔d选取关键帧,即每隔d帧选取1个关键帧,其余为非关键帧;
S32:输入视频首帧I0,记作最初的关键帧,即Ik=I0,将其输入到骨干网络中得到f0,将f0作为关键帧的特征图,即fk=f0,将其输入到检测网络中得到检测结果y0,其中首帧不做时间-空间特征提取;
S33:依次处理视频中的每一帧,若当前帧Ii为关键帧,将其输入到骨干网络中得到fi′,通过时间-空间特征提取网络更新特征图得到fi,再将其输入到检测网络中得到检测结果yi,最后更新参考关键帧及其特征图信息,使Ik=Ii,fk=fi′;
S34:若当前帧Ii为非关键帧,将其与关键帧Ik输入到时间-空间特征提取网络得到帧间的光流信息Ti,k和空间显著度概率图Si,k,利用光流信息对关键帧的特征图进行双线性插值,得到当前帧特征图fi′,再利用空间信息更新当前帧特征图得到fi,最后将其输入到检测网络中得到检测结果yi。
在具体实施过程中,首先将视频图像分为了关键帧和非关键帧两类。对于关键帧,首先将图像输入到骨干网络中,然后将此关键帧和前一张关键帧输入时间-空间特征提取网络,从空间特征提取分支中得到空间显著度概率图,与原特征图做基于元素(element-wise)的乘法,突显特征图中的关键区域,并抑制次要特征区域;对于非关键帧,其特征图由关键帧的特征图和时间-空间特征提取网络中的时间特征提取分支得到的光流信息生成,此举有效提高了检测的速度。最后通过基于区域建议网络(RPN)模型进行候选框提取,通过区域全卷积(RFCN)模型输出最终的检测分类结果。为了减少网络模型的参数,时间上下文特征和空间上下文特征的提取会共享同一个网络,其卷积神经网络整体结构如图4所示。
时间-空间特征提取网络包括主干部分、空间特征提取分支和时间特征提取分支。主干部分包括了图3中从conv1到conv4_1的6个卷积层,为时间特征提取分支和空间特征提取分支共享参数的部分,该部分将关键帧和当前帧的RGB通道拼接(concat)后的图像作为输入,通过卷积层提取帧间不同层次的特征信息。其中conv1,conv2,conv3,conv4四个卷积层的卷积核移动步长为2,除了特征提取的作用之外,也起到了下采样的效果。由于浅层特征一般具有较大的空间相关性,因此,在前期的卷积层中,会选取感受野更大的卷积核,本发明中conv1中卷积核尺寸为7×7,conv2、conv3为5×5。其余3个卷积层的卷积核大小均为3×3。
空间特征提取分支包括了图3中的conv8、通道池化和Si,k。该分支以主干部分输出的特征图作为输入,经过1个卷积层和通道池化后,输出与特征图同样大小,通道数为1的空间显著度概率图,表示特征在不同位置的重要程度,其中卷积层conv8卷积核大小为3×3,移动步长为1。该概率图会与骨干网络形成得到的特征图做基于元素的乘法,得到带有邻近帧空间信息的特征图。另外,通道池化的具体操作是对特征图同一位置的所有通道值进行平均,类似于池化,故称作通道池化,可用以下公式表示,其中C为特征图的通道数,gx,y,c的为特征图在横纵坐标x、y、通道c的数值:
时间特征提取分支包括了图3中未提及的其余部分。该分支以主干部分输出的特征图作为输入,经过卷积层和反卷积层后,输出与特征图同样大小,通道数为2的光流图像,表示当前图像特征在关键帧特征图x、y轴上的迁移信息。其中卷积层卷积核大小均为3×3,conv5,conv6的卷积核移动步长为2,其余卷积核移动步长为1。对于反卷积层,卷积核大小为4×4,移动步长为2,起到特征上采样的作用。形成的光流图像连同关键帧的特征图,用于非关键帧特征图的生成。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于深度学习的视频目标检测方法,其特征在于:包括以下步骤:
S1:归一化训练图像尺寸,以及初始化骨干网络、时间-空间特征提取网络和检测网络的参数;
S2:将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数;
S3:将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果;
步骤S2将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数的具体步骤为:
S21:选取同一视频相距n帧内的两帧图像作为训练样本,将两帧图像中的前一帧作为参考帧Ik,后一帧作为预测帧Ii;
S22:将参考帧Ik作为输入,经过骨干网络Nfeat,提取图像特征,输出对应的参考帧特征图fk,其公式表示如下:
fk=Nfeat(Ik)
S23:将参考帧和预测帧同时输入时间-空间特征提取网络Ntime-space,得到帧间的光流信息Ti,k和空间显著度概率图Si,k,其公式表示如下:
Ti,k,Si,k=Ntime-space(Ii,Ik);
S24:利用光流信息和参考帧的特征图,通过双线性插值的方法生成预测帧的初始特征图fi′,再与空间显著度概率图做基于元素的相乘,作为预测帧最终的特征图fi,其公式表示如下:
fi′=Bilinear(fk,Ti,k)
其中Bilinear表示双线性插值处理;
S25:将特征图fi,经过检测网络Ndet,输出最终的检测结果y:
y=Ndet(fi);
S26:结合检测结果和真实的标注信息,计算损失函数,并通过随机梯度下降法分别更新骨干网络、时间-空间特征提取网络以及检测网络的参数;
步骤S3将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果的具体步骤为:
S31:处理待检测视频,按固定间隔d选取关键帧,即每隔d帧选取1个关键帧,其余为非关键帧;
S32:输入视频首帧I0,记作最初的关键帧,即Ik=I0,将其输入到骨干网络中得到f0,将f0作为关键帧的特征图,即fk=f0,将其输入到检测网络中得到检测结果y0;
S33:依次处理视频中的每一帧,若当前帧Ii为关键帧,将其输入到骨干网络中得到fi′,通过时间-空间特征提取网络更新特征图得到fi,再将其输入到检测网络中得到检测结果yi,最后更新参考关键帧及其特征图信息,使Ik=Ii,fk=fi′;
S34:若当前帧Ii为非关键帧,将其与关键帧Ik输入到时间-空间特征提取网络得到帧间的光流信息Ti,k和空间显著度概率图Si,k,利用光流信息对关键帧的特征图进行双线性插值,得到当前帧特征图fi′,再利用空间信息更新当前帧特征图得到fi,最后将其输入到检测网络中得到检测结果yi;
所述的时间-空间特征提取网络包括主干部分、空间特征提取分支和时间特征提取分支;
主干部分以关键帧和当前帧在RGB通道拼接后的图像作为输入,主干部分包括若干个卷积层,并且通过若干个卷积层提取帧间不同层次的特征信息,空间特征提取分支和时间特征提取分支共享这若干个卷积层的参数。
2.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:步骤S1中的训练图像统一归一化为同样像素大小的图像。
3.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:步骤S32中首帧不做时间-空间特征提取。
4.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:所述的骨干网络采用了ResNet-101模型,包括若干个卷积层和池化层,用于提取关键帧的图像特征。
5.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:所述的主干部分包括6个卷积层,分别是conv1、conv2、conv3、conv3_1、conv4、conv4_1,其中conv1的卷积核尺寸为7×7,conv2、conv3的卷积核尺寸为5×5,conv3_1、conv4、conv4_1的卷积核尺寸为3×3。
6.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:所述的空间特征提取分支包括conv8、通道池化和Si,k,该网络以骨干网络提取的特征图作为输入,经过1个卷积层和通道池化后得到空间显著度概率图Si,k,其中conv8卷积核大小为3×3,移动步长为1。
7.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:所述的时间特征提取分支包括卷积层conv5、conv5_1、conv6、conv7,反卷积层deconv1、deconv2;该网络以骨干网络提取的特征图作为输入,经过卷积层和反卷积层后,输出与特征图同样大小,通道数为2的光流图像,表示当前图像特征在关键帧特征图x、y轴上的迁移信息;其中卷积层conv5、conv5_1、conv6、conv7的卷积核大小都是3×3,conv5_1和conv7的卷积核移动步长为1,conv5,conv6的卷积核移动步长为2;反卷积层deconv1和deconv2,卷积核大小为4×4,移动步长为2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811374255.9A CN109583340B (zh) | 2018-11-15 | 2018-11-15 | 一种基于深度学习的视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811374255.9A CN109583340B (zh) | 2018-11-15 | 2018-11-15 | 一种基于深度学习的视频目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109583340A CN109583340A (zh) | 2019-04-05 |
CN109583340B true CN109583340B (zh) | 2022-10-14 |
Family
ID=65923012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811374255.9A Active CN109583340B (zh) | 2018-11-15 | 2018-11-15 | 一种基于深度学习的视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109583340B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046568B (zh) * | 2019-04-11 | 2022-12-06 | 中山大学 | 一种基于时间感知结构的视频动作识别方法 |
CN110263809B (zh) * | 2019-05-16 | 2022-12-16 | 华南理工大学 | 池化特征图处理方法、目标检测方法、***、装置和介质 |
CN110222595A (zh) * | 2019-05-20 | 2019-09-10 | 中国科学院大学 | 一种基于时空卷积神经网络的视频目标分割方法 |
CN110287927B (zh) * | 2019-07-01 | 2021-07-27 | 西安电子科技大学 | 基于深度多尺度和上下文学习的遥感影像目标检测方法 |
CN110348356A (zh) * | 2019-07-03 | 2019-10-18 | 北京遥感设备研究所 | 一种基于深度光流网络的连续帧rd图像目标识别方法 |
CN111160085A (zh) * | 2019-11-19 | 2020-05-15 | 天津中科智能识别产业技术研究院有限公司 | 一种人体图像关键点姿态估计方法 |
CN111144376B (zh) * | 2019-12-31 | 2023-12-05 | 华南理工大学 | 视频目标检测特征提取方法 |
CN111460971B (zh) * | 2020-03-27 | 2023-09-12 | 北京百度网讯科技有限公司 | 视频概念检测方法、装置以及电子设备 |
CN111882555B (zh) * | 2020-08-07 | 2024-03-12 | 中国农业大学 | 基于深度学习的网衣检测方法、装置、设备及存储介质 |
CN112348116B (zh) * | 2020-11-30 | 2024-02-02 | 长沙理工大学 | 利用空间上下文的目标检测方法、装置和计算机设备 |
CN112738647B (zh) * | 2020-12-28 | 2022-04-01 | 中山大学 | 一种基于多层级编码-解码器的视频描述方法及*** |
CN113284155B (zh) * | 2021-06-08 | 2023-11-07 | 京东科技信息技术有限公司 | 视频目标分割方法、装置、存储介质及电子设备 |
CN113628245B (zh) * | 2021-07-12 | 2023-10-31 | 中国科学院自动化研究所 | 多目标跟踪方法、装置、电子设备和存储介质 |
CN113822172B (zh) * | 2021-08-30 | 2024-06-14 | 中国科学院上海微***与信息技术研究所 | 一种视频时空行为检测方法 |
CN117252832B (zh) * | 2023-09-20 | 2024-06-18 | 什维新智医疗科技(上海)有限公司 | 一种超声结节实时检测方法、***、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101577824B (zh) * | 2009-06-12 | 2011-01-19 | 西安理工大学 | 基于邻近i帧dc图像相似度的压缩域关键帧提取方法 |
EP2511878B1 (en) * | 2011-04-12 | 2020-05-06 | Samsung Medison Co., Ltd. | Providing three-dimensional ultrasound image based on three-dimensional color reference table in ultrasound system |
CN102629385B (zh) * | 2012-02-28 | 2014-09-24 | 中山大学 | 一种基于多摄像机信息融合的目标匹配与跟踪***及方法 |
CN102682302B (zh) * | 2012-03-12 | 2014-03-26 | 浙江工业大学 | 一种基于关键帧的多特征融合的人体姿态识别方法 |
CN107273870A (zh) * | 2017-07-07 | 2017-10-20 | 郑州航空工业管理学院 | 一种监控场景下融合上下文信息的行人位置检测方法 |
-
2018
- 2018-11-15 CN CN201811374255.9A patent/CN109583340B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109583340A (zh) | 2019-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109583340B (zh) | 一种基于深度学习的视频目标检测方法 | |
WO2021043168A1 (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN106682108B (zh) | 一种基于多模态卷积神经网络的视频检索方法 | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
CN109472191B (zh) | 一种基于时空上下文的行人重识别与追踪方法 | |
CN107516316B (zh) | 一种在fcn中引入聚焦机制对静态人体图像进行分割的方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN108009493B (zh) | 基于动作增强的人脸防欺骗识别方法 | |
CN107066916B (zh) | 基于反卷积神经网络的场景语义分割方法 | |
CN106446015A (zh) | 一种基于用户行为偏好的视频内容访问预测与推荐方法 | |
CN112070044B (zh) | 一种视频物体分类方法及装置 | |
Yan et al. | Combining the best of convolutional layers and recurrent layers: A hybrid network for semantic segmentation | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111507334B (zh) | 一种基于关键点的实例分割方法 | |
CN107730536B (zh) | 一种基于深度特征的高速相关滤波物体追踪方法 | |
CN113344932B (zh) | 一种半监督的单目标视频分割方法 | |
CN111428664B (zh) | 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法 | |
CN108596240B (zh) | 一种基于判别特征网络的图像语义分割方法 | |
CN111696110A (zh) | 场景分割方法及*** | |
US20220108545A1 (en) | Method and device for high-speed image recognition using 3d cnn | |
CN112766021A (zh) | 一种基于行人的关键点信息与语义分割信息进行行人重识别的方法 | |
Zhang et al. | A crowd counting framework combining with crowd location | |
Das et al. | AttentionBuildNet for building extraction from aerial imagery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |