CN107808122B - 目标跟踪方法及装置 - Google Patents

目标跟踪方法及装置 Download PDF

Info

Publication number
CN107808122B
CN107808122B CN201710920018.7A CN201710920018A CN107808122B CN 107808122 B CN107808122 B CN 107808122B CN 201710920018 A CN201710920018 A CN 201710920018A CN 107808122 B CN107808122 B CN 107808122B
Authority
CN
China
Prior art keywords
neural network
target
bounding box
convolutional neural
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710920018.7A
Other languages
English (en)
Other versions
CN107808122A (zh
Inventor
杨依凡
王宇庆
杨航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Institute of Optics Fine Mechanics and Physics of CAS
Original Assignee
Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Institute of Optics Fine Mechanics and Physics of CAS filed Critical Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority to CN201710920018.7A priority Critical patent/CN107808122B/zh
Publication of CN107808122A publication Critical patent/CN107808122A/zh
Application granted granted Critical
Publication of CN107808122B publication Critical patent/CN107808122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种目标跟踪方法及装置,将两层卷积神经网络与时间递归神经网络模型相结合,解决了对于小目标的检测率低的问题。而且,提取背景中与目标关联的信息进行目标检测,提高了目标跟踪模型在视频目标检测中的速度与准确率。

Description

目标跟踪方法及装置
技术领域
本申请涉及目标检测技术领域,更具体地说,涉及一种目标跟踪方法及装置。
背景技术
目标跟踪一直是计算机视觉,模式识别领域中的热点问题,它在视频监控,人机交互,车辆导航等方面都有广泛的应用。发明人在实现本申请的过程中发现,目前的目标跟踪方法,对于很小的群体检测效果较差。
因此,如何提高目标检测结果的准确率成为亟待解决的问题。
发明内容
本申请的目的是提供一种目标跟踪方法及装置,以提高目标检测结果的准确率。
为实现上述目的,本申请提供了如下技术方案:
一种目标跟踪方法,通过预先训练好的目标跟踪模型对视频流中每一帧图像进行目标检测,包括:
所述目标跟踪模型中的第一卷积神经网络对所述图像进行目标检测,得到检测到的目标在所述图像中的位置,以及所检测到的目标的类别;
所述目标跟踪模型中的第二卷积神经网络对所述图像进行基于背景的目标检测,得到背景中与不同类别的目标相关联的信息;
所述目标跟踪模型中的时间递归神经网络基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
上述方法,优选的,所述第一卷积神经网络对图像进行目标检测的过程,包括:
将所述图像划分为n*n个网格;
在每个网格预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;
将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对所有保留的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
上述方法,优选的,所述第一卷积神经网络对图像进行目标检测的过程,包括:
按照L种不同的划分粒度将所述图像划分m*m个网格,m有L个不同的取值;
对应每一种划分粒度,在每个网格中预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于网格中每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;
将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对不同划分粒度下所保留下来的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
上述方法,优选的,时间递归神经网络基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果,包括:
时间递归神经网络通过预先学习到的不同时刻同一类型的目标与不同背景之间的关联关系,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
上述方法,优选的,所述目标跟踪模型的训练过程包括:
将YOLO卷积神经网络中的卷积层的参数的权值赋值给所述第一卷积神经网络,所述第一卷积神经网络的其它参数的权值选用高斯随机分布进行权值初始化;在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练,得到第一卷积神经网络模型;
将第一卷积神经网络中卷积层的参数的权值赋值给所述第二卷积神经网络,所述第二卷积神经网络的其它参数的权值选用高斯随机分布进行权值初始化;在基于背景的目标类型检测任务上对所述第二卷积神经网络进行端到端的训练,得到第二卷积神经网络模型;
将所述第二卷积神经网络模型的卷积层的权值的参数赋值给所述第一卷积神经网络模型的卷积层,再次通过如上步骤进行训练,如此循环两次,得到最终的第一卷积神经网络模型和第二卷积神经网络模型;
通过预先选取的视频训练集在将目标在不同时刻下同一类型的目标与不同背景进行关联的任务上对时间递归神经网络进行训练,得到时间递归神经网络模型;所述视频训练集中包括数量相等的第一类视频和第二类视频,所述第一类视频和所述第二类视频的时长相同,所述第一类视频中目标的变化幅度大于所述第二视频中目标的变化幅度;
构造初始的目标跟踪模型:将第一卷积神经网络模型的全部卷积层通过第一全连接层连入所述时间递归神经网络模型,将所述第二卷积神经网络模型的卷积层的至少一部分(例如,可以是全部的卷积层,也可以是前12层)通过第二全连接层连入所述时间递归神经网络模型,将所述时间递归神经网络模型的输出端与所述第一全连接层和第二全连接层的输入端,以及第三全连接层的输入端连接,
对所述初始的目标跟踪模型在预置的目标检测任务上进行训练,得到所述目标跟踪模型。
上述方法,优选的,所述在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练,包括:第一卷积神经网络通过如下方式进行目标检测及分类:
将图像划分为n*n个网格;
在每个网格中预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;
将所述网格中对所属类别信息的信任值分数小于预设阈值的包围盒删除,并对所有网格中保留的不同类别的包围盒分别进行非极大值抑制,得到目标检测结果;
通过预置损失函数计算所述第一卷积神经网络的目标检测结果的错误程度,所述损失函数为:
Figure BDA0001426493480000041
其中,Loss为第一卷积神经网络的目标检测结果的错误程度,λ1为坐标预测损失的损失权重,λ1的取值可以为5,λ2为没有目标的包围盒的信任值损失的损失权重,λ2的取值可以为0.5,λ3为含有目标的包围盒的信任值损失和类别损失的损失权重,λ3的取值可以为1;i用于区分不同的网格,j用于区分不同的包围盒;xij,yij,wij,hij,Cij表示预测值,
Figure BDA0001426493480000042
表示标定值,S2表示所划分的网格数,B表示某个网格中的包围盒的个数,Cij表示第i个网格中的第j个包围盒的信任值分数,pi(c)表示第i个网格中c类别的目标出现的概率;若预先标定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的,则
Figure BDA0001426493480000043
取1;否则
Figure BDA0001426493480000044
取0;若预先标定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的,则
Figure BDA0001426493480000045
取0;否则
Figure BDA0001426493480000046
取1;
若错误程度大于或等于预设阈值,采用反向传播算法和Adam update方法进行权值更新,并输入训练库中未使用过得数据进行下一次训练,直至损失程度与所述损失函数的最小值的差值小于预设门限。
一种目标检测装置,包括:
第一检测模块,用于通过第一卷积神经网络对视频流中每一帧图像进行目标检测,得到检测到的目标在所述图像中的位置,以及所检测到的目标的类别;
第二检测模块,用于通过第二卷积神经网络对所述图像进行基于背景的目标检测,得到背景中与不同类别的目标相关联的信息;
关联模块,用于基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
上述装置,优选的,所述第一检测模块具体用于,通过第一卷积神经网络将所述图像划分为n*n个网格;在每个网格预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对所有保留的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
上述装置,优选的,所述第一检测模块具体用于,通过第一卷积神经网络按照L种不同的划分粒度将所述图像划分m*m个网格,m有L个不同的取值;对应每一种划分粒度,在每个网格中预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;基于网格中每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对不同划分粒度下所保留下来的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
上述装置,优选的,所述关联模块具体用于,
通过预先学习到的不同时刻同一类型的目标与不同背景之间的关联关系,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
通过以上方案可知,本申请提供的一种目标跟踪方法及装置,将两层卷积神经网络与时间递归神经网络模型相结合,解决了对于小目标的检测率低的问题。而且,提取背景中与目标关联的信息进行目标检测,提高了目标跟踪模型在视频目标检测中的速度与准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的目标跟踪模型的示例图;
图2为本申请实施例提供的目标跟踪方法的一种实现流程图;
图3为本申请实施例提供的目标检测装置的一种实现流程图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本申请实施例提供的目标跟踪模型的示例图,本申请提供的目标跟踪模型包括两个卷积神经网络(Convolutional Neural Networks,CNN)和一个时间递归神经网络LSTM(Long Short-Term Memory)。其中,卷积网络1为其中一个卷积神经网络(为便于区分,以下简称第一卷积神经网络)的卷积层,卷积网络2为另一个卷积神经网络(为便于区分,以下简称第二卷积神经网络)的卷积层。
下面首先说明目标跟踪模型的训练过程。
本申请实施例中,先对两个卷积神经网络和时间递归神经网络分别进行独立训练,然后,基于各自训练得到的结果构造本申请的初始的目标跟踪模型,然后对初始的目标跟踪模型进行训练,得到最终的目标跟踪模型。
本申请实施例中,第一卷积神经网络主要负责提取目标,并标记目标的类别及位置。第一卷积神经网络包括24层卷积层和2层全连接层。可以在YOLO(You Only Look Once)卷积神经网络的基础上进行训练得到。具体的,将YOLO卷积神经网络中的卷积层的参数的权值赋值给第一卷积神经网络的卷积层,所述第一卷积神经网络的全连接层的权值选用高斯随机分布(例如,可以是均值为零,方差为0.01的高斯随机分布)进行权值初始化;在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练,得到第一卷积神经网络初始模型;
在训练过程中,第一卷积神经网络执行目标检测及分类任务的一种方式可以为:
将训练用视频中的各帧图像划分为n*n个网格,n为正整数。在一可选的实施例中,n的取值可以为7。该训练用视频中的每一帧图像中都标定有目标的位置、及类别值。
在每个网格中预测若干个包围盒(通常为矩形框,用于标记检测到的目标),并记录预测的每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;其中,类别值表征包围盒内目标的类别,信任值代表了所预测的包围盒中含有目标的置信度和这个包围盒预测的准确性这两条重要信息,信任值的计算公式如下:
Figure BDA0001426493480000071
式中,Pr(Object)的取值根据目标是否落在包围盒内而定,当有目标落在一个包围盒中时,Pr(Object)的值为1,否则Pr(Object)的值为0。
Figure BDA0001426493480000072
表示预测的包围盒与标定的目标包围盒之间的IOU(Intersection-over-Union,交集并集之比)值。其中,目标是否落在包围盒内可以根据标定值判断,目标落在包围盒内包括:目标全部落在包围盒内,以及目标部分落在包围盒内。
通常,包围盒的位置即为包围盒的左上角的坐标,包围盒的大小即为包围盒的长度和宽度。
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数。
将每个包围盒对应的信任值和类别值相乘,得到每个包围盒的特定类信任值分数,即每个包围盒对所属类别的信任值分数。
将所述网格中对所属类别的信任值分数小于预设分数阈值的包围盒删除,并对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制,得到每个网格的目标检测结果。
每个网格的处理方式相同,这里不再一一赘述。
在一可选的实施例中,预设分数阈值可以为0.6。
在得到每个网格的目标检测结果以后,对整个图像中属于同一类别的包围盒进行非极大值抑制,得到最终的目标检测结果。
对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制的过程可以为:
确定同一类别的包围盒中信任值分数最高的包围盒(为便于叙述记为第一包围盒);
计算同一类别的其它包围盒(为便于叙述记为第二包围盒)与第一包围盒的重合率,若重合率高于一设定值,则删除第二包围盒,否则,保留第二包围盒。
通过预置损失函数计算所述第一卷积神经网络的目标检测结果的错误程度,损失程度表征预测值(即检测结果)与标定值之间的误差,所述损失函数为:
Figure BDA0001426493480000081
其中,Loss为第一卷积神经网络的目标检测结果的错误程度,λ1为坐标预测损失的损失权重,λ1的取值可以为5,λ2为没有目标的包围盒的信任值损失的损失权重,λ2的取值可以为0.5,λ3为含有目标的包围盒的信任值损失和类别损失的损失权重,λ3的取值可以为1;i用于区分不同的网格,j用于区分不同的包围盒。xij,yij,wij,hij,Cij表示预测值,xij和yij为预测的第i个网格中第j个包围盒的坐标,wij为预测的第i个网格中第j个包围盒的宽度,hij为预测的第i个网格中第j个包围盒的高度,
Figure BDA0001426493480000082
表示标定值,
Figure BDA0001426493480000083
Figure BDA0001426493480000084
为标定的第i个网格中第j个包围盒的坐标,
Figure BDA0001426493480000085
为标定的第i个网格中第j个包围盒的宽度,
Figure BDA0001426493480000086
为标定的第i个网格中第j个包围盒的高度,S2表示所划分的网格数,B表示某个网格中的包围盒的个数,Cij表示预测的第i个网格中的第j个包围盒的信任值分数,
Figure BDA0001426493480000087
表示标定的第i个网格中的第j个包围盒的信任值分数,pi(c)表示预测的第i个网格中c类别的包围盒的概率;
Figure BDA0001426493480000088
表示标定的第i个网格中c类别的包围盒的概率。第i个网格中c类别的包围盒出现的概率即为第i个网格中c类别的包围盒的数量与第i个包围盒中所有包围盒总数的商值。
Figure BDA0001426493480000091
的取值根据第i个网格中的第j个包围盒是否包含设定的检测目标而定,如果预先标定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的,则
Figure BDA0001426493480000092
取1;否则取0。
Figure BDA0001426493480000093
表示含有目标的包围盒的信任值预测损失与损失权重的乘积;
Figure BDA0001426493480000094
表示不含目标的包围盒的信任值预测损失与损失权重的乘积;
Figure BDA0001426493480000095
的取值根据第i个网格中的第j个包围盒是否包含设定的检测目标而定,如果预先标定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的,则
Figure BDA0001426493480000096
取0;否则
Figure BDA0001426493480000097
取1。
Figure BDA0001426493480000098
表示是否有目标中心落在网格i中的类别预测损失与损失权重的乘积。其中,若有目标中心落在网格i中,则
Figure BDA0001426493480000099
的取值为1,否则,
Figure BDA00014264934800000910
取值为0。c表示类别。
为了既要检测到小的目标,又要检测到大的目标,本申请实施例中,为了使得损失函数中各个损失更均衡,坐标预测损失通过欧拉距离表征,这样在对第一卷积神经网络优化的过程中,只对坐标进行微调即可,解决目标误检及目标漏检、多检问题。
若错误程度大于或等于预设阈值,采用BP反向传播算法和Adam update方法进行权值更新,并输入数据库的其他数据进行下一次训练,直至错误程度小于所述预设阈值。
在训练过程中,第一卷积神经网络执行目标检测及分类任务的另一种方式可以为:
按照L种不同的划分粒度将所述图像划分m*m个网格,m有L个不同的取值;在一可选的实施例中,L的取值可以为4,m的4种取值可以分别为7,5,3,1。对应每一种划分粒度,
在每个网格中预测若干个包围盒,并记录预测的每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;
将所述网格中对所属类别信息的信任值分数小于预设阈值的包围盒删除,并对网格中保留的不同类别的包围盒分别进行非极大值抑制,即对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制,得到每个网格的目标检测结果。
每个网格的处理方式相同,这里不再一一赘述。
在得到每个网格的目标检测结果以后,对整个图像中不同类别的包围盒分别进行非极大值抑制,即对整个图像中属于同一类别的包围盒进行非极大值抑制,得到最终的目标检测结果。
通过预置损失函数计算所述第一卷积神经网络的目标检测结果的错误程度。
若错误程度大于或等于预设阈值,采用BP反向传播算法和Adam update方法进行权值更新,并输入数据库的其他数据进行下一次训练,直至错误程度小于所述预设阈值。
上述每一种划分粒度下的目标检测和分类过程可以参看前述过程,也就是说,将图像划分为7*7的网格时,执行一次上述目标检测过程,将图像划分为5*5的网格时,执行一次上述目标检测过程,依次类推,直至每个划分粒度下均进行如上目标检测。这里不再一一赘述各个粒度下的目标检测过程。
每次训练过程中,所有粒度下的检测结果的并集即为该次训练过程中最终目标检测结果。
本申请实施例中,通过多种划分粒度进行目标检测和分类,使得目标检测的准确率更高。
第二卷积神经网络主要负责提取背景中与不同类别的目标相关联的信息。第二卷积神经网络与第一卷积神经网络的结构相同,但是第二卷积神经网络执行的任务及输出不同,第二卷积神经网络执行的任务为基于背景的目标类型检测,第二卷积神经网络的输出为背景中与不同类别的目标相关联的信息,第二卷积神经网络将Softmax函数作为损失函数进行优化,参数更新过程与第一卷积网络相同。
在对第二卷积神经网络进行训练时,将训练好的第一卷积神经网络中卷积层的参数的权值赋值给第二卷积神经网络,第二卷积神经网络的全连接层的参数的权值选用高斯随机分布进行权值初始化;在基于背景的目标类型检测任务上对第二卷积神经网络进行端到端的训练,得到第二卷积神经网络模型;基于背景的目标类型检测可以使用常用的检测方法。
将第二卷积神经网络模型的卷积层的权值的参数赋值给第一卷积神经网络模型的卷积层的参数,再次通过前述方法对第一卷积神经网络模型和第二卷积神经网络模型进行训练,如此循环两次(即一共进行三次训练),得到最终的第一卷积神经网络模型和第二卷积神经网络模型。
本申请实施例中,第一卷积神经网络和第二卷积神经网络进行联合训练,提高了训练过程中的计算速度。
由前述两个卷积神经网络的训练过程可知,第一卷积神经网络和第二卷积神经网络的卷积层参数相同。为了减少计算时间,上述第一卷积神经网络和第二卷积神经网络可以共享卷积层参数,这样还可以减少占用的存储空间。
时间递归神经网络主要用于将检测目标在不同时刻和不同背景进行关联,提高在视频中的目标检测准确率。
本申请实施例中,选用包含两类视频的训练集对时间递归神经网络进行训练。其中,第一类视频和第二类视频的数量相等,第一类视频和第二类视频的时长相同,第一类视频中目标的变化幅度大于第二视频中目标的变化幅度;目标的变化幅度大可以是指目标突然出现、突然消失,或者姿态等出现大的变化。目标的变化幅度小可以是指目标变化缓慢,不会出现突然出现或消失,姿态变化小等。
时间递归神经网络分析每个视频中同一目标在不同时刻与不同背景之间的关联关系,通过机器学习得到不同时刻同一类型的目标与不同背景之间的关联关系。
在训练过程中,根据时间反向传播算法和Adam update方法进行权值更新。
前边已经说明卷积神经网络和时间递归神经网络的各自的训练过程。下面说明对通过上述训练好的卷积神经网络和时间递归神经网络构成的目标跟踪模型进行训练的过程。
通过上述训练好的两个卷积神经网络模型和时间递归神经网络模型构造初始的目标跟踪模型:将第一卷积神经网络模型的全部卷积层通过第一全连接层连入时间递归神经网络模型相连,将第二卷积神经网络模型的至少部分卷积层通过第二全连接层连入所述时间递归神经网络模型,所述时间递归神经网络模型的输出端还与上述两个第一全连接层的输入端,以及第三全连接层的输入端连接。
对所述初始的目标跟踪模型在预置的目标检测任务上进行训练,得到所述目标跟踪模型。
上述预置的目标检测任务可以是:
第一卷积神经网络对图像进行目标检测,得到检测到的目标在所述图像中的位置,以及所检测到的目标的类别;
第二卷积神经网络对所述图像进行基于背景的目标检测,得到背景中与不同类别的目标相关联的信息;
时间递归神经网络基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果,将目标检测结果通过第三全连接层输出。
在一优选的实施例中,时间递归神经网络在得到目标检测结果后,先不输出结果,而是将目标检测结果反馈给卷积神经网络,具体是反馈给卷积神经网络全连接层,前一级的全连接层将卷积网络输出的数据与LSTM反馈的数据进行随机选取,将随机选取的数值经过时间递归神经网的处理,得到最终的目标检测结果,将该最终的目标检测结果通过最后的全连接层输出。本申请实施例中,通过反馈机制,提高了目标检测精度。
目标跟踪模型训练过程中,采用BP反向传播算法和Adam update方法对卷积神经网络中参数的权值进行更新,采用时间反向传播算法和Adam update方法对时间递归神经网络中的参数的权值进行更新。
在一可选的实施例中,第一卷积神经网络对图像进行目标检测的过程可以包括:
将所述图像划分为n*n个网格;
在每个网格中预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;
将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对网格中保留的属于同一类别的包围盒进行非极大值抑制,得到网格中目标的位置及类别信息。
在得到每个网格的目标检测结果以后,对整个图像中属于同一类别的包围盒进行非极大值抑制,得到最终的目标检测结果。
在一可选的实施例中,第一卷积神经网络对图像进行目标检测的过程可以包括:
按照L种不同的划分粒度将所述图像划分m*m个网格,m有L个不同的取值;
对应每一种划分粒度,在每个网格中预预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别信息的信任值分数;
将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制,得到目标的位置及类别信息。
在得到每个网格的目标检测结果以后,对整个图像中属于同一类别的包围盒进行非极大值抑制,得到最终的目标检测结果。
每个划分粒度下均通过如上方法进行目标检测。
训练好目标跟踪模型后,就可以利用目标跟踪模型进行目标检测了。
请参阅图2,图2为本申请实施例提供的目标跟踪方法的一种实现流程图可以包括:
步骤S21:第一卷积神经网络对所述图像进行目标检测,得到检测到的目标在所述图像中的位置,以及所检测到的目标的类别;
步骤S22:第二卷积神经网络对所述图像进行基于背景的目标检测,得到背景中与不同类别的目标相关联的信息;
步骤S22:时间递归神经网络基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
其中,第一卷积神经网络对图像进行目标检测的过程,可以包括:
将所述图像划分为n*n个网格;
在每个网格中预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别信息的信任值分数;
将所述网格中对所属类别信息的信任值分数小于预设阈值的包围盒删除,并对网格保留的包围盒属于同一类别的包围盒进行非极大值抑制,得到每个网格中目标的位置及类别信息。
在得到每个网格的目标检测结果以后,对整个图像中属于同一类别的包围盒进行非极大值抑制,得到最终的目标检测结果。
在另一可选的实施例中,第一卷积神经网络对图像进行目标检测的过程,可以包括:
按照L种不同的划分粒度将所述图像划分m*m个网格,m有L个不同的取值;在一可选的实施例中,L的取值可以为4,m的4种取值可以分别为7,5,3,1。对应每一种划分粒度,
在每个网格中预测若干个包围盒,并记录预测的每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别信息的信任值分数;
将所述网格中对所属类别信息的信任值分数小于预设阈值的包围盒删除,并对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制,得到每个网格中目标的位置及类别信息。
在得到每个网格的目标检测结果以后,对整个图像中属于同一类别的包围盒进行非极大值抑制,得到最终的目标检测结果。
每个划分粒度下,目标检测的过程相同,这里不一一赘述。
在一可选的实施例中,时间递归神经网络基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果,可以包括:
时间递归神经网络通过预先学习到的不同时刻同一类型的目标与不同背景之间的关联关系,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
与方法实施例相对应,本申请还提供一种目标检测装置,本申请实施例提供的目标检测装置的一种实现流程图如图3所示,可以包括:
第一检测模块31,第二检测模块32和关联模块33;其中,
第一检测模块31用于通过第一卷积神经网络对视频流中每一帧图像进行目标检测,得到检测到的目标在所述图像中的位置,以及所检测到的目标的类别;
第二检测模块32用于通过第二卷积神经网络对所述图像进行基于背景的目标检测,得到背景中与不同类别的目标相关联的信息;
关联模块33用于基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
本申请提供的目标检测装置,将两层卷积神经网络与时间递归神经网络模型相结合,解决了对于小目标的检测率低的问题。而且,提取背景中与目标关联的信息进行目标检测,提高了目标跟踪模型在视频目标检测中的速度与准确率。
在一可选的实施例中,上述第一检测模块31具体可以用于,通过第一卷积神经网络将所述图像划分为n*n个网格;在每个网格预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对所有保留的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
在另一可选的实施例中,第一检测模块31具体可以用于,通过第一卷积神经网络按照L种不同的划分粒度将所述图像划分m*m个网格,m有L个不同的取值;对应每一种划分粒度,在每个网格中预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;基于网格中每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对不同划分粒度下所保留下来的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
在一可选的实施例中,关联模块33具体可以用于,
通过预先学习到的不同时刻同一类型的目标与不同背景之间的关联关系,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
在一可选的实施例中,目标检测装置还可以包括:
训练模块,用于训练目标跟踪模型,具体用于,将YOLO卷积神经网络中的卷积层的参数的权值赋值给所述第一卷积神经网络,所述第一卷积神经网络的其它参数的权值选用高斯随机分布进行权值初始化;在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练,得到第一卷积神经网络模型;
将第一卷积神经网络中卷积层的参数的权值赋值给所述第二卷积神经网络,所述第二卷积神经网络的其它参数的权值选用高斯随机分布进行权值初始化;在基于背景的目标类型检测任务上对所述第二卷积神经网络进行端到端的训练,得到第二卷积神经网络模型;
将所述第二卷积神经网络模型的卷积层的权值的参数赋值给所述第一卷积神经网络模型的卷积层,再次通过如上步骤进行训练,如此循环两次,得到最终的第一卷积神经网络模型和第二卷积神经网络模型;
通过预先选取的视频训练集在将目标在不同时刻下同一类型的目标与不同背景进行关联的任务上对时间递归神经网络进行训练,得到时间递归神经网络模型;所述视频训练集中包括数量相等的第一类视频和第二类视频,所述第一类视频和所述第二类视频的时长相同,所述第一类视频中目标的变化幅度大于所述第二视频中目标的变化幅度;
构造初始的目标跟踪模型:将第一卷积神经网络模型的全部卷积层通过第一全连接层连入所述时间递归神经网络模型,将所述第二卷积神经网络模型的卷积层的至少一部分(例如,可以是全部的卷积层,也可以是前12层)通过第二全连接层连入所述时间递归神经网络模型,将所述时间递归神经网络模型的输出端与所述第一全连接层和第二全连接层的输入端,以及第三全连接层的输入端连接。
对所述初始的目标跟踪模型在预置的目标检测任务上进行训练,得到所述目标跟踪模型。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种目标跟踪方法,其特征在于,通过预先训练好的目标跟踪模型对视频流中每一帧图像进行目标检测,包括:
所述目标跟踪模型中的第一卷积神经网络对所述图像进行目标检测,得到检测到的目标在所述图像中的位置,以及所检测到的目标的类别;
所述目标跟踪模型中的第二卷积神经网络对所述图像进行基于背景的目标检测,得到背景中与不同类别的目标相关联的信息;
所述目标跟踪模型中的时间递归神经网络基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果;
时间递归神经网络在得到目标检测结果后,将目标检测结果反馈给第一卷积神经网络的第一全连接层和第二卷积神经网络的第二全连接层,第一全连接层和第二全连接层将卷积网络输出的数据与时间递归神经网络反馈的数据进行随机选取,将随机选取的数值经过时间递归神经网的处理,得到最终的目标检测结果,将该最终的目标检测结果通过第三全连接层输出;
所述目标跟踪模型的训练过程包括:
将YOLO卷积神经网络中的卷积层的权值参数赋值给所述第一卷积神经网络,所述第一卷积神经网络的其它的权值参数选用高斯随机分布进行权值初始化;在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练,得到第一卷积神经网络模型;
将第一卷积神经网络中卷积层的权值参数赋值给所述第二卷积神经网络,所述第二卷积神经网络的其它的权值参数选用高斯随机分布进行权值初始化;在基于背景的目标类型检测任务上对所述第二卷积神经网络进行端到端的训练,得到第二卷积神经网络模型;
将所述第二卷积神经网络模型的卷积层的权值参数赋值给所述第一卷积神经网络模型的卷积层,再次通过如上步骤进行训练,如此循环两次,得到最终的第一卷积神经网络模型和第二卷积神经网络模型;
通过预先选取的视频训练集在将目标在不同时刻下同一类型的目标与不同背景进行关联的任务上对时间递归神经网络进行训练,得到时间递归神经网络模型;所述视频训练集中包括数量相等的第一类视频和第二类视频,所述第一类视频和所述第二类视频的时长相同,所述第一类视频中目标的变化幅度大于所述第二类视频中目标的变化幅度;
构造初始的目标跟踪模型:将第一卷积神经网络模型的全部卷积层通过第一全连接层连入所述时间递归神经网络模型,将所述第二卷积神经网络模型的卷积层的至少一部分通过第二全连接层连入所述时间递归神经网络模型,将所述时间递归神经网络模型的输出端与所述第一全连接层和第二全连接层的输入端,以及第三全连接层的输入端连接;
对所述初始的目标跟踪模型在预置的目标检测任务上进行训练,得到所述目标跟踪模型。
2.根据权利要求1所述的方法,其特征在于,所述第一卷积神经网络对图像进行目标检测的过程,包括:
将所述图像划分为n*n个网格;
在每个网格预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;
将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对所有保留的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
3.根据权利要求1所述的方法,其特征在于,所述第一卷积神经网络对图像进行目标检测的过程,包括:
按照L种不同的划分粒度将所述图像划分m*m个网格,m有L个不同的取值;
对应每一种划分粒度,在每个网格中预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于网格中每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;
将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对不同划分粒度下所保留下来的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
4.根据权利要求1所述的方法,其特征在于,时间递归神经网络基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果,包括:
时间递归神经网络通过预先学习到的不同时刻同一类型的目标与不同背景之间的关联关系,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
5.根据权利要求1所述的方法,其特征在于,所述在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练,包括:第一卷积神经网络通过如下方式进行目标检测及分类:
将图像划分为n*n个网格;
在每个网格中预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;
基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;
将所述网格中对所属类别信息的信任值分数小于预设阈值的包围盒删除,并对所有网格中保留的不同类别的包围盒分别进行非极大值抑制,得到目标检测结果;
通过预置损失函数计算所述第一卷积神经网络的目标检测结果的错误程度,所述损失函数为:
Figure 440945DEST_PATH_IMAGE002
其中,Loss为第一卷积神经网络的目标检测结果的错误程度,
Figure 295768DEST_PATH_IMAGE003
为坐标预测损失的损 失权重,
Figure 13189DEST_PATH_IMAGE003
的取值可以为5,
Figure 408398DEST_PATH_IMAGE004
为没有目标的包围盒的信任值损失的损失权重,
Figure 160453DEST_PATH_IMAGE004
的取值 可以为0.5,
Figure 982916DEST_PATH_IMAGE005
为含有目标的包围盒的信任值损失和类别损失的损失权重,
Figure 249949DEST_PATH_IMAGE005
的取值可以 为1;i用于区分不同的网格,j用于区分不同的包围盒;
Figure 885067DEST_PATH_IMAGE006
Figure 553946DEST_PATH_IMAGE007
Figure 547310DEST_PATH_IMAGE008
Figure 239322DEST_PATH_IMAGE009
Figure 976334DEST_PATH_IMAGE010
表示预测 值,
Figure 499720DEST_PATH_IMAGE011
Figure 867247DEST_PATH_IMAGE012
为预测的第i个网格中第j个包围盒的坐标,
Figure 108872DEST_PATH_IMAGE008
为预测的第i个网格中第j个 包围盒的宽度,
Figure 321679DEST_PATH_IMAGE013
为预测的第i个网格中第j个包围盒的高度,
Figure 965150DEST_PATH_IMAGE014
Figure 300316DEST_PATH_IMAGE015
Figure 465456DEST_PATH_IMAGE016
Figure 544271DEST_PATH_IMAGE017
Figure 42248DEST_PATH_IMAGE018
表 示标定值,
Figure 751578DEST_PATH_IMAGE014
Figure 702217DEST_PATH_IMAGE019
为标定的第i个网格中第j个包围盒的坐标,
Figure 584722DEST_PATH_IMAGE020
为标定的第i个网格 中第j个包围盒的宽度,
Figure 874889DEST_PATH_IMAGE021
为标定的第i个网格中第j个包围盒的高度,
Figure 817437DEST_PATH_IMAGE022
表示所划分的 网格数,B表示某个网格中的包围盒的个数,
Figure 255372DEST_PATH_IMAGE010
表示第i个网格中的第j个包围盒的信任值 分数,
Figure 49890DEST_PATH_IMAGE023
表示标定的第i个网格中的第j个包围盒的信任值分数,
Figure 522460DEST_PATH_IMAGE024
表示第i个网格中c 类别的目标出现的概率;
Figure 573593DEST_PATH_IMAGE025
表示标定的第i个网格中c类别的包围盒的概率;若预先标 定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的,则
Figure 170927DEST_PATH_IMAGE026
取1;否则
Figure 395235DEST_PATH_IMAGE027
取0;若预先标定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的, 则
Figure 659994DEST_PATH_IMAGE028
取0;否则
Figure 944345DEST_PATH_IMAGE029
取1;
若错误程度大于或等于预设阈值,采用反向传播算法和Adam update方法进行权值更新,并输入训练库中未使用过得数据进行下一次训练,直至损失程度与所述损失函数的最小值的差值小于预设门限。
6.一种目标检测装置,其特征在于,包括:
第一检测模块,用于通过目标跟踪模型中的第一卷积神经网络对视频流中每一帧图像进行目标检测,得到检测到的目标在所述图像中的位置,以及所检测到的目标的类别;
第二检测模块,用于通过目标跟踪模型中的第二卷积神经网络对所述图像进行基于背景的目标检测,得到背景中与不同类别的目标相关联的信息;
关联模块,用于通过目标跟踪模型中的时间递归神经网络基于所述背景中与不同类别的目标相关联的信息,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果;时间递归神经网络在得到目标检测结果后,将目标检测结果反馈给第一卷积神经网络的第一全连接层和第二卷积神经网络的第二全连接层,第一全连接层和第二全连接层将卷积网络输出的数据与时间递归神经网络反馈的数据进行随机选取,将随机选取的数值经过时间递归神经网的处理,得到最终的目标检测结果,将该最终的目标检测结果通过第三全连接层输出;
训练模块,用于训练目标跟踪模型,具体训练过程为,将YOLO卷积神经网络中的卷积层的权值参数赋值给所述第一卷积神经网络,所述第一卷积神经网络的其它的权值参数选用高斯随机分布进行权值初始化;在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练,得到第一卷积神经网络模型;
将第一卷积神经网络中卷积层的权值参数赋值给所述第二卷积神经网络,所述第二卷积神经网络的其它的权值参数选用高斯随机分布进行权值初始化;在基于背景的目标类型检测任务上对所述第二卷积神经网络进行端到端的训练,得到第二卷积神经网络模型;
将所述第二卷积神经网络模型的卷积层的权值参数赋值给所述第一卷积神经网络模型的卷积层,再次通过如上步骤进行训练,如此循环两次,得到最终的第一卷积神经网络模型和第二卷积神经网络模型;
通过预先选取的视频训练集在将目标在不同时刻下同一类型的目标与不同背景进行关联的任务上对时间递归神经网络进行训练,得到时间递归神经网络模型;所述视频训练集中包括数量相等的第一类视频和第二类视频,所述第一类视频和所述第二类视频的时长相同,所述第一类视频中目标的变化幅度大于所述第二类视频中目标的变化幅度;
构造初始的目标跟踪模型:将第一卷积神经网络模型的全部卷积层通过第一全连接层连入所述时间递归神经网络模型,将所述第二卷积神经网络模型的卷积层的至少一部分通过第二全连接层连入所述时间递归神经网络模型,将所述时间递归神经网络模型的输出端与所述第一全连接层和第二全连接层的输入端,以及第三全连接层的输入端连接;
对所述初始的目标跟踪模型在预置的目标检测任务上进行训练,得到所述目标跟踪模型。
7.根据权利要求6所述的装置,其特征在于,所述第一检测模块具体用于,通过第一卷积神经网络将所述图像划分为n*n个网格;在每个网格预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;基于每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对所有保留的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
8.根据权利要求6所述的装置,其特征在于,所述第一检测模块具体用于,通过第一卷积神经网络按照L种不同的划分粒度将所述图像划分m*m个网格,m有L个不同的取值;对应每一种划分粒度,在每个网格中预测若干个包围盒,并记录每个包围盒的位置、大小,以及每个包围盒对应的信任值和类别值;基于网格中每个包围盒对应的信任值和类别值,计算每个包围盒对所属类别的信任值分数;将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除,并对不同划分粒度下所保留下来的不同类别的包围盒分别进行非极大值抑制,得到目标的位置及类别信息。
9.根据权利要求6所述的装置,其特征在于,所述关联模块具体用于,
通过预先学习到的不同时刻同一类型的目标与不同背景之间的关联关系,将检测到的目标在不同时刻和不同的背景进行关联,得到目标检测结果。
CN201710920018.7A 2017-09-30 2017-09-30 目标跟踪方法及装置 Active CN107808122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710920018.7A CN107808122B (zh) 2017-09-30 2017-09-30 目标跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710920018.7A CN107808122B (zh) 2017-09-30 2017-09-30 目标跟踪方法及装置

Publications (2)

Publication Number Publication Date
CN107808122A CN107808122A (zh) 2018-03-16
CN107808122B true CN107808122B (zh) 2020-08-11

Family

ID=61584759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710920018.7A Active CN107808122B (zh) 2017-09-30 2017-09-30 目标跟踪方法及装置

Country Status (1)

Country Link
CN (1) CN107808122B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008792B (zh) * 2018-01-05 2021-10-22 比亚迪股份有限公司 图像检测方法、装置、计算机设备及存储介质
CN110619254B (zh) * 2018-06-19 2023-04-18 海信集团有限公司 一种基于视差图的目标跟踪方法、装置及终端
CN108968811A (zh) * 2018-06-20 2018-12-11 四川斐讯信息技术有限公司 一种扫地机器人的物体识别方法及***
CN108764215A (zh) * 2018-06-21 2018-11-06 郑州云海信息技术有限公司 基于视频的目标搜索追踪方法、***、服务中心以及终端
CN109145781B (zh) * 2018-08-03 2021-05-04 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN110826572B (zh) * 2018-08-09 2023-04-21 京东方科技集团股份有限公司 多目标检测的非极大值抑制方法、装置及设备
CN110826379B (zh) * 2018-08-13 2022-03-22 中国科学院长春光学精密机械与物理研究所 一种基于特征复用与YOLOv3的目标检测方法
CN111104831B (zh) * 2018-10-29 2023-09-29 香港城市大学深圳研究院 一种视觉追踪方法、装置、计算机设备以及介质
CN111178495B (zh) * 2018-11-10 2023-06-30 杭州凝眸智能科技有限公司 用于检测图像中极小物体的轻量卷积神经网络
CN109410251B (zh) * 2018-11-19 2022-05-03 南京邮电大学 基于稠密连接卷积网络的目标跟踪方法
CN109817009A (zh) * 2018-12-31 2019-05-28 天合光能股份有限公司 一种获取无人驾驶所需动态交通信息的方法
CN109753931A (zh) * 2019-01-04 2019-05-14 广州广电卓识智能科技有限公司 卷积神经网络训练方法、***及人脸特征点检测方法
CN110007366B (zh) * 2019-03-04 2020-08-25 中国科学院深圳先进技术研究院 一种基于多传感器融合的生命搜寻方法以及***
CN110087041B (zh) * 2019-04-30 2021-01-08 中国科学院计算技术研究所 基于5g基站的视频数据处理及传输方法和***
CN110443789B (zh) * 2019-08-01 2021-11-26 四川大学华西医院 一种免疫固定电泳图自动识别模型的建立及使用方法
CN110487211B (zh) * 2019-09-29 2020-07-24 中国科学院长春光学精密机械与物理研究所 非球面元件面形检测方法、装置、设备及可读存储介质
CN112306104B (zh) * 2020-11-17 2024-06-21 广西电网有限责任公司 一种基于网格加权的图像目标追踪云台控制方法
CN112911171B (zh) * 2021-02-04 2022-04-22 上海航天控制技术研究所 一种基于加速处理的智能光电信息处理***及方法
CN115482417B (zh) * 2022-09-29 2023-08-08 珠海视熙科技有限公司 多目标检测模型及其训练方法、装置、介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503723A (zh) * 2015-09-06 2017-03-15 华为技术有限公司 一种视频分类方法及装置
CN106846364A (zh) * 2016-12-30 2017-06-13 明见(厦门)技术有限公司 一种基于卷积神经网络的目标跟踪方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682697B (zh) * 2016-12-29 2020-04-14 华中科技大学 一种基于卷积神经网络的端到端物体检测方法
CN106911930A (zh) * 2017-03-03 2017-06-30 深圳市唯特视科技有限公司 一种基于递归卷积神经网络进行压缩感知视频重建的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503723A (zh) * 2015-09-06 2017-03-15 华为技术有限公司 一种视频分类方法及装置
CN106846364A (zh) * 2016-12-30 2017-06-13 明见(厦门)技术有限公司 一种基于卷积神经网络的目标跟踪方法及装置

Also Published As

Publication number Publication date
CN107808122A (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN107808122B (zh) 目标跟踪方法及装置
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
CN107169463B (zh) 人脸检测方法、装置、计算机设备及存储介质
CN107220618B (zh) 人脸检测方法及装置、计算机可读存储介质、设备
CN110991311B (zh) 一种基于密集连接深度网络的目标检测方法
CN109948497B (zh) 一种物体检测方法、装置及电子设备
CN110348437B (zh) 一种基于弱监督学习与遮挡感知的目标检测方法
CN113240936B (zh) 停车区域推荐方法、装置、电子设备和介质
CN109272016A (zh) 目标检测方法、装置、终端设备和计算机可读存储介质
CN108182695B (zh) 目标跟踪模型训练方法及装置、电子设备和存储介质
CN111091101B (zh) 基于一步法的高精度行人检测方法、***、装置
CN110796141A (zh) 目标检测方法及相关设备
CN111553488A (zh) 一种针对用户行为的风险识别模型训练方法及***
Xu et al. Stochastic Online Anomaly Analysis for Streaming Time Series.
CN113239914B (zh) 课堂学生表情识别及课堂状态评估方法、装置
CN112036381B (zh) 视觉跟踪方法、视频监控方法及终端设备
CN111008631A (zh) 图像的关联方法及装置、存储介质和电子装置
CN113065379B (zh) 融合图像质量的图像检测方法、装置、电子设备
CN113065593A (zh) 模型训练方法、装置、计算机设备和存储介质
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN110889493A (zh) 针对关系网络添加扰动的方法及装置
CN113296089A (zh) 用于多预警机目标跟踪***的lmb密度融合方法及装置
CN115346125B (zh) 一种基于深度学习的目标检测方法
CN116467466A (zh) 基于知识图谱的编码推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant