CN108388879B

CN108388879B - 目标的检测方法、装置和存储介质

Info

Publication number: CN108388879B
Application number: CN201810214503.7A
Authority: CN
Inventors: 李朝辉; 吴颖谦; 蒋宗杰; 张燕昆
Original assignee: Zebred Network Technology Co Ltd
Current assignee: Zebred Network Technology Co Ltd
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2022-04-15
Anticipated expiration: 2038-03-15
Also published as: CN108388879A

Abstract

本发明提供一种目标的检测方法、装置和存储介质，该方法包括：初始检测得到视频数据中当前帧图像中的待检测目标；将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配；若所述上一帧图像中存在与所述待检测目标相匹配的目标，则分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息，其中，m为正整数。本发明提供的目标的检测方法、装置和存储介质，不仅能够降低检测的难度，而且可以提高检测的准确性。

Description

目标的检测方法、装置和存储介质

技术领域

本发明涉及图像检测技术，尤其涉及一种目标的检测方法、装置和存储介质。

背景技术

汽车辅助驾驶中对车辆和行人等目标的检测的精度要求十分严格。目前的检测技术对车辆、交通标志和车道线等刚性目标等较为准确，而对行人或自行车等非刚性目标的检测准确率则较低。

目前，针对行人的检测方法，主要是基于视频流中的单帧图像，用传统的特征提取加分类的方法，或者基于卷积神经网络等深度学习方法进行检测。其中，传统的特征提取加分类的方法主要是预先设计行人的特征，再用机器学习算法对特征进行分类。如利用图像的梯度直方图(histogram of gradient；HOG)作为特征，用支持向量机(support vectormachine；SVM)进行二分类，HOG特征通过计算图像的梯度，并按照方向和模值进行统计。另外，基于深度学习的方法是通过卷积神经网络自动学习特征，目前比较流行的方法主要有基于提取候选框进行二次分类的faster rcnn、基于多尺度特征层的SSD(single shotmultibox detector)和YOLO算法，以及基于图像金字塔的特征金字塔网络(featurepyramid networks；FPN)改进算法。

由于行人等目标本身会产生各种形变，在采用上述各方式进行检测时，为了提高检测准确度，需要扩大数据量以包含足够多的样本，同时需要提升模型容量，覆盖可能各种形变，这样不仅会增加检测难度，并且检测的准确率也不高。

发明内容

为解决现有技术中存在的问题，本发明提供一种目标的检测方法、装置和存储介质，不仅能够降低检测难度，而且能够提高检测的准确率。

第一方面，本发明实施例提供一种目标的检测方法，包括：

初始检测得到视频数据中当前帧图像中的待检测目标；

将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配；

若所述上一帧图像中存在与所述待检测目标相匹配的目标，则分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息，其中，m为正整数。

可选地，所述将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配，包括：

获取所述待检测目标在所述当前帧图像中的候选框；

将所述候选框和所述上一帧图像中的至少一个目标进行匹配。

可选地，所述将所述候选框和所述上一帧图像中的至少一个目标进行匹配，包括：

将所述至少一个目标在所述当前帧图像中进行跟踪处理，获得各所述目标在所述当前帧图像中的跟踪框；

计算各所述跟踪框和所述候选框之间的交并比IOU；

确定所述IOU大于预设阈值的所述跟踪框对应的目标与所述候选框匹配成功。

可选地，所述计算各所述跟踪框和所述候选框之间的交并比IOU，包括：

根据公式IOU＝(TkBBox I CandBBox)/(TkBBox U CandBBox)计算所述IOU，其中，所述TkBBox为所述跟踪框，所述CandBBox为所述候选框。

可选地，所述分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息，包括：

将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN，获得所述待检测目标的位置信息以及所述待检测目标为各类别的概率值；

选取概率值最大的类别作为中间类别；

根据所述中间类别的概率值，以及所述待检测目标在所述上一帧图像中的类别的概率值，确定所述待检测目标在所述当前帧图像中的类别。

可选地，所述根据所述中间类别的概率值，以及所述待检测目标在所述上一帧图像中的类别的概率值，确定所述待检测目标在所述当前帧图像中的类别，包括：

将所述中间类别对应的概率值与所述待检测目标在所述上一帧图像中的类别的概率值进行比较；

若所述中间类别对应的概率值大于或等于所述待检测目标在所述上一帧图像中的类别的概率值，则将所述中间类别确定为所述待检测目标在所述当前帧图像中的类别；

若所述中间类别对应的概率值小于所述待检测目标在所述上一帧图像中的类别的概率值，则将所述待检测目标在所述上一帧图像中的类别确定为所述待检测目标在所述当前帧图像中的类别。

可选地，所述将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN之前，所述方法还包括：

将待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层分别进行缩放处理，获得预设尺寸的特征层；

所述将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN，包括：

将所述预设尺寸的特征层输入所述LRCN。

第二方面，本发明实施例提供一种目标的检测装置，包括：

检测模块，用于初始检测得到视频数据中当前帧图像中的待检测目标；

匹配模块，用于将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配；

确定模块，用于在所述匹配模块匹配出所述上一帧图像中存在与所述待检测目标相匹配的目标时，分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息，其中，m为正整数。

可选地，所述匹配模块，具体用于：

获取所述待检测目标在所述当前帧图像中的候选框；

可选地，所述匹配模块，具体用于：

计算各所述跟踪框和所述候选框之间的交并比IOU；

可选地，所述匹配模块，具体用于：

可选地，所述确定模块，具体用于：

选取概率值最大的类别作为中间类别；

可选地，所述确定模块，具体用于：

将所述预设尺寸的特征层输入所述LRCN。

第三方面，本发明实施例提供一种终端设备，包括：

处理器；

存储器；以及

计算机程序；

其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如第一方面所述的方法的指令。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得服务器执行第一方面所述的方法。

本发明提供的目标的检测方法、装置和存储介质，通过初始检测得到视频数据中当前帧图像中的待检测目标，并将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配，若上一帧图像中存在与待检测目标相匹配的目标，则分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息。由于终端设备在确定当前帧图像中的待检测目标的类别和位置信息时，可以与当前帧图像的上一帧图像中的目标进行匹配，在匹配成功后，根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层，共同确定待检测目标的类别和位置信息，这样，避免了现有技术中仅根据单帧图像检测目标的现象，而且根据多帧图像，可以检测出待检测目标的姿态变化，从而不仅可以降低检测难度，而且可以提高检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的目标的检测方法实施例一的流程示意图；

图2为提取候选框的示意图；

图3为LRCN算法的流程示意图；

图4为行人时间序列流示意图；

图5为本发明实施例提供的目标的检测装置实施例一的结构示意图；

图6为本发明实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的目标的检测方法可以应用于图像中目标对象的检测场景中，尤其应用于目标本身的姿态会发生变化或者各种形变的非刚性目标检测的场景中。目前，针对行人等非刚性目标的检测，主要是基于视频流中的单帧图像，用传统的特征提取加分类的方法，或者基于卷积神经网络等深度学习方法进行检测。然而，由于行人等目标本身会产生各种形变，在采用上述各方式进行检测时，为了提高检测准确度，需要扩大数据量以包含足够多的样本，同时需要提升模型容量，覆盖可能各种形变，这样不仅会增加检测难度，并且检测的准确率也不高。

本发明实施例考虑到上述问题，提出一种目标的检测方法，该方法中通过初始检测得到视频数据中当前帧图像中的待检测目标，并将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配，若上一帧图像中存在与待检测目标相匹配的目标，则分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息。由于终端设备在确定当前帧图像中的待检测目标的类别和位置信息时，可以与当前帧图像的上一帧图像中的目标进行匹配，在匹配成功后，根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层，共同确定待检测目标的类别和位置信息，这样，避免了现有技术中仅根据单帧图像检测目标的现象，而且根据多帧图像，可以检测出待检测目标的姿态变化，从而不仅可以降低检测难度，而且可以提高检测的准确性。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的目标的检测方法实施例一的流程示意图。本发明实施例提供了一种目标的检测方法，该方法可以由任意执行目标的检测方法的装置来执行，该装置可以通过软件和/或硬件实现。本实施例中，该装置可以集成在终端设备中。如图1所示，本发明实施例提供的目标的检测方法包括如下步骤：

步骤101、初始检测得到视频数据中当前帧图像中的待检测目标。

在本实施例中，摄像头会实时采集视频数据，并将采集到的视频数据发送给终端设备，终端设备在接收到该视频数据后，从该视频数据中获取当前帧图像，并采用候选框提取网络(region proposal network；RPN)对该当前帧图像进行初始检测，以获得当前帧图像中的各目标是否为待检测目标。其中，待检测目标的数量可以为一个，也可以为多个。在本实施例中，待检测目标可以包括行人或自行车等非刚性目标。

其中，终端设备例如可以为手机、平板、可穿戴设备或者车载设备等。

步骤102、将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配。

在本实施例中，每一帧图像中均包括有至少一个目标，终端设备在获取到当前帧图像中的待检测目标之后，将该待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配。需要进行说明的是，若待检测目标的数量有多个时，可以将每个待检测目标分别与当前帧图像的上一帧图像中的至少一个目标进行匹配。

在一种可能的实现方式中，将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配，包括获取待检测目标在当前帧图像中的候选框，并将候选框和上一帧图像中的至少一个目标进行匹配。

具体的，图2为提取候选框的示意图，如图2所示，在获取到视频数据中的当前帧图像之后，将采用候选框提取网络(region proposal network；RPN)对当前帧图像进行候选框1的提取，另外，还需要保存利用此网络计算出的待检测目标的特征层。其中，提取出的每个候选框1中将包含有一个待检测目标。

在提取出候选框1之后，将对提取的候选框与当前帧图像的上一帧图像中的目标进行匹配。在本发明实施例中，可以采用跟踪算法进行匹配，在具体的实现过程中，可以将至少一个目标在当前帧图像中进行跟踪处理，获得各目标在当前帧图像中的跟踪框，并计算各跟踪框和候选框之间的交并比(Intersection over Union；IOU)，确定IOU大于预设阈值的跟踪框对应的目标与候选框匹配成功。

具体的，可以对前一帧图像中的所有目标在当前帧中用核相关滤波算法(Kernerlized Correlation Filter；KCF)算法进行跟踪，得到前一帧图像中的所有目标在当前帧中的跟踪框。计算出各目标在当前帧图像中的跟踪框之后，将计算各跟踪框与待检测目标的候选框之间的IOU。

在一种可能的实现方式中，可以根据公式IOU＝(TkBBox I CandBBox)/(TkBBox UCandBBox)计算IOU，其中，TkBBox为跟踪框，CandBBox为候选框，也即先计算跟踪框和候选框之间的交集，再计算跟踪框和候选框之间的并集，然后将两者做比值，以确定出跟踪框和候选框之间的交并比IOU。

在计算出IOU之后，将判断计算出的IOU的值是否大于预设阈值，若判断出IOU的值大于预设阈值，则说明计算该IOU的跟踪框对应的目标与候选框匹配成功，否则，说明跟踪框对应的目标与候选框匹配不成功。其中，预设阈值的取值可以根据实际情况或者经验进行选取，对于预设阈值的具体取值，本发明实施例在此不做限制。

值得注意的是，若当前帧中的某个候选框没有与上一帧图像中的任何目标匹配成功，则说明该候选框对应的待检测目标可能为在当前帧中新出现的目标，此时，可以将该待检测目标标记为初始帧。若上一帧图像中的某个目标未与当前帧中的任何目标对应的候选框匹配成功，则说明上一帧图像中的该目标在当前帧中已经消失，此时将会丢弃此目标。

步骤103、若上一帧图像中存在与待检测目标相匹配的目标，则分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息，其中，m为正整数。

在本实施例中，终端设备可以通过候选框提取网络(region Proposal Network)计算出各待检测目标的特征层。若终端设备发现上一帧图像中存在与待检测目标相匹配的目标，将会获取待检测目标在当前帧图像中的特征层，以及待检测目标在前m帧图像中的特征层，并根据获取到的这些特征层确定待检测目标的类别和位置信息。

在一种可能的实现方式中，分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息，包括将待检测目标在当前帧图像中的特征层以及在前m帧图像中的特征层输入长期循环卷积网络(Long-term Recurrent Convolution Network；LRCN)，获得待检测目标的位置信息以及待检测目标为各类别的概率值；选取概率值最大的类别作为中间类别；根据中间类别的概率值，以及待检测目标在上一帧图像中的类别的概率值，确定待检测目标在当前帧图像中的类别。

具体的，终端设备可以通过候选框提取网络(region Proposal Network；RPN)计算出各待检测目标在当前帧图像中的特征层，同样的，在对之前的各帧图像进行检测时，也会计算上述待检测目标在之前的各帧图像中的特征层，并将该特征层进行保存。

当终端设备在确定出上一帧图像中存在与待检测目标相匹配的目标时，说明该待检测目标在上一帧图像和当前帧图像中均有出现，此时，将会获取保存的待检测目标在当前帧图像中的卷积层特征以及在前m帧图像中的卷积层特征，并将获取到的卷积层特征作为输入传入时间序列网络，例如可以传入至LRCN中，其中，LRCN网络由若干长短期记忆模型(long-short term memory；LSTM)层组成，每一层接收当前帧目标的特征输入，输出对应帧待检测目标的位置信息和类别信息，并向下一层传递状态。

图3为LRCN算法的流程示意图，如图3所示，将通过KCF算法跟踪得到的前一帧图像中的所有目标在当前帧中的跟踪框之后，将跟踪框和待检测目标的候选框进行匹配之后，若匹配成功，则获取待检测目标在当前帧图像中的CNN(Convolutional Neural Network；卷积神经网络)特征层以及在当前帧图像的前m帧图像中的CNN特征层，并将获取到的CNN特征层作为输入传入至LSTM网络，从而获得待检测目标的位置信息以及待检测目标为各类别的概率值。

其中，m可以根据实际情况或者经验设置，例如可以设置为10、15等，对于m的具体取值，本实施例在此不做限制。

另外，类别的数量或者种类可以使预先设定的，例如可以包括背景、行人、自行车和汽车等，终端设备将特征层输入至LRCN之后，将会得到待检测目标的在当前帧图像中的坐标位置以及待检测目标为各类别的概率值。

举例来说，若当前帧图像为第30帧图像，则将待检测目标在第30帧图像中的特征层以及待检测目标在第20-29帧图像中的特征层输入LRCN，可以获得待检测目标的位置信息在当前帧图像中的坐标位置，还可以得到该待检测目标为为各类别的概率值，如为背景的概率为0.1，为行人的概率为0.7、为自行车的概率为0.1，为汽车的概率为0.1等。

在确定出待检测目标为各类别的概率值之后，将选取概率值最大的类别作为中间类别，如选取行人作为中间类别。

进一步地，将确定出的中间类别对应的概率值与待检测目标在上一帧图像中的类别的概率值进行比较；若中间类别对应的概率值大于或等于待检测目标在上一帧图像中的类别的概率值，则将中间类别确定为待检测目标在当前帧图像中的类别；若中间类别对应的概率值小于待检测目标在上一帧图像中的类别的概率值，则将待检测目标在上一帧图像中的类别确定为待检测目标在当前帧图像中的类别。

具体地，对于每一帧图像来说，其都会根据上述方式确定出待检测目标在此帧图像中的类别，因此，终端设备在确定出中间类别之后，会将中间类别的概率值和待检测目标在上一帧图像中的类别的概率值进行比较，当中间类别对应的概率值大于或等于待检测目标在上一帧图像中的类别的概率值，则将中间类别确定为待检测目标在当前帧图像中的类别。例如：若中间类别为行人，且概率值为0.7，待检测目标在上一帧图像中的类别也为行人，且概率值为0.6，则将中间类别行人确定为待检测目标在当前帧图像中的类别。又如：若中间类别为行人，且概率值为0.7，待检测目标在上一帧图像中的类别为自行车，且概率值为0.6，则将中间类别行人确定为待检测目标在当前帧图像中的类别。

另外，若中间类别对应的概率值小于待检测目标在上一帧图像中的类别的概率值，则将待检测目标在上一帧图像中的类别确定为待检测目标在当前帧图像中的类别。例如：若中间类别为行人，且概率值为0.7，待检测目标在上一帧图像中的类别也为行人，且概率值为0.8，则将待检测目标在上一帧图像中的类别行人确定为待检测目标在当前帧图像中的类别。又如：若中间类别为行人，且概率值为0.7，待检测目标在上一帧图像中的类别为自行车，且概率值为0.8，则将待检测目标在上一帧图像中的类别自行车确定为待检测目标在当前帧图像中的类别。

进一步地，将待检测目标在当前帧图像中的特征层以及在前m帧图像中的特征层输入LRCN之前，该方法还包括：将待检测目标在当前帧图像中的特征层以及在前m帧图像中的特征层分别进行缩放处理，获得预设尺寸的特征层，这样，只需将预设尺寸的特征层输入所述LRCN即可。

具体的，图4为行人时间序列流示意图，如图4所示，不同帧下的待检测目标的尺寸是不同的，因此输入到LRCN网络之前，本实施例中需要采用fast rcnn中的算法，首先对卷积层做感兴趣区域(region of interest；ROI)缩放处理,缩放到固定尺寸，具体的实现方式为：假设感兴趣区域ROI为h×w,缩放后的特征尺寸为H×W,将ROI分成H×W个格子，每个格子大小为h/H×w/W，在每个格子中做最大缩放处理(max pooling)，最终生成H×W大小的特征层。

另外，由于一帧图像中含有多个目标，因此在计算特征层时可以直接对整幅图计算卷积特征，然后根据待检测目标的候选框的坐标和尺寸取出对应的特征层进行ROI缩放处理。

进一步地，对于训练和检测，也可以以待检测目标为单位，具体的，对于每一帧中的每个目标，首先计算出每帧中所对应的卷积特征，再做ROI缩放变换到固定尺寸，传入LRCN网络。

本发明实施例提供的目标的检测方法，通过初始检测得到视频数据中当前帧图像中的待检测目标，并将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配，若上一帧图像中存在与待检测目标相匹配的目标，则分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息。由于终端设备在确定当前帧图像中的待检测目标的类别和位置信息时，可以与当前帧图像的上一帧图像中的目标进行匹配，在匹配成功后，根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层，共同确定待检测目标的类别和位置信息，这样，避免了现有技术中仅根据单帧图像检测目标的现象，而且根据多帧图像，可以检测出待检测目标的姿态变化，从而不仅可以降低检测难度，而且可以提高检测的准确性。

图5为本发明实施例提供的目标的检测装置实施例一的结构示意图。该目标的检测装置可以为独立的终端设备，也可以为集成在终端设备中的装置，该装置可以通过软件、硬件或者软硬件结合的方式实现。如图5所示，该装置包括：

检测模块11用于初始检测得到视频数据中当前帧图像中的待检测目标；

匹配模块12用于将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配；

确定模块13用于在所述匹配模块匹配出所述上一帧图像中存在与所述待检测目标相匹配的目标时，分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息，其中，m为正整数。

本发明实施例提供的目标的检测装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

可选的，所述匹配模块12，具体用于：

获取所述待检测目标在所述当前帧图像中的候选框；

可选的，所述匹配模块12，具体用于：

计算各所述跟踪框和所述候选框之间的交并比IOU；

可选的，所述匹配模块12，具体用于：

可选的，所述确定模块13，具体用于：

选取概率值最大的类别作为中间类别；

可选的，所述确定模块13，具体用于：

将所述预设尺寸的特征层输入所述LRCN。

图6为本发明实施例提供的终端设备的结构示意图。如图6所示，该终端设备可以包括发送器60、处理器61、存储器62、接收器64和至少一个通信总线63。通信总线63用于实现元件之间的通信连接。存储器62可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，存储器62中可以存储各种计算机程序，用于完成各种处理功能以及实现前述任一实施例的方法步骤。

本发明实施例还提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机程序，所述计算机程序使得服务器执行前述任一实施例提供的目标的检测方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种目标的检测方法，其特征在于，包括：

初始检测得到视频数据中当前帧图像中的待检测目标；

若所述上一帧图像中存在与所述待检测目标相匹配的目标，将所述待检测目标在所述当前帧图像中的特征层以及在前m帧图像中的特征层输入长期循环卷积网络LRCN，获得所述待检测目标的位置信息以及所述待检测目标为各类别的概率值，选取概率值最大的类别作为中间类别，其中，m为正整数；

2.根据权利要求1所述的方法，其特征在于，所述将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配，包括：

获取所述待检测目标在所述当前帧图像中的候选框；

3.根据权利要求2所述的方法，其特征在于，所述将所述候选框和所述上一帧图像中的至少一个目标进行匹配，包括：

计算各所述跟踪框和所述候选框之间的交并比IOU；

4.根据权利要求3所述的方法，其特征在于，所述计算各所述跟踪框和所述候选框之间的交并比IOU，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN之前，所述方法还包括：

将所述预设尺寸的特征层输入所述LRCN。

6.一种目标的检测装置，其特征在于，包括：

确定模块，用于在所述匹配模块匹配出所述上一帧图像中存在与所述待检测目标相匹配的目标时，将所述待检测目标在所述当前帧图像中的特征层以及在前m帧图像中的特征层输入长期循环卷积网络LRCN，获得所述待检测目标的位置信息以及所述待检测目标为各类别的概率值，选取概率值最大的类别作为中间类别，其中，m为正整数；

7.一种终端设备，其特征在于，包括：

处理器；

存储器；以及

计算机程序；

其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如权利要求1-5任一项所述的方法的指令。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得终端设备执行权利要求1-5任一项所述的方法。