CN108388879B - 目标的检测方法、装置和存储介质 - Google Patents
目标的检测方法、装置和存储介质 Download PDFInfo
- Publication number
- CN108388879B CN108388879B CN201810214503.7A CN201810214503A CN108388879B CN 108388879 B CN108388879 B CN 108388879B CN 201810214503 A CN201810214503 A CN 201810214503A CN 108388879 B CN108388879 B CN 108388879B
- Authority
- CN
- China
- Prior art keywords
- target
- detected
- frame image
- category
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种目标的检测方法、装置和存储介质,该方法包括:初始检测得到视频数据中当前帧图像中的待检测目标;将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配;若所述上一帧图像中存在与所述待检测目标相匹配的目标,则分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息,其中,m为正整数。本发明提供的目标的检测方法、装置和存储介质,不仅能够降低检测的难度,而且可以提高检测的准确性。
Description
技术领域
本发明涉及图像检测技术,尤其涉及一种目标的检测方法、装置和存储介质。
背景技术
汽车辅助驾驶中对车辆和行人等目标的检测的精度要求十分严格。目前的检测技术对车辆、交通标志和车道线等刚性目标等较为准确,而对行人或自行车等非刚性目标的检测准确率则较低。
目前,针对行人的检测方法,主要是基于视频流中的单帧图像,用传统的特征提取加分类的方法,或者基于卷积神经网络等深度学习方法进行检测。其中,传统的特征提取加分类的方法主要是预先设计行人的特征,再用机器学习算法对特征进行分类。如利用图像的梯度直方图(histogram of gradient;HOG)作为特征,用支持向量机(support vectormachine;SVM)进行二分类,HOG特征通过计算图像的梯度,并按照方向和模值进行统计。另外,基于深度学习的方法是通过卷积神经网络自动学习特征,目前比较流行的方法主要有基于提取候选框进行二次分类的faster rcnn、基于多尺度特征层的SSD(single shotmultibox detector)和YOLO算法,以及基于图像金字塔的特征金字塔网络(featurepyramid networks;FPN)改进算法。
由于行人等目标本身会产生各种形变,在采用上述各方式进行检测时,为了提高检测准确度,需要扩大数据量以包含足够多的样本,同时需要提升模型容量,覆盖可能各种形变,这样不仅会增加检测难度,并且检测的准确率也不高。
发明内容
为解决现有技术中存在的问题,本发明提供一种目标的检测方法、装置和存储介质,不仅能够降低检测难度,而且能够提高检测的准确率。
第一方面,本发明实施例提供一种目标的检测方法,包括:
初始检测得到视频数据中当前帧图像中的待检测目标;
将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配;
若所述上一帧图像中存在与所述待检测目标相匹配的目标,则分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息,其中,m为正整数。
可选地,所述将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配,包括:
获取所述待检测目标在所述当前帧图像中的候选框;
将所述候选框和所述上一帧图像中的至少一个目标进行匹配。
可选地,所述将所述候选框和所述上一帧图像中的至少一个目标进行匹配,包括:
将所述至少一个目标在所述当前帧图像中进行跟踪处理,获得各所述目标在所述当前帧图像中的跟踪框;
计算各所述跟踪框和所述候选框之间的交并比IOU;
确定所述IOU大于预设阈值的所述跟踪框对应的目标与所述候选框匹配成功。
可选地,所述计算各所述跟踪框和所述候选框之间的交并比IOU,包括:
根据公式IOU=(TkBBox I CandBBox)/(TkBBox U CandBBox)计算所述IOU,其中,所述TkBBox为所述跟踪框,所述CandBBox为所述候选框。
可选地,所述分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息,包括:
将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN,获得所述待检测目标的位置信息以及所述待检测目标为各类别的概率值;
选取概率值最大的类别作为中间类别;
根据所述中间类别的概率值,以及所述待检测目标在所述上一帧图像中的类别的概率值,确定所述待检测目标在所述当前帧图像中的类别。
可选地,所述根据所述中间类别的概率值,以及所述待检测目标在所述上一帧图像中的类别的概率值,确定所述待检测目标在所述当前帧图像中的类别,包括:
将所述中间类别对应的概率值与所述待检测目标在所述上一帧图像中的类别的概率值进行比较;
若所述中间类别对应的概率值大于或等于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述中间类别确定为所述待检测目标在所述当前帧图像中的类别;
若所述中间类别对应的概率值小于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述待检测目标在所述上一帧图像中的类别确定为所述待检测目标在所述当前帧图像中的类别。
可选地,所述将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN之前,所述方法还包括:
将待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层分别进行缩放处理,获得预设尺寸的特征层;
所述将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN,包括:
将所述预设尺寸的特征层输入所述LRCN。
第二方面,本发明实施例提供一种目标的检测装置,包括:
检测模块,用于初始检测得到视频数据中当前帧图像中的待检测目标;
匹配模块,用于将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配;
确定模块,用于在所述匹配模块匹配出所述上一帧图像中存在与所述待检测目标相匹配的目标时,分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息,其中,m为正整数。
可选地,所述匹配模块,具体用于:
获取所述待检测目标在所述当前帧图像中的候选框;
将所述候选框和所述上一帧图像中的至少一个目标进行匹配。
可选地,所述匹配模块,具体用于:
将所述至少一个目标在所述当前帧图像中进行跟踪处理,获得各所述目标在所述当前帧图像中的跟踪框;
计算各所述跟踪框和所述候选框之间的交并比IOU;
确定所述IOU大于预设阈值的所述跟踪框对应的目标与所述候选框匹配成功。
可选地,所述匹配模块,具体用于:
根据公式IOU=(TkBBox I CandBBox)/(TkBBox U CandBBox)计算所述IOU,其中,所述TkBBox为所述跟踪框,所述CandBBox为所述候选框。
可选地,所述确定模块,具体用于:
将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN,获得所述待检测目标的位置信息以及所述待检测目标为各类别的概率值;
选取概率值最大的类别作为中间类别;
根据所述中间类别的概率值,以及所述待检测目标在所述上一帧图像中的类别的概率值,确定所述待检测目标在所述当前帧图像中的类别。
可选地,所述确定模块,具体用于:
将所述中间类别对应的概率值与所述待检测目标在所述上一帧图像中的类别的概率值进行比较;
若所述中间类别对应的概率值大于或等于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述中间类别确定为所述待检测目标在所述当前帧图像中的类别;
若所述中间类别对应的概率值小于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述待检测目标在所述上一帧图像中的类别确定为所述待检测目标在所述当前帧图像中的类别。
可选地,所述确定模块,具体用于:
将待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层分别进行缩放处理,获得预设尺寸的特征层;
将所述预设尺寸的特征层输入所述LRCN。
第三方面,本发明实施例提供一种终端设备,包括:
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如第一方面所述的方法的指令。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行第一方面所述的方法。
本发明提供的目标的检测方法、装置和存储介质,通过初始检测得到视频数据中当前帧图像中的待检测目标,并将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配,若上一帧图像中存在与待检测目标相匹配的目标,则分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息。由于终端设备在确定当前帧图像中的待检测目标的类别和位置信息时,可以与当前帧图像的上一帧图像中的目标进行匹配,在匹配成功后,根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层,共同确定待检测目标的类别和位置信息,这样,避免了现有技术中仅根据单帧图像检测目标的现象,而且根据多帧图像,可以检测出待检测目标的姿态变化,从而不仅可以降低检测难度,而且可以提高检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的目标的检测方法实施例一的流程示意图;
图2为提取候选框的示意图;
图3为LRCN算法的流程示意图;
图4为行人时间序列流示意图;
图5为本发明实施例提供的目标的检测装置实施例一的结构示意图;
图6为本发明实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的目标的检测方法可以应用于图像中目标对象的检测场景中,尤其应用于目标本身的姿态会发生变化或者各种形变的非刚性目标检测的场景中。目前,针对行人等非刚性目标的检测,主要是基于视频流中的单帧图像,用传统的特征提取加分类的方法,或者基于卷积神经网络等深度学习方法进行检测。然而,由于行人等目标本身会产生各种形变,在采用上述各方式进行检测时,为了提高检测准确度,需要扩大数据量以包含足够多的样本,同时需要提升模型容量,覆盖可能各种形变,这样不仅会增加检测难度,并且检测的准确率也不高。
本发明实施例考虑到上述问题,提出一种目标的检测方法,该方法中通过初始检测得到视频数据中当前帧图像中的待检测目标,并将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配,若上一帧图像中存在与待检测目标相匹配的目标,则分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息。由于终端设备在确定当前帧图像中的待检测目标的类别和位置信息时,可以与当前帧图像的上一帧图像中的目标进行匹配,在匹配成功后,根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层,共同确定待检测目标的类别和位置信息,这样,避免了现有技术中仅根据单帧图像检测目标的现象,而且根据多帧图像,可以检测出待检测目标的姿态变化,从而不仅可以降低检测难度,而且可以提高检测的准确性。
下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例提供的目标的检测方法实施例一的流程示意图。本发明实施例提供了一种目标的检测方法,该方法可以由任意执行目标的检测方法的装置来执行,该装置可以通过软件和/或硬件实现。本实施例中,该装置可以集成在终端设备中。如图1所示,本发明实施例提供的目标的检测方法包括如下步骤:
步骤101、初始检测得到视频数据中当前帧图像中的待检测目标。
在本实施例中,摄像头会实时采集视频数据,并将采集到的视频数据发送给终端设备,终端设备在接收到该视频数据后,从该视频数据中获取当前帧图像,并采用候选框提取网络(region proposal network;RPN)对该当前帧图像进行初始检测,以获得当前帧图像中的各目标是否为待检测目标。其中,待检测目标的数量可以为一个,也可以为多个。在本实施例中,待检测目标可以包括行人或自行车等非刚性目标。
其中,终端设备例如可以为手机、平板、可穿戴设备或者车载设备等。
步骤102、将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配。
在本实施例中,每一帧图像中均包括有至少一个目标,终端设备在获取到当前帧图像中的待检测目标之后,将该待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配。需要进行说明的是,若待检测目标的数量有多个时,可以将每个待检测目标分别与当前帧图像的上一帧图像中的至少一个目标进行匹配。
在一种可能的实现方式中,将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配,包括获取待检测目标在当前帧图像中的候选框,并将候选框和上一帧图像中的至少一个目标进行匹配。
具体的,图2为提取候选框的示意图,如图2所示,在获取到视频数据中的当前帧图像之后,将采用候选框提取网络(region proposal network;RPN)对当前帧图像进行候选框1的提取,另外,还需要保存利用此网络计算出的待检测目标的特征层。其中,提取出的每个候选框1中将包含有一个待检测目标。
在提取出候选框1之后,将对提取的候选框与当前帧图像的上一帧图像中的目标进行匹配。在本发明实施例中,可以采用跟踪算法进行匹配,在具体的实现过程中,可以将至少一个目标在当前帧图像中进行跟踪处理,获得各目标在当前帧图像中的跟踪框,并计算各跟踪框和候选框之间的交并比(Intersection over Union;IOU),确定IOU大于预设阈值的跟踪框对应的目标与候选框匹配成功。
具体的,可以对前一帧图像中的所有目标在当前帧中用核相关滤波算法(Kernerlized Correlation Filter;KCF)算法进行跟踪,得到前一帧图像中的所有目标在当前帧中的跟踪框。计算出各目标在当前帧图像中的跟踪框之后,将计算各跟踪框与待检测目标的候选框之间的IOU。
在一种可能的实现方式中,可以根据公式IOU=(TkBBox I CandBBox)/(TkBBox UCandBBox)计算IOU,其中,TkBBox为跟踪框,CandBBox为候选框,也即先计算跟踪框和候选框之间的交集,再计算跟踪框和候选框之间的并集,然后将两者做比值,以确定出跟踪框和候选框之间的交并比IOU。
在计算出IOU之后,将判断计算出的IOU的值是否大于预设阈值,若判断出IOU的值大于预设阈值,则说明计算该IOU的跟踪框对应的目标与候选框匹配成功,否则,说明跟踪框对应的目标与候选框匹配不成功。其中,预设阈值的取值可以根据实际情况或者经验进行选取,对于预设阈值的具体取值,本发明实施例在此不做限制。
值得注意的是,若当前帧中的某个候选框没有与上一帧图像中的任何目标匹配成功,则说明该候选框对应的待检测目标可能为在当前帧中新出现的目标,此时,可以将该待检测目标标记为初始帧。若上一帧图像中的某个目标未与当前帧中的任何目标对应的候选框匹配成功,则说明上一帧图像中的该目标在当前帧中已经消失,此时将会丢弃此目标。
步骤103、若上一帧图像中存在与待检测目标相匹配的目标,则分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息,其中,m为正整数。
在本实施例中,终端设备可以通过候选框提取网络(region Proposal Network)计算出各待检测目标的特征层。若终端设备发现上一帧图像中存在与待检测目标相匹配的目标,将会获取待检测目标在当前帧图像中的特征层,以及待检测目标在前m帧图像中的特征层,并根据获取到的这些特征层确定待检测目标的类别和位置信息。
在一种可能的实现方式中,分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息,包括将待检测目标在当前帧图像中的特征层以及在前m帧图像中的特征层输入长期循环卷积网络(Long-term Recurrent Convolution Network;LRCN),获得待检测目标的位置信息以及待检测目标为各类别的概率值;选取概率值最大的类别作为中间类别;根据中间类别的概率值,以及待检测目标在上一帧图像中的类别的概率值,确定待检测目标在当前帧图像中的类别。
具体的,终端设备可以通过候选框提取网络(region Proposal Network;RPN)计算出各待检测目标在当前帧图像中的特征层,同样的,在对之前的各帧图像进行检测时,也会计算上述待检测目标在之前的各帧图像中的特征层,并将该特征层进行保存。
当终端设备在确定出上一帧图像中存在与待检测目标相匹配的目标时,说明该待检测目标在上一帧图像和当前帧图像中均有出现,此时,将会获取保存的待检测目标在当前帧图像中的卷积层特征以及在前m帧图像中的卷积层特征,并将获取到的卷积层特征作为输入传入时间序列网络,例如可以传入至LRCN中,其中,LRCN网络由若干长短期记忆模型(long-short term memory;LSTM)层组成,每一层接收当前帧目标的特征输入,输出对应帧待检测目标的位置信息和类别信息,并向下一层传递状态。
图3为LRCN算法的流程示意图,如图3所示,将通过KCF算法跟踪得到的前一帧图像中的所有目标在当前帧中的跟踪框之后,将跟踪框和待检测目标的候选框进行匹配之后,若匹配成功,则获取待检测目标在当前帧图像中的CNN(Convolutional Neural Network;卷积神经网络)特征层以及在当前帧图像的前m帧图像中的CNN特征层,并将获取到的CNN特征层作为输入传入至LSTM网络,从而获得待检测目标的位置信息以及待检测目标为各类别的概率值。
其中,m可以根据实际情况或者经验设置,例如可以设置为10、15等,对于m的具体取值,本实施例在此不做限制。
另外,类别的数量或者种类可以使预先设定的,例如可以包括背景、行人、自行车和汽车等,终端设备将特征层输入至LRCN之后,将会得到待检测目标的在当前帧图像中的坐标位置以及待检测目标为各类别的概率值。
举例来说,若当前帧图像为第30帧图像,则将待检测目标在第30帧图像中的特征层以及待检测目标在第20-29帧图像中的特征层输入LRCN,可以获得待检测目标的位置信息在当前帧图像中的坐标位置,还可以得到该待检测目标为为各类别的概率值,如为背景的概率为0.1,为行人的概率为0.7、为自行车的概率为0.1,为汽车的概率为0.1等。
在确定出待检测目标为各类别的概率值之后,将选取概率值最大的类别作为中间类别,如选取行人作为中间类别。
进一步地,将确定出的中间类别对应的概率值与待检测目标在上一帧图像中的类别的概率值进行比较;若中间类别对应的概率值大于或等于待检测目标在上一帧图像中的类别的概率值,则将中间类别确定为待检测目标在当前帧图像中的类别;若中间类别对应的概率值小于待检测目标在上一帧图像中的类别的概率值,则将待检测目标在上一帧图像中的类别确定为待检测目标在当前帧图像中的类别。
具体地,对于每一帧图像来说,其都会根据上述方式确定出待检测目标在此帧图像中的类别,因此,终端设备在确定出中间类别之后,会将中间类别的概率值和待检测目标在上一帧图像中的类别的概率值进行比较,当中间类别对应的概率值大于或等于待检测目标在上一帧图像中的类别的概率值,则将中间类别确定为待检测目标在当前帧图像中的类别。例如:若中间类别为行人,且概率值为0.7,待检测目标在上一帧图像中的类别也为行人,且概率值为0.6,则将中间类别行人确定为待检测目标在当前帧图像中的类别。又如:若中间类别为行人,且概率值为0.7,待检测目标在上一帧图像中的类别为自行车,且概率值为0.6,则将中间类别行人确定为待检测目标在当前帧图像中的类别。
另外,若中间类别对应的概率值小于待检测目标在上一帧图像中的类别的概率值,则将待检测目标在上一帧图像中的类别确定为待检测目标在当前帧图像中的类别。例如:若中间类别为行人,且概率值为0.7,待检测目标在上一帧图像中的类别也为行人,且概率值为0.8,则将待检测目标在上一帧图像中的类别行人确定为待检测目标在当前帧图像中的类别。又如:若中间类别为行人,且概率值为0.7,待检测目标在上一帧图像中的类别为自行车,且概率值为0.8,则将待检测目标在上一帧图像中的类别自行车确定为待检测目标在当前帧图像中的类别。
进一步地,将待检测目标在当前帧图像中的特征层以及在前m帧图像中的特征层输入LRCN之前,该方法还包括:将待检测目标在当前帧图像中的特征层以及在前m帧图像中的特征层分别进行缩放处理,获得预设尺寸的特征层,这样,只需将预设尺寸的特征层输入所述LRCN即可。
具体的,图4为行人时间序列流示意图,如图4所示,不同帧下的待检测目标的尺寸是不同的,因此输入到LRCN网络之前,本实施例中需要采用fast rcnn中的算法,首先对卷积层做感兴趣区域(region of interest;ROI)缩放处理,缩放到固定尺寸,具体的实现方式为:假设感兴趣区域ROI为h×w,缩放后的特征尺寸为H×W,将ROI分成H×W个格子,每个格子大小为h/H×w/W,在每个格子中做最大缩放处理(max pooling),最终生成H×W大小的特征层。
另外,由于一帧图像中含有多个目标,因此在计算特征层时可以直接对整幅图计算卷积特征,然后根据待检测目标的候选框的坐标和尺寸取出对应的特征层进行ROI缩放处理。
进一步地,对于训练和检测,也可以以待检测目标为单位,具体的,对于每一帧中的每个目标,首先计算出每帧中所对应的卷积特征,再做ROI缩放变换到固定尺寸,传入LRCN网络。
本发明实施例提供的目标的检测方法,通过初始检测得到视频数据中当前帧图像中的待检测目标,并将待检测目标与当前帧图像的上一帧图像中的至少一个目标进行匹配,若上一帧图像中存在与待检测目标相匹配的目标,则分别根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层确定待检测目标的类别和位置信息。由于终端设备在确定当前帧图像中的待检测目标的类别和位置信息时,可以与当前帧图像的上一帧图像中的目标进行匹配,在匹配成功后,根据待检测目标在当前帧图像中的特征层以及在当前帧图像的前m帧图像中的特征层,共同确定待检测目标的类别和位置信息,这样,避免了现有技术中仅根据单帧图像检测目标的现象,而且根据多帧图像,可以检测出待检测目标的姿态变化,从而不仅可以降低检测难度,而且可以提高检测的准确性。
图5为本发明实施例提供的目标的检测装置实施例一的结构示意图。该目标的检测装置可以为独立的终端设备,也可以为集成在终端设备中的装置,该装置可以通过软件、硬件或者软硬件结合的方式实现。如图5所示,该装置包括:
检测模块11用于初始检测得到视频数据中当前帧图像中的待检测目标;
匹配模块12用于将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配;
确定模块13用于在所述匹配模块匹配出所述上一帧图像中存在与所述待检测目标相匹配的目标时,分别根据所述待检测目标在当前帧图像中的特征层以及在所述当前帧图像的前m帧图像中的特征层确定所述待检测目标的类别和位置信息,其中,m为正整数。
本发明实施例提供的目标的检测装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选的,所述匹配模块12,具体用于:
获取所述待检测目标在所述当前帧图像中的候选框;
将所述候选框和所述上一帧图像中的至少一个目标进行匹配。
可选的,所述匹配模块12,具体用于:
将所述至少一个目标在所述当前帧图像中进行跟踪处理,获得各所述目标在所述当前帧图像中的跟踪框;
计算各所述跟踪框和所述候选框之间的交并比IOU;
确定所述IOU大于预设阈值的所述跟踪框对应的目标与所述候选框匹配成功。
可选的,所述匹配模块12,具体用于:
根据公式IOU=(TkBBox I CandBBox)/(TkBBox U CandBBox)计算所述IOU,其中,所述TkBBox为所述跟踪框,所述CandBBox为所述候选框。
可选的,所述确定模块13,具体用于:
将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN,获得所述待检测目标的位置信息以及所述待检测目标为各类别的概率值;
选取概率值最大的类别作为中间类别;
根据所述中间类别的概率值,以及所述待检测目标在所述上一帧图像中的类别的概率值,确定所述待检测目标在所述当前帧图像中的类别。
可选的,所述确定模块13,具体用于:
将所述中间类别对应的概率值与所述待检测目标在所述上一帧图像中的类别的概率值进行比较;
若所述中间类别对应的概率值大于或等于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述中间类别确定为所述待检测目标在所述当前帧图像中的类别;
若所述中间类别对应的概率值小于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述待检测目标在所述上一帧图像中的类别确定为所述待检测目标在所述当前帧图像中的类别。
可选的,所述确定模块13,具体用于:
将待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层分别进行缩放处理,获得预设尺寸的特征层;
将所述预设尺寸的特征层输入所述LRCN。
本发明实施例提供的目标的检测装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
图6为本发明实施例提供的终端设备的结构示意图。如图6所示,该终端设备可以包括发送器60、处理器61、存储器62、接收器64和至少一个通信总线63。通信总线63用于实现元件之间的通信连接。存储器62可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,存储器62中可以存储各种计算机程序,用于完成各种处理功能以及实现前述任一实施例的方法步骤。
本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行前述任一实施例提供的目标的检测方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种目标的检测方法,其特征在于,包括:
初始检测得到视频数据中当前帧图像中的待检测目标;
将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配;
若所述上一帧图像中存在与所述待检测目标相匹配的目标,将所述待检测目标在所述当前帧图像中的特征层以及在前m帧图像中的特征层输入长期循环卷积网络LRCN,获得所述待检测目标的位置信息以及所述待检测目标为各类别的概率值,选取概率值最大的类别作为中间类别,其中,m为正整数;
将所述中间类别对应的概率值与所述待检测目标在所述上一帧图像中的类别的概率值进行比较;
若所述中间类别对应的概率值大于或等于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述中间类别确定为所述待检测目标在所述当前帧图像中的类别;
若所述中间类别对应的概率值小于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述待检测目标在所述上一帧图像中的类别确定为所述待检测目标在所述当前帧图像中的类别。
2.根据权利要求1所述的方法,其特征在于,所述将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配,包括:
获取所述待检测目标在所述当前帧图像中的候选框;
将所述候选框和所述上一帧图像中的至少一个目标进行匹配。
3.根据权利要求2所述的方法,其特征在于,所述将所述候选框和所述上一帧图像中的至少一个目标进行匹配,包括:
将所述至少一个目标在所述当前帧图像中进行跟踪处理,获得各所述目标在所述当前帧图像中的跟踪框;
计算各所述跟踪框和所述候选框之间的交并比IOU;
确定所述IOU大于预设阈值的所述跟踪框对应的目标与所述候选框匹配成功。
4.根据权利要求3所述的方法,其特征在于,所述计算各所述跟踪框和所述候选框之间的交并比IOU,包括:
根据公式IOU=(TkBBox I CandBBox)/(TkBBox U CandBBox)计算所述IOU,其中,所述TkBBox为所述跟踪框,所述CandBBox为所述候选框。
5.根据权利要求1所述的方法,其特征在于,所述将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN之前,所述方法还包括:
将待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层分别进行缩放处理,获得预设尺寸的特征层;
所述将所述待检测目标在所述当前帧图像中的特征层以及在所述前m帧图像中的特征层输入长期循环卷积网络LRCN,包括:
将所述预设尺寸的特征层输入所述LRCN。
6.一种目标的检测装置,其特征在于,包括:
检测模块,用于初始检测得到视频数据中当前帧图像中的待检测目标;
匹配模块,用于将所述待检测目标与所述当前帧图像的上一帧图像中的至少一个目标进行匹配;
确定模块,用于在所述匹配模块匹配出所述上一帧图像中存在与所述待检测目标相匹配的目标时,将所述待检测目标在所述当前帧图像中的特征层以及在前m帧图像中的特征层输入长期循环卷积网络LRCN,获得所述待检测目标的位置信息以及所述待检测目标为各类别的概率值,选取概率值最大的类别作为中间类别,其中,m为正整数;
将所述中间类别对应的概率值与所述待检测目标在所述上一帧图像中的类别的概率值进行比较;
若所述中间类别对应的概率值大于或等于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述中间类别确定为所述待检测目标在所述当前帧图像中的类别;
若所述中间类别对应的概率值小于所述待检测目标在所述上一帧图像中的类别的概率值,则将所述待检测目标在所述上一帧图像中的类别确定为所述待检测目标在所述当前帧图像中的类别。
7.一种终端设备,其特征在于,包括:
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如权利要求1-5任一项所述的方法的指令。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得终端设备执行权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810214503.7A CN108388879B (zh) | 2018-03-15 | 2018-03-15 | 目标的检测方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810214503.7A CN108388879B (zh) | 2018-03-15 | 2018-03-15 | 目标的检测方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108388879A CN108388879A (zh) | 2018-08-10 |
CN108388879B true CN108388879B (zh) | 2022-04-15 |
Family
ID=63067779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810214503.7A Active CN108388879B (zh) | 2018-03-15 | 2018-03-15 | 目标的检测方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108388879B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308469B (zh) * | 2018-09-21 | 2019-12-10 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109658438A (zh) * | 2018-12-05 | 2019-04-19 | 王家万 | 视频中被检测目标的跟踪方法、装置及存储介质 |
CN109784173A (zh) * | 2018-12-14 | 2019-05-21 | 合肥阿巴赛信息科技有限公司 | 一种单摄像头的商店客人在线跟踪算法 |
CN111325075B (zh) * | 2018-12-17 | 2023-11-07 | 北京华航无线电测量研究所 | 一种视频序列目标检测方法 |
CN109903312B (zh) * | 2019-01-25 | 2021-04-30 | 北京工业大学 | 一种基于视频多目标跟踪的足球球员跑动距离统计方法 |
CN111489284B (zh) * | 2019-01-29 | 2024-02-06 | 北京搜狗科技发展有限公司 | 一种图像处理方法、装置和用于图像处理的装置 |
CN109993091B (zh) * | 2019-03-25 | 2020-12-15 | 浙江大学 | 一种基于背景消除的监控视频目标检测方法 |
CN110210304B (zh) * | 2019-04-29 | 2021-06-11 | 北京百度网讯科技有限公司 | 用于目标检测和跟踪的方法及*** |
CN110378381B (zh) * | 2019-06-17 | 2024-01-19 | 华为技术有限公司 | 物体检测方法、装置和计算机存储介质 |
CN110246160B (zh) * | 2019-06-20 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、设备及介质 |
CN112347817B (zh) * | 2019-08-08 | 2022-05-17 | 魔门塔(苏州)科技有限公司 | 一种视频目标检测与跟踪方法及装置 |
CN110619279B (zh) * | 2019-08-22 | 2023-03-17 | 天津大学 | 一种基于跟踪的路面交通标志实例分割方法 |
CN110517293A (zh) | 2019-08-29 | 2019-11-29 | 京东方科技集团股份有限公司 | 目标跟踪方法、装置、***和计算机可读存储介质 |
EP4055561A4 (en) * | 2019-11-20 | 2023-01-04 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | OBJECT DETECTION DEVICE, METHOD AND SYSTEM |
CN111126399B (zh) * | 2019-12-28 | 2022-07-26 | 苏州科达科技股份有限公司 | 一种图像检测方法、装置、设备及可读存储介质 |
CN113065650B (zh) * | 2021-04-02 | 2023-11-17 | 中山大学 | 一种基于长期记忆学习的多通道神经网络实例分隔方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982559A (zh) * | 2012-11-28 | 2013-03-20 | 大唐移动通信设备有限公司 | 车辆跟踪方法及*** |
CN103810696A (zh) * | 2012-11-15 | 2014-05-21 | 浙江大华技术股份有限公司 | 一种目标对象图像检测方法及装置 |
CN103940824A (zh) * | 2014-04-29 | 2014-07-23 | 长春工程学院 | 一种空中输电线路绝缘子检测方法 |
EP2840528A2 (en) * | 2013-08-20 | 2015-02-25 | Ricoh Company, Ltd. | Method and apparatus for tracking object |
CN106127776A (zh) * | 2016-06-28 | 2016-11-16 | 北京工业大学 | 基于多特征时空上下文机器人目标识别与运动决策方法 |
CN106296723A (zh) * | 2015-05-28 | 2017-01-04 | 展讯通信(天津)有限公司 | 目标位置追踪方法及装置 |
CN106570490A (zh) * | 2016-11-15 | 2017-04-19 | 华南理工大学 | 一种基于快速聚类的行人实时跟踪方法 |
CN106707296A (zh) * | 2017-01-09 | 2017-05-24 | 华中科技大学 | 一种基于双孔径光电成像***的无人机检测与识别方法 |
CN106919918A (zh) * | 2017-02-27 | 2017-07-04 | 腾讯科技(上海)有限公司 | 一种人脸跟踪方法和装置 |
CN106951841A (zh) * | 2017-03-09 | 2017-07-14 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于颜色和距离聚类的多目标跟踪方法 |
CN107016357A (zh) * | 2017-03-23 | 2017-08-04 | 北京工业大学 | 一种基于时间域卷积神经网络的视频行人检测方法 |
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN107563313A (zh) * | 2017-08-18 | 2018-01-09 | 北京航空航天大学 | 基于深度学习的多目标行人检测与跟踪方法 |
-
2018
- 2018-03-15 CN CN201810214503.7A patent/CN108388879B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810696A (zh) * | 2012-11-15 | 2014-05-21 | 浙江大华技术股份有限公司 | 一种目标对象图像检测方法及装置 |
CN102982559A (zh) * | 2012-11-28 | 2013-03-20 | 大唐移动通信设备有限公司 | 车辆跟踪方法及*** |
EP2840528A2 (en) * | 2013-08-20 | 2015-02-25 | Ricoh Company, Ltd. | Method and apparatus for tracking object |
CN103940824A (zh) * | 2014-04-29 | 2014-07-23 | 长春工程学院 | 一种空中输电线路绝缘子检测方法 |
CN106296723A (zh) * | 2015-05-28 | 2017-01-04 | 展讯通信(天津)有限公司 | 目标位置追踪方法及装置 |
CN106127776A (zh) * | 2016-06-28 | 2016-11-16 | 北京工业大学 | 基于多特征时空上下文机器人目标识别与运动决策方法 |
CN106570490A (zh) * | 2016-11-15 | 2017-04-19 | 华南理工大学 | 一种基于快速聚类的行人实时跟踪方法 |
CN106707296A (zh) * | 2017-01-09 | 2017-05-24 | 华中科技大学 | 一种基于双孔径光电成像***的无人机检测与识别方法 |
CN106919918A (zh) * | 2017-02-27 | 2017-07-04 | 腾讯科技(上海)有限公司 | 一种人脸跟踪方法和装置 |
CN106951841A (zh) * | 2017-03-09 | 2017-07-14 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于颜色和距离聚类的多目标跟踪方法 |
CN107016357A (zh) * | 2017-03-23 | 2017-08-04 | 北京工业大学 | 一种基于时间域卷积神经网络的视频行人检测方法 |
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN107563313A (zh) * | 2017-08-18 | 2018-01-09 | 北京航空航天大学 | 基于深度学习的多目标行人检测与跟踪方法 |
Non-Patent Citations (2)
Title |
---|
Visual Localisation and Individual Identification of Holstein Friesian Cattle via Deep Learning;William Andrew等;《2017 IEEE International Conference on Computer Vision Workshops》;20180123;正文第3-6节,图1,图5 * |
基于改进Faster R-CNN的空中目标检测;冯小雨等;《https://t.cnki.net/kcms/detail/31.1252.O4.20180227.1700.008.html》;20180227;1-9 * |
Also Published As
Publication number | Publication date |
---|---|
CN108388879A (zh) | 2018-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388879B (zh) | 目标的检测方法、装置和存储介质 | |
CN108960211B (zh) | 一种多目标人体姿态检测方法以及*** | |
US9965719B2 (en) | Subcategory-aware convolutional neural networks for object detection | |
EP3338248B1 (en) | Systems and methods for object tracking | |
CN110020592B (zh) | 物体检测模型训练方法、装置、计算机设备及存储介质 | |
EP3379460B1 (en) | Quality measurement weighting of image objects | |
EP3295424B1 (en) | Systems and methods for reducing a plurality of bounding regions | |
US8792722B2 (en) | Hand gesture detection | |
US8750573B2 (en) | Hand gesture detection | |
CN109272509B (zh) | 一种连续图像的目标检测方法、装置、设备及存储介质 | |
US8897575B2 (en) | Multi-scale, perspective context, and cascade features for object detection | |
US20180114071A1 (en) | Method for analysing media content | |
CN109389086B (zh) | 检测无人机影像目标的方法和*** | |
CN113284168A (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN108805016B (zh) | 一种头肩区域检测方法及装置 | |
CN110765860A (zh) | 摔倒判定方法、装置、计算机设备及存储介质 | |
US11321945B2 (en) | Video blocking region selection method and apparatus, electronic device, and system | |
EP2864933A1 (en) | Method, apparatus and computer program product for human-face features extraction | |
CN107851192B (zh) | 用于检测人脸部分及人脸的设备和方法 | |
CN109858552B (zh) | 一种用于细粒度分类的目标检测方法及设备 | |
CN110610123A (zh) | 一种多目标车辆检测方法、装置、电子设备及存储介质 | |
CN109726621B (zh) | 行人检测方法、装置及设备 | |
KR20220073444A (ko) | 오브젝트 추적 방법, 장치 및 그 방법을 수행하는 단말기 | |
US20230069608A1 (en) | Object Tracking Apparatus and Method | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |