CN112906495B - 一种目标检测方法、装置、电子设备及存储介质 - Google Patents

一种目标检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112906495B
CN112906495B CN202110114475.3A CN202110114475A CN112906495B CN 112906495 B CN112906495 B CN 112906495B CN 202110114475 A CN202110114475 A CN 202110114475A CN 112906495 B CN112906495 B CN 112906495B
Authority
CN
China
Prior art keywords
target
detection
target set
image
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110114475.3A
Other languages
English (en)
Other versions
CN112906495A (zh
Inventor
蒋海滨
张祥攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Anngic Technology Co ltd
Original Assignee
Shenzhen Anngic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Anngic Technology Co ltd filed Critical Shenzhen Anngic Technology Co ltd
Priority to CN202110114475.3A priority Critical patent/CN112906495B/zh
Publication of CN112906495A publication Critical patent/CN112906495A/zh
Application granted granted Critical
Publication of CN112906495B publication Critical patent/CN112906495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种目标检测方法、装置、电子设备及存储介质,该方法包括:获得摄像机采集的视频数据;从视频数据中提取出第一视频帧和第二视频帧;从第二视频帧中确定出包含远处目标的区域图像;使用目标检测模型对第一视频帧进行目标检测,获得第一目标集合,并使用目标检测模型对区域图像进行目标检测,获得第二目标集合;根据第一目标集合和第二目标集合确定最终检测结果。在上述的实现过程中,通过综合考虑第一视频帧(即完整图像)的目标检测结果和区域图像的目标检测结果,由于区域图像的缩放倍数小于的视频帧完整图像的缩放倍数,有效地避免了只从压缩后的完整图像中检测远处目标的情况,从而提高了目标检测的正确率。

Description

一种目标检测方法、装置、电子设备及存储介质
技术领域
本申请涉及图像处理和图像识别的技术领域,具体而言,涉及一种目标检测方法、装置、电子设备及存储介质。
背景技术
高级驾驶辅助***(Advanced Driver Assistant System,ADAS)是一种能够利用人工智能(Artificial Intelligence,AI)算法,进行智能图像分析的主动安全技术,ADAS常常用于自动辅助驾驶和无人车等应用领域。
在ADAS的研发工作中,通常使用目标检测算法来进行目标检测,从而达到感知车辆周围的目标的目的。由于车载芯片的算力有限,而摄像头原始采集的完整图像的分辨率很大,因此,在使用目标检测模型对完整图像进行目标检测之前,通常会将完整图像的分辨率缩放(例如压缩)为该目标检测模型的输入图像的分辨率,以便于加快目标检测的速度;在图像压缩之后,远处的目标在压缩后的图像中难以表征,即将目标在压缩后的图像中所占的像素作为目标检测模型的输入,很难检测出远处的目标,因此,使用目前的目标检测算法对视频图像进行目标检测的正确率较低。
发明内容
本申请实施例的目的在于提供一种目标检测方法、装置、电子设备及存储介质,用于改善对视频图像进行目标检测的正确率较低的问题。
本申请实施例提供了一种目标检测方法,包括:获得摄像机采集的视频数据;从视频数据中提取出第一视频帧和第二视频帧;从第二视频帧中确定出包含远处目标的区域图像,第二视频帧的尺寸大于区域图像的尺寸;使用目标检测模型对第一视频帧进行目标检测,获得第一目标集合,并使用目标检测模型对区域图像进行目标检测,获得第二目标集合;根据第一目标集合和第二目标集合确定最终检测结果。在上述的实现过程中,通过综合考虑第一视频帧(即完整图像)的目标检测结果和区域图像的目标检测结果,由于区域图像的缩放倍数小于的视频帧完整图像的缩放倍数,因此有效地避免了只根据缩放后的完整图像检测远处目标的情况,从而有效地提高了目标检测的正确率。
可选地,在本申请实施例中,从第二视频帧中确定出包含远处目标的区域图像,包括:以第二视频帧的中心点的横坐标作为区域图像的中心点的横坐标,以第二视频帧的消失点的纵坐标为区域图像的中心点的纵坐标,确定出区域图像的中心点;获得区域图像的横向宽度和纵向宽度;根据区域图像的中心点和区域图像的横向宽度和纵向宽度确定出区域图像。在上述的实现过程中,通过第二视频帧的消失点和中心点来确定出区域图像,从而增加了目标检测的有效检测距离,有效地减小了对区域图像中的目标进行检测的错误概率。
可选地,在本申请实施例中,获得区域图像的横向宽度和纵向宽度,包括:获取缩放倍数;将缩放倍数乘以目标检测模型的输入图像的横向宽度,获得区域图像的横向宽度;将缩放倍数乘以目标检测模型的输入图像的纵向宽度,获得区域图像的纵向宽度。在上述的实现过程中,通过动态地计算出区域图像的横向宽度和纵向宽度,从而避免了使用不变的横向宽度和纵向宽度来确定区域图像,提高了目标在区域图像中的所占的比例,有效地减小了对区域图像中的目标进行检测的错误概率。
可选地,在本申请实施例中,根据第一目标集合和第二目标集合确定最终检测结果,包括:判断第一目标集合和第二目标集合是否包含相同的目标;若第一目标集合和第二目标集合包含相同的目标,则根据该目标与区域图像的位置关系确定最终检测结果;若第一目标集合包含一目标,且第二目标集合不包含该目标,则将该目标在第一目标集合中的检测框确定为最终检测结果;若第一目标集合不包含一目标,且第二目标集合包含该目标,则将该目标在第二目标集合中的检测框确定为最终检测结果。在上述的实现过程中,通过综合考虑第一视频帧(即完整图像)的第一目标集合和区域图像的第二目标集合,由于区域图像的缩放倍数小于的视频帧完整图像的缩放倍数,因此有效地避免了只从压缩后的完整图像中检测远处目标的情况,从而有效地提高了目标检测的正确率。
可选地,在本申请实施例中,根据目标与区域图像的位置关系确定最终检测结果,包括:判断该目标是否在预设区域内,预设区域的尺寸与区域图像的尺寸的比例值等于预设比例值,预设区域的中心点与区域图像的中心点是同一个;若是,则将目标在第二目标集合中的检测框确定为最终检测结果;若否,则将目标在第一目标集合中的检测框确定为最终检测结果。在上述的实现过程中,通过设置了预设区域,并根据该预设区域中是否包括该目标来确定最终检测结果,有效地在视频帧的完整图像检测结果和区域图像的检测结果之间设置一个分界,提高了确定最终检测结果的灵活性。
可选地,在本申请实施例中,判断第一目标集合和第二目标集合是否包含相同的目标,包括:将第一目标集合与第二目标集合中类别相同的目标对应的检测框进行匹配;若匹配成功,则确定第一目标集合和第二目标集合包含相同的目标,否则,确定第一目标集合和第二目标集合不包含相同的目标。
可选地,在本申请实施例中,将第一目标集合与第二目标集合中类别相同的目标对应的检测框进行匹配,包括:计算出类别相同的目标在第一目标集合的检测框和在第二目标集合的检测框之间的相交面积,并筛选出目标在第一目标集合的检测框和在第二目标集合的检测框中的较小检测框;判断相交面积与较小检测框的比例是否大于预设比例阈值;若是,则确定匹配成功,否则,确定匹配不成功。
可选地,在本申请实施例中,第一视频帧和第二视频帧是视频数据中的同一视频帧,或者,视频数据中的两个连续且相邻的不同视频帧,或者,视频数据中的间隔有预设数量的不同视频帧。在上述的实现过程中,将连续或者间隔的第一视频帧对应的完整图像和第二视频帧对应的区域图像分别进行目标检测,避免了对视频数据中的每个视频帧对应的完整图像和每个视频帧的区域图像都进行目标检测,有效地节约了对视频数据进行处理的计算量。
本申请实施例还提供了一种目标检测装置,包括:视频数据获得模块,用于获得摄像机采集的视频数据;视频帧提取模块,用于从视频数据中提取出第一视频帧和第二视频帧;区域图像确定模块,用于从第二视频帧中确定出包含远处目标的区域图像,第二视频帧的尺寸大于区域图像的尺寸;目标集合获得模块,用于使用目标检测模型对第一视频帧进行目标检测,获得第一目标集合,并使用目标检测模型对区域图像进行目标检测,获得第二目标集合;最终结果确定模块,用于根据第一目标集合和第二目标集合确定最终检测结果。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的目标检测方法的流程示意图;
图2示出的本申请实施例提供的视频帧的提取过程示意图;
图3示出的本申请实施例提供的区域图像的确定和提取示意图;
图4示出的本申请实施例提供的相交面积与较小检测框的比例计算示意图;
图5示出的本申请实施例提供的目标检测装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的目标检测方法之前,先介绍本申请实施例中所涉及的一些概念:
目标检测,又被称为目标提取,是一种基于目标几何和统计特征的图像理解算法,目标检测是将目标的定位和识别合二为一,具体例如:基于计算机视觉算法,检测出图像中感兴趣的目标,即以矩形框标示出目标的位置,并识别出目标的类别。
目标检测模型,又被简称为目标检测网络模型,是指使用训练数据对目标检测网络进行训练后获得的神经网络模型,这里的目标检测网络模型按照阶段来分,大致可以分为:单阶段检测模型和两阶段检测模型。
霍夫变换(Hough transform),又称Hough变换,是指是用来辨别找出物件中的特征提取算法,Hough变换的算法流程大致如下,给定一个物件、要辨别的形状的种类,算法会在参数空间中执行投票来决定物体的形状,而这是由累加空间(accumulator space)里的局部最大值来决定;具体例如:检测图像中直线、圆、抛物线、椭圆等形状能够用一定函数关系描述的曲线,Hough变换的基本原理是将影像空间中的曲线(包括直线)变换到参数空间中,通过检测参数空间中的极值点,确定出该曲线的描述参数,从而提取影像中的规则曲线。
服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
需要说明的是,本申请实施例提供的目标检测方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digitalassistant,PDA)、移动上网设备(mobile Internet device,MID)、车载监控设备和车载行驶设备等。
在介绍本申请实施例提供的目标检测方法之前,先介绍该目标检测方法适用的应用场景,这里的应用场景包括但不限于:自动驾驶邻域和监控安防领域等等;在自动驾驶领域中,可以使用该目标检测方法增强无人机或者无人车的高级驾驶辅助***(ADAS)功能;或者,在监控安防领域中,可以使用该目标检测方法提高监控***或者安防***中对采集到的视频进行目标检测的正确率等。
请参见图1示出的本申请实施例提供的目标检测方法的流程示意图;该目标检测方法的主要思路是,首先从视频数据中提取出第一视频帧和第二视频帧,再从第二视频帧中确定出包含远处目标的区域图像,然后根据从第一视频帧检测出的第一目标集合,以及从区域图像检测出的第二目标集合,来确定目标检测模型检测出的最终检测结果。也就是说,通过综合考虑第一视频帧(即完整图像)的目标检测结果和区域图像的目标检测结果,由于区域图像的缩放倍数小于的视频帧完整图像的缩放倍数,因此有效地避免了只根据缩放后的完整图像检测远处目标的情况,从而有效地提高了目标检测的正确率;上述的目标检测方法可以包括:
步骤S110:获得摄像机采集的视频数据。
上述步骤S110中的视频数据的获得方式包括:第一种获得方式,使用车辆的对准正前方的高清摄像机采集的视频数据,然后该高清摄像机将视频数据发送给车辆的主控电子设备,主控电子设备即可获得高清摄像机采集的视频数据;第二种获得方式,使用无人机上的摄像机、录像机或彩色照相机等采集设备对目标对象进行拍摄,获得视频数据;然后该采集设备向电子设备发送视频数据,然后电子设备接收采集设备发送的视频数据;第三种获得方式,使用安防领域的监控摄像机采集的视频数据,然后该高清摄像机将视频数据发送给车辆的主控电子设备,主控电子设备即可获得高清摄像机采集的视频数据。
在步骤S110之后,执行步骤S120:从视频数据中提取出第一视频帧和第二视频帧。
视频帧,是指从视频数据中提取出来的视频帧或者类似于视频帧的图像,具体例如:从视频数据中提取出一帧完整的视频帧,并去掉包括时间信息的边框,或者,对视频帧进行一定的预处理,从而获得视频帧;其中,此处的预处理包括但不限于:去除背景、旋转矫正、直方图均衡化、图像灰度化、二值化、图像截取、图像缩放和/或去除噪点等等操作。
可以理解的是,上述的视频帧也可以是指视频帧本身,也就是说,视频帧可以理解为从视频数据中抽取出来的完整图像;第一视频帧和第二视频帧可以是两个连续且相邻的不同视频帧,也可以是两个间隔小于预设数量的视频帧或者间隔小于预设时长的视频帧,即第一视频帧和第二视频帧间隔小于预设数量的视频帧,或者,间隔小于预设时长的视频帧。当然,在具体的实践过程中,第一视频帧和第二视频帧也可以是同一视频帧,即使用目标检测方法检测同一视频帧图像中的目标对象。
请参见图2示出的本申请实施例提供的视频帧的提取过程示意图;上述步骤S120中的视频帧的提取方式有很多种,包括但不限于如下几种:
第一种提取方式,从视频数据中提取出连续的两个视频帧,该实施方式例如:从视频数据提取出其中一个视频帧,并按照时间顺序提取紧邻该视频帧的下一个视频帧,例如图2中提取出帧标识为2和3的视频帧;对应视频数据中的连续视频帧,可以使用frame1、frame2、……、frameN来表示连续视频帧,完整的视频帧又被称为大帧图像,可以使用Larger表示大帧图像,而从完整的类视频提取出的区域图像又被称为小帧图像,可以使用Smaller表示小帧图像,那么在具体实践过程中,可以交替检测大帧图像和小帧图像,交替检测的图像序列可以表示为,frame1:Larger、frame2:Smaller、frame3:Larger、……、frameN:Smaller。
第二种提取方式,从视频数据中提取出间隔的两个视频帧,该实施方式例如:从视频数据中提取出间隔小于预设数量视频帧的两个视频帧,或者,从视频数据中提取出间隔小于预设时长的两个视频帧;其中,上述的预设数量可以根据具体情况进行设置,例如图2中提取出帧标识为6和16的视频帧,帧标识为6和16的视频帧之间的预设数量为9。在具体的实施过程中,当然,第一视频帧和第二视频帧也可以是预设时长的两个视频帧,具体例如:第一视频帧和第二视频帧之间间隔300毫秒、1秒或者3秒等等。
第三种提取方式,从视频数据中提取出同一个视频帧,该实施方式例如:例如图2中先提取出帧标识为9的一个视频帧,记作第一视频帧,再复制该视频帧,记作第二视频帧。或者,再次提取出帧标识为9的两个视频帧,即提取出的第一视频帧和第二视频帧均是帧标识为9的视频帧。
在步骤S120之后,执行步骤S130:从第二视频帧中确定出包含远处目标的区域图像。
其中,区域图像包括远处的目标,此处的远处目标与采集该目标的摄像机之间的距离可以是在预设范围之内,此处的预设范围是指需要检测的最小距离到最大距离之间的范围,此处的预设范围可以根据具体情况设置,具体例如:将预设范围设置为50米至75米、80米至150米或155米至200米等等。可以理解的是,第一视频帧和第二视频帧均是完整的视频帧,而区域图像是从第二视频帧中提取(例如截取)获得的,因此,第二视频帧的尺寸是大于区域图像尺寸的。
请参见图3示出的本申请实施例提供的区域图像的确定和提取示意图;图3中的消失点是道路消失的尽头,在快要接近道路消失的尽头有一辆油罐车正在行驶,区域图像可以是区域将油罐车包括在内的图像(参见图3中用等长虚线表示的较大的矩形区域),因此,上述的远处目标可以理解为图3中的油罐车,而整个完整图像的图3则可以理解为上述的第二视频帧;而在图3中的下方区域有一辆越野车,该越野车可以理解为近处的目标,而不是远处的目标,从完整图像中能检测到越野车作为目标;上述步骤S130的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,根据完整图像(例如第一视频帧或者第二视频帧)的中心点的横坐标和消失点的纵坐标从第二视频帧中确定出包含远处目标的区域图像,该实施方式可以包括:
步骤S131:以第二视频帧的中心点的横坐标作为区域图像的中心点的横坐标,以第二视频帧的消失点的纵坐标为区域图像的中心点的纵坐标,确定出区域图像的中心点。
上述步骤S131的实施方式例如:假设第二视频帧有四个顶点:左上顶点、左下顶点、右上顶点和右下顶点,对第二视频帧的左上顶点的坐标和右下顶点的坐标进行求和均值,即可求出第二视频帧的中心点的坐标,同理,对第二视频帧的左下顶点的坐标和右上顶点的坐标进行求和均值,即可求出第二视频帧的中心点的坐标。然后,使用消失点检测算法检测出第二视频帧的消失点,以第二视频帧的中心点的横坐标作为区域图像的中心点的横坐标,以第二视频帧的消失点的纵坐标为区域图像的中心点的纵坐标,确定出区域图像的中心点;其中,此处的消失点可以是指道路的消失点,可以使用的消失点检测算法包括但不限于:车道线交点检测、霍夫变换(Hough transform)和级联霍夫变换(Cascaded HoughTransform,CHT)等等。
步骤S132:获得区域图像的横向宽度和纵向宽度。
上述步骤S132的实施方式包括:第一种实施方式,通过实际数据记录测量,即可获得通常需要检测的目标对象(例如行人或者车辆)在第二视频帧(即原始分辨率的图像)中的横向宽度和纵向宽度,其中,此处的原始分辨率的图像中的横向宽度和纵向宽度可以分别记为(w_orig,h_orig);上述目标检测模型需要在输入图像中检测的目标对象的最小尺寸记为(w,h),其中,w表示目标检测模型需要在输入图像中检测的目标对象的横向宽度,h表示目标检测模型需要在输入图像中检测的目标对象的纵向宽度;那么缩放系数可以使用公式计算获得,其中,scale表示缩放系数,w_orig和h_orig分别表示原始分辨率的图像中的横向宽度和纵向宽度,w和h分别表示目标检测模型需要在输入图像中检测的目标对象的横向宽度和纵向宽度。在获得缩放系数之后,将缩放倍数乘以目标检测模型的输入图像的横向宽度,获得区域图像的横向宽度;将缩放倍数乘以目标检测模型的输入图像的纵向宽度,获得区域图像的纵向宽度。第二种实施方式,可以根据人的工作经验计算获得,也可以根据历史设置的缩放系数进行调整获得。在计算获得缩放系数或者获取历史设置的缩放系数(可以调整该缩放系数)之后,将缩放倍数乘以目标检测模型的输入图像的横向宽度,获得区域图像的横向宽度;将缩放倍数乘以目标检测模型的输入图像的纵向宽度,获得区域图像的纵向宽度。
步骤S133:根据区域图像的中心点和区域图像的横向宽度和纵向宽度确定出区域图像。
上述步骤S133的实施方式例如:可以理解的是,由于区域图像可以看作是一个长方形,该长方形的长和宽都已经确定,且该长方形的中心点也已经确定,因此可以确定该长方形在第二视频帧中的区域图像;同理地,可以根据区域图像的中心点和区域图像的横向宽度和纵向宽度,从第二视频帧中确定(例如裁剪)出区域图像。
第二种实施方式,仅根据完整图像(例如第一视频帧或者第二视频帧)的消失点从第二视频帧中确定区域图像,该实施方式例如:将第二视频帧的道路消失点确定出区域图像的中心点,并将完整图像按照预设比例计算出区域图像的横向宽度和纵向宽度,其中,预设比例可以根据具体场景进行设置,例如设置为0.5、0.7和0.9等等;最后,根据区域图像的中心点和区域图像的横向宽度和纵向宽度截取出区域图像。可以理解的是,第二种实施方式和第一种实施方式是类似的,区别仅在于区域图像的中心点的横坐标是消失点的横坐标,以及区域图像的横向宽度和纵向宽度的计算方式不同。
第三种实施方式,根据完整图像(例如第一视频帧或者第二视频帧)的中心点的纵坐标和消失点的横坐标从第二视频帧中确定出包含远处目标的区域图像,该实施方式可以包括:以第二视频帧的消失点的横坐标作为区域图像的中心点的横坐标,以第二视频帧的中心点的纵坐标为区域图像的中心点的纵坐标,确定出区域图像的中心点,并获得区域图像的横向宽度和纵向宽度,最后,根据区域图像的中心点和区域图像的横向宽度和纵向宽度确定出区域图像。
在步骤S130之后,执行步骤S140:使用目标检测模型对第一视频帧进行目标检测,获得第一目标集合,并使用目标检测模型对区域图像进行目标检测,获得第二目标集合。
可选地,在使用目标检测模型对完整图像(例如视频帧或者第二视频帧)和区域图像进行目标检测之前,还可以对完整图像和区域图像进行预处理和归一化处理,再对处理之后的完整图像和区域图像进行目标检测,此处;该实施方式具体例如:将完整图像和区域图像缩放到固定尺寸大小,此处的固定尺寸大小可以是256*128,然后再将缩放后的图像进行归一化处理,例如将缩放后的图像每个通道像素值均归一化(即将每个通道值由0到255的空间归一化到0到1的空间)。
上述步骤S140的实施方式例如:使用目标检测模型对第一视频帧进行目标检测,获得第一目标集合,并使用目标检测模型对区域图像进行目标检测,获得第二目标集合;其中,此处的目标检测模型可以采用单阶段检测模型或者两阶段检测模型,可以使用的单阶段检测模型包括但不限于:特征融合单点多盒检测器(Feature Fusion Single ShotMultibox Detector,FSSD)和YOLO等网络模型,可以使用的两阶段检测模型具体例如:RCNN、fast RCNN和faster RCNN系列的网络模型。
在步骤S140之后,执行步骤S150:根据第一目标集合和第二目标集合确定最终检测结果。
目标集合,是指对图像中的目标对象进行检测后的集合,集合中的每个元素具有的属性包括但不限于:目标检测框的类别(可以表示为cls_type,在道路上检测出的类别具体值例如car、person和rider等等),目标检测框中心在全图(即完整图像或者区域图像)中的横坐标(可以使用x表示),目标检测框中心在全图(即完整图像或者区域图像)中的纵坐标(可以使用y表示),目标检测框的置信度(可以使用probability),目标检测框的宽度(可以使用w表示)和目标检测框的高度(可以使用h表示)等等。
上述步骤S150中的根据第一目标集合和第二目标集合确定最终检测结果的实施方式可以包括:
步骤S151:判断第一目标集合和第二目标集合是否包含相同的目标。
上述步骤S151的实施方式包括:将第一目标集合与第二目标集合中类别相同的目标对应的检测框进行匹配,其中,此处的类别是指目标检测框的类别;若匹配成功,则确定第一目标集合和第二目标集合包含相同的目标,否则,确定第一目标集合和第二目标集合不包含相同的目标。
请参见图4示出的本申请实施例提供的相交面积与较小检测框的比例计算示意图;上述将第一目标集合与第二目标集合中类别相同的目标对应的检测框进行匹配,包括:计算出类别相同的目标在第一目标集合的检测框和在第二目标集合的检测框之间的相交面积,并筛选出目标在第一目标集合的检测框和在第二目标集合的检测框中的较小检测框;判断相交面积与较小检测框的比例是否大于预设比例阈值;若相交面积与较小检测框的比例大于预设比例阈值,则确定匹配成功;若相交面积与较小检测框的比例小于或等于预设比例阈值,则确定匹配不成功;其中,上述相交面积与较小检测框的比例可以使用公式表示为r_inter/min(r1,r2),r_inter表示类别相同的目标在第一目标集合的检测框和在第二目标集合的检测框之间的相交面积,r1表示目标在第一目标集合的检测框,r2表示目标在第二目标集合的检测框,min(r1,r2)表示目标在第一目标集合的检测框和在第二目标集合的检测框中的较小检测框。
步骤S152:若第一目标集合和第二目标集合包含相同的目标,则根据该目标与区域图像的位置关系确定最终检测结果。
上述步骤S152的实施方式包括:判断该目标是否在预设区域内(参见图3中的区域图像中用一长一短的虚线表示较小的矩形区域),预设区域的尺寸与区域图像的尺寸的比例值等于预设比例值,预设区域的中心点与区域图像的中心点是同一个,具体例如:预设区域的尺寸与区域图像的尺寸的比例值为10:9,当然也可以根据具体情况进行调整。若该目标在预设区域内,则将目标在第二目标集合中的检测框确定为最终检测结果,即将对区域图像进行目标检测的结果作为最终检测结果;若该目标不在预设区域内,则将目标在第一目标集合中的检测框确定为最终检测结果,即将对完整图像(例如第二视频帧)进行目标检测的结果作为最终检测结果。在上述的实现过程中,通过设置了预设区域,并根据该预设区域中是否包括该目标来确定最终检测结果,有效地在视频帧的完整图像检测结果和区域图像的检测结果之间设置一个分界,提高了确定最终检测结果的灵活性。
步骤S153:若第一目标集合包含一目标,且第二目标集合不包含该目标,则将该目标在第一目标集合中的检测框确定为最终检测结果。
步骤S154:若第一目标集合不包含一目标,且第二目标集合包含该目标,则将该目标在第二目标集合中的检测框确定为最终检测结果。
上述步骤S153至步骤S154的实施方式例如:若第一目标集合包含一目标(即第一目标集合中存在置信度大于预设阈值的检测框),且第二目标集合不包含该目标(即第二目标集合中不存在置信度大于预设阈值的检测框),则将该目标在第一目标集合中的检测框确定为最终检测结果,即将第一目标集合中的置信度大于预设阈值的检测框确定为最终检测结果;若第一目标集合不包含一目标(即第一目标集合中不存在置信度大于预设阈值的检测框),且第二目标集合包含该目标(即第二目标集合中存在置信度大于预设阈值的检测框),则将该目标在第二目标集合中的检测框确定为最终检测结果,即将第二目标集合中的置信度大于预设阈值的检测框确定为最终检测结果;其中,此处的预设阈值可以根据具体情况进行设置,例如将预设阈值设置为0.7或0.8等等。
在上述的实现过程中,首先从视频数据中提取出第一视频帧和第二视频帧(即完整图像),再从第二视频帧中确定出包含远处目标的区域图像,然后根据从第一视频帧检测出的第一目标集合,以及从区域图像检测出的第二目标集合,来确定目标检测模型检测出的最终检测结果。可以理解的是,在目标检测模型对完整图像和区域图像进行目标检测处理时,由于目标检测模型要求输入图像的尺寸是固定的,通常需要将完整图像的分辨率缩小为该目标检测模型的输入图像的分辨率,以便让完整图像的分辨率被缩小后的尺寸与输入图像的尺寸相同;也需要将区域图像的分辨率缩放(可能是缩小,也可能是放大)为该目标检测模型的输入图像的分辨率,以便让缩放后的区域图像尺寸与输入图像的尺寸相同。也就是说,通过综合考虑第一视频帧(即完整图像)的目标检测结果和区域图像的目标检测结果,由于区域图像的缩放倍数小于的视频帧完整图像的缩放倍数,因此有效地避免了只根据缩放后的完整图像检测远处目标的情况,从而有效地提高了目标检测的正确率。
请参见图5示出的本申请实施例提供的目标检测装置的结构示意图。本申请实施例提供了一种目标检测装置200,包括:
视频数据获得模块210,用于获得摄像机采集的视频数据。
视频帧提取模块220,用于从视频数据中提取出第一视频帧和第二视频帧。
区域图像确定模块230,用于从第二视频帧中确定出包含远处目标的区域图像,第二视频帧的尺寸大于区域图像的尺寸。
目标集合获得模块240,用于使用目标检测模型对第一视频帧进行目标检测,获得第一目标集合,并使用目标检测模型对区域图像进行目标检测,获得第二目标集合。
最终结果确定模块250,用于根据第一目标集合和第二目标集合确定最终检测结果。
可选地,在本申请实施例中,区域图像确定模块,包括:
中心坐标确定模块,用于以第二视频帧的中心点的横坐标作为区域图像的中心点的横坐标,以第二视频帧的消失点的纵坐标为区域图像的中心点的纵坐标,确定出区域图像的中心点。
区域宽度计算模块,用于获得区域图像的横向宽度和纵向宽度。
中心区域确定模块,用于根据区域图像的中心点和区域图像的横向宽度和纵向宽度确定出区域图像。
可选地,在本申请实施例中,区域宽度计算模块,包括:
缩放倍数获取模块,用于获取缩放倍数。
横向宽度获得模块,用于将缩放倍数乘以目标检测模型的输入图像的横向宽度,获得区域图像的横向宽度。
纵向宽度获得模块,用于将缩放倍数乘以目标检测模型的输入图像的纵向宽度,获得区域图像的纵向宽度。
可选地,在本申请实施例中,最终结果确定模块,包括:
相同目标判断模块,用于判断第一目标集合和第二目标集合是否包含相同的目标。
检测结果确定模块,用于若第一目标集合和第二目标集合包含相同的目标,则根据目标与区域图像的位置关系确定最终检测结果。
第一结果确定模块,用于若第一目标集合包含目标,且第二目标集合不包含目标,则将目标在第一目标集合中的检测框确定为最终检测结果。
第二结果确定模块,用于若第一目标集合不包含目标,且第二目标集合包含目标,则将目标在第二目标集合中的检测框确定为最终检测结果。
可选地,在本申请实施例中,检测结果确定模块,包括:
目标区域判断模块,用于判断该目标是否在预设区域内,预设区域的尺寸与区域图像的尺寸的比例值等于预设比例值,预设区域的中心点与区域图像的中心点是同一个。
目标区域肯定模块,用于若该目标在预设区域内,则将目标在第二目标集合中的检测框确定为最终检测结果。
目标区域否定模块,用于若该目标不在预设区域内,则将目标在第一目标集合中的检测框确定为最终检测结果。
可选地,在本申请实施例中,相同目标判断模块,包括:
检测框匹配模块,用于将第一目标集合与第二目标集合中类别相同的目标对应的检测框进行匹配。
相同目标确定模块,用于若匹配成功,则确定第一目标集合和第二目标集合包含相同的目标,若匹配失败,则确定第一目标集合和第二目标集合不包含相同的目标。
可选地,在本申请实施例中,检测框匹配模块,包括:
面积计算筛选模块,用于计算出类别相同的目标在第一目标集合的检测框和在第二目标集合的检测框之间的相交面积,并筛选出目标在第一目标集合的检测框和在第二目标集合的检测框中的较小检测框。
预设比例判断模块,用于判断相交面积与较小检测框的比例是否大于预设比例阈值。
匹配结果确定模块,用于若相交面积与较小检测框的比例大于预设比例阈值,则确定匹配成功,若相交面积与较小检测框的比例不大于预设比例阈值,则确定匹配不成功。
应理解的是,该装置与上述的目标检测方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作***(operating system,OS)中的软件功能模块。
本申请实施例提供的一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上的方法。
其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以使用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种目标检测方法,其特征在于,包括:
获得摄像机采集的视频数据;
从所述视频数据中提取出第一视频帧和第二视频帧;
从所述第二视频帧中确定出包含远处目标的区域图像,所述第二视频帧的尺寸大于所述区域图像的尺寸;
使用目标检测模型对所述第一视频帧进行目标检测,获得第一目标集合,并使用所述目标检测模型对所述区域图像进行目标检测,获得第二目标集合;
根据所述第一目标集合和所述第二目标集合确定最终检测结果;
所述根据所述第一目标集合和所述第二目标集合确定最终检测结果,包括:
判断所述第一目标集合和所述第二目标集合是否包含相同的目标;
若所述第一目标集合和所述第二目标集合包含相同的目标,则根据该目标与所述区域图像的位置关系确定所述最终检测结果;
若所述第一目标集合包含一目标,且所述第二目标集合不包含该目标,则将该目标在所述第一目标集合中的检测框确定为所述最终检测结果;
若所述第一目标集合不包含一目标,且所述第二目标集合包含该目标,则将该目标在所述第二目标集合中的检测框确定为所述最终检测结果;
所述根据该目标与所述区域图像的位置关系确定所述最终检测结果,包括:
判断该目标是否在预设区域内,所述预设区域的尺寸与所述区域图像的尺寸的比例值等于预设比例值,所述预设区域的中心点与所述区域图像的中心点是同一个;
若是,则将该目标在所述第二目标集合中的检测框确定为所述最终检测结果;
若否,则将该目标在所述第一目标集合中的检测框确定为所述最终检测结果。
2.根据权利要求1所述的方法,其特征在于,所述第一视频帧和所述第二视频帧是所述视频数据中两个连续且相邻的不同视频帧,或者是所述视频数据中的两个间隔小于预设数量的视频帧,或者是所述视频数据中的同一视频帧。
3.根据权利要求1所述的方法,其特征在于,所述从所述第二视频帧中确定出包含远处目标的区域图像,包括:
以所述第二视频帧的中心点的横坐标作为所述区域图像的中心点的横坐标,以所述第二视频帧的消失点的纵坐标为所述区域图像的中心点的纵坐标,确定出所述区域图像的中心点;
获得所述区域图像的横向宽度和纵向宽度;
根据所述区域图像的中心点和所述区域图像的横向宽度和纵向宽度确定出所述区域图像。
4.根据权利要求3所述的方法,其特征在于,所述获得所述区域图像的横向宽度和纵向宽度,包括:
获取缩放倍数;
将所述缩放倍数乘以所述目标检测模型的输入图像的横向宽度,获得所述区域图像的横向宽度;
将所述缩放倍数乘以所述目标检测模型的输入图像的纵向宽度,获得所述区域图像的纵向宽度。
5.根据权利要求1所述的方法,其特征在于,所述判断所述第一目标集合和所述第二目标集合是否包含相同的目标,包括:
将所述第一目标集合与所述第二目标集合中类别相同的目标对应的检测框进行匹配;
若匹配成功,则确定所述第一目标集合和所述第二目标集合包含相同的目标,否则,确定所述第一目标集合和所述第二目标集合不包含相同的目标。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一目标集合与所述第二目标集合中类别相同的目标对应的检测框进行匹配,包括:
计算出所述类别相同的目标在所述第一目标集合的检测框和在所述第二目标集合的检测框之间的相交面积,并筛选出所述目标在所述第一目标集合的检测框和在所述第二目标集合的检测框中的较小检测框;
判断所述相交面积与所述较小检测框的比例是否大于预设比例阈值;
若是,则确定匹配成功,否则,确定匹配不成功。
7.根据权利要求1-6任一所述的方法,其特征在于,所述第一视频帧和所述第二视频帧是所述视频数据中的同一视频帧,或者,所述视频数据中的两个连续且相邻的不同视频帧,或者,所述视频数据中的间隔有预设数量的不同视频帧。
8.一种目标检测装置,其特征在于,包括:
视频数据获得模块,用于获得摄像机采集的视频数据;
视频帧提取模块,用于从所述视频数据中提取出第一视频帧和第二视频帧;
区域图像确定模块,用于从所述第二视频帧中确定出包含远处目标的区域图像,所述第二视频帧的尺寸大于所述区域图像的尺寸;
目标集合获得模块,用于使用目标检测模型对所述第一视频帧进行目标检测,获得第一目标集合,并使用所述目标检测模型对所述区域图像进行目标检测,获得第二目标集合;
检测结果确定模块,用于根据所述第一目标集合和所述第二目标集合确定最终检测结果;
检测结果确定模块具体用于;
判断所述第一目标集合和所述第二目标集合是否包含相同的目标;
若所述第一目标集合和所述第二目标集合包含相同的目标,则根据该目标与所述区域图像的位置关系确定所述最终检测结果;
若所述第一目标集合包含一目标,且所述第二目标集合不包含该目标,则将该目标在所述第一目标集合中的检测框确定为所述最终检测结果;
若所述第一目标集合不包含一目标,且所述第二目标集合包含该目标,则将该目标在所述第二目标集合中的检测框确定为所述最终检测结果;
所述根据该目标与所述区域图像的位置关系确定所述最终检测结果,包括:
判断该目标是否在预设区域内,所述预设区域的尺寸与所述区域图像的尺寸的比例值等于预设比例值,所述预设区域的中心点与所述区域图像的中心点是同一个;
若是,则将该目标在所述第二目标集合中的检测框确定为所述最终检测结果;
若否,则将该目标在所述第一目标集合中的检测框确定为所述最终检测结果。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
CN202110114475.3A 2021-01-27 2021-01-27 一种目标检测方法、装置、电子设备及存储介质 Active CN112906495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110114475.3A CN112906495B (zh) 2021-01-27 2021-01-27 一种目标检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110114475.3A CN112906495B (zh) 2021-01-27 2021-01-27 一种目标检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112906495A CN112906495A (zh) 2021-06-04
CN112906495B true CN112906495B (zh) 2024-04-30

Family

ID=76119304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110114475.3A Active CN112906495B (zh) 2021-01-27 2021-01-27 一种目标检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112906495B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117993019A (zh) * 2024-02-29 2024-05-07 阿里云计算有限公司 交通数据脱敏方法、设备、存储介质及计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807385A (zh) * 2019-10-24 2020-02-18 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备及存储介质
WO2020103647A1 (zh) * 2018-11-19 2020-05-28 腾讯科技(深圳)有限公司 物体关键点的定位方法、图像处理方法、装置及存储介质
WO2020164282A1 (zh) * 2019-02-14 2020-08-20 平安科技(深圳)有限公司 基于yolo的图像目标识别方法、装置、电子设备和存储介质
CN112001375A (zh) * 2020-10-29 2020-11-27 成都睿沿科技有限公司 一种火焰检测方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020103647A1 (zh) * 2018-11-19 2020-05-28 腾讯科技(深圳)有限公司 物体关键点的定位方法、图像处理方法、装置及存储介质
WO2020164282A1 (zh) * 2019-02-14 2020-08-20 平安科技(深圳)有限公司 基于yolo的图像目标识别方法、装置、电子设备和存储介质
CN110807385A (zh) * 2019-10-24 2020-02-18 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备及存储介质
CN112001375A (zh) * 2020-10-29 2020-11-27 成都睿沿科技有限公司 一种火焰检测方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于增强Tiny YOLOV3算法的车辆实时检测与跟踪;刘军;后士浩;张凯;张睿;胡超超;;农业工程学报(08);全文 *
基于视频序列中的运动目标检测技术;丁金铸;谈国新;;湖南工程学院学报(自然科学版)(03);全文 *

Also Published As

Publication number Publication date
CN112906495A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN109035299B (zh) 目标跟踪方法、装置、计算机设备及存储介质
Marzougui et al. A lane tracking method based on progressive probabilistic Hough transform
US10803357B2 (en) Computer-readable recording medium, training method, and object detection device
CN109325964B (zh) 一种人脸追踪方法、装置及终端
CN111382704B (zh) 基于深度学习的车辆压线违章判断方法、装置及存储介质
CN108268867B (zh) 一种车牌定位方法及装置
CN112926531B (zh) 特征信息提取方法、模型训练方法、装置及电子设备
CN108647587B (zh) 人数统计方法、装置、终端及存储介质
CN111275040B (zh) 定位方法及装置、电子设备、计算机可读存储介质
US10679098B2 (en) Method and system for visual change detection using multi-scale analysis
CN113221750A (zh) 车辆追踪方法、装置、设备及存储介质
CN111767915A (zh) 车牌检测方法、装置、设备及存储介质
EP3726421A2 (en) Recognition method and apparatus for false detection of an abandoned object and image processing device
CN104463238B (zh) 一种车标识别方法和***
CN112906495B (zh) 一种目标检测方法、装置、电子设备及存储介质
CN113903014B (zh) 车道线预测方法、装置及电子设备、计算机可读存储介质
EP3044734B1 (en) Isotropic feature matching
CN110765940B (zh) 目标对象统计方法和装置
US20230069608A1 (en) Object Tracking Apparatus and Method
CN115731179A (zh) 轨道部件检测方法、终端及存储介质
CN114445787A (zh) 非机动车重识别方法及相关设备
CN111597979B (zh) 一种目标对象聚类方法及装置
CN114049771A (zh) 基于双模态的交通异常检测方法、***和存储介质
CN113919393A (zh) 车位识别的方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant