CN109063694B - 一种视频目标检测识别方法 - Google Patents

一种视频目标检测识别方法 Download PDF

Info

Publication number
CN109063694B
CN109063694B CN201811063637.XA CN201811063637A CN109063694B CN 109063694 B CN109063694 B CN 109063694B CN 201811063637 A CN201811063637 A CN 201811063637A CN 109063694 B CN109063694 B CN 109063694B
Authority
CN
China
Prior art keywords
frame
detected
detection
image
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811063637.XA
Other languages
English (en)
Other versions
CN109063694A (zh
Inventor
张德政
陈天傲
栗辉
陈鹏
杨容季
施祖贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201811063637.XA priority Critical patent/CN109063694B/zh
Publication of CN109063694A publication Critical patent/CN109063694A/zh
Application granted granted Critical
Publication of CN109063694B publication Critical patent/CN109063694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视频目标检测识别方法,能够高效、快速对视频进行目标检测。所述方法包括:判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值;若小于等于,则将参考帧检测结果赋予待检测帧输出;否则,则对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧。本发明涉及图像处理领域。

Description

一种视频目标检测识别方法
技术领域
本发明涉及图像处理领域,特别是指一种视频目标检测识别方法。
背景技术
近年来,随着互联网的迅猛发展,大数据时代来临,各行业对有效数据的需求与日俱增。与此同时,越来越多的视频被上传至网络,成为新兴的数据宝库,如果能从视频中获取有效数据进行分析,将会带来巨大的收益。因此视频目标检测成为计算机领域炙手可热的研究问题,但在过去多年的研究中,目标检测的研究侧重于静态影像检测上,对视频检测的研究相对较少。常规视频检测方法先将视频拆分成静态影像帧,而后逐帧检测。由于视频具有很强的时间局部性,前后帧相似度很高,将其拆分后逐帧检测的过程便产生了大量的无用功,增加计算开销、降低检测速度。
发明内容
本发明要解决的技术问题是提供一种视频目标检测识别方法,以解决现有技术所存在的常规视频检测方法需进行大量的冗余影像帧检测,导致***开销大、检测效率低下的问题。
为解决上述技术问题,本发明实施例提供一种视频目标检测识别方法,包括:
S1,判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值;
S2,若小于等于,则将参考帧检测结果赋予待检测帧输出;
S3,否则,则对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧。
进一步地,在判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值之前,所述方法还包括:
获取待检测的视频流;
将获取的待检测的视频流拆分成独立的影像帧;
判断当前影像帧是否为第一帧;
若是第一帧,则对当前影像帧执行图像增强和目标检测操作,检测完成后,将当前影像帧设置为参考帧;
若不是第一帧,则判断当前影像帧是否为不进行帧跳跃的待检测帧,若是,则执行S1。
进一步地,所述若不是第一帧,则判断当前影像帧是否为不进行帧跳跃的待检测帧,若是,则执行S1包括:
记起始帧为第0帧,判断当前影像帧所处帧位fnow是否满足公式:fnow%fskip=0,其中,fskip为检测帧率,用于表示每fskip帧进行一次差异判断;
若满足,则当前影像帧为不进行帧跳跃的待检测帧,则执行S1;
若不满足,则将参考帧检测结果赋予当前帧影像,作为当前帧影像的检测结果输出。
进一步地,参考帧和待检测帧差异程度的判断指标包括:均方根误差、灰度差、直方图差异、峰值信噪比或结构相似性。
进一步地,均方根误差MSE的计算公式为:
Figure BDA0001797753540000021
其中,Xref,i为参考帧像素i的像素值,Xdet,i为待检测帧像素i的像素值,n为影像像素数;
灰度差的计算公式为:
Figure BDA0001797753540000022
其中,Gref,i为参考帧像素i的灰度值,Gdet,i为待检测帧像素i的灰度值;
峰值信噪比的计算公式为:
Figure BDA0001797753540000023
其中,MAXI为图像颜色的最大值。
进一步地,差异判断模式包括:全图判断或网格判断。
进一步地,图像增强方式包括:亮度调节、对比度调节、锐化、去雾、自动色阶、直方图均衡化中一种或多种。
进一步地,所述对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧包括:
对待检测帧进行图像增强;
根据增强的待检测帧,使用Yolov3算法对增强后的待检测帧进行细化目标检测与识别。
进一步地,所述对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧包括:
对待检测帧进行图像增强;
根据增强的待检测帧,使用Yolov3算法对增强后的待检测帧进行细化目标检测与识别;
利用运动指导传播,通过时间信息修正技术对Yolov3算法的检测结果进行矫正,矫正完成后,将待检测帧替换为新的参考帧。
进一步地,所述方法还包括:
基于现有影像使用深度卷积生成对抗网络产生新数据,扩大Yolov3算法的训练集,对Yolov3模型进行二次训练。
本发明的上述技术方案的有益效果如下:
上述方案中,判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值;若小于等于,则将参考帧检测结果赋予待检测帧输出;否则,则对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧,作为后续差异检测的标准。这样,通过对差异程度大的待检测帧进行图像增强和目标检测,能够减少对视频中冗余帧的检测,从而加快视频检测速度,降低***开销。
附图说明
图1为本发明实施例提供的视频目标检测识别方法的流程示意图;
图2为本发明实施例提供的视频目标检测识别***的结构示意图;
图3为本发明实施例提供的视频目标检测识别方法的详细流程示意图;
图4为本发明实施例提供的待检测帧示意图;
图5为本发明实施例提供的增强后的待检测帧示意图;
图6为本发明实施例提供的进行差异判断的参考帧示意图;
图7为本发明实施例提供的进行差异判断的待检测帧1示意图;
图8为本发明实施例提供的进行差异判断的待检测帧2示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的常规视频检测方法需进行大量的冗余影像帧检测,导致***开销大、检测效率低下的问题,提供一种视频目标检测识别方法。
实施例一
如图1所示,本发明实施例提供的视频目标检测识别方法,包括:
S1,判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值;
S2,若小于等于,则将参考帧检测结果赋予待检测帧输出;
S3,否则,则对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧。
本发明实施例所述的视频目标检测识别方法,判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值;若小于等于,则将参考帧检测结果赋予待检测帧输出;否则,则对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧,作为后续差异检测的标准。这样,通过对差异程度大的待检测帧进行图像增强和目标检测,能够减少对视频中冗余帧的检测,从而加快视频检测速度,降低***开销。
在前述视频目标检测识别方法的具体实施方式中,进一步地,在判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值之前,所述方法还包括:
获取待检测的视频流;
将获取的待检测的视频流拆分成独立的影像帧;
判断当前影像帧是否为第一帧;
若是第一帧,则对当前影像帧执行图像增强和目标检测操作,检测完成后,将当前影像帧设置为参考帧;
若不是第一帧,则判断当前影像帧是否为不进行帧跳跃的待检测帧,若是,则执行S1。
本实施例中,设参考帧和待检测帧之间的差异程度为diff、差异阈值为T,首先将两幅影像(参考帧和待检测帧)矩阵化,然后计算参考帧和待检测帧之间的差异程度diff,判断diff是否小于等于预设的差异阈值T;若是,则认为二者差异不大,待检测帧可视为冗余帧,将参考帧检测结果赋予待检测帧输出;否则,则认为两幅影像存在明显差异,需要对待检测帧进行图像增强处理,提高影像中目标的辨识度,然后,就增强后的待检测帧进行目标检测,检测完成后,将待检测帧替换为新的参考帧,作为后续差异检测的标准。
在前述视频目标检测识别方法的具体实施方式中,进一步地,所述若不是第一帧,则判断当前影像帧是否为不进行帧跳跃的待检测帧,若是,则执行S1包括:
记起始帧为第0帧,判断当前影像帧所处帧位fnow是否满足公式:fnow%fskip=0,其中,fskip为检测帧率,用于表示每fskip帧进行一次差异判断;
若满足,则当前影像帧为不进行帧跳跃的待检测帧,则执行S1;
若不满足,则将参考帧检测结果赋予当前帧影像,作为当前帧影像的检测结果输出。
本实施例中,即使运用差异判断减少冗余帧的检测,也仍需对参考帧和待检测帧进行差异计算。对于高帧率视频或变化缓慢的视频,相邻帧的差异很小,此时差异计算也成为额外开销,本实施例运用帧跳越方法来降低这部分开销。具体为:设置时间参数tskip,***将每tskip时间长度执行一次差异检测,在tskip的时间区间内不对相邻帧执行差异检测,通过跳越冗余帧的检测,加速视频检测。tskip的选择常与当前检测视频的帧率有关,所以在实施例中采用设置检测帧率fskip的方式,实现帧跳越,即***每fskip帧执行一次差异判断,在实际应用中,参数fskip根据视频帧率和视频变化情况灵活设置,保证检测效果满足需求。
本实施例中,通过设置检测帧率fskip,控制进行差异检测的频率,通过减少无用判断,跳越冗余帧的检测,加速视频目标检测,实现视频中目标检测精度和效率的权衡。
本实施例中,可计算多种判断指标作为衡量参考帧和待检测帧之间的差异程度的量化标准。
在前述视频目标检测识别方法的具体实施方式中,进一步地,参考帧和待检测帧差异程度的判断指标包括:均方根误差、灰度差、直方图差异、峰值信噪比或结构相似性。
均方根误差MSE的计算公式为:
Figure BDA0001797753540000061
其中,Xref,i为参考帧像素i的像素值,Xdet,i为待检测帧像素i的像素值,n为影像像素数;
灰度差的计算公式为:
Figure BDA0001797753540000062
其中,Gref,i为参考帧像素i的灰度值,Gdet,i为待检测帧像素i的灰度值;
直方图差异:分别计算两幅图像的直方图,将其归一化后按照某种距离度量判断相似度;
峰值信噪比(PSNR)的计算公式为:
Figure BDA0001797753540000063
其中,MAXI为图像颜色的最大值;
结构相似性(SSIM):从亮度、对比度、结构三方面衡量两幅图片相似度。实际应用时,利用滑动窗口将图像分为N块,采用高斯加权计算各窗口均值、方差以及协方差,然后计算对应块的结构相似度SSIM,最后将平均值作为两图像的结构相似性度量;其中,SSIM取值范围[0,1],值越小,两幅图像差异越大。
本实施例中,具体使用某种指标衡量差异程度根据实际情况而定。通过实验发现:
SSIM适合衡量整幅图片的风格变换,不太适用于前后帧存在的局部差异;
直方图差异反应两幅图片灰度值的分布差异,没有空间位置信息,且信息丢失较大;
PSNR可视为MSE的变换形式;
灰度差相较MSE考虑的信息不够全面,彩色信息丢失较大。
综合考虑,本实施例中,将MSE作为默认和首选的差异衡量指标,同时提供其它指标作为判断标准,在实际应用中,可根据具体情况改变。
在前述视频目标检测识别方法的具体实施方式中,进一步地,差异判断模式包括:全图判断或网格判断。
本实施例中,为权衡差异判断对视频目标检测识别方法在精度和效率上的影响,采用全图判断或网格判断这两种方式计算参考帧和待检测帧之间的差异程度:
全图判断:两帧影像在全图范围直接计算差异指标,以此作为差异程度;
网格判断:将两帧影像先分为p×p的网格,在各网格上计算差异指标,将p2个计算结果按降序排列,取前m个值计算平均值,将其作为差异程度。
本实施例中,m、p为可调参数,在实际应用中,可以根据具体需求和检测效果进行定制调节。
本实施例中,以均方根误差为例,对全图判断和网格判断这两种差异判断模式进行详细说明:
全图判断:两帧影像在全图范围直接计算均方根误差,以此作为差异程度;
网格判断:将两帧影像先分为p×p的网格,在各网格上计算均方根误差,将p2个计算结果按降序排列,取前m个值计算平均值,将其作为差异程度。
在前述视频目标检测识别方法的具体实施方式中,进一步地,图像增强方式包括:亮度调节、对比度调节、锐化、去雾、自动色阶、直方图均衡化中一种或多种。
本实施例中,通过差异判断后,可得到变化大、有必要检测的待检测帧。为提高待检测帧中目标的辨识度,进而提高检测精度,本实施例中,先对与参考帧存在明显差异的待检测帧进行图像增强处理,其中,图像增强方式包括:
对比度调节和亮度调节:改善待检测帧的对比度和亮度;
锐化:增强图像中目标的边缘、轮廓及灰度跳变的部分,使图像变得清晰,或突出某些线性目标要素的特征;
去雾:淡化待检测帧因浓雾造成的影响,使图像变清晰;
自动色阶:将各通道中最大和最小的像素值作为白和黑,按比例重新分配其间的像素值,使图片色彩更加丰富;
直方图均衡化:转换图像灰阶,使图像直方图尽可能成为常量值,以均衡利用动态范围内的所有灰阶。
本实施例中,可使用对比度调节、亮度调节、锐化、去雾、自动色阶、直方图均衡化等多种方法,对待检测帧进行图像增强,所选用的增强方式是可配置项,在实际应用中,可以根据具体场景以及目标检测的效果进行配置,保证视频检测效果满足需求。图像增强的目的是提高目标辨识度,强化图像中有用的特征,便于目标检测,其增强效果不会显示于视频上,只是作为图像处理部分中的一个模块。
在前述视频目标检测识别方法的具体实施方式中,进一步地,所述对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧包括:
对待检测帧进行图像增强;
根据增强的待检测帧,使用Yolov3(You Only Look Once)算法对增强后的待检测帧进行细化目标检测与识别。
本实施例中,Yolov3是一种目标检测算法,该算法目前尚没有统一的中文名称。
本实施例中,对差异明显的待检测帧进行图像增强后,便要对其细化目标检测。检测算法选择高效检测模型Yolov3,Yolov3与传统目标检测算法不同,Yolov3将目标的定位和识别分类作为回归任务,通过一个全卷积神经网络在一阶段中全部完成,这使得它拥有很快的检测速度。Yolov3还具有高分辨率分类器、细粒度特征、多尺度训练和预测等优势,并且进行目标检测的开销较小,符合本***的需求。Yolov3对输入的增强后的待检测帧进行目标检测,而后返回包围目标的矩形框坐标和目标类别,得到检测结果后,便可用于冗余帧的结果标定。
本实施例中,采用了Yolov3对增强后的待检测帧进行细化目标检测与识别,能够进一步降低检测开销,以降低对硬件设备的配置需求。但根据实际应用场景和硬件环境,可将检测算法换为其它算法以更好满足检测需求,例如,既可换为两阶段检测算法进一步提高检测精度,也可换为后续新提出的、更优秀的检测算法,提高***整体性能。而检测算法更换的开销和难度并不大,***的持续使用和通用性强。
在前述视频目标检测识别方法的具体实施方式中,进一步地,所述对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧包括:
对待检测帧进行图像增强;
使用Yolov3算法对增强后的待检测帧进行细化目标检测与识别;
利用运动指导传播,通过时间信息修正技术对Yolov3算法的检测结果进行矫正,矫正完成后,将待检测帧替换为新的参考帧。
Yolov3算法的特点是目标检测的开销小、检测速度快、检测精度高,本实施例中,为了进一步提高视频目标检测识别的能力,辅助使用时间信息修正技术矫正检测结果。具体是指,在对影像帧进行逐帧检测时,由于算法的检测结果不稳定,或者视频质量存在问题,导致相邻帧上针对同一目标的检测会出现漏检现象。相邻影像帧上各目标大多是静止或低速移动的,所以后帧影像上目标应出现在前帧影像的相似位置上,因此这种漏检现象可通过来自相邻帧的检测结果来恢复。
本实施例中,利用运动指导传播,通过时间信息修正技术对Yolov3算法的检测结果进行矫正,矫正完成后,将待检测帧替换为新的参考帧,具体的:
利用运动指导传播(Motion-guided Propagation,MGP)将前帧影像的检测结果,作为时间维度上的指导信息,传播至待检测帧(当前检测帧)上作为检测结果的一部分,对待检测帧漏检的目标进行补偿标记,然后利用类非极大值抑制(Non MaximumSuppression,NMS)算法去除重复标记目标的传播框,以降低漏检率。
本实施例中,MGP的思想源于新兴的基于卷积神经网络的管道型深度学习框架(Tubelets with Convolutional Neural Networks,T-CNN),它是专门用于视频目标检测的框架。MGP认为,在静态图像对象检测中,即使是对前后相邻影像的检测,也会在某些帧的检测时产生对象丢失现象,此时可利用诸如光流的运动信息来将检测结果局部的传播到相邻帧以减少漏检,其实现便是基于光流信息的目标跟踪技术。光流场的利用当下以十分成熟,其理论在此不多赘述。
本实施例中,在使用高效检测算法Yolov3后,配合使用时间信息修正技术,能够进一步提高目标检测精度。
在前述视频目标检测识别方法的具体实施方式中,进一步地,所述方法还包括:
基于现有影像使用深度卷积生成对抗网络产生新数据,扩大Yolov3算法的训练集,对Yolov3模型进行二次训练。
本实施例中,Yolov3算法是一种通用目标检测的算法,但Yolov3模型使用预训练权重进行检测的效果较为一般,所以在本实施例中,首先对它在公开数据集上进行二次训练,提升模型检测能力。根据实际场景,可将Yolov3模型在与场景相关的私有数据集(即:现有影像)上进行定制训练,而现存的数据集往往有效数据较小,此时为扩大训练集,增加数据多元性,可以使用深度卷积生成对抗网络(DCGAN)在私有数据集的基础上生成新图片。
本实施例中,DCGAN包含生成网络和判别网络两部分,二者是相互对抗的关系,在训练中两个网络的权重会不断调整,而后利用其可将有限的数据扩充成大量符合条件的数据。由于深度网络对训练数据量需求和要求很高,在高品质训练数据较少的情况下,本实施例中,根据具体场景,可以使用DCGAN产生大量的训练数据,便于对Yolov3定制训练,提高Yolov3模型检测能力。也就是说,在训练数据上,本实施例使用深度卷积生成对抗网络在现有影像的基础上生成新图片(新数据),以扩大、丰富训练集,增加数据多元性,提高目标检测精度。
综上,本发明实施例所述的视频目标检测识别方法,首先对参考帧和待检测帧进行差异判断,如果二者差异小,则将参考帧检测结果赋予待检测帧输出;如果二者差异较大,则对待检测帧进行图像增强处理,而后运用高效检测模型Yolov3进行目标检测、识别,并辅之以时间信息修正技术矫正检测结果。此外,还利用DCGAN生成新的训练数据,辅助训练Yolov3模型、提高目标检测精度,这样,不仅能大幅加快视频检测速度并兼顾检测精度,还能降低对硬件设备的要求。
实施例二
本发明还提供一种视频目标检测识别***的具体实施方式,由于本发明提供的视频目标检测识别***与前述视频目标检测识别方法的具体实施方式相对应,该视频目标检测识别***可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述视频目标检测识别方法具体实施方式中的解释说明,也适用于本发明提供的视频目标检测识别***的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图2所示,本发明实施例还提供一种视频目标检测识别***,所述***包括:图像预处理模块、检测模块;其中,所述图像预处理模块包括:差异判断单元和图像增强单元,所述检测模块包括:目标检测单元;
差异判断单元,用于判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值,若小于等于,则将参考帧检测结果赋予待检测帧输出;若大于预设的差异阈值,则利用图像增强单元对待检测帧进行图像增强,并利用目标检测单元对增强后的待检测帧进行目标检测,以便检测完成后,将待检测帧替换为新的参考帧。
本实施例中,所述目标检测单元,使用Yolov3算法对增强后的待检测帧进行细化目标检测与识别。
本实施例中,所述检测模块还包括:MGP结果矫正单元;
所述MGP结果矫正单元,用于利用运动指导传播,通过时间信息修正技术对Yolov3算法的检测结果进行矫正,以便矫正完成后,将待检测帧替换为新的参考帧。
本实施例中,所述检测模块还包括:DCGAN数据生成单元;
所述DCGAN数据生成单元,用于基于现有影像使用深度卷积生成对抗网络产生新数据,扩大、丰富Yolov3算法的训练集,对Yolov3模型进行二次训练。
本实施例中,待检测的视频流传入图像预处理模块的差异检测单元,进行帧跳跃、与参考帧计算差异程度的工作,差异检测单元功能是帧位判断、网格划分、MSE等判断指标计算及差异阈值判断;对于差异度大于预设的差异阈值T的待检测帧,将其传入图像预处理模块中的图像增强单元,强化该待检测帧的有用特征,提高目标辨识度,该图像增强单元功能是实现去雾、锐化、自动色阶、直方图均衡化等图像增强操作;然后对增强后的待检测帧,将其进一步传输给检测模块中的目标检测单元,进行细化目标检测,所述目标检测单元是一个经过定制训练的Yolov3模型;检测完毕后,将待检测帧和检测结果一并传入检测模块中的MGP结果矫正单元,在Yolov3算法检测结果的基础上,辅之以时间信息进行矫正后,得到更精确的检测、定位结果。MGP结果矫正单元功能是实现基于光流信息的目标跟踪,得到待检测帧中目标相较前帧的运动方向,将前帧影像帧的检测结果根据目标运动方向传递至待检测帧上,进行目标的补偿检测。同时还需要对全部检测结果框进行类非极大值抑制(Non Maximum Suppression,NMS)处理,消除同一目标被重复框出的现象,最终降低目标检测的漏检率,提高检测精度。在检测模块,本发明还提供独立的DCGAN数据生成单元,DCGAN数据生成单元核心是一个用于生成图像数据的DCGAN模型,起到丰富数据集的作用。以弥补高品质训练数据不足时,Yolov3模型目标检测效果不佳的现象,主要承担数据增强的工作。
本实施例中,通过图2可发现,本发明提出的***以模块形式级联而成,模块又可进一步拆分为单元,各单元承担着不同的功能,但是单元之间的耦合较浅。这就意味着单元内容的可替换性较强。即具体用何种技术实现某***单元,是没有硬性规定的。这是考虑到计算机行业发展迅猛,各领域新技术日新月异,随着更好、更顶尖或者更合适的技术被发现,可用其替换***当前所用技术。即***的工作思想不变,各单元实现技术不断完善。这就保证***的持续使用性和通用性较好。
综上,本发明实施例所述的视频目标检测识别***,在图像预处理模块中,首先采用差异判断机制,利用帧跳跃和差异程度计算,在保证检测效果满足需求的前提下,大幅缩减实际需要目标检测的影像帧数目,以加快视频检测速度;而后对待检测帧进行图像增强,强化影像中有用特征,提高目标辨识度,以提高视频检测精度;检测模块中,采用高性能算法Yolov3对影像进行细化目标检测,其具有计算开销小,检测速度快,检测精度较好的优势;同时采用运动指导传播的技巧,将前帧影像的检测结果作为参考信息矫正当前检测结果,进一步提高***检测精度;最后***添加基于深度卷积生成对抗网络的数据增强技术,便于对小训练集进行多元化的扩充,用于模型的二次训练,提高模型检测能力。整个***采用模块化机制,将各功能封装为多个模块级联,模块间耦合性不强,可根据需求进行适当替换,以使***具有更好的表现能力。***不仅能高效对视频进行目标检测,而且对硬件环境的需求大幅降低。
实施例三
为了更好地理解本发明实施例所述的视频目标检测识别方法及***,结合图3对所述视频目标检测识别方法及***进行详细说明,工作流程可以包括:
A11,在视频检测之前,需预先设定***参数,包括检测帧率fskip(用于设定每fskip帧进行一次差异检测,根据具体视频帧率和感兴趣目标的变化频率设定)、差异程度的判断指标(包括MSE、SSIM、PSNR等,默认采用MSE)、差异阈值T(用于控制差异判断的严苛程度,其值越小,则对两帧影像的差异容忍度越小,对影像帧进行目标检测的频率越频繁)、差异判断模式(包括全图判断模式和网格判断模式)、图像增强方式(包括锐化、去雾、自动色阶等,根据具体视频场景选取效果好的方法)。以上参数会影响***工作效果,应根据具体情况进行调整。各参数设置完毕后,开始对视频进行检测与识别。本实施例中所用视频帧率为30fps,影像尺寸为1920*1080;
A12,获取待检测的视频流,利用Opencv库将获取的待检测的视频流拆分成独立的影像帧,并以每帧影像为独立操作单位进行后续处理;
A13,判断当前影像帧是否为第一帧,若是第一帧,由于第一帧影像作为起始帧没有参考帧进行比较,则对当前影像帧执行图像增强和目标检测操作,检测完成后,将当前影像帧设置为参考帧。
本实施例中,采用自动色阶算法实现图像增强,如果待增强帧为图4,对其自动色阶后效果如图5,可发现:自动色阶后图像的像素值分布被调整,对比度得以改善,图像变清晰,使得目标的辨识度有所提高,这为后续Yolov3进行目标检测起到很好的预处理作用,常用的方法还有直方图均衡化、去雾、锐化等。而后对增强后的第一帧影像传入以Yolov3为主体的检测模块进行目标检测。Yolov3利用Darknet框架对图像提取特征,配合以巧妙的损失函数实现目标分类,并将检测结果输出为xml文件。此时本实施例对Yolov3源码进行调整,将检测得到的结果框坐标和相应目标类别保留在程序中,用作对后续帧标定结果及进行MGP;
A14,从第二帧影像开始,则按照图3工作。首先判断当前影像帧所处帧位(假设为fnow,且设定起始帧为第0帧),若满足公式:
fnow%fskip=O
则当前影像帧为不进行帧跳跃的待检测帧,对当前影像帧进行差异判断,否则将***中保留的参考帧检测结果赋予当前帧影像,作为其检测结果输出,以保证检测效率;
A15,在差异判断环节,传入其中的是参考帧和不进行帧跳跃的待检测帧,二者利用设定的差异程度的判断指标进行差异判断,本实施例中以MSE为例说明,假设进行差异判断的参考帧为图6,待检测帧1为图7(它与图6相隔70帧,时间间隔2~3s)。可发现二者差异较小,实际上不需要对待检测帧1进行目标检测,此时采用全图判断模式+MSE计算差异得到的结果为24.387,其值较小;而当参考帧和待检测帧2(图8,它与图6相隔170帧,时间间隔5~6s)比较时,可直观发现二者差异较大,应当对待检测帧2进行目标检测,采用全图判断模式+MSE计算差异得到的结果为65.396,其值较大,说明差异判断单元的存在是有价值的。值得注意的是:上述所言的差异值较大或较小这一描述,是与预设的差异阈值T相比得到的结果,T值的设定相对困难,它将直接影响本***是否能兼顾高效和高精度进行工作,要考虑具体视频情景,通过实验后得到符合本次视频的T值。在差异判断模式的选择上,同样以参考帧和待检测帧2为例,当使用网格判断模式+MSE时(实验设定采用10*10规格网格,逐格计算MSE并降序排列后,取前10个MSE的平均值为结果),计算差异得到的结果为106.450。相较全图判断模式,网格判断模式得到的差异值往往更能反映图像间的真实差异,这是因为网格模式更多考虑图像的局部信息,它以两幅图像中差异较大的网格作为代表,将其MSE取均值来代表两幅图片的差异情况,这更符合视频中相邻帧的时间局部性原则,相邻两帧往往不会发生整幅图片范围内的突变,而只是局部改变。但网格模式的计算差异度所需时间相较全图模式稍长,上例中全图模式计算需要0.0182s,网格模式计算则需要0.0293s,所以两种模式的具体选择仍需根据实际调整。
在进行实验的硬件环境下,利用Yolov3算法对单张影像帧进行目标检测所需要的时间是1.6371s,配合预设参数fskip,可计算出利用本发明对视频检测提速的大体规模。具体参数如下:以一段时长为5分钟、帧率为30fps、影像尺寸为1920*1080的视频为例。方法1采用Yolov3进行逐帧视频检测,方法2为本发明提出的帧跳跃技术+差异判断技术+Yolov3检测的组合方法进行视频检测。通过Opencv库将视频拆分为9023帧影像,不考虑程序拆分视频、图像增强及其它预处理时长,仅计算方法1和方法2视频检测性能的大体差异。采用网格模式+MSE组合法,对一组帧进行差异判断的用时为0.0293s,预设检测帧率参数fskip=5,使用Yolov3算法对单帧影像进行目标检测的时间为1.6371s,以两种极端情况为例:
A151,差异程度均小于差异阈值T:此时只有起始帧进行Yolov3目标检测,进行差异判断的次数:
n1≈9023÷5≈1804
所用时长Tmin大概为:
Tmin≈1804×0.0293+1.6371=54.4943s
A152,差异程度皆大于差异阈值T:此时每次进行差异判断后,都需使用Yolov3算法进行目标检测,所用时长Tmax大概为:
Tmax≈1804×(0.0293+1.6371)+1.6371=3007.8227s
A153,采用Yolov3模型进行常规的逐帧检测,所用时长Tyolo大概为:
Tyolo≈9023×1.6371=14771.5533s
通过计算后采用本发明进行视频检测提速的倍率大体为:4.9~271.1倍,倍率波动范围大的主要原因是本实施例计算中采用两种极端情况进行举例说明,实际上差异判断后大于差异阈值T的影像帧比例未知,所以会产生倍率波动。另一方面,本实施例中通过举例和理论计算,以概括说明本***对视频检测的加速情况,而实际上影响加速倍率的其它因素有视频时长、视频帧率、影像尺寸、帧跳跃参数fskip、计算机硬件性能、***实现所用编程语言等,还应考虑前帧检测结果传递及MGP等内部程序的用时,所以本***进行视频检测的加速倍率难以确定,但检测速度增幅效果明显。本发明从视频检测的方法上做出改变,在检测精度得以保证的前提下,大幅提高检测速度,这就使得同样的视频任务,采用本方法所需的硬件条件大幅降低。降低视频检测对硬件的依赖性也是本发明的突出优点之一。
A16,目标检测完成之后,利用运动指导传播(MGP),对Yolov3算法的检测结果进行矫正,进一步提高检测精度,而后将精细检测之后的影像帧设置为新的参考帧,并对其帧位进行判断,若是视频的最后一帧则结束本次视频检测;若不是,则将检测框绘制于影像帧上,然后提取下一帧影像,重复步骤A14—A16的过程。
A17,为辅助Yolov3模型更好的检测,提高整个***的检测能力,本发明还提供独立的数据生成单元,以丰富数据集的内容和多元性。它适用于高品质数据少时,无法充分训练Yolov3模型的情况。此部分实现数据增强过程,Yolov3基于Darknet进行特征提取和分类,故其以深度卷积神经网络为基础,这就使得它需要大量的数据进行多次训练后,网络的性能才能得以体现,而很多视频检测任务往往训练视频数目不多,同时由于视频的时间局部性,导致其虽然有大量的影像帧,但是重复、冗余的图像太多,有效、优质的图像太少,此时本发明提供的数据生成功能便可很好的工作。数据生成单元基于DCGAN模型,以现存图像数据为基础,生成符合给定训练图像要求的新图像,以此为新的训练数据,对网络进行更加充分的训练,以提高Yolov3的检测能力。DCGAN数据生成单元是本发明体系完善、功能丰富的另一个体现。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种视频目标检测识别方法,其特征在于,包括:
S1,判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值;
S2,若小于等于,则将参考帧检测结果赋予待检测帧输出;
S3,否则,则对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧;
其中,在判断参考帧和待检测帧之间的差异程度是否小于等于预设的差异阈值之前,所述方法还包括:
获取待检测的视频流;
将获取的待检测的视频流拆分成独立的影像帧;
判断当前影像帧是否为第一帧;
若是第一帧,则对当前影像帧执行图像增强和目标检测操作,检测完成后,将当前影像帧设置为参考帧;
若不是第一帧,则判断当前影像帧是否为不进行帧跳跃的待检测帧,若是,则执行S1;
其中,所述若不是第一帧,则判断当前影像帧是否为不进行帧跳跃的待检测帧,若是,则执行S1包括:
记起始帧为第0帧,判断当前影像帧所处帧位fnow是否满足公式:fnow%fskip=0,其中,fskip为检测帧率,用于表示每fskip帧进行一次差异判断;
若满足,则当前影像帧为不进行帧跳跃的待检测帧,则执行S1;
若不满足,则将参考帧检测结果赋予当前帧影像,作为当前帧影像的检测结果输出;
其中,所述判断当前影像帧是否为不进行帧跳跃的待检测帧,包括:
设置时间参数tskip,将每tskip时间长度执行一次差异检测,即每tskip时间长度选取一次待检测帧,在tskip的时间区间内选取的帧为进行帧跳跃的待检测帧。
2.根据权利要求1所述的视频目标检测识别方法,其特征在于,参考帧和待检测帧差异程度的判断指标包括:均方根误差、灰度差、直方图差异、峰值信噪比或结构相似性。
3.根据权利要求2所述的视频目标检测识别方法,其特征在于,均方根误差MSE的计算公式为:
Figure FDA0002942309680000021
其中,Xref,i为参考帧像素i的像素值,Xdet,i为待检测帧像素i的像素值,n为影像像素数;
灰度差的计算公式为:
Figure FDA0002942309680000022
其中,Gref,i为参考帧像素i的灰度值,Gdet,i为待检测帧像素i的灰度值;
峰值信噪比的计算公式为:
Figure FDA0002942309680000023
其中,MAXI为图像颜色的最大值。
4.根据权利要求1所述的视频目标检测识别方法,其特征在于,差异判断模式包括:全图判断或网格判断。
5.根据权利要求1所述的视频目标检测识别方法,其特征在于,图像增强方式包括:亮度调节、对比度调节、锐化、去雾、自动色阶、直方图均衡化中一种或多种。
6.根据权利要求1所述的视频目标检测识别方法,其特征在于,所述对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧包括:
对待检测帧进行图像增强;
根据增强的待检测帧,使用Yolov3算法对增强后的待检测帧进行细化目标检测与识别。
7.根据权利要求1所述的视频目标检测识别方法,其特征在于,所述对待检测帧进行图像增强和目标检测,检测完成后,将待检测帧替换为新的参考帧包括:
对待检测帧进行图像增强;
根据增强的待检测帧,使用Yolov3算法对增强后的待检测帧进行细化目标检测与识别;
利用运动指导传播,通过时间信息修正技术对Yolov3算法的检测结果进行矫正,矫正完成后,将待检测帧替换为新的参考帧。
8.根据权利要求6或7所述的视频目标检测识别方法,其特征在于,所述方法还包括:
基于现有影像使用深度卷积生成对抗网络产生新数据,扩大Yolov3算法的训练集,对Yolov3模型进行二次训练。
CN201811063637.XA 2018-09-12 2018-09-12 一种视频目标检测识别方法 Active CN109063694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811063637.XA CN109063694B (zh) 2018-09-12 2018-09-12 一种视频目标检测识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811063637.XA CN109063694B (zh) 2018-09-12 2018-09-12 一种视频目标检测识别方法

Publications (2)

Publication Number Publication Date
CN109063694A CN109063694A (zh) 2018-12-21
CN109063694B true CN109063694B (zh) 2021-07-02

Family

ID=64760347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811063637.XA Active CN109063694B (zh) 2018-09-12 2018-09-12 一种视频目标检测识别方法

Country Status (1)

Country Link
CN (1) CN109063694B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102097905B1 (ko) * 2019-06-04 2020-04-06 주식회사 딥엑스 이미지 객체 인식 장치 및 방법
CN109711365A (zh) * 2018-12-29 2019-05-03 佛山科学技术学院 一种融合语义信息的视觉slam回环检测方法及装置
CN111835954A (zh) * 2019-04-14 2020-10-27 泰州腾翔信息科技有限公司 现场数据抓取方法
CN110705542A (zh) * 2019-04-15 2020-01-17 中国石油大学(华东) 一种基于HDNet的输电场景下吊车入侵检测机制
CN110336943B (zh) * 2019-07-03 2021-05-25 北京迈格威科技有限公司 一种场景识别方法和装置
CN112347818B (zh) * 2019-08-08 2022-05-13 魔门塔(苏州)科技有限公司 一种视频目标检测模型的困难样本图像筛选方法及装置
CN110688926B (zh) * 2019-09-19 2022-12-13 Oppo广东移动通信有限公司 主体检测方法和装置、电子设备、计算机可读存储介质
CN110838094B (zh) * 2019-11-06 2023-07-04 杭州迪英加科技有限公司 病理切片染色风格转换方法和电子设备
CN112926617A (zh) * 2019-12-06 2021-06-08 顺丰科技有限公司 包装变更检测方法、装置、云端计算机设备和存储介质
CN111047879A (zh) * 2019-12-24 2020-04-21 苏州奥易克斯汽车电子有限公司 一种车辆超速检测方法
CN111669602B (zh) * 2020-06-04 2022-08-16 北京大学深圳研究生院 编码单元的划分方法、装置、编码器及存储介质
CN111783979B (zh) * 2020-06-22 2024-01-12 西北工业大学 一种基于ssim算法的图像相似度检测硬件加速器vlsi结构
CN112200830A (zh) * 2020-09-11 2021-01-08 山东信通电子股份有限公司 一种目标跟踪方法及设备
CN112528856B (zh) * 2020-12-10 2022-04-15 天津大学 一种基于特征帧的重复视频检测方法
CN114363659A (zh) * 2021-12-15 2022-04-15 深圳万兴软件有限公司 降低视频闪烁的方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6674437B1 (en) * 1998-12-24 2004-01-06 B3D, Inc. Key reduction system and method with variable threshold
US7023921B2 (en) * 2002-08-06 2006-04-04 Motorola, Inc. Method and apparatus for determining block match quality
US20080288518A1 (en) * 2007-05-15 2008-11-20 Motorola, Inc. Content data block processing
US9256789B2 (en) * 2008-03-21 2016-02-09 Intel Corporation Estimating motion of an event captured using a digital video camera
CN102006462B (zh) * 2010-11-27 2012-11-14 南京理工大学 利用运动信息的快速监控视频增强方法及其实现装置
CN102521840B (zh) * 2011-11-18 2014-06-18 深圳市宝捷信科技有限公司 一种运动目标跟踪方法、***及终端
CN103227963A (zh) * 2013-03-20 2013-07-31 西交利物浦大学 基于视频运动目标检测和跟踪的静态监控视频摘要方法
CN107515870B (zh) * 2016-06-15 2022-03-04 北京搜狗科技发展有限公司 一种搜索方法和装置、一种用于搜索的装置
CN108174191B (zh) * 2017-12-29 2019-10-11 广州虎牙信息科技有限公司 视频流畅度测试方法、计算机存储介质及终端

Also Published As

Publication number Publication date
CN109063694A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063694B (zh) 一种视频目标检测识别方法
US7916173B2 (en) Method for detecting and selecting good quality image frames from video
Fang et al. No-reference quality assessment of contrast-distorted images based on natural scene statistics
US7366330B2 (en) Method, apparatus, and program for detecting faces
US20070047824A1 (en) Method, apparatus, and program for detecting faces
EP3300061A1 (en) Image processing apparatus
KR20090006068A (ko) 동영상 시퀀스를 수정하는 방법 및 그 장치
US20100232685A1 (en) Image processing apparatus and method, learning apparatus and method, and program
EP2959454A1 (en) Method, system and software module for foreground extraction
US20100054542A1 (en) Processing video frames with the same content but with luminance variations across frames
CN110781962B (zh) 基于轻量级卷积神经网络的目标检测方法
Khalid et al. Bhattacharyya Coefficient in Correlation of Gray-Scale Objects.
CN112637593B (zh) 基于人工智能和视频分析的视频编码优化方法
KR20100091864A (ko) 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법
CN102088539A (zh) 一种预拍照画质评价方法和***
CN111340101B (zh) 稳定性评估方法、装置、电子设备和计算机可读存储介质
CN104915933A (zh) 一种基于apso-bp耦合算法的雾天图像增强方法
CN108710881B (zh) 神经网络模型、候选目标区域生成方法、模型训练方法
US8837595B2 (en) Motion estimation method
JP2011170890A (ja) 顔検出方法および装置並びにプログラム
CN111738964A (zh) 一种基于建模的图像数据增强的方法
CN108537771B (zh) 基于hsv的mc-siltp运动目标检测方法
JP4795737B2 (ja) 顔検出方法および装置並びにプログラム
CN114358131A (zh) 数码相框智能照片优化处理***
CN113449667A (zh) 基于全局卷积和边界细化的显著目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Xuefeng

Inventor after: Zhang Dezheng

Inventor after: Chen Tianao

Inventor after: Li Hui

Inventor after: Chen Peng

Inventor after: Yang Rongji

Inventor after: Shi Zuxian

Inventor before: Zhang Dezheng

Inventor before: Chen Tianao

Inventor before: Li Hui

Inventor before: Chen Peng

Inventor before: Yang Rongji

Inventor before: Shi Zuxian