CN112036214A - 低画质视频中的小目标实时识别方法 - Google Patents

低画质视频中的小目标实时识别方法 Download PDF

Info

Publication number
CN112036214A
CN112036214A CN201910479019.1A CN201910479019A CN112036214A CN 112036214 A CN112036214 A CN 112036214A CN 201910479019 A CN201910479019 A CN 201910479019A CN 112036214 A CN112036214 A CN 112036214A
Authority
CN
China
Prior art keywords
target
standard state
small
algorithm
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910479019.1A
Other languages
English (en)
Inventor
张昭智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Paidao Intelligent Technology Co ltd
Original Assignee
Shanghai Paidao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Paidao Intelligent Technology Co ltd filed Critical Shanghai Paidao Intelligent Technology Co ltd
Priority to CN201910479019.1A priority Critical patent/CN112036214A/zh
Publication of CN112036214A publication Critical patent/CN112036214A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了低画质视频中的小目标实时识别方法,小目标和大目标具有必然的相对位置关系,小目标具有标准状态和非标准状态;抽取视频中一定数量的图片作为数据集进行标注;数据集标注为小目标标准状态和小目标非标准状态两个类别,每个类别对应两个矩形框,标准状态下第一个框是大目标,第二个框是小目标的标准状态;非标准状态下第一个框是大目标,第二个框是小目标的非标准状态;利用数据集作为目标检测算法训练参考;利用目标检测算法对视频进行目标状态识别。本发明具有较高的检测准确率。

Description

低画质视频中的小目标实时识别方法
技术领域
本发明涉及计算机视觉领域,尤其是一种在低画质视频中的小目标实时识别方法。
背景技术
利用计算机视觉进行目标检测的任务是从图像中解析出可供计算机理解的信息,在实际检测过程中,除了需要得到图片中目标的类别信息以外,还需要得到目标的位置信息。目前基于深度学习的目标检测算法主要分为基于分类的目标检测算法和基于回归的目标检测算法两个大类。
基于分类的目标检测算法主要是将目标检测过程分为两个阶段。第一个阶段主要是选取候选区域,第二个阶段则针对候选区域进行分类并进行位置调整,经过这两个阶段之后得到目标检测结果。目前此方案的典型模型是2015年Ren S等人提出的更快的基于区域的卷积神经网络算法(Faster R-CNN),用候选区域生成网络(Regional ProposalNetworks,RPN)将目标检测***分为两个模块,第一个模块是提取候选区域的深度全卷积网络,第二个模块使用基于区域提取的Faster R-CNN检测器进行检测。整个***是一个单个的、统一的目标检测网络。Faster R-CNN算法框架如图所示。首先将整张图片作为输入,经过卷积计算得到特征层,然后将卷积特征输入到RPN网络,得到候选框的特征信息;接着对候选框中提取出的特征,使用分类器判别是否属于一个特定类;最后对属于某一特征的候选框,用回归器进一步调整其位置,整个网络流程共享卷积神经网络提取的特征信息。
在尺寸一定的卷积特征图中,RPN网络能够生成具有多个尺寸的候选框,造成了目标尺寸可变以及固定感受野不一致的问题。如增加候选框数量,则又会导致算法检测速度降低,难以满足实际生产环境对于实时性的要求。
基于回归的目标检测算法将目标检测过程简化成一个具有统一性的端到端的回归问题,从而只需要将图片处理一次(对比多次选取候选区域分类),就可以同时得到检测目标的位置和类别信息。与基于区域提取的两阶段模型不同,单阶段方法通过完整的单次训练就能实现特征共享。这类算法的典型代表有你只需要看一次(YouLook Only Once,YOLO)、SSD等。下面以SSD为例进行重点阐述。
2016年LiuW等提出SSD算法,将单个深度神经网络应用到图像目标检测中。SSD算法框架如图所示,其定位边界框定义为一组在空间上离散的默认框,且对应于不同的长宽比与映射位置。在进行预测时,网络会为每个默认框中的目标类别生成对应的概率分数,并调整默认框以实现与目标形状的良好匹配。除此以外,网络还对具有不同画质的目标结合其多个特征映射作出完整预测,实现对多尺寸目标的检测任务。
在SSD算法中,无候选区域时,区域回归难度较大,容易出现较难收敛的问题;SSD不同层的特征图都作为分类网络的独立输入,导致同一个物体被不同大小的框同时检测,造成了重复运算;由于小目标对应于特征图中很小的区域,无法得到充分训练,因此SSD对于小目标的检测效果依然不理想。
在利用现有计算机视觉技术对低画质视频中的小目标进行检测识别时,由于目标较小,导致如果使用传统的深度学习方法得出的检测准确率较低。
因此急需解决现有技术在低画质视频中对小目标进行实时检测识别的问题。
发明内容
本发明的目的在于解决在低画质视频中对小目标进行实时检测识别的问题。在利用现有计算机视觉技术进行改进,实现对低画质视频中的小目标进行准确率较高的检测识别。
为了达到上述目的,本发明提供了低画质视频中的小目标实时识别方法,小目标和大目标具有必然的相对位置关系,小目标具有标准状态和非标准状态;抽取视频中一定数量的图片作为数据集进行标注;数据集标注为小目标标准状态和小目标非标准状态两个类别,每个类别对应两个矩形框,标准状态下第一个框是大目标,第二个框是小目标的标准状态;非标准状态下第一个框是大目标,第二个框是小目标的非标准状态;利用数据集作为目标检测算法训练参考;利用目标检测算法对视频进行目标状态识别。
其中,小目标在大目标的内部。小目标是人头,大目标是人体,小目标的标准状态是人头佩戴安全帽的状态。
进一步的,所述的目标检测算法是SSD算法。目标检测算法的定位边界框定义为一组在空间上离散的默认框,且对应于不同的长宽比与映射位置。目标检测算法在进行预测时,网络会为每个默认框中的目标类别生成对应的概率分数,并调整默认框以实现与目标形状的良好匹配。目标检测算法中网络还对具有不同画质的目标结合其多个特征映射作出完整预测,实现对多尺寸目标的检测任务。
目标检测算法中按照大小目标的关系和状态分类形成新的对应关系替代算法中的相应特征层。具体地,目标检测算法将用来检测的输入图片首先利用图像压缩,输入到算法中,同时得到第一损失值,然后利用其输出的位置信息,提取对应的图像位置,然后再输入到算法中,得到第二损失值和检测结果,利用第一损失值和第二损失值的线性组合,得到总的损失值,并利用此过程进行模型训练工作。进一步地,在模型预测阶段,可以直接通过得出第二损失值的算法输出检测结果,从而加速模型的计算速度。
本发明的意义在于相对于原有的技术方案,由于利用了物体之间相关性的信息,因此在物体检测过程可以快速定位到目标位置,然后对目标区域利用直接分类的方法,可以得到一个检测准确率高、检测速度快的检测方案。同时,此方案还具有检测速度快,存储占用率低,同时对于低画质视频的小目标检测问题,比同样检测速度和同样存储占用率的其他深度学习网络模型具有更高的检测准确率。
为使本发明的上述目的、特征和实施方式能更明显易懂,下文结合附图,对本发明的结构设计及操作流程做详细说明。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明的一个实施例的算法示意图;
图2是本发明的一个实施例的流程图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先请参考图1,图1为本发明的示意图,本发明的一个实施例是对工作区域工人是否佩戴安全帽的监控识别。由于安全帽是一个较小的目标,在现有的低画质监控视频中很难被清楚地识别出来,尤其是需要计算机自动识别的场合。在本实施例中,根据物体的相关性得出,人头依附于人的身体,因此采用先检测人体,然后将检测出的人体从图片中截取出来后再对头部是否佩戴安全帽进行二次检测的方法。由于相对原图人体比头部更大,因此检测准确率较高。
在本发明的一个实施例中,本发明将优化SSD网络模型的网络结构、模型大小和计算速度,搭建出一种可以在低画质视频中有效识别小目标的目标检测识别算法。以检测实际工厂环境中工作人员是否佩戴安全帽为例,进行说明。
利用实际视频监控设备采集到的监控数据,通过一年不同季节不同天气不同时间的监控视频,抽取一定数量的图片作为数据集进行标注。通过人为的数据挑选,避免数据不均衡的问题。然后对挑选后的数据进行数据标注。标注时对于所收集的数据集标注为佩戴安全帽和未佩戴安全帽两个类别,每个类别对应两个矩形框作为目标。对于戴安全帽的类别,第一个框为整个人体,第二个框为安全帽;对于不戴安全帽的类别,第一个框同样为整个人体,第二个框为人头。
本方案所采用算法模型是基于现有的SSD模型,其部分连接结构如表1所示,将原始SSD网络中的平均池化层和Softmax层去掉,同时在Conv2d_13_pointwise层后通过三组单深度和单点卷积核组增加三个新的特征层。将原有移动用卷积网络MobileNet网络的Con2d_11_pointwise、Con2d_13_pointwise层和新添加的Con2d_14_pointwise、Con2d_115_pointwise、Con2d_16_pointwise、Con2d_17_pointwise层作为SSD锚点框的特征提起层。锚点框的配置为:最小尺度系数设为0.2,最大尺寸系数设为0.9,六个特征层上锚点框的尺寸系数分别为0.2、0.34、0.48、0.62、0.86、0.9,为每一层的锚点框配置五种宽高比以及一个额外的1:1的窗宽比的锚点框,这样每个特征层的每个锚点位置会有六种锚点框。
通过分析MobileNet中的网络结构,可以发现MobileNet在大幅度减小网络参数与运算量的情况下,仍然能够保持较高的图像分类效果。同时也可以在大幅度减小网络运算量的情况下仍能够较好的提取图像中的特征。而通过以上方法对网络进行修改后,由于被提取的特征图的尺寸比SSD要小,新的网络所需要的锚点框数量也仅有SSD网络的三分之一。同时通过经验和实验发现,这种调整对算法的检测效果具有明显的提高效果。
表1本方案相对原有网络模型添加的网络结构
Figure BDA0002082597830000071
将上述算法过程简称为MSSD,则本发明的数据流程图如图1所示。将用来检测的输入图片首先利用图像压缩,输入到算法MSSD_1中,同时得到第一损失值Loss_1,然后利用其输出的位置信息,提取对应的图像位置,然后输入到算法MSSD_2中,得到第二损失值Loss_2,利用第一损失值Loss_1和第二损失值Loss_2的线性组合,得到总的损失值,并利用此过程进行模型训练工作。在模型预测阶段,可以直接通过算法MSSD_2输出检测结果,从而加速模型的计算速度,减少存储空间的占用。
根据本文提出的以上检测算法,利用训练好的模型检测低画质视频中的小目标时,可以明显达到比原始SSD算法更好的检测效果。
接下来请参考图2,图2是本发明的一个实施例的流程图。图2所示实施例中,第一步,选定大目标和小目标,小目标和大目标具有必然的相对位置关系,小目标可以在大目标的内部或确定方位的外部。小目标具有标准状态和非标准状态。第二步,抽取视频中一定数量的图片作为数据集进行标注;数据集标注为小目标标准状态和小目标非标准状态两个类别,每个类别对应两个矩形框,标准状态下第一个框是大目标,第二个框是小目标的标准状态;非标准状态下第一个框是大目标,第二个框是小目标的非标准状态;第三步,目标检测算法中按照大小目标的关系和状态分类形成新的对应关系替代算法中的相应特征层。第四步,将用来检测的输入图片首先利用图像压缩,输入到算法中,同时得到第一损失值。第五步,然后利用其输出的位置信息,提取对应的图像位置,再输入到算法中,得到第二损失值和检测结果。第六步,利用第一损失值和第二损失值的线性组合,得到总的损失值,并利用此过程进行模型训练工作。
在模型预测阶段,可以直接通过得出第二损失值的算法输出检测结果,从而加速模型的计算速度。
目标检测算法的定位边界框定义为一组在空间上离散的默认框,且对应于不同的长宽比与映射位置。目标检测算法在进行预测时,网络会为每个默认框中的目标类别生成对应的概率分数,并调整默认框以实现与目标形状的良好匹配。目标检测算法中网络还对具有不同画质的目标结合其多个特征映射作出完整预测,实现对多尺寸目标的检测任务。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.低画质视频中的小目标实时识别方法,其特征在于,小目标和大目标具有必然的相对位置关系,小目标具有标准状态和非标准状态;抽取视频中一定数量的图片作为数据集进行标注;数据集标注为小目标标准状态和小目标非标准状态两个类别,每个类别对应两个矩形框,标准状态下第一个框是大目标,第二个框是小目标的标准状态;非标准状态下第一个框是大目标,第二个框是小目标的非标准状态;利用数据集作为目标检测算法训练参考;利用目标检测算法对视频进行目标状态识别。
2.如权利要求1所述的低画质视频中的小目标实时识别方法,其特征在于,小目标在大目标的内部。
3.如权利要求1所述的低画质视频中的小目标实时识别方法,其特征在于,小目标是人头,大目标是人体,小目标的标准状态是人头佩戴安全帽的状态。
4.如权利要求1所述的低画质视频中的小目标实时识别方法,其特征在于,所述的目标检测算法是单发多框目标检测器(Shot Multi-box Detector,SSD)算法。
5.如权利要求1所述的低画质视频中的小目标实时识别方法,其特征在于,所述的目标检测算法的定位边界框定义为一组在空间上离散的默认框,且对应于不同的长宽比与映射位置。
6.如权利要求1所述的低画质视频中的小目标实时识别方法,其特征在于,所述的目标检测算法在进行预测时,网络会为每个默认框中的目标类别生成对应的概率分数,并调整默认框以实现与目标形状的良好匹配。
7.如权利要求1所述的低画质视频中的小目标实时识别方法,其特征在于,所述的目标检测算法中网络还对具有不同画质的目标结合其多个特征映射作出完整预测,实现对多尺寸目标的检测任务。
8.如权利要求1所述的低画质视频中的小目标实时识别方法,其特征在于,所述的目标检测算法中按照大小目标的关系和状态分类形成新的对应关系替代算法中的相应特征层。
9.如权利要求8所述的低画质视频中的小目标实时识别方法,其特征在于,将用来检测的输入图片首先利用图像压缩,输入到算法中,同时得到第一损失值,然后利用其输出的位置信息,提取对应的图像位置,然后再输入到算法中,得到第二损失值和检测结果,利用第一损失值和第二损失值的线性组合,得到总的损失值,并利用此过程进行模型训练工作。
10.如权利要求9所述的低画质视频中的小目标实时识别方法,其特征在于,在模型预测阶段,可以直接通过得出第二损失值的算法输出检测结果,从而加速模型的计算速度。
CN201910479019.1A 2019-06-03 2019-06-03 低画质视频中的小目标实时识别方法 Pending CN112036214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910479019.1A CN112036214A (zh) 2019-06-03 2019-06-03 低画质视频中的小目标实时识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910479019.1A CN112036214A (zh) 2019-06-03 2019-06-03 低画质视频中的小目标实时识别方法

Publications (1)

Publication Number Publication Date
CN112036214A true CN112036214A (zh) 2020-12-04

Family

ID=73576508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910479019.1A Pending CN112036214A (zh) 2019-06-03 2019-06-03 低画质视频中的小目标实时识别方法

Country Status (1)

Country Link
CN (1) CN112036214A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311514A (zh) * 2022-07-25 2022-11-08 阿波罗智能技术(北京)有限公司 一种样本更新方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311514A (zh) * 2022-07-25 2022-11-08 阿波罗智能技术(北京)有限公司 一种样本更新方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111339882B (zh) 基于实例分割的输电线路隐患检测方法
CN111126325B (zh) 一种基于视频的智能人员安防识别统计方法
CN106875373B (zh) 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法
CN111784685A (zh) 一种基于云边协同检测的输电线路缺陷图像识别方法
CN110738127A (zh) 基于无监督深度学习神经网络算法的安全帽识别方法
CN110309718A (zh) 一种电网作业人员安全帽佩戴检测方法
CN111754498A (zh) 一种基于YOLOv3的传送带托辊检测方法
CN108711148B (zh) 一种基于深度学习的轮胎缺陷智能检测方法
CN109935080B (zh) 一种交通线路上的车流量实时计算的监测***及方法
KR101183105B1 (ko) 자동 구름 정보 산출방법
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN112215795B (zh) 一种基于深度学习的服务器部件智能检测方法
CN109376580B (zh) 一种基于深度学习的电力塔架部件识别方法
CN107688830B (zh) 一种用于案件串并的现勘视觉信息关联图层生成方法
CN112084838B (zh) 一种车间安全帽检测方法
CN115690542A (zh) 一种基于改进yolov5的航拍绝缘子定向识别方法
CN111062278A (zh) 基于改进残差网络的异常行为识别方法
CN114332942A (zh) 基于改进YOLOv3的夜间红外行人检测方法及***
CN110751195A (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN115456955A (zh) 一种球笼防尘罩内部毛刺缺陷检测方法
CN112258470A (zh) 基于缺陷检测的工业图像临界压缩率智能分析***及方法
CN115661757A (zh) 一种受电弓拉弧自动检测方法
CN111833347A (zh) 一种输电线路防振锤缺陷检测方法及相关装置
CN111352926B (zh) 数据处理的方法、装置、设备及可读存储介质
CN112036214A (zh) 低画质视频中的小目标实时识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination