CN112036214A

CN112036214A - 低画质视频中的小目标实时识别方法

Info

Publication number: CN112036214A
Application number: CN201910479019.1A
Authority: CN
Inventors: 张昭智
Original assignee: Shanghai Paidao Intelligent Technology Co ltd
Current assignee: Shanghai Paidao Intelligent Technology Co ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2020-12-04

Abstract

本发明提供了低画质视频中的小目标实时识别方法，小目标和大目标具有必然的相对位置关系，小目标具有标准状态和非标准状态；抽取视频中一定数量的图片作为数据集进行标注；数据集标注为小目标标准状态和小目标非标准状态两个类别，每个类别对应两个矩形框，标准状态下第一个框是大目标，第二个框是小目标的标准状态；非标准状态下第一个框是大目标，第二个框是小目标的非标准状态；利用数据集作为目标检测算法训练参考；利用目标检测算法对视频进行目标状态识别。本发明具有较高的检测准确率。

Description

低画质视频中的小目标实时识别方法

技术领域

本发明涉及计算机视觉领域，尤其是一种在低画质视频中的小目标实时识别方法。

背景技术

利用计算机视觉进行目标检测的任务是从图像中解析出可供计算机理解的信息，在实际检测过程中，除了需要得到图片中目标的类别信息以外，还需要得到目标的位置信息。目前基于深度学习的目标检测算法主要分为基于分类的目标检测算法和基于回归的目标检测算法两个大类。

基于分类的目标检测算法主要是将目标检测过程分为两个阶段。第一个阶段主要是选取候选区域，第二个阶段则针对候选区域进行分类并进行位置调整，经过这两个阶段之后得到目标检测结果。目前此方案的典型模型是2015年Ren S等人提出的更快的基于区域的卷积神经网络算法(Faster R-CNN)，用候选区域生成网络(Regional ProposalNetworks，RPN)将目标检测***分为两个模块，第一个模块是提取候选区域的深度全卷积网络，第二个模块使用基于区域提取的Faster R-CNN检测器进行检测。整个***是一个单个的、统一的目标检测网络。Faster R-CNN算法框架如图所示。首先将整张图片作为输入，经过卷积计算得到特征层，然后将卷积特征输入到RPN网络，得到候选框的特征信息；接着对候选框中提取出的特征，使用分类器判别是否属于一个特定类；最后对属于某一特征的候选框，用回归器进一步调整其位置，整个网络流程共享卷积神经网络提取的特征信息。

在尺寸一定的卷积特征图中，RPN网络能够生成具有多个尺寸的候选框，造成了目标尺寸可变以及固定感受野不一致的问题。如增加候选框数量，则又会导致算法检测速度降低，难以满足实际生产环境对于实时性的要求。

基于回归的目标检测算法将目标检测过程简化成一个具有统一性的端到端的回归问题，从而只需要将图片处理一次(对比多次选取候选区域分类)，就可以同时得到检测目标的位置和类别信息。与基于区域提取的两阶段模型不同，单阶段方法通过完整的单次训练就能实现特征共享。这类算法的典型代表有你只需要看一次(YouLook Only Once，YOLO)、SSD等。下面以SSD为例进行重点阐述。

2016年LiuW等提出SSD算法，将单个深度神经网络应用到图像目标检测中。SSD算法框架如图所示，其定位边界框定义为一组在空间上离散的默认框，且对应于不同的长宽比与映射位置。在进行预测时，网络会为每个默认框中的目标类别生成对应的概率分数，并调整默认框以实现与目标形状的良好匹配。除此以外，网络还对具有不同画质的目标结合其多个特征映射作出完整预测，实现对多尺寸目标的检测任务。

在SSD算法中，无候选区域时，区域回归难度较大，容易出现较难收敛的问题；SSD不同层的特征图都作为分类网络的独立输入，导致同一个物体被不同大小的框同时检测，造成了重复运算；由于小目标对应于特征图中很小的区域，无法得到充分训练，因此SSD对于小目标的检测效果依然不理想。

在利用现有计算机视觉技术对低画质视频中的小目标进行检测识别时，由于目标较小，导致如果使用传统的深度学习方法得出的检测准确率较低。

因此急需解决现有技术在低画质视频中对小目标进行实时检测识别的问题。

发明内容

本发明的目的在于解决在低画质视频中对小目标进行实时检测识别的问题。在利用现有计算机视觉技术进行改进，实现对低画质视频中的小目标进行准确率较高的检测识别。

为了达到上述目的，本发明提供了低画质视频中的小目标实时识别方法，小目标和大目标具有必然的相对位置关系，小目标具有标准状态和非标准状态；抽取视频中一定数量的图片作为数据集进行标注；数据集标注为小目标标准状态和小目标非标准状态两个类别，每个类别对应两个矩形框，标准状态下第一个框是大目标，第二个框是小目标的标准状态；非标准状态下第一个框是大目标，第二个框是小目标的非标准状态；利用数据集作为目标检测算法训练参考；利用目标检测算法对视频进行目标状态识别。

其中，小目标在大目标的内部。小目标是人头，大目标是人体，小目标的标准状态是人头佩戴安全帽的状态。

进一步的，所述的目标检测算法是SSD算法。目标检测算法的定位边界框定义为一组在空间上离散的默认框，且对应于不同的长宽比与映射位置。目标检测算法在进行预测时，网络会为每个默认框中的目标类别生成对应的概率分数，并调整默认框以实现与目标形状的良好匹配。目标检测算法中网络还对具有不同画质的目标结合其多个特征映射作出完整预测，实现对多尺寸目标的检测任务。

目标检测算法中按照大小目标的关系和状态分类形成新的对应关系替代算法中的相应特征层。具体地，目标检测算法将用来检测的输入图片首先利用图像压缩，输入到算法中，同时得到第一损失值，然后利用其输出的位置信息，提取对应的图像位置，然后再输入到算法中，得到第二损失值和检测结果，利用第一损失值和第二损失值的线性组合，得到总的损失值，并利用此过程进行模型训练工作。进一步地，在模型预测阶段，可以直接通过得出第二损失值的算法输出检测结果，从而加速模型的计算速度。

本发明的意义在于相对于原有的技术方案，由于利用了物体之间相关性的信息，因此在物体检测过程可以快速定位到目标位置，然后对目标区域利用直接分类的方法，可以得到一个检测准确率高、检测速度快的检测方案。同时，此方案还具有检测速度快，存储占用率低，同时对于低画质视频的小目标检测问题，比同样检测速度和同样存储占用率的其他深度学习网络模型具有更高的检测准确率。

为使本发明的上述目的、特征和实施方式能更明显易懂，下文结合附图，对本发明的结构设计及操作流程做详细说明。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明的一个实施例的算法示意图；

图2是本发明的一个实施例的流程图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先请参考图1，图1为本发明的示意图，本发明的一个实施例是对工作区域工人是否佩戴安全帽的监控识别。由于安全帽是一个较小的目标，在现有的低画质监控视频中很难被清楚地识别出来，尤其是需要计算机自动识别的场合。在本实施例中，根据物体的相关性得出，人头依附于人的身体，因此采用先检测人体，然后将检测出的人体从图片中截取出来后再对头部是否佩戴安全帽进行二次检测的方法。由于相对原图人体比头部更大，因此检测准确率较高。

在本发明的一个实施例中，本发明将优化SSD网络模型的网络结构、模型大小和计算速度，搭建出一种可以在低画质视频中有效识别小目标的目标检测识别算法。以检测实际工厂环境中工作人员是否佩戴安全帽为例，进行说明。

利用实际视频监控设备采集到的监控数据，通过一年不同季节不同天气不同时间的监控视频，抽取一定数量的图片作为数据集进行标注。通过人为的数据挑选，避免数据不均衡的问题。然后对挑选后的数据进行数据标注。标注时对于所收集的数据集标注为佩戴安全帽和未佩戴安全帽两个类别，每个类别对应两个矩形框作为目标。对于戴安全帽的类别，第一个框为整个人体，第二个框为安全帽；对于不戴安全帽的类别，第一个框同样为整个人体，第二个框为人头。

本方案所采用算法模型是基于现有的SSD模型，其部分连接结构如表1所示，将原始SSD网络中的平均池化层和Softmax层去掉，同时在Conv2d_13_pointwise层后通过三组单深度和单点卷积核组增加三个新的特征层。将原有移动用卷积网络MobileNet网络的Con2d_11_pointwise、Con2d_13_pointwise层和新添加的Con2d_14_pointwise、Con2d_115_pointwise、Con2d_16_pointwise、Con2d_17_pointwise层作为SSD锚点框的特征提起层。锚点框的配置为：最小尺度系数设为0.2，最大尺寸系数设为0.9，六个特征层上锚点框的尺寸系数分别为0.2、0.34、0.48、0.62、0.86、0.9，为每一层的锚点框配置五种宽高比以及一个额外的1：1的窗宽比的锚点框，这样每个特征层的每个锚点位置会有六种锚点框。

通过分析MobileNet中的网络结构，可以发现MobileNet在大幅度减小网络参数与运算量的情况下，仍然能够保持较高的图像分类效果。同时也可以在大幅度减小网络运算量的情况下仍能够较好的提取图像中的特征。而通过以上方法对网络进行修改后，由于被提取的特征图的尺寸比SSD要小，新的网络所需要的锚点框数量也仅有SSD网络的三分之一。同时通过经验和实验发现，这种调整对算法的检测效果具有明显的提高效果。

表1本方案相对原有网络模型添加的网络结构

将上述算法过程简称为MSSD，则本发明的数据流程图如图1所示。将用来检测的输入图片首先利用图像压缩，输入到算法MSSD_1中，同时得到第一损失值Loss_1，然后利用其输出的位置信息，提取对应的图像位置，然后输入到算法MSSD_2中，得到第二损失值Loss_2，利用第一损失值Loss_1和第二损失值Loss_2的线性组合，得到总的损失值，并利用此过程进行模型训练工作。在模型预测阶段，可以直接通过算法MSSD_2输出检测结果，从而加速模型的计算速度，减少存储空间的占用。

根据本文提出的以上检测算法，利用训练好的模型检测低画质视频中的小目标时，可以明显达到比原始SSD算法更好的检测效果。

接下来请参考图2，图2是本发明的一个实施例的流程图。图2所示实施例中，第一步，选定大目标和小目标，小目标和大目标具有必然的相对位置关系，小目标可以在大目标的内部或确定方位的外部。小目标具有标准状态和非标准状态。第二步，抽取视频中一定数量的图片作为数据集进行标注；数据集标注为小目标标准状态和小目标非标准状态两个类别，每个类别对应两个矩形框，标准状态下第一个框是大目标，第二个框是小目标的标准状态；非标准状态下第一个框是大目标，第二个框是小目标的非标准状态；第三步，目标检测算法中按照大小目标的关系和状态分类形成新的对应关系替代算法中的相应特征层。第四步，将用来检测的输入图片首先利用图像压缩，输入到算法中，同时得到第一损失值。第五步，然后利用其输出的位置信息，提取对应的图像位置，再输入到算法中，得到第二损失值和检测结果。第六步，利用第一损失值和第二损失值的线性组合，得到总的损失值，并利用此过程进行模型训练工作。

在模型预测阶段，可以直接通过得出第二损失值的算法输出检测结果，从而加速模型的计算速度。

目标检测算法的定位边界框定义为一组在空间上离散的默认框，且对应于不同的长宽比与映射位置。目标检测算法在进行预测时，网络会为每个默认框中的目标类别生成对应的概率分数，并调整默认框以实现与目标形状的良好匹配。目标检测算法中网络还对具有不同画质的目标结合其多个特征映射作出完整预测，实现对多尺寸目标的检测任务。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.低画质视频中的小目标实时识别方法，其特征在于，小目标和大目标具有必然的相对位置关系，小目标具有标准状态和非标准状态；抽取视频中一定数量的图片作为数据集进行标注；数据集标注为小目标标准状态和小目标非标准状态两个类别，每个类别对应两个矩形框，标准状态下第一个框是大目标，第二个框是小目标的标准状态；非标准状态下第一个框是大目标，第二个框是小目标的非标准状态；利用数据集作为目标检测算法训练参考；利用目标检测算法对视频进行目标状态识别。

2.如权利要求1所述的低画质视频中的小目标实时识别方法，其特征在于，小目标在大目标的内部。

3.如权利要求1所述的低画质视频中的小目标实时识别方法，其特征在于，小目标是人头，大目标是人体，小目标的标准状态是人头佩戴安全帽的状态。

4.如权利要求1所述的低画质视频中的小目标实时识别方法，其特征在于，所述的目标检测算法是单发多框目标检测器(Shot Multi-box Detector,SSD)算法。

5.如权利要求1所述的低画质视频中的小目标实时识别方法，其特征在于，所述的目标检测算法的定位边界框定义为一组在空间上离散的默认框，且对应于不同的长宽比与映射位置。

6.如权利要求1所述的低画质视频中的小目标实时识别方法，其特征在于，所述的目标检测算法在进行预测时，网络会为每个默认框中的目标类别生成对应的概率分数，并调整默认框以实现与目标形状的良好匹配。

7.如权利要求1所述的低画质视频中的小目标实时识别方法，其特征在于，所述的目标检测算法中网络还对具有不同画质的目标结合其多个特征映射作出完整预测，实现对多尺寸目标的检测任务。

8.如权利要求1所述的低画质视频中的小目标实时识别方法，其特征在于，所述的目标检测算法中按照大小目标的关系和状态分类形成新的对应关系替代算法中的相应特征层。

9.如权利要求8所述的低画质视频中的小目标实时识别方法，其特征在于，将用来检测的输入图片首先利用图像压缩，输入到算法中，同时得到第一损失值,然后利用其输出的位置信息，提取对应的图像位置，然后再输入到算法中，得到第二损失值和检测结果,利用第一损失值和第二损失值的线性组合，得到总的损失值，并利用此过程进行模型训练工作。

10.如权利要求9所述的低画质视频中的小目标实时识别方法，其特征在于，在模型预测阶段，可以直接通过得出第二损失值的算法输出检测结果，从而加速模型的计算速度。