WO2020215241A1

WO2020215241A1 - 一种面向计算资源局限平台部署的实时目标检测的方法

Info

Publication number: WO2020215241A1
Application number: PCT/CN2019/084060
Authority: WO
Inventors: 方伟; 任培铭; 王林; 孙俊; 吴小俊
Original assignee: 江南大学
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2020-10-29
Also published as: US11410035B2; US20200293891A1

Abstract

一种基于图像处理的目标检测的方法，方法中Tinier-YOLO结构是通过对YOLO-v3-tiny神经网络进行改进形成的，保留了YOLO-v3-tiny的前五个卷积层和池化层，引入了SqueezeNet中的Fire模块、1*1瓶颈层和Dense连接。Tinier-YOLO结构能够在嵌入式设备和移动设备上运行进行目标检测。还披露了一种基于图像处理的目标检测的装置，以及一种基于图像处理的目标检测的方法或装置在自动驾驶或安防、建筑领域的应用。

Description

一种面向计算资源局限平台部署的实时目标检测的方法

技术领域

本发明涉及一种面向计算资源局限平台部署的实时目标检测的方法，属于深度学习和图像处理领域。

背景技术

物体检测是许多新兴领域的重要任务，如机器人导航，自动驾驶等。在这些复杂场景中，基于深度学习方法的对象检测方法比传统方法具有更大的优势，基于深度学习的目标检测算法不断兴起，如R-CNN、SPPNet、fast-R-CNN、faster-R-CNN、R-FCN和FPN。虽然这些物体检测算法达到了前所未有的准确度，但检测速度并不快，远远不能满足在低计算能力设备上的实时性的要求。同时，深度学习模型大小通常占用大量存储空间并且需要强大的GPU计算能力，然而在大多数的实际应用场景中，无法在设备上放置功能强大的GPU工作站。

因此，需要寻找一种同时具有出色的实时性能和更小的模型尺寸的物体检测算法。YOLO是具有实时性能和高精度的最快的物体检测方法之一，You Only Look Once(YOLO)自引入以来一直在不断优化，YOLO-V1有两个全连接层和24个卷积层，其规模达到1GB，占用存储空间非常大，对运行平台的性能要求非常高。在此基础上，YOLO-V2删除完全连接的图层并使用锚框来预测边界框，YOLO-V3利用残差结构进一步加深网络层，实现精度的突破，与此同时，YOLO的tiny版本占用的存储空间更少，Tiny-YOLO-V3只有34MB，达到了前所未有的轻量级，但移动终端的存储容量仍然不小。

但是，目前所有版本的YOLO都无法在嵌入式和移动设备上实现实时性能。YOLO仍然需要在轻量级和实时性方面进行大量改进。根据YOLO的发展趋势和当前的实际应用场景，减少模型参数、减少存储空间和提高精度是当前的发展趋势。如何实现YOLO在嵌入式和移动设备上实现实时和精确的性能，实现多个物体的实时监测，仍是一个重大的挑战。

Highway和ResNet结构中均提出了一种数据旁路(skip-layer)的技术来使得信号可以在输入层和输出层之间高速流通，核心思想都是创建了一个跨层连接来连通网路中前后层，之后由康奈尔大学、清华大学、Facebook FAIR实验室合著的《Densely Connected Convolutional Networks》对其进行了详细的阐述，为了最大化网络中所有层之间的信息流，作者将网络中的所有层两两都进行了连接，使得网络中每一层都接受它前面所有层的特征作为输入。由于网络中存在着大量密集的连接，作者将这种网络结构称为Dense连接。Dense连接具有能够减轻梯度弥散的问题，使模型不容易过拟合；能够增强特征在各个层之间的流动，大大减少参数个数，提高了训练效率等优点。

SqueezeNet是在利用现有的基于卷积神经网络(Convolutional Neural Networks，CNN)模型并以有损的方式压缩的一种小型模型的网络结构。利用少量的参数训练网络模型，实现模型的压缩。它采用Fire Modle模型结构，分为压缩部分和扩展部分，利用压缩部分和扩展部分相连接形成一种Fire模块中组织卷积过滤器。通常的SqueezeNet开始于一个独立的卷积层(conv1)，然后是8个Fire模块，最后是一个最终的转换层(conv10)。

发明内容

为了解决上述问题，本发明提供了一种可用于多目标实时检测的方法，本发明方法能够在嵌入式设备如Jetson TX1、Jetson TX2和移动设备上运行进行目标检测，准确率和实时性均高于YOLO的tiny版本。

具体的，本发明的技术方案为：一种基于图像处理的目标检测的方法，所述方法包括以下步骤：

(1)在含有GPU的平台部署Tinier-YOLO，通过摄像头采集画面；

(2)Tinier-YOLO读取摄像头采集到的图像；

(3)Tinier-YOLO检测识别目标信息；

(4)将目标检测的结果信息实时输出到设备屏幕或摄像头自带的屏幕上；

其中，所述Tinier-YOLO为改进的YOLO-v3-tiny网络结构：保留YOLO-v3-tiny网络结构的前五个卷积层和池化层的交替运算，其后依次连接五个SqueezeNet中的Fire模块，输出至第一个直通层，之后所述直通层连接第六个SqueezeNet中的Fire模块，并使用Dense连接将五个Fire模块的输出特征图和第六个Fire模块的输入相连，第六个Fire模块的数据输出至第二个直通层和一个1*1瓶颈层，之后的数据再经过上采样层放大图像得到特征图大小为26*26的第三个直通层，之后再依次连接第七个和第八个SqueezeNet中的Fire模块进行数据压缩，之后数据输出至1*1瓶颈层，连接输出端，输出的特征图大小为26*26，此外，第一个直通层和第三个直通层分别与第五个卷积层连接，获取第五个卷积层的输出特征；第六个SqueezeNet中的Fire模块处也连接有输出端，输出的特征图大小为13*13；重新训练网络，即可得到Tinier-YOLO。

在本发明的一种实施方式中，所述直通层是自YOLO-v2算法中引入的。

在本发明的一种实施方式中，所述使用Dense连接将五个Fire模块的输出特征图和第六个Fire模块的输入相连是指：第一个到第五个Fire模块的输出同时作为第六个Fire模块的输入。

在本发明的一种实施方式中，所述第三个直通层将放大后的图像与第五个卷积层的特征图的输出进行了特征融合。

在本发明的一种实施方式中，所述画面为图片或者视频中的画面。

在本发明的一种实施方式中，所述目标为人、移动物体或者静止物体。

在本发明的一种实施方式中，所述目标优选为人或移动物体。

在本发明的一种实施方式中，所述移动物体为交通工具或动物。

在本发明的一种实施方式中，所述交通工具为飞机、船舶、火车、公共汽车、汽车、摩托车或自行车等。

在本发明的一种实施方式中，所述动物为猫、狗、羊、马、牛、鸟等。

在本发明的一种实施方式中，所述含有GPU的平台为任一存储空间不小于10MB的设备，例如Jetson TX1、Jetson TX2、iPone、华为等智能手机；尤其的，本发明方法能够适用于计算资源局限的平台，即具有GPU处理性能的嵌入式平台或移动设备。

在本发明的一种实施方式中，所述具有GPU处理性能的嵌入式平台为Jetson TX1或Jetson TX2等性能相当的嵌入式设备。

本发明还提供了一种基于图像处理的目标检测的装置，所述装置包括采集装置、计算模块和输出模块，其中，计算模块包括计算网络和硬件设备，所述图像采集模块用于采集数据，计算网络在硬件设备上运行以读取采集得到的图像并对行目标进行检测，之后将检测信息通过硬件设备或图像采集装置输出；

在本发明的一种实施方式中，第三个直通层将放大后的图像与第五个卷积层的特征图的输出进行了特征融合。

在本发明的一种实施方式中，所述硬件设备所述含有GPU的平台，所述含有GPU的平台为任一存储空间不小于10MB的设备，例如Jetson TX1、Jetson TX2、iPone、华为等智能手机；尤其的，本发明方法能够适用于计算资源局限的平台，即具有GPU处理性能的嵌入式平台或移动设备。

在本发明的一种实施方式中，所述有GPU处理性能的嵌入式平台或移动设备优选为Jetson TX1或Jetson TX2。

本发明取得的有益技术效果：

(1)本发明的Tinier-YOLO的模型尺寸仅为7.9MB，仅为YOLO-v3-tiny的34.9MB的1/4，为YOLO-v2-tiny的1/8；其模型尺寸的减小并未影响其实时性和准确度，与之相反，本发明的Tinier-YOLO的实时性能与YOLO-v3-tiny相比提高了21.8％，与YOLO-v2-tiny相比提高了70.8％；准确度与YOLO-v3-tiny相比，Tinier-YOLO的mAP平均精度均值提高了10.1％，与YOLO-v2-tiny相比提高了近18.2％；可见，本发明的Tinier-YOLO能够实现在计算资源有限的平台上仍然可以进行实时检测的目的，且效果更好。

(2)本发明在计算网络中引入火层，减少了模型参数的数量，增加了整个网络的深度和宽度，保证了模型检测的准确性；此外，本发明利用Dense连接提高准确率，本发明通过合适的Dense连接使得本发明的Tinier-YOLO在提高准确率的基础上，保证实时性不受损失。

(3)本发明的Tinier-YOLO实现了在嵌入式平台上的安装和实时监测，对服务器通信需求较小，经过训练，能够准确的检测出80余种物体，克服了现有技术中的计算网络无法在嵌入式平台上进行时实运算的问题。

附图说明

图1 YOLO-v3-tiny的网络结构示意图。

图2本发明的Tinier-YOLO的网络结构示意图，其中，(1)为第一个Fire模块，(2)为第二个Fire模块，(3)为第三个Fire模块，(4)为第四个Fire模块，(5)为第五个Fire模块，(6)为第六个Fire模块，(7)为第七个Fire模块，(8)为第八个Fire模块，(9)为第一个直通层，(10)为第二个直通层，(11)为第三个直通层。

具体实施方式

AP：即Average Precision，平均精度，其计算公式如下：

其中，P(i)是指给定阈值i的时的精度，Δr(i)是指k和k-1之间的recall变化值。

训练和测试的数据集来源于PASCALVOC(The pattern analysis，statistical modelling and computational learning Visual Object Classes Project)，分为VOC 2007和VOC 2012两部分，本发明可以根据需要训练不同物体的类别，使用VOC 2007数据集的5011张图片和VOC 2012数据集的11540张图片做训练数据，训练数据共16551张，测试集为VOC 2007测试集，共4952张测试图片。

实施例1

本发明的技术方案为：一种基于图像处理的物体检测的方法，所述方法包括以下步骤：

(1)在Jetson TX1部署Tinier-YOLO，通过摄像头采集画面；

(2)Tinier-YOLO读取摄像头采集到的图像，其中，

所述Tinier-YOLO为改进的YOLO-v3-tiny网络结构：保留YOLO-v3-tiny网络结构的前五个卷积层和池化层的交替运算，其后依次连接五个SqueezeNet中的Fire模块，输出至第一个直通层，之后所述直通层连接第六个SqueezeNet中的Fire模块，并使用Dense连接将五个Fire模块的输出特征图和第六个Fire模块的输入相连，第六个Fire模块的数据输出至第二个直通层和一个1*1瓶颈层，之后的数据再经过上采样层放大图像得到特征图大小为26*26的第三个直通层，之后再依次连接第七个和第八个SqueezeNet中的Fire模块进行数据压缩，之后数据输出至1*1瓶颈层，连接输出端，输出的特征图大小为26*26，此外，第一个直通层和第三个直通层分别与第五个卷积层连接，获取第五个卷积层的输出特征；第六个SqueezeNet中的Fire模块处也连接有输出端，输出的特征图大小为13*13；重新训练网络，即可得到Tinier-YOLO；所述直通层是自YOLO-v2算法中引入的；所述使用Dense连接将五个Fire模块的输出特征图和第六个Fire模块的输入相连是指：第一个到第五个Fire模块的输出同时作为第六个Fire模块的输入；第三个直通层将放大后的图像与第五个卷积层的特征图的输出进行了特征融合。

(3)Tinier-YOLO检测识别物体信息；

(4)通过Jetson TX1将物体检测的结果信息实时输出到电脑上或者显示屏上。

按照同样的方法利用YOLO-v2-tiny和YOLO-v3-tiny神经网络进行同样的物体检测，并对三种不同神经网络以及检测的结果数据进行比较。

(1)神经网络的模型尺寸

对YOLO-v2、YOLO-v2-tiny、YOLO-v3-tiny和Tinier-YOLO这四种神经网络模型的模型尺寸和FLOPS(每秒浮点运算次数)进行对比，结果如表1所示，可见Tinier-YOLO神经网络的模型尺寸仅为7.9MB，为YOLO-v3-tiny的34.9MB的1/4，为YOLO-v2-tiny的1/8。

FLOPS(每秒浮点运算次数)通常用于衡量模型所需的计算能力，FLOPS越大，对器件的要求越高，从表1可见，Tinier-YOLO的FLOPS非常低，较其余算法更适合嵌入式AI环境中。

表1 不同神经网络模型的存储大小和FLOPS值

—表示暂无数据。

(2)实时性能

对不同的神经网络进行实时性能测试，可见，本发明的Tinier-YOLO在Jetson TX1的平台上，可以检测26.3fps的物体，如表1所示，与YOLO-v3-tiny相比，实时性能提高了21.8％，与YOLO-v2-tiny相比提高了70.8％。可见，本发明的Tinier-YOLO不仅能够在嵌入式平台上使用，且能够实现实时监测的性能。

(3)平均精度mAP

针对三种不同的神经网络YOLO-v2-tiny、YOLO-v3-tiny和Tinier-YOLO，按照实施例1的步骤进行不同的物体进行检测，平均精度见表1和表2，可见，与YOLO-v3-tiny相比，Tinier-YOLO的准确度提高了6.2％，对鸟类单项提升12.3％，对瓶子和盆栽植物等物体的检测平均精度也提升达到10％以上，见表2。与YOLO-v2-tiny相比平均精度提高了近10.4％，对瓶子类别单项的检测平均精度提升25.8％。Tinier-YOLO通过直通层和多尺度预测获取了更多的细粒度特征，提升了对小目标的检测能力，表中加粗数值为Tinier-YOLO表现较优数值。

综上可知，本发明的Tinier-YOLO不仅仅模型尺寸大幅度减小，且实时性能有所提高，同时能够提高检测的准确性，可见，本发明提供了一种能够用于嵌入式平台的实时监测的方法，解决了现有技术无法在在嵌入式平台上进行实时监测的问题。

表2 不同神经网络模型进行物体检测的平均精度

对比例1

当Dense连接使用在保留的YOLO-v3-tiny网络结构的前五个卷积层时，即第二卷积层的输入为第一卷积层的输出，第三卷积层的输入为第一和第二卷积层的输出，第四卷积层的输入为第一到第三卷积层的输出，第五卷积层的输入为第一到第四卷积层的输出，其余和本发明的Tinier-YOLO网络结构一致且前五个Fire模块不与第六个Fire模块的输入进行Dense连接；训练网络，并按照实施例1的方法进行物体监测。

对其实时性能进行测试，结果见表1，可见，此改动不仅大大增加了计算量，且这极大地影响了实时性能，检测速度(实时性能)仅为13.3FPS，模型也相对较大，精度提升不够。对比例1的速度性能较差是由于网络前部分的卷积层特征图尺寸较大，其所带来的计算量倍增所导致。

对比例2

当使用Dense连接将5个Fire模块和第五层最大池化层进行连接时，即第二个Fire模块的输入是第一个Fire模块的输出，第三个Fire模块的输入是第一个和第二个Fire模块的输出，以此类推，同时，第五层最大池化层的输出分别为第一个到第五个Fire模块的输入，其余部分和本发明的Tinier-YOLO一致且前五个Fire模块不与第六个Fire模块的输入进行Dense连接，训练网络，并按照实施例1的方法进行物体监测。

对其实时性能进行测试，结果见表1，可以发现，本对比例对较小的"13×13"特征图的火层模块之间进行了频繁的密集连接，检测速度已经达到实时，模型大小和mAP也得到了提升。但是对比本发明的Tinier-YOLO，对比例2中即使使用如此频繁的连接，精度并不会有所提高，反而会导致参数和计算量的增加，方式2存在冗余连接。本发明的Tinier-YOLO使用前五层火层的输出特征图密集连接到第六层火层的输入，较方式2具有更好的实时性能，mAP提高将近2％，且模型减少了1MB。

虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可做各种的改动与修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

一种基于图像处理的目标检测的方法，其特征在于，所述方法包括以下步骤：

(1)在含有GPU的平台部署Tinier-YOLO，通过摄像头采集画面；

(2)Tinier-YOLO读取摄像头采集到的图像；

(3)Tinier-YOLO检测识别目标信息；

(4)将目标检测的结果信息实时输出到设备屏幕或摄像头自带的屏幕上；

其中，：保留YOLO-v3-tiny网络结构的前五个卷积层和池化层的交替运算，其后依次连接五个SqueezeNet中的Fire模块，输出至第一个直通层，之后所述直通层连接第六个SqueezeNet中的Fire模块，并使用Dense连接将五个Fire模块的输出特征图和第六个Fire模块的输入相连，第六个Fire模块的数据输出至第二个直通层和一个1*1瓶颈层，之后的数据再经过上采样层放大图像得到特征图大小为26*26的第三个直通层，之后再依次连接第七个和第八个SqueezeNet中的Fire模块进行数据压缩，之后数据输出至1*1瓶颈层，连接输出端，输出的特征图大小为26*26，此外，第一个直通层和第三个直通层分别与第五个卷积层连接，获取第五个卷积层的输出特征；第六个SqueezeNet中的Fire模块处也连接有输出端，输出的特征图大小为13*13；重新训练网络，即可得到Tinier-YOLO。
根据权利要求1所述的一种基于图像处理的目标检测的方法，其特征在于，使用Dense连接将五个Fire模块的输出特征图和第六个Fire模块的输入相连是指：第一个到第五个Fire模块的输出同时作为第六个Fire模块的输入。
根据权利要求1或2所述的一种基于图像处理的目标检测的方法，其特征在于，所述第三个直通层将放大后的图像与第五个卷积层的特征图的输出进行了特征融合。
根据权利要求1-3任一所述的一种基于图像处理的目标检测的方法，其特征在于，所述目标为人、移动物体或者静止物体。
根据权利要求1～4任一所述的一种基于图像处理的目标检测的方法，其特征在于，所述含有GPU的平台为任一存储空间不小于10MB的设备。
根据权利要求5所述的一种基于图像处理的目标检测的方法，其特征在于，所述含有GPU的平台包括具有GPU处理性能的嵌入式平台或移动设备。
一种基于图像处理的目标检测的装置，其特征在于，所述装置包括采集装置、计算模块和输出模块，其中，所述图像采集模块用于采集数据，所述计算模块包括计算网络和硬件设备，计算网络在硬件设备上运行以读取采集得到的图像并对行目标进行检测，之后将检测信息通过硬件设备或图像采集装置输出；

其中，所述Tinier-YOLO为改进的YOLO-v3-tiny网络结构：保留YOLO-v3-tiny网络结构的前五个卷积层和池化层的交替运算，其后依次连接五个SqueezeNet中的Fire模块，输出至第一个直通层，之后所述直通层连接第六个SqueezeNet中的Fire模块，并使用Dense连接将五个Fire模块的输出特征图和第六个Fire模块的输入相连，第六个Fire模块的数据输出至第二个直通层和一个1*1瓶颈层，之后的数据再经过上采样层放大图像得到特征图大小为26*26的第三个直通层，之后再依次连接第七个和第八个SqueezeNet中的Fire模块进行数据压缩，之后数据输出至1*1瓶颈层，连接输出端，输出的特征图大小为26*26，此外，第一个直通层和第三个直通层分别与第五个卷积层连接，获取第五个卷积层的输出特征；第六个SqueezeNet中的Fire模块处也连接有输出端，输出的特征图大小为13*13；重新训练网络，即可得到Tinier-YOLO。
根据权利要求7所述的一种基于图像处理的目标检测的装置，其特征在于，所述硬件设备为含有GPU的平台，所述含有GPU的平台为任一个存储空间不小于10MB的设备。
权利要求1～6任一所述的一种基于图像处理的物体检测的方法在自动驾驶或安防、建筑领域的应用。
权利要求7或8所述的一种基于图像处理的目标检测的装置在自动驾驶或安防、建筑领域的应用。