CN112686207B

CN112686207B - 一种基于区域信息增强的城市街道场景目标检测方法

Info

Publication number: CN112686207B
Application number: CN202110085069.9A
Authority: CN
Inventors: 张逞逞; 郑全新; 宁志勇; 张磊; 刘阳; 董小栋; 孟祥松; 刘婷婷; 江龙; 郭俊
Original assignee: Beijing Tongfang Software Co Ltd
Current assignee: Beijing Tongfang Software Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2024-02-27
Anticipated expiration: 2041-01-22
Also published as: CN112686207A

Abstract

一种基于区域信息增强的城市街道场景目标检测方法，涉及人工智能领域和计算机视觉领域。本发明的方法步骤为：1）将训练数据中加入白天数据。2）输出目标位置编码segmask，检测输出网络Detection Block输出类别预测模块cls和尺寸回归模块size。3）检测算法优化，a)对网络模型参数进行初始化。b)前向输出目标类别和检测框；过滤、输出最终的检测结果。本发明设计目标检测深度学习网络，训练城市街道场景检测模型，配合以视频智能分析静态视频帧目标检测技术的智能***和动态视频中目标行为分析技术，设计出适应白天、夜间全场景下的各类事件的检测***，准确快速的完成违规事件的自动检测，有效避免目标的误检、漏检。

Description

一种基于区域信息增强的城市街道场景目标检测方法

技术领域

本发明涉及人工智能领域和计算机视觉领域，是一种基于图像处理技术和视频分析技术的、应用于城市街道摄像头监控场景下的目标智能检测方法。

背景技术

随着现代科技的发展，利用摄像机实现高效率的城市监管应用在城市管理工作中，协助城管人员应对复杂的城市街道紧急情况起到了至关重要的作用。目前，越来越多的研究者将注意力集中在解决城市街道场景的自动化监管中。城市场景视觉监管的目的就是要提高场景监控图像的分辨能力，赋予智能城管***正确的理解场景信息的能力，以便于提高城市街道、停车场、小区的安全性。同时，由于夜间场景下的摄像设备会受到不良天气，光照度等一些不可控因素的影响，普通的目标检测方法无法满足全场景全天候的场景监管需求。

在计算机视觉领域，复杂场景下的目标检测可以利用anchor-base和anchor-free两种不同的检测思路，Xingyi Zhou等人2019年发表的论文《CenterNet :Objects asPoints》，第一次真正意义上的把目标检测问题的类别回归转化到寻找目标中心点，即利用检测器采用高斯热力点作为关键点估计来拟合目标中心点，将目标检测问题变成了一个标准的关键点估计问题，并可以衍伸到其他目标属性，例如尺寸，3D位置，方向，甚至姿态。相比较于基于BBox的检测器，这种模型是端到端可微的，实现了检测过程更简单、更快、更精确，达到了检测速度和精确的最好权衡。因此，基于高斯热力点的思想，对于目标分割、目标跟踪等问题都显示出明显的优势。Kailun Yang等人2019年发表的论文《See Clearer atNight Towards Robust Nighttime Semantic Segmentation through Day-Night ImageConversion》，论文提出了一个使用生成对抗网络(GAN)来缓解将语义分割模型应用于夜间环境时的准确性低的问题。基于GAN的夜间语义分割框架包括两种方法。第一种利用GAN将夜间图像转换为白天图像，并在已经利用白天数据集上训练鲁棒的模型来执行语义分割；第二种方法使用GAN将数据集中的白天图像转换为夜间图像，以产生在夜间条件下鲁棒性很好的模型并直接对夜间图像预测。在论文实验中，第二种方法显著提高了模型在夜间图像上的分割性能。该方法不仅有助于智能车辆视觉感知的优化，而且可以应用于各种导航辅助***。易诗等人2019年发表的论文《基于红外热成像与YOLOv3的夜间目标识别方法》，论文提出红外热成像图像反应物体温度信息，受环境条件影响较少，对于特定条件下的夜间安防监控、行车辅助、航运、军事侦查等方面具有很强应用价值。近年来使用人工智能对图像中目标检测与识别技术发展突飞猛进，广泛应用于各个领域。论文提出了一种结合红外热成像图像处理技术与人工智能目标识别技术的夜间目标识别方法。实时采集热成像视频进行预处理，增强其对比度与细节，使用基于深度学习技术的最新目标检测框架YOLOv3对采集处理后的热成像图像中特定目标进行检测，输出检测结果。测试结果表明，该方法对于夜间目标识别率高、实时性强，结合了红外热成像夜间监测和人工智能目标检测的优势，对于夜间的目标识别、跟踪技术具有重大应用价值。

综上所述，针对城管场景下目标检测，合理的利用图像的预处理和设计更合理的目标检测算法是有效的方法，然而在解决白天场景下的目标检测的同时，复杂场景下的夜间目标检测还存在一定的不足，复杂的背景易造成目标误检、漏检等情况。如何提高检出能力，降低误检也是复杂场景目标检测研究的热点。

同时，现有检测算法也还存在一些不足：

基于传统算法，在对城市场景监控的识别和理解方面，很难满足需求，主要原因是白天、夜间两种场景颜色变化大、场景复杂度过高、目标边缘模糊、目标遮挡等。这些因素要求算法有超强的泛化能力和准确度，传统算法在理论基础上达不到目标检测要求，在现场应用中很难消除目标的误检和漏检。

基于深度学习的算法，可以设计出泛化能力很强的方法来解决夜间目标形态多种多样的问题，但对网络模型的设计也有很高的要求。并且，一般的深度学习算法，大多数是通过标定训练样本应用在白天场景下的目标检测，但夜间监控场景下的目标静态特征更加稀疏，很容易出现目标的误检和漏检。

发明内容

针对上述现有技术中存在的不足，本发明的目的是提供一种基于区域信息增强的目标检测网络及其检测方法。本发明设计目标检测深度学习网络，训练城市街道场景检测模型，配合以视频智能分析静态视频帧目标检测技术的智能***和动态视频中目标行为分析技术，设计出适应白天、夜间全场景下的各类事件的检测***，准确快速的完成违规事件的自动检测，有效避免目标的误检、漏检。

为了达到上述发明目的，本发明的技术方案以如下方式实现：

一种基于区域信息增强的城市街道场景目标检测方法，它使用的目标检测网络包括依次连接的特征融合模块一WiFPN1、特征选择网络Seg Block、特征融合模块二WiFPN2、上采样网络UATB和检测输出网络Detection Block。下采样网络Backbone包括特征融合模块一WiFPN1和特征融合模块二WiFPN2。其方法步骤为：

1）图像数据的场景预处理

将训练数据中加入40%的白天数据，训练模型过程中的数据增强方面包括翻转、缩放、裁剪、颜色亮度和色度的增强；输入图像的像素大小归一化到448*256。

2）网络模型设计

采用anchor free目标检测算法，设计下采样、上采样网络结构，利用特征选择网络Seg Block输出目标位置编码segmask，检测输出网络Detection Block输出类别预测模块cls和尺寸回归模块size。

3）检测算法优化

a)训练过程

对网络模型参数进行初始化，设置学习目标、学习率及衰减系数；通过优化算法针对损失函数进行迭代学习、更新参数。

b)推理过程

利用cls、size前向输出目标类别和检测框；通过设置阈值、非极大值抑制算法过滤、输出最终的检测结果。

在上述城市街道场景目标检测方法中，所述下采样网络Backbone提取中间特征，特征选择网络Seg Block优化中间特征，上采样网络UATB提取预测特征。

在上述城市街道场景目标检测方法中，所述特征选择网络Seg Block包含监督学习的区域信息。首先设计一个大小在0、1之间并且可学习的变量soft,利用soft对特征融合模块一WiFPN1的三个输出的特征进行标定选择融合；使用1×1卷积运算将特征压缩到一维通道，通过激活函数sigmoid输出目标位置编码segmask；设计目标区域标量值为1的目标segmask_gt,通过损失函数优化目标位置编码segmask，最后利用优化完成的目标位置编码segmask与特征选择网络Seg Block三个输入的像素值对应相乘，完成下采样网络Backbone网络底部特征的选择。

在上述城市街道场景目标检测方法中，所述UATBUATB是一种复合多阶段语义特征的上采样网络，将下采样网络Backbone各阶段特征作为信号输入，逐层采用双交互注意力模块C_ATB进行运算，直至得到预测特征。

在上述城市街道场景目标检测方法中，所述双交互注意力模块C_ATB包括学习两阶段区域信息。通过卷积、转置卷积、Concat合并以及Sigmoid激活函数将两个输入特征压缩成共用的单通道注意力特征AT，随后与上下层输入特征元素相乘完成第一阶段的特征交互，实现了对目标空间位置的调整；将中间调整的特征合并之后送入SEnet网络，对两阶段的特征在通道层次上进行选择第二阶段融合，完成上采样输出信息。

在上述城市街道场景目标检测方法中，所述检测输出网络Detection Block以2倍下采样输出作为共享特征，采用n维卷积核的卷积运算，并使用Sigmoid函数归一化n通道的特征值映射到类别预测模块cls，采用2维卷积核的卷积运算得到两层通道分别对应检测目标的尺寸映射到尺寸回归模块size。

本发明由于采用了上述检测方法，同现有技术相比，具有如下优点：

1.基于无锚点目标检测方法设计网络结构，使用2倍下采样输出进行预测，使小目标的检测效果得到提升。

2.使用弱监督的方法关注特征的空间信息，增强对图像中目标的位置信息的关注。

3.使用了两个WiFPN模块有效的对浅层特征、深层特征进行独立整合。

4.使用更简便的UATB模块完成上采样的工作，有效的利用金字塔各个输入层的特征信息进行预测。

下面结合附图和具体实施方式对本发明做进一步说明。

附图说明

图1 为本发明方法使用的检测网络结构示意图；

图2为本发明实施例中Seg Block模块的结构示意图；

图3为本发明实施例中C_ATB模块的结构示意图。

具体实施方式

参看图1，本发明基于区域信息增强的城市街道场景目标检测方法，使用的目标检测网络包括依次连接的特征融合模块一WiFPN1、特征选择网络Seg Block、特征融合模块二WiFPN2、上采样网络UATB和检测输出网络Detection Block。本发明方法通过下采样网络Backbone提取中间特征，Backbone包括特征融合模块一WiFPN1和特征融合模块二WiFPN2，WiFPN1提取网络浅层特征，WiFPN2提取网络深层特征。设计特征选择网络Seg Block优化中间特征；设计上采样网络UATB提取预测特征；输入的视频信号依次经Backbone、Seg Block、UATB和Detection Block输出segmask、cls、size。

本发明基于区域信息增强的城市街道场景目标检测方法，其步骤为：

1）图像数据的场景预处理

城管场景中图像的像素大小为1920*1080，为了减小因为网络模型输入尺寸比例变化过大导致较小的目标发生较大形变，将图像的像素大小归一化到448*256。为了补充夜间目标颜色特征、目标纹理特征，使网络模型应对颜色干扰更加鲁棒，以及在一定程度上减少夜间目标特征缺失带来的影响，训练数据中加入40%的白天数据。训练模型过程中的数据增强方面除了常规的翻转、缩放、裁剪，加入了颜色亮度和色度的增强。

2）网络模型设计

在本发明中，为了解决街道场景目标检测的误检、漏检问题，设计了一种新的目标检测网络结构ADetNet。ADetNet是一种采用无锚点的目标检测算法，通过目标位置编码segmask、类别预测模块cls和尺寸回归模块size三个模块，加快网络收敛、增加目标的检出率、准确率，网络结构包括一个输入Input和三个输出segmask、cls、size。在ADetNet网络WiFPN1模块的基础上添加一个分支Seg Block，输出8倍下采样的segmask信息；在ADetNet网络的Detection Block模块之后，输出2倍下采样的目标类别信息cls和2倍下采样的检测框信息size。

参看图1，信号输入代表ADetNet网络的输入，segmask、cls、size代表其三个输出，Conv表示其前向运算结构，Feature表示其运算中间结果，虚框WiFPN1表示其浅层特征融合模块，虚框WiFPN2表示其深层特征融合模块，虚框UATB表示其注意力上采样模块。网络结构中，每一次下行运算进行一次特征下采样操作，每一次上行运算进行一次特征上采样操作，ADetNet网络使用5次Conv实现feature map尺寸32倍的尺寸缩小，经过一次Conv完成2倍下采样。

其中，Conv代表卷积运算，Add代表元素相加运算，Max pooling代表最大值池化运算。

WiFPN模块是论文EfficientDet中提出的一种特征融合模块，其目的是为检测部分输送更优的网络上下层语义特征。WiFPN模块能对不同尺寸的信息特征能实现一种权重增强的特征融合，使下采样网络各层以很小的计算为代价实现语义特征的加权运算。所以搭建三输入、三输出的WiFPN模块对浅层、深层特征进行有机整合，融合两组分辨率不同的多个输入特征，并在特征融合过程中为每个输入增加一个额外的权重，并让网络了解每个输入特征的重要性，每层的输出O如式（1）所示。

（1）

其中，I_i代表三层WiFPN模块的输入，W_i是可学习的权重，可以是标量（每个特征）、向量（每个通道）或多维张量（每个像素），通过在每个W_i之后应用Relu函数来归一化，并且设置ε=0.000避免数值不稳定。类似地，每个标准化权重的值也在0到1之间，由于这里没有使用softmax操作，所以效率要更高。

为了进一步提高融合效果，我们使用了可分离的深度卷积进行特征融合，并在每次卷积后加入了批量规范化和激活。使用WiFPN1模块对网络结构2-8倍下采样的网络输出特征进行注意力增强，优化浅层网络多个不同分辨率输入特征，为深层网络输送更佳的空间语义信息。使用WiFPN2模块对网络结构8-32倍下采样的网络输出特征进行注意力增强，优化深层网络多个不同分辨率输入特征，为上采样操作积累更佳的感受野信息。在上采样的过程中可以采样多种方式：（1）反卷积、（2）线性上采样、（3）线性上采样结合1*1卷积运算，可以根据不同的要求来具体实施。

浅层特征图谱信息语义丰富，为了充分的挖掘有利于目标检测的纹理特征，利用弱监督分割作为一个分支，完成局部特征增强。它以模块WiFPN1的输出特征图和边界框级的分割的真值作为输入，并生成具有相同维数的语义特征映射掩码，然后利用该特征映射掩码与WiFPN1输出特征图通过元素相乘得到需要关注的局部特征，最后把这部分局部特征与底层特征图通过可以学习的权重加权求和并往下传递。基于这个思想，我们设计了SegBlock模块，如图2所示。

与Centernet算法使用4倍的下采样特征输出作为预测层不同，我们考虑到2倍的下采样特征输出更有利于获取小尺寸目标（小于50*50像素）的特征信息，所以我们设计了一种新型复合图像多阶段语义特征的上采样网络UATB，其结构由子模块C_ATB（双交互注意力模块）组合而成。对于ADetNet网络各阶段下采样输出特征，我们从32倍下采样层开始，逐层采用C_ATB模块进行上采样运算，直至产生2倍下采样特征，并将其作为Detection Block模块（预测模块）的输入，UATB模块的另一个作用是将两个WiFPN模块的输出通过上采样过程，实现特征信息的流动、交互。

图3抽象的表示C_ATB网络中各个特征的尺寸变化过程，如图所示，上层输入的长宽尺寸是下层输入的2倍，通过卷积、转置卷积、Concat合并以及Sigmoid激活函数将两个输入特征压缩成共用的单通道注意力特征AT，随后与上下层输入特征元素相乘完成第一阶段的特征交互，实现了对目标空间位置的调整；将中间调整的特征合并之后送入SEnet网络，对两阶段的特征在通道层次上进行选择融合，完成上采样输出信息。C_ATB网络在空间位置和不同阶段通道上学习不同的权重，自适应的调整不同阶段输入特征的空间位置信息、上下文语义信息。

Detection Block模块作为ADetNet网络的功能分化机构，以UATB模块的最后一个上采样（2倍下采样）之前的特征作为共享特征，产生最终的类别预测cls、尺寸回归size。对于一个n类目标检测任务，为了映射类别预测cls，采用n维卷积核的卷积运算，并使用Sigmoid函数归一化n通道的特征值，每一层通道对应一类检测目标的相应值。为了映射尺寸回归size，采用2维卷积核的卷积运算，得到的两层通道分别对应检测目标的尺寸W、H。

3）检测算法优化

a)训练过程

模型参数的初始化：

在整体的网络结构设计中，segmask模块以及由cls模块和size模块组成的检测模块共享一个网络主干结构backbone。对于一个n类目标检测网络，令为输入图像，其宽W，高H。其位置编码产生向量，其检测模块中的分支cls模块输出向量，其检测模块中的分支size模块输出向量。针对以上三个网络输出设置学习目标，编码得到相应的目标向量，并通过损失函数进行迭代学习。

网络权重的优化：

针对segmask模块类别输出，学习目标是编码原图R倍下采样关键区域热力图，其中R 是输出尺寸缩放比例，采用R=8；表示存在目标的关键区域；表示背景区域；我们采用Seg Block编码-解码网络来预测图像 I 得到的。训练segmask关键区域预测网络时，令为目标k（其类别为C_k）的bbox，我们将 mask_GT 关键点通过矩形热力框分散到热力图上。为了减少计算负担，为所有目标种类使用共同的segmask预测，训练目标函数如下，像素级逻辑回归的focal loss：

（2）

其中α和β是focal loss的超参数，实验中两个数分别设置为2和4， N是输入I中的关键区域个数，除以N主要为了将所有focal loss归一化。

针对检测模块类别分支cls输出，学习目标是生成关键点高斯热力图，其中R 是检测输出向量尺寸缩放比例，为了更好地预测小目标，我们采用更大的输出尺寸，下采样数R=2 ；表示检测到的关键点，表示背景，即一个目标设置一个正样本；我们使用ADetNet全卷积编码-解码网络来预测图像I得到的。设置分类目标在原图中的Ground Truth（GT）关键点为C，其位置为，计算得到低分辨率(经过下采样)上对应的关键点。我们将 GT 关键点通过高斯核分散到热力图上，其中是目标尺度自适应的标准方差。如果对于同个类n（同个关键点或是目标类别）有两个高斯函数发生重叠，我们选择元素级最大的。对于回归类别损失，使用像素级逻辑回归的focal loss作为训练目标函数。

针对检测模块尺寸分支size输出，学习目标直接采用目标的尺寸宽和高，令是目标k（其类别为C_k）的bbox，其中心位置为，我们用关键点估计来得到所有的中心点。此外，为每个目标 k 回归出目标的尺寸。为了减少计算负担，为每个目标种类使用单一的尺寸预测，我们在中心点位置添加了 L1 loss:

（3）

为了调节上述三个loss的关系，将其分别乘以一个系数，整个训练的目标loss函数为：

（4）

训练过程中，，整个网络预测会在每个位置输出 2*n+2个值(即关键点类别n，关键区域类别n，尺寸的w,h)，所有输出共享一个全卷积的backbone。

b)推理过程

只需要模型的检测模块预测目标类别与目标尺寸，令为输入图像，其宽 W，高H。首先，通过网络前向计算，利用模型类别分支cls输出向量，其宽0.5* W，高0.5*H，N为类别数，向量中每个点位的值表示出现目标的概率；利用模型尺寸分支size 输出向量，向量中两层特征分别映射类别输出对应点位检测框的宽和高。然后，针对类别输出，通过设置阈值的方法过滤掉一部分相应较低的预测结果。最后，利用非极大值抑制算法NMS去掉冗余的检测框，输出最终的检测结果。

本发明实施例仅为说明本申请技术方案，本领域技术人员在本申请基础上所做的同类替代，如将本发明中的深度学习无锚点检测方法替换为其他无锚点目标检测方法；以及本发明利用Conv模块对图像进行下采样运算，替换为其他的全卷积编码-解码网络、数学模型等应属于本申请保护的范围。

Claims

1.一种基于区域信息增强的城市街道场景目标检测方法，它使用的目标检测网络包括依次连接的特征融合模块一WiFPN1、特征选择网络Seg Block、特征融合模块二WiFPN2、上采样网络UATB和检测输出网络Detection Block，下采样网络Backbone包括特征融合模块一WiFPN1和特征融合模块二WiFPN2，其方法步骤为：

1）图像数据的场景预处理

将训练数据中加入40%的白天数据，训练模型过程中的数据增强方面包括翻转、缩放、裁剪、颜色亮度和色度的增强；输入图像的像素大小归一化到448*256；

2）网络模型设计

采用anchor free目标检测算法，设计下采样、上采样网络结构，利用特征选择网络SegBlock输出位置编码segmask，检测输出网络Detection Block输出类别cls和检测框size；

所述下采样网络Backbone提取中间特征，特征选择网络Seg Block优化中间特征，上采样网络UATB提取预测特征；

所述特征选择网络Seg Block利用监督学习提取区域信息，首先设计一个大小在0、1之间并且可学习的变量soft,利用soft对特征融合模块一WiFPN1的三个输出的特征进行标定选择融合；使用1×1卷积运算将特征压缩到一维通道，通过激活函数sigmoid输出位置编码segmask；设计目标区域标量值为1的目标segmask_gt,通过损失函数优化位置编码segmask，最后利用优化完成的位置编码segmask与特征选择网络Seg Block三个输入的像素值对应相乘，完成下采样网络Backbone网络底部特征的选择；

所述UATB是一种复合多阶段语义特征的上采样网络，将下采样网络Backbone各阶段特征作为信号输入，逐层采用双交互注意力模块C_ATB进行运算，直至得到预测特征；

所述双交互注意力模块C_ATB包括学习两阶段区域信息，通过卷积、转置卷积、Concat合并以及Sigmoid激活函数将两个输入特征压缩成共用的单通道注意力特征AT，随后与上下层输入特征元素相乘完成第一阶段的特征交互，实现了对目标空间位置的调整；将中间调整的特征合并之后送入SEnet网络，对两阶段的特征在通道层次上进行选择第二阶段融合，完成上采样输出信息；

3）检测算法优化

a)训练过程

对网络模型参数进行初始化，设置学习目标、学习率及衰减系数；通过优化算法针对损失函数进行迭代学习、更新参数；

b)推理过程

2.根据权利要求1所述基于区域信息增强的城市街道场景目标检测方法，其特征在于，所述检测输出网络Detection Block以2倍下采样输出作为共享特征，采用n维卷积核的卷积运算，并使用Sigmoid函数归一化n通道的特征值映射到类别cls，采用2维卷积核的卷积运算得到两层通道分别对应检测目标的尺寸映射到检测框size。