CN114220126A

CN114220126A - 一种目标检测***及获取方法

Info

Publication number: CN114220126A
Application number: CN202111552976.6A
Authority: CN
Inventors: 周斯忠; 郑成俊; 潘红平
Original assignee: Hangzhou Chenying Juntai Technology Co ltd
Current assignee: Hangzhou Chenying Juntai Technology Co ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-22

Abstract

本发明公开了一种目标检测***，特征提取模块将当前帧图像像素维度的特征分布到通道维度，并对处理后的图像提取至少三个尺度的特征图，相应获得第1尺度特征图至第N尺度特征图，特征融合模块将当前帧图像的第i尺度特征图至第N尺度特征图融合得到第i融合特征图，根据当前帧图像的第N尺度特征图得到第N融合特征图，检测模块分别根据当前帧图像的第1融合特征图至第N融合特征图检测目标，获得当前帧图像的检测结果。本发明在提取图像特征时将像素维度信息聚焦到通道维度，而后提取图像特征以及检测目标，能够较大程度地保留小尺寸目标的原始像素信息，能够提高对小目标检测的检测精度以及检测效率。本发明还公开一种目标检测***获取方法。

Description

一种目标检测***及获取方法

技术领域

本发明涉及机器视觉技术领域，特别是涉及一种目标检测***。本发明还涉及一种目标检测***获取方法。

背景技术

行人目标检测是视频监控领域的关键技术，它是智能监控***中行人跟踪、行人识别、智能决策等技术的基础。当监控摄像终端视野较大或者距离地面较远时，行人目标在图像中的成像尺寸较小，纹理特征不够清晰。

一方面，在多尺度检测网络中，对小目标的检测大多是在浅层特征图上进行的，当目标绝对尺寸为8～16像素、相对尺寸为1％～4％时，行人目标色彩纹理信息十分匮乏，即使在分辨率较高的浅层特征图上也无法很好地表达；另一方面，每个行人目标周围存在大量复杂背景信息，这使得深层特征图的语义信息包含较多的噪声，无法很好地表征小尺寸目标。这两个原因极大地影响了神经网络对小尺寸目标的检测性能。因此，如何提高对小目标的检测精度以及检测效率，就成为本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种目标检测***，能够提高在图像中检测小目标的检测精度以及检测效率。本发明还提供一种目标检测***获取方法。

为实现上述目的，本发明提供如下技术方案：

一种目标检测***，包括特征提取模块、特征融合模块和检测模块；

所述特征提取模块用于将当前帧图像像素维度的特征分布到通道维度，并对处理后的图像提取至少三个尺度的特征图，相应获得第1尺度特征图至第N尺度特征图，N为大于2的正整数；

所述特征融合模块用于将当前帧图像的第i尺度特征图至第N尺度特征图融合得到第i融合特征图，根据当前帧图像的第N尺度特征图得到第N融合特征图，i∈[1，N-1]；

所述检测模块用于分别根据当前帧图像的第1融合特征图至第N融合特征图检测目标，获得当前帧图像的检测结果。

优选的，所述特征提取模块包括预处理子模块，所述预处理子模块用于将当前帧图像按照像素划分为多个单元格，将各个单元格对应位置像素拼接到同一图像中，并将得到的各个图像在通道维度连接，以将当前帧图像像素维度的特征分布到通道维度。

优选的，所述特征提取模块包括依次连接的多个特征提取子模块，所述特征提取子模块用于将前一特征提取子模块输出的特征图进行提取特征处理和降采样处理，以得到相应尺度的特征图。

优选的，输出第N尺度特征图的特征提取子模块具体用于：对前一特征提取子模块输出的特征图进行提取特征处理，将得到的特征图分别以多个不同大小的核进行池化，并将池化后的各个特征图在通道维度连接，进而对得到的特征图进行降采样处理，输出第N尺度特征图。

优选的，所述特征融合模块包括第一融合子模块和第二融合子模块；

所述第一融合子模块用于将第N尺度特征图进行处理得到第N预融合特征图，以及将第i+1预融合特征图进行上采样处理得到的特征图与第i尺度特征图在通道维度连接，得到第i预融合特征图；

所述第二融合子模块用于将第1预融合特征图进行降采样处理得到第1融合特征图，以及将第i融合特征图与第i+1预融合特征图在通道维度连接得到的特征图进行降采样处理，得到第i+1融合特征图。

优选的，所述特征融合模块包括注意力机制子模块，所述注意力机制子模块用于：根据当前帧图像的第i融合特征图与前一帧图像的第i融合特征图对应的隐藏特征，得到当前帧图像第i融合特征图经过通道维度的注意力机制的特征图，并根据经过通道维度的注意力机制的特征图，得到经过像素维度的注意力机制的特征图，以及根据当前帧图像第i融合特征图经过注意力机制的特征图以及前一帧图像第i融合特征图对应的隐藏特征，对当前帧图像第i融合特征图进行提取有效信息处理，将得到的特征图作为进行目标检测的第i融合特征图。

优选的，所述检测模块具体用于对融合特征图检测目标，获得目标框的(t_x，t_y，t_w，t_h，t_o)，其中，(t_x,t_y)表示预测目标框中心(x_c,y_c)相对于其所在块左上角(c_x,c_y)的偏移量，t_w表示预测目标框宽度与先验目标框宽度的比值，t_h表示预测目标框高度与先验目标框高度的比值，t_o表示预测目标框的置信度，目标框的置信度反映目标框中是否包含目标以及目标框尺寸、位置的准确性。

优选的，所述检测模块具体用于对于第j融合特征图，计算从第j融合特征图检测出的目标框与先验目标框的宽度比值、高度比值，若所得宽度比值和高度比值不满足预设要求，则排除第j融合特征图的该目标框，j∈[1，N]。

优选的，所述检测模块具体用于对融合特征图检测目标，获得目标框中心所在的图像中块，找出图像中该块相邻的预设数量个块，由目标框中心所在块以及找出的预设数量个块负责预测该目标框。

一种目标检测***获取方法，用于获得以上所述的目标检测***，其中，训练获得所述目标检测***使用的数据集包括基准数据集和辅助数据集，根据基准数据集扩充辅助数据集包括：

获取基准数据集的图像中目标的尺寸，获得所述基准数据集的目标尺寸的概率密度分布；

在辅助数据集内随机抽取图像，对所抽取的图像进行缩放，使得图像中目标尺寸的中位数与从所述基准数据集的概率密度分布中随机采样的目标尺寸一致，以由调整后的图像构成辅助数据集；

从调整后的辅助数据集内随机抽取多张图像，放置到一张空白图像中，得到最终的辅助数据集。

由上述技术方案可知，本发明所提供的一种目标检测***，特征提取模块将当前帧图像像素维度的特征分布到通道维度，并对处理后的图像提取至少三个尺度的特征图，相应获得第1尺度特征图至第N尺度特征图，特征融合模块将当前帧图像的第i尺度特征图至第N尺度特征图融合得到第i融合特征图，根据当前帧图像的第N尺度特征图得到第N融合特征图，i∈[1，N-1]，检测模块分别根据当前帧图像的第1融合特征图至第N融合特征图检测目标，获得当前帧图像的检测结果。

本发明的目标检测***在提取图像特征时将像素维度信息聚焦到通道维度，而后提取图像特征以及检测目标，能够较大程度地保留小尺寸目标的原始像素信息，能够提高对小目标检测的检测精度以及检测效率。

本发明提供的一种目标检测***获取方法，获得的目标检测***能够达到上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标检测***的示意图；

图2为本发明实施例提供的目标检测***的一种结构示意图；

图3为本发明一具体实例中将图像像素维度的特征分布到通道维度的示意图；

图4为本发明实施例的目标检测***使用的卷积模块的示意图；

图5为本发明实施例的特征提取子模块使用的降采样模块的示意图；

图6为本发明实施例的输出第N尺度特征图的特征提取子模块进行池化模块的示意图；

图7为本发明实施例的目标检测***通过特征融合模块根据当前帧图像得到第1融合特征图至第N融合特征图的示意图；

图8为本发明实施例的注意力机制子模块的示意图；

图9为本发明实施例的注意力机制子模块中卷积注意力机制子模块的示意图；

图10为本发明实施例中检测模块在特征图中检测目标框的示意图；

图11为本发明实施例中根据基准数据集扩充辅助数据集的方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

请参考图1，图1为本发明实施例提供的一种目标检测***的示意图，由图可知，所述目标检测***包括特征提取模块10、特征融合模块11和检测模块12；

所述特征提取模块10用于将当前帧图像像素维度的特征分布到通道维度，并对处理后的图像提取至少三个尺度的特征图，相应获得第1尺度特征图至第N尺度特征图，N为大于2的正整数；

所述特征融合模块11用于将当前帧图像的第i尺度特征图至第N尺度特征图融合得到第i融合特征图，根据当前帧图像的第N尺度特征图得到第N融合特征图，i∈[1，N-1]；

所述检测模块12用于分别根据当前帧图像的第1融合特征图至第N融合特征图检测目标，获得当前帧图像的检测结果。

特征提取模块10将当前帧图像的像素维度的特征信息转换分布到图像的通道维度上。一种尺度的特征图是指以一种采样率对图像提取特征得到的特征图。将不同尺度的特征图融合是指融合后的特征图包含该各个不同尺度的特征图包含的特征。

本实施例的目标检测***，在提取图像特征时将图像的像素维度特征聚焦到通道维度，而后对图像提取多个不同尺度的特征，将各个不同尺度的特征图融合以及检测目标，能够较大程度地保留小尺寸目标的原始像素信息，能够提高对小目标检测的检测精度以及检测效率。

可选的可参考图2，图2为本实施例的目标检测***的一种结构示意图，如图所示特征提取模块10可包括预处理子模块100，所述预处理子模块100用于将当前帧图像按照像素划分为多个单元格，将各个单元格对应位置像素拼接到同一图像中，并将得到的各个图像在通道维度连接，以将当前帧图像像素维度的特征分布到通道维度。

将当前帧图像按照像素划分为多个单元格，每一单元格包括多个像素，单元格的长度和宽度可以相等，即单元格的长和宽包括相同数量的像素，或者单元格的长度和宽度可以不相等，即单元格的长和宽分别包括不同数量的像素。在实际应用中，划分的单元格包括的像素数量可以根据实际应用要求相应设置。示例性的，请参考图3，图3为一具体实例中将图像像素维度的特征分布到通道维度的示意图，其中将原始图像划分为长度、宽度均为2个像素的单元格，将各个单元格对应位置的像素拼接构成新的图像，得到2×2＝4张2倍下采样的图像，再将得到的各个图像在通道维度连接，最后进行卷积操作。

本实施例目标检测***通过对图像进行上述降采样处理，将图像像素维度信息聚焦到通道维度，可以较大程度地保留小尺寸目标匮乏的原始像素信息，减少原始图像信息的丢失，同时增大感受野、减少计算量。

可选的，可参考图2所示，特征提取模块10可包括依次连接的多个特征提取子模块101，所述特征提取子模块101用于将前一特征提取子模块101输出的特征图进行提取特征处理和降采样处理，以得到相应尺度的特征图。可结合图2所示，由预处理子模块100输出的图像输入到依次连接的多个特征提取子模块101，通过各个特征提取子模块101处理，依次地输出第1尺度特征图至第N尺度特征图。

具体的，特征提取子模块101可包括依次连接的用于对特征图提取特征的卷积模块和用于对卷积模块输出的特征图进行降采样的降采样模块。请参考图4，图4为本实施例的目标检测***使用的卷积模块的示意图，卷积模块包括输入层、卷积层、标准化层和激活层，其中c_in表示输入通道数，c_out表示输出通道数，k表示卷积核大小，s表示步长。

请参考图5，图5为本实施例的特征提取子模块使用的降采样模块的示意图，图中括号内的四个数字代表(输入通道数、输出通道数、卷积核大小、步长)，两个数字代表(输入通道数、输出通道数)，一个数字代表(输出通道数)。输入数据首先经过卷积模块将通道数从c_in降低至c_，然后经过N个Bottleneck模块，随后通过卷积层将通道数统一为c_，得到一个分支；另一方面，输入数据经过另一个卷积层直接将通道数从c_in降低至c_，得到另一个分支。将这两个分支得到的数据在通道维度拼接，再通过标准化层和激活层，最后通过一个额外的卷积层，得到最终输出结果。其中Bottleneck模块包括输入层和卷积模块，并且具有shortcut通道。示例性的对应图5中Bottleneck模块可包括依次连接的输入层、卷积模块(c_,c_,1,1)和卷积模块(c_,c_,3,1)。

本实施例的目标检测***中，特征提取模块采用降采样模块能够进一步降低计算成本，剔除重复的梯度信息，采用上述降采样模块能够增强学习能力，使得在轻量化的同时保持准确性。

优选的，输出第N尺度特征图的特征提取子模块101具体用于：对前一特征提取子模块101输出的特征图进行提取特征处理，将得到的特征图分别以多个不同大小的核进行池化，并将池化后的各个特征图在通道维度连接。进而对得到的特征图进行降采样处理，输出第N尺度特征图。相应的，该输出第N尺度特征图的特征提取子模块101可具体包括依次连接的用于对特征图提取特征的卷积模块、用于进行池化的模块和用于进行降采样的降采样模块。

示例性的请参考图6，图6为本实施例的输出第N尺度特征图的特征提取子模块进行池化模块的示意图，该模块包括输入层、卷积模块、多个最大池化层、连接层以及卷积模块，各个最大池化层分别采用不同大小的核。首先将输入数据通过卷积模块将通道数从c_in降低至c_in/2，再分别通过各个不同大小核的最大池化层，并做零填充，将池化后的各个张量在通道维度拼接，最后使用一个卷积模块将张量的维度压缩到c_out，得到最终输出结果。图6所示中包括核为1×1的最大池化层(相当于保留原始张量)，比如还可包括核为5×5、9×9、13×13且步长为1的最大池化层。通过特征提取子模块101进行上述处理实现多尺度特征的融合，能够丰富深度特征图的语义表达能力。

示例性的，在一具体实例中，特征提取模块10包括依次连接的预处理子模块100和4个特征提取子模块101，由第2个、第3个和第4个特征提取子模块101分别输出降采样率为8、16、32的3个不同尺度的特征图，其大小分别为100×56、50×28、25×14，记为route1、route2、route3。

优选的，可结合参考图2和图7，图7为本实施例中通过特征融合模块根据当前帧图像得到第1融合特征图至第N融合特征图的示意图。特征融合模块11包括第一融合子模块110和第二融合子模块111，其中：

第一融合子模块110用于将第N尺度特征图进行处理得到第N预融合特征图，以及将第i+1预融合特征图进行上采样处理得到的特征图与第i尺度特征图在通道维度连接，得到第i预融合特征图；

第二融合子模块111用于将第1预融合特征图进行降采样处理得到第1融合特征图，以及将第i融合特征图与第i+1预融合特征图在通道维度连接得到的特征图进行降采样处理，得到第i+1融合特征图。

示例性的，以上述通过特征提取模块10输出降采样率为8、16、32的3个不同尺度的特征图为例，第一融合子模块110先将特征提取模块10最后一个特征提取子模块101输出的32倍降采样的特征图route3通过卷积模块，得到对应的特征图route4；随后通过上采样层使用插值进行2倍上采样，并与特征提取模块10输出的16倍降采样的特征图route2在通道维度上拼接，依次通过降采样模块、卷积模块后得到对应的特征图route5；随后通过上采样层进行上采样，与特征提取模块10输出的8倍降采样的特征图route1在通道维度上拼接，得到对应的特征图route6。

第二融合子模块111将route6通过降采样模块得到route7；通过一个步长为2的卷积模块进行降采样后，与第一融合子模块110输出的route5拼接，通过降采样模块得到route8；然后通过步长为2的卷积模块，与第一融合子模块110输出的route4拼接，通过降采样模块得到route9。第二融合子模块111输出的route7、route8、route9分别作为用于检测目标的不同尺度的融合特征图。可选的，其中降采样模块可使用图5所示的降采样模块进行，其中可取消shortcut通道。

由于小尺寸目标的浅层外观信息、深层语义信息都不充分，通过第一融合子模块110和第二融合子模块111的结合处理，使浅层特征图能得到深层特征图语义信息的指导，深层特征图能得到浅层特征图的外观细节的补充，大大提高小目标的检出率。

进一步优选的，特征融合模块11还可包括注意力机制子模块112，所述注意力机制子模块112用于：根据当前帧图像的第i融合特征图与前一帧图像的第i融合特征图对应的隐藏特征，得到当前帧图像第i融合特征图经过通道维度的注意力机制的特征图，并根据经过通道维度的注意力机制的特征图，得到经过像素维度的注意力机制的特征图，以及根据当前帧图像第i融合特征图经过注意力机制的特征图以及前一帧图像第i融合特征图对应的隐藏特征，对当前帧图像第i融合特征图进行提取有效信息处理，将得到的特征图作为进行目标检测的第i融合特征图。一帧图像的第i融合特征图对应的隐藏特征是指对一帧图像的第i融合特征图进行提取有效信息处理得到的特征。

示例性的请参考图8和图9，图8为本实施例的注意力机制子模块的示意图，图9为本实施例的注意力机制子模块中卷积注意力机制子模块的示意图。其处理过程为：第一步，将大小为[h,w,c]的当前帧图像的特征图和前一帧图像的隐藏信息拼接，生成[h,w,2c]大小的张量，送入一层卷积层、一层全局平均池化层、一层1x1的卷积层(相当于全连接层)生成[1,1,2c]大小的通道注意力矩阵，再与当前帧图像的特征图进行通道维度的乘法，实现通道维度的软注意力机制。第二步，将完成通道维度背景语义信息抑制之后的特征图送入两层卷积层，生成[h,w,1]大小的空间注意力矩阵，再与特征图进行像素维度的乘法，实现空间维度的软注意力机制。将最后输出的张量再次与前一帧图像的隐藏信息拼接，而后送入下一处理过程。

另外，可以通过一个卷积门控循环单元，其包括重置门和更新门，来根据当前帧图像经过注意力机制的特征图对当前帧图像第i融合特征图进行提取有效信息处理。具体可参考图8所示，将当前帧图像经过注意力机制的特征图以及前一帧图像第i融合特征图对应的隐藏特征连接，分别输入重置门r和更新门z处理，获得当前帧图像第i融合特征图进行提取有效信息处理的特征图，作为进行目标检测的第i融合特征图。重置门r用于控制经过注意力机制的特征图以及前一帧图像第i融合特征图对应的隐藏特征的占比，更新门z用于记忆有效信息、遗忘无效信息。可选的其计算公式如下：

z＝σ(W_Z*[h_t-1,x_t])，r＝σ(W_r*[h_t-1,x_t])；

其中，x_t表示输入数据，h_t-1表示记忆内容即前一帧图像的隐藏特征，z表示更新门，r表示重置门，h′表示一个中间变量，可以理解为当前帧产生的初步记忆信息，W_z、W_r、W_h分别表示权重，h_t表示输出的隐藏特征。输出的隐藏特征h_t可以用来进行后续帧图像的目标框的回归和分类任务。

本实施例的目标跟踪***，在将特征图送入检测模块之前将前一帧特征图与本帧特征图融合，结合时空信息，并通过注意力机制抑制大量的背景负样本以减低误检率，提高检出率。在监控视频下，对于行人这些目标尺寸较小，画面中大部分内容均为背景信息，同时由于不同深度的特征层负责预测不同尺度的目标，这导致深层特征层包含的目标信息远少于背景信息，而本实施例***采用空间维度和通道维度的混合注意力机制，能够抑制空间维度的背景特征信息，加强通道维度的目标语义信息，得以减少误报，提高检出率。并且同时利用视频数据时间维度上的信息，提升准确率。

检测模块12分别根据当前帧图像的第1融合特征图至第N融合特征图检测目标，获得当前帧图像的检测结果。具体的，检测模块12具体用于对融合特征图检测目标，获得目标框的(t_x，t_y，t_w，t_h，t_o)，其中，(t_x,t_y)表示预测目标框中心(x_c,y_c)相对于其所在块左上角(c_x,c_y)的偏移量，t_w表示预测目标框宽度与先验目标框宽度的比值，t_h表示预测目标框高度与先验目标框高度的比值，t_o表示预测目标框的置信度，预测目标框的置信度反映预测目标框中是否包含目标以及预测目标框尺寸、位置的准确性。

其中，(x_c,y_c)表示预测目标框的中心坐标，w、h分别表示预测目标框的宽度、高度，obj表示预测目标框的置信度。(t_x，t_y，t_w，t_h，t_o)与(x_c,y_c,w,h,obj)的对应关系如下：

x_c＝(σ(t_x)*2-0.5+c_x)*s，y_c＝(σ(t_y)*2-0.5+c_y)*s；

w＝(σ(t_w)*τ)²*p_w，h＝(σ(t_h)*τ)²*p_h；

Pr(obj)*loU(pred,gt)＝σ(t_o)；

其中，s表示当前特征图的降采样倍率，σ()表示Sigmoid函数。值得注意的是，(c_x,c_y)表示目标框中心所在块距离图像左上角的块个数，最终归一化得到的(x_c,y_c)其实是特征图下的相对值，再乘以当前特征图的降采样倍率s，即可得到相对于原始图像的绝对坐标。pw表示先验目标框宽度，ph表示先验目标框高度。τ表示比值系数，通过比例系数使得宽高比值限制在(0～τ²)之间，防止出现预测目标框与先验目标框相差过大的情况，示例性的可取τ＝2。

其中框置信度有两层含义，第一是框中是否包含目标，第二是框尺寸和位置是否准确。后者用两个框的完全交并比(Complete Intersection over Union,CIoU)来衡量，表示为：

其中，

ρ(*)表示两个框中心的欧氏距离，c表示两个框最小外接矩形的对角线距离。

进一步优选的，检测模块12具体用于：对于第j融合特征图，计算从第j融合特征图检测出的目标框与先验目标框的宽度比值、高度比值，若所得宽度比值和高度比值不满足预设要求，则排除第j融合特征图的该目标框，j∈[1，N]。

由于行人目标之间尺寸普遍差异较小，为了解决预测目标框在不同特征层上分配不均的问题，本***直接采用尺寸匹配规则，也就是将图像中所有预测目标框和当前层的先验目标框计算宽高比，具体计算预测目标框和当前层先验目标框的宽度比值以及预测目标框和当前层先验目标框的高度比值，如果宽度比值大于或小于上一节设定的阈值τ²，并且高度比值大于或小于上一节设定的阈值τ²，则说明该预测目标框和先验目标框尺寸相差过大，匹配度不够，将该预测目标框在该层预测中认为是背景。在解决预测目标框分配不均的问题的同时，增加正样本的数量，加速网络收敛。

进一步优选的，检测模块12具体用于对融合特征图检测目标，获得目标框中心所在的图像中块，找出图像中该块相邻的预设数量个块，由目标框中心所在块以及找出的预设数量个块负责预测该目标框。示例性的可参考图10，图10为本实施例中检测模块在特征图中检测目标框的示意图，在每一层特征图中，对于所有有效的目标框，计算其落在哪个网格内，可利用四舍五入规则，找出最近的预设数量个网格，比如如图10所示找出最近的两个网格，图中黑点表示目标中心，灰色网格表示目标中心所在网格以及找出的最近两个网格，将这三个网格都认为是负责预测该目标框的。这样在小尺寸目标像素占全图像比重较小的情况下，可以进一步增加正样本的数量，进一步加速网络收敛。因此相应在上面提到的(x_c,y_c)预测分支的取值范围从0～1变为-0.5～1.5。

另外在网络训练阶段，为了平衡正负样本、均衡样本类别，目标识别和分类任务损失函数采用如下：

其中，

γ、α表示控制参数。示例性的，可取γ＝2，α＝0.25。其中为了加强小尺寸目标的检测能力，对不同尺度特征层的损失要乘以一个平衡系数，即：

其中下标i的值越小表示特征图对应的先验目标框(anchor box)尺寸越大。示例性的可取ε1＝1.0,ε2＝2.0,ε3＝4.0。目标框(xc,yc,w,h)回归任务则采用CIoU损失函数，表示为：

其中CIoU的定义同上文所述。于是总损失表示为：

L＝γ_boxL_box+γ_objL_obj+γ_clsL_cls；

其中γ表示不同任务的损失权重。示例性的可取γ1＝γ2＝γ3＝1.0。

另外针对视频数据，利用历史先验信息采用硬注意力机制生成原始图像标记。在视频检测阶段，针对监控视频场景不变的情况，运行一段时间后，根据历史帧检出目标的情况，对每幅图像生成一张不断更新的先验标记，代表画面中行人目标出现的概率密度分布。此时仅仅是对高概率区域进行亮度增强，并不对低概率区域进行像素级别的抑制，于是将标记加上1的偏置，与原图叠加(按像素相乘)后，按照上述方法送入网络，得到最终检测结果，得以提高检出率。

结合前景检测算法进行联合检测。在对视频的每一帧图像的检测阶段，在一个batch中放入两张尺寸为(w,h)图片。第一张图片为1920x1080的原图放缩后得来，第二张图片为在原图上运行前景检测算法(如VIBE)后，将提取到的前景crop拼接得来。于是网络一次性处理两张图片，即输入维度为(2,c,h,w)，将两张图片的输出结果合在一起运行非极大值抑制算法(Non-Maximum Suppression)，得到联合检测的结果，得以进一步提高小尺寸目标的检出率。

相应的，本发明实施例还提供一种目标检测***获取方法，用于获得以上所述的目标检测***。其中，训练获得所述目标检测***使用的数据集包括基准数据集和辅助数据集，其中根据基准数据集扩充辅助数据集。请参考图11，图11为本实施例中根据基准数据集扩充辅助数据集的方法流程图，如图所示，所述方法包括以下步骤：

S20：获取基准数据集的图像中目标的尺寸，获得所述基准数据集的目标尺寸的概率密度分布。

可选的，可根据基准数据集的训练集，统计目标尺寸的分布直方图，来估计基准数据集的训练集中目标尺寸的概率密度分布P_size(s；D_train)，D_train表示基准数据集的训练集，D表示基准数据集。根据机器学习的基本假设，随机取样的训练集分布与原始数据集的分布基本一致，可以用训练集的概率密度分布来估计原始数据集的概率密度分布P_size(s；D)。

可选的，可根据以下公式计算目标的绝对尺寸：

其中，w、h分别表示目标的宽度、高度，具体可以是以像素描述的宽度、高度。

为了方便计算，需要将概率密度分布Psize(s；Dtrain)离散化为直方图(H,R)。设定直方图的组数量为K，令R[k]-、R[k]+分别表示第k组的下界、上界。若训练集包括的目标总数量为N，令G_ij(D_train)表示训练集中第i幅图像的第j个目标，则第k组的值为：

同时为了缓解数据集中目标尺寸长尾分布的问题，需要对直方图进行截断处理，即将尾部高度小于一定阈值的组舍弃，再调整R[k]的值，重新统计直方图(H,R)，得到最终的分布。示例性的可取K＝100。

S21：在辅助数据集内随机抽取图像，对所抽取的图像进行缩放，使得图像中目标尺寸的中位数与从所述基准数据集的概率密度分布中随机采样的目标尺寸一致，以由调整后的图像构成辅助数据集。

在辅助数据集E中抽取图像并调整大小，使其绝对尺寸服从分布Psize(s；D)。根据基准数据集D的目标尺寸概率密度分布Psize(s；D)，随机采样得到一个尺寸s_dst，为了避免直接缩放目标造成图像结构的破坏，选择缩放随机抽取的图像，使得缩放后图像中的目标尺寸的中位数s_mid与采样得到的尺寸s_dst保持一致。

其中，从基准数据集的概率密度分布中随机采样目标尺寸包括：从基准数据集的概率密度分布中随机采样得到组的下标k，然后，在区间(R[k]^-,R[k]⁺]内随机采样得到目标尺寸s_dst，其中，R[k]^-表示第k组的下界，R[k]⁺表示第k组的上界。

S22：从调整后的辅助数据集内随机抽取多张图像，放置到一张空白图像中，得到最终的辅助数据集。

在预训练的每一个批次中，初始化一张空白的图像，从调整后的规模较大的辅助数据集E中随机抽取1张图片，对图片进行放缩，将放缩后的图片随机放置到空白图像中。如此重复k次，得到一张包含k张放缩后的备用数据集图片的图像，再送入构建的神经网络进行训练。最后在辅助数据集E上得到预训练模型，再在基准数据集D上进行微调，得到最终的网络模型。其中可选的，可使用尺度匹配算法对图片进行放缩，可使用cutmix算法将放缩后的图片随机放置到空白图像中。

可选的，基准数据集可采用清洗之后的VIRAT数据集。可采用COCO数据集的人像子集作为初始的辅助数据集。本实施例方法中，采用尺度匹配算法，使大规模的辅助数据集的行人目标尺寸概率密度分布与基准数据集保持基本一致，在线扩充数据集，提高模型泛化能力。

以上对本发明所提供的一种目标检测***及获取方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种目标检测***，其特征在于，包括特征提取模块、特征融合模块和检测模块；

2.根据权利要求1所述的目标检测***，其特征在于，所述特征提取模块包括预处理子模块，所述预处理子模块用于将当前帧图像按照像素划分为多个单元格，将各个单元格对应位置像素拼接到同一图像中，并将得到的各个图像在通道维度连接，以将当前帧图像像素维度的特征分布到通道维度。

3.根据权利要求1所述的目标检测***，其特征在于，所述特征提取模块包括依次连接的多个特征提取子模块，所述特征提取子模块用于将前一特征提取子模块输出的特征图进行提取特征处理和降采样处理，以得到相应尺度的特征图。

4.根据权利要求3所述的目标检测***，其特征在于，输出第N尺度特征图的特征提取子模块具体用于：对前一特征提取子模块输出的特征图进行提取特征处理，将得到的特征图分别以多个不同大小的核进行池化，并将池化后的各个特征图在通道维度连接，进而对得到的特征图进行降采样处理，输出第N尺度特征图。

5.根据权利要求1所述的目标检测***，其特征在于，所述特征融合模块包括第一融合子模块和第二融合子模块；

6.根据权利要求1所述的目标检测***，其特征在于，所述特征融合模块包括注意力机制子模块，所述注意力机制子模块用于：根据当前帧图像的第i融合特征图与前一帧图像的第i融合特征图对应的隐藏特征，得到当前帧图像第i融合特征图经过通道维度的注意力机制的特征图，并根据经过通道维度的注意力机制的特征图，得到经过像素维度的注意力机制的特征图，以及根据当前帧图像第i融合特征图经过注意力机制的特征图以及前一帧图像第i融合特征图对应的隐藏特征，对当前帧图像第i融合特征图进行提取有效信息处理，将得到的特征图作为进行目标检测的第i融合特征图。

7.根据权利要求1所述的目标检测***，其特征在于，所述检测模块具体用于对融合特征图检测目标，获得目标框的(t_x，t_y，t_w，t_h，t_o)，其中，(t_x,t_y)表示预测目标框中心(x_c,y_c)相对于其所在块左上角(c_x,c_y)的偏移量，t_w表示预测目标框宽度与先验目标框宽度的比值，t_h表示预测目标框高度与先验目标框高度的比值，t_o表示预测目标框的置信度，目标框的置信度反映目标框中是否包含目标以及目标框尺寸、位置的准确性。

8.根据权利要求1所述的目标检测***，其特征在于，所述检测模块具体用于对于第j融合特征图，计算从第j融合特征图检测出的目标框与先验目标框的宽度比值、高度比值，若所得宽度比值和高度比值不满足预设要求，则排除第j融合特征图的该目标框，j∈[1，N]。

9.根据权利要求1所述的目标检测***，其特征在于，所述检测模块具体用于对融合特征图检测目标，获得目标框中心所在的图像中块，找出图像中该块相邻的预设数量个块，由目标框中心所在块以及找出的预设数量个块负责预测该目标框。

10.一种目标检测***获取方法，其特征在于，用于获得权利要求1-9任一项所述的目标检测***，其中，训练获得所述目标检测***使用的数据集包括基准数据集和辅助数据集，根据基准数据集扩充辅助数据集包括：