CN113313091B

CN113313091B - 仓储物流下的基于多重注意力和拓扑约束的密度估计方法

Info

Publication number: CN113313091B
Application number: CN202110860327.6A
Authority: CN
Inventors: 聂秀山; 孟令灿; 王春涛; 陶鹏; 袭肖明; 刘兴波; 尹义龙
Original assignee: Shandong New Beiyang Information Technology Co Ltd; Shandong Jianzhu University
Current assignee: Shandong New Beiyang Information Technology Co Ltd; Shandong Jianzhu University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-02
Anticipated expiration: 2041-07-29
Also published as: CN113313091A

Abstract

一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法，模型中的多重注意力模块可以对目标物体和背景进行区分，让模型更关注目标物体区域。模型中的细节增强模块提取利用小尺寸卷积核提取细节特征，利用多分支多尺寸卷积核提取多尺度特征。通过堆叠卷积核和使用空洞卷积增大感受野。从而提高了模型的计数精确度。利用拓扑约束损失可以使模型学习目标物体与附近目标物体，目标物体自身的空间约束关系，解决同一目标物体多次预测，同一位置多个预测目标物体的语义问题。同时拓扑约束损失加入目标物体计数损失，进一步降低了模型估计目标物体数量的准确性。

Description

仓储物流下的基于多重注意力和拓扑约束的密度估计方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法。

背景技术

近年来，随着社会的不断发展，科技变化也日新月异。随着物联网电子设备以及通信设备的不断发展，各项人工智能技术也让人们的生活变得更加便捷与美好。从智能手机的更新换代到智能家居的兴起，从辅助驾驶的逐渐落地到实现无人驾驶的研究热潮，再到大量出现的无人超市与逐渐兴起的无人派送。随着计算机软硬件的不断发展特别是GPU的发展，再加上大数据技术的不断推进，深度学习引领着人工智能与计算机视觉领域进入了发展黄金期。而目标密度估计也正是计算机视觉领域的一项重要研究内容。目标密度估计实际上就是估计指定目标在图像或视频中的密度分布情况，统计目标数量。

目标密度估计***可以应用到社会生产与生活中方方面面。例如，超市中货架商品计数，智慧仓储中的货物计件，物流运输的钢管、原木等目标的数量统计。由于它应用的广泛性，目标密度估计已经成为了计算机视觉领域的一个热门研究方向。

早期，自动化***发展还不够成熟，应用也不够广泛，目标的统计分析工作基本上完全是由人工完成。一方面，人如果长时间处于高度集中的工作中，人的眼睛和大脑会产生疲劳感，容易精力不集中，那么在工作过程中就会不可避免的出现错误，最后会影响结果统计的精确性，另一方面，人工操作会使统计分析结果带有很强的主观判断，最后会影响到分析结果的客观性。因此，不论是在哪一个应用领域，如果人工操作存在的问题不能得到妥善解决，都会有可能导致严重的经济损失。

后来出现了基于光阻法和电阻法的物体计数器。其工作原理是当物体进入到敏感区之后，它会隔断计数器的光路，因此改变了光电接收器上接收到的光电强度，计数器将变化了的光电信息转换成电压脉冲信号，以此来达到对目标计数的目的。由于光电管响应具有滞后性，往往多个物体目标物体已经通过敏感区，仪器才开始响应。对于复杂重叠的目标物体，光电管计数方式容易出现漏记的情况。另外光电管的灵敏度很容易衰减，需要经常更换，增加了计数成本。

随着图像技术的发展，结合图像处理的目标计数方式成为研究的热点。由于物体目标之间相互靠的太近时，会出现粘连和重叠的现象，形成多种形态的组合结构，要完成对物体目标的特征提取与分析，就需要将该区域分割成具有清晰轮廓的单个物体。近年来，国内外学者根据不同的目标对象开展了各种相应的分割算法的研究，大体上可以分为基于形态学的分割算法、基于边缘轮廓的分割算法和其他分割算法。

早期的图像技术需要人为的设计特征模式，用于提取图像中目标的特征。这种传统手工特征需要根据数据的特点精心设计，虽然是在众多的视觉神经理论依据下，但是难免有人为的想当然的成分。设计的特征模式往往依赖于数据库，也就是说设计的特征只对某些数据库表现好，而对其它的数据库效果并不能保证就好。或者当数据来源发生变化，比如对RGB数据设计的特征换成Kinect深度图像，这些特征点就不一定适应了，因此又得重新设计。基于目标检测或者分割的方法虽然可以精确的标出目标物体的位置，但却不能描述目标物体的空间分布情况，从而弱化了其在实际场景中的应用范围。而且计数性能也会随着局部目标物体数量的增加而急剧下降。

2012年, 由于AlexNet在被誉为计算机视觉中的奥林匹克竞赛的 ImageNet中获得了巨大的成功。所以很多研究人员逐渐将研究领域转到了深度学习，基于卷积神经网络进行目标检测的相关方法不断的提出，卷积神经网络在目标计数领域掀起了一波波热潮。

发明内容

本发明为了克服以上技术的不足，提供了一种计数准确度高、可以解决目标物体之间遮挡导致无法识别的仓储物流下的基于多重注意力和拓扑约束的密度估计方法。

本发明克服其技术问题所采用的技术方案是：

一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法，包括如下步骤：

(a)计算机获取计数目标物体的原始图像，对原始图像进行预处理，用于模型的训练和测试；

(b)构建密度估计模型并对模型进行初始化，将训练样本输入密度估计模型中，通过最小化损失函数优化密度估计模型；

(c)固定优化后的密度估计模型，并将密度估计模型部署至服务器；

(d)图像采集设备采集图像输入密度估计模型，得到图像中物体的个数。

进一步的，步骤(a)中预处理的方法为：采用labeling标注工具标注计数目标物体的原始图片，标注方式为在目标物体的类圆形状的几何中使用一个像素点标注位置，将标注后的每幅图像生成一个记录标注像素点位置的npy文件。

进一步的，步骤(b)包括如下步骤：

(b-1)构建Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层、批归一化层和激活层，通过VGG-16网络架构预训练Conv-5、Conv-4、Conv-3和Conv-1,2中的10层卷积层的权重参数，Conv-5卷积组的输出分别连接RMBB-1模块和MLA-1模块，Conv-4卷积组的输出分别连接RMBB-2模块和MLA-2模块，Conv-3卷积组的输出分别连接RMBB-3模块和MLA-3模块，将RMBB-1模块与MLA-1模块的输出进行相乘操作后进行双线性插值操作，将RMBB-2模块与MLA-2模块的输出进行相乘操作后与上采样结果相加并连接上采样操作和

卷积，将RMBB-3模块与MLA-3模块的输出进行相乘操作后与

卷积做加法运算后连接上采样操作和

卷积，

卷积后与Conv-1,2输出相加，将相加结果连接上采样操作和

卷积，完成密度估计模型的构建，密度估计模型中除了Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层之外的其它网络参数采用随机初始化的方式进行参数初始化，MLA-1模块、MLA-2模块和MLA-3模块均为多重注意力模块；

(b-2)将训练样本中的目标图像输入到密度估计模型中，图像依次经过Conv-5、Conv-4、Conv-3和Conv-1,2卷积组提取目标初级特征，分别得到初级特征图

、

和

；

(b-3)初级特征图

经过RMBB-1模块得到细节增强特征图

，将初级特征图

输入MLA-1模块，在空间维度上对初级特征图

分别进行最大值池化操作和均值池化操作，得到特征图

和特征图

，将特征图

和特征图

经过共享的卷积提取通道上的注意力信息，分别得到

和

，将

和

相加后经过sigmoid激活得到注意力权重

，将

与初级特征图

相乘得到经过通道维度注意力优化的特征图

，将特征图

在通道上分别求最大值和均值，得到

和

，将

和

在通道维度上拼接，拼接后经过卷积层降维得到通道为1的空间注意力权重

，将空间注意力权重

经过sigmoid激活之后与特征图

相乘，得到经过时空维度注意力优化的特征图

；

(b-4)将细节增强特征图

与特征图

相乘得到特征图

，对特征图

进行双线性插值操作，得到与初级特征图

维度相同的特征图

；

(b-5)初级特征图

经过RMBB-2模块得到细节增强特征图

，将初级特征图

输入MLA-2模块，在空间维度上对初级特征图

分别进行最大值池化操作和均值池化操作，得到特征图

和特征图

，将特征图

和特征图

经过共享的卷积提取通道上的注意力信息，分别得到

和

，将

和

相加后经过sigmoid激活之后得到注意力权重

，将

与初级特征图

相乘得到经过通道维度注意力优化的特征图

，将特征图

在通道上分别求最大值和均值，得到

和

，将

和

，将空间注意力权重

经过sigmoid激活之后与特征图

相乘，得到经过时空维度注意力优化的特征图

；

(b-6)将细节增强特征图

与特征图

相乘得到特征图

，将特征图

与特征图

相加，对相加结果进行上采样操作，使用卷积核大小为

的卷积进行通道维度上降维，使其维度从512维降到256维，得到输出特征图

；

(b-7)初级特征图

经过RMBB-3模块得到细节增强特征图

，将初级特征图

输入MLA-3模块，在空间维度上对初级特征图

分别进行最大值池化操作和均值池化操作，得到特征图

和特征图

，将特征图

和特征图

经过共享的卷积提取通道上的注意力信息，分别得到

和

，将

和

相加后经过sigmoid激活之后得到注意力权重

，将

与初级特征图

相乘得到经过通道维度注意力优化的特征图

，将特征图

在通道上分别求最大值和均值，得到

和

，将

和

，将空间注意力权重

经过sigmoid激活之后与特征图

相乘，得到经过时空维度注意力优化的特征图

；

(b-8)将细节增强特征图

与特征图

相乘得到特征图

，对特征图

与特征图

相加，对相加结果进行上采样操作，使用卷积核大小为

的卷积进行通道维度上降维，使其维度从256维降到128维，得到输出特征图

；

(b-9)将初级特征图

与特征图

相加，得到特征图

，对特征图

进行上采样操作还原输入图像的分辨率，上采样后经过一层卷积，输出模型计算的密度似然图

；

(b-10)通过公式

计算得到拓扑持久损失

，式中

为第

个显著点，

第

个显著点对应的鞍点，

为密度似然图

中点的值，

为图像中标记目标物体的数量，

为

个显著点的集合，

为密度似然图

中

个显著点以外的点的集合；

(b-11)通过公式

计算得到多层次计算损失

，式中

，

为模型训练时的批大小，

为

尺度下输入图像的真值图，

为相乘操作，

为L2范数；

(b-12)通过公式

计算不同尺度下多重注意力监督下的损失

，

，

，

为

分别调整到与

相同尺寸时的值，

，

为注意力图的阈值参数，

的取值为1e-5，

为真值密度图

中的一点，

为真值图中一点的值；

(b-13)通过公式

计算模型损失

，式中

、

及

均为常数，利用模型损失

对密度估计模型进行迭代优化，得到优化后的密度估计模型。

进一步的，步骤(b-1)中的RMBB-1模块、RMBB-2模块和RMBB-3模块均由五个多分支模块以残差的方式连接而成，每个多分支模块后面使用ReLu激活函数激活，每个多分支模块由多尺寸小卷积核堆叠而成，每个多分支模块通过一层

的卷积层卷积，第一个多分支模块经过

的卷积层卷积后连接

空洞率为1的卷积层，第二个多分支模块经过

的卷积层卷积后依次连接

的卷积层和

空洞率为3的卷积层，第三个多分支模块经过

的卷积层卷积后依次连接

的卷积层、

的卷积层和

空洞率为3的卷积层，第四个多分支模块经过

的卷积层卷积后依次连接

的卷积层和

空洞率为5的卷积层，将第一多分支模块的结果、第二多分支模块的结果、第三多分支模块的结果和第四多分支模块的结果在通道维度拼接，拼接后使用

的卷积降维，将结果与第五多分支模块经过

的卷积层卷积后的结果相加，将相加结果经过ReLu激活输出。

优选的，步骤(b-13)中在模型初始训练时

设置为0，经过30到50次迭代优化后再引入

，

设置为1，

设置为0.001。

进一步的，步骤(d)中将图像采集设备采集图像输入步骤(b)中的密度估计模型，得到步骤(b-9)中输出模型计算的密度似然图

，对密度似然图

积分得到图像中目标物体的个数。

本发明的有益效果是：采用深度神经网络来挖掘图像更深、更为抽象的特征，模型更加精确。采用基于密度图回归的技术方法，在提高计数精度的同时可以估计目标物体的分布情况。以密度图作为回归目标，无需检测整个目标物体，可以解决目标物体之间遮挡导致目标物体形态变化，无法识别的问题。模型估计的密度图除了可以统计出目标物体数量之外，也可反映出目标物体的分布情况。计数更加灵活，只需要对密度图上和图像中需要统计的对应区域积分就可以得到相应区域的目标物体数量。模型中的多重注意力模块可以对目标物体和背景进行区分，让模型更关注目标物体区域。模型中的细节增强模块利用小尺寸卷积核提取细节特征，利用多分支多尺寸卷积核提取多尺度特征。通过堆叠卷积核和使用空洞卷积增大感受野。从而提高了模型的计数精确度。利用拓扑约束损失可以使模型学习目标物体与附近目标物体，目标物体自身的空间约束关系，解决同一目标物体多次预测，同一位置多个预测目标物体的语义问题。同时拓扑约束损失加入目标物体计数损失，进一步提高了模型估计目标物体数量的准确性。

附图说明

图1为本发明的方法流程图；

图2为本发明的模型结构图；

图3为本发明的残差多分支结构图；

图4为本发明的多分支结构图；

图5为本发明的待计数的目标图像；

图6为本发明的labeling标注工具进行点标注的图像；

图7为本发明的将RMBB-1特征图输出为密度图；

图8为本发明的MLA-1注意力图可视化后的图像；

图9为本发明的模型输出密度似然图。

具体实施方式

下面结合附图1至附图4对本发明做进一步说明。

(a)计算机获取计数目标物体的原始图像，对原始图像进行预处理，用于模型的训练和测试。

(b)构建密度估计模型并对模型进行初始化，将训练样本输入密度估计模型中，通过最小化损失函数优化密度估计模型。

(c)固定优化后的密度估计模型，并将密度估计模型部署至服务器。

采集设备可以是手机，其更简单，易部署。甚至可以直接利用广泛部署的监控摄像头采集的视频计数，而不需要额外增加采集设备。而且可以应用到更大的计数场景。采用深度神经网络来挖掘图像更深、更为抽象的特征，模型更加精确。采用基于密度图回归的技术方法，在提高计数精度的同时可以估计目标物体的分布情况。以密度图作为回归目标，无需检测整个目标物体，可以解决目标物体之间遮挡导致目标物体形态变化，无法识别的问题。模型估计的密度图除了可以统计出目标物体数量之外，也可反映出目标物体的分布情况。计数更加灵活，只需要对密度图上和图像中需要统计的对应区域积分就可以得到相应区域的目标物体数量。图像的低层具有丰富轮廓、边缘、颜色、纹理等特征，高层的特征具有丰富的语义信息，所以本发明将底层特征和高层特征融合使用增强特征的表征能力。模型中的多重注意力模块可以对目标物体和背景进行区分，让模型更关注目标物体区域。模型中的细节增强模块利用小尺寸卷积核提取细节特征，利用多分支多尺寸卷积核提取多尺度特征。通过堆叠卷积核和使用空洞卷积增大感受野。从而提高了模型的计数精确度。利用拓扑约束损失可以使模型学习目标物体与附近目标物体，目标物体自身的空间约束关系，解决同一目标物体多次预测，同一位置多个预测目标物体的语义问题。同时拓扑约束损失加入目标物体计数损失，进一步提高了模型估计目标物体数量的准确性。

进一步的，步骤(b)包括如下步骤：

卷积，将RMBB-3模块与MLA-3模块的输出进行相乘操作后与

卷积做加法运算后连接上采样操作和

卷积，

卷积后与Conv-1,2输出相加，将相加结果连接上采样操作和

卷积，完成密度估计模型的构建，密度估计模型中除了Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层之外的其它网络参数采用随机初始化的方式进行参数初始化，MLA-1模块、MLA-2模块和MLA-3模块均为多重注意力模块。

、

和

。

(b-3) 初级特征图

经过RMBB-1模块得到细节增强特征图

，将初级特征图

输入MLA-1模块，在空间维度上对初级特征图

分别进行最大值池化操作和均值池化操作，得到特征图

和特征图

，将特征图

和特征图

经过共享的卷积提取通道上的注意力信息，分别得到

和

，将

和

相加后经过sigmoid激活得到注意力权重

，将

与初级特征图

相乘得到经过通道维度注意力优化的特征图

，将特征图

在通道上分别求最大值和均值，得到

和

，将

和

，将空间注意力权重

经过sigmoid激活之后与特征图

相乘，得到经过时空维度注意力优化的特征图

。

(b-4)将细节增强特征图

与特征图

相乘得到特征图

，对特征图

进行双线性插值操作，得到与初级特征图

维度相同的特征图

。

(b-5)初级特征图

经过RMBB-2模块得到细节增强特征图

，将初级特征图

输入MLA-2模块，在空间维度上对初级特征图

分别进行最大值池化操作和均值池化操作，得到特征图

和特征图

，将特征图

和特征图

经过共享的卷积提取通道上的注意力信息，分别得到

和

，将

和

相加后经过sigmoid激活之后得到注意力权重

，将

与初级特征图

相乘得到经过通道维度注意力优化的特征图

，将特征图

在通道上分别求最大值和均值，得到

和

，将

和

，将空间注意力权重

经过sigmoid激活之后与特征图

相乘，得到经过时空维度注意力优化的特征图

。

(b-6)将细节增强特征图

与特征图

相乘得到特征图

，将特征图

与特征图

相加，对相加结果进行上采样操作，使用卷积核大小为

。

(b-7)初级特征图

经过RMBB-3模块得到细节增强特征图

，将初级特征图

输入MLA-3模块，在空间维度上对初级特征图

分别进行最大值池化操作和均值池化操作，得到特征图

和特征图

，将特征图

和特征图

经过共享的卷积提取通道上的注意力信息，分别得到

和

，将

和

相加后经过sigmoid激活之后得到注意力权重

，将

与初级特征图

相乘得到经过通道维度注意力优化的特征图

，将特征图

在通道上分别求最大值和均值，得到

和

，将

和

，将空间注意力权重

经过sigmoid激活之后与特征图

相乘，得到经过时空维度注意力优化的特征图

。

(b-8)注意力的目的是预测每个像素点的属于前景的概率，模型通过学习会更加关注目标物体区域。在训练过程中，通过计算不同尺度下的多重注意力监督下的损失，提高定位精度，降低模型学习难度。

这可以看作具有两类的语义分割问题。将细节增强特征图

与特征图

相乘得到特征图

，对特征图

与特征图

相加，对相加结果进行上采样操作，使用卷积核大小为

。

(b-9)将初级特征图

与特征图

相加，得到融合图像的底层特征，即特征图

，例如，边缘、颜色、纹理和形状特征。对特征图

。

(b-10)通过公式

计算得到拓扑持久损失

，最大化前

个点的显著性，并且最小化其余点的显著性。式中

为第

个显著点，

第

个显著点对应的鞍点，

和

均是通过归并树算法在密度似然图

中搜索得到的，

为密度似然图

中点的值，

为图像中标记目标物体的数量，

为

个显著点的集合，

为密度似然图

中

个显著点以外的点的集合。最小化

算是就是相当于最大化前

个点的显著性，并且最小化其余点的显著性，这样就可以使得不同显著点之间形成清晰的边界。

(b-11)通过公式

计算得到多层次计算损失

，式中

，

即对应网络中得到的特征图

、

、

、

，

为模型训练时的批大小，

为

尺度下输入图像的真值图，

为相乘操作，

为L2范数。

(b-12)注意力图的损失的目的是预测每个像素的属于前景的概率，给前景更多的关注。在训练过程中，通过计算不同尺度下的多重注意力监督下的损失，提高定位精度，降低模型学习难度。这可以看作具有两类的语义分割问题。通过公式

计算不同尺度下多重注意力监督下的损失

，

，

，

为

分别调整到与

相同尺寸时的值，

，

为注意力图的阈值参数，

的取值为1e-5，

为真值密度图

中的一点，

为真值图中一点的值。

(b-13)通过公式

计算模型损失

，式中

、

及

均为常数，利用模型损失

进一步的，细节增强模块使用的是残差多分支模块（Residual Multi-BrachBlock, RMBB），具体的步骤(b-1)中的RMBB-1模块、RMBB-2模块和RMBB-3模块均由五个多分支模块以残差的方式连接而成，每个多分支模块后面使用ReLu激活函数激活，每个多分支模块由多尺寸小卷积核堆叠而成，每个多分支模块通过一层

的卷积层卷积，第一个多分支模块经过

的卷积层卷积后连接

空洞率为1的卷积层，第二个多分支模块经过

的卷积层卷积后依次连接

的卷积层和

空洞率为3的卷积层，第三个多分支模块经过

的卷积层卷积后依次连接

的卷积层、

的卷积层和

空洞率为3的卷积层，第四个多分支模块经过

的卷积层卷积后依次连接

的卷积层和

的卷积降维，将结果与第五多分支模块经过

的卷积层卷积后的结果相加，将相加结果经过ReLu激活输出。

优选的，步骤(b-13)中在模型初始训练时

设置为0，经过30到50次迭代优化后再引入

，

设置为1，

设置为0.001。根据不同的应用场景

的取值是不同的，一般情况下，

的取值范围是大于等于0小于等于10，若是场景中目标物体十分密集，则模型训练难以收敛，需要增大

的取值，同理，若是场景中目标物体不是很密集，则需要减小

的取值。

，对密度似然图

积分得到图像中目标物体的个数。

下面通过附图5所示的以矿泉水瓶为计数目标的照片对本发明进行举例说明，附图5是超市货架上拍摄的一幅商品图像，附图6是将附图5通过labeling标注工具标注之后的结果，其中白色像素点标记了计数目标的类圆形状的几何中心点。附图7是模型中RMBB-1输出的特征图按照密度图的计算方式可视化的结果。可以很明显的看出，模型对目标物体的预测基本符合。但是多数目标物体边界模糊，还需要融合多尺度信息和细节信息对特征进行优化，降低模型边界预测误差。附图8是MLA-1注意力图可视化后的图像，这里将MLA模块的注意力权重以掩膜的方式，在原始图像上可视化。从图中可以很清晰的看出，对于目标物体和背景来说，模型对包含目标物体区域有较高的关注度。这也足以证明模型中的多重注意力能够引导模型对目标和背景进行有效区分。最后如附图9所示，将模型最后计算得到密度似然图进行可视化。可以很明显的看出，每个计数目标的预测区域都非常集中。模型预测目标之间拥有非常清晰的边界线，预测结果中几乎不存在目标相互重叠的现象，这可以极大的降低计数误差。从以上的结果中也证明了本发明的有效性和创新性。得到密度似然图后，通过公式

积分得到图像中目标物体的个数

，式中

为密度似然图中第

个点，

为密度似然图中点

的值，

，

为密度似然图的像素点集合。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法，其特征在于，包括如下步骤：

(d)图像采集设备采集图像输入密度估计模型，得到图像中物体的个数；

步骤(b)包括如下步骤：

(b-1)构建Conv-5、Conv-4、Conv-3和Conv-1，2的卷积层、批归一化层和激活层，通过VGG-16网络架构预训练Conv-5、Conv-4、Conv-3和Conv-1，2中的10层卷积层的权重参数，Conv-5卷积组的输出分别连接RMBB-1模块和MLA-1模块，Conv-4卷积组的输出分别连接RMBB-2模块和MLA-2模块，Conv-3卷积组的输出分别连接RMBB-3模块和MLA-3模块，将RMBB-1模块与MLA-1模块的输出进行相乘操作后进行双线性插值操作，将RMBB-2模块与MLA-2模块的输出进行相乘操作后与上采样结果相加并连接上采样操作和1×1卷积，将RMBB-3模块与MLA-3模块的输出进行相乘操作后与1×1卷积做加法运算后连接上采样操作和1×1卷积，1×1卷积后与Conv-1，2输出相加，将相加结果连接上采样操作和1×1卷积，完成密度估计模型的构建，密度估计模型中除了Conv-5、Conv-4、Conv-3和Conv-1，2的卷积层之外的其它网络参数采用随机初始化的方式进行参数初始化，MLA-1模块、MLA-2模块和MLA-3模块均为多重注意力模块；

(b-2)将训练样本中的目标图像输入到密度估计模型中，图像依次经过Conv-5、Conv-4、Conv-3和Conv-1，2卷积组提取目标初级特征，分别得到初级特征图f₄、f₃、f₂和f₁；

(b-3)初级特征图f₄经过RMBB-1模块得到细节增强特征图rf₄，将初级特征图f₄输入MLA-1模块，在空间维度上对初级特征图f₄分别进行最大值池化操作和均值池化操作，得到特征图

和特征图

将特征图

和特征图

经过共享的卷积提取通道上的注意力信息，分别得到

和

将

和

相加后经过sigmoid激活得到注意力权重F^c ₁，将F^c ₁与初级特征图f₄相乘得到经过通道维度注意力优化的特征图F′_c1，将特征图F′_c1在通道上分别求最大值和均值，得到F′_max1和F′_avg1，将F′_max1和F′_avg1在通道维度上拼接，拼接后经过卷积层降维得到通道为1的空间注意力权重

将空间注意力权重

经过sigmoid激活之后与特征图F′_c1相乘，得到经过时空维度注意力优化的特征图AF′₄；

(b-4)将细节增强特征图rf₄与特征图AF′₄相乘得到特征图F′₄，对特征图F′₄进行双线性插值操作，得到与初级特征图f₃维度相同的特征图F₄ ^out；

(b-5)初级特征图f₃经过RMBB-2模块得到细节增强特征图rf₃，将初级特征图f₃输入MLA-2模块，在空间维度上对初级特征图f₃分别进行最大值池化操作和均值池化操作，得到特征图

和特征图

将特征图

和特征图

经过共享的卷积提取通道上的注意力信息，分别得到

和

将

和

相加后经过sigmoid激活之后得到注意力权重F^c ₂，将F^c ₂与初级特征图f₃相乘得到经过通道维度注意力优化的特征图F′_c2，将特征图F′_c2在通道上分别求最大值和均值，得到F′_max2和F′_avg2，将F′_max2和F′_avg2在通道维度上拼接，拼接后经过卷积层降维得到通道为1的空间注意力权重

将空间注意力权重

经过sigmoid激活之后与特征图F′_c2相乘，得到经过时空维度注意力优化的特征图AF′₃；

(b-6)将细节增强特征图rf₃与特征图AF′₃相乘得到特征图F′₃，将特征图F′₃与特征图F₄ ^out相加，对相加结果进行上采样操作，使用卷积核大小为1×1的卷积进行通道维度上降维，使其维度从512维降到256维，得到输出特征图F₃ ^out；

(b-7)初级特征图f₂经过RMBB-3模块得到细节增强特征图rf₂，将初级特征图f₂输入MLA-3模块，在空间维度上对初级特征图f₂分别进行最大值池化操作和均值池化操作，得到特征图

和特征图

将特征图

和特征图

经过共享的卷积提取通道上的注意力信息，分别得到

和

将

和

相加后经过sigmoid激活之后得到注意力权重F^c ₃，将F^c ₃与初级特征图f₂相乘得到经过通道维度注意力优化的特征图F′_c3，将特征图F′_c3在通道上分别求最大值和均值，得到F′_max3和F′_avg3，将F′_max3和F′_avg3在通道维度上拼接，拼接后经过卷积层降维得到通道为1的空间注意力权重

将空间注意力权重

经过sigmoid激活之后与特征图F′_c3相乘，得到经过时空维度注意力优化的特征图AF′₂；

(b-8)将细节增强特征图rf₂与特征图AF′₂相乘得到特征图F′₂，对特征图F′₂与特征图F₃ ^out相加，对相加结果进行上采样操作，使用卷积核大小为1×1的卷积进行通道维度上降维，使其维度从256维降到128维，得到输出特征图F₂ ^out；

(b-9)将初级特征图f₁与特征图F₂ ^out相加，得到特征图F₁′，对特征图F₁′进行上采样操作还原输入图像的分辨率，上采样后经过一层卷积，输出模型计算的密度似然图f；

(b-10)通过公式

计算得到拓扑持久损失

式中m_i为第i个显著点，S_i第i个显著点对应的鞍点，f(·)为密度似然图f中点的值，c为图像中标记目标物体的数量，M_c为c个显著点的集合，

为密度似然图f中c个显著点以外的点的集合；

(b-11)通过公式

计算得到多层次计算损失

式中M∈{1，2，3，4}，N为模型训练时的批大小，F_j ^gt为j尺度下输入图像的真值图，⊙为相乘操作，||·||₂为L2范数；

(b-12)通过公式

计算不同尺度下多重注意力监督下的损失

Q＝{4，3，2}，i∈{4，3，2}，A_i ^gt为A^gt分别调整到与A_i ^p相同尺寸时的值，

t为注意力图的阈值参数，t的取值为1e-5，x_i为真值密度图F^gt中的一点，F^gt(·)为真值图中一点的值；

(b-13)通过公式

计算模型损失

式中λ_pres、λ₁及λ₂均为常数，利用模型损失

对密度估计模型进行迭代优化，得到优化后的密度估计模型；

步骤(b-1)中的RMBB-1模块、RMBB-2模块和RMBB-3模块均由五个多分支模块以残差的方式连接而成，每个多分支模块后面使用ReLu激活函数激活，每个多分支模块由多尺寸小卷积核堆叠而成，每个多分支模块通过一层1×1的卷积层卷积，第一个多分支模块经过1×1的卷积层卷积后连接3×3空洞率为1的卷积层，第二个多分支模块经过1×1的卷积层卷积后依次连接1×3的卷积层和3×3空洞率为3的卷积层，第三个多分支模块经过1×1的卷积层卷积后依次连接1×3的卷积层、3×1的卷积层和3×3空洞率为3的卷积层，第四个多分支模块经过1×1的卷积层卷积后依次连接3×3的卷积层和3×3空洞率为5的卷积层，将第一多分支模块的结果、第二多分支模块的结果、第三多分支模块的结果和第四多分支模块的结果在通道维度拼接，拼接后使用11的卷积降维，将结果与第五多分支模块经过11的卷积层卷积后的结果相加，将相加结果经过ReLu激活输出。

2.根据权利要求1所述的仓储物流下的基于多重注意力和拓扑约束的密度估计方法，其特征在于，步骤(a)中预处理的方法为：采用labeling标注工具标注计数目标物体的原始图片，标注方式为在目标物体的类圆形状的几何中使用一个像素点标注位置，将标注后的每幅图像生成一个记录标注像素点位置的npy文件。

3.根据权利要求1所述的仓储物流下的基于多重注意力和拓扑约束的密度估计方法，其特征在于：步骤(b-13)中在模型初始训练时λ_pres设置为0，经过30到50次迭代优化后再引入λ_pres，λ₁设置为1，λ₂设置为0.001。

4.根据权利要求1所述的仓储物流下的基于多重注意力和拓扑约束的密度估计方法，其特征在于：步骤(d)中将图像采集设备采集图像输入步骤(b)中的密度估计模型，得到步骤(b-9)中输出模型计算的密度似然图f，对密度似然图f积分得到图像中目标物体的个数。