CN113420729A

CN113420729A - 多尺度目标检测方法、模型、电子设备及其应用

Info

Publication number: CN113420729A
Application number: CN202110964718.2A
Authority: CN
Inventors: 徐剑炯; 张香伟; 毛云青; 金仁杰
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-09-21
Anticipated expiration: 2041-08-23
Also published as: CN113420729B

Abstract

本申请提出了一种多尺度目标检测方法、模型、电子设备及其应用，该多尺度目标检测方法对多尺度目标检测模型进行优化改进，多尺度目标检测模型的主干网络残差单元的卷积改进为双重多尺度注意力模块，该模块可自适应地集成局部特征及其全局依赖性，在传统全卷积上附加两种分别对空间和通道维度中的语义相互依赖性进行建模的双重注意力模块，双重注意力模块丰富了上下文特征依赖性来显着改善检测结果，有助于更准确的检测多尺度目标，可对不同尺度、不同场景目标进行准确的检测，特别适用于检测复杂场景中的多尺度目标，进而扩大目标检测算法在各类应用场景中的使用。

Description

多尺度目标检测方法、模型、电子设备及其应用

技术领域

本申请涉及目标检测领域，特别是涉及多尺度目标检测方法、模型、电子设备及其应用。

背景技术

目标检测一直是深度学习领域的热点，指利用计算机视觉技术从图像中准确地检测到需求目标的技术，且可取代人工从图像或者视频中快速获取需求标注的目标。目前主流的目标检测算法按照算法阶段分有两类：第一类为两阶段的目标检测算法，较为著名的为R-CNN系列及其变体；第二类为单阶段的目标检测算法，如YOLO系列及其变体。

许多研究人员在目标检测和识别领域的研究都取得了一定的进展，然而考虑到目标检测算法适用的具体应用场景的不同，目前市面上现存的目标检测算法在一些特殊的应用场景中依旧存在较大的局限性。具体的，目前的目标检测算法无法很好地检测不同尺度、遮挡或者不同自然环境下的同一目标，也就是说，目前检测算法的像素级识别特征表示的辨别能力有待提高。示例性，目前的目标检测算法在识别远景和近景中的同一目标时的检测效果不佳，其难以区分“田地”和“草地”的区域，其也难以区分相似度近的两个目标。另外，虽然目前的目标检测算法内置的注意力模块可以有较好的检测效果，但其导致了计算量的增加，且通道注意力和空间注意力只关注局部信息而忽略了通道之间的长依赖关系，导致其无法处理多尺度信息和复杂的信息。总结而言，如何聚合不同尺度的信息，且以更少的代价捕获更多的上下文信息是目前的目标检测算法亟待解决的技术问题。

以电梯内的非机动车作为待检测的目标为例，电梯内的监控摄像头往往设置在固定的角落，而在实际场景中非机动车进入电梯内存在各种停放的情形，有些非机动车距离监控摄像头很近，此时获取的目标尺度大；有些非机动车距离监控摄像头很远，此时获取的目标尺度小；有些非机动车被人体遮挡，此时获取的目标被遮挡；有些电梯内的照明条件好，此时获取的目标图像清晰明亮；有些电梯内的照明条件差，此时获取的目标图像模糊暗淡，而如前所述，目前的目标检测算法并不能地对各类目标进行很准确很高效的检测，导致其无法满足实际应用场景需求。

发明内容

本申请实施例提供了一种多尺度目标检测方法、模型、电子设备及其应用，该多尺度目标检测方法可对不同尺度、不同场景目标进行准确的检测，特别适用于检测复杂场景中的多尺度目标，进而扩大目标检测算法在各类应用场景中的使用。

第一方面，本申请实施例提供了一种多尺度目标检测方法，包括：获取包含待检测目标的待检测图像；所述待检测图像的第一卷积特征图通道被均分成不同部分，不同部分的所述第一卷积特征图通道被内卷卷积后融合得到第一融合特征，所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；所述第二卷积特征图再次分别进行空间维度建模和通道维度建模得到位置注意力特征图和通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；所述第三卷积特征图输入预测头部模块得到待检测目标。

第二方面，本申请实施例提供了一种多尺度目标检测模型，包括：依次连接的主干网络、双重注意力颈部模块和预测头部模块，其中所述主干网络的残差单元的卷积改进为双重多尺度注意力模块，所述双重多尺度注意力模块用于将输入的第一卷积特征图通道均分成不同部分，并对不同部分的所述第一卷积特征图通道进行内卷卷积操后融合得到第一融合特征，对所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，再融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；所述双重注意力颈部模块包括平行通道的位置注意力模块和通道注意力模块，所述位置注意力模块和所述通道注意力模块中内设置内卷卷积层，所述位置注意力模块用于对所述第二卷积特征图分别进行空间维度建模得到位置注意力特征图，所述通道注意力模块用于对所述第二卷积特征图进行通道维度建模得到通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；预测头部模块用于对所述第三卷积特征图进行预测。

第三方面，本申请实施例提供了一种电梯内非机动车检测方法，包括：获取电梯监控视频；所述电梯监控视频的待检测图像的第一卷积特征图通道被均分成不同部分，不同部分的所述第一卷积特征图通道被内卷卷积后融合得到第一融合特征，所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；所述第二卷积特征图再次分别进行空间维度建模和通道维度建模得到位置注意力特征图和通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；所述第三卷积特征图输入预测头部模块得到待检测目标，所述待检测目标为非机动车；若检测到非机动车则触发人脸关键点检测模型进行人脸检测得到人脸关键点，基于所述人脸关键点识别人脸并确定对应人员信息。

第四方面，本申请实施例提供了一种多尺度目标检测装置，包括：目标获取单元，用于获取包含待检测目标的待检测图像；

检测单元，搭载训练过的多尺度目标检测模型，所述待检测图像的第一卷积特征图通道被均分成不同部分，不同部分的所述第一卷积特征图通道被内卷卷积后融合得到第一融合特征，所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；所述第二卷积特征图再次分别进行空间维度建模和通道维度建模得到位置注意力特征图和通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；所述第三卷积特征图输入预测头部模块得到待检测目标。

第五方面，本申请实施例提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述的多尺度目标检测方法，以及电梯内非机动车检测方法。

第六方面，本申请实施例提供一种计算机程序产品，包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述代码软件部分用于执行所述的多尺度目标检测方法，以及所述的电梯内非机动车检测方法。

第七方面，本申请实施例提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括所述的多尺度目标检测方法，以及所述的电梯内非机动车检测方法。

本发明的主要贡献和创新点如下：

本申请实施例提供的多尺度目标检测模型的主干网络残差单元的卷积改进为双重多尺度注意力模块，双重多尺度注意力模块可将不同尺度的特征进行汇总并平行使用空间和通道注意模块，可自适应地集成局部特征及其全局依赖性，另外，双重注意力网络颈部模块的双重注意力模块在传统全卷积上附加两种分别对空间和通道维度中的语义相互依赖性进行建模的注意力模块，双重注意力模块丰富了上下文特征依赖性来显着改善检测结果，有助于更准确的检测多尺度目标。另外，本方案将双重注意力模块内的注意力模块和通道注意力模块的卷积层改为内卷卷积层，将常规的卷积操作设计为逆向的内卷卷积方式，利用其具有的通道不变性和空间特异性的特点克服传统卷积存在的问题，可以在更广阔的空间中聚合上下文，从而克服了对远程交互进行建模的困难，也可以在不同位置上自适应地分配权重，从而对空间域中信息最丰富的视觉元素进行优先排序，使得卷积核可更适应不同空间位置的不同视觉模式的能力，也改善卷积核在不同通道的灵活性，进而使得该模型可在聚合不同尺度的信息的同时以更少的代价捕获更多的上下文信息。

本方案将多尺度目标检测模型用于检测电梯中的非机动车，由于该多尺度目标检测模型可适配实际环境中样本的复杂度，进而其可在复杂的电梯环境中准确地识别非机动车，提高非机动车识别的准确度，另外基于检测的结果利用知识谱图技术查询对象，知识图谱技术提高了对象查询的效率，神经网络识别功能和知识图谱技术搜索功能的串联应用，使非机动车进入电梯结案更加准确识别对象和快速定位住户地址，让社区治理更加简单高效安全。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的多尺度目标检测模型的整体框架示意图。

图2是根据本申请实施例的位置注意力模块的模块结构示意图。

图3是根据本申请实施例的通道注意力模块的模块结构示意图。

图4是根据本申请实施例的双重多尺度注意力模块的模块结构示意图。

图5是根据本申请实施例的基于双重多尺度注意力的残差模块的模块结构示意图。

图6是根据本申请实施例的特征图输入多尺度目标检测模型后的变化示意图。

图7是本申请实施例的多尺度目标检测方法的流程图。

图8是本申请实施例的多尺度目标检测方法用于社区管控的流程图。

图9是本申请实施例的多尺度目标检测装置的结构示意图。

图10是本申请实施例的知识谱图的示意图。

图11是本申请实施例的根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请旨在提出一种可聚合不同尺度的信息，并以更少的代价捕获更多的上下文信息的多尺度目标检测方法及模型，通过改进双重多尺度注意力模块和双重注意力模块的方式丰富了上下文特征依赖性，且将双重注意力模块中的常规二维卷积替换为内卷卷积，以在更广阔的空间中聚合上下文特征并在不同位置上自适应地分配权重，旨在用更少的参数获取更优的性能，使得该多尺度目标检测模型可提取各种尺度的特征并进行聚合，且可将局部特征和全局进行依赖，进而准确地检测复杂环境中的多尺度目标。

该多尺度目标检测模型的适用范围极其广泛，可适用于检测各种复杂场景的多尺度目标。示例性的，本方案利用电梯内的非机动车图像对该多尺度目标检测模型进行训练，以使得该多尺度目标检测模型适用于检测电梯内的非机动车。

第一方面，如图7所示，本申请实施例提供了一种多尺度目标检测方法，具体地，该多尺度目标检测方法借助训练过的多尺度目标检测模型进行目标检测，所述多尺度检测模型包括依次连接的主干网络、双重注意力颈部模块和预测头部模块，可较为精准地获取多尺度目标，所述方法包括：

获取包含待检测目标的待检测图像；

所述待检测图像的第一卷积特征图通道被均分成不同部分，不同部分的所述第一卷积特征图通道被内卷卷积后融合得到第一融合特征，所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；

所述第二卷积特征图再次分别进行空间维度建模和通道维度建模得到位置注意力特征图和通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；

所述第三卷积特征图输入预测头部模块得到待检测目标。

值得说明的是，本方案提及的所述预测头部模块已被训练，故其可基于输入的所述第三卷积特征图预测得到待检测目标。根据训练的样本不同，预测头部模块可用于预测不同的目标。示例性，若训练样本为电梯内的非机动车，则该方案可用于预测电梯内的非机动车；若训练样本为人脸，则该方案可用于预测人脸关键点。

所述待检测图像得到所述第二卷积特征图的操作在主干网络中进行，本方案的主干网络的残差单元的卷积为双重多尺度注意力模块，所述双重多尺度注意力模块包括依次连接的多尺度模块、特征融合模块、双重通道模块以及特征拼接模块，其中多尺度模块用于将输入的第一卷积特征图通道进行均分，并利用内卷卷积层提取不同尺度特征；特征融合模块用于融合所述不同尺度特征得到所述第一融合特征；分支通道模块包括平行通道的分支位置注意力模块和分支通道注意力模块，用于分别对所述第一融合特征的空间和通道维度的语义相互性进行建模，以得到分支位置输出特征和分支通道输出特征；所述特征拼接模块用于堆叠分支位置输出特征和分支通道输出特征并输出所述第二卷积特征图。关于多尺度注意力模块的模型结构可参见下文描述，在此不对其进行说明。

在本方案中，“所述待检测图像的第一卷积特征图通道被均分成不同部分，不同部分的所述第一卷积特征图通道被内卷卷积后融合得到第一融合特征”步骤中，不同部分的通道进入不同卷积核的内卷卷积层内被卷积操作，不同部分的通道被内卷卷积后进行张量拼接并进行特征通道混洗后得到所述第一融合特征。在本方案的实施例中，被均分后的每一份卷积特征图的通道都变成原来第一卷积特征图通道的1/3。具体的，所述第一卷积特征图的通道被均分为三个部分，三个部分的通道分别进入3*3卷积核内卷卷积层、5*5内卷卷积层和7*7内卷卷积层中卷积操作。

“所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征”包括步骤：所述第一融合特征进入分支位置注意力模块中进行空间维度建模得到分支位置输出特征，所述第一融合特征进入分支通道注意力模块中进行通道维度建模得到分支通道输出特征。

具体的，所述第一融合特征经过空间矩阵运算后输入空间注意力矩阵后得到一级位置特征，一级位置特征和经过特征矩阵重塑的第一融合特征进行融合得到二级位置特征；经过特征矩阵重塑的二级位置特征和第一融合特征进行融合得到分支位置输出特征。

所述第一融合特征经过通道矩阵运算后输入通道注意力矩阵后得到一级通道特征；一级通道特征和经过特征矩阵重塑的第一融合特征进行融合得到二级通道特征；经过特征矩阵重塑的二级通道特征和第一融合特征进行融合得到分支通道输出特征。

“融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图”包括步骤：所述分支位置输出特征和分支通道输出特征进行特征通道堆叠，堆叠后的特征进行卷积输出所述第二卷积特征图。

“所述第二卷积特征图再次分别进行空间维度建模和通道维度建模得到位置注意力特征图和通道注意力特征图”中，所述第二卷积特征图进入双重注意力模块的位置注意力模块中得到所述位置注意力特征图，所述第二卷积特征图进入双重注意力模块的位置注意力模块中得到所述通道注意力特征图。

具体的，“所述第二卷积特征图进入双重注意力模块的位置注意力模块中得到所述位置注意力特征图”包括：其中所述第二卷积特征图经过一级内卷层后输入到至少两二级内卷层，自所述二级内卷层输出的输出特征图经过特征矩阵重塑后和其他所述二级内卷层的输出特征依次融合得到位置融合特征图，位置融合特征图和第二卷积特征图相加得到所述位置注意力特征图。

所述位置注意力模块用于对所述第二卷积特征图的空间中的语义相互依赖性进行建模，其将所有位置的特征加权并选择性聚合每个位置的特征，将相似的特征进行关联。

“所述第二卷积特征图进入双重注意力模块的位置注意力模块中得到所述通道注意力特征图”包括：所述第二卷积特征图经过内卷层后输出不同通道特征图，所述不同通道特征图经过特征矩阵重塑后彼此融合后和所述第二卷积特征图进行特征元素相加，得到所述通道注意力特征图。

所述通道注意力模块用于对所述初始输入特征图的通道维度的语义相互依赖性进行建模，将所有通道和原始特征的特征进行加权得到可反映远程语义依赖性的建模特征。

具体的关于位置注意力模块和通道注意力模块的结构参见下文的展示说明。

另外，值得说明的是，当该多尺度目标检测方法用于检测电梯内的非机动车时，电梯内的非机动车作为所述待检测目标，监控视频作为所述待检测图像，执行上述方法，进而输出非机动车的位置和置信度。当该多尺度目标检测方法用于检测人脸关键点时，所述人脸关键点作为所述待检测目标，监控视频作为所述待检测图像，执行上述方法，进而输出人脸关键点的位置和置信度。

第二方面，本方案提供一种多尺度目标检测模型，本方案提供的多尺度目标检测模型的具体框架示意图如图1所示，该多尺度目标检测模型的框架包括依次连接的主干网络、双重注意力颈部模块和预测头部模块，其中主干网络的残差单元的卷积改进为双重多尺度注意力模块，双重多尺度注意力模块提取不同尺度的特征并汇总得到第一融合特征，并结合所述第一融合特征的局部特征和全局依赖关系，所述双重注意力颈部模块包括平行通道的位置注意力模块和通道注意力模块，位置注意力模块和通道注意力模块中内设置内卷卷积层，且位置注意力模块和通道注意力模块的输出特征融合后输入预测头部模块。

对应的，其中所述主干网络的残差单元的卷积改进为双重多尺度注意力模块，所述双重多尺度注意力模块用于将输入的第一卷积特征图通道均分成不同部分，并对不同部分的所述第一卷积特征图通道进行内卷卷积操后融合得到第一融合特征，对所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，再融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；所述双重注意力颈部模块包括平行通道的位置注意力模块和通道注意力模块，所述位置注意力模块和所述通道注意力模块中内设置内卷卷积层，所述位置注意力模块用于对所述第二卷积特征图分别进行空间维度建模得到位置注意力特征图，所述通道注意力模块用于对所述第二卷积特征图进行通道维度建模得到通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；预测头部模块用于对所述第三卷积特征图进行预测。

如图1所示，主干网络输出的特征进入双重注意力颈部模块后进入预测头部模块，其中双重注意力颈部模块分为平行通道的位置注意力模块和通道注意力模块，所述主干网络输出的特征分别进入平行通道的位置注意力模块和通道注意力模块后进行元素级相加操作后输入到预测头部模块内进行预测。

在本方案的一具体实施例中，主干网络包括CSPDarknet53、Mish激活函数和Dropblock。

在本方案中将主干网络的残差单元的卷积改进为双重多尺度注意力模块，如图4所示，图4是主干网络中的双重多尺度注意力模块的结构示意图。

包括依次连接的多尺度模块、特征融合模块、双重通道模块以及特征拼接模块，其中所述多尺度模块用于将输入的第一卷积特征图通道进行均分成不同部分，并利用内卷卷积层提取不同部分的所述第一卷积特征图通道提的不同尺度特征；所述特征融合模块用于融合所述不同尺度特征得到第一融合特征；所述分支通道模块包括平行通道的分支位置注意力模块和分支通道注意力模块，用于分别对所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征；所述特征拼接模块用于堆叠所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图。

另外，本方案是将主干网络的残差单元的卷积更替为双重多尺度注意力模块，如图5所示，此时，主干网络含有四个卷积层，若初始输入图像为1*3*640*640，经过卷积得到第一个特征图大小为1*12*320*320，在第一个特征图的基础上继续卷积得到第二个特征图大小1*32*320*320，在第二个特征图基础上进行卷积得到第三个特征图大小为1*64*160*160，在第三个特征图基础上进行卷积得到第四个特征图大小为1*128*80*80，随后输出的特征图输入到双重注意力颈部模块中。

如图4所示，多尺度模块将输入的特征图通道均等分割为不同部分，且不同部分的特征图通道经过不同卷积核的内卷卷积层卷积操作后进入特征融合模块。在本方案的一实施例中，输入的特征图通道被均分为三个部分，不同部分的特征图通道分别经历3*3内卷卷积、5*5内卷卷积、7*7内卷卷积处理后进入特征融合模块，以此方式可提取不同尺度的特征。

特征融合模块将多尺度模块输出的不同特征进行张量拼接后并进行特征通道混洗，以得到第一融合特征。

第一融合特征分别进入分支通道模块中的分支位置注意力模块和分支通道注意力模块内。分支位置注意力模块对输入的第一融合特征进行空间矩阵运算后与经过特征矩阵重塑的第一融合特征进行融合，以实现对第一融合特征的空间维度的语义相关性进行建模；分支通道注意力模块对输入的第一融合特征进行通道矩阵运算后与经过特征矩阵重塑的第一融合特征进行融合，以实现对第一融合特征的通道维度的语义相关性进行建模，得到分支位置输出特征和分支通道输出特征，经过分支位置注意力模块和分支通道注意力模块的特征输入特征拼接模块。

具体的，分支位置注意力模块内设置二级融合机制，此时，第一融合特征输入分支位置注意力模块后经过空间矩阵运算后输入空间注意力矩阵后得到一级位置特征，一级位置特征和经过特征矩阵重塑的第一融合特征进行融合得到一级位置特征；经过特征矩阵重塑的一级位置特征和第一融合特征进行融合得到分支位置输出特征。

同理，分支通道注意力模块内设置二级融合机制，此时，第一融合特征输入分支通道注意力模块经过通道矩阵运算后输入通道注意力矩阵后得到一级通道特征；一级通道特征和经过特征矩阵重塑的第一融合特征进行融合得到二级通道特征；经过特征矩阵重塑的二级通道特征和第一融合特征进行融合得到分支通道输出特征。

特征拼接模块对分支位置输出特征和分支通道输出特征进行特征通道堆叠，并对堆叠后的特征进行卷积输出卷积特征图，卷积特征图输入双重注意力颈部模块中被处理。

双重注意力颈部模块是一个基于自我约束机制捕获丰富的上下文依赖关系来解决目标检测任务的模块，双重注意力颈部模块内包括双重注意力模块，双重注意力模块包括位置关注模块和通道注意力模块，其中位置关注模块和通道注意力模块自适应地集成局部特征及其全局依赖性，该方式在传统全卷积之上附加两种类型的双重注意力模块：位置关注模块和通道注意力模块。

其中位置关注模块对空间中的语义相互依赖性进行建模，通过所有位置处的特征的加权和选择性地聚合每个位置处的特征的方式，将相似的特征都彼此相关，该位置关注模块可将不论距离如何的相似特征彼此相关；其中通道注意力模块对通道维度中的语义相互依赖性进行建模，通过整合所有通道映射中的相关特征选择性地强调相互依赖的信道映射。且两种类型的双重注意力模块的输出特征相加融合以进一步地改进特征表达，进而提高检测结果的准确度。

另外，本方案将双重注意力模块中的卷积层改为内卷卷积层。传统的卷积操作具有空间不变性和通道特异性两大基本特性，虽然空间不变性和通道特异性的性质在提高效率和解释平移不变性等价方面有意义，但是其剥夺了卷积核适应不同空间位置的不同视觉模式的能力，且局部性限制了卷积的感受野，导致传统卷积难以适用于小目标或者模糊图像的检测，且卷积核内部存在通道冗余的问题，使得卷积核对不同通道的灵活性受到限制。而内卷卷积是逆向卷积的方式，其具有通道不变性和空间特异性的特点，进而克服传统卷积存在的诸多问题，换言之，内卷卷积也更适用于小目标或者模糊图像的检测。

预测头部模块用于预测最终的多类别分类和边界框位置。预测头部模块包括分类子网络和边框回归子网络，其中分类子网络用于预测类别，回归子网络用于对边框进行预测，在神经网络浅层输出预测小目标的分支，在神经网络中层输出预测中等目标的分支，在神经网络深层输出预测大目标的分支，最后通过非极大值抑制选出和标签损失最小的预测框。如图2所示，图2是位置注意力模块的模块结构示意图。位置注意力模块包括依次连接的一级内卷层和至少两二级内卷层，二级内卷层的输出特征图经过特征矩阵重塑后和其他二级内卷层的输出特征依次融合得到位置融合特征图，位置融合特征图和初始位置输入特征图相加得到位置注意力模块输出特征图。

若位置注意力模块包括三个二级内卷层，上层二级内卷层的输出特征图经过特征矩阵重塑和转置后和经过特征矩阵重塑的中层二级内卷层的输出特征图进行融合后，再和经过特征矩阵重塑的下层二级内卷层的输出特征融合得到位置融合特征图，依次方式使得位置注意力模块可将所有位置的特征进行加权和选择性聚合，关联相似特征。

示例性的，初始位置输入特征图输入一级内卷层后经过内卷卷积后输出三个一级特征图:一级特征图A，一级特征图B，一级特征图C，此时三个一级特征图的大小均为C*H*W,一级特征图A经过二级内卷层内后进行特征矩阵重塑和转置得到N*C（N=H*W）的二级特征图A，一级特征图B经过二级内卷层后进行特征矩阵重塑得到C*N的二级特征图B，对一级特征图A和二级特征图B进行特征矩阵相乘后得到空间注意力图S，其中空间注意力图S的大小为N*N;一级特征图C进行特征矩阵重塑后得到C*N的二级特征图C,二级特征图S和空间注意力图S进行特征矩阵相乘并进行特征矩阵重塑，得到位置融合特征图，位置融合特征图的大小为C*H*W,随后将位置融合特征图和初始位置输入特征图进行特征元素相加，得到位置注意力特征图。

如图3所示，图3是通道注意力模块的模块结构示意图。通道注意力模块包括输出不同通道的特征图的内卷层，不同通道的特征图经过特征矩阵重塑后彼此融合后和初始通道输入特征图进行特征元素相加，得到通道注意力模块输出特征图。值得说明的是，通道注意力模块输出的通道注意力模块输出特征图是所有通道和初始通道输入特征图的加权数据，其建模特征映射之间的远程语义依赖性，强调依赖于类的特征映射并有助于提高特征可辨性。也就是说，通道注意力模块在高级特征的每个通道映射可以被重新看作特定于类的响应，并且不同的语义响应彼此相关联，通过利用通道映射之间的相互依赖关系，可以强调相互依赖的特征映射，并改进特定语义的特征表示。

示例性的，若通道注意力模块的内卷层可输出三个通道的特征图，上层通道的特征图经过特征矩阵重塑和转置后和中层通道的经过特征矩阵重塑的特征图进行融合后，并通过通道注意力矩阵处理后和下层通道的经过特征矩阵重塑的特征图进行融合得到通道融合特征图，通道融合特征图和初始通道输入特征图进行相加后得到通道注意力特征图。

主干网络输出的特征分别作为初始位置输入特征图输入位置注意力模块内进行处理得到位置注意力模块输出特征图；作为初始通道输入特征图输入通道注意力模块内进行处理得到通道注意力模块输出特征图。

值得一提的是，本方案利用内卷卷积替代传统的卷积，这是由于内卷层的设计原则就是颠倒常规卷积核的两个设计原则，即从空间无关性，频域特殊性转变成空间特殊性，频域无关性；内卷卷积在设计上在通道维度共享kernel，而在空间维度采用空间特异的kernel进行更灵活的建模。involution kernel的大小为H*W*K*K*G，其中G<<C，表示所有通道共享G个kernel。在involution中没有采用固定的weight matrix作为可学***均池化层），最后我们可以得到一个形状为N*(K * K * Groups)H*W的张量。内卷层注重的是频域无关性，空间特殊性，因此它分组卷积的做法是每一组内的特征图共享一个卷积核的参数，但是同一组内，不同空间位置，使用的是不同的卷积核；处理完后，再把各组的结果拼接回来。为了平衡参数量和精度，网络中内卷层的超参数选择为7*7大小的Kernel，分组通道数为16，生成Kernel的卷积模块里，reduction（通道压缩比例）参数设为4。

Involution的双重优势：1.可以在更广阔的空间中聚合上下文，从而克服了对远程交互进行建模的困难；2.可以在不同位置上自适应地分配权重，从而对空间域中信息最丰富的视觉元素进行优先排序；此外参数量、计算量降低，性能提升；这种从convolution到involution的设计实际上是在微观粒度对算力进行了重新调配，而网络设计的本质就是对算力的分配，目的是将有限的算力调整到最能发挥性能的位置。NAS则是在宏观粒度上通过自动搜索的手段对算力进行了最优配置。

在搭建了基本的多尺度目标检测模型的框架后用训练样本进行训练，训练样本输入该多尺度目标检测模型中进行训练，在训练时随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch，选定激活函数RELU，选定损失函数Loss以及当前数据下最大迭代次数（代数），预测头部模块利用k-means算法生成9个候选框，根据大中小目标每层(深层特征预测大目标，浅层特征预测小目标，中间层特征预测中目标）依次分配三个尺寸的候选框，即在每层的最后输出特征图上进行单元格划分，利用特征金字塔其中一层输出特征图尺寸大小为W*H，根据当前的k-means方法的数据聚类结果，如果当前数据下聚类结果显示大目标数据多，则在输出的大目标特征图上分配大于3个候选框使其在输出特征图上逐单元格去遍历特征图，其次根据聚类结果在中目标特征图上分配小于3个候选框，同理在小目标特征图上分配小于3个候选框，使其三个预测头部上分配的候选框个数为9个。

确定好以上各个参数之后将标注过的训练图像，按批次输入多尺度目标检测模型的框架，通过预测头部模块预测一个和目标对应的候选框，进行最后的卷积输出结果；所述输出的结果是训练时运行非极大值抑制：首先使用三个anchor boxes（候选框），那么对于预测层最后的特征会划分多个格子，每个特征单元格中的任何一个都会有三个预测的边界框；其次抛弃概率低的预测，即模型认为这个网格中什么都没有的边界框；最后对于多种检测目标，对于每个类别单独运行非最大值抑制，输出最后的预测边框即为本此模型迭代之后预测边框能力，NMS的意义在于只剔除IOU高于阈值，即高度重叠的box，而不影响多目标检测。

另外，本方案的多尺度目标检测模型在训练中在硬件满足要求的情况下使用多个显卡，训练所用的深度学习框架为PyTorch，PyTorch的多GPU（显卡）并行处理机制是，首先将模型加载到主GPU上，然后再将模型复制到各个指定的从GPU中，然后将输入数据按batch（批次）维度进行划分，具体来说就是每个 GPU 分配到的数据batch数量是总输入数据的batch 除以指定GPU个数；每个 GPU 将针对各自的输入数据独立进行forward（前向传播）计算，最后将各个GPU的loss（损失）进行求和，再用反向传播更新单个GPU上的模型参数，再将更新后的模型参数复制到剩余指定的GPU中，这样就完成了一次迭代计算；确定以上神经网络参数之后，输入处理后的数据，反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

对应的，获取利用训练样本训练该多尺度目标检测模型，其中所述训练样本为标注有待检测目标的训练图像。

在本方案的实施例中，选择不同场景针对电梯内非机动车的监控视频图像作为训练样本，非机动车作为标注的待检测目标。具体的，选用不同地点不同时间获取的监控视频图像，并标注监控视频图像中的非机动车。此时，该多尺度目标检测模型可用于检测电梯中的非机动车。若标注监控视频图像中的人脸关键点，此时，该多尺度目标检测模型可用于检测电梯中的人脸关键点。

且为了增大训练样本的质量和数量，本方案对采集的训练样本进行几何变换数据增强：将采集的监控视频图像通过通过平移、旋转图像（45°，90°，180°，270°）、缩小图像（1/3,1/2）、Mosaic数据增强和剪切变换来增加数据。

示例性的，找出L段不同地点不同时间不同天气的电梯内含有非机动车的视频，Vi 表示第i段视频，Vi中共有Ni幅视频图像，从Ni幅视频图像中选取Mi幅视频图像作为训练样本，则从L段视频可获得

幅视频图像作为训练样本。若是人工采集图像的话，则采集远景和近景二类目标图像，以提供不同场景的训练。

第三方面，本方案提供一种电梯内非机动车检测方法，包括以下步骤：

获取电梯监控视频；所述电梯监控视频输入非机动车检测模型中进行非机动车检测，若检测到非机动车则触发人脸关键点检测模型进行人脸检测得到人脸关键点，基于所述人脸关键点识别人脸并确定对应人员信息。

在本方案中，首先对电梯内进行非机动车检测，在检测到非机动车后再触发人脸关键点检测模型进行二次检测，这样的好处在于大大地节省监控资源。若电梯内并无检测到非机动车的话，则表示此时电梯内不存在“违规事件”则无需进行人脸的识别。

“所述电梯监控视频输入非机动车检测模型中进行非机动车检测”中的非机动车检测模型可采用常规的神经卷积模型，但本方案基于电梯内停放非机动车的特殊场景需求对非机动车检测模型进行了优化。

具体的，所述非机动车检测模型中包括依次连接的依次连接的主干网络、双重注意力颈部模块和预测头部模块，其中主干网络的残差单元的卷积改进为双重多尺度注意力模块，双重多尺度注意力模块提取不同尺度的特征并汇总得到第一融合特征，并结合所述第一融合特征的局部特征和全局依赖关系，所述双重注意力颈部模块包括平行通道的位置注意力模块和通道注意力模块，位置注意力模块和通道注意力模块中内设置内卷卷积层，且位置注意力模块和通道注意力模块的输出特征融合后输入预测头部模块。

对应的，“所述电梯监控视频输入非机动车检测模型中进行非机动车检测”包括步骤：所述电梯监控视频的待检测图像的第一卷积特征图被通道均分成不同部分，不同部分的通道被内卷卷积后融合得到第一融合特征，所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；所述第二卷积特征图再次分别进行空间维度建模和通道维度建模得到位置注意力特征图和通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；所述第三卷积特征图输入预测头部模块得到待检测目标，所述待检测目标为非机动车。

关于非机动车检测模型的具体内容可参见第一方面和第二方面的内容描述。

“触发人脸关键点检测模型进行人脸检测得到人脸关键点”中的人脸关键点检测模型的架构也可采用常规的卷积神经网络，也可同于非机动车检测模型的模型结构设计，此时和非机动车检测模型的不同之处仅在于人脸关键点检测模型在最后预测的时候，损失函数中加入了关键点定位的损失计算，所述关键点为两个眼睛中间的点、鼻尖的点和嘴角的两点，即5个关键点；所述损失为wingloss损失函数，且利用人脸图像作为训练进行训练。

对应的，利用人脸关键点训练所述人脸关键点检测模型，利用非机动车图像训练所述非机动车检测模型。也就是说, “触发人脸关键点检测模型进行人脸检测得到人脸关键点”包括步骤：所述电梯监控视频的待检测图像的第一卷积特征图被通道均分成不同部分，不同部分的通道被内卷卷积后融合得到第一融合特征，所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；所述第二卷积特征图再次分别进行空间维度建模和通道维度建模得到位置注意力特征图和通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；所述第三卷积特征图输入预测头部模块得到待检测目标，所述待检测目标为人脸关键点。

在本方案中，“基于所述人脸关键点识别人脸”包括：基于人脸关键点自所述电梯监控视频截取人脸区域，并基于人脸关键点对人脸进行矫正得到矫正图像，矫正图像和人脸数据库进行比对后，识别对应的人脸。在本方案中，人脸矫正的目的是提高人脸识别的准确度。

具体的，“矫正图像和人脸数据库进行比对”进一步的包括：提取矫正图像中的人脸特征，人脸特征和人脸数据库的人脸进行特征比对。

“提取矫正图像中的人脸特征”包括：输入矫正图像，通过深度卷积网络提取人脸特征，L2标准化得到一个长度为128特征向量；人脸数据库的初始化执行的过程：遍历人脸数据库中所有的图片。

具体的，利用人脸关键点检测模型检测每个图片中的人脸，将人脸截取下来将获取到的人脸进行对齐，利用EfficientNetv2神经网络将人脸进行编码得到人脸特征，将所有人脸特征放在一个列表中；实时图片中的人脸特征与人脸数据库中的特征进行比对：获取实时图片中的每一个人脸特征，将每一个人脸特征和人脸数据库中所有的人脸特征进行比较，计算人脸特征的相似度，如果距离大于门限值则认为其具有一定的相似度，获得每一张人脸在数据库中最相似的人脸的序号，判断这个序号对应的人脸相似性是否大于设置阈值，如果大于阈值选择一个最大相似性的人脸，选出来的最相似的人脸即为神经网络判断的结果。

“若检测到非机动车则触发人脸关键点检测模型进行人脸检测得到人脸关键点”也进一步包括：若检测到非机动车则在预警平台发出预警，提示管控人员。

“确定对应人员信息”进一步包括利用知识图谱技术在人员信息库内获取对应人脸的人员信息。所述人员信息库内记录关于该人脸的相关信息，示例性的，人员信息库内记录人员的相关信息，相关信息包括几幢、楼层、门牌号、电话等信息，这样可以提高对象查询的效率，神经网络识别功能和知识图谱技术搜索功能的串联应用，使非机动车进入电梯结案更加准确识别对象和快速定位住户地址，让社区治理更加简单高效安全。如图10所示，图10展示了一种示例的知识图谱示例，通过图10的知识图谱即可获知“张三”的居住位置以及联系方式等信息相关信息。

本方案提供的电梯内非机动车检测方法可用于社区人员的管控，在解决社区治理中对于非机动车禁入电梯高效管理和社区安全的高效治理。该方案首先通过非机动车检测模型在电梯监控视频中检测非机动车，检测到非机动车时进行非机动车进入电梯预警，然后人脸关键点检测模型再去检测人脸关键点对人脸进行矫正，随后提取矫正后的人脸特征并保存为128维的特征向量，紧接着利用特征提取算法提取图像库中已有人员的人脸图像，将提取到的每个人脸特征保存为128维的人脸向量并保存到指定的容器中，最后用矫正后的人脸特征去遍历图像库中的人脸特征，利用余弦相似性判断检测到的人脸是本楼层中哪位户主或者租客；随后利用知识图谱技术确定非机动车拥有者住在本小区什么单元、什么楼层和什么门牌号的准确信息；最后物业人员对非机动车进入电梯的户主和租客进行及时备案处理，同时通知保安人员及时到达现场进行处理。本方法将有效的管理常住人口和外来租客人员骑电动车进入电梯问题；上面所述方法为社区治理提供了一种安全、舒适、方便、快捷和开放的信息化生活空间，并依托深度学习技术，实现社区物业管理、运行的高效、互动和快捷。

当然，该方案还可推广应用于更大的街道社区治理或者更小的小区单元治理或者商场管理或者酒店管理中。

第四方面，如图9所示，本方案提供一种多尺度目标检测装置，可用于检测多尺度目标，包括：

目标获取单元，用于获取包含待检测目标的待检测图像；

关于该多尺度目标检测模型的相关内容可参见其上描述。

实施例四

本实施例还提供了一种电子装置，参考图11，包括存储器404和处理器402该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项多尺度目标检测方法、电梯内违停非机动车行为方法的实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种多尺度目标检测方法、电梯内违停非机动车行为方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是监控视频、待检测图像等，输出的信息可以是非机动车、人脸特征、人脸信息等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

获取包含待检测目标的待检测图像；

所述待检测图像所述待检测图像的第一卷积特征图通道被均分成不同部分，不同部分的所述第一卷积特征图通道被内卷卷积后融合得到第一融合特征，所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；

所述第三卷积特征图输入预测头部模块得到待检测目标。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、***、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多尺度目标检测方法，其特征在于，包括：

获取包含待检测目标的待检测图像；

所述第三卷积特征图输入预测头部模块得到待检测目标。

2.根据权利要求1所述的多尺度目标检测方法，其特征在于，“所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征”包括：所述第一融合特征经过空间矩阵运算后输入空间注意力矩阵后得到一级位置特征，所述一级位置特征和经过特征矩阵重塑的所述第一融合特征进行融合得到二级位置特征；经过特征矩阵重塑的所述二级位置特征和所述第一融合特征进行融合得到所述分支位置输出特征。

3.根据权利要求1所述的多尺度目标检测方法，其特征在于，“所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征”包括：所述第一融合特征经过通道矩阵运算后输入通道注意力矩阵后得到一级通道特征，所述一级通道特征和经过特征矩阵重塑的所述第一融合特征进行融合得到二级通道特征，经过特征矩阵重塑的所述二级通道特征和所述第一融合特征进行融合得到所述分支通道输出特征。

4.根据权利要求1所述的多尺度目标检测方法，其特征在于，“所述第二卷积特征图再次分别进行空间维度建模和通道维度建模得到位置注意力特征图和通道注意力特征图”包括：所述第二卷积特征图进入双重注意力模块的位置注意力模块中得到所述位置注意力特征图，所述第二卷积特征图进入双重注意力模块的位置注意力模块中得到所述通道注意力特征图。

5.根据权利要求4所述的多尺度目标检测方法，其特征在于，“所述第二卷积特征图进入双重注意力模块的位置注意力模块中得到所述位置注意力特征图”包括：所述第二卷积特征图经过一级内卷层后输入到至少两二级内卷层，自所述二级内卷层输出的输出特征图经过特征矩阵重塑后和其他所述二级内卷层的输出特征图依次融合得到位置融合特征图，所述位置融合特征图和所述二级卷积特征图相加得到所述位置注意力特征图。

6.根据权利要求4所述的多尺度目标检测方法，其特征在于，“所述第二卷积特征图进入双重注意力模块的位置注意力模块中得到所述通道注意力特征图”包括：所述第二卷积特征图经过内卷层后输出不同通道特征图，所述不同通道特征图经过特征矩阵重塑后彼此融合得到通道融合特征图，所述通道融合特征图和所述第二卷积特征图相加得到所述通道注意力特征图。

7.根据权利要求1所述的多尺度目标检测方法，其特征在于，所述待检测目标为电梯内的非机动车或人脸关键点。

8.一种多尺度目标检测模型，其特征在于，包括：依次连接的主干网络、双重注意力颈部模块和预测头部模块，其中所述主干网络的残差单元的卷积改进为双重多尺度注意力模块，所述双重多尺度注意力模块用于将输入的第一卷积特征图通道均分成不同部分，并对不同部分的所述第一卷积特征图通道进行内卷卷积操后融合得到第一融合特征，对所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，再融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；

所述双重注意力颈部模块包括平行通道的位置注意力模块和通道注意力模块，所述位置注意力模块和所述通道注意力模块中内设置内卷卷积层，所述位置注意力模块用于对所述第二卷积特征图分别进行空间维度建模得到位置注意力特征图，所述通道注意力模块用于对所述第二卷积特征图进行通道维度建模得到通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；

预测头部模块用于对所述第三卷积特征图进行预测。

9.根据权利要求8所述的多尺度目标检测模型，其特征在于，所述双重多尺度注意力模块包括依次连接的多尺度模块、特征融合模块、双重通道模块以及特征拼接模块，其中所述多尺度模块用于将输入的第一卷积特征图通道进行均分成不同部分，并利用内卷卷积层提取不同部分的所述第一卷积特征图通道提的不同尺度特征；所述特征融合模块用于融合所述不同尺度特征得到第一融合特征；所述分支通道模块包括平行通道的分支位置注意力模块和分支通道注意力模块，用于分别对所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征；所述特征拼接模块用于堆叠所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图。

10.根据权利要求9所述的多尺度目标检测模型，其特征在于，所述分支位置注意力模块对所述第一融合特征进行空间矩阵运算后与经过特征矩阵重塑的所述第一融合特征进行融合，所述分支通道注意力模块对所述第一融合特征进行通道矩阵运算后与经过特征矩阵重塑的所述第一融合特征进行融合。

11.根据权利要求8所述的多尺度目标检测模型，其特征在于，所述位置注意力模块包括依次连接的一级内卷层和至少两二级内卷层，自所述二级内卷层的输出特征图经过特征矩阵重塑后和其他所述二级内卷层的输出特征依次融合得到位置融合特征图，所述位置融合特征图和初始输入特征图相加得到位置注意力特征图。

12.根据权利要求8所述的多尺度目标检测模型，其特征在于，所述通道注意力模块包括输出不同通道特征图的内卷层，所述不同通道特征图经过特征矩阵重塑后彼此融合后得到通道融合特征图，所述通道融合特征图和所述第二卷积特征图相加得到所述通道注意力特征图。

13.根据权利要求8所述的多尺度目标检测模型，其特征在于，包括利用训练样本训练所述多尺度目标检测模型，其中所述训练样本为标注有待检测目标的训练图像。

14.一种电梯内非机动车检测方法，其特征在于，包括：

获取电梯监控视频；

所述电梯监控视频的待检测图像的第一卷积特征图通道被均分成不同部分，不同部分的所述第一卷积特征图通道被内卷卷积后融合得到第一融合特征，所述第一融合特征分别进行空间维度建模和通道维度建模得到分支位置输出特征和分支通道输出特征，融合所述分支位置输出特征和所述分支通道输出特征得到第二卷积特征图；所述第二卷积特征图再次分别进行空间维度建模和通道维度建模得到位置注意力特征图和通道注意力特征图，所述位置注意力特征图和所述通道注意力特征图堆叠后进行卷积操作得到第三卷积特征图；所述第三卷积特征图输入预测头部模块得到待检测目标，所述待检测目标为非机动车；若检测到非机动车则触发人脸关键点检测模型进行人脸检测得到人脸关键点，基于所述人脸关键点识别人脸并确定对应人员信息。

15.根据权利要求14所述的电梯内非机动车检测方法，其特征在于，所述人脸关键点检测模型相较所述非机动车检测模型在预测的损失函数中加入了关键点定位的损失计算。

16.根据权利要求14所述的电梯内非机动车检测方法，其特征在于，“基于所述人脸关键点识别人脸”包括步骤：基于所述人脸关键点自所述电梯监控视频截取人脸，并基于所述人脸关键点对截取的所述人脸进行矫正得到矫正图像，所述矫正图像和人脸数据库进行比对后，识别对应的人脸。

17.一种多尺度目标检测装置，其特征在于，包括：

目标获取单元，用于获取包含待检测目标的待检测图像；

18.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一所述的多尺度目标检测方法，以及权利要求14-16所述的电梯内非机动车检测方法。

19.一种计算机程序产品，其特征在于，包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述代码软件部分用于执行权利要求1至7任一所述的多尺度目标检测方法，以及权利要求14-16所述的电梯内非机动车检测方法。

20.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括执行权利要求1至7任一所述的多尺度目标检测方法，以及权利要求14-16所述的电梯内非机动车检测方法。