CN113435270A

CN113435270A - 目标检测方法、装置、设备及存储介质

Info

Publication number: CN113435270A
Application number: CN202110647832.2A
Authority: CN
Inventors: 吴凌云; 胡志强; 张少霆
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-24
Also published as: WO2022257346A1

Abstract

本申请公开了一种目标检测方法、装置、设备及存储介质。该目标检测方法包括：获取目标图像帧以及若干支持图像帧，其中，目标图像帧和至少部分的支持图像帧通过不同时刻对目标进行拍摄得到；对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果，其中，支持图像帧对应的聚合权重与支持图像帧的图像质量相关，和/或，在特征聚合之前对目标图像帧和支持图像帧进行基于目标的特征对齐；利用聚合结果分别对目标图像帧的初始检测结果进行调整，得到目标图像帧对应的最终检测结果，其中，所述初始检测结果是关于目标的检测结果。上述方案，能够提高目标检测结果的准确度。

Description

目标检测方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标检测方法、装置、设备及存储介质。

背景技术

一般地，目标检测的目的是对图片或视频中感兴趣的目标进行检测。

目标检测一般都是对单张图像进行目标检测。但是若将这种方式应用到对视频的检测中，对视频进行检测，得到的视频的检测结果不佳。例如，一段视频中可能需要检测的目标在移动，也可有可能拍摄视频的相机在移动，这两种情况都有可能导致单张视频帧中目标不太清楚，因此，急需一种方法能够对视频进行检测。

发明内容

本申请至少提供一种目标检测方法、装置、设备及存储介质。

本申请提供了一种目标检测方法，包括：获取目标图像帧以及若干支持图像帧，其中，目标图像帧和至少部分的支持图像帧通过在不同时刻对目标进行拍摄得到；对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果，其中，支持图像帧对应的聚合权重与支持图像帧的图像质量相关，和/或，在特征聚合之前对目标图像帧和支持图像帧进行基于目标的特征对齐；利用聚合结果分别对目标图像帧的初始检测结果进行调整，得到目标图像帧对应的最终检测结果，其中，初始检测结果是关于目标的检测结果。

因此，通过利用支持图像帧与目标图像帧进行特征聚合，使得能够利用各帧之间的时序信息，及使得目标图像帧能够参考支持图像帧的信息，从而对目标图像帧的初始检测结果进行调整，得到更为准确的检测结果。另外，通过支持图像帧的图像质量确定支持图像帧的聚合权重，即在特征聚合过程中考虑图像质量，能够获取得到更为有效的聚合特征，进而可进一步提高目标检测的准确性。或者，通过在特征聚合之前对目标图像帧和支持图像帧进行基于目标的特征对齐，能够提高特征对齐的目标中心感知能力，进而缓解各帧中特征的空间不一致性，进而可进一步提高目标检测的准确性。

其中，对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果，包括：确定支持图像帧的第一支持特征的聚合权重；其中，第一支持特征的聚合权重与支持图像帧的图像质量相关；基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征，其中，聚合结果包括聚合特征。

因此，通过确定支持图像帧的第一支持特征对应的聚合权重，并且该聚合特征与支持图像帧的图像质量有关，从而根据该聚合权重对第一目标特征和第一支持特征进行聚合，从而可以得到更为准确的聚合特征。

其中，确定支持图像帧的第一支持特征的聚合权重，包括：基于第一支持特征的第一支持特征和第一目标特征，确定第一支持特征的聚合权重；和/或，基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征，包括：利用聚合权重分别对若干支持图像帧的第一支持特征进行加权，得到各加权后的第一支持特征；将第一目标特征与各加权后的第一支持特征进行相加，得到聚合特征。

因此，通过使用第一支持特征和第一目标特征确定第一支持特征的聚合权重，从而根据该聚合权重对支持图像帧进行加权，进而得到的聚合特征更为准确。

其中，基于第一支持特征和第一目标特征，确定第一支持特征的聚合权重，包括：将第一支持特征与第一目标特征进行相乘，得到第一支持特征的聚合权重。

因此，通过将第一支持特征与第一目标特征相乘，使得质量更好的支持图像帧对应的聚合权重更大，质量较差的支持图像帧对应的聚合权重更小。

其中，在基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征之前，方法还包括：将第一支持特征的聚合权重进行归一化处理。

因此，将第一支持特征的聚合权重进行归一化处理，使得各支持图像帧的聚合权重之和能够固定，例如为1，并且各聚合权重均处于0-1之间，从而提高各聚合权重的有效性。

其中，目标图像帧对应有多个通道的第一目标特征，支持图像帧对应有多个通道的第一支持特征；对于每个通道，分别执行确定支持图像帧的第一支持特征的聚合权重，以及基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征的步骤，以得到各通道的聚合特征。

因此，通过对每个通道分别确定支持图像帧的第一支持特征的聚合权重，能够深度挖掘帧间相关性以及得到更有效的聚合特征。

其中，目标图像帧和若干支持图像帧进行特征聚合是将目标图像帧的第一目标特征和支持图像帧的第一支持特征进行聚合；对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果之前，方法还包括：将对目标图像帧提取得到的第二目标特征作为第一目标特征，对支持图像帧提取得到的第二支持特征作为第一支持特征；或者，获取各所支持图像帧的至少一个初始检测结果；利用目标图像帧和支持图像帧对应的初始检测结果，将第二目标特征分别和各第二支持特征进行特征对齐，得到初始检测结果对应的第一目标特征和各第一支持特征；以及其中，初始检测结果对应的第一目标特征和各第一支持特征对应的聚合结果用于对初始检测结果进行调整以得到对应的最终检测结果。

因此，通过对目标图像帧的第二目标特征和支持图像帧的第二支持特征进行特征对齐，能够提高特征聚合的准确度。

其中，利用目标图像帧和支持图像帧对应的初始检测结果，将第二目标特征分别和各第二支持特征进行特征对齐，得到初始检测结果对应的第一目标特征和第一支持特征，包括：利用目标图像帧和支持图像帧对应的初始检测结果，得到第二目标特征的第一偏移量和第二支持特征的第一偏移量；利用第二目标特征的第一偏移量，对第二目标特征进行空间变换，得到第一目标特征；以及对于每个第二支持特征，利用第二支持特征的第一偏移量，对第二支持特征进行空间变换，得到第二支持特征对应的第一支持特征。

因此，通过利用目标图像帧和支持图像帧对应的初始检测结果确定第二目标特征的第一偏移量和各第二支持特征的第一偏移量，从而利用该偏移量对第二目标特征和第二支持特征进行对齐，即在特征对齐的过程中是以目标为指导，忽略了背景变化，从而能够缓解帧之间目标的空间不一致性。

其中，利用目标图像帧和支持图像帧对应的初始检测结果，得到第二目标特征的第一偏移量和各第二支持特征的第一偏移量，包括：对目标图像帧的初始检测结果进行第一卷积，得到第二目标特征的第一偏移量，以及对于每个支持图像帧，对支持图像帧的初始检测结果与目标图像帧的初始检测结果之间的差异进行第一卷积，得到支持图像帧对应的第二支持特征的第一偏移量。

因此，通过利用目标图像帧的初始检测结果和支持图像帧的初始检测结果之间的差异得到第二支持特征的第一偏移量，以及利用目标图像帧的初始检测结果得到第二目标特征的第一偏移量，即可利用对应的第一偏移量分别对第二目标特征以及第二支持特征进行空间变换。

其中，利用第二目标特征的第一偏移量，对第二目标特征进行空间变换，得到第一目标特征，以及对于每个第二支持特征，利用第二支持特征的第一偏移量，对第二支持特征进行空间变换，得到第二支持特征对应的第一支持特征，包括：利用第二目标特征的第一偏移量对第二目标特征进行第二卷积，得到第一目标特征，以及对于每个第二支持特征，利用第二支持特征的第一偏移量对第二支持特征进行第二卷积，得到第二支持特征对应的第一支持特征。

因此，通过分别利用对应的第一偏移量对第二目标特征和第二支持特征进行第二卷积，使得经过第二卷积之后的第一支持特征和第一目标特征实现特征对齐。

其中，第一卷积为采用第一预设大小的第一卷积核进行卷积；和/或，利用第二目标特征的第一偏移量对第二目标特征进行第二卷积，得到第一目标特征，以及利用第二支持特征的第一偏移量对第二支持特征进行第二卷积，得到第一支持特征，包括：利用第二目标特征的第一偏移量对第二卷积核进行第一变形，以经第一变形的第二卷积核对第二目标特征进行卷积，得到第一目标特征；以及，利用第二支持特征的第一偏移量对第二卷积核进行第二变形，以经第二变形的第二卷积核对第二支持特征进行卷积，得到第一支持特征。

因此，第一卷通过利用第一预设大小的第一卷积核进行卷积，使得输出的偏移量的维度固定。另外，通过利用第一偏移量对第二卷积核进行变形，然后利用变形之后的卷积核对第二目标特征和第二支持特征进行卷积，从而可以得到对应的第一支持特征和第一目标特征。

其中，第一卷积是利用第一卷积层实现，其中，目标图像帧和各支持图像帧对应的第一卷积层共享权重，和/或，目标图像帧和各支持图像帧对应的第一卷积层所采用的第一卷积核的大小相同；以及第二卷积是利用第二卷积层实现，其中，目标图像帧和各支持图像帧对应的第二卷积层共享权重，和/或，目标图像帧和各支持图像帧对应的第二卷积层所采用的第二卷积核的大小相同。

因此，通过目标图像帧和支持图像帧对应的第一卷积层共享权重以及目标图像帧和支持图像帧对应的第二卷积层共享权重，能够减少训练过程中需要训练的参数，提高训练速度，并且，能够使得卷积层泛化。另外，通过目标图像帧和支持图像帧对应的第一卷积层所采用的第一卷积核的大小相同，使得输出的第一偏移量的维度相同。另外，目标图像帧和支持图像帧对应的第二卷积层所采用的第二卷积核的大小相同，使得输出的第一目标特征的维度与第一支持特征的维度相同。

其中，利用聚合结果分别对目标图像帧的初始检测结果进行调整，得到目标图像帧对应的最终检测结果，包括：基于聚合结果得到第二偏移量；利用第二偏移量对目标图像帧的初始检测结果进行处理，得到最终检测结果。

因此，通过利用聚合结果得到第二偏移量，从而利用第二偏移量获取最终检测结果，使得最终的检测结果相比初始检测结果更准确。

其中，基于聚合结果得到第二偏移量，包括：利用第二预设大小的卷积核对聚合结果进行卷积，得到第二偏移量；和/或，目标图像帧的初始检测结果包括关于目标的分类信息和目标在对应图像帧中的位置信息中的至少一种；以及利用第二偏移量对目标图像帧的初始检测结果进行处理，得到最终检测结果，包括：在目标图像帧的初始检测结果为分类信息的情况下，将第二偏移量与目标图像帧的初始检测结果相乘，得到最终检测结果；在目标图像帧的初始检测结果为位置信息的情况下，利用第二偏移量对目标图像帧的初始检测结果进行非线性变换，得到最终检测结果。

因此，通过利用第二预设大小的卷积核对聚合结果进行卷积，使得得到的初始检测结果的第二偏移量的维度相同。另外通过利用第二偏移量分别对初始检测结果中的分类信息以及位置信息进行调整，使得能够获取得到更为准确的关于目标的分类信息和位置信息。

其中，目标检测方法中的部分或全部步骤是由目标检测模型执行的，方法还包括以下对目标检测模型的训练步骤包括：获取样本目标图像帧的至少一个样本检测结果和若干样本支持图像帧；其中，样本目标图像帧和部分样本支持图像帧是在不同时刻对目标进行拍摄得到，样本目标图像帧标注有至少一个真实检测结果；对样本目标图像帧和若干样本支持图像帧进行特征聚合，得到样本聚合结果；利用样本聚合结果得到样本检测结果的样本偏移量；基于真实检测结果和样本检测结果之间的差异，得到第一损失，以及基于样本偏移量得到第二损失；利用第一损失和第二损失，调整目标检测模型的网络参数。

因此，通过结合样本检测结果对应的第一损失以及样本偏移量对应的第二损失，使得调整之后的目标检测模型的网络参数更准确。

其中，至少一个真实检测结果包括目标的真实分类信息和目标在对应图像帧中的真实位置信息，至少一个样本检测结果包括关于目标的预测分类信息和目标在对应图像帧中的预测位置信息；基于真实检测结果和样本检测结果之间的差异，得到第一损失，包括：基于真实分类信息和预测分类信息之间的差异，得到第三损失，以及基于真实位置信息和预测位置信息之间的差异，得到第四损失；利用第三损失和第四损失，得到第一损失；特征聚合是利用样本检测结果得到的，每个样本检测结果对应一个样本聚合结果，每个样本聚合结果对应一个样本偏移量，基于样本偏移量得到第二损失，包括：获取真实目标框和预测目标框之间的重合度，其中，真实目标框是基于真实位置信息得到的，预测目标框是基于预测位置信息得到；以及选择重合度大于或等于预设重合度的预测目标框；基于选择的预测目标框的预测分类信息对应的样本偏移量得到第五损失，以及基于选择的预测目标框的预测位置信息对应的样本偏移量得到第六损失；利用第五损失和第六损失，得到第二损失。

因此，分别计算样本检测结果中的分类信息和位置信息对应的损失，以及基于预测分类信息对应的样本偏移量和基于选择的预测目标框对应的样本偏移量得到第六损失综合确定损失，使得损失更为准确。进一步地，在预测目标框与真实目标框之间的重合度大于或等于预设重合度的情况下，才计算该部分预测目标框对应的第六损失，从而能够提高第六损失的准确度。

本申请提供了一种目标检测装置，包括：获取模块，用于获取目标图像帧以及若干支持图像帧，其中，目标图像帧和至少部分的支持图像帧通过不同时刻对目标进行拍摄得到；特征聚合模块，用于对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果，其中，支持图像帧对应的聚合权重与支持图像帧的图像质量相关，和/或，在特征聚合之前对目标图像帧和支持图像帧进行基于目标的特征对齐；调整模块，用于利用聚合结果分别对目标图像帧的初始检测结果进行调整，得到目标图像帧对应的最终检测结果，其中，初始检测结果是关于目标的检测结果。

本申请提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述目标检测方法。

本申请提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述目标检测方法。

上述方案，通过利用支持图像帧与目标图像帧进行特征聚合，使得能够利用各帧之间的时序信息，及使得目标图像帧能够参考支持图像帧的信息，从而对目标图像帧的初始检测结果进行调整，得到更为准确的检测结果。另外，通过支持图像帧的图像质量确定支持图像帧的聚合权重，即在特征聚合过程中考虑图像质量，能够获取得到更为有效的聚合特征，进而可进一步提高目标检测的准确性。或者，通过在特征聚合之前对目标图像帧和支持图像帧进行基于目标的特征对齐，能够提高特征对齐的目标中心感知能力，进而缓解各帧中特征的空间不一致性，进而可进一步提高目标检测的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请目标检测方法一实施例的流程示意图；

图2a是本申请目标检测方法一实施例中示出第一变形前的第二卷积核的示意图；

图2b是本申请目标检测方法一实施例中示出第一变形后的第二卷积核的第一示意图；

图2c是本申请目标检测方法一实施例中示出第一变形后的第二卷积核的第二示意图；

图2d是本申请目标检测方法一实施例中示出第一变形后的第二卷积核的第三示意图；

图3是本申请目标检测方法一实施例示出获取初始检测结果的流程图；

图4是本申请目标检测方法另一实施例的流程示意图；

图5是本申请目标检测装置一实施例的结构示意图；

图6是本申请电子设备一实施例的结构示意图；

图7是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本申请提供一些目标检测方法以及装置。该目标检测方法可以应用在医学检测上。例如，应用在内窥镜检测中，各帧图像帧为内窥镜拍摄的生物内部图像，目标可以是生物内部任意需要检测的对象，例如息肉等。

请参阅图1，图1是本申请目标检测方法一实施例的流程示意图。

具体而言，目标检测方法可以包括如下步骤：

步骤S11：获取目标图像帧以及若干支持图像帧，其中，目标图像帧和至少部分的支持图像帧通过不同时刻对目标进行拍摄得到。

本申请提出的若干可以是一个，两个或三个及以上，下同。至少部分为一帧及以上。例如，至少部分可以是至少一帧，至少两帧等等。一些公开实施例中，目标图像帧和支持图像帧可以是一段视频内的视频帧。其中，目标图像帧可以从需要进行目标检测的视频中进行确定。例如，每间隔预设数量的视频帧确定一帧视频帧作为目标图像帧。其中，支持图像帧可以是目标图像帧的相邻帧，也可以不是目标图像帧的相邻帧，例如一段视频中，与目标图像帧处于一段预设范围内的视频帧均可以作为支持图像帧，具体可以通过对这一段预设范围内的视频帧进行采样，得到较少数量的支持图像帧。采样的方式可以是随机采样，也可以是按照预设规律进行采样，此处不对采样方式进行限制。预设范围可以是时间，例如，预设范围可以是位于目标图像帧之前和/或之后的预设时间段。当然，选择支持图像帧的方式还可以是对该预设范围内的视频帧的质量进行分析，确定质量满足预设质量的视频帧作为支持帧。这里的质量可以是亮度、清晰度等等，当预设范围内没有满足预设质量要求的视频帧时，可以采用采样的方式确定支持帧或发出需重新拍摄的提醒，以便看到该提醒的用户可以重新拍摄，进一步地，提醒中可以包括拍摄建议，该建议可以是提高该视频帧质量的方式，例如提高亮度、减慢移动速度。

其中，当目标图像帧为视频的首帧或尾帧时，可以复制至少一帧目标图像帧，并将复制的目标图像帧与其余非目标图像帧的视频帧一起作为支持图像帧。

其中，这里的视频可以是拍摄设备位置移动，拍摄的目标固定的情况下，对目标拍摄得到，也可以是拍摄设备位置固定，而目标位置移动的情况下，对目标拍摄得到。一些具体场景中，视频可以是内窥镜对胃肠道进行检查中拍摄的视频。目标可以是息肉。在内窥镜对胃肠道进行检查中，内窥镜本身在移动，而且胃肠道也在进行运动。也就是这种情况下，摄像机会移动，人体在进行呼吸等运动时，视频帧之间会出现较为明显的背景变化，而且人体的胃肠道随着人体呼吸也是在不断运动的，此时很难使用光流的方式传递帧间特征。

步骤S12：对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果，其中，支持图像帧对应的聚合权重与支持图像帧的图像质量相关，和/或，在特征聚合之前对目标图像帧和支持图像帧进行基于目标的特征对齐。

第一公开实施例中，支持图像帧对应的聚合权重与支持图像帧的图像质量相关。即，支持图像帧质量越好，其对应的聚合权重越大。例如，一支持图像帧清晰，亮度较为明亮，另一支持图像帧较为模糊，亮度较暗，这种情况下，前一支持图像帧对应的聚合权重大于后一支持图像帧对应的聚合权重。其中，这里的质量除了可以用清晰度、亮度来评价之外，可以是使用其他任意可能影响目标检测的因素来评判，例如是否存在其他物体遮挡等等因素。关于质量的具体确定方式，可以根据具体使用场景具体确定，此处不做具体规定。一些具体场景中，若将目标检测方法应用于医学领域中，例如，对胃肠道检查中内窥镜提供的视频进行目标检测，可以对息肉进行定位，以便后续进行医学处理。严重的内部伪影(例如，人体内的水流，组织的镜面反射)可能会使得相邻的视频帧的质量发射明显的变化。若不考虑视频帧之间的质量，按照一样的聚合权重进行特征聚合可能会导致最终的检测结果并不准确。因此，本公开实施例根据各支持图像帧的质量确定聚合权重，从而提高了最终检测结果的准确度。

第二公开实施例中，在特征聚合之前，对目标图像帧和支持图像帧进行基于目标的特征对齐。其中，基于目标的特征对齐可以是基于目标图像帧和/或支持图像帧中检测到的目标进行特征对齐。其中，这里的特征对齐可以目标图像帧和支持图像帧对应的特征点进行对齐。继上例，在对内窥镜提供的视频进行目标检测的过程中，因为这种情况相比与摄影机位置固定拍摄得到的视频而言，因为内窥镜是在不断移动的，所以会导致视频帧之间会出现明显的背景变化，本实施例中，选择基于检测到的目标进行特征对齐。通过在特征聚合之前，先对目标图像帧和支持图像帧进行基于目标的特征对齐，从而能够增强在特征聚合过程中对目标的感知能力。

第三公开实施例中，在特征聚合之前，先对目标图像帧和支持图像帧进行基于目标的特征对齐，然后再基于特征对齐的目标图像帧和支持图像帧的质量确定各支持图像帧对应的聚合权重，然后对特征对齐之后的目标图像帧和支持图像帧进行特征聚合。在该第三公开实施例中，特征聚合过程中考虑图像质量，能够获取得到更为有效的聚合特征，进而可进一步提高目标检测的准确性，进一步地，在特征聚合之前对目标图像帧和支持图像帧进行基于目标的特征对齐，能够提高特征对齐的目标中心感知能力，进而缓解各帧中特征的空间不一致性，进而可进一步提高目标检测的准确性。

可以理解的是，在不同应用场景中，可选择上述不同公开实施例，即在特征聚合过程中可以选择采用第一公开实施例、第二公开实施例或第三公开实施例中的任一方案来提高目标检测的准确性。

步骤S13：利用聚合结果分别对目标图像帧的各初始检测结果进行调整，得到目标图像帧对应的最终检测结果，其中，初始检测结果是关于目标的检测结果。

其中，在存在两个及以上的目标图像帧的初始检测结果的情况下，每一初始检测结果可以对应有一聚合结果。例如，一些公开实施例中，初始检测结果可以包括关于目标的分类信息的初始检测结果，也可以包括关于目标的位置信息的初始检测结果。在存在关于目标的分类信息的初始检测结果和关于目标的位置信息的初始检测结果的情况下，可以使用对关于目标的位置信息的初始检测结果对应的聚合结果，对关于目标的位置信息的初始检测结果进行调整，以得到关于目标的位置信息的最终检测结果，以及使用关于目标的分类信息的初始检测结果对应的聚合结果，对关于目标的分类信息的初始检测结果进行调整，以得到关于目标的分类信息的最终检测结果。可以理解的是，各初始检测结果对应的聚合结果可以不同，也可以相同，也就是关于目标的分类信息的初始检测结果对应的聚合结果以及关于目标的位置信息的初始检测结果对应的聚合结果可以相同，也可以不同。例如，在使用上述第一公开实施例求解得到的聚合结果的情况下，关于目标的分类信息和位置信息的初始检测结果对应的聚合结果可能相同。利用初始检测结果对应的聚合结果对初始检测结果进行调整，即可得到目标图像帧对应的最终检测结果。

一些公开实施例中，对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果的步骤可以包括：

一、确定支持图像帧的第一支持特征的聚合权重。其中，第一支持特征的聚合权重与支持图像帧的图像质量相关。其中，这里的第一支持特征可以是基于支持图像帧得到的第一支持特征图中的特征，也可以是支持图像帧中的特征。其中，确定支持图像帧的第一支持特征的聚合权重的方式可以是：基于第一支持特征和第一目标特征，确定第一支持特征的聚合权重。这里的第一目标特征为目标图像帧对应的第一目标特征。其中，目标图像帧的第一目标特征可以是基于目标图像帧得到的第一目标特征图中的特征，也可以是目标图像帧中的像素特征。本公开实施例中，第一支持特征是基于支持图像帧得到的第一支持特征图中的特征，第一目标特征是基于目标图像帧得到的第一目标特征图中的特征。具体地，基于第一目标特征和第一目标特征，确定第一支持特征的聚合权重的方式可以将第一支持特征与第一目标特征进行相乘，得到第一支持特征的聚合权重。其中，在存在多个支持图像帧的情况下时，即存在多个第一支持特征时，可以先将各第一支持特征进行级联，然后利用级联之后的各第一支持特征分别与第一目标特征进行相乘，分别得到各第一支持特征对应的聚合权重。其中，在得到聚合权重后，且在进行聚合得到聚合特征之前，可以将第一支持特征的聚合权重进行归一化处理。具体可使用softmax函数进行归一化，通过对第一支持特征的聚合权重进行归一化处理，使得各第一支持特征的聚合权重之和为1。通过将第一支持特征与第一目标特征相乘，使得质量更好的支持图像帧对应的聚合权重更大，质量较差的支持图像帧对应的聚合权重更小。另外，将第一支持特征的聚合权重进行归一化处理，使得各支持图像帧的聚合权重之和固定，例如为1，并且各聚合权重均处于0-1之间，从而提高各聚合权重的有效性。其中，将第一支持特征与第一目标特征进行相乘之前，分别对第一支持特征与第一目标特征进行维度变形和置换，以便进行相乘操作。具体地，对第一目标特征只进行维度变形，对第一支持特征进行维度变形和置换。置换操作为转置。其中，维度变形为置换可参见一般的操作，此处不再赘述。

其中，根据各第一支持特征和第一目标特征获取聚合权重

的公式可以是：

其中，R代表变形，F_t ^l表示第二目标特征，

表示第二支持特征的级联。T表示转置。d_f表示比例因子。具体地，本公开实施例中，d_f等于H*W，代表第一目标特征的尺寸。

二、基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征。通过确定支持图像帧的第一支持特征对应的聚合权重，并且该聚合特征与支持图像帧的图像质量有关，从而根据该聚合权重对第一目标特征和第一支持特征进行聚合，从而可以得到更为准确的聚合特征。

其中，目标图像帧可以对应有一个通道或两个及以上通道的第一目标特征，支持图像帧也对应有一个通道或两个及以上通道的第一支持图像。本公开实施例中，目标图像帧对应有多个通道的第一目标特征，支持图像帧对应有多个通道的第一支持特征。多个通道可以是两个及以上的通道，例如三个、三十个、三百个等等。关于具体通道的数量此处不做具体规定。对于每个通道，分别执行确定支持图像帧的第一支持特征的聚合权重，以及基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征的步骤，以得到各通道的聚合特征。也就是每个通道相对独立，每个通道的目标图像帧的第一目标特征的数量相同，并且每个通道的支持图像帧的第一支持特征的数量相同，以及每个通道的聚合权重数量相同。每个通道中各支持图像帧的第一支持特征对应的聚合权重相对独立的确定，也就是各通道对应的聚合权重之间的依赖关系较低。通过对每个通道分别确定支持图像帧的第一支持特征的聚合权重，能够深度挖掘帧间相关性以及得到更有效的聚合特征。

基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，可以看做是基于第一支持特征的聚合权重，对若干支持图像帧对应的第一支持特征图和目标图像帧对应的第一目标特征图进行聚合，得到聚合特征图，上述聚合特征即为聚合特征图中的特征。具体地，利用聚合权重分别对若干支持图像帧的第一支持特征进行加权，得到各加权后的第一支持特征。也即是，将聚合权重分别与若干支持图像帧的第一支持特征进行相乘，以实现对第一支持特征进行加权。将第一目标特征与各加权后的第一支持特征进行相加，得到聚合特征。通过使用第一支持特征和第一目标特征确定第一支持特征的聚合权重，从而根据该聚合权重对支持图像帧进行加权，进而得到的聚合特征更为准确。

一些公开实施例中，目标图像帧和若干支持图像帧进行特征聚合是将目标图像帧的第一目标特征和支持图像帧的第一支持特征进行聚合。

其中，在对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果之前，目标检测方法还包括以下步骤：

将对目标图像帧提取得到的第二目标特征作为第一目标特征，对支持图像帧提取得到的第二支持特征作为第一支持特征。第二目标图像可以看作是第二目标特征图中的特征，第二支持特征可以看做是第二支持特征图中的特征。这种情况指的是在进行特征聚合之前，没有对目标图像帧和支持图像帧进行基于目标的特征对齐的步骤。直接将对目标图像帧提取得到的第二目标特征作为第一目标特征，对支持图像帧提取得到的第二支持特征作为第一支持特征。

另一些公开实施例中，在特征聚合之前，执行对目标图像帧和支持图像帧进行基于目标的特征对齐的步骤。具体地，获取各支持图像帧的至少一个初始检测结果。利用目标图像帧和支持图像帧对应的初始检测结果，将第二目标特征分别和各第二支持特征进行特征对齐，得到初始检测结果对应的第一目标特征和各第一支持特征。第二目标特征可以是基于目标图像帧得到的第二目标特征图中的特征，同理，第二支持特征可以是基于支持图像帧得到的第二支持特征图中的特征。通过对目标图像帧的第二目标特征和支持图像帧的第二支持特征进行特征对齐，能够提高特征聚合的准确度。

其中，初始检测结果对应的第一目标特征和各第一支持特征对应的聚合结果用于对初始检测结果进行调整以得到对应的最终检测结果。可选地，利用目标图像帧和支持图像帧对应的初始检测结果，得到第二目标特征的第一偏移量和各第二支持特征的第一偏移量。

具体地，可以通过目标图像帧对应的初始检测结果获取第二目标特征的第一偏移量，以及结合目标图像帧和支持图像帧对应的初始检测结果得到第二支持特征的第一偏移量。其中，在利用目标图像帧和支持图像帧对应的初始检测结果，得到第二目标特征和第二支持特征的第一偏移量之前，对初始检测结果进行变换，因为初始检测结果是基于目标图像帧或支持图像帧的，需要将其转换为基于第二目标特征图或基于第二支持特征图的。转换方式可以是归一化。具体地，利用关于目标的位置信息的初始检测结果对各初始检测结果进行转换。具体地，关于目标的位置信息的初始检测结果可以用{g_t}来表示，其中，{g_t}∈R^4*H*W表示为先验框与第二特征图(第二目标特征图或第二支持特征图)上所有空间位置之间的偏移量。其中，g_t是一个四维向量，g_t＝(l_t，t_t，r_t，b_t)用于表示每个空间位置到先验框的四个边界框的距离。其中，这里的空间位置指的是目标图像帧中的像素位置。归一化之后的

其中，sl为第二特征图(第二目标特征图或第二支持特征图)的尺寸与目标图像帧或支持图像帧的尺寸之间的比例。

其中，至少一个初始检测结果包括关于目标的分类信息和目标在对应图像帧中的位置信息。也就是可以对关于目标的分类信息的初始检测结果，获取对应的聚合结果，以及对关于目标的位置信息的初始检测结果，获取对应的聚合结果。其中，获取两种聚合结果的流程相同，唯一的区别点在于用于获取第一偏移量的初始检测结果为对应的关于目标的分类信息的初始检测结果或关于目标的分类信息的初始检测结果。也就是如果要获取关于目标的位置信息的初始检测结果对应的聚合结果，则使用关于目标的位置信息的初始检测结果获取对应的第一偏移量，如果要使用获取关于目标的分类信息的初始检测结果对应的聚合结果，则使用关于目标的分类信息的初始检测结果获取对应的第一偏移量。当然一些公开实施例中，无论是获取关于目标的分类信息的初始检测结果对应的聚合结果还是关于目标的位置信息的初始检测结果对应的聚合结果，均可以使用关于目标的位置信息的初始检测结果获取第二目标特征的第一偏移量。

其中，得到第二目标特征的第一偏移量的方式，可以是：对目标图像帧的初始检测结果进行第一卷积，得到第二目标特征的第一偏移量。其中，第一卷积为采用第一预设大小的第一卷积核进行卷积。第一预设大小可以根据实际需求自行设置，本公开实施例中第一预设大小为1*1。也就是使用1*1的卷积核对第二目标特征进行卷积，得到第一目标特征。第一卷通过利用第一预设大小的第一卷积核进行卷积，使得输出的偏移量的维度固定。具体地，将第二目标特征图输入1*1的卷积层进行卷积，以实现对第二目标特征进行卷积。以及对于每个所述支持图像帧，对支持图像帧的初始检测结果与目标图像帧的初始检测结果之间的差异进行第一卷积，得到支持图像帧对应的第二支持特征的第一偏移量。具体地，可以将目标图像帧的初始检测结果与支持图像帧的初始检测结果进行作差，得到二者之间的差异。其中，得到第二支持特征的第一偏移量的第一卷积同上述第一卷积，此处不再赘述。进一步地，第一卷积是利用第一卷积层实现。其中，目标图像帧和各支持图像帧对应的第一卷积层共享权重。一些公开实施例中，目标图像帧和各支持图像帧对应的第一卷积层所采用的第一卷积核的大小相同。一些公开实施例中，目标图像帧和各支持图像帧对应的第一卷积层所采用的第一卷积核中各采样点的参数相同。通过目标图像帧和支持图像帧对应的第一卷积层共享权重，能够减少训练过程中需要训练的参数，提高训练速度，并且，能够使得卷积层泛化。另外，通过目标图像帧和支持图像帧对应的第一卷积层所采用的第一卷积核的大小相同，使得输出的第一偏移量的维度相同。

然后，利用第二目标特征的第一偏移量，对第二目标特征进行空间变换，得到第一目标特征。以及，对于每个第二支持特征，利用第二支持特征的第一偏移量，对第二支持特征进行空间变换，得到第二支持特征对应的第一支持特征。通过利用目标图像帧和支持图像帧对应的初始检测结果确定第二目标特征和第二支持特征的第一偏移量，从而利用该偏移量对第二目标特征和第二支持特征进行对齐，即在特征对齐的过程中是以目标为指导，忽略了背景变化，从而能够缓解帧之间目标的空间不一致性。可选地，利用第二目标特征的第一偏移量对第二目标特征进行第二卷积，得到第一目标特征。以及对于每个第二支持特征，利用第二支持特征的第一偏移量对第二支持特征进行第二卷积，得到第二支持特征对应的第一支持特征。具体地，利用第二目标特征的第一偏移量，对第二目标特征图进行空间变换，得到第一目标特征图，以及利用第二支持特征的第一偏移量，对第二支持特征图进行空间变换，得到第一支持特征图。其中，进行第二卷积的卷积层中卷积核的大小是预设的，本公开实施例选择将进行第二卷积的卷积层中卷积核的大小设置为3*3。通过利用目标图像帧的初始检测结果和支持图像帧的初始检测结果之间的差异得到第二支持特征的第一偏移量，以及利用目标图像帧的初始检测结果得到第二目标特征的第一偏移量，即可利用对应的第一偏移量分别对第二目标特征以及第二支持特征进行空间变换。另外，通过分别利用对应的第一偏移量对第二目标特征和第二支持特征进行第二卷积，使得经过第二卷积之后的第一支持特征和第一目标特征实现特征对齐。

具体地，利用第二目标特征的第一偏移量对第二卷积核进行第一变形，以经第一变形的第二卷积核对第二目标特征进行卷积，得到第一目标特征。以及，利用第二支持特征的第一偏移量对第二卷积核进行第二变形，以经第二变形的第二卷积核对第二支持特征进行卷积，得到第一支持特征。通过利用第一偏移量对第二卷积核进行变形，然后利用变形之后的卷积核对第二目标特征和第二支持特征进行卷积，从而可以得到对应的第一支持特征和第一目标特征。

第二卷积是利用第二卷积层实现。其中，目标图像帧和各支持图像帧对应的第二卷积层共享权重，和/或，目标图像帧和各支持图像帧对应的第二卷积层所采用的第二卷积核的大小相同。一些公开实施例中，目标图像帧和各支持图像帧对应的第一卷积层所采用的第一卷积核中各采样点的参数相同。经过空间变换得到的第一目标特征的维度和经过空间变换之前的第二目标特征的维度相同，以及经过空间变换得到的第一支持特征的维度和经过空间变换之前的第二支持特征的维度相同。

其中，这里对第二卷积核进行变形不会改变卷积核中的参数，只是可能会改变第二卷积核的形状。例如，如图2a-2d所示，图2a为本申请目标检测方法一实施例中示出第一变形前的第二卷积核的示意图，图2b-图2d为本申请目标检测方法一实施例中示出第一变形后的第二卷积核的第一示意图一至第三示意图。如图2a所示，一般3*3的卷积核的表现形式采样点排列非常规则，是一个正方形。而图2b是经过第一变形后的卷积核，采样点排列得不规则。其中，图2b至图2d中，颜色较浅的圆点为变形前的采样点位置，而颜色较深的圆点为变形后的采样点的位置，由颜色较浅的圆点指向颜色较深的圆点的箭头，主要用于指示各采样点的变形。图2c和图2d是可变性卷积的两个特例，图2c的卷积核经过第一变形之后，达到了尺度变形的效果，而图2d的卷积核经过第一变形之后，达到了旋转变换的效果。当然，这几种第一变形的方式仅为举例，不代表实际运用过程中只会产生这三种变形。

一些公开实施例中，基于聚合结果得到初始检测结果的第二偏移量。具体地，基于聚合结果得到第二偏移量的方式可以是利用第二预设大小的卷积核对聚合结果进行卷积，得到第二偏移量。其中，这里的第二预设大小同样可以根据具体实际需求进行设定，本公开实施例中第二预设大小为1*1。通过利用第二预设大小的卷积核对聚合结果进行卷积，使得得到的初始检测结果的第二偏移量的维度相同。其中，获取第二偏移量的卷积层中卷积核的数量与需要检测的目标的类型数量相关。具体地，该层卷积核的数量等于目标的类型数量。例如，需要检测的目标只有息肉一种类型，则该层的卷积核的数量则为1，若需要检测的目标包括息肉以及肿瘤，则该层的卷积核的数量则为2。其中，每个卷积核对应的第二偏移量，可以用于调整对应类型的目标的初始检测结果。然后利用第二偏移量对目标图像帧的初始检测结果进行处理，得到最终检测结果。通过基于聚合结果得到第二偏移量，从而利用第二偏移量获取最终检测结果，使得最终的检测结果相比初始检测结果更准确。其中，目标图像帧的检测结果包括关于目标的分类信息和目标在对应图像帧中的位置信息中的至少一种。可选地，利用第二偏移量对述初始检测结果进行处理，得到最终检测结果的方式可以是：在目标图像帧的初始检测结果为分类信息的情况下，将第二偏移量与目标图像帧的初始检测结果相乘，得到最终检测结果。以及在目标图像帧的初始检测结果为位置信息的情况下，利用第二偏移量对目标图像帧的初始检测结果进行非线性变换，得到最终检测结果。通过利用第二偏移量分别对初始检测结果中的分类信息以及位置信息进行调整，使得能够获取得到更为准确的关于目标的分类信息和位置信息。

其中，目标检测方法中的部分或全部步骤是由目标检测模型执行的。其中，目标检测模型的训练步骤包括：获取样本图像帧的至少一个样本检测结果和若干样本支持图像帧。其中，获取样本目标图像帧的至少一个样本检测结果和样本支持图像帧的方式请参见上述步骤S11，此处不再赘述。其中，样本目标图像帧和至少部分样本支持图像帧是在不同时刻对目标进行拍摄得到，样本目标图像帧标注有至少一个真实检测结果。其中，可以按照一定的顺序从视频中确定样本目标图像帧，例如，每间隔预设数量的视频帧确定一帧样本目标图像帧，并为对其进行标注真实检测结果。这里的预设数量大于或等于1，例如预设数量可以是1、2、4、6、8、10、12、14、16、18、20等。本公开实施例可以选择只在样本目标图像帧中标注真实检测结果，在其他实施例中，可以选择也在样本支持图像帧中标注真实检测结果，若也在样本支持图像帧中标注真实检测结果，则执行目标检测方法的设备的计算量会增加，所以是否在样本支持图像帧中也标注真实检测结果可依照具体情况而定。对样本目标图像帧和若干样本支持图像帧进行特征聚合，得到样本聚合结果。其中，得到样本聚合结果的方式请参见步骤S12，此处不再赘述。

基于真实检测结果和样本检测结果之间的差异，得到第一损失。以及基于样本偏移量得到第二损失。利用第一损失和第二损失，调整目标模型的网络参数。通过结合样本检测结果对应的第一损失以及样本偏移量对应的第二损失，使得调整之后的目标检测模型的网络参数更准确。

其中，至少一个真实检测结果包括目标的真实分类信息和目标在对应图像帧中的真实位置信息。至少一个样本检测结果包括关于目标的预测分类信息和目标在对应图像帧中的预测位置信息。其中，第一损失的计算方式可以是基于真实分类信息和预测分类信息之间的差异，得到第三损失，以及基于真实位置信息和预测位置信息之间的差异，得到第四损失，然后利用第三损失和第四损失，得到第一损失。特征聚合是利用样本检测结果得到的，每个样本检测结果对应一个样本聚合结果，每个样本聚合结果对应一个样本偏移量。即，关于目标的预测分类信息对应一个样本聚合结果，并对应一个样本偏移量，关于目标的预测位置信息对应一个样本聚合结果，并对应一个样本偏移量。其中，第二损失的计算方式可以基于预测分类信息对应的样本偏移量得到第五损失，以及基于预测位置信息对应的样本偏移量得到第六损失，结合第五损失和第六损失，得到第二损失。具体地，损失函数的公式可以是：

其中，S表示总的损失，S₁表示第三损失，S₂表示第四损失，

表示第五损失，

表示第六损失，a^st是预测分类信息对应的样本偏移量，Δ^st是预测位置信息对应的样本偏移量。a^*是是预测分类信息与真实分类信息之间的偏移量，Δ^*是预测位置信息与真实位置信息之间的偏移量，

是指示符功能，如果a^*>0则为1，否则为0。N_POS指的是重合度大于或等于预设重合度的预测目标框的位置点的数量，重合度指的是真实目标框与预测目标框之间的重合度。

可选地，获取真实目标框和预测目标框之间的重合度。真实目标框是基于真实位置信息得到的，预测目标框是基于预测位置信息得到。选择重合度大于或等于预设重合度的预测目标框。基于选择的预测目标框的预测分类信息对应的样本偏移量得到第五损失。以及基于选择的预测目标框的预测位置信息对应的样本偏移量得到第六损失。重合度可使用交并比确定。其中，重合度大于或等于预设重合度的预测目标框对应的a^*>0。具体地，基于预测分类信息对应的样本偏移量得到第五损失的方式可以是获取预测分类信息和真实分类信息之间的真实偏移量，将样本偏移量与真实偏移量之间的损失作为第五损失。基于预测位置信息对应的样本偏移量得到第六损失的方式可以是获取预测位置信息和真实位置信息之间的真实偏移量，将该样本偏移量与真实偏移量之间的损失作为第六损失。其中，真实偏移量可以利用二者之间的偏移

确定，其中，

其中，

w表示预测目标框的宽度，h表示预测目标框的高度。

用于表示四个方向上的偏移。θ是提高真实偏移量学习效果的方差。其中，其中，真实边界框Gi＝(x₀，y₀，x₁，y₁)，其中，(x_o，y_o)和(x₁，y₁)表示左上角和右下角的坐标。

其中，预测检测框y_t＝(x-l_t，y-t_t，x十r_t，y十b_t)，(x，y)表示空间位置。

分别计算样本检测结果中的分类信息和位置信息对应的损失，以及基于预测分类信息对应的样本偏移量和基于选择的预测目标框对应的样本偏移量得到第六损失综合确定损失，使得损失更为准确。进一步地，在预测目标框与真实目标框之间的重合度大于或等于预设重合度的情况下，才计算该部分预测目标框对应的第六损失，从而能够提高第六损失的准确度。

为更好地理解，本申请的技术方案，请参照图3，图3是本申请目标检测方法一实施例示出获取初始检测结果的流程图。如图3所示，获取初始检测结果的方式可以是：

目标图像帧输入目标检测模型的第一子网络，得到不同尺寸的第三特征图。这里的第一子网络可以是基础的CNN网络，例如resnet50。分别将不同尺寸的第三目标特征图输入目标检测模型的第二子网络。第三目标特征图中的特征为第三目标特征其中，第二子网络可以是浅层的目标检测网络，包括四层的卷积层以及分类层/回归层。即，第二子网络包括分类分支和回归分支，其中，四层卷积层的输出结果为第二目标特征。分类层的输出结果为关于目标的分类信息的初始检测结果，而回归层的输出结果为关于目标的位置信息的初始检测结果。其中，因为第二子网络的输入为不同尺寸的第三目标特征图，那么第二子网络的输出结果也为不同尺寸的第二目标特征图以及第二目标特征图对应的初始检测结果，第二目标特征图中的特征为第二目标特征。每个第二目标特征对应的初始检测结果均会进行调整，最后将调整后的不同尺寸的初始检测结果进行合并，即可得到目标图像帧的最终检测结果。对于不同尺寸的初始检测结果。如上述，初始检测结果包括关于目标的位置信息的初始检测结果以及关于目标的分类信息的初始检测结果，对于各初始检测结果均需要以相同的流程进行处理。

同时参见图4，图4是本申请目标检测方法另一实施例的流程示意图。本公开实施例以初始检测结果为关于目标的位置信息的初始检测结果为例。如图4所示，分别将目标图像帧输入第一子网络和第二子网络得到不同尺寸的初始检测结果以及对应的不同尺寸的第二目标特征和第二支持特征。每种尺寸的初始检测结果都需要按照相同的方式进行调整。本公开实施例仅以其中一种尺寸的为例。利用目标图像帧的初始检测结果生成第二目标特征的第一偏移量，从而利用第一偏移量对第二目标特征进行空间变换，得到第一目标特征。利用目标图像帧和支持图像帧之间的差异形成第二支持特征的第一偏移量，从而利用第一偏移量对第二支持特征进行空间变换，得到第一支持特征。先将各第一支持特征进行级联，然后将级联之后的第一支持特征与第一目标特征进行特征融合，得到融合结果。先对初始检测结果进行一次非线性变换，再利用融合结果得到第二偏移量，利用第二偏移量与目标图像帧的初始检测结果进行非线性变换，得到最终的检测结果。其中，因为不同尺寸的第二目标特征对应有不同初始检测结果，需要对每个初始检测结果按照上述方案进行调整，合并所有调整之后的初始检测结果，得到最终的检测结果。如上述，若初始检测结果为关于目标的分类信息的初始检测结果时，则利用第二偏移量与初始检测结果进行相乘，得到最终的关于目标的分类信息的最终检测结果。

目标检测方法的执行主体可以是目标检测装置，例如，目标检测方法可以由终端设备或服务器或其它处理设备执行，其中，终端设备可以为用于医学图像分析的设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备以及自动驾驶汽车，有定位及建图需求的机器人，有配准需求的医疗成像***，用于增强现实或虚拟现实的眼镜、头盔等产品等。在一些可能的实现方式中，该目标检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

请参阅图5，图5是本申请目标检测装置一实施例的结构示意图。目标检测装置50包括获取模块51、特征聚合模块52以及调整模块53。

获取模块51用于获取目标图像帧以及若干支持图像帧，其中，目标图像帧和至少部分的支持图像帧通过不同时刻对目标进行拍摄得到；特征聚合模块52用于对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果，其中，支持图像帧对应的聚合权重与支持图像帧的图像质量相关，和/或，在特征聚合之前对目标图像帧和支持图像帧进行基于目标的特征对齐；调整模块53用于利用聚合结果分别对目标图像帧的初始检测结果进行调整，得到目标图像帧对应的最终检测结果，其中，初始检测结果是关于目标的检测结果。

一些公开实施例中，特征聚合模块52对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果，包括：确定支持图像帧的第一支持特征的聚合权重；其中，第一支持特征的聚合权重与支持图像帧的图像质量相关；基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征，其中，聚合结果包括聚合特征。

上述方案，通过确定支持图像帧的第一支持特征对应的聚合权重，并且该聚合特征与支持图像帧的图像质量有关，从而根据该聚合权重对第一目标特征和第一支持特征进行聚合，从而可以得到更为准确的聚合特征。

一些公开实施例中，特征聚合模块52确定支持图像帧的第一支持特征的聚合权重，包括：基于第一支持特征和第一目标特征，确定第一支持特征的聚合权重；和/或，基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征，包括：利用聚合权重分别对若干支持图像帧的第一支持特征进行加权，得到各加权后的第一支持特征；将第一目标特征与各加权后的第一支持特征进行相加，得到聚合特征。

上述方案，通过使用第一支持特征和第一目标特征确定第一支持特征的聚合权重，从而根据该聚合权重对支持图像帧进行加权，进而得到的聚合特征更为准确。

一些公开实施例中，特征聚合模块52基于第一支持特征和第一目标特征，确定第一支持特征的聚合权重，包括：将第一支持特征与第一目标特征进行相乘，得到第一支持特征的聚合权重。

上述方案，通过将第一支持特征与第一目标特征相乘，使得质量更好的支持图像帧对应的聚合权重更大，质量较差的支持图像帧对应的聚合权重更小。

特征聚合模块52基于第一支持特征的聚合权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征之前，方法还包括：将第一支持特征的聚合权重进行归一化处理。

上述方案，将第一支持特征的聚合权重进行归一化处理，使得各支持图像帧的聚合权重之和能够固定，例如为1，并且各聚合权重均处于0-1之间，从而提高各聚合权重的有效性。

一些公开实施例中，特征聚合模块52目标图像帧对应有多个通道的第一目标特征，支持图像帧对应有多个通道的第一支持特征；对于每个通道，分别执行确定支持图像帧的第一支持特征的聚合权重，以及基于聚合第一支持特征的权重，对若干支持图像帧的第一支持特征和目标图像帧的第一目标特征进行聚合，得到聚合特征的步骤，以得到各通道的聚合特征。

上述方案，通过对每个通道分别确定支持图像帧的第一支持特征的聚合权重，能够深度挖掘帧间相关性以及得到更有效的聚合特征。

一些公开实施例中，特征聚合模块52目标图像帧和若干支持图像帧进行特征聚合是将目标图像帧的第一目标特征和支持图像帧的第一支持特征进行聚合；对目标图像帧与若干支持图像帧进行特征聚合，得到聚合结果之前，特征聚合模块52还用于：将对目标图像帧提取得到的第二目标特征作为第一目标特征，对支持图像帧提取得到的第二支持特征作为第一支持特征；或者，获取各所支持图像帧的至少一个初始检测结果；利用目标图像帧和支持图像帧对应的初始检测结果，将第二目标特征分别和各第二支持特征进行特征对齐，得到初始检测结果对应的第一目标特征和各第一支持特征；以及其中，初始检测结果对应的第一目标特征和各第一支持特征对应的聚合结果用于对初始检测结果进行调整以得到对应的最终检测结果。

上述方案，通过对目标图像帧的第二目标特征和支持图像帧的第二支持特征进行特征对齐，能够提高特征聚合的准确度。

一些公开实施例中，特征聚合模块52利用目标图像帧和支持图像帧对应的初始检测结果，将第二目标特征分别和各第二支持特征进行特征对齐，得到初始检测结果对应的第一目标特征和第一支持特征，包括：利用目标图像帧和支持图像帧对应的初始检测结果，得到第二目标特征的第一偏移量和第二支持特征的第一偏移量；利用第二目标特征的第一偏移量，对第二目标特征进行空间变换，得到第一目标特征；以及对于每个第二支持特征，利用第二支持特征的第一偏移量，对第二支持特征进行空间变换，得到第二支持特征对应的第一支持特征。

上述方案，通过利用目标图像帧和支持图像帧对应的初始检测结果确定第二目标特征的第一偏移量和各第二支持特征的第一偏移量，从而利用该偏移量对第二目标特征和第二支持特征进行对齐，即在特征对齐的过程中是以目标为指导，忽略了背景变化，从而能够缓解帧之间目标的空间不一致性。

一些公开实施例中，特征聚合模块52利用目标图像帧和支持图像帧对应的初始检测结果，得到第二目标特征的第一偏移量和各第二支持特征的第一偏移量，包括：对目标图像帧的初始检测结果进行第一卷积，得到第二目标特征的第一偏移量，以及对于每个支持图像帧，对支持图像帧的初始检测结果与目标图像帧的初始检测结果之间的差异进行第一卷积，得到支持图像帧对应的第二支持特征的第一偏移量。

上述方案，通过利用目标图像帧的初始检测结果和支持图像帧的初始检测结果之间的差异得到第二支持特征的第一偏移量，以及利用目标图像帧的初始检测结果得到第二目标特征的第一偏移量，即可利用对应的第一偏移量分别对第二目标特征以及第二支持特征进行空间变换。

一些公开实施例中，特征聚合模块52利用第二目标特征的第一偏移量，对第二目标特征进行空间变换，得到第一目标特征，以及对于每个第二支持特征，利用第二支持特征的第一偏移量，对第二支持特征进行空间变换，得到第二支持特征对应的第一支持特征，包括：利用第二目标特征的第一偏移量对第二目标特征进行第二卷积，得到第一目标特征，以及对于每个第二支持特征，利用第二支持特征的第一偏移量对第二支持特征进行第二卷积，得到第二支持特征对应的第一支持特征。

上述方案，通过分别利用对应的第一偏移量对第二目标特征和第二支持特征进行第二卷积，使得经过第二卷积之后的第一支持特征和第一目标特征实现特征对齐。

一些公开实施例中，第一卷积为采用第一预设大小的第一卷积核进行卷积；和/或，特征聚合模块52利用第二目标特征的第一偏移量对第二目标特征进行第二卷积，得到第一目标特征，以及利用第二支持特征的第一偏移量对第二支持特征进行第二卷积，得到第一支持特征，包括：利用第二目标特征的第一偏移量对第二卷积核进行第一变形，以经第一变形的第二卷积核对第二目标特征进行卷积，得到第一目标特征；以及，利用第二支持特征的第一偏移量对第二卷积核进行第二变形，以经第二变形的第二卷积核对第二支持特征进行卷积，得到第一支持特征。

上述方案，第一卷通过利用第一预设大小的第一卷积核进行卷积，使得输出的偏移量的维度固定。另外，通过利用第一偏移量对第二卷积核进行变形，然后利用变形之后的卷积核对第二目标特征和第二支持特征进行卷积，从而可以得到对应的第一支持特征和第一目标特征。

一些公开实施例中，第一卷积是利用第一卷积层实现，其中，目标图像帧和各支持图像帧对应的第一卷积层共享权重，和/或，目标图像帧和各支持图像帧对应的第一卷积层所采用的第一卷积核的大小相同；以及第二卷积是利用第二卷积层实现，其中，目标图像帧和各支持图像帧对应的第二卷积层共享权重，和/或，目标图像帧和各支持图像帧对应的第二卷积层所采用的第二卷积核的大小相同。

上述方案，通过目标图像帧和支持图像帧对应的第一卷积层共享权重以及目标图像帧和支持图像帧对应的第二卷积层共享权重，能够减少训练过程中需要训练的参数，提高训练速度，并且，能够使得卷积层泛化。另外，通过目标图像帧和支持图像帧对应的第一卷积层所采用的第一卷积核的大小相同，使得输出的第一偏移量的维度相同。另外，目标图像帧和支持图像帧对应的第二卷积层所采用的第二卷积核的大小相同，使得输出的第一目标特征的维度与第一支持特征的维度相同。

一些公开实施例中，调整模块53利用聚合结果分别对目标图像帧的初始检测结果进行调整，得到目标图像帧对应的最终检测结果，包括：基于聚合结果得到第二偏移量；利用第二偏移量对目标图像帧的初始检测结果进行处理，得到最终检测结果。

上述方案，通过利用聚合结果得到第二偏移量，从而利用第二偏移量获取最终检测结果，使得最终的检测结果相比初始检测结果更准确。

一些公开实施例中，特征聚合模块52基于聚合结果得到第二偏移量，包括：利用第二预设大小的卷积核对聚合结果进行卷积，得到第二偏移量；和/或，目标图像帧的初始检测结果包括关于目标的分类信息和目标在对应图像帧中的位置信息中的至少一种；以及调整模块53利用第二偏移量对目标图像帧的初始检测结果进行处理，得到最终检测结果，包括：在目标图像帧的初始检测结果为分类信息的情况下，将第二偏移量与目标图像帧的初始检测结果相乘，得到最终检测结果；在目标图像帧的初始检测结果为位置信息的情况下，利用第二偏移量对目标图像帧的初始检测结果进行非线性变换，得到最终检测结果。

上述方案，通过利用第二预设大小的卷积核对聚合结果进行卷积，使得得到的初始检测结果的第二偏移量的维度相同。另外通过利用第二偏移量分别对初始检测结果中的分类信息以及位置信息进行调整，使得能够获取得到更为准确的关于目标的分类信息和位置信息。

一些公开实施例中，目标检测方法中的部分或全部步骤是由目标检测模型执行的，目标检测装置50还包括训练模块(图未示)，训练模块用于执行以下对目标检测模型的训练步骤：获取样本目标图像帧的至少一个样本检测结果和若干样本支持图像帧；其中，样本目标图像帧和部分样本支持图像帧是在不同时刻对目标进行拍摄得到，样本目标图像帧标注有至少一个真实检测结果；对样本目标图像帧和若干样本支持图像帧进行特征聚合，得到样本聚合结果；利用样本聚合结果得到样本检测结果的样本偏移量；基于真实检测结果和样本检测结果之间的差异，得到第一损失，以及基于样本偏移量得到第二损失；利用第一损失和第二损失，调整目标检测模型的网络参数。

上述方案，通过结合样本检测结果对应的第一损失以及样本偏移量对应的第二损失，使得调整之后的目标检测模型的网络参数更准确。

一些公开实施例中，至少一个真实检测结果包括目标的真实分类信息和目标在对应图像帧中的真实位置信息，至少一个样本检测结果包括关于目标的预测分类信息和目标在对应图像帧中的预测位置信息；训练模块基于真实检测结果和样本检测结果之间的差异，得到第一损失，包括：基于真实分类信息和预测分类信息之间的差异，得到第三损失，以及基于真实位置信息和预测位置信息之间的差异，得到第四损失；利用第三损失和第四损失，得到第一损失；特征聚合是利用样本检测结果得到的，每个样本检测结果对应一个样本聚合结果，每个样本聚合结果对应一个样本偏移量，基于样本偏移量得到第二损失，包括：获取真实目标框和预测目标框之间的重合度，其中，真实目标框是基于真实位置信息得到的，预测目标框是基于预测位置信息得到；以及选择重合度大于或等于预设重合度的预测目标框；基于选择的预测目标框的预测分类信息对应的样本偏移量得到第五损失，以及基于选择的预测目标框的预测位置信息对应的样本偏移量得到第六损失；利用第五损失和第六损失，得到第二损失。

上述方案，分别计算样本检测结果中的分类信息和位置信息对应的损失，以及基于预测分类信息对应的样本偏移量和基于选择的预测目标框对应的样本偏移量得到第六损失综合确定损失，使得损失更为准确。进一步地，在预测目标框与真实目标框之间的重合度大于或等于预设重合度的情况下，才计算该部分预测目标框对应的第六损失，从而能够提高第六损失的准确度。

请参阅图6，图6是本申请电子设备一实施例的结构示意图。电子设备60包括存储器61和处理器62，处理器62用于执行存储器61中存储的程序指令，以实现上述目标检测方法实施例和/或目标检测方法实施例中的步骤。在一个具体的实施场景中，电子设备60可以包括但不限于：微型计算机、服务器，此外，电子设备60还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器62用于控制其自身以及存储器61以实现上述目标检测方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。

请参阅图7，图7为本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令701，程序指令701用于实现上述目标检测方法实施例和/或目标检测方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种目标检测方法，其特征在于，包括：

获取目标图像帧以及若干支持图像帧，其中，所述目标图像帧和至少部分的所述支持图像帧通过在不同时刻对目标进行拍摄得到；

对所述目标图像帧与所述若干支持图像帧进行特征聚合，得到聚合结果，其中，所述支持图像帧对应的聚合权重与所述支持图像帧的图像质量相关，和/或，在所述特征聚合之前对所述目标图像帧和支持图像帧进行基于所述目标的特征对齐；

利用所述聚合结果分别对所述目标图像帧的初始检测结果进行调整，得到所述目标图像帧对应的最终检测结果，其中，所述初始检测结果是关于所述目标的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像帧与所述若干支持图像帧进行特征聚合，得到聚合结果，包括：

确定所述支持图像帧的第一支持特征的聚合权重；其中，所述第一支持特征的聚合权重与所述支持图像帧的图像质量相关；

基于所述第一支持特征的聚合权重，对所述若干支持图像帧的第一支持特征和所述目标图像帧的第一目标特征进行聚合，得到聚合特征，其中，所述聚合结果包括所述聚合特征。

3.根据权利要求2所述的方法，其特征在于，所述确定所述支持图像帧的第一支持特征的聚合权重，包括：

基于所述第一支持特征和所述第一目标特征，确定所述第一支持特征的聚合权重；

和/或，所述基于所述第一支持特征的聚合权重，对所述若干支持图像帧的第一支持特征和所述目标图像帧的第一目标特征进行聚合，得到聚合特征，包括：

利用所述聚合权重分别对所述若干支持图像帧的第一支持特征进行加权，得到各加权后的第一支持特征；

将所述第一目标特征与所述各加权后的第一支持特征进行相加，得到所述聚合特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一支持特征和所述第一目标特征，确定所述第一支持特征的聚合权重，包括：

将所述第一支持特征与所述第一目标特征进行相乘，得到所述第一支持特征的聚合权重；

和/或，所述基于所述第一支持特征的聚合权重，对所述若干支持图像帧的第一支持特征和所述目标图像帧的第一目标特征进行聚合，得到聚合特征之前，所述方法还包括：

将所述第一支持特征的聚合权重进行归一化处理。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述目标图像帧对应有多个通道的第一目标特征，所述支持图像帧对应有多个通道的第一支持特征；

对于每个所述通道，分别执行所述确定所述支持图像帧的第一支持特征的聚合权重，以及基于所述第一支持特征聚合权重，对所述若干支持图像帧的第一支持特征和所述目标图像帧的第一目标特征进行聚合，得到聚合特征的步骤，以得到各所述通道的聚合特征。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述目标图像帧和所述若干支持图像帧进行特征聚合是将所述目标图像帧的第一目标特征和所述支持图像帧的第一支持特征进行聚合；

所述对所述目标图像帧与所述若干支持图像帧进行特征聚合，得到聚合结果之前，所述方法还包括：

将对所述目标图像帧提取得到的第二目标特征作为所述第一目标特征，对所述支持图像帧提取得到的第二支持特征作为所述第一支持特征；或者，

获取各所支持图像帧的至少一个初始检测结果；

利用所述目标图像帧和所述支持图像帧对应的所述初始检测结果，将所述第二目标特征分别和各所述第二支持特征进行特征对齐，得到所述初始检测结果对应的第一目标特征和各第一支持特征；以及

其中，所述初始检测结果对应的第一目标特征和各第一支持特征对应的聚合结果用于对所述初始检测结果进行调整以得到对应的所述最终检测结果。

7.根据权利要求6所述的方法，其特征在于，所述利用所述目标图像帧和所述支持图像帧对应的所述初始检测结果，将所述第二目标特征分别和各所述第二支持特征进行特征对齐，得到所述初始检测结果对应的第一目标特征和各第一支持特征，包括：

利用所述目标图像帧和所述支持图像帧对应的所述初始检测结果，得到所述第二目标特征的第一偏移量和各所述第二支持特征的第一偏移量；

利用所述第二目标特征的第一偏移量，对所述第二目标特征进行空间变换，得到所述第一目标特征；以及

对于每个所述第二支持特征，利用所述第二支持特征的第一偏移量，对所述第二支持特征进行空间变换，得到所述第二支持特征对应的所述第一支持特征。

8.根据权利要求7所述的方法，其特征在于，所述利用所述目标图像帧和所述支持图像帧对应的所述初始检测结果，得到所述第二目标特征的第一偏移量和各所述第二支持特征的第一偏移量，包括：

对所述目标图像帧的初始检测结果进行第一卷积，得到所述第二目标特征的第一偏移量，以及对于每个所述支持图像帧，对所述支持图像帧的初始检测结果与目标图像帧的初始检测结果之间的差异进行第一卷积，得到所述支持图像帧对应的第二支持特征的第一偏移量；

和/或，所述利用所述第二目标特征的第一偏移量，对所述第二目标特征进行空间变换，得到所述第一目标特征；以及对于每个所述第二支持特征，利用所述第二支持特征的第一偏移量，对所述第二支持特征进行空间变换，得到所述第二支持特征对应的所述第一支持特征，包括：

利用所述第二目标特征的第一偏移量对所述第二目标特征进行第二卷积，得到所述第一目标特征，以及对于每个第二支持特征，利用所述第二支持特征的第一偏移量对所述第二支持特征进行第二卷积，得到所述第二支持特征对应的第一支持特征。

9.根据权利要求8所述的方法，其特征在于，所述第一卷积为采用第一预设大小的第一卷积核进行卷积；和/或，

所述利用所述第二目标特征的第一偏移量对所述第二目标特征进行第二卷积，得到所述第一目标特征，以及利用所述第二支持特征的第一偏移量对所述第二支持特征进行第二卷积，得到所述第一支持特征，包括：

利用所述第二目标特征的第一偏移量对第二卷积核进行第一变形，以经所述第一变形的第二卷积核对所述第二目标特征进行卷积，得到所述第一目标特征；以及，

利用所述第二支持特征的第一偏移量对第二卷积核进行第二变形，以经所述第二变形的第二卷积核对所述第二支持特征进行卷积，得到所述第一支持特征。

10.根据权利要求8或9所述的方法，其特征在于，所述第一卷积是利用第一卷积层实现，其中，所述目标图像帧和各支持图像帧对应的第一卷积层共享权重，和/或，所述目标图像帧和各支持图像帧对应的第一卷积层所采用的第一卷积核的大小相同；以及

所述第二卷积是利用第二卷积层实现，其中，所述目标图像帧和各支持图像帧对应的第二卷积层共享权重，和/或，所述目标图像帧和各支持图像帧对应的第二卷积层所采用的第二卷积核的大小相同。

11.根据权利要求1至10任一项所述的方法，其特征在于，所述利用所述聚合结果分别对所述目标图像帧的初始检测结果进行调整，得到所述目标图像帧对应的最终检测结果，包括：

基于所述聚合结果得到第二偏移量；

利用所述第二偏移量对所述目标图像帧的初始检测结果进行处理，得到所述最终检测结果。

12.根据权利要求11所述的方法，其特征在于，所述基于所述聚合结果得到第二偏移量，包括：

利用第二预设大小的卷积核对所述聚合结果进行卷积，得到所述第二偏移量；

和/或，所述目标图像帧的初始检测结果包括关于所述目标的分类信息和所述目标在对应图像帧中的位置信息中的至少一种；以及

所述利用所述第二偏移量对所述目标图像帧的初始检测结果进行处理，得到所述最终检测结果，包括：

在所述目标图像帧的初始检测结果为分类信息的情况下，将所述第二偏移量与所述目标图像帧的初始检测结果相乘，得到所述最终检测结果；

在所述目标图像帧的初始检测结果为位置信息的情况下，利用所述第二偏移量对所述目标图像帧的初始检测结果进行非线性变换，得到所述最终检测结果。

13.根据权利要求11或12所述的方法，其特征在于，所述目标检测方法中的部分或全部步骤是由目标检测模型执行的，所述方法还包括以下对所述目标检测模型的训练步骤：

获取样本目标图像帧的至少一个样本检测结果和若干样本支持图像帧；其中，所述样本目标图像帧和至少部分所述样本支持图像帧是在不同时刻对目标进行拍摄得到，所述样本目标图像帧标注有至少一个真实检测结果；

对所述样本目标图像帧和若干样本支持图像帧进行特征聚合，得到样本聚合结果；

利用所述样本聚合结果得到所述样本检测结果的样本偏移量；

基于所述真实检测结果和样本检测结果之间的差异，得到第一损失，以及基于所述样本偏移量得到第二损失；

利用所述第一损失和第二损失，调整所述目标检测模型的网络参数。

14.根据权利要求13所述的方法，其特征在于，所述至少一个真实检测结果包括目标的真实分类信息和所述目标在对应图像帧中的真实位置信息，所述至少一个样本检测结果包括关于所述目标的预测分类信息和所述目标在对应图像帧中的预测位置信息；

所述基于所述真实检测结果和样本检测结果之间的差异，得到第一损失，包括：

基于所述真实分类信息和预测分类信息之间的差异，得到第三损失，以及基于所述真实位置信息和预测位置信息之间的差异，得到第四损失；

利用所述第三损失和第四损失，得到所述第一损失；

所述特征聚合是利用样本检测结果得到的，每个所述样本检测结果对应一个样本聚合结果，每个样本聚合结果对应一个样本偏移量，所述基于所述样本偏移量得到第二损失，包括：

获取真实目标框和预测目标框之间的重合度，其中，所述真实目标框是基于所述真实位置信息得到的，所述预测目标框是基于所述预测位置信息得到；以及

选择重合度大于或等于预设重合度的预测目标框；

基于选择的所述预测目标框的所述预测分类信息对应的样本偏移量得到第五损失，以及基于选择的预测目标框的预测位置信息对应的所述样本偏移量得到第六损失；

利用所述第五损失和第六损失，得到所述第二损失。

15.一种目标检测装置，其特征在于，包括：

获取模块，用于获取目标图像帧以及若干支持图像帧，其中，所述目标图像帧和至少部分的所述支持图像帧通过不同时刻对目标进行拍摄得到；

特征聚合模块，用于对所述目标图像帧与所述若干支持图像帧进行特征聚合，得到聚合结果，其中，所述支持图像帧对应的聚合权重与所述支持图像帧的图像质量相关，和/或，在所述特征聚合之前对所述目标图像帧和支持图像帧进行基于所述目标的特征对齐；

调整模块，用于利用所述聚合结果分别对所述目标图像帧的初始检测结果进行调整，得到所述目标图像帧对应的最终检测结果，其中，所述初始检测结果是关于所述目标的检测结果。

16.一种电子设备，其特征在于，包括存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至14任一项所述的方法。

17.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至14任一项所述的方法。