CN117746066A

CN117746066A - 一种扩散模型引导的高速车辆检测集成学习方法和装置

Info

Publication number: CN117746066A
Application number: CN202410189355.3A
Authority: CN
Inventors: 孔佑原; 潘斌; 谭英豪; 林德平; 张靖华; 吴乔清; 王旋; 任义
Original assignee: Guizhou Bright Science Technology Development Co ltd
Current assignee: Guizhou Bright Science Technology Development Co ltd
Priority date: 2024-02-20
Filing date: 2024-02-20
Publication date: 2024-03-22
Anticipated expiration: 2044-02-20
Also published as: CN117746066B

Abstract

本发明涉及道路交通管理与车辆违规检测技术领域，尤其涉及一种扩散模型引导的高速车辆检测集成学习方法和装置，所述方法包括：S1、获取待检测高速车辆图片数据；S2、将所述待检测高速车辆图片数据输入选择的训练完成的多个不同的检测基模型，预测得到多个原始高速车辆检测框，所述多个不同的检测基模型的训练过程由扩散模型引导；S3、使用检测框融合算法对所述多个原始高速车辆检测框进行集成学习，得到经过融合后的新检测框，所述新检测框为所述待检测高速车辆图片数据的最终检测结果的输出检测框。本发明降低了高速车辆的检测难度，提高了高速车辆的检测精度与泛化能力。

Description

一种扩散模型引导的高速车辆检测集成学习方法和装置

技术领域

本发明涉及道路交通管理与车辆违规检测技术领域，尤其涉及一种扩散模型引导的高速车辆检测集成学习方法和装置。

背景技术

当前的深度学习目标检测算法通常使用单一检测模型，但不同的模型各有优缺点，使用单一模型难以取得较好的泛化能力，另一方面，相比于一般的目标检测问题，高速车辆的目标检测存在目标移动速度快、画质不清晰等造成误检等难点，这些难点使得单一模型的检测能力受到制约，同时，由于相关训练数据的缺失，对于高速车辆的目标检测缺乏足够的图像信息进行目标检测网络的训练，严重影响检测效果。

发明内容

本发明提供了一种扩散模型引导的高速车辆检测集成学习方法和装置，用以解决现有技术存在的问题，本发明提供的技术方案如下：

一方面，提供了一种扩散模型引导的高速车辆检测集成学习方法，所述方法包括：

S1、获取待检测高速车辆图片数据；

S2、将所述待检测高速车辆图片数据输入选择的训练完成的多个不同的检测基模型，预测得到多个原始高速车辆检测框，所述多个不同的检测基模型的训练过程由扩散模型引导；

S3、使用检测框融合算法对所述多个原始高速车辆检测框进行集成学习，得到经过融合后的新检测框，所述新检测框为所述待检测高速车辆图片数据的最终检测结果的输出检测框。

可选地，所述S2中选择训练完成的多个不同的检测基模型，具体包括：

收集高速车辆图片数据，并划分为两阶段训练的训练集、验证集与测试集；

使用划分好的训练集对备选的检测基模型进行两阶段的训练，并且在验证集上对不同的检测基模型分别进行参数调整以达到模型最好的验证效果，在测试集上对检测基模型进行测试与评估，选择测试效果最好的m个模型进行集成学习，并淘汰其他的备选模型。

可选地，所述收集高速车辆图片数据，并划分为两阶段训练的训练集、验证集与测试集，具体包括：

S21、使用公开的visdrone2019以及UAVDT数据集获取无人机视角下的高速车辆图片数据；

S22、使用无人机拍摄高速公路上的高速行驶车辆，将拍摄视频进行抽帧获取高速车辆图片数据；

S23、利用扩散模型中的先验信息生成高速车辆图片数据，包括：

使用第一类指定的提示词，利用扩散模型，直接进行第一类无人机视角下高速车辆图片数据生成，所述第一类指定的提示词使用“无人机视角下的”和“车辆”这一语句作为提示词；使用第二类指定的提示词，利用扩散模型，进行第二类车辆图片数据生成，并对于生成的第二类图片数据，将其进行缩放与裁剪后，选择包含公路的无人机视角下图片，并将其粘贴至图片的公路处，所述第二类指定的提示词使用“车辆”这一语句作为提示词；将扩散模型生成的部分模糊图片删去，保留生成的高质量图片；

S24、生成对应检测框标签；

对于第一类图片数据和S22中的图像数据，使用公开的目标检测模型对图片中的车辆进行预标注，再通过人工检查的方式对预标注签的检测框进行修正；对于第二类图片，在对图片进行粘贴时直接保存检测目标在图像上的位置信息，并生成对应的检测框标签；

S25.将数据划分为两阶段训练的数据集、验证集与测试集；

将S21和S22获取的高速车辆图片数据与扩散模型生成的高速车辆图片数据合并形成第一阶段训练的数据；

将S21和S22获取的高速车辆图片数据中的检测框标签内的检测目标图像截取出来，使用扩散模型在不同的重绘幅度下进行重绘，所述重绘幅度在0.1至0.5之间，保存对应的重绘幅度，使用重绘后的检测目标覆盖原数据中的检测目标，使用1减去每个检测目标对应的重绘幅度，生成软置信度标签，保存重绘后的图片和图片中检测目标对应的软置信度标签，作为检测基模型第二阶段训练数据；

将两个阶段的数据分别数据划分为训练集，验证集与测试集。

可选地，使用划分好的训练集对备选的检测基模型进行两阶段的训练，具体包括：

第一阶段训练使用的损失是不同的检测基模型默认的损失函数；

在第二阶段训练时，加入了软置信度标签损失：在计算损失时，使用检测基模型输出的置信度与软置信度标签的差值的平方作为新的额外的损失；

将所述软置信度标签损失通过梯度回传，引导模型进行第二阶段训练。

可选地，所述S2中的检测基模型为基于可变形卷积的视觉大模型InternImage目标检测模型，将一张的高速车辆图片输入到模型中，其中H、W分别是图片的高、宽，C表示图片的通道数，图片经过干线模块后形成/>的特征图，/>为特征图的通道数，交替进行4个类似的阶段与下采样以后得到预测的检测框，每个阶段包括一个基础模块，不同的阶段中最大的不同是其中所使用的可变形卷积算子DCNv3的参数G不同以及所使用基础模块的个数/>不同，在一个基础模块中，会先经过可变形卷积算子DCNv3，然后进行层归一化，归一化后的特征和原来的特征相加进行残差链接，之后特征会经过一个前馈神经网络与层归一化，归一化后的特征再与前馈神经网络的输入相加进行残差链接，得到一个基础模块的输出；

可变形卷积算子DCNv3以输入和任务信息为条件进行自适应空间聚集，捕捉图像中目标的形变信息，DCNv3算子采用的运算方式写为：

其中，G表示聚合组的总数，对于第g组，表示这组的位置无关投影权重，C表示通道数，/>表示这组的维数，/>表示第g组中第k个采样点用softmax函数进行归一化后的调制标量，/>表示输入的经过切片的特征图，/>为第g组网格采样位置/>对应的偏移量，/>为当前像素点；

DCNv3将原始卷积权值拆分为深度方向和点方向两部分，其中深度方向部分由原始位置调制标量/>负责，点方向部分为采样点之间的共享投影权重w，DCNv3将空间聚集过程分成G组，每组都有单独的采样偏移量/>和调制标量/>，单个卷积层上的不同组具有不同的空间聚集模式，提取更丰富的特征；

或者

所述S2中的检测基模型为Yolov5目标检测模型，以一张待检测的高速车辆图片作为输入，经过模型的主干网络、颈部网络以及不同的检测头以后，得到预测的检测框，主干网络包括交替的卷积操作与C3模块，最后经过一个SPFF模块，主干网络获得不同尺度下的图像特征，随后，模型将不同尺度下的特征输入颈部网络，颈部网络包括不同尺度特征的上采样以及卷积，获得高度编码的特征用于最后的检测，检测头1到检测头3为不同尺度下的检测器，将不同尺度下的高度编码特征输出为检测框；

SPFF模块由SPP模块改进而来，使用3个5×5的最大池化，代替SPP模块的5×5、9×9、13×13最大池化，多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核；

针对主干网络和检测头，Yolov5设计了两种不同的类似Yolov4中CSP结构的C3Net结构，C3Net中包含了三个卷积与特征图上的拼接操作，Yolov5与Yolov4不同点在于，Yolov4中只有主干网络使用了CSP结构，而Yolov5中设计了两种不同参数的C3Net结构，对于Yolov5-l，C3_X结构应用于主干网络，另一种C3_1结构则应用于检测头中；

Focus为Yolov5独创结构，在Yolov5中，Focus结构被广泛用于各个卷积块的第一个卷积层，以实现对输入特征图的下采样和特征压缩，其关键步骤为切片操作，对于Yolov5-l，假设原始图像为640×640×3，输入Focus结构，采用切片操作，先变成320×320×12的特征图，再经过一次64个卷积核的卷积操作，最终变成320×320×64的特征图，经过切片操作，图像的像素尺寸变为原来的一半。

可选地，所述S3中的检测框融合算法为权重框加权融合算法，具体包括：

S311、将所有原始检测框构建为一个序列S，并且序列中的检测框按照置信度C进行降序排列，所述置信度C为检测基模型输出的对预测的检测框确定性的评价指标；

S312、创建两个新的空序列B和F，其中，B中将存放所有检测框经过聚类后的聚类簇，每个簇可能包含多个原始高速车辆检测框；F中将存放B中每一簇检测框经过加权融合后的新检测框，也就是最终输出的检测框，F和B的元素是一一对应的；

S313、对S中的检测框z，按置信度C由大到小的顺序，尝试从F中找到与z的IoU值大于预设重叠阈值t的检测框，如果没有找到与z的IoU值大于预设重叠阈值t的检测框，将z放置在聚类序列B的末尾，形成新的只有一个检测框的聚类簇，并且，将z也添加到序列F的末尾，作为新的融合框；如果找到了与z的IoU值大于预设重叠阈值t的检测框，将z放入序列B中对应的聚类簇中，每当序列B中的任一聚类簇加入新的检测框时，对序列F中的融合框进行更新。

可选地，B中每一簇检测框经过加权融合后形成新检测框，具体包括：

假设序列B中的簇Z中包含n个原始高速车辆检测框,每个检测框选择左上和右下对角线的两个点，这两个点唯一确定一个检测框，坐标分别为，上标表示检测框对角线的两个点，每个检测框的置信度分别为/>，则融合框的置信度c与坐标/>为：

；

或者

对检测基模型的重要性进行赋权，使来自相同检测基模型得到的检测框拥有相同的模型重要性权重，假设的模型重要性权重分别为/>，则融合框的置信度c与坐标/>为：

。

可选地，所述S3中的检测框融合算法为网络自适应加权算法，具体包括：

S321、设定一张图片中最大检测目标个数为Kmax，将所有选择的检测基模型预测的检测框聚类为Kmax聚类簇，删除聚类簇中个数少于检测基模型个数二分之一的类别；

S322、搭建用于检测框融合的神经网络，所述神经网络为4层的全连接神经网络，第一层将聚类簇中检测基模型预测的检测框，以及对应检测框的置信度作为输入，每层设置节点数为256，激活函数使用ReLU激活函数，最后一层的输出为每一聚类簇对应的输出检测框；

其中，由于全连接神经网络需要固定大小的输入，将检测框个数多于检测基模型个数的聚类簇中的检测框按置信度递增排序，从头开始删除，直到个数等于检测基模型的个数；将检测框个数少于检测基模型个数的聚类簇中的检测框按置信度递减排序，从头开始重复，每个检测框重复一次，直到个数等于检测基模型的个数；将这些聚类簇的检测框的左上、右下坐标以及对应的置信度输入全连接神经网络中，得到每个聚类簇对应的输出检测框。

可选地，所述方法还包括：在训练阶段对所述全连接神经网络进行训练，具体训练方法为：

在训练数据上，先使用训练完成的检测基模型进行预测得到多个原始高速车辆检测框，然后使用所述网络自适应加权算法得到融合后的输出检测框，再使用与输出检测框中心点最接近的检测框标签，计算左上、右下两点坐标的MSE损失，选择Adam优化器，使用梯度反向传播进行训练。

另一方面，提供了一种扩散模型引导的高速车辆检测集成学习装置，所述装置包括：

获取模块，用于获取待检测高速车辆图片数据；

预测模块，用于将所述待检测高速车辆图片数据输入选择的训练完成的多个不同的检测基模型，预测得到多个原始高速车辆检测框，所述多个不同的检测基模型的训练过程由扩散模型引导；

集成模块，用于使用检测框融合算法对所述多个原始高速车辆检测框进行集成学习，得到经过融合后的新检测框，所述新检测框为所述待检测高速车辆图片数据的最终检测结果的输出检测框。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有指令，所述指令由所述处理器加载并执行以实现上述扩散模型引导的高速车辆检测集成学习方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有指令，所述指令由处理器加载并执行以实现上述扩散模型引导的高速车辆检测集成学习方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

本发明降低了高速车辆的检测难度，提高了高速车辆的检测精度与泛化能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种扩散模型引导的高速车辆检测集成学习方法流程图；

图2为本发明实施例提供的形成第二阶段训练数据示意图；

图3为本发明实施例提供的InternImage目标检测模型结构示意图；

图4为本发明实施例提供的Yolov5目标检测模型结构示意图；

图5为本发明实施例提供的一种扩散模型引导的高速车辆检测集成学习装置框图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种扩散模型引导的高速车辆检测集成学习方法，所述方法包括：

S1、获取待检测高速车辆图片数据；

本发明实施例提出了一种扩散模型引导的高速车辆检测集成学习方法，在训练阶段利用扩散模型生成软置信度标签对多个检测基模型的训练进行指导，在推理阶段使用多个检测基模型对待检测高速车辆图片数据进行目标检测，并将多个模型的检测结果进行集成学习，融合得到最终的检测结果。本发明实施例的方法包括3个关键步骤：

1）在模型训练阶段，由于扩散模型中有大量的关于汽车的图像信息，本发明实施例提出先使用合适的提示词，提取出扩散模型中的有关信息生成相关图片，扩大了网络训练的样本量，提升模型的检测效果，同时，本发明实施例提出使用扩散模型重绘的图片生成软置信度标签，使用软置信度标签引导检测基模型进行第二阶段训练，提升了模型的泛化能力。

2）在模型选择阶段，提出一种多模型训练与选择淘汰方法，考虑到不同检测基模型在目标检测任务上的效果具有不一致性，本发明实施例提出首先对每个备选检测基模型进行单独的训练，再通过不同模型的在测试集上的效果进行删选，淘汰效果不佳的模型同时保留效果较为优异的模型进行集成。本发明实施例使用的检测基模型包括InternImage目标检测模型、Yolov5目标检测模型、Faster RCNN目标检测模型、Mask RCNN目标检测模型以及Refine Net目标检测模型，其中重点使用InternImage目标检测模型以及Yolov5目标检测模型。

3）在模型集成阶段，本发明实施例提出一种检测框加权融合算法，并设计了两种不同的检测框融合算法：权重框加权融合方法以及网络自适应加权算法，综合了各模型的优势，得到精度更高的输出检测框。

下面结合图2-4，详细说明本发明实施例提供的一种扩散模型引导的高速车辆检测集成学习方法，所述方法包括：

S1、获取待检测高速车辆图片数据；

使用第一类指定的提示词，利用扩散模型，直接进行第一类无人机视角下高速车辆图片数据生成，所述第一类指定的提示词使用“无人机视角下的”和“车辆”这一语句作为提示词（比如，使用提示词“无人机视角下的高速行驶的灰色轿车”，该提示词将会被扩散模型利用生成相关图像，可以使用不同的提示词，如将“灰色”改为红色，将“轿车”改为“卡车”来生成丰富的数据）；使用第二类指定的提示词，利用扩散模型，进行第二类车辆图片数据生成，并对于生成的第二类图片数据，将其进行缩放与裁剪后，选择包含公路的无人机视角下图片，并将其粘贴至图片的公路处，所述第二类指定的提示词使用“车辆”这一语句作为提示词（第二类不使用“无人机视角下的”这一语句作为提示词）；将扩散模型生成的部分模糊图片删去，保留生成的高质量图片；

本发明实施例的扩散模型指的是扩散生成模型，包括两个步骤：

固定的（或预设的）前向扩散过程：该过程会逐渐将高斯噪声添加到图像中，直到最终得到纯噪声；

可训练的反向去噪扩散过程：训练一个神经网络，从纯噪音开始逐渐去噪，直到得到一个真实图像。

本发明实施例主要使用扩散模型进行数据生成对目标检测模型进行引导，因此主要涉及去噪扩散过程。

本发明实施例使用预训练扩散模型中的先验知识，生成丰富的检测目标图像，扩大了网络训练的样本量，提升模型的检测效果。

S24、生成对应检测框标签；

S21中使用公开的visdrone2019以及UAVDT数据集获取无人机视角下的高速车辆图片数据，数据集中也带有这些图片数据的对应检测框标签；

S25.将数据划分为两阶段训练的数据集、验证集与测试集；

为了提升检测基模型的泛化能力，本发明实施例提出了两阶段的训练方式，第一阶段主要提升模型的检测能力，第二阶段通过扩散模型生成的软置信度标签，提升模型的泛化能力，两阶段的训练数据如下：

如图2所示，将S21和S22获取的高速车辆图片数据中的检测框标签内的检测目标图像截取出来，使用扩散模型在不同的重绘幅度下进行重绘（在重绘时本发明实施例使用类似“疾驰的”“高速移动的”这样的提示词来体现检测目标的特点），所述重绘幅度在0.1至0.5之间，保存对应的重绘幅度，使用重绘后的检测目标覆盖原数据中的检测目标，使用1减去每个检测目标对应的重绘幅度，生成软置信度标签，保存重绘后的图片和图片中检测目标对应的软置信度标签，作为检测基模型第二阶段训练数据；

具体的，根据检测基模型的不同略有不同，大概分为：对检测框进行回归时使用的L1或者L2回归损失，对检测目标进行分类时的分类损失和置信损失，这一类损失一般采用交叉熵损失。

本发明实施例使用的检测基模型包括InternImage目标检测模型、Yolov5目标检测模型、Faster RCNN目标检测模型、Mask RCNN目标检测模型以及Refine Net目标检测模型，其中重点使用InternImage目标检测模型以及Yolov5目标检测模型。

可选地，如图3所示，所述S2中的检测基模型为基于可变形卷积的视觉大模型InternImage目标检测模型，将一张的高速车辆图片输入到模型中，其中H、W分别是图片的高、宽，C表示图片的通道数，图片经过干线模块后形成/>的特征图，/>为特征图的通道数，交替进行4个类似的阶段与下采样以后得到预测的检测框，每个阶段包括一个基础模块，不同的阶段中最大的不同是其中所使用的可变形卷积算子DCNv3的参数G不同以及所使用基础模块的个数/>不同，在一个基础模块中，会先经过可变形卷积算子DCNv3，然后进行层归一化，归一化后的特征和原来的特征相加进行残差链接，之后特征会经过一个前馈神经网络与层归一化，归一化后的特征再与前馈神经网络的输入相加进行残差链接，得到一个基础模块的输出；

可变形卷积算子DCNv3以输入和任务信息为条件进行自适应空间聚集，能够更准确地捕捉图像中目标的形变信息，从而提高目标检测任务的性能，DCNv3算子采用的运算方式写为：

DCNv3将原始卷积权值拆分为深度方向和点方向两部分，其中深度方向部分由原始位置调制标量/>负责，点方向部分为采样点之间的共享投影权重w，DCNv3将空间聚集过程分成G组，每组都有单独的采样偏移量/>和调制标量/>，因此单个卷积层上的不同组可以具有不同的空间聚集模式，从而可以提取到更丰富的特征；

或者

SPFF模块由SPP模块改进而来，SPP先通过一个标准卷积模块将输入通道减半，然后分别做核大小为5、9、13的最大池化（对于不同的核大小，池化填充是自适应的）。对三次最大池化的结果与未进行池化操作的数据进行拼接，最终合并后通道数是原来的2倍，使用3个5×5的最大池化，代替SPP模块的5×5、9×9、13×13最大池化，多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核，从而在保留原有功能，即融合不同感受野的特征图，丰富特征图的表达能力的情况下，进一步提高了运行速度；

针对主干网络和检测头，Yolov5设计了两种不同的类似Yolov4中CSP结构的C3Net结构，C3Net中包含了三个卷积与特征图上的拼接操作，Yolov5与Yolov4不同点在于，Yolov4中只有主干网络使用了CSP结构，而Yolov5中设计了两种不同参数的C3Net结构，对于Yolov5-l，C3_X结构应用于主干网络，另一种C3_1结构则应用于检测头中，加强了网络特征融合的能力；

Focus为Yolov5独创结构，在Yolov5中，Focus结构被广泛用于各个卷积块的第一个卷积层，以实现对输入特征图的下采样和特征压缩，其关键步骤为切片操作，对于Yolov5-l，假设原始图像为640×640×3，输入Focus结构，采用切片操作，先变成320×320×12的特征图，再经过一次64个卷积核的卷积操作，最终变成320×320×64的特征图，经过切片操作，图像的像素尺寸变为原来的一半，在接下来的卷积中将减少大量的计算，提高卷积速度。

本发明实施例的集成学习是一种通过结合多个模型的预测结果来提高整体性能的机器学习方法，集成学习通过结合多个模型的预测结果，能够减少过拟合的风险，提高对新数据的泛化能力，不同模型的差异性有助于捕捉数据中的不同方面，从而更好地适应未见过的样本，此外，通过使用多个独立的检测基模型，集成学习能够降低模型在训练数据上的过拟合风险，当一个模型过度拟合于训练数据的特定噪声时，其他模型可能具有不同的噪声学习，从而提高整体的稳定性，单个模型可能对于特定类型的数据或问题更为敏感，而集成学习通过结合多个模型，提高了整个***的鲁棒性，即使其中某些模型性能较差，集成学习仍然可以保持相对较好的性能，特别的，对于高速车辆检测这样的困难任务，图像更有可能产生模糊以及噪声，对单一模型的检测造成困难，而使用集成算法的检测结果能够提供更加鲁棒和精确的检测结果。

本发明实施例设计两种不同的检测框融合算法：权重框加权融合方法以及网络自适应加权算法。

可选地，所述S3，具体包括：

S31、将所有原始检测框构建为一个序列S，并且序列中的检测框按照置信度C进行降序排列，所述置信度C为检测基模型输出的对预测的检测框确定性的评价指标；

S32、创建两个新的空序列B和F，其中，B中将存放所有检测框经过聚类后的聚类簇，每个簇可能包含多个原始高速车辆检测框；F中将存放B中每一簇检测框经过加权融合后的新检测框，也就是最终输出的检测框，F和B的元素是一一对应的；

S33、对S中的检测框z，按置信度C由大到小的顺序，尝试从F中找到与z的IoU值（IoU是一种测量在特定数据集中检测相应物体准确度的一个标准，其计算公式为：，A、B为两个检测框）大于预设重叠阈值t的检测框，如果没有找到与z的IoU值大于预设重叠阈值t的检测框，将z放置在聚类序列B的末尾，形成新的只有一个检测框的聚类簇，并且，将z也添加到序列F的末尾，作为新的融合框；如果找到了与z的IoU值大于预设重叠阈值t的检测框，将z放入序列B中对应的聚类簇中，每当序列B中的任一聚类簇加入新的检测框时，对序列F中的融合框进行更新。

可选地，所述聚类的具体步骤包括：

Step1、首先确定将检测框中心点坐标构成的数据集经过聚类得到k个集合的k值；

step2、从数据集中随机选择k个数据点作为质心；

Step3、对数据集中每一个点，计算其与每一个质心的距离（如欧式距离），离哪个质心近，就划分到那个质心所属的集合；

Step4、把所有数据归好k个集合后，重新计算每个集合的质心；

Step5、如果重新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值，表示重新计算的质心的位置变化不大，趋于稳定（或者说收敛），认为聚类已经达到期望的结果，算法终止；

Step6、如果重新计算出来的质心和原来的质心之间的距离很大，需要迭代Step3~5步骤。

；

或者

。

S321、设定一张图片中最大检测目标个数为Kmax，将所有选择的检测基模型预测的检测框聚类为Kmax聚类簇（具体聚类方法和上面的权重框加权融合算法的聚类方法类似，这里不再赘述），删除聚类簇中个数少于检测基模型个数二分之一的类别；

本发明实施例选择4层的全连接神经网络至少有三点好处：

其一，4层的全连接网络参数量较少，不需要大量的数据进行训练，有便于训练的优势；其二，网络层数并不多，不容易造成过拟合，具有较强的泛化能力；其三，全连接网络有计算推理速度快的优势，同时，较浅的网络层数使得这一优势更加明显。

如图5所示，本发明实施例还提供了一种扩散模型引导的高速车辆检测集成学习装置，所述装置包括：

获取模块510，用于获取待检测高速车辆图片数据；

预测模块520，用于将所述待检测高速车辆图片数据输入选择的训练完成的多个不同的检测基模型，预测得到多个原始高速车辆检测框，所述多个不同的检测基模型的训练过程由扩散模型引导；

集成模块530，用于使用检测框融合算法对所述多个原始高速车辆检测框进行集成学习，得到经过融合后的新检测框，所述新检测框为所述待检测高速车辆图片数据的最终检测结果的输出检测框。

本发明实施例提供的一种扩散模型引导的高速车辆检测集成学习装置，其功能结构与本发明实施例提供的一种扩散模型引导的高速车辆检测集成学习方法相对应，在此不再赘述。

图6是本发明实施例提供的一种电子设备600的结构示意图，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）601和一个或一个以上的存储器602，其中，所述存储器6502中存储有指令，所述指令由所述处理器601加载并执行以实现上述扩散模型引导的高速车辆检测集成学习方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述扩散模型引导的高速车辆检测集成学习方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种扩散模型引导的高速车辆检测集成学习方法，其特征在于，所述方法包括：

S1、获取待检测高速车辆图片数据；

S3、使用检测框融合算法对所述多个原始高速车辆检测框进行集成学习，得到经过融合后的新检测框，所述新检测框为所述待检测高速车辆图片数据的最终检测结果的输出检测框；

所述S2中选择训练完成的多个不同的检测基模型，具体包括：

2.根据权利要求1所述的方法，其特征在于，所述收集高速车辆图片数据，并划分为两阶段训练的训练集、验证集与测试集，具体包括：

S24、生成对应检测框标签；

S25.将数据划分为两阶段训练的数据集、验证集与测试集；

3.根据权利要求2所述的方法，其特征在于，使用划分好的训练集对备选的检测基模型进行两阶段的训练，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述S2中的检测基模型为基于可变形卷积的视觉大模型InternImage目标检测模型，将一张的高速车辆图片输入到模型中，其中H、W分别是图片的高、宽，C表示图片的通道数，图片经过干线模块后形成的特征图，/>为特征图的通道数，交替进行4个类似的阶段与下采样以后得到预测的检测框，每个阶段包括一个基础模块，不同的阶段中最大的不同是其中所使用的可变形卷积算子DCNv3的参数G不同以及所使用基础模块的个数/>不同，在一个基础模块中，会先经过可变形卷积算子DCNv3，然后进行层归一化，归一化后的特征和原来的特征相加进行残差链接，之后特征会经过一个前馈神经网络与层归一化，归一化后的特征再与前馈神经网络的输入相加进行残差链接，得到一个基础模块的输出；

；

或者

5.根据权利要求1所述的方法，其特征在于，所述S3中的检测框融合算法为权重框加权融合算法，具体包括：

6.根据权利要求5所述的方法，其特征在于，B中每一簇检测框经过加权融合后形成新检测框，具体包括：

假设序列B中的簇Z中包含n个原始高速车辆检测框每个检测框选择左上和右下对角线的两个点，这两个点唯一确定一个检测框，坐标分别为，上标表示检测框对角线的两个点，每个检测框的置信度分别为/>，则融合框的置信度c与坐标/>为：

;

；

或者

;

。

7.根据权利要求1所述的方法，其特征在于，所述S3中的检测框融合算法为网络自适应加权算法，具体包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：在训练阶段对所述全连接神经网络进行训练，具体训练方法为：

9.一种扩散模型引导的高速车辆检测集成学习***，其特征在于，所述***包括：

获取模块，用于获取待检测高速车辆图片数据；

集成模块，用于使用检测框融合算法对所述多个原始高速车辆检测框进行集成学习，得到经过融合后的新检测框，所述新检测框为所述待检测高速车辆图片数据的最终检测结果的输出检测框；

选择训练完成的多个不同的检测基模型，具体包括：