CN115272691A

CN115272691A - 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备

Info

Publication number: CN115272691A
Application number: CN202210604702.5A
Authority: CN
Inventors: 张雷; 董国梁
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-11-01

Abstract

本申请提供一种钢筋绑扎状态检测模型的训练方法、识别方法及设备，涉及图像识别技术领域。该方法通过获取样本数据集，样本数据集包括：多个样本钢筋绑扎点状态图像，每个样本钢筋绑扎点状态图像中预先标记有对应绑扎点的状态信息；对样本数据集进行图像增强处理；采用图像增强处理后的样本数据集进行模型训练，得到钢筋绑扎状态检测模型。从而，精准、高效地训练得到钢筋绑扎状态检测模型，以便于提升钢筋绑扎状态识别的效率。

Description

一种钢筋绑扎状态检测模型的训练方法、识别方法及设备

技术领域

本发明涉及图像识别领域，具体而言，涉及一种钢筋绑扎状态检测模型的训练方法、识别方法及设备。

背景技术

钢筋绑扎作业是钢筋混凝土施工工艺的重要工序之一，其工作目标是预先为构造柱、挑梁等钢筋混凝土构件扎制钢筋框架。由于交叉点数量众多 (每平方米可达上百个)，工人需要长期重复弯腰操作，劳动强度较大，易造成严重的身体劳损问题。采用建筑机器人作为一种特殊环境中代替工人进行作业的机器人，具有工作效率高、可重复性强、施工环境适应能力强等优点，已经成为建筑行业态升级的重要方向。

为确保建筑机器人完成钢筋绑扎作业，首先需要使建筑机器人精准地识别钢筋绑扎点。但在现有技术中，存在钢筋绑扎点状态识别效率低等问题。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种钢筋绑扎状态检测模型的训练方法、识别方法及设备，以解决现有技术中钢筋绑扎点状态识别效率低等问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种钢筋绑扎状态检测模型的训练方法，所述方法包括：

获取样本数据集，所述样本数据集包括：多个样本钢筋绑扎点状态图像，每个样本钢筋绑扎点状态图像中预先标记有对应绑扎点的状态信息；

对所述样本数据集进行图像增强处理；

采用图像增强处理后的样本数据集进行模型训练，得到所述钢筋绑扎状态检测模型。

可选地，所述钢筋绑扎状态检测模型包括：特征提取网络、池化网络、特征融合网络以及预测网络，所述采用图像增强处理后的样本数据集进行模型训练，得到所述钢筋绑扎状态检测模型，包括：

采用所述特征提取网络，对所述每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征；

采用所述池化网络对所述多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息；

采用所述特征融合网络对所述多个尺度中至少两个目标尺度的样本图像特征进行处理，得到所述至少两个目标尺度对应的样本定位信息，并将所述样本定位信息和所述样本语义信息进行融合，得到融合样本特征；

采用所述预测网络，对所述融合样本特征进行处理，得到所述每个样本钢筋绑扎点状态图像对应的绑扎点状态的预测结果；

根据所述预测结果和所述每个样本钢筋绑扎点状态图像对应的标记状态信息计算损失函数值；

根据所述损失函数值，修改所述钢筋绑扎状态检测模型的模型参数，并重新进行模型训练，直至达到预设迭代停止条件。

可选地，所述钢筋绑扎状态检测模型还包括：聚类网络，所述采用所述特征提取网络，对所述每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征之前，所述方法还包括：

采用所述聚类网络对所述每个样本钢筋绑扎点状态图像进行处理，得到所述每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像；

所述采用所述特征提取网络，对所述每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征，包括：

采用所述特征提取网络，对所述每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像进行特征提取，得到多个尺度的样本图像特征。

可选地，所述特征提取网络包括：依次连接的所述多个尺度的特征提取层，其中，所述多个尺度中所述至少两个目标尺度的特征提取层包括：至少一个特征提取模块；至少一个特征提取模块中最后一个特征提取模块的输出为对应特征提取层的输出。

可选地，所述钢筋绑扎状态检测模型中，所述池化网络的输入端设置有输入卷积层，所述输入卷积层为深度可分离卷积；

所述采用所述池化网络对所述多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息之前，所述方法还包括：

采用所述输入卷积层对所述最小尺度的样本图像特征进行卷积处理，得到卷积处理后的所述最小尺度的样本图像特征；

所述采用所述池化网络对所述多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息，包括：

采用所述池化网络对卷积处理后的所述最小尺度的样本图像特征进行处理，得到所述样本语义信息。

可选地，所述钢筋绑扎状态检测模型中，所述池化网络的输出端还设置有输出卷积层，所述输出卷积层为深度可分离卷积；

所述将所述样本定位信息和所述样本语义信息进行融合，得到融合样本特征之前，所述方法还包括：

采用所述输出卷积层，对所述样本语义信息进行处理，得到卷积处理后的所述样本语义信息；

所述将所述样本定位信息和所述样本语义信息进行融合，得到融合样本特征，包括：

对所述样本定位信息和卷积处理后的所述样本语义信息进行融合，得到所述融合样本特征。

可选地，所述对所述样本数据集进行图像增强处理，包括：

对所述样本数据集进行至少一种图像增强处理；所述至少一种图像增强处理包括：水平翻转、旋转、添加噪声信息、亮度调整、色彩调整中的至少一种处理。

第二方面，本申请实施例提供一种绑扎点状态识别方法，所述方法包括：

获取钢筋结构的采集图像，所述钢筋结构为预先采用多根钢筋搭建成的结构；

采用上述第一方面中任一训练得到钢筋绑扎状态检测模型，对所述采集图像进行处理，得到所述钢筋结构中各个绑扎点的绑扎状态。

第三方面，本申请实施例提供一种训练设备，包括：训练处理器、训练存储介质，所述训练处理器与所述训练存储介质之间通过总线通信连接，所述训练存储介质存储有所述训练处理器可执行的程序指令，所述训练处理器调用所述训练存储介质中存储的程序，以执行第一方面中任一所述的钢筋绑扎状态检测模型的训练方法的步骤。

第四方面，本申请实施例提供一种识别设备，包括：识别处理器、识别存储介质，所述识别处理器与所述识别存储介质之间通过总线通信连接，所述识别存储介质存储有所述识别处理器可执行的程序指令，所述识别处理器调用所述识别存储介质中存储的程序，以执行如第二方面中的绑扎点状态识别方法的步骤。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供一种钢筋绑扎状态检测模型的训练方法、识别方法及设备，该方法通过获取样本数据集，样本数据集包括：多个样本钢筋绑扎点状态图像，每个样本钢筋绑扎点状态图像中预先标记有对应绑扎点的状态信息；对样本数据集进行图像增强处理；采用图像增强处理后的样本数据集进行模型训练，得到钢筋绑扎状态检测模型。从而，精准、高效地训练得到钢筋绑扎状态检测模型，以便于提升钢筋绑扎状态识别的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请提供的一种钢筋绑扎状态检测模型的训练方法的流程示意图；

图2A为本申请提供的一种采用图像增强处理后的样本数据集对钢筋绑扎状态检测模型进行训练的方法的流程示意图；

图2B为一种YOLOv4模型的结构示意图；

图2C为一种主干特征提取网络(CSP-Darknet53)的结构示意图；

图2D为一种空间金字塔池化网络(SPP)的结构示意图；

图2E为一种路径聚合网络(PAN)的结构示意图；

图3为本申请实施例提供的一种样本数据聚类方法的流程示意图；

图4为一种池化网络的输入卷积方法的流程示意图；

图5A为本申请实施例提供的一种池化网络的输出卷积方法的流程示意图；

图5B为本申请提供的一种基于YOLOv4模型改进后的轻量化模型的结构示意图；

图6为本申请实施例提供的一种绑扎点状态识别方法的流程示意图；

图7为本申请实施例提供的一种钢筋绑扎状态检测模型的训练装置的示意图；

图8为本申请实施例提供的一种绑扎点状态识别装置的示意图；

图9为本申请实施例提供的一种训练设备的示意图；

图10为本申请实施例提供的一种识别设备的示意图。

图标：701-采集模块、702-增强模块、703-训练模块、801-获取模块、802-识别模块、901-训练处理器、902-训练存储介质、1001-识别处理器、1002- 识别存储介质。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

在建筑作业中，钢筋绑扎作业是钢筋混凝土施工工艺的重要工序之一，其工作目标是预先为构造柱、挑梁等钢筋混凝土构件扎制钢筋框架。由于交叉点数量众多(每平方米可达上百个)，工人需要长期重复弯腰操作，劳动强度较大，易造成严重的身体劳损问题。采用建筑机器人作为一种特殊环境中代替工人进行作业的机器人，具有工作效率高、可重复性强、施工环境适应能力强等优点，已经成为建筑行业态升级的重要方向。

为确保建筑机器人完成钢筋绑扎作业，首先需要使建筑机器人精准地识别钢筋绑扎点。为确保建筑机器人完成钢筋绑扎作业，本申请提供了一种钢筋绑扎状态检测模型的训练方法、识别方法及设备，通过训练钢筋绑扎状态检测模型，以提高钢筋绑扎点状态识别效率。

如下先通过具体示例，对本申请提供的一种钢筋绑扎状态检测模型的训练方法进行解释说明。图1为本申请提供的一种钢筋绑扎状态检测模型的训练方法的流程示意图。如图1所示，该方法包括：

S101、获取样本数据集。

在获取样本数据集时，可采用相机对钢筋绑扎点以不同角度和距离进行拍摄，去除模糊或绑扎点位置不完整的图像后，选取多张图片，设置图像尺寸统一(例如，尺寸为512×512像素，图像格式为.jpg)，形成样本数据集。示例地，相机可以为单目相机、双目相机。

其中，样本数据集包括：多个样本钢筋绑扎点状态图像，每个样本钢筋绑扎点状态图像中预先标记有对应绑扎点的状态信息。在制作样本数据集时，需对图像中钢筋绑扎点状态进行标签注释。将钢筋绑扎点分为两类，已绑扎点和未绑扎点，利用计算机软件(例如，LabelImg软件)进行注释。

示例地，将已绑扎点标签注释为binding，未绑扎点标签注释为 bar_crossing，标签的格式统一为PASCAL VOC2007，以(.xml)的文件格式进行存放，(.xml)文件与数据集中的图像一一对应，共同组成样本数据集，用于后续对钢筋绑扎点状态识别。

S102、对样本数据集进行图像增强处理。

为防止在目标检测中因数据集样本容量过小造成过拟合问题，并提高对现场复杂环境的适应性。可采用数据增强方法，对样本数据集进行图像增强处理，将原有图像扩充至更多张，并制作成图像增强处理后的样本数据集。使得样本数据集得到多方位的扩充，使得模型训练更加精准。

S103、采用图像增强处理后的样本数据集进行模型训练，得到钢筋绑扎状态检测模型。

本实施例在钢筋绑扎点状态识别时，采用迁移学习预训练模型，提高梯度下降收敛效率，避免梯度消失，以对图像增强处理后的样本数据集进行多次训练得到模型参数。

示例地，本实施例的模型训练可以进行100次迭代训练，前50次迭代训练冻结部分预训练模型网络，学习率设置为0.001，Batchsize设置为16，后50次迭代训练解冻部分预训练模型网络，学习率设置为0.0001，Batchsize 设置为8。以达到高效、精准地完成模型训练，得到钢筋绑扎状态检测模型。

综上，本申请实施例提供的一种钢筋绑扎状态检测模型的训练方法，获取样本数据集，样本数据集包括：多个样本钢筋绑扎点状态图像，每个样本钢筋绑扎点状态图像中预先标记有对应绑扎点的状态信息；对样本数据集进行图像增强处理；采用图像增强处理后的样本数据集进行模型训练，得到钢筋绑扎状态检测模型。从而，精准、高效地训练得到钢筋绑扎状态检测模型，以便于提升钢筋绑扎状态识别的效率。

图2A为本申请提供的一种采用图像增强处理后的样本数据集对钢筋绑扎状态检测模型进行训练的方法的流程示意图。钢筋绑扎状态检测模型包括：特征提取网络、池化网络、特征融合网络以及预测网络。

以下以钢筋绑扎状态检测模型为YOLOv4模型为示例，对本申请中的钢筋绑扎状态检测模型进行解释说明。需要说明的是，本申请并不限定钢筋绑扎状态检测模型，只要能完成钢筋绑扎状态检测的模型，均在本申请的保护范围内。YOLOv4模型是一种目标检测模型，图2B为一种YOLOv4模型的结构示意图。如图2B，YOLOv4模型包括：主干特征提取网络(CSP-Darknet53)(主干特征提取网络中包括模型输入)、颈部模块(Neck，包括空间金字塔池化网络(SPP)和路径聚合网络(PAN))、预测网络(YOLO Head)四部分。当输入目标检测图片时，特征信息由主干特征提取网络提取，颈部模块对主干提取网络的输出进行反复特征提取，将语义信息与定位信息融合，实现多尺度的目标检测，并由预测网络预测目标检测图像的位置、类别和置信度。为适应各种数据集，YOLOv4的输入有两种格式，分别为 416×416×3、608×608×3。

图2C为一种主干特征提取网络(CSP-Darknet53)的结构示意图。如图 2C，CSP-Darknet53以Darknet53为基础，分为5个残差模块，每个残差块中的残差单元均由CSP模块构成。CSP模块由两条支路构成：主干支路包括CBM模块和Resunit模块，分支路则是由CBM模块构成，实现特征图跨阶段层结构拼合，在减少计算量的同时，提升了准确率。

Neck模块包括空间金字塔池化网络(SPP)和路径聚合网络(PAN)，目的是为了使特征提取更加充分。图2D为一种空间金字塔池化网络(SPP) 的结构示意图。如图2D，空间金字塔池化网络(SPP)将原有的1个最大池化层以4种尺度的池化层组合代替，特征图通过池化核为13×13、7×7、 5×5、1×1的不同尺度最大池化层形成的空间金字塔池化，获得不同尺度的特征层信息，有效增加了网络模型的感受野。

图2E为一种路径聚合网络(PAN)的结构示意图。如图2E，路径聚合网络PAN在FPN的基础上添加了一个自底向上的特征金字塔结构。FPN模块对特征图进行上采样，将深层语义信息传递给浅层网络。虽然传递了高层语义信息，但浅层特征信息经过大量网络层的传递后会出现丢失现象，影响了对小物体的预测。因此，PAN结构对特征图进行卷积和下采样，并与FPN 中上一层级的特征图进行特征整合。通过对特征的反复提取，增强了网络特征提取能力。PAN利用两次特征金字塔模块操作，提高了语义信息和定位信息的利用率，有利于网络对各个尺度物体的检测。

具体地，如图2A所示，S103中的采用图像增强处理后的样本数据集进行模型训练，得到钢筋绑扎状态检测模型，包括：

S201、采用特征提取网络，对每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征。

特征提取网络可以为YOLOv4模型中的CSP-Darknet53网络。CSP- Darknet53网络对每个样本钢筋绑扎点状态图像进行反复特征提取，得到多个尺度的样本图像特征。在CSP-Darknet53网络中，该网络分为5个残差模块，每个残差块中的残差单元均可实现对样本图像特征跨阶段层结构拼合，在减少计算量的同时，提升了准确率。

示例地，当输入的样本图像尺寸为416×416×3时，经过特征提取网络进行特征提取，可以得到输出尺寸为52×52×256、26×26×512以及13 ×13×1024的多个尺度的样本图像特征，每类尺寸的样本图像的数量可以为多个。

S202、采用池化网络对多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息。

池化网络可以为YOLOv4模型中的金字塔池化结构网络(SPP)。金字塔池化结构网络中包括4种尺度的池化层，4种池化核的尺度可以为13× 13、7×7、5×5、1×1。样本图通过的不同尺度最大池化层形成的空间金字塔池化，获得不同尺度的特征层信息，有效增加了网络模型的感受野。

特征提取网络的一个输出为池化网络的输入，而特征提取网络输出有多个尺度的样本图像特征，将多个尺度中最小尺度的样本图像输入至池化网络。采用池化网络对多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息。样本语义信息包括：样本图像的颜色、纹理、形状等。

S203、采用特征融合网络对多个尺度中至少两个目标尺度的样本图像特征进行处理，得到至少两个目标尺度对应的样本定位信息，并将样本定位信息和样本语义信息进行融合，得到融合样本特征。

特征融合网络可以为YOLOv4模型中的路径聚合网络。路径聚合网络 (PAN)包括：自底向上、自上向下的特征金字塔结构。路径聚合网络对样本图像进行上采样，将样本语义信息传递给浅层网络。但浅层特征信息经过大量网络层的传递后会出现丢失现象，影响了对小物体的预测。因此，路径聚合网络还对样本图像进行卷积和下采样得到样本定位信息。并与样本语义信息进行特征整合。通过对特征的反复提取，增强了网络特征提取能力。路径聚合网络利用两次特征金字塔模块操作，提高了语义信息和定位信息的利用率，有利于网络对各个尺度物体的检测。

示例地，当输入的样本图像尺寸为416×416×3时，经过池化网络、特征融合网络，以及将样本定位信息和样本语义信息进行融合，可以得到输出尺寸为52×52×256、26×26×512以及13×13×1024的多个尺度的样本图像特征，每类尺寸的样本图像的数量可以为多个。

S204、采用预测网络，对融合样本特征进行处理，得到每个样本钢筋绑扎点状态图像对应的绑扎点状态的预测结果。

预测网络可以为YOLOv4模型中的预测网络(YOLO Head)。特征融合网络的输出为预测网络的输入。

示例地，以特征融合网络输出尺寸为52×52×256、26×26×512以及 13×13×1024的多个尺度的样本图像特征为例，预测网络可以对三个不同尺度的特征图进行结果预测，三个特征图在设定的网格点上共聚类出9种尺寸先验框，通过对先验框进行解码，判断先验框中有无目标以及目标种类，然后根据位置参数对先验框调整得到预测框，再根据设定的置信度阈值对预测框进行筛选，获得最终预测框。

具体地，每个网格会获得3个预测框，预测框结果包括位置(4维)、置信度(1维)、种类(N维)。预测框中心坐标以及宽高的计算公式如下公式(1)所示：

其中，bx、by、bw、bh分别表示预测框中心的横纵坐标以及宽高，cx、 cy为被测目标中心所在网格相对于图像左上角原点的横向和纵向偏移量，tx、ty为预测框中心点的横纵坐标偏移量，σ(tx)、σ(ty)表示tx、ty的归一化结果，pw、ph为先验框的宽和高，tw、th为预测框的宽高缩放比例。

目标是否在网格内的概率可以用置信度表示，置信度的计算公式如下述公式(2)所示：

其中，Pr(Object)表示目标是否在网格中，若目标存在，Pr(Object)为1，反之为0，IOU表示真实框与预测框的交并比。

在本实施例中，由于数据集图像尺寸为512×512，为提高运算速度，在YOLOv4模型中输入大小为416×416×3，经过预测后会生成52×52× 3+26×26×3+13×13×3共计10647个边界框。对于每个边界框均会获得对应的置信度得分，并对得分最高的预测框进行筛选，从而完成识别。

S205、根据预测结果和每个样本钢筋绑扎点状态图像对应的标记状态信息计算损失函数值。

对于每个样本钢筋绑扎点状态图像，都有对应的预测结果以及原始的标记状态信息。对预测结果以及原始的标记状态信息进行比较得到计算损失函数值。

S206、根据损失函数值，修改钢筋绑扎状态检测模型的模型参数，并重新进行模型训练，直至达到预设迭代停止条件。

在钢筋绑扎状态检测模型中预设有对应类型的模型参数。根据损失函数值，可以得到对应的模型参数值。并重新进行模型训练，得到多组对应的损失函数值以及模型参数值。对多组对应的损失函数值以及模型参数值进行拟合，得到钢筋绑扎状态检测模型，直至达到预设迭代停止条件。示例地，预设迭代停止条件可以为设置预设迭代次数，若迭代次数超过该预设迭代次数，则停止迭代；也可以设置预设拟合阈值，若拟合度高于该拟合阈值，则停止迭代。

综上，在本实施例中，采用特征提取网络，对每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征；采用池化网络对多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息；采用特征融合网络对多个尺度中至少两个目标尺度的样本图像特征进行处理，得到至少两个目标尺度对应的样本定位信息，并将样本定位信息和样本语义信息进行融合，得到融合样本特征；采用预测网络，对融合样本特征进行处理，得到每个样本钢筋绑扎点状态图像对应的绑扎点状态的预测结果；根据预测结果和每个样本钢筋绑扎点状态图像对应的标记状态信息计算损失函数值；根据损失函数值，修改钢筋绑扎状态检测模型的模型参数，并重新进行模型训练，直至达到预设迭代停止条件。从而，经过对预设的钢筋绑扎状态检测模型进行多次训练，得到精准的钢筋绑扎状态检测模型。

图3为本申请实施例提供的一种样本数据聚类方法的流程示意图。如图3所示，钢筋绑扎状态检测模型还包括：聚类网络。S201中的采用特征提取网络，对每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征之前，该方法还可包括：

S301、采用聚类网络对每个样本钢筋绑扎点状态图像进行处理，得到每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像。

由于本申请采集的样本图像对应检测目标均为小目标，为避免原始先验框影响网络的检测性能，利用聚类网络对样本图像数据集的先验框进行聚类。

示例地，聚类网络可以为K-means聚类算法。K-means聚类算法的划分方法如下：

(1)、初始的聚类中心为样本图像数据中任意的k个数据；(2)根据聚类中心与每个数据样本Xi之间的欧氏距离，将样本划分到距离最小的类中； (3)对每一类C，重新计算聚类中心，并修正该聚类中心；(4)经过多次计算，聚类中心稳定且与类中各数据距离最小，完成聚类。将聚类算法应用到目标检测模型中获得先验框时，欧氏距离会变为标注框与每个聚类中心先验框的相似度距离，其计算公式如下公式(3)所示：

d_{(center,other)}＝1-IOU_{(center,other)} (3)

其中，center表示聚类中心先验框，other表示待划分的先验框，IOU表示两个先验框之间的交并比。对聚类中心重新计算是对每类中各个标注框的宽高求取均值，计算公式如下公式(4)所示：

其中，X_i、Y_i分别表示第i类重新聚类后聚类中心的宽和高，N_i为第i 类中标注框的数量，xij、yij分别表示第i类中第j个标准框的宽、高。

通过上述计算公式会重新获得每一类的聚类中心，并以此重复进行(2)、 (3)步骤，直到聚类中心不再变化，此时获得的聚类中心的宽高，即为先验框的宽高，即钢筋绑扎点区域图像。

S201中的采用特征提取网络，对每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征，包括：

S302、采用特征提取网络，对每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像进行特征提取，得到多个尺度的样本图像特征。

经过聚类处理，得到每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像。进一步，就无需对整个样本钢筋绑扎点状态图像进行特征特区，只需要对每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像进行特征提取，得到多个尺度的样本图像特征。提高了特征提取的效率以及精准度。

综上，在本实施例中，采用聚类网络对每个样本钢筋绑扎点状态图像进行处理，得到每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像；采用特征提取网络，对每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像进行特征提取，得到多个尺度的样本图像特征。从而，提高了特征提取的效率以及精准度。

在图2A所示的实施例的基础上，特征提取网络包括：依次连接的多个尺度的特征提取层，其中，多个尺度中至少两个目标尺度的特征提取层包括：至少一个特征提取模块；至少一个特征提取模块中最后一个特征提取模块的输出为对应特征提取层的输出。

示例地，当输入的样本图像尺寸为416×416×3时，经过多个尺度的特征提取层的尺寸可以为52×52×256、26×26×512以及13×13×1024，每类尺寸的样本图像的数量可以为多个。尺寸为52×52×256、26×26×512 对应的特征提取层可以包括：至少一个特征提取模块；可以将尺寸为 52×52×256的多个特征提取模块中的最后一个特征提取模块的输出为对应特征提取层的输出。

进一步地，在能够在保证高识别准确率的同时，提高识别速度以适应钢筋绑扎工作。为提升特征提取的准确率以及速度，在上述YOLOv4模型中的CSP-Darknet53的基础上，本实施例将CSP-DarkNet53网络改变为 MobileNetv2网络，以实现网络轻量化，降低网络模型参数量。示例地，可以采用MobileNetv2网络的第6层、第13层、第17层的特征层代替CSP-DarkNet53最后三层特征层作为特征提取网络的特征层输出。

MobileNetv2网络通过深度可分离卷积(Depthwise Separable Convolution)替换传统卷积，先对逐个通道进行深度卷积，然后对所有通道逐点卷积，极大地降低了网络参数的规模。

对于传统卷积，若输入层为Df×Df×M，卷积采用N个尺寸为Dk×Dk ×M的卷积核，获得输出层尺寸为Dp×Dp×N，其计算量如下公式(5)所示：

对应的模型参数量的计算公式如下公式(6)所示：

对于深度可分离卷积，若输入层为Df×Df×M，首先采用N个Dk×Dk ×1的卷积核深度卷积，输出为Dp×Dp×M，其次采用N个1×1×M的卷积核逐点卷积，对通道进行特征整合，最终得到Dp×Dp×N的特征图。其计算量如下公式(7)所示：

对应的模型参数量的计算公式如下公式(8)所示：

深度可分离卷积可以有效解决因网络模型通道较多而导致的计算复杂度高、识别效率低等问题。深度卷积将输入分组，每组进行卷积，只对每组的内部信息进行特征提取，但通道之间的信息互相屏蔽，因此需要逐点卷积进行补充，将各通道的信息进行交换，从而保证对输入层所有特征信息的提取。

通过引入了反向残差(Inverted Residuals)和线性瓶颈(Linear Bottlenecks)两个结构，提高网络的表征能力，同时针对ReLU激活函数造成的信息丢失现象，引入Linear线性激活函数进行替换。反向残差结构的卷积操作为先升维后降维，与残差结构相反。通过1×1卷积先升维的反向卷积操作，可以获得更多的图像特征，减少了网络的参数量和计算量。

综上，在本实施例中，特征提取网络包括：依次连接的多个尺度的特征提取层，其中，多个尺度中至少两个目标尺度的特征提取层包括：至少一个特征提取模块；至少一个特征提取模块中最后一个特征提取模块的输出为对应特征提取层的输出。从而，以通过提升特征提取的准确率以及速度，在能够在保证高识别准确率的同时，提高识别速度以适应钢筋绑扎工作。

图4为一种池化网络的输入卷积方法的流程示意图。钢筋绑扎状态检测模型中，池化网络的输入端设置有输入卷积层，输入卷积层为深度可分离卷积。

如图4所示，在S202中的采用池化网络对多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息之前，该方法还包括：

S401、采用输入卷积层对最小尺度的样本图像特征进行卷积处理，得到卷积处理后的最小尺度的样本图像特征。

在上述池化网络可以为YOLOv4模型中的金字塔池化结构网络(SPP) 的基础上。在空间金字塔池化网络SPP的输入端设置有输入卷积层，并采用深度可分离卷积代替原有输入卷积层中的1个3×3卷积。以克服3×3 卷积导致卷积核变所大带来的计算量变大的问题，并通过提升输入卷积计算速度进而提升了模型的识别速度。并采用输入卷积层中的深度可分离卷积对最小尺度的样本图像特征进行卷积处理，得到卷积处理后的最小尺度的样本图像特征。

S202中的采用池化网络对多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息，包括：

S402、采用池化网络对卷积处理后的最小尺度的样本图像特征进行处理，得到样本语义信息。

进一步地，在对最小尺度的样本图像特征进行深度可分离卷积处理，得到深度可分离卷积处理后的最小尺度的样本图像特征之后。完成该最小尺度的样本图像特征的输入，并采用池化网络对卷积处理后的最小尺度的样本图像特征进行处理，得到样本语义信息。

综上，在本实施例中，采用输入卷积层对最小尺度的样本图像特征进行卷积处理，得到卷积处理后的最小尺度的样本图像特征；采用池化网络对卷积处理后的最小尺度的样本图像特征进行处理，得到样本语义信息。从而，通过提升输入卷积计算速度进而提升了模型的识别速度。

图5A为本申请实施例提供的一种池化网络的输出卷积方法的流程示意图。在钢筋绑扎状态检测模型中，池化网络的输出端还设置有输出卷积层，输出卷积层为深度可分离卷积。

如图5A所示，在S203中的将样本定位信息和样本语义信息进行融合，得到融合样本特征之前，方法还包括：

S501、采用输出卷积层，对样本语义信息进行处理，得到卷积处理后的样本语义信息。

在上述池化网络可以为YOLOv4模型中的金字塔池化结构网络(SPP) 的基础上。在空间金字塔池化网络SPP的输出端设置有输出卷积层，并采用深度可分离卷积代替原有输入卷积层中的1个3×3卷积。以克服3×3 卷积导致卷积核变所大带来的计算量变大的问题，并通过提升输出卷积计算速度进而提升了模型的识别速度。并采用输出卷积层中的深度可分离卷积对样本语义信息进行卷积处理，得到卷积处理后的样本语义信息。

S203中的将样本定位信息和样本语义信息进行融合，得到融合样本特征，包括：

S502、对样本定位信息和卷积处理后的样本语义信息进行融合，得到融合样本特征。

进一步地，在对样本语义信息进行深度可分离卷积处理，得到深度可分离卷积处理后的样本语义信息之后。池化网络可将该经过深度可分离卷积处理后的样本语义信息输出至特征融合网络。特征融合网络对样本定位信息和卷积处理后的样本语义信息进行融合，得到融合样本特征。

综上，在本实施例中，采用输出卷积层，对样本语义信息进行处理，得到卷积处理后的样本语义信息；对样本定位信息和卷积处理后的样本语义信息进行融合，得到融合样本特征。从而，通过提升输出卷积计算速度进而提升了模型的识别速度。

在上述所有实施例的基础上，本申请提供了一种基于YOLOv4模型改进后的轻量化模型。图5B为本申请提供的一种基于YOLOv4模型改进后的轻量化模型的结构示意图。如图5B所示，将CSP-DarkNet53网络改变为 MobileNetv2网络，在空间金字塔池化网络SPP的输入端输入卷积层以及输出卷积层中原有输入卷积层中的1个3×3卷积替换为深度可分离卷积。以实现网络轻量化，降低网络模型参数量。

在上述图1所述的实施例的基础上，S102中的对样本数据集进行图像增强处理，包括：

对样本数据集进行至少一种图像增强处理；至少一种图像增强处理包括：水平翻转、旋转、添加噪声信息、亮度调整、色彩调整中的至少一种处理。

通过对图像进行增强处理，有效地扩充了原数据集，使训练样本数据增加，增加模型的泛化能力，并且通过添加噪声，有利于模型抗干扰能力的提高。

示例的，本实施例主要采用以下几种方式进行图像处理：

(1)水平翻转：翻转有两种方式，即在水平和垂直方向翻转图像。垂直翻转可能会改变物体的属性，存在一定的局限性，因此可采用水平翻转对图像进行增强处理。

(2)旋转：旋转包括顺时针旋转和逆时针旋转两种方式，旋转角度可改变图像中目标的朝向，进而改变目标的图像位置，起到增强作用。

(3)添加噪声信息：在数据集的图像中引入噪声信息，可提高模型的抗干扰性。例如，噪声信息可以为高斯噪声信息。

(4)亮度调整：亮度变化通过改变像素值，实现图像明亮度变化。本实施例中通过随机改变亮度，使图像更加贴近于真实的施工环境光照情况，进一步提高模型适应不同环境场景的能力。

(5)色彩调整：色彩变化通过对HSV颜色模型中的三种参数进行调整，即色调、饱和度、明度，实现图像的色彩变化，进一步提高模型对色彩变化的泛化性。

综上，在本实施例中，对样本数据集进行至少一种图像增强处理；至少一种图像增强处理包括：水平翻转、旋转、添加噪声信息、亮度调整、色彩调整中的至少一种处理。从而，使得模型的泛化能力增强，提高了模型地训练精度。

综上，在本实施例中，对样本数据集进行至少一种图像增强处理；至少一种图像增强处理包括：水平翻转、旋转、添加噪声信息、亮度调整、色彩调整中的至少一种处理。从而，增加模型的泛化能力，并提高模型抗干扰能力。

图6为本申请实施例提供的一种绑扎点状态识别方法的流程示意图。如图6所示，该方法包括：

S601、获取钢筋结构的采集图像，钢筋结构为预先采用多根钢筋搭建成的结构。

钢筋结构为将多条钢筋以横纵交叉方式间隔排布并绑扎，形成构件网架，通常称为“钢筋骨架”，便于对混凝土进行约束，加强构件的整体性。

通过相机采集钢筋结构的图像，并获取钢筋结构的采集图像，以用于钢筋结构中的绑扎点状态识别。

S602、采用上述任一训练得到钢筋绑扎状态检测模型，对采集图像进行处理，得到钢筋结构中各个绑扎点的绑扎状态。

在上述所有实施例的基础上，已经训练得到了钢筋绑扎状态检测模型，采用该钢筋绑扎状态检测模型，对采集图像进行处理，得到钢筋结构中各个绑扎点的绑扎状态。通过采用训练得到的钢筋绑扎状态检测模型对采集图像进行识别，相较于现有的识别方法，实现了准确率高、识别速度高的效果。

综上，本申请实施例提供的一种绑扎点状态识别方法，获取钢筋结构的采集图像，钢筋结构为预先采用多根钢筋搭建成的结构，采用上述所有实施例中任一训练得到钢筋绑扎状态检测模型，对采集图像进行处理，得到钢筋结构中各个绑扎点的绑扎状态。从而，提高了识别的准确率高以及识别速度高。

下述对用以执行的本申请所提供的一种钢筋绑扎状态检测模型的训练装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图7为本申请实施例提供的一种钢筋绑扎状态检测模型的训练装置的示意图，如图7所示，该装置包括：

采集模块701，用于获取样本数据集，样本数据集包括：多个样本钢筋绑扎点状态图像，每个样本钢筋绑扎点状态图像中预先标记有对应绑扎点的状态信息。

增强模块702，用于对样本数据集进行图像增强处理。

训练模块703，用于采用图像增强处理后的样本数据集进行模型训练，得到钢筋绑扎状态检测模型。

可选地，训练模块703，具体用于钢筋绑扎状态检测模型包括：特征提取网络、池化网络、特征融合网络以及预测网络，采用图像增强处理后的样本数据集进行模型训练，得到钢筋绑扎状态检测模型，包括：

采用特征提取网络，对每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征；采用池化网络对多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息；采用特征融合网络对多个尺度中至少两个目标尺度的样本图像特征进行处理，得到至少两个目标尺度对应的样本定位信息，并将样本定位信息和样本语义信息进行融合，得到融合样本特征；采用预测网络，对融合样本特征进行处理，得到每个样本钢筋绑扎点状态图像对应的绑扎点状态的预测结果；根据预测结果和每个样本钢筋绑扎点状态图像对应的标记状态信息计算损失函数值；根据损失函数值，修改钢筋绑扎状态检测模型的模型参数，并重新进行模型训练，直至达到预设迭代停止条件。

可选地，训练模块703，具体用于钢筋绑扎状态检测模型还包括：聚类网络，采用特征提取网络，对每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征之前，方法还包括：采用聚类网络对每个样本钢筋绑扎点状态图像进行处理，得到每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像；采用特征提取网络，对每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征，包括：采用特征提取网络，对每个样本钢筋绑扎点状态图像中的钢筋绑扎点区域图像进行特征提取，得到多个尺度的样本图像特征。

可选地，训练模块703，具体用于特征提取网络包括：依次连接的多个尺度的特征提取层，其中，多个尺度中至少两个目标尺度的特征提取层包括：至少一个特征提取模块；至少一个特征提取模块中最后一个特征提取模块的输出为对应特征提取层的输出。

可选地，训练模块703，具体用于钢筋绑扎状态检测模型中，池化网络的输入端设置有输入卷积层，输入卷积层为深度可分离卷积；采用池化网络对多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息之前，方法还包括：采用输入卷积层对最小尺度的样本图像特征进行卷积处理，得到卷积处理后的最小尺度的样本图像特征；采用池化网络对多个尺度中最小尺度的样本图像特征进行处理，得到样本语义信息，包括：采用池化网络对卷积处理后的最小尺度的样本图像特征进行处理，得到样本语义信息。

可选地，训练模块703，具体用于钢筋绑扎状态检测模型中，池化网络的输出端还设置有输出卷积层，输出卷积层为深度可分离卷积；将样本定位信息和样本语义信息进行融合，得到融合样本特征之前，方法还包括：采用输出卷积层，对样本语义信息进行处理，得到卷积处理后的样本语义信息；将样本定位信息和样本语义信息进行融合，得到融合样本特征，包括：对样本定位信息和卷积处理后的样本语义信息进行融合，得到融合样本特征。

可选地，增强模块702，具体用于对样本数据集进行图像增强处理，包括：对样本数据集进行至少一种图像增强处理；至少一种图像增强处理包括：水平翻转、旋转、添加噪声信息、亮度调整、色彩调整中的至少一种处理。

下述对用以执行的本申请所提供的一种绑扎点状态识别装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图8为本申请实施例提供的一种绑扎点状态识别装置的示意图，该装置包括：

获取模块801，用于获取钢筋结构的采集图像，钢筋结构为预先采用多根钢筋搭建成的结构。

识别模块802，用于采用上述任一训练得到钢筋绑扎状态检测模型，对采集图像进行处理，得到钢筋结构中各个绑扎点的绑扎状态。

图9为本申请实施例提供的一种训练设备的示意图，该训练设备可以是具备计算处理功能的设备。

该训练设备包括：训练处理器901、训练存储介质902。训练处理器901 和训练存储介质902通过总线连接。

训练存储介质902用于存储程序，训练处理器901调用训练存储介质 902存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

图10为本申请实施例提供的一种识别设备的示意图，该识别设备可以是具备计算处理功能的设备。

该识别设备包括：识别处理器1001、识别存储介质1002。识别处理器 1001和识别存储介质1002通过总线连接。

识别存储介质1002用于存储程序，识别处理器1001调用识别存储介质1002存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read- Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种钢筋绑扎状态检测模型的训练方法，其特征在于，所述方法包括：

对所述样本数据集进行图像增强处理；

2.根据权利要求1所述的方法，其特征在于，所述钢筋绑扎状态检测模型包括：特征提取网络、池化网络、特征融合网络以及预测网络，所述采用图像增强处理后的样本数据集进行模型训练，得到所述钢筋绑扎状态检测模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述钢筋绑扎状态检测模型还包括：聚类网络，所述采用所述特征提取网络，对所述每个样本钢筋绑扎点状态图像进行特征提取，得到多个尺度的样本图像特征之前，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述特征提取网络包括：依次连接的所述多个尺度的特征提取层，其中，所述多个尺度中所述至少两个目标尺度的特征提取层包括：至少一个特征提取模块；至少一个特征提取模块中最后一个特征提取模块的输出为对应特征提取层的输出。

5.根据权利要求2所述的方法，其特征在于，所述钢筋绑扎状态检测模型中，所述池化网络的输入端设置有输入卷积层，所述输入卷积层为深度可分离卷积；

6.根据权利要求2所述的方法，其特征在于，所述钢筋绑扎状态检测模型中，所述池化网络的输出端还设置有输出卷积层，所述输出卷积层为深度可分离卷积；

7.根据权利要求1所述的方法，其特征在于，所述对所述样本数据集进行图像增强处理，包括：

8.一种绑扎点状态识别方法，其特征在于，所述方法包括：

采用上述权利要求1-7中任一训练得到钢筋绑扎状态检测模型，对所述采集图像进行处理，得到所述钢筋结构中各个绑扎点的绑扎状态。

9.一种训练设备，其特征在于，包括：训练处理器、训练存储介质，所述训练处理器与所述训练存储介质之间通过总线通信连接，所述训练存储介质存储有所述训练处理器可执行的程序指令，所述训练处理器调用所述训练存储介质中存储的程序，以执行如权利要求1至7任一所述的钢筋绑扎状态检测模型的训练方法的步骤。

10.一种识别设备，其特征在于，包括：识别处理器、识别存储介质，所述识别处理器与所述识别存储介质之间通过总线通信连接，所述识别存储介质存储有所述识别处理器可执行的程序指令，所述识别处理器调用所述识别存储介质中存储的程序，以执行如权利要求8所述的绑扎点状态识别方法的步骤。