CN112561989B

CN112561989B - 一种建造场景下吊装对象的识别方法

Info

Publication number: CN112561989B
Application number: CN202011532797.1A
Authority: CN
Inventors: 郭红领; 周颖; 叶啸天; 张知田; 罗柱邦
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-11-01
Anticipated expiration: 2040-12-23
Also published as: CN112561989A

Abstract

本发明属于建筑施工自动化技术领域，尤其涉及一种建造场景下吊装对象的识别方法。本发明包括图像采集和预处理、图像处理、特征提取以及数据库检索。首先基于收集的原始数据，使用Faster R‑CNN检索并分割吊装对象的二维图像。然后，由Canny检测，霍夫变换，端点聚类分析和基于顶点判断模型组成的循环图像处理，以确定吊装对象的顶点和边缘。此外，通过数据融合，即具有颜色信息的二维图像像素点到三维空间点的映射，确定特征点的颜色信息，二维像素坐标和三维空间坐标，从而提取吊装对象的可见特征，最后根据提取的吊装对象可见特征通过数据库检索进一步获取吊装对象的不可见特征，为自动化吊装、智能建造提供信息基础。

Description

一种建造场景下吊装对象的识别方法

技术领域

本发明属于建筑施工自动化技术领域，尤其涉及一种建造场景下吊装对象的识别方法。

背景技术

建筑业是推动我国国民经济发展和社会进步的支柱产业，为国家经济发展作出了重要贡献。但随着建筑业的快速发展，建筑业的工人老龄化问题愈发严重，工人总数逐年下降，中老年劳动力比例却逐年上升。与此同时，由于建筑施工的动态性、复杂性、大体量，施工现场安全管理困难，建筑业安全事故频发。自2012年起，我国建筑业由安全事故引起的人员死亡人数已经超过煤矿行业，建筑业成为我国所有工业生产领域中最危险的行业。

近年来，随着信息技术的飞速发展，建筑自动化和机器人技术为解决上述问题提供了新的思路。移动式起重机作为施工现场使用最广的机械设备之一，实现其自动化吊装对推动智能建造，提高建筑业生产率，减少施工安全事故的重要性不言而喻。然而，现有研究对于起重机的自动化操作主要侧重以下方面，包括起重机的选型、定位、吊装路径规划、多起重机协同作业、起重机操作模拟和可视化等。并且这些研究大多关注的是起重机作业的自动规划，而不是作业本身的自动化，尤其缺乏对于现场吊装对象自动识别的研究，即通过提供吊装对象的初始位置和其他必要信息，构成起重机自动化操作的基础。目前，施工现场主要采用传统的人工观察方式，确定吊装对象原始位置。由起重机操作员或信号工作人员观察周围环境，并通过手势传输信息，不仅费时还容易出错，不适合自动化吊装。

近年来，新技术的飞速发展，尤其是图像处理技术和三维激光扫描技术的发展，使得施工现场吊装对象的自动识别成为可能。通过比较两种技术在处理效率、成本和识别精度方面的关键参数，图像处理技术比激光扫描处理效率更快、成本更经济，其精度亦满足施工现场环境感知的要求。此外，激光传感器通常搭载于无人机上采集点云数据，受政策限制和隐私保护亦无法在施工现场大面积推广。现有研究表明图像处理技术在建筑业的应用可以显著提高建筑生产效率，如使用分类器区分收集的二维彩色图像中健康和潜在不健康的建筑组件表面纹理，进行损坏检测，可以减少90％的检测工作量。这些都使得基于图像的吊装对象自动实时识别方法成为可能。但是，对于吊装对象识别，现有研究大都基于传感器采集的目标对象点云或图像，通过模型匹配识别吊装对象，对建筑信息模型要求度较高且鲁棒性较差，未充分利用识别得到的吊装对象特征信息。

发明内容

本发明的目的是提出一种建造场景下吊装对象识别方法，以及一种施工现场吊装对象自动识别原型***，从施工现场作业的视频或者图像中自动识别吊装对象，并提取出自动化吊装需要的特定吊装对象信息，为自动化吊装、智能建造提供信息基础。

本发明提出的建造场景下吊装对象的识别方法，包括以下步骤：

(1)用立体相机从不同角度拍摄施工现场场景，得到一个点云文件；点云文件中的(x，y，z)代表施工现场场景中任意一个空间点的三维坐标，点云文件中的(u，v)代表相应图像像素坐标，点云文件中的(R，G，B)代表像素颜色信息；

(2)对Faster R-CNN模型进行训练，得到一个训练后的Faster R-CNN模型；

(3)根据步骤(1)的点云文件中的(u，v，R，G，B)，得到施工现场场景图像，利用步骤(2)的训练后的FasterR-CNN模型，从施工现场场景图像中提取待识别吊装对象的前景即边界框以及吊装对象的种类；

(4)利用Canny方法，设定一个Canny方法的初始阈值，对步骤(3)得到的待识别吊装对象的边界框进行检测，得到待识别吊装对象的初始轮廓点，计算初始轮廓点中的连续轮廓点的像素坐标(u，v)的最大值和最小值所构成的最小封闭矩形的面积，将该面积与步骤(3)的边界框的面积进行比较，当该面积小于步骤(3)的边界框的面积时，将连续轮廓点作为物体表面纹理而删除，得到待识别吊装对象的轮廓点；

(5)对步骤(4)的待识别吊装对象轮廓点进行霍夫变换,得到待识别吊装对象的多个轮廓线段，将轮廓线段记为L；

(6)根据步骤(5)的多个轮廓线段L的多个端点，设定欧式距离的初始阈值D，分别计算所有任意两个端点之间的欧式距离E，

得到多个欧式距离E，并分别将多个欧式距离与欧式距离初始阈值D进行比较，若欧式距离大于D，则判定两个端点不重合，若欧式距离小于或等于D，则将两个端点称为聚类点，遍历所有轮廓线段L的所有端点，重复本步骤，得到多组聚类点，将同一组聚类点中的所有端点合并成一个点，将该点记为待识别吊装对象的一个顶点，该顶点的坐标为(x，y，z)，

并用该顶点的坐标替换同一组聚类点的所有端点，即步骤(5)轮廓线段的端点被该顶点替换生成新的线段,将同一组聚类点中的端点数量称为该顶点的聚集度；

(7)对步骤(6)得到的顶点聚集度进行从最大到最小排序，根据排序结果进行判断，确定待识别吊装对象的空间位置，包括以下步骤：

(7-1)从排序结果中选择聚集度≥3的顶点，将包含聚集度≥3的同一顶点的任意三条线段记为一组；

(7-2)判断步骤(7-1)的线段组中任意两两线段之间是否互相垂直，若三条线段中任意两条线段之间都满足|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|≤0.5，则三条线段两两相互垂直，确定该顶点为待识别吊装对象的顶点，且该组的线段为待识别吊装对象的边，若三条线段中存在两条线段之间|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|＞0.5，则返回(7-1)，直至遍历所有步骤(7-1)的线段组，进行步骤(7-3)；

(7-3)从步骤(6)的线段中选择一条线段L1，线段L1的两个端点均为聚类点，选择包含一个该聚类点的线段L2，并且标记所选择的线段；选择包含另一个聚类点B的线段L4，并且标记所选择的线段L1、L2和L4；

(7-4)判断步骤(7-3)的线段组L1、L2和L4中的任意两两线段之间是否互相垂直，若三条线段中任意两条线段之间都满足|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|≤0.5，则确定该顶点为待识别吊装对象的顶点，且该组的线段L1、L2和L4为待识别吊装对象的边，若三条线段中存在两条线段之间不满足|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|＞0.5，则返回步骤(7-3)，直至遍历包含L1两个端点的所有线段；若遍历所有满足步骤(7-3)要求的线段，但未找到吊装对象，则返回步骤(4)进行Canny检测，并调整Canny方法的阈值；

(8)根据步骤(7)得到的三个提取的线段，计算待吊装对象的质心坐标和三维尺寸，包括以下步骤：

(8-1)根据步骤(7-1)得到的具有公共顶点A的三条线段L1、L2、和L3，利用顶点A和其他三个端点的空间坐标，确定从顶点A开始的三个空间方向的向量：

和

设定O点是相机坐标系的原点，点P是待识别吊装对象的质心和线段L_AC的中点，利用下式：

计算得到质心P点的坐标，分别计算线段L1、L2和L3的两个端点之间的欧式距离E，

得到待识别吊装对象的三维尺寸；

(8-2)根据步骤(7-3)得到的三条互相垂直且相交于两点的线段，即线段L1、L2和L4，具有公共顶点A和B，利用顶点A和其他两个端点的空间坐标，确定来自顶点A的两个空间方向矢量：

和

来自顶点B的空间方向向量：

计算得到出质心P点的坐标，计算线段L1、L2和L4的两个端点之间的欧式距离E，

得到待识别吊装对象的三维尺寸；

(9)采用白平衡方法，对步骤(3)得到的待识别吊装对象边界框图像进行处理，平衡待识别吊装对象边界框图像中红、绿、蓝光的比例，以修复白色以及其他颜色，获得消除光照影响后的待识别吊装对象边界框图像颜色；采用灰度世界算法，计算待识别吊装对象边界框图像的平均灰度值W，

其中N是步骤(3)中所获得的待识别吊装对象的前景图像中像素坐标(u，v)的最大值的乘积，即N＝u_max*v_max，R_S、G_S和B_S分别表示待识别吊装对象边界框图像中像素s的红色、绿色和蓝色值，利用公式：

分别计算得到三个增益值W_R、W_G和W_B，根据增益值，计算白平衡校正后的像素s的R_S、G_S和B_S：R_{s,whitebalance}＝R_s*W_R，G_{s,whitebalance}＝G_s*W_G，B_{s,whitebalance}＝B_s*W_B；

(10)从步骤(6)得到的顶点中随机选择两个顶点，从该两顶点之间的连线上任取1个线性插值点，将线性插值点记为像素点k，像素点k的颜色值记为R_k、G_k和B_k，重复n次，计算待识别吊装对象的RGB颜色数值R_sample，G_sample，B_sample：

即为降低阴影影响后的待识别吊装对象的RGB颜色数值；

(11)建立一个建造场景下所有吊装对象的图像数据库，该数据库中，将“GlobalID”作为每个吊装对象的唯一标识，每个吊装对象的初始位置坐标设为(0，0，0)，根据步骤(3)得到的待识别吊装对象的种类、步骤(8)得到的待识别吊装对象的尺寸、步骤(9)和步骤(10)得到的消除光照及阴影影响的待识别吊装对象的颜色信息，在建筑施工过程中，根据立体相机拍摄图像与待识别吊装对象之间的允许误差，对图像数据库进行检索，得到与待识别吊装对象相对应的“Global ID”，并用步骤(8)计算得到的待识别吊装对象的质心坐标替换数据库中该待识别吊装对象的初始坐标，从而获取待识别吊装对象的不可见特征，实现建造场景下吊装对象的识别。

本发明提出的一种建造场景下吊装对象的识别方法，其优点是：

本发明的建造场景下吊装对象的识别方法，通过立体相机收集施工现场场景数据，并采用Faster R-CNN算法从复杂背景中分割吊装对象以支持后期进一步的图像处理。根据Faster R-CNN模型的检测结果，利用改进的Canny检测消除纹理影响，获得吊装对象真实边缘轮廓，并采用霍夫变换提取轮廓点中包含的线段和相应的端点，通过端点聚类分析合并满足阈值条件的端点(即顶点)，通过定义包含顶点的边的空间关系，确定吊装对象的空间位置。根据三角法则验证2种吊装对象的质心坐标的计算公式，通过白平衡校正、凸多边形顶点随机采样颜色点等方法，消除颜色提取中的光照和阴影的影响。最后，基于提取的吊装对象可见特征，通过数据库检索进一步获取吊装对象的不可见特征，为自动化吊装提供数据支撑。

附图说明

图1是本发明提出的建造场景下吊装对象的识别方法的流程框图。

图2是本发明方法中涉及的两条线段的端点聚类示意图。

图3是本发明方法中涉及的待识别吊装对象的顶点和边，图3中(a)为三条线段交于同一顶点，(b)为三条线段交于两个顶点。

图4是本发明方法中涉及的(三条线段交于同一顶点)质心坐标计算过程示意图，图4中(a)为向量转化前，(b)为向量转化后。

图5是本发明方法中涉及的(三条线段交于两个顶点)质心坐标计算过程示意图，图5中(a)为向量转化前，(b)为向量转化后。

图6是关系型数据库中“柱”构件的信息结构示意图。

图7是目标对象被部分遮挡时本发明方法的吊装对象识别示意图。

具体实施方式

本发明提出的建造场景下吊装对象的识别方法，其流程如图1所示，包括以下步骤：

(1)用立体相机从不同角度拍摄施工现场场景，得到一个点云(PTS)文件；点云文件中的(x，y，z)代表施工现场场景中任意一个空间点的三维坐标，点云文件中的(u，v)代表相应图像像素坐标，点云文件中的(R，G，B)代表像素颜色信息；尽管恢复的二维图像不包含三维坐标，但是基于识别得到特征点二维图像像素的坐标，可以通过点云文件确定其对应的三维坐标，从而获取空间信息。因此，提出的对象空间定位方法是基于对从检索的二维图像(640像素*480像素)提取的几何特征(例如线段和端点)的三维分析。由于图像处理和特征提取的计算复杂度与图像大小成正比，因此需要先从背景中分割吊装对象以减小图像大小。

本发明的一个实施例中，初始阈值设置为5；以Canny初始阈值进行迭代，进行图像处理。如果处理结果满足提出的基于顶点的判断模型(Vertex-based DeterminingModel)，则它将停止迭代；否则，这意味着原始的Canny阈值太小，它将继续以增大的阈值循环，直到验证成功为止。改进的自动调整阈值的Canny，能够消除吊装对象的纹理轮廓，从而得到吊装对象更准确的边缘轮廓，得到待识别吊装对象的图像特征点即图像轮廓点

形状和大小等几何信息是对象识别的关键。Faster R-CNN的边界框包含吊装对象的整个边缘轮廓。边缘指的是图像灰度急剧变化的区域，通常也是图像梯度的最大点，是图像函数f(x，y)的一阶导数。根据梯度幅度的定义，图像中灰度变化较大的区域的梯度值大于灰度变化缓慢的区域的梯度值，而灰度均匀的区域的梯度值是零。本发明利用Canny检测吊装对象的真实边缘轮廓，并对原始Canny算法两个明显局限进行改进：1)留在边界框中的吊装对象的表面纹理会影响边缘检测结果；2)在所有情况下，针对不同识别对象的固定Canny阈值的鲁棒性较弱。

为了解决纹理的影响，对Canny检测到的所有可能的轮廓点进行处理，计算每个轮廓的最小封闭矩形的尺寸。与边界框尺寸相比，封闭矩形面积过小的轮廓将被作为物体表面纹理而删除。而对于固定阈值，将原始Canny阈值设置为5进行迭代图像处理。如果处理结果满足提出的基于顶点的判定模型，则它将停止迭代；否则，这意味着原始的Canny阈值太小，它将继续以较大的阈值循环，直到验证成功为止。

(5)对步骤(4)的待识别吊装对象轮廓点进行霍夫变换(Hough Transformation)，得到待识别吊装对象的多个轮廓线段，将轮廓线段记为L；

通过Canny检测提取的边缘轮廓实际上是一系列非常接近的轮廓点，而不是线段。因此，通过将原始图像中给定曲线的检测转换为在特殊参数空间中寻找峰点的方法，采用霍夫变换提取轮廓点中包含的线段。可以在二维图像上获得对应线段和端点。然后，可以基于PTS文件中的三维坐标和二维图像像素之间的同步关系来确定相应端点的三维坐标(x，y，z)。表1显示了通过霍夫变换提取的线段的详细三维信息。

表1一条提取线段L的三维信息

霍夫变换的理想结果是：提取的线段和端点是吊装对象的精确边线和顶点。在这种情况下，由于吊装对象的相邻边缘在顶点处相交，因此提取的相邻线段也应在其端点处相交。但是，由于图像噪声的影响，提取的线段与吊装对象的实际边缘并不完全重合，提取的线段的端点与相应的实际顶点之间通常存在少许偏差。这意味着提取的相邻线段在其端点处不完全相交。为了解决这个问题，对提取的端点进行聚类分析，通过合并距离在预设距离阈值内的端点，来识别所有提取的线段可能的相交关系。

并用该顶点的坐标替换同一组聚类点的所有端点，即步骤(5)轮廓线段的端点也会被该顶点替换生成新的线段，将同一组聚类点中的端点数量称为该顶点的聚集度；(一般来说聚集度≥2)；

即两个相应的线段会在该处相交。换句话说，聚类点可能是吊装对象的顶点。如图2所示，对于分别包含两个端点的两个线段(例如，线i和线j)的端点聚类分析，总共存在四组端点关系。这些是线i点1到线j点1，线i点1到线j点2，线i点2到线j点1，线i点2到线j点2。线i和线j的聚类点依次在四组端点关系上进行判断。

如果端点聚类分析的结果表明多个端点彼此近似，例如(第1行第1点，第2行第2点)，(第1行第1点，第3行第1点)和(第1行2点2，线3点1)，这些聚类端点可以视为一个顶点组。如前所述，端点聚类分析可以解决由图像噪声引起的提取线段的端点与相应实际顶点之间的偏差。

(7-2)判断步骤(7-1)的线段组中任意两两线段之间是否互相垂直，若三条线段中任意两条线段之间都满足|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|≤0.5，则三条线段两两相互垂直，确定该顶点为待识别吊装对象的顶点，且该组的线段为待识别吊装对象的边，如图3a所示，若三条线段中存在两条线段之间|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|＞0.5，则返回(7-1)，直至遍历所有步骤(7-1)的线段组，进行步骤(7-3)；

(7-3)从步骤(6)的线段中选择一条线段L1，线段L1的两个端点均为聚类点，如图3b中的L1包含顶点组A和B；选择包含一个该聚类点，如图3b中的A的线段L2，并且标记所选择的线段；选择包含另一个聚类点B，如图3b中的B的线段L4，并且标记所选择的线段L1、L2和L4；

(7-4)判断步骤(7-3)的线段组L1、L2和L4中的任意两两线段之间是否互相垂直，若三条线段中任意两条线段之间都满足|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|≤0.5，则确定该顶点为待识别吊装对象的顶点，且该组的线段L1、L2和L4为待识别吊装对象的边(如图3b所示)，若三条线段中存在两条线段之间|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|＞0.5，则返回步骤(7-3)，直至遍历包含L1两个端点的所有线段；若遍历所有满足步骤(7-3)要求的线段，但未找到吊装对象，则返回步骤(4)进行Canny检测，并调整Canny方法的阈值；

(8)根据步骤(7)得到的三个提取的线段，计算待吊装对象的质心坐标和三维尺寸，即待吊装对象的长宽高，包括以下步骤：

和

(如图4a中所示)；设定O点是相机坐标系的原点，点P是待识别吊装对象的质心和线段L_AC的中点，利用下式：

计算得到质心P点的坐标(如图4b中所示)，分别计算线段L1、L2和L3的两个端点之间的欧式距离E，

得到待识别吊装对象的三维尺寸；

(8-2)根据步骤(7-3)得到的三条互相垂直且相交于两点的线段，即线段L1、L2和L4，具有公共顶点A和B，如图5a所示，利用顶点A和其他两个端点的空间坐标，确定来自顶点A的两个空间方向矢量：

和

如图5a所示，来自顶点B的空间方向向量：

如图5a所示，设定O点是相机坐标系的原点，点P是待识别吊装对象的质心和线段L_AC的中点，利用下式：

得到待识别吊装对象的三维尺寸；

即为降低阴影影响后的待识别吊装对象的RGB颜色数值；

(11)建立一个建造场景下所有吊装对象的图像数据库，该数据库中，将“GlobalID”作为每个吊装对象的唯一标识，每个吊装对象的初始位置坐标设为(0，0，0)，如图6所示，基于EXPRESS建模语言的数据结构解析建筑BIM模型的IFC数据，将解析后的IFC数据通过buildingSMART提供的开源解析引擎映射后临时存储在Java对象中，然后采用开源的对象关系框架Hibernate把所有Java对象数据映射到MySQL数据库中，从而将IFC数据持久存储在关系型数据库中。根据步骤(3)得到的待识别吊装对象的种类、步骤(8)得到的待识别吊装对象的尺寸、步骤(9)和步骤(10)得到的消除光照及阴影影响的待识别吊装对象的颜色信息，在建筑施工过程中，根据立体相机拍摄图像与待识别吊装对象之间的允许误差(考虑到立体相机传感器数据采集时不可避免的测量误差，长度，宽度和高度的误差设置为5cm，颜色(R，G，B)的误差为20)对图像数据库进行检索，得到与待识别吊装对象相对应的“Global ID”，并用步骤(8)计算得到的待识别吊装对象的质心坐标替换数据库中该待识别吊装对象的初始坐标，从而获取待识别吊装对象的不可见特征，实现建造场景下吊装对象的识别。

本发明方法中的步骤(2)中对Faster R-CNN模型进行训练，具体过程如下：

将多个与待识别吊装对象形状相类似的图片输入到Faster R-CNN模型中，输出得到多个候选实体识别模型，利用验证集比选每个候选实体识别模型的平均精度均值，得到一个最优实体识别模型；

数据集中包含数千个从互联网下载的长方体图像(例如ImageNet和GoogleImages)或在现场拍摄的图像。通过手动筛选，去除了所有重复或低质量的图像，仅留下2526张图像用于训练。使用开放图像注释工具LabelIMG对这些训练图像进行注释，然后将其另存为XML文件。

也就是说，将标注文件中的数据集输入Faster R-CNN中进行有监督训练，以获得实体识别模型并实现调用，使用验证集对候选模型进行评估，从中优选模型，并使用测试集对选取的模型进行评估，以保证识别模型的质量，即将非训练图像数据输入已训练的模型中，能够输出识别结果，具体包括一定置信度下的预测实体类别和预测外接矩形框(的对顶点二维像素坐标)。

进一步地，训练的模型需要经过验证与测试两个环节，前者使用已标注的验证集对训练的候选模型进行检测以选取最优模型用于测试环节，而测试集用于评估该模型的效果。上述验证与测试的两个环节本质上都是对模型的评估，因此需要构建模型的评估指标。本发明实施例在验证环节，选择平均精度均值(mAP，mean Average Precision)作为模型的整体评估指标，选取mAP最高的模型作为最优模型；在测试环节，选取精确率(Precision)和召回率(Recall)作为模型对各对象识别效果的评估指标。此外，平均精度均值、精确率与召回率的确定都是基于一定的阈值，即超过该阈值后模型输出的结果才可接受。通常选择模型分类器输出的一定置信度或者基于实体预测面积与实际面积计算出的一定IoU(Intersection over Union)作为阈值，其中，IoU的计算需要被检测数据是标注状态，本发明实施例选取一定的IoU与置信度分别作为验证环节与测试环节的阈值。

需要说明的是，模型分类器的输出结果并不是“某实体为某一标注对象”，而是“认为某对象在多大概率下是某一标注对象”，该概率值及置信度，取值在0至1之间，当置信度越接近1，说明模型越认为某对象为某一标注对象。因此，需要选取一定的置信度作为阈值以作为后续计算评估指标的门槛，即当置信度大于该阈值时，认为模型输出的结果可接受，并进行后续各类评估指标的计算。当阈值较高时，选取精确率通常会提高，但是召回率会下降；反之，召回率通常会上升，但是精确率会下降。因此，需要选取一个适中的阈值，以平衡精确率与召回率。

除模型输出的概率值之外，还可将IoU(Intersection over Union)作为门槛，以计算各评估指标。IoU能够衡量模型预测区域覆盖某对象实际区域的精准程度，它是“预测区域与实际区域的交集”在“预测区域与与实际区域的并集”中的占比，如下述计算公式。一般认为IoU>0.5是比较好的识别结果。

选取精确率(Precision)与召回率(Recall)是模型中某一类对象识别效果的评估指标。选取精确率是指实体识别模型输出的某对象结果中识别正确的比例，而召回率则是某对象客观存在的数量中被识别出来并且识别正确的比例。在本发明实施例中，只采用的最优实体模型的选取精确率和召回率，因此，只对最优实体识别模型的选取精准率和召回率进行计算，其中，选取精确率的计算公式为：

式中Precision表示选取精确率，TP表示模型输出的某对象的识别结果中识别正确的数量，FP表示模型输出的某对象的识别结果中识别错误的数量。

召回率的计算公式为：

式中Recall表示召回率，TP表示模型输出的某对象的识别结果中识别正确的数量，FN表示模型认为图像中无某对象但实际上存在某对象的情况对应的数量。

需要说明的是，未出现在上述公式中的TN(Negative Positive)是指模型认为图像中无某对象且实际无某对象的数量。

另外，平均精度(AP)也是模型中某一类对象识别效果的评估指标，可在精确率和召回率的基础上计算可得。由于某对象的实际数量是固定的，召回率只有在TP增加时才会增加。精确率和召回率形成P-R曲线，召回率为横轴，精确率为纵轴。对于某一召回率水平，选取大于该召回率水平的所有召回率对应的精确率的最大值，取代原先该召回率水平对应的精确率，形成新的P-R曲线，该P-R曲线下方面积即为AP。平均精度均值(mAP)并非针对某个对象，而是衡量模型整体识别效果的指标，即取不同类目AP的平均值，其计算公式为：

其中，C为对象类别的数目。

在使用本发明方法对建造场景下的吊装对象进行识别时，目标对象有时还可能被其他组件部分遮挡，根据不同的遮挡，它包括以下三种情况：

情况1：满足基于顶点判定模型要求的三个主要相交线段都完整无缺且没有遮挡，因此可以通过提出的方法将目标对象唯一地定位在三维空间中；

情况2：线段的中间部分被遮挡，可以使用端点聚类分析解决，然后问题变为情况1。如图7所示，绿色的立方体被紫色的立方体部分遮挡，导致将完整的边线段分为两条线段(即，线1和线2)。根据端点聚类分析，点A和点B之间的距离小于阈值D，因此可以将它们视为一个顶点组，然后将其替换为合并的顶点。考虑到线1和线2在霍夫参数空间中拥有相同的峰值点，所以它们是同一条线段3。可以发现，解决此类遮挡问题的端点聚类分析取决于预设的距离阈值D；

情况3：线段末端完全遮挡，虽然这种遮挡问题尚未解决，但在现场并不常见，并且可以通过调整摄像机位置来避免。

Claims

1.一种建造场景下吊装对象的识别方法，其特征在于该方法包括以下步骤：

(7-4)判断步骤(7-3)的线段组L1、L2和L4中的任意两两线段之间是否互相垂直，若三条线段中任意两条线段之间都满足|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|≤0.5，则确定该顶点为待识别吊装对象的顶点，且该组的线段L1、L2和L4为待识别吊装对象的边，若三条线段中存在两条线段之间|Δx_i*Δx_j+Δy_i*Δy_j+Δz_i*Δz_j|＞0.5，则返回步骤(7-3)，直至遍历包含L1两个端点的所有线段；若遍历所有满足步骤(7-3)要求的线段，但未找到吊装对象，则返回步骤(4)进行Canny检测，并调整Canny方法的阈值；

和

得到待识别吊装对象的三维尺寸；

和

来自顶点B的空间方向向量：

得到待识别吊装对象的三维尺寸；

即为降低阴影影响后的待识别吊装对象的RGB颜色数值；

(11)建立一个建造场景下所有吊装对象的图像数据库，该数据库中，将“Global ID”作为每个吊装对象的唯一标识，每个吊装对象的初始位置坐标设为(0，0，0)，根据步骤(3)得到的待识别吊装对象的种类、步骤(8)得到的待识别吊装对象的尺寸、步骤(9)和步骤(10)得到的消除光照及阴影影响的待识别吊装对象的颜色信息，在建筑施工过程中，根据立体相机拍摄图像与待识别吊装对象之间的允许误差，对图像数据库进行检索，得到与待识别吊装对象相对应的“Global ID”，并用步骤(8)计算得到的待识别吊装对象的质心坐标替换数据库中该待识别吊装对象的初始坐标，从而获取待识别吊装对象的不可见特征，实现建造场景下吊装对象的识别。