CN116758063B

CN116758063B - 一种基于图像语义分割的工件尺寸检测方法

Info

Publication number: CN116758063B
Application number: CN202311010561.5A
Authority: CN
Inventors: 陈凯; 黄煜杰; 赵晓冬; 张泽群; 朱海华; 唐敦兵
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-11-07
Anticipated expiration: 2043-08-11
Also published as: CN116758063A

Abstract

本发明实施例公开了一种基于图像语义分割的工件尺寸检测方法，涉及智能制造技术领域，能够提高自动提取工件尺寸信息的效率。本发明包括：进行相机畸变***分析以及相机镜头的校准；基于语义信息进行工件尺寸标定及优化，生成自设计最小面积旋转矩形框；构建检测运行环境、搭建前后端框架并设计UI界面，实现完整、高效的工件尺寸检测功能。本发明适用于各类中小型工件尺寸的自动检测。

Description

一种基于图像语义分割的工件尺寸检测方法

技术领域

本发明涉及智能制造技术领域，尤其涉及一种基于图像语义分割的工件尺寸检测方法。

背景技术

目前，在大规模智能制造领域，若要实现大规模的工件检测，继续采用人工方法存在着效率低下、容易出错等问题，且已无法满足当前现代工业生产的快速发展以及对于自动化水平需求的提高。也有一些制造业企业开始采用基于流水作业的在线测量技术，现存的方式大部分是采用将待检测的图像进行灰度处理和分化阈值的渠道，利用相应的算法定位待检测的目标边界。该方式虽然能够量取工件的具体尺寸，但还是存在图像预先处理的干扰问题，从而使测量的结果误差较大。因此亟需一种基于图像语义分割的像素级方法来实现工件的精准和自动化测量。

图像的语义分割作为计算机视觉和深度学习相关研究内容中的重点研究方向，图像语义分割的中心难点是区别不同像素点的语义类别的种类。"类别属性"各不相同的物体在具体的情境中也会表现出局部区域的相似性质。传统方法是利用手工构造的特征来解决像素的分类问题，但这种解决方式的结果并不理想。之后要对图像语义分割的精确度增加为需求，对图像的特点做自动化标注。然而，由于标注过程中存在大量的冗余信息，标注结果常常不能满足实际应用的具体需求。因此，如何降低注解工作量并提高自动提取工件尺寸信息的效率，成为了需要研究解决的问题。

发明内容

本发明的实施例提供一种基于图像语义分割的工件尺寸检测方法，能够提高自动提取工件尺寸信息的效率。

为达到上述目的，本发明的实施例采用如下技术方案：

S1、确定相机参数矩阵和镜头畸变参数，并对相机的镜头进行校准；

S2、利用校准后的相机拍摄得到工件的图像数据，并传输给用户终端；

S3、所述用户终端从所拍摄的图像数据中提取图像的语义信息，并利用所述语义信息对图像中的工件进行尺寸标定；

S4、所述用户终端在显示器中展示工件的图像，并在图像中沿工件的边缘显示选择框，同时显示工件的坐标信息，当所述用户终端接收到用户对于所述选择框的点击操作时，根据尺寸标定的结果显示工件的尺寸数据。

本发明实施例提供的基于图像语义分割的工件尺寸检测方法，将传统的工件尺寸检测领域的需求和计算机深度学习领域的功能相融合，高效地获取工件的尺寸信息。本发明包括：进行相机畸变***分析以及相机镜头的校准；基于语义信息进行工件尺寸标定及优化，生成自设计最小面积旋转矩形框；构建检测运行环境、搭建前后端框架并设计UI界面，实现完整、高效的工件尺寸检测功能。从而提高自动提取工件尺寸信息的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的坐标***的转换示意图；

图2为本发明实施例提供的棋盘图像数据采集示意图；

图3为本发明实施例提供的工件尺寸检测界面示意图；

图4为本发明实施例提供的检测工件1轴套示意图；

图5为本发明实施例提供的检测工件2连接件示意图；

图6为本发明实施例提供的检测工件3螺钉示意图；

图7为本发明实施例提供的轴套标准宽标准测量示意图；

图8为本发明实施例提供的轴套标准高标准测量示意图；

图9为本发明实施例提供的连接件标准宽标准测量示意图；

图10为本发明实施例提供的连接件标准高标准测量示意图；

图11为本发明实施例提供的螺钉标准宽标准测量示意图；

图12为本发明实施例提供的螺钉标准高标准测量示意图；

图13为本发明提供的方法流程示意图。

实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明实施例提供一种基于图像语义分割的工件尺寸检测方法，如图13所示，包括：S1、确定相机参数矩阵和镜头畸变参数，并对相机的镜头进行校准。

S2、利用校准后的相机拍摄得到工件的图像数据，并传输给用户终端。其中，所述用户终端可以为计算机设备，比如实验室的计算机设备、现场工程师的工作站设备等。

S3、所述用户终端从所拍摄的图像数据中提取图像的语义信息，并利用所述语义信息对图像中的工件进行尺寸标定。

本实施例中，在S1中，所述确定相机参数矩阵和镜头畸变参数，对相机的镜头进行校准，其中包括：通过投影矩阵、相机的内参数矩阵和外参数矩阵，将场景中的世界坐标系转变为图像坐标系。通过相机拍摄的图像对镜头进行畸变参数校正，从而完成相机的镜头校准。

其中，所述通过投影矩阵、相机的内参数矩阵和外参数矩阵，将场景中的世界坐标系转变为图像坐标系，包括：

在本实施例中，通过计算推导投影矩阵，通过两个步骤将世界坐标系转变为图像坐标系，获取参数矩阵数值。第一步，转变坐标***，即将世界坐标***转变为相机坐标***，如图1所示。根据相机的自身属性，通过经典标定方法得到相机的内参数矩阵K，，f _x、f _y分别为X方向和Y方向焦距的长度。u ₀、v ₀分别为相对于成像平面的主点坐标。

由于场景中世界坐标系到相机坐标系只涉及旋转和平移，因此是刚体变换，不涉及形变。可以得到相机的外参数矩阵W，，R表示旋转矩阵，T表示坐标轴平移参数。其中，所述世界坐标系转变为图像坐标系的方式包括：/>，其中，X _cam、Y _cam、Z _cam分别表示所述世界坐标系中三个方向上的坐标参数，X _w、Y _w、Z _w分别表示所述图像坐标系中三个方向上的坐标参数。将相机***转换为图像***。从相机坐标系到图像坐标系，属于透视投影关系。将得到的内参矩阵K作为相机的内部参数。定义的投影矩阵P可以被世界坐标转化到图像坐标轴的方式中计算出来，比如通过投影矩阵P表示投影关系，。

具体的，所述通过相机拍摄的图像对镜头进行畸变参数校正，从而完成相机的镜头校准，包括：通过经典标定方法获取镜头的畸变系数。利用相机拍摄的图像对镜头的畸变系数进行校正，直至得到失真程度小于预设条件的图像。例如：利用获取的信息来求解摄像机的内、外参数值。本方法提供的是以计算机视觉方法出发的技术，该技术采用一个简易快捷的模型来分析相机的参数。通过对相机拍摄的图像进行参数（内、外参数）系数进行校正，可得到失真较小的图像，即是一种校正。同一相机对校准板进行10-20张照片拍摄，取不同拍摄位置和时间，如图2所示。由此，即完成了相机的标定与校准。

本实施例中，确定判断相机畸变类型，所述相机畸变类型主要分为径向和切向的畸变，径向畸变发生在相机坐标系转图像物理坐标系的过程中，而切向畸变是发生在相机制作过程中。这意味着，当更换坐标***时，坐标系（世界）中的直线将会发生扭曲。同时，距离图像的核心距离越大，径向失真就越大。所述获取镜头的畸变系数，包括：采集径向畸变和切向畸变，对于径向畸变，光线在远离透镜中心处比靠近中心处更加弯曲，可以用主点周围的泰勒级数展开进行描述，所述径向畸变为：，(x ₀、y ₀)表示畸变点在成像器上的原始位置，(x、y)是畸变系数校准后的新位置。k ₁、k ₂、k ₃分别为三类径向畸变参数，r为畸变点距光心的距离。

对于切向畸变，其产生主要是由于透镜本身与相机传感器平面或图像平面不平行，所述切向畸变为：，p ₁、p ₂分别为两类切向畸变参数。

建立校准前后的坐标关系模型：。

所述利用相机拍摄的图像对镜头的畸变系数进行校正，直至得到失真程度小于预设条件的图像，包括：所述相机拍摄对校准板进行拍摄，获取预设数量的照片，其中，一个照片与另一个照片的位置和时间戳中的至少一项不相同。利用所拍摄的照片，确定畸变映射，并将所求映射反投影至所拍摄的照片中，从而得到误差值，并重复此过程，最终得到失真程度小于预设条件的图像。

实际应用中，以计算机视觉方法出发的技术，该技术采用一个简易快捷的模型来分析相机的参数。首先，利用经典标定法获取该相机的镜头畸变系数。用同一相机对校准板进行10-20张照片拍摄，取不同拍摄位置和时间，如图2所示。对拍摄的照片提取校准板上与边缘不接触的内角点。对每一张标定图片，在内角点的基础上进一步提取亚像素信息，减小校正偏差。对相机进行标定，获取内参矩阵、外参矩阵以及畸变系数。在本实施例中，相机的内参矩阵为：镜头畸变系数为：，根据所得参数计算图像的畸变映射，将所求映射反投影至图像中，可得到相对准确的误差值，重复此过程，最终得到失真程度小于预设条件的图像，完成相机镜头的校准。

本实施例中，基于语义信息进行工件尺寸标定及优化，生成自设计最小面积旋转矩形框等。其中，基于语义信息的尺寸标定包括，生成最小旋转矩形框、生成自设计最小面积旋转矩形框。其中，所述语义信息的尺寸优化环节中，通过实验分析论证，在较高交并比的阈值下，旋转矩形框进行基于语义信息的尺寸标定优势更为明显。

所述利用所述语义信息对图像中的工件进行尺寸标定，包括：识别图像中的手动标注区域内的待检测工件，其中，可以手动标注图像中的某一区域。在手动标注区域内，生成图像分割掩码。生成所述待检测工件平行于图像坐标系的最小外接矩形框。采用内点法通过mask得到最小面积的旋转矩形框。结合相、镜头参数和所述待检测工件的语义信息，计算工件的尺寸信息，完成尺寸标定。

本实施例中，基于语义信息进行工件尺寸标定及优化。在所述基于语义信息的尺寸标定中，在某些图像（如遥感图像、场景文本等）中，常用的与坐标轴对齐的普通矩形框很难适应多角度的目标，通常需要用旋转矩形框代替。在优化问题上，通过实验分析论证，可以清楚地得出结论，旋转矩形框标定尺寸的均值交并比要比仅预测与坐标轴对齐的矩形框交并比的平均交并比在数值上表现更加出色。在高交并比的阈值下，旋转矩形框进行基于语义信息的尺寸标定的优势更为明显。具体实现上，本实施例提出了一种通过mask自动生成旋转框的方法。旋转矩形框对于语义信息的标定尺寸本质上是对mask近似值的一种求解，需要校准的实际上是目标物的mask。当使用mask时才能够达到精度上限。输出mask要被转换为矩形框时，选择是多种多样的。简单的，可以选择最小的最小边界矩形。根据优化方法生成的矩形边界框质量将更高。此处的最优化方法是使用内点法。其中，所述采用内点法通过mask得到最小面积的旋转矩形框，包括：通过代价函数和约束条件确定所述手动标注区域内的分割掩码中的目标像素，之后确定旋转矩形框的地面真实值，其中，所述代价函数和约束条件包括：旋转矩形框之外的目标像素个数满足：、旋转矩形框内的背景像素个数满足:/>、目标像素在旋转矩形框内的比例小于θ _f，其中：旋转矩形框内背景像素的比例小于θ _b，其中：，其中，b表示旋转矩形框参数（比如中心，宽度，高度，旋转）的列向量；A(b)表示对应的旋转矩形框；M(x)表示手动标注区域像素的分割掩码，x为手动标注区域内的像素点；[·]是一个运算操作符，若操作符中语句为真则返回1（图像背景），否则为0（待检测物轮廓）;M _f代表所述待检测工件所包含的像素个数，|·|表示基数；θ _f，θ _b分别表示目标像素和背景像素在旋转矩形框内比例的参考值。

本实施例中，所述用户终端在显示器中展示工件的图像，包括：所述用户终端基于前后端框架在显示器所显示的UI界面中展示工件的图像，其中，基于PyQt5搭建前端框架。利用加强相关损失分割任务函数，进行线下脱机训练，得到优化后的图像语义分割后台程序框架。例如：构建检测运行环境、搭建前后端框架并设计UI界面，实现完整、高效的工件尺寸检测功能。其中，所述前后端框架的搭建，包括：基于PyQt5搭建的具有实时视频画面、目标检测、重置、暂停、尺寸信息输出等功能的前端框架。利用加强相关损失分割任务函数，进行线下脱机训练得到优化后的图像语义分割后台程序框架。其中，该方法采用硬件和软件资源相互适应的一种设计原则和使用策略，用于支持程序的运行。

本实施例中，所述利用加强相关损失分割任务函数，进行线下脱机训练，在于同时在三个任务上训练孪生网络，每个任务对应不同的策略。其中第一个任务是以滑动窗口的方式学习目标对象和多个候选区之间的相似性度量，并输出一个仅表明位置的响应图。此外，同时进行旋转矩形框的区域网络回归以及类无关的二进制分割以进一步细化第一个任务所得信息。所述类无关的二进制分割中，二进制标签仅需要在离线训练期间计算分割损失，而不需要在实际操作时在线计算。同时，每个任务都从共享卷积网络出发的不同分支表示，分别对最终损失做出贡献，将三个损失相加。最终得到优化后的图像语义分割后端框架。

如图3所示的，本实施例中，构建并实现检测运行环境、搭建前后端框架并设计UI界面，实现完整、高效的工件尺寸检测功能。其中，所述前后端框架包括：基于PyQt5搭建的具有实时视频画面、目标检测、重置、暂停、尺寸信息输出等功能的前端框架。利用加强相关损失分割任务函数，进行线下脱机训练并优化的图像语义分割后台程序框架。在具体实现上，把半编译的执行码放在目标机器上执行运行环境。采用硬件和软件资源相互适应的设计原则和使用策略，这些作为资源的硬件、软件用于支持程序的运行，进而构成了程序运行的环境。

本实施例实现对不同种类工件进行尺寸检测，如图4-图6所示。具体实现上，通过鼠标沿工件的边缘进行手动框选，***识别出手动标注区域并通过经典目标检测算法生成工件平行于图像坐标系的最小外接矩形框并可获取其坐标信息。画面中出现相应的最小外接矩形框。点击开始检测按钮，通过mask生成旋转矩形框，此时需要由程序反馈该待检测工件相应的尺寸数据。具体方法如下：基于最小外接矩形框得到的待检测工件坐标信息可以得到旋转矩形框的相对坐标，即工件的相对坐标。则工件的长、宽尺寸可由旋转矩形框的四个节点通过勾股定理计算求得：，其中，(x ₁、y ₁)、(x ₂、y ₂)分别为旋转矩形框的相邻点坐标，d表示工件尺寸的长/宽。此时后台数据处理出的数据是图像像素值，还需要通过换算来变成常用计量单位。在本实施例中，使用的检测平台A4纸297mm×210mm，相机分辨率是（1920×0.75）×（1080×0.75）。通过像素和国际标准长度换算公式可以换算实际的待检测工件尺寸：/>，其中，W _R表示标准宽以毫米为测量单位的测量值，W _P表示标准宽的像素个数。H _R表示标准高以毫米为测量单位的测量值，H _P表示标准高的像素个数。

最终标准宽高栏出现待检测工件的真实尺寸数据。

进一步的，验证本发明对工件尺寸检测的测量精度和误差，如图7-图12所示，对图4-图6所检测的工件，采用游标卡尺所测标准宽、高作为标准值进行对比分析，发现基于计算机视觉的图像语义分割尺寸检测***所测得的工件尺寸与标准尺寸的测量误差小于等于0.1mm。

本实施例设计了一套完备的基于计算机视觉的图像语义分割的工件尺寸检测***，该***可以高效、自动、快速地同时检测多种类的中小型零件。在基于语义信息进行的工件尺寸标定和优化过程中，使用内点法进行矩形边界框的优化，在进行工件的尺寸标定时，工件是可以进行随意的旋转的，从而提高了该***在复杂多变环境下的应用性和适应性，即其工作效率得到了提升。此外，在对本发明工件尺寸检测***的测试中，通过对不同工件尺寸的标准测量，与该***对工件尺寸的检测结果对比，发现该***的测量误差小于等于0.1mm，在保证检测效率的同时达到了较高的精度。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于图像语义分割的工件尺寸检测方法，其特征在于，包括：

S4、所述用户终端在显示器中展示工件的图像，并在图像中沿工件的边缘显示选择框，同时显示工件的坐标信息，当所述用户终端接收到用户对于所述选择框的点击操作时，根据尺寸标定的结果显示工件的尺寸数据；

所述利用所述语义信息对图像中的工件进行尺寸标定，包括：

识别图像中的手动标注区域内的待检测工件；

在手动标注区域内，生成图像分割掩码；

生成所述待检测工件平行于图像坐标系的最小外接矩形框；

采用内点法通过mask得到最小面积的旋转矩形框；

利用所述待检测工件的语义信息，计算工件的尺寸信息，完成尺寸标定；

所述采用内点法通过mask得到最小面积的旋转矩形框，包括：

通过代价函数和约束条件确定所述手动标注区域内的分割掩码中的目标像素，之后确定旋转矩形框的地面真实值，其中，所述代价函数和约束条件包括：

旋转矩形框之外的目标像素个数满足：，

旋转矩形框内的背景像素个数满足:，

目标像素在旋转矩形框内的比例小于θ _f，其中：，旋转矩形框内背景像素的比例小于θ _b，其中：/>，其中，b表示旋转矩形框参数的列向量；A(b)表示对应的旋转矩形框；M(x)表示手动标注区域像素的分割掩码，x为手动标注区域内的像素点；[·]是一个运算操作符，若操作符中语句为真则返回1，否则为0;M _f代表所述待检测工件所包含的像素个数，|·|表示基数；θ _f，θ _b分别表示目标像素和背景像素在旋转矩形框内比例的参考值。

2.根据权利要求1所述的方法，其特征在于，所述确定相机参数矩阵和镜头畸变参数，对相机的镜头进行校准，其中包括：

通过投影矩阵、相机的内参数矩阵和外参数矩阵，将场景中的世界坐标系转变为图像坐标系；

通过相机拍摄的图像对镜头进行畸变参数校正。

3.根据权利要求2所述的方法，其特征在于，所述通过投影矩阵、相机的内参数矩阵和外参数矩阵，将场景中的世界坐标系转变为图像坐标系，包括：

获取相机的内参数矩阵K，，f _x、f _y分别为X方向和Y方向焦距的长度；u ₀、v ₀分别为相对于成像平面的主点坐标；

获取相机的外参数矩阵W，，R表示旋转矩阵，T表示坐标轴平移参数；

其中，所述世界坐标系转变为图像坐标系的方式包括：，其中，X _cam、Y _cam、Z _cam分别表示所述世界坐标系中三个方向上的坐标参数，X _w、Y _w、Z _w分别表示所述图像坐标系中三个方向上的坐标参数；通过投影矩阵P表示投影关系，/>。

4.根据权利要求2所述的方法，其特征在于，所述通过相机拍摄的图像对镜头进行畸变参数校正，从而完成相机的镜头校准，包括：

获取镜头的畸变系数；

利用相机拍摄的图像对镜头的畸变系数进行校正，直至得到失真程度小于预设条件的图像。

5.根据权利要求4所述的方法，其特征在于，所述获取镜头的畸变系数，包括：

采集径向畸变和切向畸变，其中，所述径向畸变为：，(x ₀、y ₀)表示畸变点在成像器上的原始位置，(x、y)是畸变系数校准后的新位置，k ₁、k ₂、k ₃分别为三类径向畸变参数，r为畸变点距光心的距离；

所述切向畸变为：，p ₁、p ₂分别为两类切向畸变参数；

建立校准前后的坐标关系模型：。

6.根据权利要求4所述的方法，其特征在于，所述利用相机拍摄的图像对镜头的畸变系数进行校正，直至得到失真程度小于预设条件的图像，包括：

所述相机拍摄对校准板进行拍摄，获取预设数量的照片，其中，一个照片与另一个照片的位置和时间戳中的至少一项不相同；

利用所拍摄的照片，确定畸变映射，并将所求映射反投影至所拍摄的照片中，从而得到误差值，并重复此过程，最终得到失真程度小于预设条件的图像。

7.根据权利要求1所述的方法，其特征在于，所述用户终端在显示器中展示工件的图像，包括：

所述用户终端基于前后端框架在显示器所显示的UI界面中展示工件的图像，其中，基于PyQt5搭建前端框架。

8.根据权利要求7所述的方法，其特征在于，还包括：

利用加强相关损失分割任务函数，进行线下脱机训练，得到优化后的图像语义分割后台程序框架。