CN116824271A

CN116824271A - 基于三模态向量空间对齐的smt芯片缺陷检测***及方法

Info

Publication number: CN116824271A
Application number: CN202310967436.7A
Authority: CN
Inventors: 宋子申; 余一宽
Original assignee: Shanghai Hujue Technology Co ltd
Current assignee: Shanghai Hujue Technology Co ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-09-29
Anticipated expiration: 2043-08-02
Also published as: CN116824271B

Abstract

本发明提供了一种基于三模态向量空间对齐的SMT芯片缺陷检测***及方法，包括：图像预处理模块、图像特征编码模块、对象特征提取网络、目标定位模块、文本编码模块、文本‑对象匹配器和解码模块。本发明在检测时输入模板信息为模型扩充知识库，解决了现有的开放式目标检测算法在SMT芯片开集缺陷检测任务中缺陷类型众多但样本数量分布不均衡，模型先验知识不足以覆盖长尾事件、对象和任务而导致精度下降的问题，同时也免去检测新类型缺陷时，需要再次采集数据、标注和微调模型的麻烦。

Description

基于三模态向量空间对齐的SMT芯片缺陷检测***及方法

技术领域

本发明涉及芯片缺陷检测技术领域，具体地，涉及一种基于三模态向量空间对齐的SMT芯片缺陷检测***及方法。

背景技术

随着深度学习的发展，已经将目标检测技术应用至工业缺陷检测场景。简单的二维图像缺陷检测只需要检测、定位缺陷以及进行分类。然而，面对同一场景下不同检测任务，和面对需要建立某种用于判断逻辑体系或根据结构化知识的检测任务时，单纯的端到端目标检测算法如YOLOv7、DETR等目标检测模型已经不能满足现实场景工业表面缺陷检测的需要。

例如：同一张图片包含需要检测的对象，但因为任务不同而需要重新对数据进行标注分类，再对模型进行微调；再例如，在电路板设计时会遵循一定的逻辑，焊接集成电路芯片到电路板上时，其焊接的方向需要和电路板上的标识方向相符，不然视为焊接错误；在检测此类焊接缺陷是否存在时，需要模型准确预测相应对象的定位和分类图像上的芯片以及电路上的标识，再通过对应对象的位置和类别结合结构化知识进行判断。前者需要人工重复修改数据标注，费时费力；后者使用端到端的检测模型只能检测出对象，并不能直接解析出有哪种缺陷，而且手工设计后处理判断缺陷类型的逻辑和代码也需要花费较长时间，假如用纯深度学习算法加入判断，人工标注的工作量巨大。而且电路上的标识符较多，使用纯监督学习算法也需要进行较多的人工标注。

现有的跨模态目标检测模型如MDETR和GLIP等能够通过输入文本引导目标检测模型检测相应的对象，但是处理长尾检测问题的能力较弱，无法处理标识符多而复杂、判断缺陷类型时需要根据结构化知识的检测场景。需要适配长尾检测场景时，则需要收集数据来微调。

专利文献CN114299065A公开了一种丝锭外观成型不良缺陷检测与分级方法、存储介质及设备，包括以下步骤，丝锭有效区域分割与展开；丝锭成型缺陷检测；丝锭成型缺陷分级。但是此类结合点云信息的目标检测方法来提升精度需要额外增加硬件设备采集数据，增加了成本。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于三模态向量空间对齐的SMT芯片缺陷检测***及方法。

根据本发明提供的基于三模态向量空间对齐的SMT芯片缺陷检测***，包括：

图像预处理模块：进行图像缩放和图片切割，分别用于降低计算量和突出部件与边界，将模板图像和输入图像处理成可放入图像特征编码模块的数据结构；

图像特征编码模块：包括一个共享权重的带掩码的自编码器，对模板切片图像和输入切片图像压缩到低维空间，并提取它们的表征向量；

对象特征提取网络：包括一个对象信息编码模块、对象匹配模块，以及一个目标检测损失函数，使用模板图像中的对象特征定位目标图像里对应的对象，加入先验知识进行编码以适配下游任务；

目标定位模块：用于解码对象特征提取网络所输出的对象编码信息，获取相应对象在输入图像中的定位；

文本编码模块：用于将查询语句文本信息表征至高维特征空间，并且提取与任务相关的信息；

文本-对象匹配器：以文本编码模块和目标定位模块的输出信息作为输入，匹配输入文本和模板对象信息，输出经过跨模态表示的对齐上下文嵌入编码向量；

解码模块：以文本-对象匹配器和图像特征编码模块的输出为输入，解码得到相关对象的定位及其分类以及输出判断描述文本。

优选的，所述图像预处理模块包括：对图像进行预处理，得到训练用的数据；

首先，将图片缩放到预设大小，图片长宽比缩放到1:1；

其次，用预设大小的方形窗口对图片进行滑窗切图，滑窗的步幅和窗口大小数值一致，作用分别为降低计算量和处理成图像特征编码模块所需的数据格式，对原图和模板图像进行操作，获得切图向量V₁和V₂。

优选的，所述图像特征编码模块包括：使用一个共享权重的带掩码的自编码器提取图像的特征向量，对图像信息进行压缩和编码，将V₁和V₂输入到带掩码的自编码器中，得到映射到低维空间的图像特征向量V_1e和V_2e。

优选的，所述对象特征提取网络包括一个对象信息编码模块和对象匹配模块，将V_1e、V_2e以及模板图像中各个对象的位置、大小以及类型标记信息作为输入，首先采用对象信息编码模块和一个全连接神经网络对模板图像中的对象进行编码，得到V_2eo，然后采用对象匹配模块获得相似对象表征向量O_s；

所述对象信息编码模块，使用V_2e和各个对象的位置、大小以及类型标记信息输入到全连接神经网络进行编码，得到包含对象信息的编码向量V_2eo；

所述对象匹配模块，首先使用像素级的目标关联方法构建对象关联矩阵：

其中，i、j、k分别为V_2eo、V_1e上单个像素的索引以及V_2eo上每个像素的索引，符号⊙表示点积操作，C表示V_1e的特征通道数。

所述对象匹配模块还包括一个对象查询器，对象查询器使用对象关联矩阵去获取V_1e中感兴趣对象的信息，然后与V_2eo拼接，加入各模板对象之间的位置关系，用于后续协助匹配检索输入图像上各对象的相对位置，w是一个软权重映射，因为存储所有目标对象的信息，因此/>乘w可根据对象查询向量，即适应V_2eo的需要，自适应检索/>中存储的对象信息，获得输入图像的相似对象表征向量O_s；

其中，代表矩阵乘法，(V_1e)^T代表V_1e矩阵转置。

优选的，所述目标定位模块包括一个定位头和分类头/>用于解码O_s，获得对象边界框大小、位置向量B_1o、P_1o和对象类型标记向量N_1o：

在目标定位模块的训练阶段，还包括一个目标检测损失函数L1 Loss和EIoULoss，用于引导匹配输入图像和输入模板之间各个相同的对象。

优选的，所述文本编码模块包括一个RoBERTa模型，用于提取输入的查询语句文本token向量t_e；

所述文本-对象匹配器，将相似对象表征向量O_s，输入图像中被目标定位模块预测出的对象大小信息B_1o，类型标记文本向量N_1o以及t_e进行对象信息的匹配，以及编码任务类型和类别，得到上下文嵌入编码向量E₂。

优选的，所述文本-对象匹配器包括一个维度映射模块，该模块包括一个拼接模块，用于拼接O_s、B_1o和N_1o，也包括一个全连接层θ()，使用全连接层将经过拼接的信息进行特征映射到与t_e有相同的维度，得到O_sl，用于训练时与文本嵌入编码进行对齐；

O_sl＝θ(concat(O_s，B_1o，N_1o))

所述文本-对象匹配器包括一个变换编码器(T())，用于编码上下文向量，输入O_s、B_1o、P_1o、N_1o以及t_e进行与任务相关对象进行匹配，得到上下文编码向量E₂；

E₂＝T(concat(O_s，B_1o，P_1o，N_1o，t_e))

在文本-对象匹配器的训练阶段，还包括对比对齐损失函数，该函数由两部分组成l_o和l_t，取这两者的平均值作为对比损失，在解码器输出的对象嵌入表示与交叉编码器输出的文本表示之间对齐，确保对象及其相应的类型标记在高维嵌入编码空间中距离更近；

在损失函数l_o中，是类型标记的集合，所有标记与一个给定的对象o_i对齐：

在损失函数l_t中，是对象的集合，所有对象与一个给定的类型标记t_i对齐：

其中，τ是一个温度参数。

优选的，所述解码模块包括一个变换解码器，用于调制检测任务，输出任务涉及目标对应预测框的定位、大小和类别；输入E₂和作为查询向量输入的模板向量V_2e，输出对应任务的预测目标框的位置以及长宽以及与对应的缺陷类型和判断依据描述文本；

在解码模块的训练阶段，还包括一个损失函数，训练模型的过程通过该损失函数优化，来使得解码模块预测与某个目标相关的所有标记索引的均匀分布。

根据本发明提供的基于三模态向量空间对齐的SMT芯片缺陷检测方法，包括：

步骤1：进行图像缩放和图片切割，将模板图像和输入图像处理成预设数据结构；

步骤2：通过一个共享权重的带掩码的自编码器，将模板切片图像和输入切片图像压缩到低维空间，并提取它们的表征向量；

步骤3：使用模板图像中的对象特征定位目标图像里对应的对象，加入先验知识进行编码以适配下游任务；

步骤4：解码对象编码信息，获取相应对象在输入图像中的定位；

步骤5：通过RoBERTa模型将查询语句文本信息表征至高维特征空间，并且提取与任务相关的信息；

步骤6：匹配输入文本和模板对象信息，输出经过跨模态表示的对齐上下文嵌入编码向量；

步骤7：对编码向量进行解码，得到相关对象的定位及其分类以及输出判断依据描述文本。

与现有技术相比，本发明具有如下的有益效果：

(1)在检测时输入模板信息为模型扩充知识库，解决了现有的开放式目标检测算法在SMT芯片开集缺陷检测任务中缺陷类型众多但样本数量分布不均衡，模型先验知识不足以覆盖长尾事件、对象和任务而导致精度下降的问题；

(2)在模型推理时通过输入模板知识和语言对模型进行提示，免去了传统基于深度学习的目标检测模型在面对同一场景下进行新类型的缺陷检测时需要重新采集数据并进行大量标注后，微调(fine-tune)模型的麻烦。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为总体流程图；

图2为对象特征提取网络结构图；

图3为文本-对象匹配器结构图；

图4为输出结果图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

本发明提供了一种基于三模态向量空间对齐的SMT芯片缺陷检测***，包括：图像预处理模块、图像特征编码模块、对象特征提取网络、目标定位模块、文本编码模块、文本-对象匹配器和解码模块。

如图1，所述的图像预处理模块包括图像缩放和切割图片，作用分别为降低计算量和突出部件与边界，将模板图像和输入图像处理成可放入特征提取模块的数据结构；所述图像特征编码模块包括一个共享权重的带掩码的自编码器，对模板切片图像和输入切片图像将进行压缩到低维空间，提取它们的表征向量；所述的对象特征提取网络包括一个对象信息编码模块和目标检测损失函数，使用模板图像中的对象特征定位目标图像里对应的对象目标，加入先验知识进行编码以适配下游任务；所述目标定位模块用于解码对象特征提取网络所输出的对象编码信息，获取相应对象在输入图像中的定位；所述的文本编码模块包括一个RoBERTa，用于将查询语句文本信息表征至高维特征空间，并且提取与任务相关的信息，将其输出和目标定位模块的输出的数据输入到文本-对象匹配器，以匹配输入文本和模板对象信息，解决视觉和语义表示不一致的问题，输出经过跨模态表示的对齐上下文嵌入编码向量；把该向量与图像特征编码模块输出的模板图像表征向量输入到解码模块，解码得到相关对象的定位及其分类以及输出判断描述文本。

所述图像预处理模块，对图像进行预处理，得到训练用的数据。首先，将图片缩放到一定大小，图片长宽比缩放到1：1；其次，用一定大小的方形窗口对图片进行滑窗切图，滑窗的步幅和窗口大小数值一致。作用分别为降低计算量和处理成图像特征提取模块所需的数据格式，对原图和模板图像进行操作，获得切图向量V₁和V₂。

所述的图像特征编码模块，使用一个共享权重的带掩码的自编码器提取图像的特征向量，对图像信息进行压缩和编码。将V₁和V₂输入到图像特征提取模块，即带掩码的自编码模块中，得到映射到低维空间的图像特征向量V_1e和V_2e，此步骤压缩了图像的信息，降低后续操作所需的计算量；也便于后续模块对比模板图像和输入图像的相似部分和不同部分。

如图2，所述的对象特征提取网络，包括一个对象信息编码模块和对象匹配模块。将V_1e，V_2e以及模板图像中各个对象的位置、大小以及类型标记信息输入到该模块中。首先采用对象信息编码模块，一个全连接神经网络对模板图像中的对象进行编码，得到V_2eo，然后采用对象匹配模块获得相似对象表征向量O_s。

进一步的，所述的对象特征提取网络中的对象信息编码模块，使用V_2e和各个对象的位置、大小以及类型标记信息输入到全连接神经网络进行编码得到包含对象信息的编码向量V_2eo。

进一步的，所述的对象匹配模块包括一个构建对象关联矩阵的过程。使用像素级的目标关联方法构建对象关联矩阵，首先需要计算：

其中，i和j分别为V_2eo、V_1e上单个像素的索引以及V_2eo上每个像素的索引，符号⊙表示点积操作，C表示V_1e的特征通道数。

进一步的，所述的对象匹配模块还包括一个对象查询器。对象查询器使用对象关联矩阵去获取V_1e中感兴趣对象的信息，然后与V_2eo拼接，加入各模板对象之间的位置关系，用于后续协助匹配检索输入图像上各对象的相对位置。w是一个软权重映射，因为存储所有目标对象的信息，因此/>乘w可以根据对象查询向量，即适应V_2eo的需要，自适应检索中存储的对象信息，获得输入图像的相似对象表征向量O_s。

其中，代表矩阵乘法，(V_1e)^T代表V_1e矩阵转置。

所述的目标定位模块，包括一个定位头和分类头/>用于解码O_s，获得对象边界框大小、位置向量B_1o、P_1o和对象类型标记向量N_1o：

进一步的，在目标定位模块的训练阶段，还包括目标检测损失函数L1 Loss和EIoULoss，用于引导匹配输入图像和输入模板之间各个相同的对象。

所述的文本编码模块，包括一个RoBERTa。用于提取输入的查询语句文本token向量t_e。

如图3，所述的文本-对象匹配器，将相似对象表征向量O_s，输入图像中被目标定位模块预测出的对象大小信息B_1o，类型标记文本向量N_1o以及t_e进行对象信息的匹配，以及编码任务类型和类别，得到上下文嵌入编码向量E₂。

进一步的，文本-对象匹配器包括一个维度映射模块，该模块包括一个拼接模块，用于拼接O_s、B_1o和N_1o，也包括一个全连接层θ()，使用全连接层进行特征映射到与t_e有相同的维度，得到O_sl。用于训练时与文本嵌入编码进行对齐。

O_sl＝θ(concat(O_s，B_1o，N_1o))

进一步的，文本-对象匹配器包括一个Transformer Encoder(T())，用于编码上下文向量。输入O_s、B_1o、P_1o、N_1o以及t_e进行与任务相关对象进行匹配，得到上下文编码向量E₂。

E₂＝T(concat(O_s，B_1o，P_1o，N_1o，t_e))

进一步的，在文本-对象匹配器的训练阶段，还包括对比对齐损失函数，该函数由两部分组成l_o和l_t，取这两者的平均值作为对比损失。在解码器输出的对象嵌入表示与交叉编码器输出的文本表示之间对齐，其确保了对象及其相应的类型标记(文本)在高维嵌入编码空间中距离更近。

在损失函数l_t中，是对象的集合，所有对象与一个给定的类型标记(文本)t_i对齐：

其中，τ是一个温度参数，根据经验将其设置为0.07。

经过整个方法后所输出的结果为缺陷部件的预测定位、缺陷类型描述文本以及判断依据描述文本，输出该最终结果需要涉及到解码模块。解码模块包括一个TransformerDecoder，用于调制检测任务，输出任务涉及目标对应预测框的定位、大小和类别。输入E₂和作为查询向量输入的模板向量V_2e。输出对应任务的预测目标框的位置以及长宽以及与对应的缺陷类型和判断依据描述文本。

进一步的，在解码模块的训练阶段，还包括一个soft token损失函数。训练模型的过程通过该损失函数优化，来使得解码模块能够预测与某个目标相关的所有标记索引的均匀分布。

如图4，为输出结果图，包括输出预测框、输出类型(如：焊接位置不准确)和输出判断依据(如：芯片单元焊接角度偏移)。

本发明提供了一种基于三模态向量空间对齐的SMT芯片缺陷检测方法，包括：

步骤7：对编码向量进行解码，得到相关对象的定位及其分类以及输出判断描述文本。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的***、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于三模态向量空间对齐的SMT芯片缺陷检测***，其特征在于，包括：

文本-对象匹配器：以文本编码模块和目标定位模块的输出为输入，匹配输入文本和模板对象信息，输出经过跨模态表示的对齐上下文嵌入编码向量；

2.根据权利要求1所述的基于三模态向量空间对齐的SMT芯片缺陷检测***，其特征在于，所述图像预处理模块包括：对图像进行预处理，得到训练用的数据；

首先，将图片缩放到预设大小，图片长宽比缩放到1:1；

3.根据权利要求2所述的基于三模态向量空间对齐的SMT芯片缺陷检测***，其特征在于，所述图像特征编码模块包括：使用一个共享权重的带掩码的自编码器提取图像的特征向量，对图像信息进行压缩和编码，将V₁和V₂输入到带掩码的自编码器中，得到映射到低维空间的图像特征向量V_1e和V_2e。

4.根据权利要求3所述的基于三模态向量空间对齐的SMT芯片缺陷检测***，其特征在于，所述对象特征提取网络包括一个对象信息编码模块和对象匹配模块，将V_1e、V_2e以及模板图像中各个对象的位置、大小以及类型标记信息作为输入，首先采用对象信息编码模块和一个全连接神经网络对模板图像中的对象进行编码，得到V_2eo，然后采用对象匹配模块获得相似对象表征向量O_s；

5.根据权利要求4所述的基于三模态向量空间对齐的SMT芯片缺陷检测***，其特征在于，所述对象匹配模块还包括一个对象查询器，对象查询器使用对象关联矩阵去获取V_1e中感兴趣对象的信息，然后与V_2eo拼接，加入各模板对象之间的位置关系，用于后续协助匹配检索输入图像上各对象的相对位置，w是一个软权重映射，因为存储所有目标对象的信息，因此/>乘w可根据对象查询向量，即适应V_2eo的需要，自适应检索/>中存储的对象信息，获得输入图像的相似对象表征向量O_s；

其中，代表矩阵乘法，(V_1e)^T代表V_1e矩阵转置。

6.根据权利要求5所述的基于三模态向量空间对齐的SMT芯片缺陷检测***，其特征在于，所述目标定位模块包括一个定位头和分类头/>用于解码O_s，获得对象边界框大小、位置向量B_1o、P_1o和对象类型标记向量N_1o：

在目标定位模块的训练阶段，还包括目标检测损失函数L1 Loss和EIoU Loss，用于引导匹配输入图像和输入模板之间各个相同的对象。

7.根据权利要求6所述的基于三模态向量空间对齐的SMT芯片缺陷检测***，其特征在于，所述文本编码模块包括一个RoBERTa模型，用于提取输入的查询语句文本token向量t_e；

所述文本-对象匹配器，将相似对象表征向量O_s，输入图像中被预测出的对象大小信息B_1o，类型标记文本向量N_1o以及t_e进行对象信息的匹配，以及编码任务类型和类别，得到上下文嵌入编码向量E₂。

8.根据权利要求7所述的基于三模态向量空间对齐的SMT芯片缺陷检测***，其特征在于，所述文本-对象匹配器包括一个维度映射模块，该模块包括一个拼接模块，用于拼接O_s、B_1o和N_1o，也包括一个全连接层θ()，使用全连接层进行特征映射到与t_e有相同的维度，得到O_sl，用于训练时与文本嵌入编码进行对齐；

O_sl＝θ(concat(O_s，B_1o，N_1o))

E₂＝T(concat(O_s，B_1o，P_1o，N_1o，t_e))

其中，τ是一个温度参数。

9.根据权利要求8所述的基于三模态向量空间对齐的SMT芯片缺陷检测***，其特征在于，所述解码模块包括一个变换解码器，用于调制检测任务，输出任务涉及目标对应预测框的定位、大小和类别；输入E₂和作为查询向量输入的模板向量V_2e，输出对应任务的预测目标框的位置以及长宽以及与对应的缺陷类型和判断依据描述文本；

10.一种基于三模态向量空间对齐的SMT芯片缺陷检测方法，其特征在于，采用权利要求1-9中任一项所述的基于三模态向量空间对齐的SMT芯片缺陷检测***，包括：