CN117252928A - 用于电子产品模块化智能组装的视觉图像定位*** - Google Patents
用于电子产品模块化智能组装的视觉图像定位*** Download PDFInfo
- Publication number
- CN117252928A CN117252928A CN202311545122.4A CN202311545122A CN117252928A CN 117252928 A CN117252928 A CN 117252928A CN 202311545122 A CN202311545122 A CN 202311545122A CN 117252928 A CN117252928 A CN 117252928A
- Authority
- CN
- China
- Prior art keywords
- initial positioning
- image
- training
- feature
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 38
- 239000000463 material Substances 0.000 claims abstract description 67
- 239000000758 substrate Substances 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims description 55
- 230000004927 fusion Effects 0.000 claims description 40
- 238000005728 strengthening Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 19
- 230000004807 localization Effects 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 10
- 238000004519 manufacturing process Methods 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000010030 laminating Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 16
- 238000000034 method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000009826 distribution Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种用于电子产品模块化智能组装的视觉图像定位***,其在辅料和移动基板到达初始位置之后,CCD摄像头会进行拍照定位来采集包含辅料和移动基板的初始定位图像,并在后端引入图像处理和分析算法来进行初始定位图像的分析,以此来识别辅料和移动基板之间的相对位置信息,以便进行后续的贴合操作。这样,能够准确地定位辅料和移动基板的位置,从而确保贴合的精度和速度,通过这样的方式,能够实现自动化的电子产品模块化的定位和组装,提高组装效率和质量,为电子产品的智能化生产提供支持。
Description
技术领域
本申请涉及智能定位领域,且更为具体地,涉及一种用于电子产品模块化智能组装的视觉图像定位***。
背景技术
随着电子产品的不断发展和智能化程度的提高,模块化智能组装成为了一种趋势。模块化设计可以提高生产效率、降低成本,并且使得产品更易于维修和升级。
电子产品的模块化智能组装是一种利用机器人和视觉***来实现电子元件的自动化贴合的技术,该技术可以提高电子产品的生产效率和质量,降低人工成本和错误率。在电子产品的模块化智能组装过程中,视觉图像定位***起着至关重要的作用。然而,由于电子元件的形状、尺寸和颜色的多样性,导致视觉***难以准确地定位辅料和移动基板的位置,从而影响贴合的精度和速度。
因此,期望一种能够快速、准确地识别辅料和移动基板位置信息的视觉图像定位***。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于电子产品模块化智能组装的视觉图像定位***,其在辅料和移动基板到达初始位置之后,CCD摄像头会进行拍照定位来采集包含辅料和移动基板的初始定位图像,并在后端引入图像处理和分析算法来进行初始定位图像的分析,以此来识别辅料和移动基板之间的相对位置信息,以便进行后续的贴合操作。这样,能够准确地定位辅料和移动基板的位置,从而确保贴合的精度和速度,通过这样的方式,能够实现自动化的电子产品模块化的定位和组装,提高组装效率和质量,为电子产品的智能化生产提供支持。
根据本申请的一个方面,提供了一种用于电子产品模块化智能组装的视觉图像定位***,其包括:
初始定位图像采集模块,用于获取由CCD摄像头采集的包含辅料和移动基板的初始定位图像;
初始定位图像特征提取模块,用于通过基于深度神经网络模型的图像特征提取器对所述包含辅料和移动基板的初始定位图像进行特征提取以得到初始定位浅层特征图和初始定位深层特征图;
初始定位图像多尺度特征融合强化模块,用于对所述初始定位深层特征图进行通道注意力强化后与所述初始定位浅层特征图进行残差特征融合强化以得到初始定位融合强化特征;
相对位置信息生成模块,用于基于所述初始定位融合强化特征,确定辅料和移动基板之间的相对位置信息。
与现有技术相比,本申请提供的一种用于电子产品模块化智能组装的视觉图像定位***,其在辅料和移动基板到达初始位置之后,CCD摄像头会进行拍照定位来采集包含辅料和移动基板的初始定位图像,并在后端引入图像处理和分析算法来进行初始定位图像的分析,以此来识别辅料和移动基板之间的相对位置信息,以便进行后续的贴合操作。这样,能够准确地定位辅料和移动基板的位置,从而确保贴合的精度和速度,通过这样的方式,能够实现自动化的电子产品模块化的定位和组装,提高组装效率和质量,为电子产品的智能化生产提供支持。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的用于电子产品模块化智能组装的视觉图像定位***的框图;
图2为根据本申请实施例的用于电子产品模块化智能组装的视觉图像定位***的***架构图;
图3为根据本申请实施例的用于电子产品模块化智能组装的视觉图像定位***中训练模块的框图;
图4为根据本申请实施例的用于电子产品模块化智能组装的视觉图像定位***中初始定位图像多尺度特征融合强化模块的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的***中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述***和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
电子产品的模块化智能组装是一种利用机器人和视觉***来实现电子元件的自动化贴合的技术,该技术可以提高电子产品的生产效率和质量,降低人工成本和错误率。在电子产品的模块化智能组装过程中,视觉图像定位***起着至关重要的作用。然而,由于电子元件的形状、尺寸和颜色的多样性,导致视觉***难以准确地定位辅料和移动基板的位置,从而影响贴合的精度和速度。因此,期望一种能够快速、准确地识别辅料和移动基板位置信息的视觉图像定位***。
在本申请的技术方案中,提出了一种用于电子产品模块化智能组装的视觉图像定位***。图1为根据本申请实施例的用于电子产品模块化智能组装的视觉图像定位***的框图。图2为根据本申请实施例的用于电子产品模块化智能组装的视觉图像定位***的***架构图。如图1和图2所示,根据本申请的实施例的用于电子产品模块化智能组装的视觉图像定位***300,包括:初始定位图像采集模块310,用于获取由CCD摄像头采集的包含辅料和移动基板的初始定位图像;初始定位图像特征提取模块320,用于通过基于深度神经网络模型的图像特征提取器对所述包含辅料和移动基板的初始定位图像进行特征提取以得到初始定位浅层特征图和初始定位深层特征图;初始定位图像多尺度特征融合强化模块330,用于对所述初始定位深层特征图进行通道注意力强化后与所述初始定位浅层特征图进行残差特征融合强化以得到初始定位融合强化特征;相对位置信息生成模块340,用于基于所述初始定位融合强化特征,确定辅料和移动基板之间的相对位置信息。
特别地,所述初始定位图像采集模块310,用于获取由CCD摄像头采集的包含辅料和移动基板的初始定位图像。应可以理解,辅料是指用于装配或固定的附加物件,移动基板是指需要定位辅料的主要物体或平台。其中,所述包含辅料和移动基板的初始定位图像能够用于定位辅料和移动基板的相对位置和姿态。值得一提的是,应可以理解,CCD(Charge-Coupled Device)摄像头是一种常用的图像采集设备,具有高分辨率、快速采集速度和良好的光学性能。在视觉图像定位***中,CCD摄像头用于获取包含辅料和移动基板的初始定位图像。
相应的,在一种可能的实现方式中,可通过以下步骤获取由CCD摄像头采集的包含辅料和移动基板的初始定位图像,例如:确保CCD摄像头和相关设备正常工作并连接到计算机或图像处理***。确保摄像头的位置和角度适合捕捉所需的图像;根据需要设置摄像头的参数;将辅料和移动基板放置在摄像头的视野范围内,并确保它们在图像中可见。可以使用机械装置或人工操作来确保辅料和基板的位置和姿态;使用适当的软件或编程接口触发CCD摄像头进行图像采集。根据需要,可以选择单次采集或连续采集模式;一旦触发图像采集,CCD摄像头将捕捉到当前场景的图像。将图像保存到计算机或图像处理***的存储设备中,以备后续处理和分析使用;使用图像处理算法和技术对采集到的图像进行分析和定位。这可能涉及边缘检测、特征提取、模式匹配等操作,以确定辅料和移动基板在图像中的位置和姿态。
特别地,所述初始定位图像特征提取模块320,用于通过基于深度神经网络模型的图像特征提取器对所述包含辅料和移动基板的初始定位图像进行特征提取以得到初始定位浅层特征图和初始定位深层特征图。也就是,在本申请的技术方案中,使用在图像的隐含特征提取方面具有优异表现性能的卷积神经网络模型来进行所述包含辅料和移动基板的初始定位图像的特征挖掘。特别地,考虑到由于电子元件的形状、尺寸和颜色的多样性,为了获取图像中有关于辅料和移动基板的不同层次的特征信息,以提高对辅料和移动基板位置的准确识别和定位能力,在本申请的技术方案中,进一步将所述包含辅料和移动基板的初始定位图像通过基于金字塔网络的图像特征提取器以得到初始定位浅层特征图和初始定位深层特征图。应可以理解,金字塔网络是一种多尺度的图像处理技术,它通过构建不同分辨率的图像金字塔,从粗糙到细致地表示图像的不同层次信息。在视觉图像定位***中,通过基于金字塔网络的图像特征提取器,可以从初始定位图像中提取出关于辅料和移动基板的不同层次的特征信息,包括浅层特征和深层特征。其中,浅层特征主要包含一些低级的图像特征,如边缘、纹理等,这些特征对于辅料和移动基板的位置识别可能具有一定的作用。而深层特征则更加抽象和语义化,可以捕捉到更高级的特征表示,如形状、结构等,这些特征对于辅料和移动基板的位置定位具有更强的表达能力。
值得注意的是,金字塔网络(Pyramid Network)是一种计算机视觉中常用的图像处理技术,用于多尺度的特征提取和图像分析。它基于金字塔结构的概念,通过构建多个尺度的图像金字塔来捕捉不同尺度的特征信息。金字塔网络的基本思想是在不同尺度上对输入图像进行处理,并从每个尺度上提取特征。这样做的目的是为了处理不同尺度上的目标物体,因为目标物体在图像中可能以不同的尺度出现。金字塔网络通常包括以下步骤:图像金字塔构建:首先,通过对输入图像进行多次降采样或上采样操作,生成具有不同分辨率的图像金字塔。降采样操作可以通过缩小图像尺寸来获取下一层金字塔图像,而上采样操作可以通过插值方法将图像放大获得上一层金字塔图像;特征提取:对每个金字塔层的图像进行特征提取。常见的特征提取方法包括卷积神经网络、SIFT等;特征融合:将不同尺度的特征进行融合,以综合利用多尺度的信息。融合可以通过简单的特征级联、加权平均或更复杂的操作(如金字塔池化)来实现。
相应的,在一种可能的实现方式中,可通过以下步骤将所述包含辅料和移动基板的初始定位图像通过基于金字塔网络的图像特征提取器以得到初始定位浅层特征图和初始定位深层特征图,例如:对初始定位图像进行多次降采样或上采样操作,生成具有不同分辨率的图像金字塔。这可以通过缩小或放大图像尺寸来实现;选择合适的基于金字塔网络的图像特征提取器,例如卷积神经网络或金字塔卷积网络;对每个金字塔层的图像使用特征提取器进行特征提取;从特征提取过程中获取浅层特征表示,浅层特征通常包含更多的细节和局部信息,适合用于辅料和移动基板的细粒度定位;从特征提取过程中获取深层特征表示,深层特征通常包含更多的语义和全局信息,适合用于辅料和移动基板的整体定位和姿态估计。
特别地,所述初始定位图像多尺度特征融合强化模块330,用于对所述初始定位深层特征图进行通道注意力强化后与所述初始定位浅层特征图进行残差特征融合强化以得到初始定位融合强化特征。特别地,在本申请的一个具体示例中,如图4所示,所述初始定位图像多尺度特征融合强化模块330,包括:图像深层语义通道强化单元331,用于将所述初始定位深层特征图通过通道注意力模块以得到通道显著化初始定位深层特征图;定位浅层特征语义掩码强化单元332,用于基于所述通道显著化初始定位深层特征图对所述初始定位浅层特征图进行语义掩码强化以得到语义掩码强化初始定位浅层特征图作为所述初始定位融合强化特征。
具体地,所述图像深层语义通道强化单元331,用于将所述初始定位深层特征图通过通道注意力模块以得到通道显著化初始定位深层特征图。考虑到在所述初始定位深层特征图中,每个通道对应着不同的特征表示。然而,并非所有的通道都对辅料和移动基板的位置识别和定位任务都有相同的贡献。也就是说,有些通道可能包含了与位置无关的噪声或冗余信息,而有些通道可能携带了更重要和相关的位置信息。因此,在本申请的技术方案中,为了增强深层特征中与辅料和移动基板位置相关的通道信息,以提高对位置信息的关注度和准确性,需要进一步将所述初始定位深层特征图通过通道注意力模块以得到通道显著化初始定位深层特征图。更具体地,将所述初始定位深层特征图通过通道注意力模块以得到通道显著化初始定位深层特征图,包括:对所述初始定位深层特征图的沿通道维度的各个特征矩阵进行全局均值池化以得到通道特征向量;将所述通道特征向量输入Softmax激活函数以得到通道注意力权重向量;以所述通道注意力权重向量中各个位置的特征值作为权重对所述初始定位深层特征图的沿通道维度的各个特征矩阵进行加权以得到所述通道显著化初始定位深层特征图。
值得注意的是,通道注意力(Channel Attention)是一种用于增强特征表示的技术,它通过学习每个通道的重要性权重,将更多的注意力放在对于任务有用的通道上。通道注意力可以帮助模型自动学习到特征图中不同通道的重要性,并对其进行加权,以提高特征的表达能力和区分度。通道注意力在许多计算机视觉任务中都被广泛应用,例如目标检测、图像分类、图像分割等。它可以帮助模型更好地捕捉图像中的关键信息,提高模型的性能和鲁棒性。
具体地,所述定位浅层特征语义掩码强化单元332,用于基于所述通道显著化初始定位深层特征图对所述初始定位浅层特征图进行语义掩码强化以得到语义掩码强化初始定位浅层特征图作为所述初始定位融合强化特征。应可以理解,由于所述初始定位浅层特征图和所述通道显著化初始定位深层特征图分别代表了图像中关于辅料和移动基板的不同层次的特征信息。浅层特征主要包含一些低级的图像特征,而深层特征则更加抽象和语义化。两者各自具有一定的特征表达能力,但也存在一些局限性。因此,为了结合浅层特征和深层特征的优势,提高对辅料和移动基板位置信息监测的准确性和鲁棒性,在本申请的技术方案中,进一步使用残差信息增强融合模块来融合所述初始定位浅层特征图和所述通道显著化初始定位深层特征图以得到语义掩码强化初始定位浅层特征图。应可以理解,所述残差信息增强融合模块通过引入残差连接的方式,将所述初始定位浅层特征图与所述通道显著化初始定位深层特征图进行融合。特别地,残差连接可以使得模型能够学习到两者之间的差异和补充信息,从而提高特征的表达能力。具体来说,通过残差连接,能够使得模型学习到所述通道显著化初始定位深层特征图的特征信息,并以此特征信息来优化初始定位浅层特征图以达到缩短两者差距的目的。因此,融合后的所述语义掩码强化初始定位浅层特征图综合了浅层特征和深层特征的优势,具有更丰富和准确的语义信息,这样的特征图可以更好地捕捉到辅料和移动基板的位置特征,提高对位置的识别和定位能力。
相应的,在一种可能的实现方式中,可通过以下步骤使用残差信息增强融合模块来融合所述初始定位浅层特征图和所述通道显著化初始定位深层特征图以得到所述语义掩码强化初始定位浅层特征图,例如:将通道显著化的初始定位深层特征图与初始定位浅层特征图相加,得到残差特征图;通过一个卷积层对残差特征图进行进一步的特征变换和维度匹配;将残差特征图与初始定位浅层特征图相加,得到语义掩码强化的初始定位浅层特征图; 这个融合后的特征图综合了初始定位浅层特征和通过通道显著化增强的初始定位深层特征的信息,具有更丰富和准确的语义表达。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式对所述初始定位深层特征图进行通道注意力强化后与所述初始定位浅层特征图进行残差特征融合强化以得到初始定位融合强化特征,例如:对初始定位深层特征图进行全局平均池化,将每个通道的特征图转换为一个标量值;将池化后的特征通过一个全连接层(或卷积层)进行映射,得到每个通道的注意力权重;使用激活函数(如sigmoid)对注意力权重进行归一化,以确保它们在0到1之间;将注意力权重与初始定位深层特征图相乘,以加权强化每个通道的特征表示;将初始定位浅层特征图与经过通道注意力强化的初始定位深层特征图进行相加,得到残差特征图; 将残差特征图与初始定位浅层特征图相加,得到初始定位融合强化特征。这个融合强化特征综合了浅层和深层特征的信息,并且通过通道注意力强化和残差特征融合得到更丰富和准确的表示。
特别地,所述相对位置信息生成模块340,用于基于所述初始定位融合强化特征,确定辅料和移动基板之间的相对位置信息。也就是,在本申请的技术方案中,将所述语义掩码强化初始定位浅层特征图通过解码器以得到解码值,所述解码值用于表示辅料和移动基板之间的相对位置信息。也就是说,利用所述初始定位图像中关于辅料和移动基板的语义掩码强化初始定位浅层特征信息来进行解码回归处理,以此来识别辅料和移动基板之间的相对位置信息,以便进行后续的贴合操作。具体地,将所述语义掩码强化初始定位浅层特征图通过解码器以得到解码值,所述解码值用于表示辅料和移动基板之间的相对位置信息,包括:使用所述解码器以如下公式将所述语义掩码强化初始定位浅层特征图进行解码回归以获得用于表示辅料和移动基板之间的相对位置信息的解码值;其中,所述公式为,,其中/>表示所述语义掩码强化初始定位浅层特征图,/>是所述解码值,/>是权重矩阵,/>表示矩阵相乘。
值得一提的是,解码器在计算机视觉任务中通常用于将高级特征表示转换为更具语义信息的输出。它是神经网络模型中的一部分,用于从编码器的特征表示中恢复原始输入或生成任务相关的输出。解码回归是指在机器学习和计算机视觉任务中,使用解码器将编码器提取的特征转换为连续值的输出。与分类任务不同,回归任务的目标是预测连续的数值,而不是离散的类别。
应可以理解,在利用上述神经网络模型进行推断之前,需要对所述基于金字塔网络的图像特征提取器、所述通道注意力模块、所述残差信息增强融合模块和所述解码器进行训练。也就是说,根据本申请的用于电子产品模块化智能组装的视觉图像定位***300,还包括训练阶段400,用于对所述基于金字塔网络的图像特征提取器、所述通道注意力模块、所述残差信息增强融合模块和所述解码器进行训练。
图3为根据本申请实施例的用于电子产品模块化智能组装的视觉图像定位***中训练模块的框图。如图3所示,所述训练阶段400,包括:训练数据采集单元410,用于获取训练数据,所述训练数据包括由CCD摄像头采集的包含辅料和移动基板的训练初始定位图像,以及,辅料和移动基板之间的相对位置信息的真实值;训练初始定位图像特征提取单元420,用于通过基于金字塔网络的图像特征提取器对所述包含辅料和移动基板的训练初始定位图像进行特征提取以得到训练初始定位浅层特征图和训练初始定位深层特征图;训练图像深层语义通道强化单元430,用于将所述训练初始定位深层特征图通过通道注意力模块以得到训练通道显著化初始定位深层特征;训练定位浅层特征语义掩码强化单元440,用于基于所述训练通道显著化初始定位深层特征对所述训练初始定位浅层特征图进行语义掩码强化以得到训练语义掩码强化初始定位浅层特征图;优化单元450,用于对所述训练语义掩码强化初始定位浅层特征图展开后的训练语义掩码强化初始定位浅层特征向量进行逐位置优化以得到优化训练语义掩码强化初始定位浅层特征向量;解码损失单元460,用于将所述优化训练语义掩码强化初始定位浅层特征向量通过所述解码器以得到解码损失函数值;模型训练单元470,用于基于所述解码损失函数值并通过梯度下降的方向传播来对所述基于金字塔网络的图像特征提取器、所述通道注意力模块、所述残差信息增强融合模块和所述解码器进行训练。
其中,所述解码损失单元,用于:使用解码器对所述优化训练语义掩码强化初始定位浅层特征向量进行解码回归以得到训练解码值;以及,计算所述训练解码值与所述辅料和移动基板之间的相对位置信息的真实值之间的均方误差值作为所述解码损失函数值。
特别地,在本申请的技术方案中,所述初始定位浅层特征图和初始定位深层特征图分别表达所述初始定位图像的基于金字塔网络的不同尺度下的浅层和深层图像语义特征,并且,考虑到所述初始定位深层特征图是在所述初始定位浅层特征图的基础上继续基于深层图像语义局部关联尺度提取图像语义局部关联特征得到的,因此通过通道注意力模块来强化特征矩阵的空间分布维度上的整体图像语义特征分布,使得所述通道显著化初始定位深层特征图的整体深层图像语义特征分布更加均衡。这样,使用残差信息增强融合模块来融合所述初始定位浅层特征图和所述通道显著化初始定位深层特征图后,所述语义掩码强化初始定位浅层特征图不仅包含不同尺度下的浅层和深层图像语义特征,还包括基于残差信息增强融合的层间残差图像语义特征,使得所述语义掩码强化初始定位浅层特征图具有语义空间多维度下的多尺度多深度图像语义关联特征分布。由此,由于所述语义掩码强化初始定位浅层特征图在整体上具有语义空间角度下的多维度、多尺度和多深度图像语义关联特征分布性质,这就使得在将所述语义掩码强化初始定位浅层特征图通过解码器进行解码回归时,需要提升解码回归的效率。因此,本申请的申请人在所述语义掩码强化初始定位浅层特征图通过解码器进行解码回归时,对所述语义掩码强化初始定位浅层特征图展开后的语义掩码强化初始定位浅层特征向量进行逐位置优化,具体表示为:,其中/>是所述语义掩码强化初始定位浅层特征向量的第/>个位置的特征值,/>是所述语义掩码强化初始定位浅层特征向量的所有特征值的全局均值,且/>是所述语义掩码强化初始定位浅层特征向量的最大特征值,/>()表示向量的指数运算,/>是所述优化训练语义掩码强化初始定位浅层特征向量。也就是,通过全局分布参数的正则化仿函数的概念,上述优化基于所述语义掩码强化初始定位浅层特征向量的全局分布的参数向量式表征,来以回归概率的正则式表达模拟代价函数,从而对所述语义掩码强化初始定位浅层特征向量在高维特征空间内的特征流形表征对于类回归概率下的基于解码器的权重矩阵的逐点回归特性进行建模,以捕获待解码的语义掩码强化初始定位浅层特征向量经由解码器模型的参数空间在高维特征流形的场景几何形状下的参数平滑式优化轨迹,提高所述语义掩码强化初始定位浅层特征图在所述解码器的解码概率回归下的训练效率。这样,能够准确地定位辅料和移动基板的位置,从而确保贴合的精度和速度,通过这样的方式,能够实现自动化的电子产品模块化的定位和组装,提高组装效率和质量,为电子产品的智能化生产提供支持。
如上所述,根据本申请实施例的用于电子产品模块化智能组装的视觉图像定位***300可以实现在各种无线终端中,例如具有用于电子产品模块化智能组装的视觉图像定位算法的服务器等。在一种可能的实现方式中,根据本申请实施例的用于电子产品模块化智能组装的视觉图像定位***300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该用于电子产品模块化智能组装的视觉图像定位***300可以是该无线终端的操作***中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该用于电子产品模块化智能组装的视觉图像定位***300同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该用于电子产品模块化智能组装的视觉图像定位***300与该无线终端也可以是分立的设备,并且该用于电子产品模块化智能组装的视觉图像定位***300可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (8)
1.一种用于电子产品模块化智能组装的视觉图像定位***,其特征在于,包括:
初始定位图像采集模块,用于获取由CCD摄像头采集的包含辅料和移动基板的初始定位图像;
初始定位图像特征提取模块,用于通过基于深度神经网络模型的图像特征提取器对所述包含辅料和移动基板的初始定位图像进行特征提取以得到初始定位浅层特征图和初始定位深层特征图;
初始定位图像多尺度特征融合强化模块,用于对所述初始定位深层特征图进行通道注意力强化后与所述初始定位浅层特征图进行残差特征融合强化以得到初始定位融合强化特征;
相对位置信息生成模块,用于基于所述初始定位融合强化特征,确定辅料和移动基板之间的相对位置信息。
2.根据权利要求1所述的用于电子产品模块化智能组装的视觉图像定位***,其特征在于,所述深度神经网络模型为金字塔网络。
3.根据权利要求2所述的用于电子产品模块化智能组装的视觉图像定位***,其特征在于,所述初始定位图像多尺度特征融合强化模块,包括:
图像深层语义通道强化单元,用于将所述初始定位深层特征图通过通道注意力模块以得到通道显著化初始定位深层特征图;
定位浅层特征语义掩码强化单元,用于基于所述通道显著化初始定位深层特征图对所述初始定位浅层特征图进行语义掩码强化以得到语义掩码强化初始定位浅层特征图作为所述初始定位融合强化特征。
4.根据权利要求3所述的用于电子产品模块化智能组装的视觉图像定位***,其特征在于,所述定位浅层特征语义掩码强化单元,用于:使用残差信息增强融合模块来融合所述初始定位浅层特征图和所述通道显著化初始定位深层特征图以得到所述语义掩码强化初始定位浅层特征图。
5.根据权利要求4所述的用于电子产品模块化智能组装的视觉图像定位***,其特征在于,所述相对位置信息生成模块,用于:将所述语义掩码强化初始定位浅层特征图通过解码器以得到解码值,所述解码值用于表示辅料和移动基板之间的相对位置信息。
6.根据权利要求5所述的用于电子产品模块化智能组装的视觉图像定位***,其特征在于,还包括用于对所述基于金字塔网络的图像特征提取器、所述通道注意力模块、所述残差信息增强融合模块和所述解码器进行训练的训练模块。
7.根据权利要求6所述的用于电子产品模块化智能组装的视觉图像定位***,其特征在于,所述训练模块,包括:
训练数据采集单元,用于获取训练数据,所述训练数据包括由CCD摄像头采集的包含辅料和移动基板的训练初始定位图像,以及,辅料和移动基板之间的相对位置信息的真实值;
训练初始定位图像特征提取单元,用于通过基于金字塔网络的图像特征提取器对所述包含辅料和移动基板的训练初始定位图像进行特征提取以得到训练初始定位浅层特征图和训练初始定位深层特征图;
训练图像深层语义通道强化单元,用于将所述训练初始定位深层特征图通过通道注意力模块以得到训练通道显著化初始定位深层特征;
训练定位浅层特征语义掩码强化单元,用于基于所述训练通道显著化初始定位深层特征对所述训练初始定位浅层特征图进行语义掩码强化以得到训练语义掩码强化初始定位浅层特征图;
优化单元,用于对所述训练语义掩码强化初始定位浅层特征图展开后的训练语义掩码强化初始定位浅层特征向量进行逐位置优化以得到优化训练语义掩码强化初始定位浅层特征向量;
解码损失单元,用于将所述优化训练语义掩码强化初始定位浅层特征向量通过所述解码器以得到解码损失函数值;
模型训练单元,用于基于所述解码损失函数值并通过梯度下降的方向传播来对所述基于金字塔网络的图像特征提取器、所述通道注意力模块、所述残差信息增强融合模块和所述解码器进行训练。
8.根据权利要求7所述的用于电子产品模块化智能组装的视觉图像定位***,其特征在于,所述解码损失单元,用于:
使用解码器对所述优化训练语义掩码强化初始定位浅层特征向量进行解码回归以得到训练解码值;以及,计算所述训练解码值与所述辅料和移动基板之间的相对位置信息的真实值之间的均方误差值作为所述解码损失函数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311545122.4A CN117252928B (zh) | 2023-11-20 | 2023-11-20 | 用于电子产品模块化智能组装的视觉图像定位*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311545122.4A CN117252928B (zh) | 2023-11-20 | 2023-11-20 | 用于电子产品模块化智能组装的视觉图像定位*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117252928A true CN117252928A (zh) | 2023-12-19 |
CN117252928B CN117252928B (zh) | 2024-01-26 |
Family
ID=89135458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311545122.4A Active CN117252928B (zh) | 2023-11-20 | 2023-11-20 | 用于电子产品模块化智能组装的视觉图像定位*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252928B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789153A (zh) * | 2024-02-26 | 2024-03-29 | 浙江驿公里智能科技有限公司 | 基于计算机视觉的汽车油箱外盖定位***及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126258A (zh) * | 2019-12-23 | 2020-05-08 | 深圳市华尊科技股份有限公司 | 图像识别方法及相关装置 |
CN112247525A (zh) * | 2020-09-29 | 2021-01-22 | 智瑞半导体有限公司 | 一种基于视觉定位智能组装*** |
WO2021121306A1 (zh) * | 2019-12-18 | 2021-06-24 | 北京嘀嘀无限科技发展有限公司 | 视觉定位方法和*** |
CN115063478A (zh) * | 2022-05-30 | 2022-09-16 | 华南农业大学 | 基于rgb-d相机和视觉定位的水果定位方法、***、设备及介质 |
CN115578615A (zh) * | 2022-10-31 | 2023-01-06 | 成都信息工程大学 | 基于深度学习的夜间交通标志图像检测模型建立方法 |
CN116012339A (zh) * | 2023-01-09 | 2023-04-25 | 广州广芯封装基板有限公司 | 图像处理方法、电子设备及计算机可读存储介质 |
CN116188584A (zh) * | 2023-04-23 | 2023-05-30 | 成都睿瞳科技有限责任公司 | 基于图像识别物体打磨位置的方法及*** |
CN116258658A (zh) * | 2023-05-11 | 2023-06-13 | 齐鲁工业大学(山东省科学院) | 基于Swin Transformer的图像融合方法 |
WO2023138062A1 (zh) * | 2022-01-19 | 2023-07-27 | 美的集团(上海)有限公司 | 图像处理方法及装置 |
CN116704205A (zh) * | 2023-06-09 | 2023-09-05 | 西安科技大学 | 融合残差网络和通道注意力的视觉定位方法及*** |
-
2023
- 2023-11-20 CN CN202311545122.4A patent/CN117252928B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021121306A1 (zh) * | 2019-12-18 | 2021-06-24 | 北京嘀嘀无限科技发展有限公司 | 视觉定位方法和*** |
CN111126258A (zh) * | 2019-12-23 | 2020-05-08 | 深圳市华尊科技股份有限公司 | 图像识别方法及相关装置 |
CN112247525A (zh) * | 2020-09-29 | 2021-01-22 | 智瑞半导体有限公司 | 一种基于视觉定位智能组装*** |
WO2023138062A1 (zh) * | 2022-01-19 | 2023-07-27 | 美的集团(上海)有限公司 | 图像处理方法及装置 |
CN115063478A (zh) * | 2022-05-30 | 2022-09-16 | 华南农业大学 | 基于rgb-d相机和视觉定位的水果定位方法、***、设备及介质 |
CN115578615A (zh) * | 2022-10-31 | 2023-01-06 | 成都信息工程大学 | 基于深度学习的夜间交通标志图像检测模型建立方法 |
CN116012339A (zh) * | 2023-01-09 | 2023-04-25 | 广州广芯封装基板有限公司 | 图像处理方法、电子设备及计算机可读存储介质 |
CN116188584A (zh) * | 2023-04-23 | 2023-05-30 | 成都睿瞳科技有限责任公司 | 基于图像识别物体打磨位置的方法及*** |
CN116258658A (zh) * | 2023-05-11 | 2023-06-13 | 齐鲁工业大学(山东省科学院) | 基于Swin Transformer的图像融合方法 |
CN116704205A (zh) * | 2023-06-09 | 2023-09-05 | 西安科技大学 | 融合残差网络和通道注意力的视觉定位方法及*** |
Non-Patent Citations (3)
Title |
---|
JIAJING LIU等: "Detection and location of unsafe behaviour in digital images: A visual grounding approach", 《ADVANCED ENGINEERING INFORMATICS》, pages 1 - 11 * |
亢洁;丁菊敏;万永;雷涛;: "基于分水岭修正与U-Net的肝脏图像分割算法", 计算机工程, no. 01, pages 255 - 261 * |
杨勇;吴峥;张东阳;刘家祥;: "基于渐进式特征增强网络的超分辨率重建算法", 信号处理, no. 09, pages 1598 - 1606 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789153A (zh) * | 2024-02-26 | 2024-03-29 | 浙江驿公里智能科技有限公司 | 基于计算机视觉的汽车油箱外盖定位***及方法 |
CN117789153B (zh) * | 2024-02-26 | 2024-05-03 | 浙江驿公里智能科技有限公司 | 基于计算机视觉的汽车油箱外盖定位***及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117252928B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111862126B (zh) | 深度学习与几何算法结合的非合作目标相对位姿估计方法 | |
CN113205466B (zh) | 一种基于隐空间拓扑结构约束的残缺点云补全方法 | |
CN110929736B (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN111160297A (zh) | 基于残差注意机制时空联合模型的行人重识别方法及装置 | |
CN113409384B (zh) | 一种目标物体的位姿估计方法和***、机器人 | |
CN111553949B (zh) | 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN112529015A (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
CN117252928B (zh) | 用于电子产品模块化智能组装的视觉图像定位*** | |
CN109766873B (zh) | 一种混合可变形卷积的行人再识别方法 | |
CN113283525B (zh) | 一种基于深度学习的图像匹配方法 | |
CN113516693B (zh) | 一种快速通用的图像配准方法 | |
CN112750198B (zh) | 一种基于非刚性点云的稠密对应预测方法 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN114170410A (zh) | 基于PointNet的图卷积与KNN搜索的点云零件级分割方法 | |
CN113221647A (zh) | 一种融合点云局部特征的6d位姿估计方法 | |
CN117218343A (zh) | 一种基于深度学习的语义部件姿态估计方法 | |
CN112101262A (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN115019135A (zh) | 模型训练、目标检测方法、装置、电子设备及存储介质 | |
CN114548253A (zh) | 一种基于图像识别及动态匹配的数字孪生模型构建*** | |
CN112308128A (zh) | 一种基于注意力机制神经网络的图像匹配方法 | |
CN115713546A (zh) | 移动终端设备用的轻量化目标跟踪算法 | |
CN117252926B (zh) | 基于视觉定位的手机壳辅料智能装配控制*** | |
CN115049833A (zh) | 一种基于局部特征增强和相似性度量的点云部件分割方法 | |
CN112669452B (zh) | 一种基于卷积神经网络多分支结构的物体定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Visual image positioning system for modular intelligent assembly of electronic products Granted publication date: 20240126 Pledgee: Bank of China Limited Ganjiang New Area Branch Pledgor: NANCHANG INDUSTRIAL CONTROL ROBOT Co.,Ltd. Registration number: Y2024980022128 |