CN116363085A - 基于小样本学习和虚拟合成数据的工业零件目标检测方法 - Google Patents

基于小样本学习和虚拟合成数据的工业零件目标检测方法 Download PDF

Info

Publication number
CN116363085A
CN116363085A CN202310274497.5A CN202310274497A CN116363085A CN 116363085 A CN116363085 A CN 116363085A CN 202310274497 A CN202310274497 A CN 202310274497A CN 116363085 A CN116363085 A CN 116363085A
Authority
CN
China
Prior art keywords
virtual
target detection
data
real
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310274497.5A
Other languages
English (en)
Other versions
CN116363085B (zh
Inventor
陆慧敏
陈修
李玉洁
蔡金彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Gongzhi Automation Technology Co ltd
Original Assignee
Jiangsu Gongzhi Automation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Gongzhi Automation Technology Co ltd filed Critical Jiangsu Gongzhi Automation Technology Co ltd
Priority to CN202310274497.5A priority Critical patent/CN116363085B/zh
Publication of CN116363085A publication Critical patent/CN116363085A/zh
Application granted granted Critical
Publication of CN116363085B publication Critical patent/CN116363085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30164Workpiece; Machine component
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于小样本学习和虚拟合成数据的工业零件目标检测方法,先通过虚拟仿真软件制作与真实零件具有相似几何形状的零件合成数据集,同时输出对应图像的标注信息,整个数据采集过程自动化执行无需繁杂的人工操作。对采集的合成数据进行数据预处理,将其图像格式和标注信息转为训练目标检测网络需要的格式,接着在这些合成数据上训练基于小样本学习的目标检测网络,使网络获得在合成数据上检测的能力。采集真实工业场景下的图像,对这些图像进行人工标注,标注完成后对目标检测网络进行二次训练,微调网络的参数,最终训练的网络实时检测输出当前场景图像中零件的类别和位置。

Description

基于小样本学习和虚拟合成数据的工业零件目标检测方法
技术领域
本发明涉及一种基于小样本学习和虚拟合成数据的工业零件目标检测方法,属于计算机视觉、目标检测、虚拟合成数据、智能机器人等技术领域。
背景技术
以自动化技术和人工智能***为驱动的机器人工厂旨在解决日常生产中重复、费力的任务。为了使机器人能够像人一样准确的进行生产活动,机器人需要使用机械臂在工业环境下自主抓取物体。虽然在利用深度学习进行机器人抓取方面取得了重大进展,但在实际应用中,训练一个深度神经网络需要大规模带有人工标注的数据集,获取涵盖各种工业场景和零件排列情况的高质量RGB数据集是一项非常耗时耗力的任务。因此,对于工业场景的目标检测任务,需要构建一个不需要过多人工标注工作的检测方法。
针对工业场景数据采集的问题,根据训练数据种类的不同,可以分为两类方法:基于虚拟合成数据的方法,基于小样本学习的方法。
基于虚拟合成数据的方法:现有的虚拟合成数据生成方法主要应用于场景、行人和车辆的识别研究,这些研究涵盖了图像的分类、语义分割和目标检测等。合成数据通过虚拟软件得到,在虚拟的三维环境中利用图形引擎快速地合成与标注数据。在机器人研究中,参考文献[1]使用各种模拟器的虚拟环境对机器人识别***进行训练,这些虚拟环境重点是对目标物体的物理特性进行模拟。近期游戏引擎的发展使得其既可以实现物理引擎的仿真,也可以实时渲染出真实度很高的图像,计算机视觉研究者也开始使用游戏引擎开展相关研究。在参考文献[2]提出了使用虚拟环境训练行人检测的分类器,然后将训练好的行人分类器用于真实图像的行人检测任务,使用域适应算法将虚拟数据集向真实数据集进行迁移。参考文献[3]提出了SYNTHIA虚拟数据集来完成语义分割任务,SYNTHIA实现了对一个大规模虚拟城市场景的渲染,提供11个自动驾驶场景下常用类别物体的像素级标注。参考文献[4]提出了使用Unity等最新的图形技术引擎制作合成数据集,达到虚拟数据拟合到真实数据的目的。该引擎可以为不同的计算机视觉任务提供数据,包括光流、实例语义分割、目标检测和跟踪及视觉里程计等。
基于小样本学习的方法:小样本学习是指用于训练神经网络的数据仅使用几个带有注释的训练示例。参考文献[5]使用贝叶斯推理从预训练模型中泛化知识以执行一次性学习。参考文献[6]的LSTD和参考文献[7]的RepMet采用了一种通用的迁移学习框架,通过将预训练的检测器适应于小样本场景来减少过拟合。参考文献[8]的Meta YOLO使用参考文献[9]的YOLO v2设计了一种新颖的小样本检测模型,该模型学习可泛化的元特征,并通过从支持示例中生成特定于类的激活系数来自动重新加权新类的特征。参考文献[10]的TFA通过在第二阶段对分类器微调,可以简单地执行两阶段微调方法,并获得更好的性能。参考文献[11]的CoAE提出了非局部RPN,并通过将自身与其他跟踪方法进行比较,从跟踪的角度关注单次检测。
经过对现有技术的研究可知,基于虚拟合成数据的方法在渲染的画面上真实度很低,对于计算机视觉任务来说不适用。虽然游戏引擎能够实时渲染出真实度很高的图像,但虚拟环境的真实度与场景复杂度较低,直接使用虚拟数据集训练的网络在真实数据集中的表现较差,当数据集的规模不断增大时,采集到的图像会产生较大相似性,使得最终的数据集在训练具有深层网络结构的模型时产生过拟合。另外使用虚拟软件合成场景需要对仿真的物体进行精确的建模处理,虽然能够获得较多合成数据,但前期建模搭建仿真环境花费的时间太多。基于小样本学习的方法不依赖大规模的数据集,仅制作几张带有注释的示例用于训练网络。训练数据稀少时,网络往往会由于这些少量数据的有偏分布而出现过拟合现象,拟合到真实场景下进行测试时,效果往往会很差。现有的基于小样本学习的目标检测方法用于实际生活中预测精度太低,达不到工业场景下的任务要求。
发明内容
发明目的:随着人工智能技术的快速发展,机器人已被用于工业生产中以处理重复、单调的工作。机器人每次应用于一个新的场景需要重新对其目标检测网络进行训练,人为采集训练数据通常不能涵盖多种零件的排列情况,并且人工标注工作也非常耗时耗力。本发明是这类操作的前提和基础,通过在虚拟软件中建立真实工业场景的数字孪生,使用与真实零件几何形状相似的模型进行合成数据采集并自动输出标注信息。先使用小样本目标检测网络在采集的合成数据上进行第一次训练,接着采集几张真实场景下的数据做好标注,仅在这几个示例上进行二次训练微调网络参数,最终使用训练好的目标检测网络帮助智能机器人完成识别、抓取、避障等操作。
为了解决工业场景零件目标检测数据获取困难的问题,本发明提出了一种基于小样本学习和虚拟合成数据结合的目标检测方法,仅使用几张带有标注信息的真实场景图像示例训练网络,自动化完成数据采集和标注工作,避免大量的人工操作,最终网络能够实时检测工业场景中零件的位置和类别信息。
技术方案:一种基于小样本学习和虚拟合成数据的工业零件目标检测方法,先通过虚拟仿真软件制作与真实零件具有相似几何形状的零件合成数据集,通过虚拟仿真软件生成合成数据集,数据集中包含图像数据和每张图像数据所对应的标注信息(深度信息、2D包围框信息、实例分割信息等),整个数据采集过程自动化执行无需繁杂的人工操作。对采集的合成数据集进行数据预处理,将合成数据的图像格式和标注信息转为训练目标检测网络需要的格式,接着对合成数据进行进一步的处理,通过人为设定遮挡率,筛选出小于该遮挡率的标注信息,最后在在这些处理完的合成数据上训练基于小样本学习的目标检测网络,使网络获得在合成数据上检测的能力。采集真实工业场景下几张包含零件的零件框图像,对这些真实工业场景的图像进行人工标注,标注完成后对小样本目标检测网络进行二次训练,微调网络的参数,最终用训练的网络实时检测输出当前工业场景所采集的图像中零件的类别和位置。
本发明使用虚拟仿真软件生成合成数据集,其原理是利用计算机图形学和虚拟仿真来进行渲染与标注工作,使用仿真场景与虚拟相机代替真实场景和相机。该方法基于Nvidia Omniverse Isaac Sim软件实现,通过RTX进行实时光线和路径追踪,从而提供逼真的场景图像。使用Isaac Sim平台中自带的简单模型模拟与真实零件几何相似的模型来生成合成数据,对这些合成数据集进行预处理后,使其更加接近真实数据的颜色和排列分布情况。让目标检测网络在合成数据上先进行训练获得提取待检测零件相似几何特征的能力,接着再使用少量带标注信息的真实场景数据进行二次训练,该方法通过迁移学习的方式大大提升了模型的检测精度,仅使用少量真实样本数据就可以达到工业场景下的任务要求。
通过虚拟仿真软件生成合成数据集,在虚拟环境下如何进行模型的搭建,本发明生成合成数据集的方法基于UI界面和程序化自动实现,生成过程可分为静态生成和动态生成两部分。具体虚拟合成数据方法过程为:
对于工业场景,送料箱与箱体中的零件生成是整个场景中最重要的部分,以机器人技术为驱动的智能工厂通常都会在机械臂末端安装相机采集当前送料箱中的实时情况,进而检测零件位置信息实现抓取功能。送料箱生成的目的是为了精确描述工业场景下使用的箱子结构和几何形状,在生成虚拟送料箱之前需要定义用来表示送料箱的结构。送料箱有五个表面,每个面使用Isaac Sim自带的Cube模型渲染合成得到。使用Isaac Sim中提供的示例环境,将仿真好的送料箱加载到虚拟场景中,整个虚拟环境使用模拟光源真实还原室内光照情况。接着进行动态场景生成,选取与工业场景零件几何形状相似的物体,使用Isaac Sim中自带的Circle模型通过微调参数信息,模拟零件的形状几何特征,并对该零件模型添加碰撞、重力、摩擦、光泽等信息使其在虚拟环境中具有真实环境下的物理属性。对该零件模型进行批量复制,复制后的目标对象共享参数。由于工业场景下不同零件之间的关系相对复杂,当虚拟环境生成的场景复杂度较低时,采集到的图像所包含的零件分布情况不足以涵盖真实场景下的分布,往往在训练神经网络的过程中会产生过拟合。为了解决这个问题,需要增加虚拟环境的多样性。本发明使用域随机化方法对复制的零件模型每次生成的位置进行有限制的随机赋值。对零件模型随机生成的位置(x,y,z,w)进行区域限定,其中(x,y,z,w)为一组四元数,用来表示虚拟环境中零件模型的位置、旋转信息。限制零件模型在虚拟环境中只出现在送料箱的范围内,由于物理引擎的支撑,不同的高度可以使每次生成的模型自由落下,下落过程中能够仿真出真实下落过程中出现的碰撞、遮挡等现象,重复多次后进而增加了虚拟环境的多样性,使得生成的数据集可以完成更复杂、更深的神经网络的训练,并减少过拟合情况的发生。
要通过计算机程序实现自动标注,需要对虚拟环境中的每个物体模型进行追踪,这里的物体指的是虚拟仿真软件中,仿真出来的那些模型(比如:虚拟仿真的零件、虚拟仿真的零件框等)。在三维图形引擎中,每个物体都是一个三维模型,三维模型的基本数据结构是以顶点(Vertex)和三角面(Triangular Face)所组成的网格(Mesh)。同一个三维模型可以由不同的网格组成。在三维模型的渲染过程中,可以通过调用图形API的相应函数实现对不同网格进行颜色编码渲染,即忽略光照、材质和其它信息,将该网格光栅化之后的所有像素点以RGB颜色表示。编写好脚本使用可视化窗口对共同父物体的网格进行追踪,并存入最终的标注文件中。在这种真实的虚拟环境中执行数据捕获使我们能够以非常高效的方式大大扩展训练数据数量和多样性,超出了真实场景手动捕获方法所能达到的范围,也避免了手动标注带来的成本。使我们能够获得高质量,模拟真实物理场景的合成数据。
本发明对生成的合成数据信息进行预处理,首先,将先前合成数据集中png格式的图像数据转为jpg格式;接着对合成数据集中的标注信息进行筛选和格式转换,仅将2D包围框这一种标注信息单独提取出来,并保存为xml格式的标注文件,先前合成数据集中的标注信息是以.npy格式文件存储的,这是一个numpy矩阵,该矩阵中包含在小样本目标检测网络训练时用到的标注信息,也包含了一些用不到的信息,对于这些用不到的信息需要丢弃掉,所以需要对该标注信息进行筛选;由于当前合成数据集中每张图像的标注信息是将图像中每个物体都输出了标注,有些物体存在非常严重的遮挡情况,如果仅用当前转换格式后的图像数据和标注信息进行小样本目标检测网络的训练,最终的效果会导致,检测模型会把严重遮挡的物体也检测出来,并给了一个非常高的预测分数,最终给机器人一个错误的反馈结果,让机器人优先抓取那个严重遮挡的物体,所以需要在当前筛选的2D包围框标注数据基础上进行进一步的标注数据处理。使用标注信息中的2D包围框和实例分割信息进行遮挡关系判断。遮挡情况发生时,一定会存在遮挡物体和被遮挡物体。当实例分割标注信息中两个相邻像素的标注不相同时,表明当前这两个像素各自对应的零件存在遮挡情况。提取这两个零件对应的2D包围框信息,计算它们2D包围框的交集区域。根据当前实例分割标注信息中对应的每个像素点的值判断当前交集区域内属于不同零件的像素点个数,某一个值对应的像素点个数较大的一方为遮挡零件,较少的一方为被遮挡零件。对合成数据集中的图像中所有对象使用上述对比方法进行两两比对后,得出遮挡关系图,该遮挡关系有向图在文件中的表现格式为N×N的方阵(N为当前图像中拥有的物体的数量),若[i,j]处的元素为-1,则代表当前i物体和j物体存在遮挡(i、j为当前图像中不同物体的编号,编号和数量N在最初未预处理的标注信息中可以获得)。接着,针对这些存在遮挡现象的零件,得到它们2D包围框的交集,计算交集中遮挡零件对应的像素点个数计算遮挡率。根据不同工业场景的实际需求,人为设定一个遮挡率,以该遮挡率为阈值对标注数据进行筛选,保留那些不被遮挡或遮挡较少的标注信息,遮挡较少:这个概念是人为给予的,操作人员可以根据实际生产的需要,设定某一物体小于20%遮挡为遮挡较少的情况,也可以对“20%”这个阈值进行修改,这个是不固定的,可根据不同任务的需求进行变换。最后使用一张真实工业场景图片和Reinhard算法对合成数据进行批量色彩迁移,使合成数据集更加贴近真实场景。
本发明使用的检测模型先使用虚拟仿真软件生成与真实零件几何相似的合成数据作为基类数据去训练特征提取网络,使得网络在基类目标上获得提取几何特征的能力。在二次训练过程中使用少量真实样本训练检测网络,并通过对比学习策略微调网络参数。
基类中有足够的数据量,而二次训练中出现的新类别只有有限数量的标记样本。与新类数据相比,基类的分布统计可以更准确地进行估计。考虑到特征分布是高斯分布,则每个类的均值和方差与每个类的语义相似度相关。当两个类的相似程度较高(如相似程度达到预设值)时,则可以将第一训练过程中模型学习到的共性特征从基类转移到新类。本发明提出使用几何相似的合成数据分布校准策略是在特征级别上的,并且与任何特征提取器无关。
在目标检测模型网络结构中,本发明使用Faster-RCNN两阶段检测框架作为骨干网络。RPN将主干特征图作为输入并生成区域提议,然后RoI对每个候选区域进行分类,如果当前候选区域中包含前景物体,则回归边界框。一般检测器无法从有限的数据中为区域提议建立具有鲁棒性的特征表示,这会导致错误的标记局部对象,最终网络的检测精度不理想。为了从更少的数据中学习更稳健的对象特征表示,本发明使用对比学习策略来区分实例级类内相似性和类间区别。
本发明在Faster-RCNN网络中的ROI部分引入了一个对比分支,与分类和回归分支平行。对比分支实现为一层多层感知器(MLP),将ROI特征编码作为对比特征后测量对象提议表示之间的相似性分数,基于MLP-Head编码的ROI特征优化对比目标以最大限度地提高来自同一类别的目标提案之间的一致性,并提高来自不同类别的提案的独特性。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法的计算机程序。
有益效果:与现有的技术相比,本发明提供的方法能够解决工业场景下数据采集问题,相比同类型方法拥有较高的检测精度。当机器人工厂面对新应用场景和新型零件数据时,无需前期大量数据采集和人工标注工作,大幅节省了适配时间,提高了工作效率,进而提高工厂的生产效率。
目标检测模型使用的计算机资源较少,能耗较低,并且模型的训练相对简单,容易为初学者提供快速上手的机会。同时,本***为端到端的结构,无复杂的多阶段调控工作,因此,人力成本较低。在未来人工智能与实际生产相结合发展的大环境下,有着非常开阔和长远的应用前景。
附图说明
图1是本发明实施例的方法流程图;
图2是本发明实施例的虚拟仿真场景示意图;
图3是本发明实施例的虚拟合成数据生成流程图;
图4是本发明实施例的HV8圆形零件合成数据示意图图;
图5是本发明实施例的小样本目标检测网络原理图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于小样本学习和虚拟合成数据的工业零件目标检测方法,图1的流程是本发明提出的方法流程。先通过虚拟仿真软件制作与真实零件具有相似几何形状的零件合成数据集,同时输出对应图像的标注信息,整个数据采集过程自动化执行无需繁杂的人工操作。对采集的合成数据进行数据预处理,将其图像格式和标注信息转为训练目标检测网络需要的格式,并根据实际工业场景确定遮挡率,筛选出遮挡率小于该阈值的零件,接着在这些合成数据上训练基于小样本学习的目标检测网络,使网络获得在合成数据上检测的能力。采集真实工业场景下的图像(1~10张),仅包含10个实例即可。使用LabelMe工具对这些图像进行人工标注,标注完成后对检测网络进行二次训练,微调网络的参数,最终训练的网络实时检测输出当前工业场景中零件的类别和位置。
本发明使用虚拟软件生成合成数据集,其原理是利用计算机图形学和虚拟仿真来进行渲染与标注工作,使用仿真场景与虚拟相机代替真实场景和相机。该方法基于NvidiaOmniverse Isaac Sim软件实现,Isaac Sim是NVIDIA开发的机器人仿真平台,支持多平台开发和优化,可通过RTX进行实时光线和路径追踪,从而提供逼真的图像。由于Isaac Sim使用了实时光线追踪技术,如图2所示,仿真场景中的光照及物体反射都十分真实,真实的环境可以为摄像头积累大量有价值的数据。由于是在仿真环境中,每个物体的位置和姿态都存储在计算机中,物体的数据可以方便的获取,使我们获得大量带标签的数据,方便进行物体的检测、识别和分割。然而使用此方法的前提是必须获取待生成零件的精确CAD模型,在真实工业场景中,同一型号的不同零件之间也会存在一定差异,因此获取精确CAD模型存在一定困难。本发明提出的基于小样本学***台中自带的简单模型模拟待生成零件的大致几何形状来生成数据,对这些合成数据进行预处理后,使其更加接近真实数据的颜色和排列分布情况。让检测网络在合成数据上先进行训练获得能提取与待检测零件相似几何特征的能力,接着再使用少量带标注信息的真实场景数据进行二次训练,该方法通过迁移学习的方式大大提升了模型的检测精度,仅使用少量真实样本数据就可以达到工业场景下的任务要求。
本发明生成合成数据集的方法基于UI界面和程序化自动实现,生成过程可分为静态生成和动态生成两部分。具体虚拟合成数据方法过程如图3所示:
对于工业场景,送料箱与箱体中的零件生成是整个场景中最重要的部分,以机器人技术为驱动的智能工厂通常都会在机械臂末端安装相机采集当前送料箱中的实时情况,进而检测零件位置信息实现抓取功能。送料箱生成的目的是为了精确描述工业场景下使用的箱子结构和几何形状,在生成虚拟送料箱之前需要定义用来表示送料箱的结构。送料箱有五个表面,每个面使用Isaac Sim自带的Cube模型渲染合成得到。使用Isaac Sim中提供的示例环境,将仿真好的送料箱加载到虚拟场景中,整个虚拟环境使用模拟光源真实还原室内光照情况。接着进行动态场景生成,选取与工业场景零件几何形状相似的物体(以HV8圆形零件为例),使用Isaac Sim中自带的Circle模型通过微调参数信息,模拟HV8圆形零件的圆形几何特征,并对该模型添加碰撞、重力、摩擦、光泽等信息使其在虚拟环境中具有真实环境下的物理属性。对该圆形模型进行批量复制,复制后的目标对象共享参数。由于工业场景下不同零件之间的关系相对复杂,当虚拟环境生成的场景复杂度较低时,采集到的图像所包含的零件分布情况不足以涵盖真实场景下的分布,往往在训练神经网络的过程中会产生过拟合。为了解决这个问题,需要增加虚拟环境的多样性。本发明使用域随机化方法对复制的模型每次生成的位置进行有限制的随机赋值。对随机生成的位置(x,y,z,w)进行区域限定,限制模型只出现在送料箱的范围内,由于物理引擎的支撑,不同的高度可以使每次生成的模型自由落下,下落过程中能够仿真出真实下落过程中出现的碰撞、遮挡等现象,重复多次后进而增加了虚拟环境的多样性,使得生成的数据集可以完成更复杂、更深的神经网络的训练,并减少过拟合情况的发生。
要通过计算机程序实现自动标注,需要对虚拟环境中的每个物体进行追踪。在三维图形引擎中,每个物体都是一个三维模型,三维模型的基本数据结构是以顶点(Vertex)和三角面(Triangular Face)所组成的网格(Mesh)。同一个三维模型可以由不同的网格组成。在三维模型的渲染过程中,可以通过调用图形API的相应函数实现对不同网格进行颜色编码渲染,即忽略光照、材质和其它信息,将该网格光栅化之后的所有像素点以RGB颜色表示。编写好脚本使用可视化窗口对共同父物体的网格进行追踪,并存入最终的标注文件中。在这种真实的虚拟环境中执行数据捕获使我们能够以非常高效的方式大大扩展训练数据数量和多样性,超出了真实场景手动捕获方法所能达到的范围,也避免了手动标注带来的成本。使我们能够获得高质量,模拟真实物理场景的合成数据。图4为本发明使用上述方法采集的合成数据集(以HV8圆形零件为例)。
在现实场景中,人类抓取物体通常是先抓取最上层无遮挡物体,机器人抓取也一样,如果盲目抓取存在遮挡的物体会影响机器人的抓取成功率,同时机器人夹爪与遮挡环境中其他物体的碰撞也会对精密夹爪造成损害。如果直接使用所有物体的2D包围框数据对深度神经网络进行训练会导致检测网络预测的最佳抓取对象误判为存在遮挡的物体,因此为了提升***的环境感知能力,本发明对生成的合成数据信息进行预处理,使用2D包围框和实例分割信息进行遮挡关系判断。遮挡情况发生时,一定会存在遮挡物体和被遮挡物体。当实例分割标注信息中两个相邻像素的标注不相同时,表明当前这两个像素各自对应的零件存在遮挡情况。提取这两个零件对应的2D包围框信息,计算它们2D包围框的交集区域。根据像素点的标注信息判断当前交集区域内属于不同零件的像素点个数,较大的一方为遮挡零件,较少的一方为被遮挡零件。对图像中所有对象进行两两比对后,得出遮挡关系图。接着,针对这些存在遮挡现象的零件,得到它们2D包围框的交集,计算交集中遮挡零件对应的像素点个数计算遮挡率。根据遮挡率对标注数据进行筛选,保留那些不被遮挡或遮挡较少的标注信息。最后使用一张真实工业场景图片和Reinhard算法对合成数据进行批量色彩迁移,使合成数据集更加贴近真实场景。
本发明提出的基于小样本学习的目标检测方法如图5所示:本发明使用的检测模型先使用虚拟仿真软件生成与真实零件几何相似的合成数据作为基类数据去训练特征提取网络,使得网络在基类目标上获得提取几何特征的能力。在二次训练过程中使用少量真实样本训练检测网络,并通过对比学习策略微调网络参数。
基类中有足够的数据量,而新类中只有有限数量的标记样本。与新类数据相比,基类的分布统计可以更准确地进行估计。考虑到特征分布是高斯分布,则每个类的均值和方差与每个类的语义相似度相关。当两个类的相似程度较高时,则可以将统计信息从基类转移到新类。本发明提出使用几何相似的合成数据分布校准策略是在特征级别上的,并且与任何特征提取器无关。
在网络结构中,本发明使用Faster-RCNN两阶段检测框架作为骨干网络。RPN将主干特征图作为输入并生成区域提议,然后RoI对每个区域提议进行分类,如果预测包含对象,则回归边界框。一般检测器无法从有限的数据中为区域提议建立具有鲁棒性的特征表示,这会导致错误的标记局部对象,最终网络的检测精度不理想。为了从更少的数据中学习更稳健的对象特征表示,本发明使用对比学习策略来区分实例级类内相似性和类间区别。
本发明在Faster-RCNN网络中的ROI部分引入了一个对比分支,与分类和回归分支平行。对比分支实现为一层多层感知器(MLP),将ROI特征编码为对比特征后测量对象提议表示之间的相似性分数,基于MLP-Head编码的ROI特征优化对比目标以最大限度地提高来自同一类别的目标提案之间的一致性,并提高来自不同类别的提案的独特性。
本发明是计算机视觉和智能机器人图像处理等跨多领域的整合与应用。与现有的技术相比,具有实际的应用能力,能够解决工业场景下数据采集问题,相比同类型方法拥有较高的检测精度。当机器人工厂面对新应用场景和新型零件数据时,无需前期大量数据采集和人工标注工作,大幅节省了适配时间,提高了工作效率,进而提高工厂的生产效率。
本研究整体配置在Intel i9-10940X CPU、运行内存为48GB的NVIDIA RTX A8000的电脑上,算法全部使用Python实现,能够在多个平台与不同硬件配置上实现部署。模型使用的计算机资源较少,能耗较低,并且模型的训练相对简单,容易为初学者提供快速上手的机会。同时,本***为端到端的结构,无复杂的多阶段调控工作,因此,人力成本较低。在未来人工智能与实际生产相结合发展的大环境下,本研究有着非常开阔和长远的应用前景和提升空间。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于小样本学习和虚拟合成数据的工业零件目标检测方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种基于小样本学习和虚拟合成数据的工业零件目标检测方法,其特征在于,先通过虚拟仿真软件生成合成数据集,数据集中包含图像数据和每张图像数据所对应的标注信息;对合成数据集先进行数据预处理,将合成数据的图像格式和标注信息转为训练小样本目标检测网络需要的格式,接着对合成数据进行进一步的处理,通过人为设定遮挡率,筛选出小于该遮挡率的标注信息,最后在这些处理完的合成数据上训练基于小样本学习的目标检测网络;采集真实工业场景下包含零件的零件框图像,对这些真实工业场景的图像进行标注,标注完成后对小样本目标检测网络进行二次训练,最终用训练的网络实时检测输出当前场景所采集的图像中零件的类别和位置。
2. 根据权利要求1所述的基于小样本学***台中自带的模型模拟与真实零件几何相似的模型来生成合成数据。
3. 根据权利要求1所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法,其特征在于,通过虚拟仿真软件生成合成数据集,在虚拟环境下如何进行模型的搭建,包括生成相机和送料箱及其内部零件;在生成虚拟送料箱之前需要定义用来表示送料箱的结构;送料箱有五个表面,每个面使用Isaac Sim自带的Cube模型渲染合成得到;使用IsaacSim中提供的示例环境,将仿真好的送料箱加载到虚拟场景中,整个虚拟环境使用模拟光源真实还原室内光照情况;接着进行动态场景生成,选取与工业场景零件几何形状相似的物体,使用Isaac Sim中自带的Circle模型通过微调参数信息,模拟零件的形状几何特征,并对该零件模型添加碰撞、重力、摩擦、光泽信息使其在虚拟环境中具有真实环境下的物理属性;对该零件模型进行批量复制,复制后的目标对象共享参数;使用域随机化方法对复制的零件模型每次生成的位置进行有限制的随机赋值;对随机生成的位置(x,y,z,w)进行区域限定,限制零件模型只出现在送料箱的范围内,由于物理引擎的支撑,不同的高度可以使每次生成的模型自由落下,下落过程中能够仿真出真实下落过程中出现的碰撞、遮挡现象,重复多次后进而增加了虚拟环境的多样性。
4.根据权利要求1所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法,其特征在于,对生成的合成数据信息进行预处理,首先,将先前合成数据集中图像数据转为所需格式;接着对合成数据集中的标注信息进行筛选和格式转换,仅将2D包围框这一种标注信息单独提取出来,并保存为xml格式的标注文件。
5.根据权利要求4所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法,其特征在于,首先,使用标注信息中的2D包围框和实例分割信息进行遮挡关系判断,遮挡情况发生时,一定会存在遮挡物体和被遮挡物体,当实例分割标注信息中两个相邻像素的标注不相同时,表明当前这两个像素各自对应的零件存在遮挡情况,提取这两个零件对应的2D包围框信息,计算它们2D包围框的交集区域;根据当前实例分割标注信息中对应的每个像素点的标注信息判断当前交集区域内属于不同零件的像素点个数,较大的一方为遮挡零件,较少的一方为被遮挡零件;对合成数据集中的图像中所有对象使用上述比对方法进行两两比对后,得出遮挡关系图,该遮挡关系图在文件中的表现格式为N×N的方阵,N为当前图像中拥有的物体的数量,若[i,j]处的元素为-1,则代表当前i物体和j物体存在遮挡;
接着,针对存在遮挡现象的零件,得到它们2D包围框的交集,计算交集中遮挡零件对应的像素点个数计算遮挡率;根据不同工业场景的实际需求,人为设定一个遮挡率,以该遮挡率为阈值对标注数据进行筛选,保留那些不被遮挡或遮挡较少的标注信息;
最后使用一张真实工业场景图片和Reinhard算法对合成数据进行批量色彩迁移,使合成数据集更加贴近真实场景。
6.根据权利要求1所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法,其特征在于,先使用虚拟仿真软件生成与真实零件几何相似的合成数据作为基类数据去训练特征提取网络,使得网络在基类目标上获得提取几何特征的能力,在二次训练过程中使用真实样本训练检测网络,并通过对比学习策略微调网络参数。
7.根据权利要求6所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法,其特征在于,二次训练过程中,当两个类的相似程度达到预设值时,则将第一训练过程中模型学习到的共性特征从基类转移到新类。
8.根据权利要求6所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法,其特征在于,在目标检测模型网络结构中,使用Faster-RCNN两阶段检测框架作为骨干网络;RPN将主干特征图作为输入并生成区域提议,然后RoI对每个区域提议进行分类,如果预测包含对象,当前提议区域内存在前景物体,则回归边界框;使用对比学习策略来区分实例级类内相似性和类间区别;
在Faster-RCNN网络中的ROI部分引入了一个对比分支,与分类和回归分支平行;对比分支实现为一层多层感知器,将 ROI 特征编码作为对比特征后测量对象提议表示之间的相似性分数,基于 MLP-Head 编码的 ROI 特征优化对比目标以最大限度地提高来自同一类别的目标提案之间的一致性。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的基于小样本学习和虚拟合成数据的工业零件目标检测方法的计算机程序。
CN202310274497.5A 2023-03-21 2023-03-21 基于小样本学习和虚拟合成数据的工业零件目标检测方法 Active CN116363085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310274497.5A CN116363085B (zh) 2023-03-21 2023-03-21 基于小样本学习和虚拟合成数据的工业零件目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310274497.5A CN116363085B (zh) 2023-03-21 2023-03-21 基于小样本学习和虚拟合成数据的工业零件目标检测方法

Publications (2)

Publication Number Publication Date
CN116363085A true CN116363085A (zh) 2023-06-30
CN116363085B CN116363085B (zh) 2024-01-12

Family

ID=86912998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310274497.5A Active CN116363085B (zh) 2023-03-21 2023-03-21 基于小样本学习和虚拟合成数据的工业零件目标检测方法

Country Status (1)

Country Link
CN (1) CN116363085B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130110804A1 (en) * 2011-10-31 2013-05-02 Elwha LLC, a limited liability company of the State of Delaware Context-sensitive query enrichment
KR20140085964A (ko) * 2012-12-28 2014-07-08 한국항공우주연구원 항공기에서 촬영되는 항공 영상을 이용하는 지형 변화 탐지 장치 및 방법
CN104359404A (zh) * 2014-11-24 2015-02-18 南京航空航天大学 飞机零件上大量小尺寸导孔的快速视觉检测方法
WO2018045472A1 (en) * 2016-09-08 2018-03-15 Polyvalor, Limited Partnership Object analysis in images using electric potentials and electric fields
CN110400315A (zh) * 2019-08-01 2019-11-01 北京迈格威科技有限公司 一种缺陷检测方法、装置及***
CN112150575A (zh) * 2020-10-30 2020-12-29 深圳市优必选科技股份有限公司 场景数据获取方法及模型训练方法、装置及计算机设备
EP3886046A1 (en) * 2020-03-26 2021-09-29 Sony Group Corporation Multi-view positioning using reflections
CN113763569A (zh) * 2021-08-30 2021-12-07 之江实验室 一种在三维仿真中使用的图像标注方法及装置、电子设备
CN113781415A (zh) * 2021-08-30 2021-12-10 广州大学 一种x射线图像的缺陷检测方法、装置、设备及介质
CN113822368A (zh) * 2021-09-29 2021-12-21 成都信息工程大学 一种基于无锚的增量式目标检测方法
CN114612393A (zh) * 2022-02-25 2022-06-10 哈尔滨工业大学(深圳) 一种基于单目视觉的反光零件位姿估计方法
CN114952809A (zh) * 2022-06-24 2022-08-30 中国科学院宁波材料技术与工程研究所 工件识别和位姿检测方法、***及机械臂的抓取控制方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130110804A1 (en) * 2011-10-31 2013-05-02 Elwha LLC, a limited liability company of the State of Delaware Context-sensitive query enrichment
KR20140085964A (ko) * 2012-12-28 2014-07-08 한국항공우주연구원 항공기에서 촬영되는 항공 영상을 이용하는 지형 변화 탐지 장치 및 방법
CN104359404A (zh) * 2014-11-24 2015-02-18 南京航空航天大学 飞机零件上大量小尺寸导孔的快速视觉检测方法
WO2018045472A1 (en) * 2016-09-08 2018-03-15 Polyvalor, Limited Partnership Object analysis in images using electric potentials and electric fields
CN110400315A (zh) * 2019-08-01 2019-11-01 北京迈格威科技有限公司 一种缺陷检测方法、装置及***
EP3886046A1 (en) * 2020-03-26 2021-09-29 Sony Group Corporation Multi-view positioning using reflections
CN112150575A (zh) * 2020-10-30 2020-12-29 深圳市优必选科技股份有限公司 场景数据获取方法及模型训练方法、装置及计算机设备
CN113763569A (zh) * 2021-08-30 2021-12-07 之江实验室 一种在三维仿真中使用的图像标注方法及装置、电子设备
CN113781415A (zh) * 2021-08-30 2021-12-10 广州大学 一种x射线图像的缺陷检测方法、装置、设备及介质
CN113822368A (zh) * 2021-09-29 2021-12-21 成都信息工程大学 一种基于无锚的增量式目标检测方法
CN114612393A (zh) * 2022-02-25 2022-06-10 哈尔滨工业大学(深圳) 一种基于单目视觉的反光零件位姿估计方法
CN114952809A (zh) * 2022-06-24 2022-08-30 中国科学院宁波材料技术与工程研究所 工件识别和位姿检测方法、***及机械臂的抓取控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
H. BORSTELL ET AL.: "Towards Virtual Commissioning of Image-based Information Systems for State Detection in Logistics", 《IFAC-PAPERSONLINE》 *
晏超: "基于深度神经网络的遮挡目标的检测与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN116363085B (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
Wang et al. Data-driven based tiny-YOLOv3 method for front vehicle detection inducing SPP-net
CN109800864B (zh) 一种基于图像输入的机器人主动学习方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN104732208A (zh) 基于稀疏子空间聚类的视频人体行为识别方法
Zelener et al. Cnn-based object segmentation in urban lidar with missing points
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN108274476B (zh) 一种人形机器人抓取球体的方法
CN117437382B (zh) 一种数据中心部件的更新方法及***
Mirani et al. Object recognition in different lighting conditions at various angles by deep learning method
Naseer et al. Multimodal Objects Categorization by Fusing GMM and Multi-layer Perceptron
Dittrich et al. Pixelwise object class segmentation based on synthetic data using an optimized training strategy
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN116363085B (zh) 基于小样本学习和虚拟合成数据的工业零件目标检测方法
CN116994049A (zh) 全自动针织横机及其方法
CN113255514B (zh) 基于局部场景感知图卷积网络的行为识别方法
Ramasamy et al. Object detection and tracking in video using deep learning techniques: A review
CN114882214A (zh) 一种基于深度学习从图像预测物体抓取顺序的方法
Sarkale et al. A Literature Survey: Neural Networks for object detection
Beknazarova et al. Machine learning algorithms are used to detect and track objects on video images
Laupheimer et al. Deep Learning for the Classification of Building Facades
Sahay et al. Multi-Object Detection and Tracking Using Machine Learning
Jonschkowski et al. Towards object detection from motion
O’Brien et al. Computer Vision Concepts and Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant