CN116721419A - 结合视觉大模型sam的辅助标注方法 - Google Patents

结合视觉大模型sam的辅助标注方法 Download PDF

Info

Publication number
CN116721419A
CN116721419A CN202310767430.5A CN202310767430A CN116721419A CN 116721419 A CN116721419 A CN 116721419A CN 202310767430 A CN202310767430 A CN 202310767430A CN 116721419 A CN116721419 A CN 116721419A
Authority
CN
China
Prior art keywords
model
large model
sam
target block
visual large
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310767430.5A
Other languages
English (en)
Inventor
栾博恒
吕宽
李雨雨
徐楚量
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Godes Hangzhou Intelligent Technology Co ltd
Original Assignee
Godes Hangzhou Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Godes Hangzhou Intelligent Technology Co ltd filed Critical Godes Hangzhou Intelligent Technology Co ltd
Priority to CN202310767430.5A priority Critical patent/CN116721419A/zh
Publication of CN116721419A publication Critical patent/CN116721419A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了结合视觉大模型SAM的辅助标注方法,包括如下步骤:步骤a、图片分割;步骤b、根据鼠标坐标计算结果;步骤c、标注框生成;步骤d、确认标注框是否满足要求,若满足要求后,重复步骤b,直至图片全部标注完成。本发明将视觉大模型SAM与传统的标注工具结合,视觉大模型SAM将用户需要标注的图片分割成若干个目标块,再在网页上展示,实现了高效的图像标注过程,降低了人工标注的工作量。而且,通过鼠标悬浮,显示目标块,再通过用户点击提示区域,确立正确的目标块,从鼠标两次以上的点击和位移减少到了一次点击,极大地减少了用户的操作量。

Description

结合视觉大模型SAM的辅助标注方法
技术领域
本发明属于图像处理技术领域,具体涉及结合视觉大模型SAM的辅助标注方法。
背景技术
在现有技术中,针对传统浏览器网页页面只能展现图片,或者画布(canvas)只提供的基本的图形绘制,不便于操作图片进行图片编辑以及页面图片绘制工作,也无法和鼠标进行联动操作。尤其在深度学习领域,需要对图形进行坐标记录以及标注等。
如现有技术公开了名称为网页图像标注方法、装置、电子设备及存储介质(申请公布号:CN112346809A)的发明专利,由于可以实现操作事件与操作画布的联动,通过操作事件对操作画布中的多个目标对象进行图形标注之后,同时还可以实时记录目标对象的坐标信息,能够方便快捷的对操作画布中的图片进行操作。
然而,在现有标注的方案中,对于大批量、重复性高的图像数据,一般需要人工完成对所有数据的标注,人工标注时,需要用户手动拖拽拉框,存在以下技术问题:画出来的框是一个不适合AI学习的状态,需要反复微调修改大小至合适,需要花费较多的时间去反复与修正标注框,才能让AI更好地识别与学习,标注过程对于人工的依赖较大,且多为重复性工作,效率较低。
发明内容
本发明目的在于解决现有技术中存在的上述技术问题,提供结合视觉大模型SAM的辅助标注方法,实现了高效的图像标注过程,降低了人工标注的工作量。
为了解决上述技术问题,本发明采用如下技术方案:
结合视觉大模型SAM的辅助标注方法,其特征在于包括如下步骤:
步骤a、图片分割:用户打开图片标注工具,通过视觉大模型SAM,将用户需要标注的图片分割成若干个图像嵌入掩码,并整合生成一个能在网页端展示的模型。
步骤b、根据鼠标坐标计算结果:解码模型,从而找到符合鼠标位置的目标块,并展示在网页上,用户通过鼠标悬浮,产生提示区域,通过用户点击提示区域,确立正确的目标块。
步骤c、标注框生成:根据用户点击正确的目标块,显示的目标块的坐标和长宽生成一个标注框来包裹这个目标块。
步骤d、确认标注框是否满足要求,若满足要求后,重复步骤b,直至图片全部标注完成。
进一步,视觉大模型包括编码器和解码器,对图片分割具体为:(1)采用编码器提取图像特征;(2)采用解码器将特征图恢复到原始图像大小,并生成分割结果。
进一步,视觉大模型使用了一种基于交叉熵的多任务损失函数,其中包括像素级别的分类损失和边界框级别的回归损失。分类损失用于衡量每个像素所属类别,回归损失则用于调整每个像素的边界框位置。
进一步,视觉大模型采用数据增强模块,数据增强模块包括随机旋转、缩放、裁剪、翻转,以及颜色空间变换和噪声添加。
进一步,视觉大模型使用预训练模型作为编码器的初始权重,用于加速模型训练和提高分割精度。
进一步,预训练模型使用了MAE和ViT进行预训练。
进一步,将视觉大模型切割图片处理成embedding模型文件,再利用onnx运行embedding模型文件,去处理该模型文件,根据鼠标坐标获取对应的mask,将mask解码转成图片文件,图片文件为目标块,然后覆盖在原图对应位置。
进一步,提示区域为一个覆盖标注目标的蓝色区域,通过鼠标滚轮切换蓝色区域的大小,进行调整,通过鼠标坐标寻找到符合的若干个目标块并组装成数组,让用户通过滚轮来切换数组展示的目标块。
本发明由于采用了上述技术方案,具有以下有益效果:
本发明将视觉大模型SAM与传统的标注工具结合,视觉大模型SAM将用户需要标注的图片分割成若干个目标块,再在网页上展示,实现了高效的图像标注过程,降低了人工标注的工作量。
本发明通过鼠标悬浮,显示目标块,再通过用户点击提示区域,确立正确的目标块,从鼠标两次以上的点击和位移减少到了一次点击,极大地减少了用户的操作量。
附图说明
下面结合附图对本发明作进一步说明:
图1为本发明操作流程图;
图2为本发明处于鼠标悬浮时的图像;
图3为本发明处于标注框生成时的图形。
具体实施方式
如图1至图3所示,为本发明结合视觉大模型SAM的辅助标注方法,其将视觉大模型中的SAM(segement anything model)与传统的标注工具结合,实现了高效的图像标注过程,降低了人工标注的工作量。
结合视觉大模型SAM的辅助标注方法,包括如下步骤:
步骤a、图片分割:用户打开图片标注工具,本发明抽取十张图,通过视觉大模型SAM切割十张图,将用户需要标注的图片分割成若干个图像嵌入掩码,并整合生成一个能在网页端通过onnx调用的embedding模型文件。
其中,视觉大模型包括编码器和解码器,其中编码器部分由多个卷积层和池化层组成,用于提取图像特征;解码器部分则由多个反卷积层和上采样层组成,用于将特征图恢复到原始图像大小,并生成分割结果。具体如下如下:
编码器:由多个卷积层和池化层组成,用于提取图像特征。每个卷积层通常包括卷积核、激活函数和批归一化等操作,用于对输入图像进行特征提取和降维。池化层则用于对特征图进行下采样,以减少计算量和内存消耗。
解码器:由多个反卷积层和上采样层组成,用于将特征图恢复到原始图像大小,并生成分割结果。每个反卷积层通常包括反卷积核、激活函数和批归一化等操作,用于对特征图进行上采样和特征融合。上采样层则用于对特征图进行上采样,以恢复原始图像大小。
损失函数:视觉大模型使用了一种基于交叉熵的多任务损失函数,其中包括了像素级别的分类损失和边界框级别的回归损失。分类损失用于衡量每个像素属于哪个类别(如前景或背景),回归损失则用于调整每个像素的边界框位置,以更好地匹配目标。
数据增强:为了提高模型的鲁棒性和泛化能力,视觉大模型采用了多种数据增强技术,如随机旋转、缩放、裁剪、翻转等,以及颜色空间变换和噪声添加等。
预训练模型:为了加速模型训练和提高分割精度视觉大模型通常会使用预训练的图像分类模型作为编码器的初始权重,以便更好地提取图像特征,预训练模型使用了MAE和ViT进行预训练。
步骤b、根据鼠标坐标计算结果:利用onnx运行embedding模型文件,去处理该模型文件,根据鼠标坐标获取对应的mask,将mask解码转成图片文件,图片文件为目标块,然后覆盖在原图对应位置,并展示在网页上。用户通过鼠标悬浮,产生提示区域,提示区域为一个覆盖标注目标的蓝色区域,通过鼠标滚轮切换蓝色区域的大小,进行调整,通过鼠标坐标寻找到符合的若干个目标块并组装成数组,让用户通过滚轮来切换数组展示的目标块。当符合用户需求时,用户点击提示区域,确立正确的目标块。
步骤c、标注框生成:根据用户点击正确的目标块,显示的目标块的坐标和长宽生成一个标注框来包裹这个目标块。
步骤d、确认标注框是否满足要求,若满足要求后,重复步骤b,直至图片全部标注完成。若不满足要求,进行删除,或者切换选择工具微调。
以上仅为本发明的具体实施例,但本发明的技术特征并不局限于此。任何以本发明为基础,为解决基本相同的技术问题,实现基本相同的技术效果,所作出的简单变化、等同替换或者修饰等,皆涵盖于本发明的保护范围之中。

Claims (8)

1.结合视觉大模型SAM的辅助标注方法,其特征在于包括如下步骤:
步骤a、图片分割:
用户打开图片标注工具,通过视觉大模型SAM,将用户需要标注的图片分割成若干个图像嵌入掩码,并整合生成一个能在网页端展示的模型;
步骤b、根据鼠标坐标计算结果:
解码模型,从而找到符合鼠标位置的目标块,并展示在网页上,用户通过鼠标悬浮,产生提示区域,通过用户点击提示区域,确立正确的目标块;
步骤c、标注框生成:
根据用户点击正确的目标块,显示的目标块的坐标和长宽生成一个标注框来包裹这个目标块。
步骤d、确认标注框是否满足要求,若满足要求后,重复步骤b,直至图片全部标注完成。
2.根据权利要求1所述的结合视觉大模型SAM的辅助标注方法,其特征在于:视觉大模型包括编码器和解码器,对图片分割具体为:
(1)采用编码器提取图像特征;
(2)采用解码器将特征图恢复到原始图像大小,并生成分割结果。
3.根据权利要求2所述的结合视觉大模型SAM的辅助标注方法,其特征在于:视觉大模型使用了一种基于交叉熵的多任务损失函数,其中包括像素级别的分类损失和边界框级别的回归损失;
分类损失用于衡量每个像素所属类别,回归损失则用于调整每个像素的边界框位置。
4.根据权利要求2所述的结合视觉大模型SAM的辅助标注方法,其特征在于:视觉大模型采用数据增强模块,数据增强模块包括随机旋转、缩放、裁剪、翻转,以及颜色空间变换和噪声添加。
5.根据权利要求2所述的结合视觉大模型SAM的辅助标注方法,其特征在于:视觉大模型使用预训练模型作为编码器的初始权重,用于加速模型训练和提高分割精度。
6.根据权利要求5所述的结合视觉大模型SAM的辅助标注方法,其特征在于:预训练模型使用了MAE和ViT进行预训练。
7.根据权利要求1所述的结合视觉大模型SAM的辅助标注方法,其特征在于:将视觉大模型切割图片处理成embedding模型文件,再利用onnx运行embedding模型文件,去处理该模型文件,根据鼠标坐标获取对应的mask,将mask解码转成图片文件,图片文件为目标块,然后覆盖在原图对应位置。
8.根据权利要求1所述的结合视觉大模型SAM的辅助标注方法,其特征在于:提示区域为一个覆盖标注目标的蓝色区域,通过鼠标滚轮切换蓝色区域的大小,进行调整,通过鼠标坐标寻找到符合的若干个目标块并组装成数组,让用户通过滚轮来切换数组展示的目标块。
CN202310767430.5A 2023-06-26 2023-06-26 结合视觉大模型sam的辅助标注方法 Pending CN116721419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310767430.5A CN116721419A (zh) 2023-06-26 2023-06-26 结合视觉大模型sam的辅助标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310767430.5A CN116721419A (zh) 2023-06-26 2023-06-26 结合视觉大模型sam的辅助标注方法

Publications (1)

Publication Number Publication Date
CN116721419A true CN116721419A (zh) 2023-09-08

Family

ID=87873172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310767430.5A Pending CN116721419A (zh) 2023-06-26 2023-06-26 结合视觉大模型sam的辅助标注方法

Country Status (1)

Country Link
CN (1) CN116721419A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935418A (zh) * 2023-09-15 2023-10-24 成都索贝数码科技股份有限公司 一种三维图文模板自动重组方法、设备及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935418A (zh) * 2023-09-15 2023-10-24 成都索贝数码科技股份有限公司 一种三维图文模板自动重组方法、设备及***
CN116935418B (zh) * 2023-09-15 2023-12-05 成都索贝数码科技股份有限公司 一种三维图文模板自动重组方法、设备及***

Similar Documents

Publication Publication Date Title
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN112163449B (zh) 一种轻量化的多分支特征跨层融合图像语义分割方法
US10614574B2 (en) Generating image segmentation data using a multi-branch neural network
Wang et al. Efficient example-based painting and synthesis of 2d directional texture
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
CN110650368A (zh) 视频处理方法、装置和电子设备
CN111091167B (zh) 标志识别训练数据合成方法、装置、电子设备及存储介质
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN115812221A (zh) 图像生成及着色方法及装置
WO2023212997A1 (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN116721419A (zh) 结合视觉大模型sam的辅助标注方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
CN112381057A (zh) 手写文字识别方法及装置、存储介质、终端
CN115131587A (zh) 一种基于边缘轮廓的梯度向量特征的模板匹配方法
CN111626912A (zh) 水印去除方法及装置
CN112132164B (zh) 目标检测方法、***、计算机装置及存储介质
CN115908753A (zh) 一种全身人体网格表面重建方法及相关装置
CN116070687A (zh) 一种基于全局光线空间仿射变换的神经网络光场表示方法
CN114387346A (zh) 一种图像识别、预测模型处理方法、三维建模方法和装置
CN117934688A (zh) 一种基于高斯泼溅样例的神经表示建模方法
CN111796708B (zh) 一种在触摸屏上再现图像三维形状特征的方法
CN110889854B (zh) 一种基于多尺度深度学习的草图部件分割方法、***、装置及存储介质
CN116703777A (zh) 一种图像处理方法、***、存储介质及电子设备
CN115496829A (zh) 一种基于网页的局部高清影像地图快速制作方法及装置
CN111627098B (zh) 对图像中水流区域识别并生成动态水流视频的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication