CN116721419A

CN116721419A - 结合视觉大模型sam的辅助标注方法

Info

Publication number: CN116721419A
Application number: CN202310767430.5A
Authority: CN
Inventors: 栾博恒; 吕宽; 李雨雨; 徐楚量
Original assignee: Godes Hangzhou Intelligent Technology Co ltd
Current assignee: Godes Hangzhou Intelligent Technology Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-08

Abstract

本发明公开了结合视觉大模型SAM的辅助标注方法，包括如下步骤：步骤a、图片分割；步骤b、根据鼠标坐标计算结果；步骤c、标注框生成；步骤d、确认标注框是否满足要求，若满足要求后，重复步骤b，直至图片全部标注完成。本发明将视觉大模型SAM与传统的标注工具结合，视觉大模型SAM将用户需要标注的图片分割成若干个目标块，再在网页上展示，实现了高效的图像标注过程，降低了人工标注的工作量。而且，通过鼠标悬浮，显示目标块，再通过用户点击提示区域，确立正确的目标块，从鼠标两次以上的点击和位移减少到了一次点击，极大地减少了用户的操作量。

Description

结合视觉大模型SAM的辅助标注方法

技术领域

本发明属于图像处理技术领域，具体涉及结合视觉大模型SAM的辅助标注方法。

背景技术

在现有技术中，针对传统浏览器网页页面只能展现图片，或者画布(canvas)只提供的基本的图形绘制，不便于操作图片进行图片编辑以及页面图片绘制工作，也无法和鼠标进行联动操作。尤其在深度学习领域，需要对图形进行坐标记录以及标注等。

如现有技术公开了名称为网页图像标注方法、装置、电子设备及存储介质(申请公布号：CN112346809A)的发明专利，由于可以实现操作事件与操作画布的联动，通过操作事件对操作画布中的多个目标对象进行图形标注之后，同时还可以实时记录目标对象的坐标信息，能够方便快捷的对操作画布中的图片进行操作。

然而，在现有标注的方案中，对于大批量、重复性高的图像数据，一般需要人工完成对所有数据的标注，人工标注时，需要用户手动拖拽拉框，存在以下技术问题：画出来的框是一个不适合AI学习的状态，需要反复微调修改大小至合适，需要花费较多的时间去反复与修正标注框，才能让AI更好地识别与学习，标注过程对于人工的依赖较大，且多为重复性工作，效率较低。

发明内容

本发明目的在于解决现有技术中存在的上述技术问题，提供结合视觉大模型SAM的辅助标注方法，实现了高效的图像标注过程，降低了人工标注的工作量。

为了解决上述技术问题，本发明采用如下技术方案：

结合视觉大模型SAM的辅助标注方法，其特征在于包括如下步骤：

步骤a、图片分割：用户打开图片标注工具，通过视觉大模型SAM，将用户需要标注的图片分割成若干个图像嵌入掩码，并整合生成一个能在网页端展示的模型。

步骤b、根据鼠标坐标计算结果：解码模型，从而找到符合鼠标位置的目标块，并展示在网页上，用户通过鼠标悬浮，产生提示区域，通过用户点击提示区域，确立正确的目标块。

步骤c、标注框生成：根据用户点击正确的目标块，显示的目标块的坐标和长宽生成一个标注框来包裹这个目标块。

步骤d、确认标注框是否满足要求，若满足要求后，重复步骤b，直至图片全部标注完成。

进一步，视觉大模型包括编码器和解码器，对图片分割具体为：(1)采用编码器提取图像特征；(2)采用解码器将特征图恢复到原始图像大小，并生成分割结果。

进一步，视觉大模型使用了一种基于交叉熵的多任务损失函数，其中包括像素级别的分类损失和边界框级别的回归损失。分类损失用于衡量每个像素所属类别，回归损失则用于调整每个像素的边界框位置。

进一步，视觉大模型采用数据增强模块，数据增强模块包括随机旋转、缩放、裁剪、翻转，以及颜色空间变换和噪声添加。

进一步，视觉大模型使用预训练模型作为编码器的初始权重，用于加速模型训练和提高分割精度。

进一步，预训练模型使用了MAE和ViT进行预训练。

进一步，将视觉大模型切割图片处理成embedding模型文件，再利用onnx运行embedding模型文件，去处理该模型文件，根据鼠标坐标获取对应的mask，将mask解码转成图片文件，图片文件为目标块，然后覆盖在原图对应位置。

进一步，提示区域为一个覆盖标注目标的蓝色区域，通过鼠标滚轮切换蓝色区域的大小，进行调整，通过鼠标坐标寻找到符合的若干个目标块并组装成数组，让用户通过滚轮来切换数组展示的目标块。

本发明由于采用了上述技术方案，具有以下有益效果：

本发明将视觉大模型SAM与传统的标注工具结合，视觉大模型SAM将用户需要标注的图片分割成若干个目标块，再在网页上展示，实现了高效的图像标注过程，降低了人工标注的工作量。

本发明通过鼠标悬浮，显示目标块，再通过用户点击提示区域，确立正确的目标块，从鼠标两次以上的点击和位移减少到了一次点击，极大地减少了用户的操作量。

附图说明

下面结合附图对本发明作进一步说明：

图1为本发明操作流程图；

图2为本发明处于鼠标悬浮时的图像；

图3为本发明处于标注框生成时的图形。

具体实施方式

如图1至图3所示，为本发明结合视觉大模型SAM的辅助标注方法，其将视觉大模型中的SAM(segement anything model)与传统的标注工具结合，实现了高效的图像标注过程，降低了人工标注的工作量。

结合视觉大模型SAM的辅助标注方法，包括如下步骤：

步骤a、图片分割：用户打开图片标注工具，本发明抽取十张图，通过视觉大模型SAM切割十张图，将用户需要标注的图片分割成若干个图像嵌入掩码，并整合生成一个能在网页端通过onnx调用的embedding模型文件。

其中，视觉大模型包括编码器和解码器，其中编码器部分由多个卷积层和池化层组成，用于提取图像特征；解码器部分则由多个反卷积层和上采样层组成，用于将特征图恢复到原始图像大小，并生成分割结果。具体如下如下：

编码器：由多个卷积层和池化层组成，用于提取图像特征。每个卷积层通常包括卷积核、激活函数和批归一化等操作，用于对输入图像进行特征提取和降维。池化层则用于对特征图进行下采样，以减少计算量和内存消耗。

解码器：由多个反卷积层和上采样层组成，用于将特征图恢复到原始图像大小，并生成分割结果。每个反卷积层通常包括反卷积核、激活函数和批归一化等操作，用于对特征图进行上采样和特征融合。上采样层则用于对特征图进行上采样，以恢复原始图像大小。

损失函数：视觉大模型使用了一种基于交叉熵的多任务损失函数，其中包括了像素级别的分类损失和边界框级别的回归损失。分类损失用于衡量每个像素属于哪个类别(如前景或背景)，回归损失则用于调整每个像素的边界框位置，以更好地匹配目标。

数据增强：为了提高模型的鲁棒性和泛化能力，视觉大模型采用了多种数据增强技术，如随机旋转、缩放、裁剪、翻转等，以及颜色空间变换和噪声添加等。

预训练模型：为了加速模型训练和提高分割精度视觉大模型通常会使用预训练的图像分类模型作为编码器的初始权重，以便更好地提取图像特征，预训练模型使用了MAE和ViT进行预训练。

步骤b、根据鼠标坐标计算结果：利用onnx运行embedding模型文件，去处理该模型文件，根据鼠标坐标获取对应的mask，将mask解码转成图片文件，图片文件为目标块，然后覆盖在原图对应位置，并展示在网页上。用户通过鼠标悬浮，产生提示区域，提示区域为一个覆盖标注目标的蓝色区域，通过鼠标滚轮切换蓝色区域的大小，进行调整，通过鼠标坐标寻找到符合的若干个目标块并组装成数组，让用户通过滚轮来切换数组展示的目标块。当符合用户需求时，用户点击提示区域，确立正确的目标块。

步骤d、确认标注框是否满足要求，若满足要求后，重复步骤b，直至图片全部标注完成。若不满足要求，进行删除，或者切换选择工具微调。

以上仅为本发明的具体实施例，但本发明的技术特征并不局限于此。任何以本发明为基础，为解决基本相同的技术问题，实现基本相同的技术效果，所作出的简单变化、等同替换或者修饰等，皆涵盖于本发明的保护范围之中。

Claims

1.结合视觉大模型SAM的辅助标注方法，其特征在于包括如下步骤：

步骤a、图片分割：

用户打开图片标注工具，通过视觉大模型SAM，将用户需要标注的图片分割成若干个图像嵌入掩码，并整合生成一个能在网页端展示的模型；

步骤b、根据鼠标坐标计算结果：

解码模型，从而找到符合鼠标位置的目标块，并展示在网页上，用户通过鼠标悬浮，产生提示区域，通过用户点击提示区域，确立正确的目标块；

步骤c、标注框生成：

根据用户点击正确的目标块，显示的目标块的坐标和长宽生成一个标注框来包裹这个目标块。

2.根据权利要求1所述的结合视觉大模型SAM的辅助标注方法，其特征在于：视觉大模型包括编码器和解码器，对图片分割具体为：

(1)采用编码器提取图像特征；

(2)采用解码器将特征图恢复到原始图像大小，并生成分割结果。

3.根据权利要求2所述的结合视觉大模型SAM的辅助标注方法，其特征在于：视觉大模型使用了一种基于交叉熵的多任务损失函数，其中包括像素级别的分类损失和边界框级别的回归损失；

分类损失用于衡量每个像素所属类别，回归损失则用于调整每个像素的边界框位置。

4.根据权利要求2所述的结合视觉大模型SAM的辅助标注方法，其特征在于：视觉大模型采用数据增强模块，数据增强模块包括随机旋转、缩放、裁剪、翻转，以及颜色空间变换和噪声添加。

5.根据权利要求2所述的结合视觉大模型SAM的辅助标注方法，其特征在于：视觉大模型使用预训练模型作为编码器的初始权重，用于加速模型训练和提高分割精度。

6.根据权利要求5所述的结合视觉大模型SAM的辅助标注方法，其特征在于：预训练模型使用了MAE和ViT进行预训练。

7.根据权利要求1所述的结合视觉大模型SAM的辅助标注方法，其特征在于：将视觉大模型切割图片处理成embedding模型文件，再利用onnx运行embedding模型文件，去处理该模型文件，根据鼠标坐标获取对应的mask，将mask解码转成图片文件，图片文件为目标块，然后覆盖在原图对应位置。

8.根据权利要求1所述的结合视觉大模型SAM的辅助标注方法，其特征在于：提示区域为一个覆盖标注目标的蓝色区域，通过鼠标滚轮切换蓝色区域的大小，进行调整，通过鼠标坐标寻找到符合的若干个目标块并组装成数组，让用户通过滚轮来切换数组展示的目标块。