CN116704249B

CN116704249B - 基于视觉大模型的相似背景图像归类方法

Info

Publication number: CN116704249B
Application number: CN202310674816.1A
Authority: CN
Inventors: 高利军; 黄泽琪; 罗凡; 胡博; 郭恺
Original assignee: Weisi E Commerce Shenzhen Co ltd
Current assignee: Weisi E Commerce Shenzhen Co ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2024-05-24
Anticipated expiration: 2043-06-07
Also published as: CN116704249A

Abstract

本发明涉及基于视觉大模型的相似背景图像归类方法，包括以下步骤：1）图像编码：对于一张输入图像，首先进行归一化预处理，然后使用预训练好的大模型，仅使用其视觉模块，将预处理的图像编码为一个向量，将其规范化，使。该基于视觉大模型的相似背景图像归类方法，计算效率高，在海量数据集上使用预训练好的模型提取特征，构造相似度矩阵，直接对矩阵进行操作，在内存有限条件下，可将相似度矩阵进行切片，并行计算，图像特征表达能力强，预训练大模型已经在上亿级图像数据上进行了训练，采用（图像，文本）多模态，能够更好的泛化，提出的方法不用事先设定类别数量，可在千万级甚至上亿级别的图像数据库中挑选相同背景的图像。

Description

基于视觉大模型的相似背景图像归类方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种基于视觉大模型的相似背景图像归类方法。

背景技术

相似背景图像归类即将不同视角拍摄的具有同一背景的图像归为一类。接近的技术如图像聚类和图像检索，但又不完全相同，一是图像聚类需要知道具体类别数量，本方法所提及的归类预先并不知道类别数量，二是图像检索是已知一张图像用于检索相似图像，本方法的图像归类是在整个图像数据集中进行归类，并且要求是同一背景。

常见技术通过人工设计特征或者使用深度学习算法提取图像特征，然后使用聚类算法进行归类，比如K-均值聚类等，在千万级甚至上亿级别的图像数据库中，需要将具有相同背景的图像挑选出来，对于人工而言是不可能完成的任务，已有的技术方法，比如基于图像特征进行聚类，其局限在于需要事先假设类别数量已知；图像检索技术已知一张图用于在图像数据库中查找相似图像，无法适用于大量数据集的批量归类。

综上所述，本申请提出基于视觉大模型的相似背景图像归类方法来解决上述问题，且本方法产生于面向商户的电商应用场景，商户入驻需要站在门店前拍照进行审核，本方法用于判断商户是否上传同一门店的多张图片，避免门店虚报。

发明内容

针对现有技术的不足，本发明提供了一种基于视觉大模型的相似背景图像归类方法，具备计算效率高，图像特征表达能力强等优点，解决了已有的技术方法限在于需要事先假设类别数量已知；图像检索技术已知一张图用于在图像数据库中查找相似图像，无法适用于大量数据集的批量归类的问题。

为实现上述目的，本发明提供如下技术方案：基于视觉大模型的相似背景图像归类方法，包括以下步骤：

步骤1）图像编码：对于一张输入图像，首先进行归一化预处理，然后使用预训练好的大模型，仅使用其视觉模块，将预处理的图像编码为一个向量/>，将其规范化，使/>；

步骤2）相似度矩阵构造：设图像库中图像数量为N，则经过上述步骤提取图像特征构造一个特征矩阵，则D与D^T的矩阵乘积/>；

步骤3）对角线归零：由于相似度矩阵S其对角线的值表示图像与其自身的相似度，恒为1，为了后续的计算，将其置为0；

步骤4）阈值过滤：设置阈值t，选定一个方向,列或者行，计算相似度矩阵的最大值，计算/>大于阈值t所有的索引，根据该索引得到新的相似度矩阵/>，这一步操作通常可将D缩减几个数量级；

步骤5）取上三角矩阵并归类图像：将相似度矩阵M变为上三角矩阵，计算其值大于阈值t的行列索引/>，若(xi，yi)与(xj，yj)有相同索引，则归为一类，类标从0开始，依次递增，最后根据索引取得对应图像。

进一步，所述中，h，w分别为图像的高和宽，所述/>中，d为向量维度，取512或768。

进一步，所述步骤2）中S即为相似度矩阵，表示第i张图像与第j张图像的余弦相似度。

与现有技术相比，本申请的技术方案具备以下有益效果：

该基于视觉大模型的相似背景图像归类方法，计算效率高，在海量数据集上使用预训练好的模型提取特征，构造相似度矩阵，直接对矩阵进行操作。在内存有限条件下，可将相似度矩阵进行切片，并行计算，图像特征表达能力强，预训练大模型已经在上亿级图像数据上进行了训练，采用（图像，文本）多模态，能够更好的泛化，提出的方法不用事先设定类别数量，因此可在千万级甚至上亿级别的图像数据库中，需要将具有相同背景的图像挑选出来，且适用于大量数据集的批量归类。

附图说明

图1为本发明方法结构示意图；

图2为本发明相似度矩阵处理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

已有许多基于Transformer^[1]的多模态大模型，如CLIP^[2]、BLIP^[3]、BEiT^[4-6]等，已经在上亿级图像数据集上进行了训练，其视觉模块可以作为优质的特征提取器，因此，使用已经预训练好的大模型，在海量图像数据集上提取特征，基于图像特征计算余弦相似度，根据相似度对图像进行归类，请参阅图1-2，本实施例中的基于视觉大模型的相似背景图像归类方法，包括以下步骤：

步骤4）阈值过滤：设置阈值t，选定一个方向,列或者行，计算相似度矩阵的最大值，计算/>大于阈值t所有的索引，根据该索引得到新的相似度矩阵/>，这一步操作通常可将D缩减几个数量级。

中，h，w分别为图像的高和宽，/>中，d为向量维度，取512或768，步骤2）中S即为相似度矩阵，/>表示第i张图像与第j张图像的余弦相似度。

其中，基于python编程语言和pytorch深度学习框架，包括以下步骤：

S1、加载模型的视觉模块，使用训练好的权重进行初始化。

S2、读取图像，使用列表保存图像名称。

S3、读取图像并归一化预处理，构造合适的批大小，如256（基于具体的显存大小），使用s1中的模型提取图像特征，构造相似度矩阵。

S4、在使用阈值过滤相似度矩阵时，同时根据过滤得到的索引构造新的图像名称列表。

S5、计算得到归类的一系列索引，根据索引从图像列表中获取图像名称。

需要说明的是，本方法产生于面向商户的电商应用场景，商户入驻需要站在门店前拍照进行审核，本方法用于判断商户是否上传同一门店的多张图片，避免门店虚报。

综上，本方法计算效率高，图像特征表达能力强，采用（图像，文本）多模态，能够更好的泛化。

上述实施例的有益效果为：计算效率高，在海量数据集上使用预训练好的模型提取特征，构造相似度矩阵，直接对矩阵进行操作，在内存有限条件下，可将相似度矩阵进行切片，并行计算，图像特征表达能力强，预训练大模型已经在上亿级图像数据上进行了训练，采用（图像，文本）多模态，能够更好的泛化，提出的方法不用事先设定类别数量，因此可在千万级甚至上亿级别的图像数据库中，需要将具有相同背景的图像挑选出来，且适用于大量数据集的批量归类。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于视觉大模型的相似背景图像归类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于视觉大模型的相似背景图像归类方法，其特征在于：所述中，h，w分别为图像的高和宽，所述/>中，d为向量维度，取512或768。

3.根据权利要求1所述的基于视觉大模型的相似背景图像归类方法，其特征在于：所述步骤2）中S即为相似度矩阵，表示第i张图像与第j张图像的余弦相似度。