CN116704249B - 基于视觉大模型的相似背景图像归类方法 - Google Patents

基于视觉大模型的相似背景图像归类方法 Download PDF

Info

Publication number
CN116704249B
CN116704249B CN202310674816.1A CN202310674816A CN116704249B CN 116704249 B CN116704249 B CN 116704249B CN 202310674816 A CN202310674816 A CN 202310674816A CN 116704249 B CN116704249 B CN 116704249B
Authority
CN
China
Prior art keywords
image
matrix
images
large model
similarity matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310674816.1A
Other languages
English (en)
Other versions
CN116704249A (zh
Inventor
高利军
黄泽琪
罗凡
胡博
郭恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weisi E Commerce Shenzhen Co ltd
Original Assignee
Weisi E Commerce Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weisi E Commerce Shenzhen Co ltd filed Critical Weisi E Commerce Shenzhen Co ltd
Priority to CN202310674816.1A priority Critical patent/CN116704249B/zh
Publication of CN116704249A publication Critical patent/CN116704249A/zh
Application granted granted Critical
Publication of CN116704249B publication Critical patent/CN116704249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Algebra (AREA)

Abstract

本发明涉及基于视觉大模型的相似背景图像归类方法,包括以下步骤:1)图像编码:对于一张输入图像,首先进行归一化预处理,然后使用预训练好的大模型,仅使用其视觉模块,将预处理的图像编码为一个向量,将其规范化,使。该基于视觉大模型的相似背景图像归类方法,计算效率高,在海量数据集上使用预训练好的模型提取特征,构造相似度矩阵,直接对矩阵进行操作,在内存有限条件下,可将相似度矩阵进行切片,并行计算,图像特征表达能力强,预训练大模型已经在上亿级图像数据上进行了训练,采用(图像,文本)多模态,能够更好的泛化,提出的方法不用事先设定类别数量,可在千万级甚至上亿级别的图像数据库中挑选相同背景的图像。

Description

基于视觉大模型的相似背景图像归类方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种基于视觉大模型的相似背景图像归类方法。
背景技术
相似背景图像归类即将不同视角拍摄的具有同一背景的图像归为一类。接近的技术如图像聚类和图像检索,但又不完全相同,一是图像聚类需要知道具体类别数量,本方法所提及的归类预先并不知道类别数量,二是图像检索是已知一张图像用于检索相似图像,本方法的图像归类是在整个图像数据集中进行归类,并且要求是同一背景。
常见技术通过人工设计特征或者使用深度学习算法提取图像特征,然后使用聚类算法进行归类,比如K-均值聚类等,在千万级甚至上亿级别的图像数据库中,需要将具有相同背景的图像挑选出来,对于人工而言是不可能完成的任务,已有的技术方法,比如基于图像特征进行聚类,其局限在于需要事先假设类别数量已知;图像检索技术已知一张图用于在图像数据库中查找相似图像,无法适用于大量数据集的批量归类。
综上所述,本申请提出基于视觉大模型的相似背景图像归类方法来解决上述问题,且本方法产生于面向商户的电商应用场景,商户入驻需要站在门店前拍照进行审核,本方法用于判断商户是否上传同一门店的多张图片,避免门店虚报。
发明内容
针对现有技术的不足,本发明提供了一种基于视觉大模型的相似背景图像归类方法,具备计算效率高,图像特征表达能力强等优点,解决了已有的技术方法限在于需要事先假设类别数量已知;图像检索技术已知一张图用于在图像数据库中查找相似图像,无法适用于大量数据集的批量归类的问题。
为实现上述目的,本发明提供如下技术方案:基于视觉大模型的相似背景图像归类方法,包括以下步骤:
步骤1)图像编码:对于一张输入图像,首先进行归一化预处理,然后使用预训练好的大模型,仅使用其视觉模块,将预处理的图像编码为一个向量/>,将其规范化,使/>
步骤2)相似度矩阵构造:设图像库中图像数量为N,则经过上述步骤提取图像特征构造一个特征矩阵,则D与DT的矩阵乘积/>
步骤3)对角线归零:由于相似度矩阵S其对角线的值表示图像与其自身的相似度,恒为1,为了后续的计算,将其置为0;
步骤4)阈值过滤:设置阈值t,选定一个方向,列或者行,计算相似度矩阵的最大值,计算/>大于阈值t所有的索引,根据该索引得到新的相似度矩阵/>,这一步操作通常可将D缩减几个数量级;
步骤5)取上三角矩阵并归类图像:将相似度矩阵M变为上三角矩阵,计算其值大于阈值t的行列索引/>,若(xi,yi)与(xj,yj)有相同索引,则归为一类,类标从0开始,依次递增,最后根据索引取得对应图像。
进一步,所述中,h,w分别为图像的高和宽,所述/>中,d为向量维度,取512或768。
进一步,所述步骤2)中S即为相似度矩阵,表示第i张图像与第j张图像的余弦相似度。
与现有技术相比,本申请的技术方案具备以下有益效果:
该基于视觉大模型的相似背景图像归类方法,计算效率高,在海量数据集上使用预训练好的模型提取特征,构造相似度矩阵,直接对矩阵进行操作。在内存有限条件下,可将相似度矩阵进行切片,并行计算,图像特征表达能力强,预训练大模型已经在上亿级图像数据上进行了训练,采用(图像,文本)多模态,能够更好的泛化,提出的方法不用事先设定类别数量,因此可在千万级甚至上亿级别的图像数据库中,需要将具有相同背景的图像挑选出来,且适用于大量数据集的批量归类。
附图说明
图1为本发明方法结构示意图;
图2为本发明相似度矩阵处理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
已有许多基于Transformer[1]的多模态大模型,如CLIP[2]、BLIP[3]、BEiT[4-6]等,已经在上亿级图像数据集上进行了训练,其视觉模块可以作为优质的特征提取器,因此,使用已经预训练好的大模型,在海量图像数据集上提取特征,基于图像特征计算余弦相似度,根据相似度对图像进行归类,请参阅图1-2,本实施例中的基于视觉大模型的相似背景图像归类方法,包括以下步骤:
步骤1)图像编码:对于一张输入图像,首先进行归一化预处理,然后使用预训练好的大模型,仅使用其视觉模块,将预处理的图像编码为一个向量/>,将其规范化,使/>
步骤2)相似度矩阵构造:设图像库中图像数量为N,则经过上述步骤提取图像特征构造一个特征矩阵,则D与DT的矩阵乘积/>
步骤3)对角线归零:由于相似度矩阵S其对角线的值表示图像与其自身的相似度,恒为1,为了后续的计算,将其置为0;
步骤4)阈值过滤:设置阈值t,选定一个方向,列或者行,计算相似度矩阵的最大值,计算/>大于阈值t所有的索引,根据该索引得到新的相似度矩阵/>,这一步操作通常可将D缩减几个数量级。
步骤5)取上三角矩阵并归类图像:将相似度矩阵M变为上三角矩阵,计算其值大于阈值t的行列索引/>,若(xi,yi)与(xj,yj)有相同索引,则归为一类,类标从0开始,依次递增,最后根据索引取得对应图像。
中,h,w分别为图像的高和宽,/>中,d为向量维度,取512或768,步骤2)中S即为相似度矩阵,/>表示第i张图像与第j张图像的余弦相似度。
其中,基于python编程语言和pytorch深度学习框架,包括以下步骤:
S1、加载模型的视觉模块,使用训练好的权重进行初始化。
S2、读取图像,使用列表保存图像名称。
S3、读取图像并归一化预处理,构造合适的批大小,如256(基于具体的显存大小),使用s1中的模型提取图像特征,构造相似度矩阵。
S4、在使用阈值过滤相似度矩阵时,同时根据过滤得到的索引构造新的图像名称列表。
S5、计算得到归类的一系列索引,根据索引从图像列表中获取图像名称。
需要说明的是,本方法产生于面向商户的电商应用场景,商户入驻需要站在门店前拍照进行审核,本方法用于判断商户是否上传同一门店的多张图片,避免门店虚报。
综上,本方法计算效率高,图像特征表达能力强,采用(图像,文本)多模态,能够更好的泛化。
上述实施例的有益效果为:计算效率高,在海量数据集上使用预训练好的模型提取特征,构造相似度矩阵,直接对矩阵进行操作,在内存有限条件下,可将相似度矩阵进行切片,并行计算,图像特征表达能力强,预训练大模型已经在上亿级图像数据上进行了训练,采用(图像,文本)多模态,能够更好的泛化,提出的方法不用事先设定类别数量,因此可在千万级甚至上亿级别的图像数据库中,需要将具有相同背景的图像挑选出来,且适用于大量数据集的批量归类。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.基于视觉大模型的相似背景图像归类方法,其特征在于,包括以下步骤:
步骤1)图像编码:对于一张输入图像,首先进行归一化预处理,然后使用预训练好的大模型,仅使用其视觉模块,将预处理的图像编码为一个向量/>,将其规范化,使/>
步骤2)相似度矩阵构造:设图像库中图像数量为N,则经过上述步骤提取图像特征构造一个特征矩阵,则D与DT的矩阵乘积/>
步骤3)对角线归零:由于相似度矩阵S其对角线的值表示图像与其自身的相似度,恒为1,为了后续的计算,将其置为0;
步骤4)阈值过滤:设置阈值t,选定一个方向,列或者行,计算相似度矩阵的最大值,计算/>大于阈值t所有的索引,根据该索引得到新的相似度矩阵/>,这一步操作通常可将D缩减几个数量级;
步骤5)取上三角矩阵并归类图像:将相似度矩阵M变为上三角矩阵,计算其值大于阈值t的行列索引/>,若(xi,yi)与(xj,yj)有相同索引,则归为一类,类标从0开始,依次递增,最后根据索引取得对应图像。
2.根据权利要求1所述的基于视觉大模型的相似背景图像归类方法,其特征在于:所述中,h,w分别为图像的高和宽,所述/>中,d为向量维度,取512或768。
3.根据权利要求1所述的基于视觉大模型的相似背景图像归类方法,其特征在于:所述步骤2)中S即为相似度矩阵,表示第i张图像与第j张图像的余弦相似度。
CN202310674816.1A 2023-06-07 2023-06-07 基于视觉大模型的相似背景图像归类方法 Active CN116704249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310674816.1A CN116704249B (zh) 2023-06-07 2023-06-07 基于视觉大模型的相似背景图像归类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310674816.1A CN116704249B (zh) 2023-06-07 2023-06-07 基于视觉大模型的相似背景图像归类方法

Publications (2)

Publication Number Publication Date
CN116704249A CN116704249A (zh) 2023-09-05
CN116704249B true CN116704249B (zh) 2024-05-24

Family

ID=87823327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310674816.1A Active CN116704249B (zh) 2023-06-07 2023-06-07 基于视觉大模型的相似背景图像归类方法

Country Status (1)

Country Link
CN (1) CN116704249B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及***
CN108897791A (zh) * 2018-06-11 2018-11-27 云南师范大学 一种基于深度卷积特征和语义相似度量的图像检索方法
CN109947963A (zh) * 2019-03-27 2019-06-28 山东大学 一种基于深度学习的多尺度哈希检索方法
CN112199520A (zh) * 2020-09-19 2021-01-08 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法
WO2021082168A1 (zh) * 2019-11-01 2021-05-06 南京原觉信息科技有限公司 一种场景图像中特定目标对象的匹配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780245B (zh) * 2021-11-02 2022-06-14 山东建筑大学 一种多场景下的物品检索方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及***
CN108897791A (zh) * 2018-06-11 2018-11-27 云南师范大学 一种基于深度卷积特征和语义相似度量的图像检索方法
CN109947963A (zh) * 2019-03-27 2019-06-28 山东大学 一种基于深度学习的多尺度哈希检索方法
WO2021082168A1 (zh) * 2019-11-01 2021-05-06 南京原觉信息科技有限公司 一种场景图像中特定目标对象的匹配方法
CN112199520A (zh) * 2020-09-19 2021-01-08 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep reinforcement hashing with redundancy elimination for effective image retrieval;Juexu Yang等;《Pattern Recognition》;20200501;第100卷;1-12 *
一种基于Bert与Bi-LSTM的舆情信息情感识别;汤世松等;《网络安全技术与应用》;20210712(第7期);57-59 *
基于内容的图像检索中若干机器学习问题研究;崔靖宇;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20090815(第8期);I138-1247 *

Also Published As

Publication number Publication date
CN116704249A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN107480261B (zh) 一种基于深度学习细粒度人脸图像快速检索方法
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
Wang et al. Convolutional neural networks for expert recommendation in community question answering
EP3166020A1 (en) Method and apparatus for image classification based on dictionary learning
US20090299999A1 (en) Semantic event detection using cross-domain knowledge
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN106033426A (zh) 一种基于潜在语义最小哈希的图像检索方法
CN114218958A (zh) 工单处理方法、装置、设备和存储介质
CN115019104A (zh) 基于多源域自注意力的小样本遥感图像分类方法及***
CN114676769A (zh) 一种基于视觉Transformer的小样本昆虫图像识别方法
Liu et al. Integrating object ontology and region semantic template for crime scene investigation image retrieval
CN114491115B (zh) 一种基于深度哈希的多模型融合的集成图像检索方法
CN111079011A (zh) 一种基于深度学习的信息推荐方法
Tran et al. EXMOVES: mid-level features for efficient action recognition and video analysis
Khan et al. Data Dimension Reduction makes ML Algorithms efficient
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN116704249B (zh) 基于视觉大模型的相似背景图像归类方法
Bibi et al. Deep features optimization based on a transfer learning, genetic algorithm, and extreme learning machine for robust content-based image retrieval
Meddad et al. A hybrid face identification system using a compressed CNN in a big data environment for embedded devices
CN113033170A (zh) 表格标准化处理方法、装置、设备及存储介质
CN113011163A (zh) 基于深度学习模型的复合文本多分类方法及***
Mittal et al. A performance comparisons of machine learning classification techniques for job titles using job descriptions
CN112364193A (zh) 面向图像检索的融合多层特征深度神经网络模型方法
Sureka et al. Word recognition techniques for Kannada handwritten documents
Balasundaram et al. An Improved Content Based Image Retrieval System using Unsupervised Deep Neural Network and Locality Sensitive Hashing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant