CN113821670B - 图像检索方法、装置、设备及计算机可读存储介质 - Google Patents
图像检索方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113821670B CN113821670B CN202110839132.3A CN202110839132A CN113821670B CN 113821670 B CN113821670 B CN 113821670B CN 202110839132 A CN202110839132 A CN 202110839132A CN 113821670 B CN113821670 B CN 113821670B
- Authority
- CN
- China
- Prior art keywords
- quantization
- image
- library
- feature
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000013139 quantization Methods 0.000 claims abstract description 704
- 239000013598 vector Substances 0.000 claims abstract description 196
- 238000012545 processing Methods 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims description 58
- 238000004364 calculation method Methods 0.000 claims description 41
- 238000002372 labelling Methods 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 30
- 238000013507 mapping Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 14
- 239000002131 composite material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 10
- 238000005259 measurement Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000011002 quantification Methods 0.000 description 5
- 238000005065 mining Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 235000019587 texture Nutrition 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像检索方法、装置、设备及计算机可读存储介质;方法包括:通过分类量化联合网络,对待检索图像进行分类量化处理,得到检索类别向量;在检索类别向量表征的类别空间中进行特征量化处理,得到检索量化特征;分类量化联合网络是通过对分类量化处理与特征量化处理进行联合多任务学习得到的网络模型;根据检索类别向量与预设分类索引关系中每个库类别编码的差异度,确定候选库类别编码,并确定候选库类别编码对应的候选库量化特征集合;在候选库量化特征集合中,确定相似度与检索量化特征匹配的目标库量化特征集合,并获取目标库量化特征集合对应的目标库图像集合,作为检索结果。通过本申请,能够提高图像检索的准确度与效率。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种图像检索方法、装置、设备及计算机可读存储介质。
背景技术
目前,相关技术的图像检索方法通常需要使用神经网络模型提取图像的量化特征以建立图像库与待检索图像的检索索引,并提取图像的嵌入特征(embedding)以进行待检索图像与图像库中库图像之间的相似度度量,进而根据相似度度量结果从图像库中召回相应的检索结果图像。相关技术的模型学习方法通常是用训练深度学习模型进行embedding特征提取,然后训练量化模型对提取出的embedding进行K-means算法聚类或乘积量化(Product Quantization,PQ)方法的特征量化,根据量化后的特征来建立检索索引。这种通过非端到端的处理方法容易产生从embedding到量化的过程的损失,进而影响相似度度量以及检索结果召回的准确性。并且,在图像库的海量检索索引中进行图像检索的耗时较长,图像检索效率低。
发明内容
本申请实施例提供一种图像检索方法、装置、设备及计算机可读存储介质,能够提高图像检索的准确度与效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种图像检索方法,包括:
通过分类量化联合网络,对待检索图像进行分类量化处理,得到所述待检索图像对应的检索类别向量;
在所述检索类别向量表征的类别空间中,对所述待检索图像进行特征量化处理,得到所述待检索图像对应的检索量化特征;所述分类量化联合网络是通过对分类量化处理与特征量化处理进行联合多任务学习得到的网络模型;
根据所述检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码,并确定所述候选库类别编码对应的候选库量化特征集合;所述预设分类索引关系包含至少一个库类别编码与至少一个库量化特征之间的对应关系,以及至少一个库量化特征与预设图像库中的至少一个库图像之间的对应关系;
在所述候选库量化特征集合中,确定相似度与所述检索量化特征匹配的目标库量化特征集合,并获取所述目标库量化特征集合对应的目标库图像集合,作为检索结果;所述检索结果表征与所述待检索图像匹配的库图像。
本申请实施例提供一种图像检索装置,包括:
分类量化联合网络,用于对待检索图像进行分类量化处理,得到所述待检索图像对应的检索类别向量;在所述检索类别向量表征的类别空间中,对所述待检索图像进行特征量化处理,得到所述待检索图像对应的检索量化特征;所述分类量化联合网络是通过对分类量化处理与特征量化处理进行联合多任务学习得到的网络模型;
检索模块,用于根据所述检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码,并确定所述候选库类别编码对应的候选库量化特征集合;所述预设分类索引关系包含至少一个库类别编码与至少一个库量化特征之间的对应关系,以及至少一个库量化特征与预设图像库中的至少一个库图像之间的对应关系;
召回模块,用于在所述候选库量化特征集合中,确定相似度与所述检索量化特征匹配的目标库量化特征集合,并获取所述目标库量化特征集合对应的目标库图像集合,作为检索结果;所述检索结果表征与所述待检索图像匹配的库图像。
上述装置中,所述图像检索装置还包括索引构建模块,所述分类量化联合网络,还用于所述根据所述检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码之前,对所述预设图像库中的每个库图像进行分类量化处理与特征量化处理,得到所述每个库图像对应的库类别向量与库量化特征;
所述索引构建模块,用于对所述每个库图像对应的库类别向量进行编码,得到所述至少一个库图像对应的至少一个库类别编码;根据所述每个库图像对应的库类别编码与库量化特征,生成所述至少一个库类别编码中每个库类别编码与至少一个库量化特征的一级对应关系,以及所述至少一个库量化特征中每个库量化特征与至少一个库图像的二级对应关系;将所述一级对应关系与所述二级对应关系作为所述预设分类索引关系。
上述装置中,所述索引构建模块,还用于根据所述每个库图像对应的库类别编码,确定同一库类别编码对应的至少一个同类库图像,并将所述至少一个同类库图像对应的至少一个库量化特征,作为所述同一库类别编码对应的至少一个库量化特征,进而得到所述至少一个库类别编码中每个库类别编码与至少一个库量化特征的一级对应关系;对于所述至少一个库量化特征中的每个库量化特征,根据所述每个库图像对应的库量化特征,确定同一库量化特征对应的至少一个库图像,从而得到所述至少一个库量化特征中每个库量化特征与至少一个库图像的二级对应关系。
上述装置中,所述检索模块,还用于对所述检索类别向量进行编码,得到检索类别编码;计算所述检索类别编码与所述每个库类别编码之间的编码位距离,并将所述编码位距离满足预设差异度条件的库类别编码作为所述候选库类别编码;根据所述一级对应关系,确定所述候选库类别编码对应的至少一个候选库量化特征,作为所述候选库量化特征集合。
上述装置中,所述召回模块,还用于计算所述候选库量化特征集合中每个候选库量化特征与所述检索量化特征之间的特征相似度;将所述特征相似度满足预设相似度条件的候选库量化特征作为目标库量化特征,得到所述目标库量化特征集合。
上述装置中,所述分类量化联合网络,还用于对所述待检索图像进行特征提取与特征映射,得到所述待检索图像的检索向量特征;根据所述检索向量特征进行分类预测,得到所述待检索图像对应的分类预测结果,并基于所述分类预测结果进行二值量化,得到所述检索类别向量;在所述检索类别向量表征的类别空间内对所述检索向量特征进行符号量化处理,得到所述待检索图像的符号向量表征,作为所述检索量化特征。
上述装置中,所述分类量化联合网络,还用于通过所述分类量化联合网络,对所述预设图像库中的每个库图像进行全局嵌入特征提取,得到所述每个库图像对应的库全局特征;对所述待检索图像进行全局嵌入特征提取,得到所述待检索图像对应的检索全局特征;
所述召回模块,还用于在获取到所述目标库图像集合的情况下,计算所述检索全局特征与所述每个目标库图像对应的库全局特征之间的特征距离;按照所述特征距离从小到大的顺序,选取预设数量个目标库图像,作为所述检索结果。
上述装置中,所述图像检索装置还包括训练模块,所述训练模块,用于所述通过所述分类量化联合网络,对所述待检索图像进行特征提取与特征映射,得到所述待检索图像的检索向量特征之前,获取至少一个相似图像对集合;每个相似图像对集合中包含至少一对相似图像;每对相似图像包含相同的预设标注类别的样本图像;通过初始分类量化联合网络,对所述每个相似图像对集合中的每个样本图像进行特征提取与特征映射,得到所述每个样本图像的样本向量特征;根据所述样本向量特征进行分类预测与二值量化,得到所述每个样本图像对应的样本类别向量;基于所述样本类别向量与所述预设标注类别,得到所述每个相似图像对集合对应的分类损失;通过所述初始分类量化联合网络,在所述样本类别向量表征的类别空间内,对所述样本向量特征进行符号量化处理,得到所述每个样本图像对应的子空间量化特征;对于所述每对相似图像,在所述每个相似图像对集合中相同预设标注类别的相似图像对中,根据所述每个样本图像对应的子空间量化特征进行三元组样本选取,得到所述每对相似图像对应的至少一个子空间三元组,从而得到所述每个相似图像对集合对应的子空间三元组集合;根据所述每个样本图像对应的子空间量化特征,对所述每个子空间三元组进行样本量化特征距离计算以及符号量化损失计算,得到所述每个相似图像对集合对应的子空间量化损失;根据所述每个样本图像的样本向量特征,对所述子空间三元组集合中的每个子空间三元组进行样本相似性计算,得到所述每个相似图像对集合对应的相似度特征损失;基于所述分类损失、所述子空间量化损失与所述相似度特征损失,得到综合损失;基于所述综合损失,对所述初始分类量化联合网络的网络参数进行迭代更新,直至满足预设训练条件时,得到所述分类量化联合网络。
上述装置中,所述每对相似图像中的样本图像包含锚图像与正样本图像;所述训练模块,还用于在所述每个相似图像对集合中,选取与所述每对相似图像的预设标注类别相同的至少一个样本图像,得到同类图像集;根据所述每个样本图像对应的子空间量化特征,计算所述同类图像集中每个同类图像与所述每对相似图像中的锚图像之间的图像相似度,并基于所述图像相似度与预设负样本约束条件,确定所述锚图像对应的至少一个负样本图像;将所述至少一个负样本图像中的每个负样本图像分别与所述锚图像以及所述正样本图像进行组合,得到所述每对相似图像对应的至少一个子空间三元组。
上述装置中,所述训练模块,还用于根据所述每个样本图像对应的子空间量化特征,得到所述每个子空间三元组中的所述锚图像对应的锚样本子空间量化特征、所述正样本图像对应的正样本子空间量化特征、以及负样本图像对应的负样本子空间量化特征;根据所述锚样本子空间量化特征与所述正样本子空间量化特征进行距离计算,得到第一量化距离;计算所述锚样本子空间量化特征与所述负样本子空间量化特征之间的特征距离,得到第二量化距离;根据所述第一量化距离与所述第二量化距离的差值,得到量化距离损失;通过预设符号编码函数,生成所述锚样本子空间量化特征、所述正样本子空间量化特征与所述负样本子空间量化特征各自对应的目标编码,并分别计算所述锚样本子空间量化特征、所述正样本子空间量化特征与所述负样本子空间量化特征与各自对应的目标编码之间的回归损失,得到量化编码损失;对所述量化距离损失与所述量化编码损失进行加权求和,得到所述子空间量化损失。
上述装置中,所述训练模块,还用于在所述每个相似图像对集合的不同预设标注类别的相似图像对中,进行三元组样本选取,得到所述每个相似图像对集合对应的全局三元组集合;对于所述全局三元组集合中的每个全局三元组,将所述每个全局三元组中每个样本图像对应的样本类别向量与子空间量化特征进行特征合并,得到总量化特征;根据所述每个全局三元组中每个样本图像的总量化特征,进行样本量化特征距离计算,得到所述每个相似图像对集合对应的量化联合损失。
上述装置中,所述训练模块,还用于对所述分类损失、所述子空间量化损失、所述量化联合损失与所述相似度特征损失进行加权求和,得到所述综合损失。
本申请实施例提供一种图像检索设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的图像检索方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的图像检索方法。
本申请实施例具有以下有益效果:
通过对分类量化处理与特征量化处理进行联合多任务学习得到的分类量化联合网络,实现了从特征到量化的端到端模型学习,提高了特征量化处理的准确性,进而提高了根据特征量化处理得到的检索量化特征进行图像检索召回的准确性。并且,结合分类量化处理与特征量化处理,加强了对待检索图像emb edding的表征效果,进一步提高了图像检索的准确性。进一步的,利用检索类别向量表征的类别空间的量化约束,得到检索量化特征,通过不同层级不同的量化向量维度,减少了量化特征使用的比特位,进而在与分层构建的预设分类索引关系相结合进行分层检索时,能够降低检索的计算复杂度,缩短检索计算时间,从而提高了图像检索效率。
附图说明
图1是本申请实施例提供的目前PQ量化检索方法的维度空间示意图;
图2是本申请实施例提供的图像检索***架构的一个可选的结构示意图;
图3是本申请实施例提供的图像检索装置的一个可选的结构示意图;
图4是本申请实施例提供的图像检索方法的一个可选的流程示意图;
图5是本申请实施例提供的初始分类量化联合网络训练过程的一个可选的流程示意图;
图6是本申请实施例提供的图像检索方法的一个可选的流程示意图;
图7是本申请实施例提供的图像检索方法的一个可选的流程示意图;
图8是本申请实施例提供的在类别空间中进行负样本选择的一个可选的效果示意图;
图9是本申请实施例提供初始分类量化联合网络训练过程的一个可选的流程示意图;
图10是本申请实施例提供的图像检索方法的一个可选的流程示意图;
图11是本申请实施例提供的实际应用场景中的图像检索方法的一个可选的流程示意图;
图12是本申请实施例提供的电子设备的一个可选的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2)计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
3)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
4)图像识别:类别级别的识别,不考虑对象的特定实例,仅考虑对象的类别(如人、狗、猫、鸟等)进行识别并给出对象所属类别。一个典型的例子是大型通用物体识别开源数据集imagenet中的识别任务,识别出某个物体是1000个类别中的哪一个。
5)embedding:嵌入特征,将数据转换(如降维)为固定大小的特征表示(或矢量),以便于处理和计算(如求距离)。
6)二值量化:对于D维特征向量embedding,向量归一化后取值范围一般为-1~1浮点数,二值量化是指把特征压缩到指定位数(如48位)取值为0、1的二进制码,为向量二值量化,得到二值编码。
7)Imagenet:大型通用物体识别开源数据集。
8)Imagenet预训练模型:基于imagenet训练一个深度学习网络模型,得到该模型的参数权重即为imagenet预训练模型
9)one-hot向量:one-hot向量是将类别变量转换为机器学习算法易于利用的一种形式得到的向量,one-hot向量可以表示为一项属性的特征向量,m个离散特征值可以表示为一个m维的one-hot向量,其中只有一个维度的特征是不为0的。示例性地:对于特征“性别”,可以有两个特征值:“男性”、“女性”。如果对“性别”特征进行one-hot编码,则可以得到特征值为“男性”对应的one-hot向量为“10”,以及特征值为“女性”对应的one-hot向量为“01”。
10)Triplet Loss是深度学习中的一种损失函数,用于训练差异性较小的样本,如人脸等,训练样本数据可以包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例,通过优化锚示例与正示例的距离小于锚示例与负示例的距离,实现样本的相似性计算。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉等技术,具体通过如下实施例进行说明:
目前,相关技术的图像检索通常包含以下几种方法:
一、基于K-means的量化检索:该方法通过训练大量的embedding的聚类中心(如采用图像库中10000万个图像的embedding训练出10万个类中心)作为检索的索引,在检索时,通过对比待检索图像的embedding与10万个聚类中心之间的欧式距离得到召回图像。基于K-means的量化检索的模型训练过程需要先训练特征提取模型,再根据特征提取模型提取的embedding特征训练用于特征量化模型的,以计算出量化索引。这种非端到端训练的量化方法使得从e mbedding到量化的过程是有损的,导致在检索中采用量化后的索引容易造成召回下降。并且,大量的聚类索引需要额外占用存储空间,比如对于1亿样本,若采用10万聚类中心,则每个聚类平均有1亿/10万=1000个图像,因此存储空间大、耗时多;并且,在检索时,待检索图像的embedding需要与大量的聚类中心进行距离对比计算与排序,因此会消耗大量的时间资源和计算资源,检索效率低。
二、PQ量化检索:PQ量化检索首先基于库图像的特征向量的维度进行空间划分,在划分得到的每个维度空间内进行K-means算法聚类,得到每个维度空间内的聚类中心。在检索时,基于待检索图像的特征对待检索图像进行维度空间划分,在相同的维度空间中找到与待检索图像最近的聚类中心,将该聚类中心下的所有图像作为候选图像,进行候选图像与待检索图像的距离计算;如图1所示,q(x)-q(y)为待检索图像分别在维度空间x和维度空间y中的特征,p(x)-p(y)分别为候选图像在维度空间x和维度空间y中的特征。PQ量化检索方法分别计算得到候选图像与待检索图像在x和y维度空间下的距离d1和d2,最后基于各个候选图像的距离确定出召回图像。
上述PQ量化检索是根据特征维度来划分子空间的,可能导致相似的图像由于特征相似度不足被切分到不同量化编码。比如,两个相似样本的特征向量分别是[-1,1,0.5,-0.03],[-1,1,0.5,0.01],由特征向量直接做符号量化会分别得到[0,1,1,0]和[0,1,1,1]两个属于不同的子空间的编码,影响量化准确性。并且,PQ量化检索的方法也是一种非端到端训练的量化方法,因此同样存在量化后性能下降明显的问题。
三、残差量化(Residual Quantization,RQ)。RQ方法也是采用K-means算法进行聚类的方法,因此同样存在K-means算法中的存储大、检索耗时的问题;并且,RQ方法也是非端到端训练的量化方法,因此同样存在量化后性能下降的问题。
综上所述,相关技术在进行图像检索中的图像量化时都是使用非端到端的训练方式,得到分阶段处理的神经网络模型来进行图像特征提取与特征量化,这种非端到端学习的方法会降低用于网络模型生成用于检索的量化特征的准确性,导致图像检索准确性降低。并且,相关技术的图像检索过程会消耗大量的时间资源和计算资源,检索效率低。
本申请实施例提供一种图像检索方法、装置、设备和计算机可读存储介质,能够提高图像检索的准确度与效率,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,智能电视,机顶盒,智能车载设备,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备等各种类型的终端,但并不局限于此;也可以实施为服务器。下面,将说明电子设备实施为服务器时示例性应用。
参见图2,图2是本申请实施例提供的图像检索***100的一个可选的架构示意图,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于通过客户端410的界面接收用户的操作指令,根据操作指令将待检索图像通过网络300提交至服务器200,以通过服务器200在预设图像库500中进行查询,返回与待检索图像对应的检索结果,即预设图像库500中与待检索图像匹配的至少一个库图像。
服务器200用于通过分类量化联合网络,对待检索图像进行分类量化处理,得到待检索图像对应的检索类别向量;在检索类别向量表征的类别空间中,对待检索图像进行特征量化处理,得到待检索图像对应的检索量化特征;分类量化联合网络是通过对分类量化处理与特征量化处理进行联合多任务学习得到的网络模型;根据检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码,并确定候选库类别编码对应的候选库量化特征集合;预设分类索引关系包含至少一个库类别编码与至少一个库量化特征之间的对应关系,以及至少一个库量化特征与预设图像库500中的至少一个库图像之间的对应关系;在候选库量化特征集合中,确定相似度与检索量化特征匹配的目标库量化特征集合,并获取目标库量化特征集合对应的目标库图像集合;根据目标库图像集合,得到待检索图像对应的检索结果。进而,服务器200将检索结果通过网络300返回给终端400,在终端400的客户端410上对检索结果向用户进行展示。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400上的客户端410可以是包含图像检索功能的应用软件客户端,如视频客户端、购物客户端、浏览器客户端、信息流客户端等等。服务器200上部署有客户端410对应的后台服务,以通过运行后台服务实现上述图像检索的方法。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接;预设图像库500可以部署在服务器200上;或者,预设图像库500也可以单独部署,并与服务器200之间通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不作限制。
参见图3,图3是本申请实施例提供的服务器200的结构示意图,图3所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线***240耦合在一起。可理解,总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线***240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***251,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图3示出了存储在存储器250中的图像检索装置255,其可以是程序和插件等形式的软件,包括以下软件模块:分类量化联合网络2551、检索模块2552、召回模块2553和确定模块2554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的图像检索方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
本申请实施例提供的图像检索方法可以由电子设备执行,该电子设备可以是图2所示的终端或服务器。
参见图4,图4是本申请实施例提供的图像检索方法的一个可选的流程示意图,将结合图4示出的步骤进行说明。
S101、通过分类量化联合网络,对待检索图像进行分类量化处理,得到待检索图像对应的检索类别向量。
本申请实施例提供的图像检索方法适用于基于人工智能的图像检索应用场景,示例性地,量化编码索引检索或者图像分桶检索(一个分桶对应一个量化编码)的场景,都可以利用本申请实施例中的方法进行特征量化与图像检索,实现更准确的量化特征以及更高效的检索过程。
S101中,电子设备可以通过分类量化联合网络,对待检索图像进行分类预测,并对分类预测的结果进行量化处理,得到待检索图像对应的检索类别向量。
本申请实施例中,分类量化联合网络是通过对分类量化处理与特征量化处理进行联合多任务学习得到的网络模型。也就是说,分类量化联合网络是在同一的训练框架下,通过端到端的联合多任务学习,对分类量化处理与特征量化处理的模型处理过程进行协同训练,所得到的神经网络模型。在一些实施例中,分类量化联合网络可以包括多层非线性网络结构的多种类型的网络模型,具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,电子设备进行分类量化处理的过程可以包括:通过分类量化联合网络对输入图像进行特征提取与特征映射,得到输入图像对应的嵌入特征embedding作为向量特征;根据向量特征进行分类预测,即对输入图像所属的预设图像类别进行预测,得到分类预测结果,并基于分类预测结果进行量化编码,得到输入图像对应的类别向量。
在一些实施例中,当输入图像为待检索图像时,电子设备可以通过分类量化联合网络,对待检索图像进行特征提取与特征映射,得到待检索图像的包含多个维度的embedding特征作为检索向量特征;根据检索向量特征进行分类预测,得到待检索图像对应的分类预测结果;示例性地,分类预测结果可以是待检索图像属于每种预设图像类别的概率;电子设备可以基于分类预测结果进行二值量化,示例性地,对概率值形式的分类预测结果进行归一化,并通过至少一个向量维度分别表征至少一种预设图像类别,并在每个向量维度上以二值化的数值,如通过0和1来标记待检索图像是否属于该向量维度表征的预设图像类别,从而得到包含至少一个维度的特征向量作为检索类别向量。
示例性地,电子设备可以根据imagenet数据集中的100个预设图像类别(99个类别如狗、猫、人等,外加“其他”类别)对待检索图像进行分类预测,预测出待检索图像在100个预设图像类别中对应的目标预测类别,作为分类预测结果,进而对目标预测类别进行one-hot向量形式的二值量化,得到1*100维one-hot向量作为检索类别向量。在1*100维one-hot向量中,目标预测类别对应维度上的特征值为1,其余维度上的特征值为0。
在一些实施例中,检索向量特征可以是嵌入特征(embedding)形式的特征,也可以是其他量化形式的特征,检索向量特征可以包含待检索图像的纹理、颜色、灰度、轮廓、语义等等特征信息,具体的根据实际情况进行选择,本申请实施例不作限定。
S102、在检索类别向量表征的类别空间中,对待检索图像进行特征量化处理,得到待检索图像对应的检索量化特征;分类量化联合网络是通过对分类量化处理与特征量化处理进行联合多任务学习得到的网络模型。
S102中,待检索图像的检索类别向量表征了待检索图像属于哪一类预设图像类别所对应的类别空间;这样,电子设备可以在检索类别向量表征的类别空间中,对从待检索图像提取出的特征进行特征量化处理,得到待检索图像对应的检索量化特征。
本申请实施例中,相比于在全局特征空间中进行特征量化,电子设备在某个类别空间中进行特征量化处理时,只需要满足该类别空间下的量化度量要求,而不需要满足全局特征空间的量化度量要求。相比于全局空间下的量化特征需要用高维度的向量来表征,子空间(即某个类别空间)下的量化特征可以用相对少的向量维度来表示,从而使得分类量化与特征量化在不同粒度的特征空间各司其职,避免两者相互干扰造成量化位的冗余浪费,从而大大压缩量化特征所占用的存储空间。
在一些实施例中,电子设备可以通过分类量化联合网络,在检索类别向量表征的类别空间内对检索向量特征进行符号量化处理,得到待检索图像的符号向量表征,作为检索量化特征。也可以采用其他量化方式进行特征量化处理,具体的根据实际情况进行选择,本申请实施例不作限定。
示例性地,对于通过特征提取与特征映射得到的检索向量特征为[-1,1]区间内的浮点型向量,如[-1,1,0.5,-0.2],电子设备可以通过将大于0的特征量化为1,将小于0的特征量化为0的方式,对[-1,1,0.5,-0.2]进行符号量化,得到的检索量化特征为[0,1,1,0]。
S103、根据检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码,并确定候选库类别编码对应的候选库量化特征集合;预设分类索引关系包含至少一个库类别编码与至少一个库量化特征之间的对应关系,以及至少一个库量化特征与预设图像库中的至少一个库图像之间的对应关系。
S103中,由于检索量化特征是在检索类别向量对应的类别空间下得到的,像检索装置可以将检索类别向量作为一级索引,将检索量化特征作为二级索引,通过一级索引与二级索引,对预设图像库进行分层检索,从而可以更高效地得到图像检索结果。
本申请实施例中,预设图像库包含多个库图像,电子设备在使用待检索图像在预设图像库中检索之前,可以预先通过分类量化联合网络,对预设图像库中的每个库图像进行分类量化处理与特征量化处理,得到每个库图像对应的库类别向量与库量化特征;这里,库类别向量表征每个库图像所属的预设图像类别对应的类别空间,电子设备对每个库图像进行的特征量化处理是在每个库图像对应的库类别向量所表征的类别空间中进行的。
本申请实施例中,电子设备可以根据每个库图像对应的库类别向量与库量化特征,建立用于在预设图像库中检索的预设分类索引关系。其中,预设分类索引关系包含至少一个库类别编码与至少一个库量化特征之间的对应关系,以及至少一个库量化特征与预设图像库中的至少一个库图像之间的对应关系。
本申请实施例中,电子设备可以对预设图像库中的每个库图像对应的库类别向量进行编码,得到每个库图像对应的库类别编码,进而得到至少一个库图像对应的至少一个库类别编码。这样,通过库类别编码表征库图像所属的预设图像类别,而库量化特征表征库图像的个体图像特征。电子设备根据每个库图像对应的库类别编码与库量化特征,即可生成至少一个库类别编码中每个库类别编码与至少一个库量化特征的一级对应关系。
本申请实施例中,库量化特征是通过与库图像的向量特征进行量化得到的,因此对于特征相似的库图像,量化得到的库量化特征可能相同。这样,电子设备可以根据每个库图像对应的库量化特征,确定同一库量化特征对应的至少一个库图像,从而得到至少一个库量化特征中每个库量化特征与至少一个库图像的二级对应关系。
本申请实施例中,电子设备可以将一级对应关系与二级对应关系进行关联,从而得到预设分类索引关系。
在一些实施例中,电子设备可以根据每个库图像对应的库类别编码,将相同库类别编码对应的至少一个库图像作为至少一个同类库图像,从而确定出每个库类别编码对应的至少一个同类库图像,并将至少一个同类库图像对应的至少一个库量化特征,作为每个库类别编码对应的至少一个库量化特征,进而得到至少一个库类别编码中每个库类别编码与至少一个库量化特征的一级对应关系;
对于至少一个库量化特征中的每个库量化特征,电子设备根据每个库图像对应的库量化特征,将同一库量化特征对应的至少一个库图像,作为该量化特征对应的至少一个库图像,进而得到至少一个库量化特征中每个库量化特征与至少一个库图像的二级对应关系。
这里,电子设备也可以根据每个库图像对应的库类别编码与库量化特征,通过其他的方法或步骤来实现预设分类索引关系的构建,并得到每个库类别编码与至少一个库量化特征的一级对应关系,以及每个库量化特征与至少一个库图像的二级对应关系。具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,预设图像库中包含N个库图像,其中N为大于1的正整数。电子设备可以将N个库图像分别输入分类量化联合网络,通过分类量化联合网络输出N个库图像对应的N个库类别向量与N个库量化特征。电子设备可以对N个库类别向量进行编码,以库类别向量对应于k个预设图像类别的one-hot向量为例,电子设备可以得到N个库图像对应的k种库类别编码Cset,即Cset=[c1,c2…,ck]。其中,c1、c2、ck分别表示一种库类别编码,k为大于或等于1的正整数。电子设备记录每个库图像序号与其对应的库类别编码之间的对应关系,得到映射表T[i:c]。
这里,对于Cset中的每个库类别编码,如cj,其中,j为大于或等于1且小于k的正整数;电子设备可以获取库类别编码同为cj的至少一个同类库图像,作为图像集电子设备将图像集/>中的每个同类库图像的库量化特征与库类别编码cj相关联,可以得到一级对应关系invertT。示例性地,invertT=[c1:[d1,d2];c2:[d3,d5,d7];…;ck:[d4,dN-1,dN]。其中,d1,d2为库类别编码c1对应的库量化特征,d3,d5,d7为库类别编码c2对应的库量化特征,d4,dN-1,dN为库类别编码ck对应的库量化特征。
这里,电子设备可以根据每个库图像对应的库量化特征,确定同一库量化特征对应的至少一个库图像的序号,生成库量化特征与库图像序号的映射表invertT2,作为二级对应关系。示例性地,invertT2=[d1:[i1];d2:[i2,i3]…],其中,i1为库量化特征为d1的库图像的序号,i2,i3为库量化特征为d2的库图像的序号。
这里,电子设备可以通过将一级对应关系invertT与将二级对应关系invertT2相关联,实现将库图像序号加入invertT中,得到预设图像库的预设分类索引关系。
本申请实施例中,在建立了预设分类索引关系的情况下,对于从待检索图像中得到的检索类别向量与检索量化特征,电子设备可以对检索类别向量进行编码,得到检索类别编码;计算检索类别编码与每个库类别编码之间的编码位距离,并将编码位距离满足预设差异度条件的库类别编码作为候选库类别编码;根据上述一级对应关系,也即至少一个库类别编码与至少一个库量化特征之间的对应关系,确定候选库类别编码对应的至少一个候选库量化特征,作为候选库量化特征集合。
在一些实施例中,基于上述示例得到的预设分类索引关系,电子设备可以将待检索图像q输入分类量化联合网络,并对得到的检索类别向量进行编码,得到检索类别编码qe1和检索量化特征qe2。电子设备可以在预设分类索引关系包含的至少一个库类别编码中,检索出与qe1的差异度满足预设差异度条件的库类别编码:示例性地,遍历寻找invertT中与qe1的汉明距离(hamming distance)小于1的所有库类别编码,得到候选库类别编码QCset。
这里,汉明距离可以通过计算两个编码向量中差异位的数量来得到,如编码0110和编码1000的汉明距离为3,编码0110和编码1110的汉明距离为1。预设差异度条件可以是检索类别编码与库类别编码之间的汉明距离小于预设编码距离阈值,这里,预设编码距离阈值可以为1,即编码位都相同,以表征同一预设图像类别。也可以设置为其他预设差异度条件,具体的根据实际情况进行选择,本申请实施例不作限定。
S104、在候选库量化特征集合中,确定相似度与检索量化特征匹配的目标库量化特征集合,并获取目标库量化特征集合对应的目标库图像集合。
S104中,候选库量化特征集合包含了与待检索图像的图像类别相同的库图像,电子设备可以进一步根据待检索图像的检索量化特征,从特征相似度的角度,在候选库量化特征集合进行二级检索,确定出相似度与检索量化特征匹配的目标库量化特征集合,进而根据预设分类索引关系中的二级对应关系,即至少一个库量化特征与至少一个库图像的对应关系,获取到目标库量化特征集合对应的目标库图像集合。
在一些实施例中,电子设备可以计算候选库量化特征集合中每个候选库量化特征与检索量化特征之间的特征相似度;将特征相似度满足预设相似度条件的候选库量化特征作为目标库量化特征,得到目标库量化特征集合。
示例性地,基于前述示例,在确定出QCset的情况下,对于QCset中的候选库类别编码,电子设备可以根据一级对应关系,即上述示例中的invertT表,确定出候选库类别编码关联的候选库量化特征集合。电子设备通过计算qe2与候选库量化特征集合中每个候选库量化特征的汉明距离,作为每个候选库量化特征与检索量化特征之间的特征相似度invertT2中,并在汉明距离小于1的情况下确定满足预设相似度条件,将对应的候选库量化特征作为目标库量化特征。电子设备可以根据二级对应关系,即invertT2表,得到目标库量化特征对应的目标库图像序号,并召回目标库图像序号对应的库图像,得到目标库图像集合。
S105、根据目标库图像集合,得到待检索图像对应的检索结果。
S105中,目标库图像集合包含了预设图像库中与待检索图像相匹配的库图像,电子设备可以将目标库图像集合作为检索结果,也可以对目标库图像集合进行排序、筛选等二次处理后,得到待检索图像对应的检索结果。
可以理解的是,本申请实施例中,通过对分类量化处理与特征量化处理进行联合多任务学习得到的分类量化联合网络,实现了从特征到量化的端到端模型学习,提高了特征量化处理的准确性,进而提高了根据特征量化处理得到的检索量化特征进行图像检索召回的准确性。并且,结合分类量化处理与特征量化处理,加强了对待检索图像embedding的表征效果,进一步提高了图像检索的准确性。进一步的,利用检索类别向量表征的类别空间的量化约束,得到检索量化特征,通过不同层级不同的量化向量维度,减少了量化特征使用的比特位,进而在与分层构建的预设分类索引关系相结合进行分层检索时,能够降低检索的计算复杂度,缩短检索计算时间,从而提高了图像检索效率。
在一些实施例中,电子设备还可以通过分类量化联合网络,对预设图像库中的每个库图像进行全局嵌入特征提取,得到每个库图像对应的库全局特征。同样地,电子设备可以对对待检索图像进行全局嵌入特征提取,得到待检索图像对应的检索全局特征。这样,在S104中获取到目标库图像集合的情况下,电子设备就可以计算检索全局特征与目标库图像集合中每个目标库图像的库全局特征之间的特征距离;按照特征距离从小到大的顺序,选取前预设数量个目标库图像,作为检索结果。
在一些实施例中,电子设备也可以按照特征距离从大到小的顺序,确定出排序最后的预设数量个特征距离对应的目标库图像,作为检索结果。具体的根据实际情况进行选择,本申请实施例不做限定。
在一些实施例中,电子设备可以通过分类量化联合网络对每个库图像进行分类量化处理与特征量化处理时,可以先对每个库图像进行特征提取与特征映射,得到每个库图像的库向量特征,进而根据库向量特征进行分类量化处理与特征量化处理,得到每个库图像对应的库类别向量与库量化特征。电子设备可以将分类量化联合网络在分类量化处理与特征量化处理过程中产生的库向量特征作为每个库图像对应的库全局特征。同样地,利用分类量化联合网络在对待检索图像进行分类量化处理与特征量化处理过程中产生的检索向量特征作为检索全局特征。或者,电子设备也可以通过其他特征提取网络或模块进行库全局特征与检索全局特征的提取,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,基于前述示例中由invertT与invertT2关联得到的预设分类索引关系,电子设备可以根据每个库图像的库图像序号与其对应的库全局特征,保存特征表Feat[i,e3]。其中,i代表库图像序号,e3代表库全局特征。电子设备可以在根据待检索图像的检索量化特征,在二级对应关系中确定出目标库图像集合包含的目标库图像序号,并根据目标库图像序号在特征表Feat中确定出对应的库全局特征,作为召回样本embedding特征集Feat set。电子设备计算待检索图像的检索全局特征qe3和Feat set中每个e3的欧式距离,并对欧式距离从小到大进行排序,从排序结果中选择前M的库全局特征,将其对应的库图像作为最终的检索结果,这里,M为大于或等于1的正整数,
可以理解的是,本申请实施例还可以结合图像的类别向量与子空间内的量化特征,拼接得到整体量化空间的表征,即全局特征,通过全局特征对分类量化以及特征量化对应的分级检索结果进行进一步筛选,进一步提高了图像检索的准确性。在实际应用中,全局特征的检索还可以与分级检索相互结合,以提高图像检索的灵活性。
本申请实施例中,在通过分类量化联合网络,对待检索图像进行特征提取与特征映射,得到待检索图像的检索向量特征之前,电子设备可以先对初始分类量化联合网络进行模型训练,来得到分类量化联合网络。在一些实施例中,初始分类量化联合网络的网络结构可以如图5所示,包含基础特征模块、特征映射层、一级量化分支、二级量化分支与三元组挖掘分支。
本申请实施例中,基础特征模块用于对输入的每个样本图像进行特征提取与池化,输出每个样本图像对应的深度特征embeddedding,作为样本向量特征;特征映射层用于对深度特征进行特征交叉,产生更丰富的二阶特征信息,作为向量特征;一级量化分支用于根据向量特征,以每个样本图像的预设标注类别为监督信息,进行分类预测与分类预测结果量化,输出样本类别向量。在一些实施例中,一级量化分支可以通过全连接层实现,也可以通过其他模型结构实现,具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,二级量化分支用于根据一级量化分支输出的样本类别向量对应的子空间,采用子空间度量学习监督,输出向量特征在子空间的表征,作为量化特征,如1*32维向量,32为二级量化的维度,如表4所示。在一些实施例中,二级量化分支可以通过全连接层实现,也可以通过其他模型结构实现,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,基础特征模块可以是卷积神经网络(Convolutional NeuralNetworks,CNN),示例性地,卷积神经网络如表1所示,包含Conv1-Conv5的卷积网络层,采用ImageNet数据集上预训练的ResNet101的参数进行初始化,并设置学习参数如表1所示。对于一些不需要训练底层的基础特征模块的情况,也可以将基础特征模块的网络参数设置为不需要学习的状态;或者,可以采用不同预训练模型权重作为基础特征模块,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,特征映射层、一级量化分支与二级量化分支可以采用方差为0.01,均值为0的高斯分布进行网络参数的初始化,并分别设置需要学习的网络参数如表2、表3、与表4所示。具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,基础特征模块可以采用lr1=0.005的学习率,每经过10轮迭代后lr变为原来的0.1倍。具体的根据实际情况进行选择,本申请实施例不作限定。
表1
名称 | 输出尺寸 | 网络结构 |
池化层 | 1x2048 | 最大池化层 |
特征映射层 | 1x2048 | 全连接层 |
表2
/>
表3
名称 | 输出尺寸 | 网络结构 |
二级量化分支 | 1x32 | 全连接层 |
表4
在一些实施例中,电子设备可以通过执行S201-S210的方法来训练得到分类量化联合网络,如图6所示,将结合各步骤进行说明。
S201、获取至少一个相似图像对集合;每个相似图像对集合中包含至少一对相似图像;每对相似图像包含相同的预设标注类别的样本图像。
S201中,电子设备可以将相似图像对作为分类量化联合网络的训练样本。示例性地,可以利用常规的相似度embedding训练的相似图像对来进行模型训练。
在一些实施例中,电子设备可以获取全量的相似图像对,并将全量的相似图像对按照预设批处理数量(如batch-size)划分为至少一个批次,得到至少一个相似图像对集合。在对每个批次的相似图像对也即每个相似图像对集合进行处理时,电子设备可以将初始分类量化联合网络中需要训练的网络参数设置为学习状态,通过以下过程实现对初始分类量化联合网络的模型训练。
本申请实施例中,至少一个相似图像对集合中的每个相似图像对集合中包含至少一对相似图像。在相似图像对的样本准备阶段,对于至少一对相似图像中的每对相似图像,由于其包含的两张样本图像是相似的,因此可以从每对相似图像中随机抽取一个样本图像进行分类标注,作为每对相似图像中每个样本图像对应预设标注类别,这样,每对相似图像中即包含了相同的预设标注类别的样本图像。在一些实施例中,电子设备也可以对每对相似图像中两个样本图像都进行标注分类,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,电子设备可以通过图像分类预测网络,如根据imagenet图像集训练得到的类别模型进行分类标注,也可以通过其他大规模数据集如op enimage图像集训练得到的分类模型进行分类标注,具体的根据实际情况进行选择,本申请实施例不作限定。
S202、通过初始分类量化联合网络,对每个相似图像对集合中的每个样本图像进行特征提取与特征映射,得到每个样本图像的样本向量特征。
S202中,电子设备可以通过初始分类量化联合网络中的基础特征模块与特征映射层,对每个相似图像对集合中的每个样本图像进行特征提取与特征映射,得到每个样本图像的样本向量特征。
这里,电子设备对每个样本图像进行特征提取与特征映射的过程与S101中特征提取与特征映射的过程描述一致,在一些实施例中,样本向量特征可以是每个样本图像的embedding特征。
S203、根据样本向量特征进行分类预测与二值量化,得到每个样本图像对应的样本类别向量。
S203中,电子设备可以通过初始分类量化联合网络中的一级量化分支,根据每个样本图像的样本向量特征进行前向分类预测,得到样本分类预测结果,进而基于样本分类预测结果进行二值量化,得到每个样本图像对应的样本类别向量。
在一些实施例中,每个样本图像对应的样本类别向量可以是1*100维的on e-hot预测向量。
S204、基于样本类别向量与预设标注类别,得到每个相似图像对集合对应的分类损失。
S204中,对于一级量化分支输出的每个样本图像的样本类别向量,电子设备可以通过计算样本类别向量与每个样本图像的预设标注类别之间的差异,得到分类损失。这里,每个样本图像的预设标注类别即为该样本图像对应的相似图像对的预设标注类别。
在一些实施例中,电子设备可以通过多分类的交叉熵损失计算来得到分类损失。在一些实施例中,多分类的交叉熵损失函数可以如公式(1)所示,如下:
其中,Lq1为分类损失,pic表示样本图像i属于预设图像类别c的预测概率,yic表示样本图像i的预设标注类别是否为c,在样本图像i的标注类别为c的情况下,yic为1,否则为0。
在一些实施例中,电子设备也可以根据分类损失与预设标注类别之间的误差,通过其他损失计算方法来得到分类损失,具体的根据实际情况进行选择,本申请实施例不作限定。
S205、通过初始分类量化联合网络,在样本类别向量表征的类别空间内,对样本向量特征进行符号量化处理,得到每个样本图像对应的子空间量化特征。
S205中,对于每个样本图像对应的样本向量特征,电子设备可以通过初始分类量化联合网络中的二级量化分支,在样本类别向量表征的类别空间内,对每个样本图像对应的样本向量特征进行符号量化处理,得到每个样本图像对应的子空间量化特征。
这里,符号量化处理的过程与S102中描述一致,此处不再赘述。
S206、对于每对相似图像,在每个相似图像对集合中相同预设标注类别的相似图像对中,根据每个样本图像对应的子空间量化特征进行三元组样本选取,得到每对相似图像对应的至少一个子空间三元组,从而得到每个相似图像对集合对应的子空间三元组集合。
S206中,电子设备可以通过深度学习的方式对二级量化分支进行训练。这里,二级量化分支深度学习所对应的训练样本可以通过在一级量化结果对应类别空间中,进行三元组的挖掘来实现,电子设备可以将每对相似图像中的两个样本图像分别作为锚图像与正样本图像,并根据相同的预设标注类别,在每个相似图像对集合中的其他相似图像对里选取出负样本图像,将相同预设标注类别的负样本图像与锚图像以及正样本图像共同组成子空间三元组。
在一些实施例中,基于图6,参见图7,图7是本申请实施例提供的图像检索方法的一个可选的流程示意图,S206可以通过执行S001-S003的过程来实现,将结合各步骤进行说明。
S001、在每个相似图像对集合的其他相似图像对中,选取与每对相似图像的预设标注类别相同的至少一个样本图像,得到同类图像集。
S001中,对于每对相似图像,电子设备可以在其所在的相似图像对集合中的其他相似图像对中,选取预设标注类别相同的至少一个样本图像,示例性地,从其他相似图像对中每对随机选取一张样本图像,将随机选取的图像中相同预设标注类别的样本图像作为同类图像,得到同类图像集。
S002、根据每个样本图像对应的子空间量化特征,计算同类图像集中每个同类图像与每对相似图像中的锚图像之间的图像相似度,并基于图像相似度与预设负样本约束条件,确定锚图像对应的至少一个负样本图像。
S002中,电子设备可以根据每个样本图像对应的子空间量化特征,得到同类图像集中每个同类图像对应的子空间量化特征,以及每对相似图像中的锚图像对应的子空间量化特征,进而根据每个同类图像对应的子空间量化特征与锚图像对应的子空间量化特征,计算出每个同类图像与锚图像之间的图像相似度。
在一些实施例中,电子设备可以通过特征距离的计算得到图像相似度,也可以根据其他方式计算出图像相似度,具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,预设负样本约束条件表征在每对相似图像的预设标注类别所对应的类别空间下,负样本与锚图像之间的图像相似度需要满足的预设条件。
S003、将至少一个负样本图像中的每个负样本图像分别与锚图像以及正样本图像进行组合,得到每对相似图像对应的至少一个子空间三元组;进而得到每个相似图像对集合对应的子空间三元组集合。
S003中,电子设备将每个负样本图像与锚图像以及正样本图像进行组合,得到一个子空间三元组,从而可以根据至少一个负样本图像得到至少一个子空间三元组。进而,每对相似图像对应的至少一个子空间三元组,得到每个相似图像对集合对应的子空间三元组集合。
示例性地,每个相似图像对集合中包含bs个相似图像对,对于每对相似图像x,电子设备可以从剩余的bs-1个相似图像对中,每对随机选择一张图像,从选择的图像集中确定与x属于同一预设标注类别的样本图像,作为同类图像集Xset,从而实现一级类别空间的划分。bs个相似图像对可以对应有6个预设标注类别,分别对应如图8中所示的6个类别空间C1-C6,其中,C1-C6可以作为全量特征空间一级表征。电子设备可以对每个类别空间分别进行二级量化表征学习,使得各个类别空间内部可相互区分。这样,在为C1空间中的相似图像对选择负样本图像时,只需要在C1空间(图示灰色区域)中选择满足预设负样本约束条件的同类图像作为负样本图像。
在一些实施例中,预设负样本约束条件可以是锚图像与负样本图像之间的距离大于锚图像与正样本图像之间的距离。电子设备可以根据每个样本图像的子空间量化特征,计算锚图像a与正样本图像p之间的第一距离,以及C1空间中的每个同类图像与锚图像a之间的第二距离,并在大于第一距离的同类图像中,按第二距离从小到大进行排序,将排序结果中的前10个同类图像作为至少一个负样本图像。电子设备将每个负样本图像n分别与锚图像和正样本图像组合成如(a,n,p)形式的三元图像组,作为一个子空间三元组,故每个相似图像对挖掘到10个子空间三元组,进而根据bs个相似图像对挖掘到10×bs个子空间三元组,作为子空间三元组集合。
在一些实施例中,上述第二距离越小,说明同类图像与锚图像越相似,根据第二距离选出的负样本图像的学习难度也越高。根据实际应用的需要,电子设备也可以根据第二距离的排序结果,采用混合选取困难负样本与简单负样本的方式,来挖掘子空间三元组。或者,为了避免前10个同类图像中带有与锚图像真正相似的样本,电子设备也可以舍弃前3个同类图像,采用前4-13个同类图像作为至少一个负样本图像等等,具体的挖掘方式根据实际情况进行选择,本申请实施例不作限定。
这里,区别于相关技术中常见的从全局样本中挖掘负样本图像的方式,本申请实施例中的负样本图像是从与锚图像相同的类别空间中挖掘的,也即本申请实施例中的锚图像、以及锚图像对应的正负样本图像具有相同的标注类别。相比于相关技术中在全局寻找负样本产生的大量简单学习样本导致学习效率低,本申请实施例从同一类别空间选择的子空间三元组集合中,简单学习样本(ease case)的数量相对更少、困难学习样本(hardcase)的数量更多,对模型的表征学习优化更有帮助,从而使得深度度量学习更有效,最终提高图像检索的准确性。
S207、根据每个样本图像对应的子空间量化特征,对每个子空间三元组进行样本量化特征距离计算以及符号量化损失计算,得到每个相似图像对集合对应的子空间量化损失。
S207中,子空间量化损失可以包含子空间三元组中各个样本图像之间的量化距离损失,以及对各个样本图像进行特征量化,如符号量化所对应的量化编码损失。
对于量化距离损失,电子设备可以根据每个样本图像对应的子空间量化特征,得到每个子空间三元组中的锚图像、正样本图像与负样本图像各自对应的子空间量化特征,并分别进行两两距离计算,根据两两距离计算的结果进行Triplet Loss计算得到量化距离损失。
对于量化编码损失,量化编码损失的设计目的是使的二级量化分支的输出靠近-1或1,避免输出处于临界值,如0附近的量化特征,造成如相关技术的PQ量化中将相似特征量化到不同编码的情况。由此,电子设备可以采用预设符号函数产生量化学习任务的目标编码,根据目标编码与子空间三元组中的各个样本图像计算回归损失,以通过回归损失评估二级量化分支的量化效果,得到量化编码损失。
在一些实施例中,电子设备可以根据每个样本图像对应的子空间量化特征,得到每个子空间三元组中的锚图像对应的锚样本子空间量化特征、正样本图像对应的正样本子空间量化特征、以及负样本图像对应的负样本子空间量化特征;根据锚样本子空间量化特征与正样本子空间量化特征进行距离计算,得到第一量化距离;计算锚样本子空间量化特征与负样本子空间量化特征之间的特征距离,得到第二量化距离;根据第一量化距离与第二量化距离的差值,得到量化距离损失。如公式(2)所示:
Ltriplet=max(||xa-xp||-||xa-xn||+α,0) (2)
公式(2)中,对于子空间三元组(a,p,n),电子设备计算锚样本子空间量化特征xa与正样本子空间量化特征xp之间的第一量化距离||xa-xp||,以及锚样本子空间量化特征xa与负样本子空间量化特征xn之间的第二量化距离||xa-xn||,得到量化距离损失Ltriplet,即Triplet Loss。公式(2)中α为调节参数,可以设置为0.6,表征Triplet Loss的目标是使得第二量化距离比第一量化距离大0.6。在一些实施例中,α也可以取其他值,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,电子设备可以通过预设符号编码函数,生成锚样本子空间量化特征、正样本子空间量化特征与负样本子空间量化特征各自对应的目标编码,并分别计算锚样本子空间量化特征、正样本子空间量化特征与负样本子空间量化特征与各自对应的目标编码之间的回归损失,得到量化编码损失。如公式(3)与公式(4)所示:
公式(3)中,sign函数为预设符号函数,用于对子空间量化特征的每一位ui分别通过符号函数计算其目标编码bi。电子设备可以通过如公式(4)所示的回归损失(regressionloss)过程,使子空间量化特征向量u与目标编码b的之间的距离变小,以得到符号量化损失作为量化编码损失Lcoding。
在一些实施例中,电子设备可以对量化距离损失与量化编码损失进行加权求和,得到子空间量化损失,如公式(5)所示,如下。
Lq2=w21Ltriplet+w22Lcoding (5)
公式(5)中,Lq2为子空间量化损失,w21为量化距离损失Ltriplet对应的权重,在一些实施例中,w21可以为1。w22为量化编码损失Lcoding对应的权重0.5,在一些实施例中,w22可以为0.5。这里,发明人经过大量实验发现,量化编码损失收敛比量化距离损失快,为了保证量化距离损失在整体子空间量化损失中处于主导地位,从而保证二级量化得到的量化特征embedding始终具有相似度度量的能力,故将量化编码损失Lcoding对应的权重w22设小于w21的值,也可以可视情况调整为其他值,具体的根据实际情况进行选择,本申请实施例不作限定。
S208、根据每个样本图像的样本向量特征,对子空间三元组集合中的每个子空间三元组进行样本相似性计算,得到每个相似图像对集合对应的相似度特征损失。
S208中,电子设备可以根据每个样本图像的样本向量特征,得到每个子空间三元组中锚图像、正样本图像与负样本图像各自对应的样本向量特征,进而采用Triplet Loss的计算方式进行样本相似性计算,得到相似度特征损失,如图5中的Lem。
在一些实施例中,采用Triplet Loss的计算方式计算相似度特征损失时,可以将Triplet Loss的调节参数设置为2.0,具体的根据实际情况进行选择,本申请实施例不作限定。
需要说明的是,在一些实施例中,分类损失、子空间量化损失与相似度特征损失并行地进行计算,也可以根据实际情况采取不同的先后计算次序,本申请实施例不作限定。
S209、基于分类损失、子空间量化损失与相似度特征损失,得到综合损失。
S209中,电子设备可以基于分类损失、子空间量化损失与相似度特征损失,对每个相似图像对集合的训练结果进行整体的综合性评估,得到综合损失。
在一些实施例中,电子设备可以对分类损失、子空间量化损失与相似度特征损失进行加权求和,得到综合损失。
在一些实施例中,可以通过公式(6)计算综合损失,如下:
Ltotal=w1Lq1+w2Lq2+w4Lem (6)
公式(6)中,Ltotal为综合损失,w1、w2与w4分别为分类损失、子空间量化损失与相似度特征损失的权重,可根据先验知识与实际工程需要经验值进行预设。在一些实施例中,为了提高embedding的表征能力,可以将w4设为1,并将w1与w2设为大于0且小于1的值,具体根据实际情况进行选择,本申请实施例不作限定。
S210、基于综合损失,对初始分类量化联合网络的网络参数进行迭代更新,直至满足预设训练条件时,得到分类量化联合网络。
本申请实施例中,电子设备可以根据综合损失,对初始分类量化联合网络的各级网络参数进行更新,并使用至少一个相似图像对集合,对初始分类量化联合网络进行迭代训练与网络参数更新,完成一轮(epoch)训练过程。电子设备可以对初始分类量化联合网络进行至少一轮迭代训练,直至满足预设训练条件,如综合损失小于预设综合损失阈值,或者训练次数达到预设学习次数时,结束训练,得到分类量化联合网络.
在一些实施例中,电子设备可以采用随机梯度下降法(Stochastic GradientDescent,SGD),根据上一轮的综合损失进行梯度后向计算,得到当前轮训练对应的全部网络参数的更新值,并相应地更新网络参数。
可以理解的是,本申请实施例通过在统一训练框架内训练初始分类量化联合网络,可以直接在提取特征的同时获得量化结果,减少了非端到端训练中先提取特征后学习量化的繁琐步骤以及过程损失;并通过不同层级量化目标,分别设计多级量化分支的度量学习任务,达到了多量化间的类似残差量化的效果,实现了从特征到量化的端到端学习,并使得最终量化的召回更准确,从而提高了图像检索的准确性。
在一些实施例中,基于图5,如图9所示,初始分类量化联合网络还可以包括量化联合分支。在一些实施例中,量化联合分支可以通过全连接层实现,采用方差为0.01,均值为0的高斯分布进行网络参数的初始化,并输出1*128维embedding向量作为总量化特征,如表5所示。在一些实施例中,量化联合分支还可以采用lr1=0.005的学习率,每经过10轮迭代后lr变为原来的0.1倍。量化联合分支可以也可以通过其他模型结构实现,具体的根据实际情况进行选择,本申请实施例不作限定。
名称 | 输出尺寸 | 网络结构 |
量化联合分支 | 1x128 | 全连接层 |
表5
在一些实施例中,基于图9所示的初始分类量化联合网络,本申请实施例提供的图像检索方法如图10所示,图10为基于图6实现的流程图,其中,图10中的S201-S208,以及S210参见图6的实现,此处不再详述。图10中,在S203之后,还可以包括S401-S404,将结合各步骤进行说明。
S401、在每个相似图像对集合的不同预设标注类别的相似图像对中,进行三元组样本选取,得到每个相似图像对集合对应的全局三元组集合。
S401中,电子设备可以在每个相似图像对集合的不同预设标注类别的相似图像对中,进行三元组样本选取,得到每个相似图像对集合对应的全局三元组集合;这里,全局三元组集合中的负样本图像与锚样本图像属于不同的预设标注类别。
S402、对于全局三元组集合中的每个全局三元组,将每个全局三元组中每个样本图像对应的样本类别向量与子空间量化特征进行特征合并,得到总量化特征。
S402中,电子设备可以基于全局三元组集合中的每个全局三元组进行样本图像的全局表征计算,将每个全局三元组中每个样本图像对应的样本类别向量与子空间量化特征进行特征合并,得到总量化特征,结合图9,电子设备可以通过量化联合分支,对一级量化分支输出的样本类别向量em1与二级量化分支输出的子空间量化特征em2进行拼接,得到每个全局三元组中每个样本图像对应的总量化特征em3,使得合并后的总量化特征具备全量特征空间的总表征能力。
S403、根据每个全局三元组中每个样本图像的总量化特征进行样本量化特征距离计算,得到每个相似图像对集合对应的量化联合损失。
S403中,电子设备根据每个全局三元组中每个样本图像的总量化特征em3进行样本量化特征距离计算,如Triplet Loss计算,得到每个相似图像对集合对应的量化联合损失。
在一些实施例中,由于总量化特征为表征全局的向量,比仅表征子空间的子空间量化特征需要正负样本距离更大,为了保证不同类别空间的区分度,在通过Triplet Loss计算量化联合损失时,调节参数可以设为比公式(2)中的α更大的数值,示例性地,设置为2.0。具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,对于某些不支持分级检索的图像检索***,可直接利用量化联合分支输出的总量化特征作为图像检索的索引。在图5中的一级量化分支与二级量化分支学习效果较好的情况下,图9中的量化联合分支为可选的,可以将量化联合分支对应的量化联合损失作为训练辅助,加快量化表征的收敛,并与一级量化分支与二级量化分支灵活组合,提高分类量化联合网络的灵活性。
S404、对分类损失、子空间量化损失、量化联合损失与相似度特征损失进行加权求和,得到综合损失。
S404中,基于量化联合分支得到的量化联合损失,电子设备可以对分类损失、子空间量化损失、量化联合损失与相似度特征损失这四项损失进行加权求和,得到结合了四种损失的综合损失,如公式(7)所示:
Ltotal=w1Lq1+w2Lq2+w3Lq3+w4Lem (7)
公式(7)中,Lq3为量化联合损失,w3为量化联合损失对应的权重。这里,结合公式(6),w3可以设置为小于w4的值,如大于0且小于1的值,具体的根据实际情况进行选择,本申请实施例不作限定。
可以理解的是,本申请实施例中,可以通过一级量化分支与二级量化分支联合产生量化空间表征,以提高分类量化联合网络的特征表征能力,从而提升分类量化联合网络的量化准确性,进而提升图像检索的准确性。并且,本申请实施例的联合学习方案可以使得训练得到的分类量化联合模型不仅支持分级检索,也支持单级检索,只需要采用一二级量化拼接的总量化特征作为索引即可,可以根据不同的业务应用实现灵活的改造。示例性地,如对于传统的Kmeans检索仅有一级索引,可利用本申请实施例提供的方法改造成一级量化检索。
下面,将结合图11,说明本申请实施例在一个实际的应用场景中的示例性应用。
在一个图像检索场景中,电子设备可以实施为图像检索服务器。如图11所示,图像检索服务器可以通过预先训练和部署的分类量化联合网络,对图像库中的每个库图像进行特征提取与特征映射,得到每个库图像对应的库全局特征(embedding),并对每个库图像的库全局特征进行一级量化与二级量化,得到每个库图像对应的库类别向量与库量化特征。图像检索服务器可以根据每个库图像对应的库类别向量与库量化特征生成图像库检索表,相当于预设分类索引关系。其中,图像库检索表包含索引1与索引2,索引1相当于一级对应关系,索引2相当于二级对应关系。
如图11所示,在用户将查询图像作为待检索图像,提交到图像检索服务器的情况下,图像检索服务器可以通过分类量化联合网络,对查询图像进行特征提取与特征映射,得到查询图像对应的检索向量特征;并基于查询图像的检索向量特征,分别通过分类量化联合网络中的一级量化分支,输出检索类别向量,并进行编码,得到检索类别编码,如图11中示出的(1,0,0);通过二级量化分支,在检索类别向量对应的类别空间中,根据检索向量特征进行特征量化,得到检索量化特征,如图11中示出的(0,1,1,0,1)。这里,图像检索服务器可以直接利用检索向量特征作为检索全局向量,如图11中示出的(0.2,0.8,0.3.0.3)。
图11中,图像检索服务器可以根据检索类别编码,在图像库检索表中进行匹配,返回与检索类别编码相同的候选库类别编码(1,0,0)作为一级返回的结果,进而根据图像库检索表中的索引1,确定候选库类别编码(1,0,0)对应的候选库量化特征集合(1,1,0,0,0)与(0,1,1,0,1)。进而,在候选库量化特征集合中,确定出相似度与检索量化特征匹配的目标库量化特征(0,1,1,0,1)。图像检索服务器根据索引2,召回目标库量化特征(0,1,1,0,1)对应的目标库图像集合,作为二级返回的结果。其中,目标库图像集合包含库全局特征分别为(0.1,0.5,0.2,0.2)与(0.2,0.4,0.2,0.3)的目标库图像。图像检索服务器将每张目标库图像的库全局特征,与检索全局特征(0.2,0.8,0.3,0.3)之间通过距离计算进行特征对比,并确定出与检索全局特征最接近的目标库图像,如库全局特征为(0.2,0.4,0.2,0.3)的目标库图像,作为图像检索结果。
可以理解的是,本申请实施例通过使得量化编码具备一定的相似度度量能力,提升了量化索引检索的召回效果,在二级量化索引下可以更快速召回图像相似度高的样本,提高了图像检索的准确性与效率。
下面继续说明本申请实施例提供的图像检索装置255的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器250的图像检索装置255中的软件模块可以包括:分类量化联合网络2551、检索模块2552、召回模块2553和确定模块2554,其中,
分类量化联合网络2551,用于对待检索图像进行分类量化处理,得到所述待检索图像对应的检索类别向量;在所述检索类别向量表征的类别空间中,对所述待检索图像进行特征量化处理,得到所述待检索图像对应的检索量化特征;所述分类量化联合网络是通过对分类量化处理与特征量化处理进行联合多任务学习得到的网络模型;
检索模块2552,用于根据所述检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码,并确定所述候选库类别编码对应的候选库量化特征集合;所述预设分类索引关系包含至少一个库类别编码与至少一个库量化特征之间的对应关系,以及至少一个库量化特征与预设图像库中的至少一个库图像之间的对应关系;
召回模块2553,用于在所述候选库量化特征集合中,确定相似度与所述检索量化特征匹配的目标库量化特征集合,并获取所述目标库量化特征集合对应的目标库图像集合。
确定模块2554,用于根据所述目标库图像集合,得到所述待检索图像对应的检索结果。
在一些实施例中,所述图像检索装置还包括索引构建模块,所述分类量化联合网络2551,还用于所述根据所述检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码之前,对所述预设图像库中的每个库图像进行分类量化处理与特征量化处理,得到所述每个库图像对应的库类别向量与库量化特征;
所述索引构建模块,用于对所述每个库图像对应的库类别向量进行编码,得到所述至少一个库图像对应的至少一个库类别编码;根据所述每个库图像对应的库类别编码与库量化特征,生成所述至少一个库类别编码中每个库类别编码与至少一个库量化特征的一级对应关系,以及所述至少一个库量化特征中每个库量化特征与至少一个库图像的二级对应关系;将所述一级对应关系与所述二级对应关系作为所述预设分类索引关系。
在一些实施例中,所述索引构建模块,还用于根据所述每个库图像对应的库类别编码,确定同一库类别编码对应的至少一个同类库图像,并将所述至少一个同类库图像对应的至少一个库量化特征,作为所述同一库类别编码对应的至少一个库量化特征,进而得到所述至少一个库类别编码中每个库类别编码与至少一个库量化特征的一级对应关系;对于所述至少一个库量化特征中的每个库量化特征,根据所述每个库图像对应的库量化特征,确定同一库量化特征对应的至少一个库图像,从而得到所述至少一个库量化特征中每个库量化特征与至少一个库图像的二级对应关系。
在一些实施例中,所述检索模块2552,还用于对所述检索类别向量进行编码,得到检索类别编码;计算所述检索类别编码与所述每个库类别编码之间的编码位距离,并将所述编码位距离满足预设差异度条件的库类别编码作为所述候选库类别编码;根据所述一级对应关系,确定所述候选库类别编码对应的至少一个候选库量化特征,作为所述候选库量化特征集合。
在一些实施例中,所述召回模块2553,还用于计算所述候选库量化特征集合中每个候选库量化特征与所述检索量化特征之间的特征相似度;将所述特征相似度满足预设相似度条件的候选库量化特征作为目标库量化特征,得到所述目标库量化特征集合。
在一些实施例中,所述分类量化联合网络2551,还用于对所述待检索图像进行特征提取与特征映射,得到所述待检索图像的检索向量特征;根据所述检索向量特征进行分类预测,得到所述待检索图像对应的分类预测结果,并基于所述分类预测结果进行二值量化,得到所述检索类别向量;在所述检索类别向量表征的类别空间内对所述检索向量特征进行符号量化处理,得到所述待检索图像的符号向量表征,作为所述检索量化特征。
在一些实施例中,所述分类量化联合网络2551,还用于对通过所述分类量化联合网络,对所述预设图像库中的每个库图像进行全局嵌入特征提取,得到所述每个库图像对应的库全局特征;对所述待检索图像进行全局嵌入特征提取,得到所述待检索图像对应的检索全局特征;在获取到所述目标库图像集合的情况下,计算所述检索全局特征与所述每个目标库图像对应的库全局特征之间的特征距离;
所述召回模块2553,还用于在获取到所述目标库图像集合的情况下,计算所述检索全局特征与所述每个目标库图像对应的库全局特征之间的特征距离;按照所述特征距离从小到大的顺序,选取预设数量个目标库图像,作为所述检索结果。
在一些实施例中,所述图像检索装置还包括训练模块,所述训练模块,用于所述通过所述分类量化联合网络,对所述待检索图像进行特征提取与特征映射,得到所述待检索图像的检索向量特征之前,获取至少一个相似图像对集合;每个相似图像对集合中包含至少一对相似图像;每对相似图像包含相同的预设标注类别的样本图像;通过初始分类量化联合网络,对所述每个相似图像对集合中的每个样本图像进行特征提取与特征映射,得到所述每个样本图像的样本向量特征;根据所述样本向量特征进行分类预测与二值量化,得到所述每个样本图像对应的样本类别向量;基于所述样本类别向量与所述预设标注类别,得到所述每个相似图像对集合对应的分类损失;通过所述初始分类量化联合网络,在所述样本类别向量表征的类别空间内,对所述样本向量特征进行符号量化处理,得到所述每个样本图像对应的子空间量化特征;对于所述每对相似图像,在所述每个相似图像对集合中相同预设标注类别的相似图像对中,根据所述每个样本图像对应的子空间量化特征进行三元组样本选取,得到所述每对相似图像对应的至少一个子空间三元组,从而得到所述每个相似图像对集合对应的子空间三元组集合;根据所述每个样本图像对应的子空间量化特征,对所述每个子空间三元组进行样本量化特征距离计算以及符号量化损失计算,得到所述每个相似图像对集合对应的子空间量化损失;根据所述每个样本图像的样本向量特征,对所述子空间三元组集合中的每个子空间三元组进行样本相似性计算,得到所述每个相似图像对集合对应的相似度特征损失;基于所述分类损失、所述子空间量化损失与所述相似度特征损失,得到综合损失;基于所述综合损失,对所述初始分类量化联合网络的网络参数进行迭代更新,直至满足预设训练条件时,得到所述分类量化联合网络。
在一些实施例中,所述每对相似图像中的样本图像包含锚图像与正样本图像;所述训练模块,还用于在所述每个相似图像对集合中,选取与所述每对相似图像的预设标注类别相同的至少一个样本图像,得到同类图像集;根据所述每个样本图像对应的子空间量化特征,计算所述同类图像集中每个同类图像与所述每对相似图像中的锚图像之间的图像相似度,并基于所述图像相似度与预设负样本约束条件,确定所述锚图像对应的至少一个负样本图像;将所述至少一个负样本图像中的每个负样本图像分别与所述锚图像以及所述正样本图像进行组合,得到所述每对相似图像对应的至少一个子空间三元组。
在一些实施例中,所述训练模块,还用于根据所述每个样本图像对应的子空间量化特征,得到所述每个子空间三元组中的所述锚图像对应的锚样本子空间量化特征、所述正样本图像对应的正样本子空间量化特征、以及负样本图像对应的负样本子空间量化特征;根据所述锚样本子空间量化特征与所述正样本子空间量化特征进行距离计算,得到第一量化距离;计算所述锚样本子空间量化特征与所述负样本子空间量化特征之间的特征距离,得到第二量化距离;根据所述第一量化距离与所述第二量化距离的差值,得到量化距离损失;通过预设符号编码函数,生成所述锚样本子空间量化特征、所述正样本子空间量化特征与所述负样本子空间量化特征各自对应的目标编码,并分别计算所述锚样本子空间量化特征、所述正样本子空间量化特征与所述负样本子空间量化特征与各自对应的目标编码之间的回归损失,得到量化编码损失;对所述量化距离损失与所述量化编码损失进行加权求和,得到所述子空间量化损失。
在一些实施例中,所述训练模块,还用于在所述每个相似图像对集合的不同预设标注类别的相似图像对中,进行三元组样本选取,得到所述每个相似图像对集合对应的全局三元组集合;对于所述全局三元组集合中的每个全局三元组,将所述每个全局三元组中每个样本图像对应的样本类别向量与子空间量化特征进行特征合并,得到总量化特征;根据所述每个全局三元组中每个样本图像的总量化特征,进行样本量化特征距离计算,得到所述每个相似图像对集合对应的量化联合损失。
在一些实施例中,所述训练模块,还用于对所述分类损失、所述子空间量化损失、所述量化联合损失与所述相似度特征损失进行加权求和,得到所述综合损失。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供一种计算机程序产品,该计算机程序产品包括计算机程序或可执行指令,在计算机程序或可执行指令在电子设备上运行的情况下,电子设备执行如本申请实施例中所述的图像检索方法。
本申请实施例提供一种电子设备,如图12所示,电子设备30可以包括:存储器301和处理器302;各个组件通过总线***303耦合在一起。可理解,总线***303用于实现这些组件之间的连接通信。总线***303除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图12中将各种总线都标为总线***303。其中,
存储器301,用于存储可执行指令;
处理器302,用于执行存储器301中存储的可执行指令时,实现上述实施例中的图像检索方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图4、6、7、10中示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,本申请实施例通过对分类量化处理与特征量化处理进行联合多任务学习得到的分类量化联合网络,实现了从特征到量化的端到端模型学习,提高了特征量化处理的准确性,进而提高了根据特征量化处理得到的检索量化特征进行图像检索召回的准确性。并且,结合分类量化处理与特征量化处理,加强了对待检索图像embedding的表征效果,进一步提高了图像检索的准确性。进一步的,利用检索类别向量表征的类别空间的量化约束,得到检索量化特征,通过不同层级不同的量化向量维度,减少了量化特征使用的比特位,进而在与分层构建的预设分类索引关系相结合进行分层检索时,能够降低检索的计算复杂度,缩短检索计算时间,从而提高了图像检索效率。并且,通过在统一训练框架内的初始分类量化联合网络产生分类量化向量和空间量化特征,对于相似的图像样本对,可以直接在提取特征的同时获得量化结果,减少了非端到端训练中先提取特征后学习量化的繁琐步骤以及过程损失;并通过不同层级量化目标,分别设计多级量化分支的度量学习任务,达到了多量化间的类似残差量化的效果,实现了从特征到量化的端到端学习,并使得最终量化的召回更准确,从而提高了图像检索的准确性。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (15)
1.一种图像检索方法,其特征在于,包括:
通过分类量化联合网络,对待检索图像进行分类量化处理,得到所述待检索图像对应的检索类别向量;
在所述检索类别向量表征的类别空间中,对所述待检索图像进行特征量化处理,得到所述待检索图像对应的检索量化特征;所述分类量化联合网络是通过对分类量化处理与特征量化处理进行联合多任务学习得到的网络模型;
根据所述检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码,并确定所述候选库类别编码对应的候选库量化特征集合;所述预设分类索引关系包含至少一个库类别编码与至少一个库量化特征之间的对应关系,以及至少一个库量化特征与预设图像库中的至少一个库图像之间的对应关系;
在所述候选库量化特征集合中,确定与所述检索量化特征匹配的目标库量化特征集合,并获取所述目标库量化特征集合对应的目标库图像集合;
根据所述目标库图像集合,得到所述待检索图像对应的检索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码之前,所述方法还包括:
通过所述分类量化联合网络,对所述预设图像库中的每个库图像进行分类量化处理与特征量化处理,得到所述每个库图像对应的库类别向量与库量化特征;
对所述每个库图像对应的库类别向量进行编码,得到所述至少一个库图像对应的至少一个库类别编码;
根据所述每个库图像对应的库类别编码与库量化特征,生成所述至少一个库类别编码中每个库类别编码与至少一个库量化特征的一级对应关系,以及所述至少一个库量化特征中每个库量化特征与至少一个库图像的二级对应关系;
将所述一级对应关系与所述二级对应关系作为所述预设分类索引关系。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个库图像对应的库类别编码与库量化特征,生成所述至少一个库类别编码中每个库类别编码与至少一个库量化特征的一级对应关系,以及所述至少一个库量化特征中每个库量化特征与至少一个库图像的二级对应关系,包括:
根据所述每个库图像对应的库类别编码,确定同一库类别编码对应的至少一个同类库图像,并将所述至少一个同类库图像对应的至少一个库量化特征,作为所述同一库类别编码对应的至少一个库量化特征,进而得到所述至少一个库类别编码中每个库类别编码与至少一个库量化特征的一级对应关系;
对于所述至少一个库量化特征中的每个库量化特征,根据所述每个库图像对应的库量化特征,确定同一库量化特征对应的至少一个库图像,从而得到所述至少一个库量化特征中每个库量化特征与至少一个库图像的二级对应关系。
4.根据权利要求2所述的方法,其特征在于,所述根据所述检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码,并确定所述候选库类别编码对应的候选库量化特征集合,包括:
对所述检索类别向量进行编码,得到检索类别编码;
计算所述检索类别编码与所述每个库类别编码之间的编码位距离,并将所述编码位距离满足预设差异度条件的库类别编码作为所述候选库类别编码;
根据所述一级对应关系,确定所述候选库类别编码对应的至少一个候选库量化特征,作为所述候选库量化特征集合。
5.根据权利要求1所述的方法,其特征在于,所述在所述候选库量化特征集合中,确定与所述检索量化特征匹配的目标库量化特征集合,包括:
计算所述候选库量化特征集合中每个候选库量化特征与所述检索量化特征之间的特征相似度;
将所述特征相似度满足预设相似度条件的候选库量化特征作为目标库量化特征,得到所述目标库量化特征集合。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述通过分类量化联合网络,对待检索图像进行分类量化处理,得到所述待检索图像对应的检索类别向量,包括:
通过所述分类量化联合网络,对所述待检索图像进行特征提取与特征映射,得到所述待检索图像的检索向量特征;
根据所述检索向量特征进行分类预测,得到所述待检索图像对应的分类预测结果,并基于所述分类预测结果进行二值量化,得到所述检索类别向量;
所述在所述检索类别向量表征的类别空间中,对所述待检索图像进行特征量化处理,得到所述待检索图像对应的检索量化特征,包括:
通过所述分类量化联合网络,在所述检索类别向量表征的类别空间内对所述检索向量特征进行符号量化处理,得到所述待检索图像的符号向量表征,作为所述检索量化特征。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过所述分类量化联合网络,对所述预设图像库中的每个库图像进行全局嵌入特征提取,得到所述每个库图像对应的库全局特征;
对所述待检索图像进行全局嵌入特征提取,得到所述待检索图像对应的检索全局特征;
在获取到所述目标库图像集合的情况下,计算所述检索全局特征与所述每个目标库图像对应的库全局特征之间的特征距离;
按照所述特征距离从小到大的顺序,选取前预设数量个目标库图像,作为所述检索结果。
8.根据权利要求6所述的方法,其特征在于,所述通过所述分类量化联合网络,对所述待检索图像进行特征提取与特征映射,得到所述待检索图像的检索向量特征之前,所述方法还包括:
获取至少一个相似图像对集合;每个相似图像对集合中包含至少一对相似图像;每对相似图像包含相同的预设标注类别的样本图像;
通过初始分类量化联合网络,对所述每个相似图像对集合中的每个样本图像进行特征提取与特征映射,得到所述每个样本图像的样本向量特征;
根据所述样本向量特征进行分类预测与二值量化,得到所述每个样本图像对应的样本类别向量;
基于所述样本类别向量与所述预设标注类别,得到所述每个相似图像对集合对应的分类损失;
通过所述初始分类量化联合网络,在所述样本类别向量表征的类别空间内,对所述样本向量特征进行符号量化处理,得到所述每个样本图像对应的子空间量化特征;
对于所述每对相似图像,在所述每个相似图像对集合中相同预设标注类别的相似图像对中,根据所述每个样本图像对应的子空间量化特征进行三元组样本选取,得到所述每对相似图像对应的至少一个子空间三元组,从而得到所述每个相似图像对集合对应的子空间三元组集合;
根据所述每个样本图像对应的子空间量化特征,对所述每个子空间三元组进行样本量化特征距离计算以及符号量化损失计算,得到所述每个相似图像对集合对应的子空间量化损失;
根据所述每个样本图像的样本向量特征,对所述子空间三元组集合中的每个子空间三元组进行样本相似性计算,得到所述每个相似图像对集合对应的相似度特征损失;
基于所述分类损失、所述子空间量化损失与所述相似度特征损失,得到综合损失;
基于所述综合损失,对所述初始分类量化联合网络的网络参数进行迭代更新,直至满足预设训练条件时,得到所述分类量化联合网络。
9.根据权利要求8所述的方法,其特征在于,所述每对相似图像中的样本图像包含锚图像与正样本图像;所述在所述每个相似图像对集合中相同预设标注类别的相似图像对中,根据所述每个样本图像对应的子空间量化特征进行三元组样本选取,得到所述每对相似图像对应的至少一个子空间三元组,包括:
在所述每个相似图像对集合中,选取与所述每对相似图像的预设标注类别相同的至少一个样本图像,得到同类图像集;
根据所述每个样本图像对应的子空间量化特征,计算所述同类图像集中每个同类图像与所述每对相似图像中的锚图像之间的图像相似度,并基于所述图像相似度与预设负样本约束条件,确定所述锚图像对应的至少一个负样本图像;
将所述至少一个负样本图像中的每个负样本图像分别与所述锚图像以及所述正样本图像进行组合,得到所述每对相似图像对应的至少一个子空间三元组。
10.根据权利要求9所述的方法,其特征在于,所述根据所述每个样本图像对应的子空间量化特征,对所述每个子空间三元组进行样本量化特征距离计算以及符号量化损失计算,得到所述每个相似图像对集合对应的子空间量化损失,包括:
根据所述每个样本图像对应的子空间量化特征,得到所述每个子空间三元组中的所述锚图像对应的锚样本子空间量化特征、所述正样本图像对应的正样本子空间量化特征、以及负样本图像对应的负样本子空间量化特征;
根据所述锚样本子空间量化特征与所述正样本子空间量化特征进行距离计算,得到第一量化距离;
计算所述锚样本子空间量化特征与所述负样本子空间量化特征之间的特征距离,得到第二量化距离;
根据所述第一量化距离与所述第二量化距离的差值,得到量化距离损失;
通过预设符号编码函数,生成所述锚样本子空间量化特征、所述正样本子空间量化特征与所述负样本子空间量化特征各自对应的目标编码,并分别计算所述锚样本子空间量化特征、所述正样本子空间量化特征与所述负样本子空间量化特征与各自对应的目标编码之间的回归损失,得到量化编码损失;
对所述量化距离损失与所述量化编码损失进行加权求和,得到所述子空间量化损失。
11.根据权利要求9或10所述的方法,其特征在于,所述方法还包括:
在所述每个相似图像对集合的不同预设标注类别的相似图像对中,进行三元组样本选取,得到所述每个相似图像对集合对应的全局三元组集合;
对于所述全局三元组集合中的每个全局三元组,将所述每个全局三元组中每个样本图像对应的样本类别向量与子空间量化特征进行特征合并,得到总量化特征;
根据所述每个全局三元组中每个样本图像的总量化特征,进行样本量化特征距离计算,得到所述每个相似图像对集合对应的量化联合损失。
12.根据权利要求11所述的方法,其特征在于,所述基于所述分类损失、所述子空间量化损失与所述相似度特征损失,得到综合损失,包括:
对所述分类损失、所述子空间量化损失、所述量化联合损失与所述相似度特征损失进行加权求和,得到所述综合损失。
13.一种图像检索装置,其特征在于,包括:
分类量化联合网络,用于对待检索图像进行分类量化处理,得到所述待检索图像对应的检索类别向量;在所述检索类别向量表征的类别空间中,对所述待检索图像进行特征量化处理,得到所述待检索图像对应的检索量化特征;所述分类量化联合网络是通过对分类量化处理与特征量化处理进行联合多任务学习得到的网络模型;
检索模块,用于根据所述检索类别向量与预设分类索引关系中至少一个库类别编码的差异度,确定候选库类别编码,并确定所述候选库类别编码对应的候选库量化特征集合;所述预设分类索引关系包含至少一个库类别编码与至少一个库量化特征之间的对应关系,以及至少一个库量化特征与预设图像库中的至少一个库图像之间的对应关系;
召回模块,用于在所述候选库量化特征集合中,确定与所述检索量化特征匹配的目标库量化特征集合,并获取所述目标库量化特征集合对应的目标库图像集合;
确定模块,用于根据所述目标库图像集合,得到所述待检索图像对应的检索结果。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110839132.3A CN113821670B (zh) | 2021-07-23 | 2021-07-23 | 图像检索方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110839132.3A CN113821670B (zh) | 2021-07-23 | 2021-07-23 | 图像检索方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113821670A CN113821670A (zh) | 2021-12-21 |
CN113821670B true CN113821670B (zh) | 2024-04-16 |
Family
ID=78923926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110839132.3A Active CN113821670B (zh) | 2021-07-23 | 2021-07-23 | 图像检索方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113821670B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372205B (zh) * | 2022-03-22 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 特征量化模型的训练方法、装置以及设备 |
CN114676279B (zh) * | 2022-05-25 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN115344728A (zh) * | 2022-10-17 | 2022-11-15 | 北京百度网讯科技有限公司 | 图像检索模型训练、使用方法、装置、设备和介质 |
CN117197591B (zh) * | 2023-11-06 | 2024-03-12 | 青岛创新奇智科技集团股份有限公司 | 一种基于机器学习的数据分类方法 |
CN117557689B (zh) * | 2024-01-11 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376003A (zh) * | 2013-08-13 | 2015-02-25 | 深圳市腾讯计算机***有限公司 | 一种视频检索方法及装置 |
JP2017045291A (ja) * | 2015-08-27 | 2017-03-02 | ムラタオフィス株式会社 | 類似画像検索システム |
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN107943938A (zh) * | 2017-11-23 | 2018-04-20 | 清华大学 | 一种基于深度乘积量化的大规模图像相似检索方法及*** |
CN108920720A (zh) * | 2018-07-30 | 2018-11-30 | 电子科技大学 | 基于深度哈希和gpu加速的大规模图像检索方法 |
CN109783671A (zh) * | 2019-01-30 | 2019-05-21 | 京东方科技集团股份有限公司 | 一种以图搜图的方法、计算机可读介质及服务器 |
CN109857889A (zh) * | 2018-12-19 | 2019-06-07 | 苏州科达科技股份有限公司 | 一种图像检索方法、装置、设备及可读存储介质 |
WO2019230666A1 (ja) * | 2018-06-01 | 2019-12-05 | 日本電信電話株式会社 | 特徴量抽出装置、方法、及びプログラム |
CN112766458A (zh) * | 2021-01-06 | 2021-05-07 | 南京瑞易智能科技有限公司 | 一种联合分类损失的双流有监督深度哈希图像检索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10755104B2 (en) * | 2018-06-18 | 2020-08-25 | Hulu, LLC | Scene level video search |
US11556581B2 (en) * | 2018-09-04 | 2023-01-17 | Inception Institute of Artificial Intelligence, Ltd. | Sketch-based image retrieval techniques using generative domain migration hashing |
-
2021
- 2021-07-23 CN CN202110839132.3A patent/CN113821670B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376003A (zh) * | 2013-08-13 | 2015-02-25 | 深圳市腾讯计算机***有限公司 | 一种视频检索方法及装置 |
JP2017045291A (ja) * | 2015-08-27 | 2017-03-02 | ムラタオフィス株式会社 | 類似画像検索システム |
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN107943938A (zh) * | 2017-11-23 | 2018-04-20 | 清华大学 | 一种基于深度乘积量化的大规模图像相似检索方法及*** |
WO2019230666A1 (ja) * | 2018-06-01 | 2019-12-05 | 日本電信電話株式会社 | 特徴量抽出装置、方法、及びプログラム |
CN108920720A (zh) * | 2018-07-30 | 2018-11-30 | 电子科技大学 | 基于深度哈希和gpu加速的大规模图像检索方法 |
CN109857889A (zh) * | 2018-12-19 | 2019-06-07 | 苏州科达科技股份有限公司 | 一种图像检索方法、装置、设备及可读存储介质 |
CN109783671A (zh) * | 2019-01-30 | 2019-05-21 | 京东方科技集团股份有限公司 | 一种以图搜图的方法、计算机可读介质及服务器 |
CN112766458A (zh) * | 2021-01-06 | 2021-05-07 | 南京瑞易智能科技有限公司 | 一种联合分类损失的双流有监督深度哈希图像检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113821670A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113821670B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
CN111353076B (zh) | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 | |
Santa Cruz et al. | Visual permutation learning | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
CN113590863A (zh) | 图像聚类方法、装置及计算机可读存储介质 | |
CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
CN114358109A (zh) | 特征提取模型训练、样本检索方法、装置和计算机设备 | |
CN111368176B (zh) | 基于监督语义耦合一致的跨模态哈希检索方法及*** | |
CN115885274A (zh) | 跨模态检索方法、跨模态检索模型的训练方法及相关设备 | |
CN113537304A (zh) | 一种基于双向cnn的跨模态语义聚类方法 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN115221369A (zh) | 视觉问答的实现方法和基于视觉问答检验模型的方法 | |
CN114764865A (zh) | 数据分类模型训练方法、数据分类方法和装置 | |
CN116561314B (zh) | 基于自适应阈值选择自注意力的文本分类方法 | |
CN116431827A (zh) | 信息处理方法、装置、存储介质及计算机设备 | |
CN116975743A (zh) | 行业信息分类方法、装置、计算机设备和存储介质 | |
CN113886602B (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
CN113822291A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN113537270A (zh) | 数据分类方法及多分类模型训练方法、装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |