CN114020948A - 基于排序聚类序列辨别选择的草图图像检索方法及*** - Google Patents

基于排序聚类序列辨别选择的草图图像检索方法及*** Download PDF

Info

Publication number
CN114020948A
CN114020948A CN202111259946.6A CN202111259946A CN114020948A CN 114020948 A CN114020948 A CN 114020948A CN 202111259946 A CN202111259946 A CN 202111259946A CN 114020948 A CN114020948 A CN 114020948A
Authority
CN
China
Prior art keywords
layer
image
sketch
image retrieval
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111259946.6A
Other languages
English (en)
Other versions
CN114020948B (zh
Inventor
陈亚雄
汤一博
李小玉
赵东婕
熊盛武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202111259946.6A priority Critical patent/CN114020948B/zh
Priority claimed from CN202111259946.6A external-priority patent/CN114020948B/zh
Publication of CN114020948A publication Critical patent/CN114020948A/zh
Application granted granted Critical
Publication of CN114020948B publication Critical patent/CN114020948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于排序聚类序列辨别选择的草图图像检索方法,首先绘制查询草图并选择辨别区域,同时利用排序信息来聚合相同类别的样本,通过这样做,可以了解样本在其他模态下应该是什么样子。最后我们利用哈希码来执行草图图像的检索。本发明设计有序列辨别选择模块的三元组transformer主干,捕捉草图和自然图像之间的重要辨别域;提出由三元组项,语义相似项,排序聚类项和辨别学习项构成的目标函数,在哈希码学习过程中保持哈希码的语义相似性,捕捉不同模态之间的相似性,优化排序信息从而对相似实例进行聚类并且知道辨别域学习。解决冗余信息和忽略排序信息的问题,使检索精度更高,进一步提升性能。

Description

基于排序聚类序列辨别选择的草图图像检索方法及***
技术领域
本发明属于图像检索技术领域,涉及一种草图图像检索方法及***,特别涉及一种基于排序聚类序列辨别选择的草图图像检索方法及***。
背景技术
由于触摸屏设备的***性增长,草图的使用变得越来越频繁:用户可以随时随地用手指在触摸屏设备上绘制草图。利用草图挖掘有效的自然图像是非常有意义的。因此草图图像检索受到的关注越来越多,草图图像检索的目的是通过利用手绘草图作为查询方式来匹配自然图像。
现有的草图图像检索方法大致分为两类:手工制作方法和深度学习方法。但因为手工制作特征不能有效地表示具有较大变化和歧义的自然图像和未对齐草图的边缘,手工制作草图图像检索方法不能很好地减少草图和自然图像之间的跨域差异。为了解决跨域差异的问题,提出了深度学习草图图像检索方法。但现有的深度学习方法仍面临两个挑战:(1)草图和自然图像包含具有相似轮廓形状的不同对象。一些深度学习草图检索方法不能捕捉草图和自然图像之间重要的辨别域,导致信息冗余问题,最终影响草图图像检索的性能;(2)排序信息与检索结果密切相关。在草图检索任务的哈希码学习过程中,现有的方法忽略了对排序信息的利用,导致性能不理想。
发明内容
本发明针对现有技术的不足,提供一种基于排序聚类序列辨别选择的草图图像检索方法及***,充分利用区分区域和排序信息来执行哈希码学习,首先绘制查询草图并选择辨别区域,同时利用排序信息来聚合相同类别的样本,通过这样做,可以了解样本在其他模态下应该是什么样子。最后利用哈希码来执行草图图像的检索。
本发明的方法所采用的技术方案是:一种基于排序聚类序列辨别选择的草图图像检索方法,首先构建草图图像检索网络,然后利用所述草图图像检索网络进行草图图像检索;
所述构建草图图像检索网络,具体实现包括以下步骤:
步骤1:构建草图图像检索网络;
所述草图图像检索网络,包括transformer分割模块、线性投影模块、transformer编码模块;
所述transformer分割模块,用于将输入图像分成M个2D小块图像xp,每幅图像的大小是H×W,图像中每个小块图像的大小是P×P,
Figure BDA0003325304540000021
所述线性投影模块,用于将所述transformer模块输出的小块图像映射到D维度,将可学习的位置嵌入添加到小块图像嵌入中,用以保存位置信息;其中,嵌入向量记为z0,位置零的输出是D维类令牌xclass
所述transformer编码模块,用于通过送入transformer编码模块的z0,挖掘序列中小块图像之间的关系;所述transformer编码模块包括L个transformer层和一个哈希层,每个transformer层包含多头自注意层MSA和Conv1×1块,Conv1×1块由带有1×1的卷积核的两个卷积层和一个全连接层;对于每一个transformer层,它的输入都是前一层的输出;第L层transformer输出输入哈希层,进行深度哈希函数学习,将输出的哈希码用于构建目标函数中的三元组项、类别级语义项和排序聚类项;
步骤2:获取现有草图图像数据集,将数据集划分为训练数据集、验证数据集和测试数据集;
步骤3:在训练数据集中,给定N个三元组单元
Figure BDA0003325304540000022
和三元组标签
Figure BDA0003325304540000023
其中
Figure BDA0003325304540000024
中的三个元素依次分别表示第i个数据的锚点草图、正例图像和负例图像;
Figure BDA0003325304540000025
表示
Figure BDA0003325304540000026
的类标签,
Figure BDA0003325304540000027
表示
Figure BDA0003325304540000028
的类标签,
Figure BDA0003325304540000029
表小
Figure BDA00033253045400000210
的类标签;其中,N、I分别表示三元组单元的个数和数据集中样本的个数;a,p,n分别表示锚点图像、正例图像和负例图像;
步骤4:利用训练集训练草图图像检索网络,计算草图图像检索网络的目标函数并更新草图图像检索网络的初始参数;网络训练达到预设轮次或直到损失不再下降为止;获得训练好的草图图像检索网络。
本发明的***所采用的技术方案是:一种基于排序聚类序列辨别选择的草图图像检索***,包括以下模块:
模块1,用于构建草图图像检索网络模块;
模块2,用于利用所述草图图像检索网络进行草图图像检索;
所述模块1,具体包括以下子模块:
子模块1,用于构建草图图像检索网络;
所述草图图像检索网络,包括transformer分割模块、线性投影模块、transformer编码模块;
所述transformer分割模块,用于将输入图像分成M个2D小块图像xp,每幅图像的大小是H×W,图像中每个小块图像的大小是P×P,
Figure BDA0003325304540000031
所述线性投影模块,用于将所述transformer模块输出的小块图像映射到D维度,将可学习的位置嵌入添加到小块图像嵌入中,用以保存位置信息;其中,嵌入向量记为z0,位置零的输出是D维类令牌xclass
所述transformer编码模块,用于通过送入transformer编码模块的z0,挖掘序列中小块图像之间的关系;所述transformer编码模块包括L个transformer层和一个哈希层,每个transformer层包含多头自注意层MSA和Conv1×1块,Conv1×1块由带有1×1的卷积核的两个卷积层和一个全连接层;对于每一个transformer层,它的输入都是前一层的输出;第L层transformer输出输入哈希层,进行深度哈希函数学习,将输出的哈希码用于构建目标函数中的三元组项、类别级语义项和排序聚类项;
子模块2,用于获取现有草图图像数据集,将数据集划分为训练数据集、验证数据集和测试数据集;
子模块步骤3,用于在训练数据集中,给定N个三元组单元
Figure BDA0003325304540000032
和三元组标签
Figure BDA0003325304540000033
其中
Figure BDA0003325304540000034
中的三个元素依次分别表示第i个数据的锚点草图、正例图像和负例图像;
Figure BDA0003325304540000035
表示
Figure BDA0003325304540000036
的类标签,
Figure BDA0003325304540000037
表示
Figure BDA0003325304540000038
的类标签,
Figure BDA0003325304540000039
表示
Figure BDA00033253045400000310
的类标签;其中,N、I分别表示三元组单元的个数和数据集中样本的个数;a,p,n分别表示锚点图像、正例图像和负例图像;
子模块4,用于利用训练集训练草图图像检索网络,计算草图图像检索网络的目标函数并更新草图图像检索网络的初始参数;网络训练达到预设轮次或直到损失不再下降为止;获得训练好的草图图像检索网络。
与现有技术相比,本发明具有如下优点:
1)设计有序列辨别选择模块的三元组transformer主干,捕捉草图和自然图像之间的重要辨别域;
2)提出由三元组项,语义相似项,排序聚类项和辨别学习项构成的目标函数,在哈希码学习过程中保持哈希码的语义相似性,捕捉不同模态之间的相似性,优化排序信息从而对相似实例进行聚类并且知道辨别域学习。解决冗余信息和忽略排序信息的问题,是检索精度更高,进一步提升性能。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的网络结构图。
图3为本发明方法和DSIH-V方法在扩展的TU-Berlin数据集上的对比。(a)使用DSIH-V检索256位哈希码图像的前20名。(b)使用DSIH检索256位哈希码图像的前20名。错误的检索图像由×在图像下方标注。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种基于排序聚类序列辨别选择的草图图像检索方法,充分利用区分区域和排序信息来执行哈希码学习,首先绘制查询草图并选择辨别区域,同时利用排序信息来聚合相同类别的样本,通过这样做,可以了解样本在其他模态下应该是什么样子。最后我们利用哈希码来执行草图图像的检索。
请见图1,本发明提供的一种基于排序聚类序列辨别选择的草图图像检索方法,首先构建草图图像检索网络,然后利用草图图像检索网络进行草图图像检索;
构建草图图像检索网络,具体实现包括以下步骤:
步骤1:构建草图图像检索网络;
请见图2,本实施例的草图图像检索网络,包括transformer分割模块、线性投影模块、transformer编码模块;
transformer分割模块,用于将输入图像分成M个2D小块图像xp,每幅图像的大小是H×W,图像中每个小块图像的大小是P×P,
Figure BDA0003325304540000041
线性投影模块,用于将transformer模块输出的小块图像映射到D维度,将可学习的位置嵌入添加到小块图像嵌入中,用以保存位置信息;其中,嵌入向量记为z0,位置零的输出是D维类令牌xclass
嵌入向量为:
Figure BDA0003325304540000051
其中,
Figure BDA0003325304540000052
分别表示第1,2,…,M个2维小块图像;E表示小块图像嵌入投影,Epos表示位置嵌入。
为了更好地关注最有效区域,z0被送入transformer编码模块中,挖掘序列中小块图像之间的关系。
本实施例的transformer编码模块包括L个transformer层和一个哈希层,每个transformer层包含多头自注意层MSA和Conv1×1块,Conv1×1块由带有1×1的卷积核的两个卷积层和一个全连接层;对于每一个transformer层,它的输入都是前一层的输出;第L层transformer输出输入哈希层,进行深度哈希函数学习,将输出的哈希码用于构建目标函数中的三元组项、类别级语义项和排序聚类项;
transformer编码模块为:
z′l=MAS(LN(zl-1)+zl-1) (2)
zl=CONV(LN(z′l)+z′l) (3)
其中,LN(·)表示层的归一化操作,zl表示嵌入图像表示;z′l表示多头自注意层的输出,CONV(·)表示卷积操作。
为了充分利用注意信息,序列辨别选择用于选择有效区域以形成新序列。对于transformer,第L层的输入是
Figure BDA0003325304540000053
其中,
Figure BDA0003325304540000054
分别表示第L-1层的M个输出;除第L层外,每一层的K头自注意权重是
Figure BDA0003325304540000055
其中l∈1,2,...,L-1。对于每一层的自注意,每个小块图像有K组结点。因此,每一层中M个小块图像的权重可以表示为
Figure BDA0003325304540000056
其中i∈1,2,...,K。将前L-1层的权重相乘得到最终的权值,如下:
Figure BDA0003325304540000057
其中,w f 表示能选择辨别区域的最终权值。
携带有用信息的小块图像的索引可以由选择区域获得,同时,将索引作为位置信息用来找到相应的小块图像嵌入。选择嵌入形成一个新序列并进入第L层transformer。
第L层transformer之后是哈希层,相应的给定任意的三元组单元
Figure BDA0003325304540000061
深度哈希函数为:
Figure BDA0003325304540000062
其中,sign(·)表示元素符号函数;φ(·)表示tanh函数;
Figure BDA0003325304540000063
表示样本
Figure BDA0003325304540000064
的K为哈希码;
Figure BDA0003325304540000065
表示样本
Figure BDA0003325304540000066
在第L层transformer的输出,且
Figure BDA0003325304540000067
表示深度哈希函数;θg表示哈希层的权重参数。
步骤2:获取现有草图图像数据集,将数据集划分为训练数据集、验证数据集和测试数据集;验证集在实验过程中用到,用于检验模型训练效果,这里只写出在测试集上的模型性能。
本发明实施的实例使用两个数据集,分别是Sketchy dataset和TU-Berlindataset,对于每一个数据集,以70:10:20的比例将数据集划分为训练集、验证集和测试集。
步骤3:在训练数据集中,给定N个三元组单元
Figure BDA0003325304540000068
阳三元组标签
Figure BDA0003325304540000069
其中
Figure BDA00033253045400000610
中的三个元素依次分别表示第i个数据的锚点草图、正例图像和负例图像;
Figure BDA00033253045400000611
表示
Figure BDA00033253045400000612
的类标签,
Figure BDA00033253045400000613
表示
Figure BDA00033253045400000614
的类标签,
Figure BDA00033253045400000615
表示
Figure BDA00033253045400000616
的类标签;其中,N、I分别表示三元组单元的个数和数据集中样本的个数;a,p,n分别表示锚点图像、正例图像和负例图像;
本发明的目标是执行哈希码学习将实例投影至哈希码同时保留匹配草图和图像之间的相似性。更具体,
Figure BDA00033253045400000617
Figure BDA00033253045400000618
更小,其中H(·,·)表示汉明距离,
Figure BDA00033253045400000619
Figure BDA00033253045400000620
分别表示
Figure BDA00033253045400000621
Figure BDA00033253045400000622
的k位哈希码,
Figure BDA00033253045400000623
Figure BDA00033253045400000624
分别表示锚点图像、正例图像和负例图像的哈希码;
步骤4:利用训练集训练草图图像检索网络,计算草图图像检索网络的目标函数并更新草图图像检索网络的初始参数;网络训练达到预设轮次或直到损失不再下降为止;获得训练好的草图图像检索网络。
本实施例中,将学习率设置为0.0004,利用Adam函数优化损失函数,并更新初始参数。
本发明提出一种新的,由三元组项、语义相似项、排序聚类项和辨别学习项组成的目标函数,在哈希码学习过程中保持哈希码的语义相似性,捕捉不同模态的相似性,优化排序信息聚类相似实例并知道辨别域学习。
本发明执行哈希码学习,可以将实例映射到哈希码同时保持匹配的草图和图像的相似性,为了捕捉不同模态的相似性,三元组项可以定义为:
Figure BDA0003325304540000071
其中,H(·,·)表示汉明距离,δ表示边界参数,max(·)表示最大值函数。
然而上述三元组项在训练过程中很难进行优化,因此将二进制码
Figure BDA0003325304540000072
Figure BDA0003325304540000073
松弛为类似哈希码
Figure BDA0003325304540000074
Figure BDA0003325304540000075
利用二范式代替汉明距离,三元组项重新定义如下:
Figure BDA0003325304540000076
其中,||·||2表示二范式向量。
类别级语义信息有助于提高相似哈希码之间的潜在相关性,因此,利用标签信息为学习哈希函数提供类别级语义,类别级语义项定义如下:
Figure BDA0003325304540000077
其中,
Figure BDA0003325304540000078
表示交叉熵函数,
Figure BDA0003325304540000079
Figure BDA00033253045400000710
分别表示
Figure BDA00033253045400000711
Figure BDA00033253045400000712
的标签信息。
平均精度(AP)是判断相关实例是否在排行榜前列的检索指标,AP值越高,相关实例的聚集度越高,查询实例hv的AP可以近似为:
Figure BDA00033253045400000713
其中,Ru表示正相关得分集,|Ru|表示正相关得分集的数量,Rt表示所有实例的得分集;η表示边界参数。且dut=[cos(hv,hu)-cos(hv,ht)],其中cos(·,·)表示余弦相似性,hu∈Ru,ht∈Rt,hv表示查询实例;为了对相似的自然图像进行聚类,自然图像的排序聚类项可以表示为:
Figure BDA0003325304540000081
其中,
Figure BDA0003325304540000082
表示自然图像查询实例ha的AP值,V表示一批数据量的大小,因此,草图的排序聚类项可以表示为:
Figure BDA0003325304540000083
其中,
Figure BDA0003325304540000084
表示草图查询实例的AP值。
因此,最终的排序聚类项可以有公式10和公式11构成:
Figure BDA0003325304540000085
其中,
Figure BDA0003325304540000086
表示排序聚类项,该项能优化排序信息从而对相似实例进行聚类。
为了提升辨别域学习,本发明将不同标签对应的分类标志的相似度最小化,并使具有相同标签的样本的分类标志相似度最大化。一批草图数据的辨别学习项可表示为:
Figure BDA0003325304540000087
其中,cos(·,·)表示余弦相似性,μ表示边界参数;
Figure BDA0003325304540000088
表示第L层的第v1个草图的分类标记;
Figure BDA0003325304540000089
表示第L层的第v2个草图的分类标记。
自然图像的辨别学习项可表示为:
Figure BDA00033253045400000810
其中,
Figure BDA00033253045400000811
表示第L层第v1个图像的分类标记,
Figure BDA00033253045400000812
定示第L层第v2个图像的分类标记;
Figure BDA00033253045400000813
分别表示L层第v1个图像的锚点标签、第L层第v2个图像的锚点标签、第L层第v1个图像的正例标签和第L层第v2个图像的正例标签。
因此,结合公式13和14,辨别学习项可定义为:
Figure BDA0003325304540000099
其中,
Figure BDA0003325304540000091
表示辨别学习项,该项能知道辨别域学习。
考虑以上四部分(三元组项
Figure BDA0003325304540000092
类别级语义项
Figure BDA0003325304540000093
排序聚类项
Figure BDA0003325304540000094
和辩别学习项
Figure BDA0003325304540000095
),总目标函数可定义为:
Figure BDA0003325304540000096
其中,α,β和γ表示权重参数,
Figure BDA0003325304540000097
表示总目标函数,整体网络由本发明提出的四个损失函数的结合完成训练。
在GeForce GTX Titan X GPU,Inter Core i7-5930K 3.50GHZ CPU和64GRAM的设备上训练网络。输入实例重塑成288×288的大小,损失函数由学习率为0.0004和Adam函数进行优化,一个批量的大小设置为64;为了产生位数为32,64,128,256,512的哈希码,哈希码长度k设置为从32到512;草图分支和图像分支的初始权重都使用在ImageNet数据集上预先训练的权重;对于三元组项,边界参数δ设置为0.5,排序聚类项中边界参数η设置为0.01,辨别学习项中边界参数μ设置为0.5;超参数α,β和γ分别设置为0.8,0.1和1。网络训练500轮或直到损失不再下降为止。
本实施例使用训练好的草图图像检索网络计算测试数据集中排名列表前n个精度,得出平均精度mAP和前200名的精度(precision@200),这些度量指标的值越高,表明实验方法的性能越好。
请见图3,为了验证本发明方法中不同影响因素的有效性,首先进行消融实验:第一,利用本发明方法没有三元组项学习哈希函数(DSIH-T);第二,利用本发明方法没有transformer执行草图图像检索学习(DSIH-V);第三,利用本发明方法排序聚类执行哈希码学习(DSIH-R);最后,实施本发明方法(HASE)。然后将本发明方法与DBSH,GDH,,DVML,DSH,TVAE和StyleMeUp等先进的方法进行检索性能的比较。
表1
Figure BDA0003325304540000098
Figure BDA0003325304540000101
表1是本发明与DSIH-T,DSIH-V和DSIH-R在扩展的Sketchy数据集上针对不同不同嵌入维度的mAP值。通过对比结果可以看出本发明提出的方法在扩展的Sketchy数据集上针对不同哈希位的前200名检索结果的平均精度指标最高。
表2
Figure BDA0003325304540000102
表2是本发明与其他方法在扩展的TU-Berlin数据集上针对不同不同嵌入维度的mAP值。通过对比结果可以看出本发明提出的方法在扩展的TU-Berlin数据集上针对不同哈希位的前200名检索结果的平均精度指标最高。
表3
Figure BDA0003325304540000103
表3是本发明与其他现有方法的对比实验结果,可以看出本发明的方法检索精度更高。
具体实施时,以上流程可采用计算机软件技术实现自动运行流程。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (9)

1.一种基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:首先构建草图图像检索网络,然后利用所述草图图像检索网络进行草图图像检索;
所述构建草图图像检索网络,具体实现包括以下步骤:
步骤1:构建草图图像检索网络;
所述草图图像检索网络,包括transformer分割模块、线性投影模块、transformer编码模块;
所述transformer分割模块,用于将输入图像分成M个2D小块图像xp,每幅图像的大小是H×W,图像中每个小块图像的大小是P×P,
Figure FDA0003325304530000011
所述线性投影模块,用于将所述transformer模块输出的小块图像映射到D维度,将可学习的位置嵌入添加到小块图像嵌入中,用以保存位置信息;其中,嵌入向量记为z0,位置零的输出是D维类令牌xclass
所述transformer编码模块,用于通过送入transformer编码模块的z0,挖掘序列中小块图像之间的关系;所述transformer编码模块包括L个transformer层和一个哈希层,每个transformer层包含多头自注意层MSA和Conv1×1块,Conv1×1块由带有1×1的卷积核的两个卷积层和一个全连接层;对于每一个transformer层,它的输入都是前一层的输出;第L层transformer输出输入哈希层,进行深度哈希函数学习,将输出的哈希码用于构建目标函数中的三元组项、类别级语义项和排序聚类项;
步骤2:获取现有草图图像数据集,将数据集划分为训练数据集、验证数据集和测试数据集;
步骤3:在训练数据集中,给定N个三元组单元
Figure FDA0003325304530000012
和三元组标签
Figure FDA0003325304530000013
其中
Figure FDA0003325304530000014
中的三个元素依次分别表示第i个数据的锚点草图、正例图像和负例图像;
Figure FDA0003325304530000015
表示
Figure FDA0003325304530000016
的类标签,
Figure FDA0003325304530000017
表示
Figure FDA0003325304530000018
的类标签,
Figure FDA0003325304530000019
表示
Figure FDA00033253045300000110
的类标签;其中,N、I分别表示三元组单元的个数和数据集中样本的个数;a,p,n分别表示锚点图像、正例图像和负例图像;
步骤4:利用训练集训练草图图像检索网络,计算草图图像检索网络的目标函数并更新草图图像检索网络的初始参数;网络训练达到预设轮次或直到损失不再下降为止;获得训练好的草图图像检索网络。
2.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤1中,所述将可学习的位置嵌入添加到小块图像嵌入中,嵌入向量为:
Figure FDA0003325304530000021
其中,
Figure FDA0003325304530000022
分别表示第1,2,…,M个2维小块图像;E表示小块图像嵌入投影,Epos表示位置嵌入。
3.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤1中,所述transformer编码模块为:
z′l=MAS(LN(zl-1)+zl-1) (2)
zl=CONV(LN(z′l)+z′l) (3)
其中,LN(·)表示层的归一化操作,zl表示嵌入图像表示;z′l表示多头自注意层的输出,CONV(·)表示卷积操作。
4.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤1中,所述transformer编码模块第L层的输入是
Figure FDA0003325304530000023
Figure FDA0003325304530000024
其中,
Figure FDA0003325304530000025
分别表示第L-1层的M个输出;除第L层外,每一层的K头自注意权重是
Figure FDA0003325304530000026
其中l∈1,2,…,L-1;对于每一层的自注意,每个小块图像有K组结点;因此,每一层中M个小块图像的权重表示为
Figure FDA0003325304530000027
其中i∈1,2,…,K;将前L-1层的权重相乘得到最终的权值,如下:
Figure FDA0003325304530000028
其中,wf表示能选择辨别区域的最终权值;
携带有用信息的小块图像的索引能由选择区域获得,同时,将索引作为位置信息用来找到相应的小块图像嵌入,选择嵌入形成一个新序列并进入第L层transformer。
5.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤1中,所述哈希层,针对给定任意的三元组单元
Figure FDA0003325304530000029
深度哈希函数为:
Figure FDA0003325304530000031
其中,sign(·)表示元素符号函数;φ(·)表示tanh函数;
Figure FDA0003325304530000032
表示样本
Figure FDA0003325304530000033
的K为哈希码;
Figure FDA0003325304530000034
表示样本
Figure FDA0003325304530000035
在第L层transformer的输出,且
Figure FDA0003325304530000036
表示深度哈希函数;θg表示哈希层的权重参数。
6.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤2中,使用n个数据集,对于每个数据集,以70:10:20的比例将数据集划分为训练集、验证集和测试集;其中,n为预设值。
7.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤4中,所述目标函数由三元组项、语义相似项、排序聚类项和辨别学习项组成,在哈希码学习过程中保持哈希码的语义相似性,捕捉不同模态的相似性,优化排序信息聚类相似实例并知道辨别域学习;
三元组项定义如下:
Figure FDA0003325304530000037
其中,||·||2表示二范式向量,δ表示边界参数,max(·)表示最大值函;
Figure FDA0003325304530000038
Figure FDA0003325304530000039
为类似哈希码,由二进制码
Figure FDA00033253045300000310
Figure FDA00033253045300000311
松弛为类似哈希码;
Figure FDA00033253045300000312
Figure FDA00033253045300000313
分别表示锚点图像、正例图像和负例图像的哈希码;
类别级语义相似项定义如下:
Figure FDA00033253045300000314
其中,
Figure FDA00033253045300000315
表示交叉熵函数,
Figure FDA00033253045300000316
Figure FDA00033253045300000317
分别表示
Figure FDA00033253045300000318
Figure FDA00033253045300000319
的标签信息;
排序聚类项定义如下:
Figure FDA00033253045300000320
Figure FDA00033253045300000321
Figure FDA00033253045300000322
Figure FDA00033253045300000323
其中,
Figure FDA00033253045300000324
表示自然图像的排序聚类项,
Figure FDA00033253045300000325
表示草图图像的排序聚类项,
Figure FDA00033253045300000326
表示自然图像查询实例ha的平均精度AP值,V表示一批数据量的大小;
Figure FDA0003325304530000041
表示草图查询实例的平均精度AP值;Ru表示正相关得分集,|Ru|表示正相关得分集的数量,Rt表示所有实例的得分集;η表示边界参数,且dut=[cos(hv,hu)-cos(hv,ht)],其中cos(·,·)表示余弦相似性,hu∈Ru,ht∈Rt,hv表示查询实例;
辨别学习项定义如下:
Figure FDA0003325304530000042
Figure FDA0003325304530000043
Figure FDA0003325304530000044
其中,
Figure FDA0003325304530000045
为草图数据的辨别学习项,
Figure FDA0003325304530000046
为自然图数据的辨别学习项;cos(·,·)表示余弦相似性,μ表示边界参数;
Figure FDA0003325304530000047
表示第L层的第v1个草图的分类标记;
Figure FDA0003325304530000048
表示第L层的第v2个草图的分类标记;
Figure FDA0003325304530000049
表示第L层第v1个图像的分类标记,
Figure FDA00033253045300000410
表示第L层第v2个图像的分类标记;
Figure FDA00033253045300000411
分别表示第L层第v1个图像的锚点标签、第L层第v2个图像的锚点标签、第L层第v1个图像的正例标签和第L层第v2个图像的正例标签;
则目标函数定义为:
Figure FDA00033253045300000412
其中,α,β和γ表示权重参数。
8.根据权利要求1-7任意一项所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:使用训练好的草图图像检索网络计算测试数据集中排名列表前n个精度,得出平均精度mAP和前n个的精度,精度值越高,表明所述方法性能越好。
9.一种基于排序聚类序列辨别选择的草图图像检索***,其特征在于,包括以下模块:
模块1,用于构建草图图像检索网络模块;
模块2,用于利用所述草图图像检索网络进行草图图像检索;
所述模块1,具体包括以下子模块:
子模块1,用于构建草图图像检索网络;
所述草图图像检索网络,包括transformer分割模块、线性投影模块、transformer编码模块;
所述transformer分割模块,用于将输入图像分成M个2D小块图像xp,每幅图像的大小是H×W,图像中每个小块图像的大小是P×P,
Figure FDA0003325304530000051
所述线性投影模块,用于将所述transformer模块输出的小块图像映射到D维度,将可学习的位置嵌入添加到小块图像嵌入中,用以保存位置信息;其中,嵌入向量记为z0,位置零的输出是D维类令牌xclass
所述transformer编码模块,用于通过送入transformer编码模块的z0,挖掘序列中小块图像之间的关系;所述transformer编码模块包括L个transformer层和一个哈希层,每个transformer层包含多头自注意层MSA和Conv1×1块,Conv1×1块由带有1×1的卷积核的两个卷积层和一个全连接层;对于每一个transformer层,它的输入都是前一层的输出;第L层transformer输出输入哈希层,进行深度哈希函数学习,将输出的哈希码用于构建目标函数中的三元组项、类别级语义项和排序聚类项;
子模块2,用于获取现有草图图像数据集,将数据集划分为训练数据集、验证数据集和测试数据集;
子模块步骤3,用于在训练数据集中,给定N个三元组单元
Figure FDA0003325304530000052
和三元组标签
Figure FDA0003325304530000053
其中
Figure FDA0003325304530000054
中的三个元素依次分别表示第i个数据的锚点草图、正例图像和负例图像;
Figure FDA0003325304530000055
表示
Figure FDA0003325304530000056
的类标签,
Figure FDA0003325304530000057
表示
Figure FDA0003325304530000058
的类标签,
Figure FDA0003325304530000059
表示
Figure FDA00033253045300000510
的类标签;其中,N、I分别表示三元组单元的个数和数据集中样本的个数;a,p,n分别表示锚点图像、正例图像和负例图像;
子模块4,用于利用训练集训练草图图像检索网络,计算草图图像检索网络的目标函数并更新草图图像检索网络的初始参数;网络训练达到预设轮次或直到损失不再下降为止;获得训练好的草图图像检索网络。
CN202111259946.6A 2021-10-28 基于排序聚类序列辨别选择的草图图像检索方法及*** Active CN114020948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111259946.6A CN114020948B (zh) 2021-10-28 基于排序聚类序列辨别选择的草图图像检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111259946.6A CN114020948B (zh) 2021-10-28 基于排序聚类序列辨别选择的草图图像检索方法及***

Publications (2)

Publication Number Publication Date
CN114020948A true CN114020948A (zh) 2022-02-08
CN114020948B CN114020948B (zh) 2024-07-26

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596456A (zh) * 2022-05-10 2022-06-07 四川大学 一种基于聚集哈希学习的图像集分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276528A1 (en) * 2015-12-03 2018-09-27 Sun Yat-Sen University Image Retrieval Method Based on Variable-Length Deep Hash Learning
JP2021039748A (ja) * 2019-08-30 2021-03-11 キヤノン株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム
CN112860930A (zh) * 2021-02-10 2021-05-28 浙江大学 一种基于层次化相似性学习的文本到商品图像的检索方法
CN113326392A (zh) * 2021-05-06 2021-08-31 武汉理工大学 基于四元组哈希的遥感图像音频检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276528A1 (en) * 2015-12-03 2018-09-27 Sun Yat-Sen University Image Retrieval Method Based on Variable-Length Deep Hash Learning
JP2021039748A (ja) * 2019-08-30 2021-03-11 キヤノン株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム
CN112860930A (zh) * 2021-02-10 2021-05-28 浙江大学 一种基于层次化相似性学习的文本到商品图像的检索方法
CN113326392A (zh) * 2021-05-06 2021-08-31 武汉理工大学 基于四元组哈希的遥感图像音频检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王俊豪;罗轶凤;: "通过细粒度的语义特征与Transformer丰富图像描述", 华东师范大学学报(自然科学版), no. 05, 25 September 2020 (2020-09-25) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596456A (zh) * 2022-05-10 2022-06-07 四川大学 一种基于聚集哈希学习的图像集分类方法

Similar Documents

Publication Publication Date Title
CN111198959B (zh) 一种基于卷积神经网络的两阶段图像检索方法
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
KR102305568B1 (ko) 일정한 처리 시간 내에 k개의 극값을 찾는 방법
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN110688474B (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN109271486B (zh) 一种相似性保留跨模态哈希检索方法
Liu et al. Towards optimal binary code learning via ordinal embedding
CN102968419B (zh) 交互式互联网实体名称的消歧方法
CN113377981B (zh) 基于多任务深度哈希学习的大规模物流商品图像检索方法
CN104112005B (zh) 分布式海量指纹识别方法
CN105808709A (zh) 人脸识别快速检索方法及装置
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN113095229B (zh) 一种无监督域自适应行人重识别***及方法
CN114357120A (zh) 基于faq的无监督式检索方法、***及介质
CN112836068A (zh) 一种基于带噪标签学习的无监督跨模态哈希检索方法
CN113836341A (zh) 基于无监督转换器平衡哈希的遥感图像检索方法
CN113032613A (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及***
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
CN105117735A (zh) 一种大数据环境下的图像检测方法
CN116108217B (zh) 一种基于深度哈希编码和多任务预测的逃费车辆相似图片检索方法
CN104391987B (zh) 基于移动平台下大规模目标识别的方法
CN114020948A (zh) 基于排序聚类序列辨别选择的草图图像检索方法及***
CN114020948B (zh) 基于排序聚类序列辨别选择的草图图像检索方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant