CN109977250B - 融合语义信息和多级相似性的深度哈希图像检索方法 - Google Patents

融合语义信息和多级相似性的深度哈希图像检索方法 Download PDF

Info

Publication number
CN109977250B
CN109977250B CN201910211486.6A CN201910211486A CN109977250B CN 109977250 B CN109977250 B CN 109977250B CN 201910211486 A CN201910211486 A CN 201910211486A CN 109977250 B CN109977250 B CN 109977250B
Authority
CN
China
Prior art keywords
vector
image
hash
matrix
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910211486.6A
Other languages
English (en)
Other versions
CN109977250A (zh
Inventor
冯永
沈一鸣
尚家兴
强保华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Guilin University of Electronic Technology
Original Assignee
Chongqing University
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, Guilin University of Electronic Technology filed Critical Chongqing University
Priority to CN201910211486.6A priority Critical patent/CN109977250B/zh
Publication of CN109977250A publication Critical patent/CN109977250A/zh
Application granted granted Critical
Publication of CN109977250B publication Critical patent/CN109977250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合语义信息和多级相似性的深度哈希图像检索方法,包括以下步骤;S1,构建图像数据库;S2,构建标签向量矩阵和语义向量矩阵;S3,构建相似度矩阵;S4,搭建深度哈希神经网络模型,将原始图像转换为近似哈希向量;S5,构建对相似图片哈希向量的海明距离有下界约束的损失函数;S6,对搭建的深度哈希神经网络模型进行训练;S7,构建图像的哈希向量数据库;S8,将待检索图像的哈希向量与哈希向量数据库里的向量进行对比,以找出相似的图像。本发明通过融合语义信息,提高了图像检索的精度;并通过约束两张相似图片所对应哈希向量间的海明距离的下界,提高了检索性能。

Description

融合语义信息和多级相似性的深度哈希图像检索方法
技术领域
本发明涉及图像检索技术领域,具体涉及一种融合语义信息和多级相似性的深度哈希图像检索方法。
背景技术
近年来,随着互联网的发展,海量的图像数据给图像检索任务带来了巨大的挑战。面对大规模且复杂的图像数据,检索***应在保证图像检索质量的同时,也要兼顾检索的效率,同时还要解决海量信息的存储有效性问题,以实现更好的用户体验。因此,研究更优的图像检索方法具有很高的现实意义。
基于深度哈希技术来进行图像检索是目前比较常用的方法,其优势在于:通过将图片映射为二进制哈希向量,可以利用位运算快速比较特征,提高检索速度,同时减少需占用的存储空间。
面对较为复杂的图片,传统的深度哈希方法暴露出明显的缺点。一方面,衡量不同图像之间的相似度时过于粗糙。即只要两张图片共享标签,就视为相似;反之则不相似。这样做没有考虑到图片间更细粒度的相似度等级,以及图片所蕴含的语义信息。另一方面,对于传统的二元组损失函数,只用一个指定阈值来约束两张相似图片的哈希向量间的海明距离上界,对下界没有任何约束。这就使得具有不同程度相似性的图像间的相对距离无法保证,也就导致图像检索结果中排序准确度的降低。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种融合语义信息和多级相似性的深度哈希图像检索方法,以融合语义信息,考虑到图片间更细粒度的相似度等级,提高图像的检索精度;并通过采用新的二元组损失函数,构建对相似图片哈希向量的海明距离有下界约束的损失函数,提高图像检索结果中排序的准确度。
为了实现上述发明目的,本发明提供了以下技术方案:
一种融合语义信息和多级相似性的深度哈希图像检索方法,包括以下步骤:
S1,构建图像数据库;
S2,构建标签向量矩阵和语义向量矩阵;
S3,构建相似度矩阵;
S4,搭建深度哈希神经网络模型,将原始图像转换为近似哈希向量;
S5,构建对相似图片哈希向量的海明距离有下界约束的损失函数;
S6,对搭建的深度哈希神经网络模型进行训练;
S7,构建图像的哈希向量数据库;
S8,将待检索图像的哈希向量与哈希向量数据库里的向量进行对比,以找出相似的图像。基于标签向量矩阵和语义向量矩阵构建相似度矩阵,以融合语义信息,提高图像的检索精度;并通过构建对相似图片哈希向量的海明距离有下界约束的损失函数,提高图像检索结果中排序的准确度。
优选地,所述步骤S2中,构建标签向量矩阵和语义向量矩阵的步骤如下:
从图像数据库中随机抽取图像及对应的标签和文本描述,以构建出标签向量矩阵和语义向量矩阵;利用标签信息构建出标签向量矩阵L,其中Li,j=0表示第i张图片不含有第j个标签,Li,j=1表示第i张图片含有第j个标签;利用自然语言处理技术,将每张图片的文本描述编码成一个向量,构建出图片语义向量矩阵C,其中,Ci表示第i张图片的文本描述对应的向量,用此向量代表该图片的语义信息。
优选地,所述步骤S3中,构建相似度矩阵的步骤如下:
S3-1,利用步骤S2中构建的标签向量矩阵,对标签向量进行相互内积,以构建标签相似度矩阵:
Figure BDA0002000671510000031
公式(1)中,Slabel是标签相似度矩阵,
Figure BDA0002000671510000032
为图像i和图像j之间的标签相似度,n表示图片个数,L为S2中构建的标签向量矩阵,LT为L的转置矩阵,Ltotal为图片间的总标签矩阵,其中Ltotal[i,j]为图片i和j总共包含的标签个数;
S3-2,利用步骤S2中构建的语义向量矩阵,计算语义向量相互间的余弦相似度,以构建语义相似度矩阵:
Figure BDA0002000671510000033
Figure BDA0002000671510000034
公式(2)中,Sseman是语义相似度矩阵,
Figure BDA0002000671510000035
是图像i和图像j之间的语义相似度,n表示图片个数,公式(3)中,C是S2中构建的语义向量矩阵,||Ci||是向量Ci的模长;
S3-3,利用标签相似度矩阵和语义相似度矩阵,构建相似度矩阵为:
Figure BDA0002000671510000036
公式(4)中,S是相似度矩阵,si,j代表图像i和图像j之间的相似度,n表示图片个数,w是权重系数。
优选地,所述步骤S4包括以下步骤:
S4-1,利用TensorFlow深度学习开源框架搭建AlexNet网络模型,并使用ImageNet数据集对AlexNet网络模型进行预训练;
S4-2,在经典的AlexNet模型上进行优化,构建深度哈希神经网络模型;
所搭建的深度哈希神经网络模型结构如下:
包含5个卷积层:第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层;
包含3个全连接层:第一全连接层、第二全连接层以及哈希层。
利用TensorFlow深度学习开源框架搭建AlexNet网络模型,对AlexNet网络模型进行预训练时,该训练过程是模型自适应反向传播更新参数,中间不需要人为干预调整参数,预训练过程简单。
优选地,所述哈希层的神经元个数为64。
优选地,所述步骤S5中,所设计的损失函数为:
Figure BDA0002000671510000041
公式(8)中,
Figure BDA0002000671510000042
表示损失函数,si,j为图像i和图像j之间的相似度,/>
Figure BDA0002000671510000043
为图像i和图像j之间的标签相似度,S是相似度矩阵,α为调节阈值上界的超参数,β为调节阈值下界的超参数,σ为第一参数,δ为第二参数,Nbits是生成哈希向量的长度;bi、bj分别表示第i张图像和第j张图像的近似哈希向量,/>
Figure BDA0002000671510000051
表示bi、bj间的欧式距离;γ是权重系数;/>
Figure BDA0002000671510000052
表示维度和bi相同的所有元素值为1的向量,/>
Figure BDA0002000671510000053
分别表示近似哈希向量bi、bj的绝对值向量和全1向量每个元素之间的差值之和。其中,上、下界的阈值跟随图片间的相似度si,j变化自适应,对于共享标签的两张图片,对应的近似哈希向量间的欧式距离,应该处于上、下界之间;而对于不共享标签的两张图片,会尽量拉大对应的近似哈希向量间的欧式距离;提高图像检索精度。
优选地,所述步骤S6中,采用随机梯度下降法对深度哈希神经网络模型进行训练;
Figure BDA0002000671510000054
公式(9)中,μ表示深度哈希神经网络模型中的任意一个参数,μ′表示更新后的参数,λ表示μ更新的幅度,
Figure BDA0002000671510000055
表示损失函数,/>
Figure BDA0002000671510000056
表示/>
Figure BDA0002000671510000057
关于μ的梯度。采用随机梯度下降法对深度哈希神经网络模型进行训练,更新深度哈希神经网络模型中的参数,提高提高图像检索精度。
优选地,所述步骤S7中,将图像数据库中的图像输入步骤S6已训练完成的深度哈希神经网络模型,将会得到近似哈希向量集合B={b1,b2,…bn},其中n为图像数据库中图像的个数,bn为第n个图像的近似哈希向量;将近似哈希向量集合B经过sign函数,得到对应的二进制哈希向量数据库集合H={h1,h2,...hn},其中n为图像数据库中图像的个数,hn表示第n个图像的二进制哈希向量。用二进制哈希向量来表示图片特征,提高了图像检索的速度。
与现有技术相比,本发明的有益效果:
1、基于标签向量矩阵和语义向量矩阵构建相似度矩阵,以融合语义信息,提高图像的检索精度;
2、通过构建对相似图片哈希向量的海明距离有下界约束的损失函数,提高图像检索结果中排序的准确度;
3、上、下界的阈值跟随图片间的相似度si,j变化自适应,对于共享标签的两张图片,对应的近似哈希向量间的欧式距离,应该处于上、下界之间;而对于不共享标签的两张图片,会尽量拉大对应的近似哈希向量间的欧式距离;提高图像检索精度;
4、用二进制哈希向量来表示图片特征,提高了图像检索的速度。
附图说明:
图1为本发明示例性实施例1的融合语义信息和多级相似性的深度哈希图像检索方法的流程图;
图2为本发明示例性实施例1的深度哈希神经网络模型的结构图。
图中标记:11-第一卷积层,12-第二卷积层,13-第三卷积层,14-第四卷积层,15-第五卷积层,21-第一最大池化层,22-第二最大池化层,23-第三最大池化层,31-第一全连接层,32-第二全连接层,41-哈希层。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
如图1所示,本实施例提供一种融合语义信息和多级相似性的深度哈希图像检索方法,具体包括一下步骤:
S1:构建图像数据库。
筛选出在数据集中出现频率最高的前K个标签的种类,以及包含这K个标签的图片,用于构建图像数据库。
本实施例中,本发明采用微软公开的COCO数据集,数据集中的每一张图像对应若干个标签种类(例如标签种类为人、水、汽车,等等)。本发明选取在数据集中出现次数(由多到少排列)排列前K位的标签种类以及拥有该标签种类的图像,用于构建图像数据库。例如,本发明在COCO数据集中选取出现次数排列前20的标签种类及对应的图像,用于构建本发明的图像数据库。
S2:构建标签向量矩阵和语义向量矩阵。
从图像数据库中随机抽取图像及对应的标签和文本描述,以构建出标签向量矩阵和语义向量矩阵。
本实施例中,本发明从图像数据库中随机抽取n个图像及对应的标签,构成训练集:T={t1,t2,…,tn},tn表示第n个图像及对应的标签,n≥1;其中,tn={In,Ln},In表示第n张图像,Ln为标签向量,表示第n张图像对应的标签,其为向量。用标签向量构建出标签向量矩阵L,其大小为n×K,n表示图像的个数,K表示标签种类的个数。其中Li,j=0表示第i张图片不含有第j个标签,Li,j=1表示第i张图片含有第j个标签。另外,利用自然语言处理技术,将每张图片的文本描述编码成一个向量,构建出图片语义向量矩阵C;其中,Ci表示第i张图片的文本描述对应的向量,用此向量代表该图片的语义信息。本实施例中,将每张图片的文本描述编码成一个512维的向量。
S3:构建相似度矩阵。
S3-1:利用步骤S2中构建的标签向量矩阵,构建标签相似度矩阵;
本实施例中,将所有标签向量Ln进行相互内积,并对任意两个标签向量内积的结果,除以对应图片内容涉及的标签总数;将该结果用于构建标签相似度矩阵。标签相似度矩阵大小为n×n,n表示图像的个数。
标签相似度矩阵Slabel表示为以下公式:
Figure BDA0002000671510000081
公式(1)中,Slabel是标签相似度矩阵,
Figure BDA0002000671510000082
为图像i和图像j之间的标签相似度,n表示图片个数,L为S2中构建的标签向量矩阵,LT为L的转置矩阵,Ltotal为图片间的总标签矩阵,其中Ltotal[i,j]为图片i和j总共包含的标签个数。
S3-2:利用步骤S2中构建的语义向量矩阵,计算语义向量相互间的余弦相似度,以构建语义相似度矩阵;
本实施例中,语义相似度矩阵大小为n×n,n表示图像的个数。语义相似度矩阵表示为以下公式:
Figure BDA0002000671510000083
Figure BDA0002000671510000084
公式(2)中,Sseman是语义相似度矩阵,
Figure BDA0002000671510000085
是图像i和图像j之间的语义相似度,n表示图片个数,公式(3)中,C是S2中构建的语义向量矩阵,||Ci||是向量Ci的模长。
S3-3:利用标签相似度矩阵和语义相似度矩阵,构建相似度矩阵。
本实施例中,相似度矩阵S由步骤S3-1和S3-2中得到的标签相似度矩阵和语义相似度矩阵融合而成。其大小为n×n,n表示图像的个数。相似度矩阵S表示为以下公式:
Figure BDA0002000671510000091
公式(4)中,S是相似度矩阵,si,j代表图像i和图像j之间的相似度,n表示图片个数,w是权重系数。本实施例中w取值为0.5。
S4:搭建深度哈希神经网络模型,将原始图像转换为近似哈希向量。
S4-1:利用TensorFlow深度学习开源框架搭建AlexNet网络模型,并使用ImageNet数据集对AlexNet网络模型进行预训练。
TensorFlow深度学习开源框架是相对高阶的机器学习库,用户可以方便地用它设计神经网络结构,而且其支持自动求导,用户不需要再通过反向传播求解梯度。CNN(卷积神经网络)是图像识别分类算法的核心算法,其中AlexNet网络模型为现有的深度学习方面的经典模型。利用TensorFlow深度学习开源框架搭建AlexNet网络模型,并使用ImageNet数据集对AlexNet网络模型进行预训练。对AlexNet网络模型进行预训练,即对参数随机化的AlexNet网络进行分类训练,使其参数能够学习到普适的特征,该训练过程是模型自适应反向传播更新参数,中间不需要人为干预调整参数。
S4-2:构建深度哈希神经网络模型。
本实施例在经典的AlexNet模型上进行优化,用于构建深度哈希神经网络模型,以提高图像的检索精度。
本发明将预训练的AlexNet网络模型中最后一个全连接层去掉,保留其余结构及参数,并在网络顶层添加一个新的哈希层fch。其中,fch层包含64个神经元,该层的激活函数设置为tanh函数,以使fch中各个神经元输出的值在[-1,1]之间。所搭建的深度哈希神经网络模型结构如图2所示:
包含5个卷积层:第一卷积层(conv1)11、第二卷积层(conv2)12、第三卷积层(conv3)13、第四卷积层(conv4)14以及第五卷积层(conv5)15;
包含3个全连接层:第一全连接层(fc6)31、第二全连接层(fc7)32以及哈希层(fch)41。
第一卷积层(conv1)11的输入端用于输入原始图像,第一卷积层(conv1)11的输出端连接第一最大池化层21的输入端,第一最大池化层21的输出端连接第二卷积层(conv2)12的输入端,第二卷积层(conv2)12的输出端连接第二最大池化层22的输入端,第二最大池化层22的输出端连接第三卷积层(conv3)13的输入端,第三卷积层(conv3)13的输出端连接第四卷积层(conv4)14的输入端,第四卷积层(conv4)14的输出端连接第五卷积层(conv5)15的输入端,第五卷积层(conv5)15的输出端连接第三最大池化层23的输入端,第三最大池化层23的输出端连接第一全连接层(fc6)31的输入端,第一全连接层(fc6)31的输出端连接第二全连接层(fc7)32的输入端,第二全连接层(fc7)32的输出端连接哈希层(fch)41的输入端,哈希层(fch)41的输出端输出经过近似哈希向量。
本发明将原始图像输入到深度哈希神经网络模型中,经过卷积层和全连接层的映射后,得到近似哈希向量,近似哈希向量中每一维度的取值范围为[-1,1]。例如,本发明在构建的深度哈希神经网络模型中输入原始大小为227×227×3的图像,经过5个卷积层和3个全连接层的映射,将输出一个64维的近似哈希向量。另外,本发明可同时输入多个图像,从而得到多个近似哈希向量集合B={b1,b2,…bn},bn表示第n张图像的近似哈希向量。
S5:构建对相似图片哈希向量的海明距离有下界约束的损失函数。
S5-1:计算图片对应的近似哈希向量之间的相似度。
本实施例中,对于S4中得到的近似哈希向量集合B={b1,b2,…bn},用集合中近似哈希向量之间的欧式距离
Figure BDA0002000671510000111
来表示两个近似哈希向量之间的相似度。其中,bi、bj分别表示第i、j张图像的近似哈希向量。/>
S5-2:基于欧式距离
Figure BDA0002000671510000112
构建二元组损失函数/>
Figure BDA0002000671510000113
二元组损失函数
Figure BDA0002000671510000114
表示为以下公式:
Figure BDA0002000671510000115
公式(5)中,
Figure BDA0002000671510000116
表示二元组损失函数,si,j为图像i和图像j之间的相似度,/>
Figure BDA0002000671510000117
为图像i和图像j之间的标签相似度,S是相似度矩阵,α为调节阈值上界的超参数,β为调节阈值下界的超参数,σ为第一参数,本实施例中σ为2.5,δ为第二参数,本实施例中δ为1.5,Nbits是生成哈希向量的长度,本实施例中Nbits为64。bi、bj分别表示第i张图像和第j张图像的近似哈希向量,/>
Figure BDA0002000671510000118
表示bi、bj间的欧式距离。
该二元组损失函数的意义为:对于共享标签的两张图片,对应的近似哈希向量间的欧式距离,应该处于上、下界之间。其中,上、下界的阈值跟随图片间的相似度si,j变化自适应。对于不共享标签的两张图片,会尽量拉大对应的近似哈希向量间的欧式距离;直至其大于规定的阈值δ*Nbits时,才会不产生损失。
S5-3:为近似哈希向量定义量化损失
Figure BDA0002000671510000119
量化损失
Figure BDA00020006715100001110
表示为以下公式:
Figure BDA0002000671510000121
公式(6)中,
Figure BDA0002000671510000122
表示维度和bi相同的所有元素值为1的向量,/>
Figure BDA0002000671510000123
Figure BDA0002000671510000124
分别表示近似哈希向量bi、bj的绝对值向量和全1向量每个元素之间的差值之和。
该公式的意义为:近似哈希向量每个维度的值越接近1或-1,那么它是个合理的哈希向量的概率越高,产生的损失就越小。
S5-4:构建完整的损失函数。
本实施例中,损失函数
Figure BDA0002000671510000129
由二元组损失函数/>
Figure BDA0002000671510000125
和量化损失/>
Figure BDA0002000671510000126
融合而成:
Figure BDA0002000671510000127
公式(7)中,γ表示量化损失的权重系数,本实施例中设为1.0。将公式(5)和(6)代入(7),可得完整的损失函数
Figure BDA00020006715100001210
如式(8)所示:/>
Figure BDA0002000671510000128
S6:对搭建的深度哈希神经网络模型进行训练。
S6-1:通过损失函数构建优化目标。
本实施例中,本发明将利用构建的损失函数模型来构建优化目标:
Figure BDA0002000671510000131
表示求使得/>
Figure BDA0002000671510000132
的值最小时的Θ中所有参数的取值;其中,Θ为深度哈希神经网络模型中的参数集合,/>
Figure BDA0002000671510000133
为构建的损失函数模型。
S6-2:使用随机梯度下降的方法对优化目标进行求解。
本实施例中,本发明采用随机梯度下降的方法对优化目标求解,即对损失函数
Figure BDA0002000671510000134
求其关于参数μ的梯度,再将参数向梯度的反方向更新,计算公式如下:
Figure BDA0002000671510000135
公式(9)中,μ表示深度哈希神经网络模型中的任意一个参数,μ′表示更新后的参数,
Figure BDA0002000671510000136
表示损失函数,/>
Figure BDA0002000671510000137
表示/>
Figure BDA0002000671510000138
关于μ的梯度。λ表示μ更新的幅度(即学习率),可设置为0.0003。
本实施例中,每一批的训练数据量为256,迭代次数为10000次。
S7:构建图像的哈希向量数据库。
本实施例中,本发明将图像数据库中的图像输入已训练完成的深度哈希神经网络模型,将会得到近似哈希向量集合B={b1,b2,…bn},其中n为图像数据库中图像的个数,bn为第n个图像的近似哈希向量;将近似哈希向量集合B经过sign函数(函数的作用是:将大于等于0的数转变成1,小于0的数转变成-1),得到对应的二进制哈希向量数据库集合H={h1,h2,...hn},其中n为图像数据库中图像的个数,hn表示第n个图像的二进制哈希向量。
S8:将待检索图像的哈希向量与哈希向量数据库里的向量进行对比,以找出相似的图像。
本实施例中,本发明将待检索的图像i输入已训练完成的深度哈希神经网络模型中,从而得到相对应的近似哈希向量bi;再经过sign函数,得到图像i相对应的二进制哈希向量hi。将哈希向量hi和构建的图像哈希向量数据库中的所有哈希向量进行与运算,分别得到相对应的结果,并将结果值按从大到小进行排列;结果值越大,表明该哈希向量与hi的相似度越高,即表明该哈希向量对应的图像与需检索的图像i越相似,保障了图像的检索精度。例如,哈希向量hi与图像哈希向量数据库中的第一个哈希向量进行与运算,得到第一结果值;哈希向量hi与图像哈希向量数据库中的第二个哈希向量进行与运算,得到第二结果值;若第一结果值大于第二结果值,则表明第一哈希向量对应的图像与哈希向量hi对应的图像更加相似。
以上所述,仅为本发明具体实施方式的详细说明,而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下,做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims (5)

1.一种融合语义信息和多级相似性的深度哈希图像检索方法,其特征在于,包括以下步骤:
S1,构建图像数据库;
S2,构建标签向量矩阵和语义向量矩阵;
构建标签向量矩阵和语义向量矩阵的步骤如下:
从图像数据库中随机抽取图像及对应的标签和文本描述,以构建出标签向量矩阵和语义向量矩阵;利用标签信息构建出标签向量矩阵L,其中Li,j=0表示第i张图片不含有第j个标签,Li,j=1表示第i张图片含有第j个标签;利用自然语言处理技术,将每张图片的文本描述编码成一个向量,构建出图片语义向量矩阵C,其中,Ci表示第i张图片的文本描述对应的向量,用此向量代表该图片的语义信息;
S3,构建相似度矩阵;
构建相似度矩阵的步骤如下:
S3-1,利用步骤S2中构建的标签向量矩阵,对标签向量进行相互内积,以构建标签相似度矩阵:
Figure FDA0003874867900000011
公式(1)中,Slabel是标签相似度矩阵,
Figure FDA0003874867900000012
为图像i和图像j之间的标签相似度,n表示图片个数,L为S2中构建的标签向量矩阵,LT为L的转置矩阵,Ltotal为图片间的总标签矩阵,其中Ltotal[i,j]为图片i和j总共包含的标签个数;
S3-2,利用步骤S2中构建的语义向量矩阵,计算语义向量相互间的余弦相似度,以构建语义相似度矩阵:
Figure FDA0003874867900000021
Figure FDA0003874867900000022
公式(2)中,Sseman是语义相似度矩阵,
Figure FDA0003874867900000023
是图像i和图像j之间的语义相似度,n表示图片个数,公式(3)中,C是S2中构建的语义向量矩阵,||Ci||是向量Ci的模长;
S3-3,利用标签相似度矩阵和语义相似度矩阵,构建相似度矩阵为:
Figure FDA0003874867900000024
公式(4)中,S是相似度矩阵,si,j代表图像i和图像j之间的相似度,n表示图片个数,w是权重系数;
S4,搭建深度哈希神经网络模型,将原始图像转换为近似哈希向量;
S5,构建对相似图片哈希向量的海明距离有下界约束的损失函数;
所设计的损失函数为:
Figure FDA0003874867900000025
公式(8)中,
Figure FDA0003874867900000026
表示损失函数,si,j为图像i和图像j之间的相似度,/>
Figure FDA0003874867900000027
为图像i和图像j之间的标签相似度,S是相似度矩阵,α为调节阈值上界的超参数,β为调节阈值下界的超参数,σ为第一参数,δ为第二参数,Nbits是生成哈希向量的长度;bi、bj分别表示第i张图像和第j张图像的近似哈希向量,/>
Figure FDA0003874867900000031
表示bi、bj间的欧式距离;γ是权重系数;/>
Figure FDA0003874867900000032
表示维度和bi相同的所有元素值为1的向量,/>
Figure FDA0003874867900000033
分别表示近似哈希向量bi、bj的绝对值向量和全1向量每个元素之间的差值之和;
S6,对搭建的深度哈希神经网络模型进行训练;
S7,构建图像的哈希向量数据库;
S8,将待检索图像的哈希向量与哈希向量数据库里的向量进行对比,以找出相似的图像。
2.如权利要求1所述的融合语义信息和多级相似性的深度哈希图像检索方法,其特征在于,所述步骤S4包括以下步骤:
S4-1,利用TensorFlow深度学习开源框架搭建AlexNet网络模型,并使用ImageNet数据集对AlexNet网络模型进行预训练;
S4-2,在经典的AlexNet模型上进行优化,构建深度哈希神经网络模型;
所搭建的深度哈希神经网络模型结构如下:
包含5个卷积层:第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层;
包含3个全连接层:第一全连接层、第二全连接层以及哈希层。
3.如权利要求2所述的融合语义信息和多级相似性的深度哈希图像检索方法,其特征在于,所述哈希层的神经元个数为64。
4.如权利要求1所述的融合语义信息和多级相似性的深度哈希图像检索方法,其特征在于,所述步骤S6中,采用随机梯度下降法对深度哈希神经网络模型进行训练;
Figure FDA0003874867900000041
公式(9)中,μ表示深度哈希神经网络模型中的任意一个参数,μ'表示更新后的参数,λ表示μ更新的幅度,
Figure FDA0003874867900000042
表示损失函数,/>
Figure FDA0003874867900000043
表示/>
Figure FDA0003874867900000044
关于μ的梯度。/>
5.如权利要求1所述的融合语义信息和多级相似性的深度哈希图像检索方法,其特征在于,所述步骤S7中,将图像数据库中的图像输入步骤S6已训练完成的深度哈希神经网络模型,将会得到近似哈希向量集合B={b1,b2,…bn},其中n为图像数据库中图像的个数,bn为第n个图像的近似哈希向量;将近似哈希向量集合B经过sign函数,得到对应的二进制哈希向量数据库集合H={h1,h2,...hn},其中n为图像数据库中图像的个数,hn表示第n个图像的二进制哈希向量。
CN201910211486.6A 2019-03-20 2019-03-20 融合语义信息和多级相似性的深度哈希图像检索方法 Active CN109977250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910211486.6A CN109977250B (zh) 2019-03-20 2019-03-20 融合语义信息和多级相似性的深度哈希图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910211486.6A CN109977250B (zh) 2019-03-20 2019-03-20 融合语义信息和多级相似性的深度哈希图像检索方法

Publications (2)

Publication Number Publication Date
CN109977250A CN109977250A (zh) 2019-07-05
CN109977250B true CN109977250B (zh) 2023-03-28

Family

ID=67079595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910211486.6A Active CN109977250B (zh) 2019-03-20 2019-03-20 融合语义信息和多级相似性的深度哈希图像检索方法

Country Status (1)

Country Link
CN (1) CN109977250B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532417B (zh) * 2019-09-02 2022-03-29 河北省科学院应用数学研究所 基于深度哈希的图像检索方法、装置及终端设备
CN111143400B (zh) * 2019-12-26 2024-05-14 新长城科技有限公司 一种全栈式检索方法、***、引擎及电子设备
CN111709252B (zh) 2020-06-17 2023-03-28 北京百度网讯科技有限公司 基于预训练的语义模型的模型改进方法及装置
CN112734386A (zh) * 2021-01-13 2021-04-30 国家电网有限公司 基于关联匹配算法的新能源接网全流程贯通方法及***
CN112765382A (zh) * 2021-01-20 2021-05-07 上海依图网络科技有限公司 图像搜索方法及其装置、介质和电子设备
CN113221658A (zh) * 2021-04-13 2021-08-06 卓尔智联(武汉)研究院有限公司 图像处理模型的训练方法、装置、电子设备及存储介质
CN113641845B (zh) * 2021-07-16 2022-09-23 广西师范大学 一种基于向量对比策略的深度特征对比加权图像检索方法
CN115878823B (zh) * 2023-03-03 2023-04-28 中南大学 基于图卷积网络的深度哈希方法及交通数据检索方法
CN116645661B (zh) * 2023-07-27 2023-11-14 深圳市青虹激光科技有限公司 一种防重码检测方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机***工程有限公司 基于深度学习和哈希的图像检索方法
CN108399185A (zh) * 2018-01-10 2018-08-14 中国科学院信息工程研究所 一种多标签图像的二值向量生成方法及图像语义相似度查询方法
CN109165306A (zh) * 2018-08-09 2019-01-08 长沙理工大学 基于多任务哈希学习的图像检索方法
CN109241313A (zh) * 2018-08-14 2019-01-18 大连大学 一种基于高阶深度哈希学习的图像检索方法
CN109284741A (zh) * 2018-10-30 2019-01-29 武汉大学 一种基于深度哈希网络的大规模遥感影像检索方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机***工程有限公司 基于深度学习和哈希的图像检索方法
CN108399185A (zh) * 2018-01-10 2018-08-14 中国科学院信息工程研究所 一种多标签图像的二值向量生成方法及图像语义相似度查询方法
CN109165306A (zh) * 2018-08-09 2019-01-08 长沙理工大学 基于多任务哈希学习的图像检索方法
CN109241313A (zh) * 2018-08-14 2019-01-18 大连大学 一种基于高阶深度哈希学习的图像检索方法
CN109284741A (zh) * 2018-10-30 2019-01-29 武汉大学 一种基于深度哈希网络的大规模遥感影像检索方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于深度卷积神经网络和二进制哈希学习的图像检索方法》;彭天强 等;《电子与信息学报》;20160826;第38卷(第8期);2068-2075 *

Also Published As

Publication number Publication date
CN109977250A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977250B (zh) 融合语义信息和多级相似性的深度哈希图像检索方法
CN111611377B (zh) 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN110807154B (zh) 一种基于混合深度学习模型的推荐方法与***
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析***及方法
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及***
CN111858931B (zh) 一种基于深度学习的文本生成方法
CN110717334A (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN110263323A (zh) 基于栅栏式长短时记忆神经网络的关键词抽取方法及***
CN110489567B (zh) 一种基于跨网络特征映射的节点信息获取方法及其装置
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、***及介质
CN111027595B (zh) 双阶段语义词向量生成方法
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN112464097A (zh) 一种多辅助域信息融合跨域推荐方法与***
CN111079409A (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN113157919B (zh) 语句文本方面级情感分类方法及***
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
Lin et al. Intelligent decision support for new product development: a consumer-oriented approach
CN110781271A (zh) 一种基于层次注意力机制的半监督网络表示学习模型
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
Du et al. Efficient network construction through structural plasticity
CN112950414A (zh) 一种基于解耦法律要素的法律文本表示方法
CN111737470A (zh) 文本分类方法
CN114254108B (zh) 一种中文文本对抗样本生成的方法、***及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant