CN113806580A - 基于层次语义结构的跨模态哈希检索方法 - Google Patents
基于层次语义结构的跨模态哈希检索方法 Download PDFInfo
- Publication number
- CN113806580A CN113806580A CN202111140203.7A CN202111140203A CN113806580A CN 113806580 A CN113806580 A CN 113806580A CN 202111140203 A CN202111140203 A CN 202111140203A CN 113806580 A CN113806580 A CN 113806580A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- layer
- hash
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 51
- 239000011159 matrix material Substances 0.000 claims description 41
- 238000013507 mapping Methods 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 abstract description 101
- 239000011229 interlayer Substances 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000004088 simulation Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 8
- FYKBJIJHQDFVCI-KVQBGUIXSA-N (2S,5R,6R)-2,6-diamino-5,7-dihydroxyheptanoic acid Chemical compound N[C@H](CO)[C@H](O)CC[C@H](N)C(O)=O FYKBJIJHQDFVCI-KVQBGUIXSA-N 0.000 description 3
- 101000869664 Pseudomonas aeruginosa (strain ATCC 15692 / DSM 22644 / CIP 104116 / JCM 14847 / LMG 12228 / 1C / PRS 101 / PAO1) FAD-dependent catabolic D-arginine dehydrogenase DauA Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Neurology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于层次语义结构的跨模态哈希检索方法,其步骤为:(1)建立数据集;(2)构建图像和文本特征提取网络;(3)利用层次语义结构生成损失函数;(4)训练图像和文本特征提取网络;(5)用户用图像检索文本;(6)用户用文本检索图像。本发明通过将图像文本对标签中每层的所有类别的类哈希码扩展为对应层次的层次语义结构,将各层的层次语义结构融合到哈希码中,使得图像文本对的哈希码很大程度地保留了标签的同层与层间的关联信息,解决了现有跨模态哈希检索方法忽略层间关系导致标签信息不全面的问题和将标签信息融合到图像特征和文本特征中导致哈希码损失了部分语义信息的问题。
Description
技术领域
本发明涉及计算机技术领域,更进一步涉及信息检索技术领域的一种基于层次语义结构的跨模态哈希检索方法。本发明可应用于图像、文本两种模态数据的信息检索,实现具有层次标签数据的模态内部及模态间的快速检索。
背景技术
随着信息技术的快速发展,网络上出现了包括图像、文本、音频、视频等在内的各种多媒体数据,这些多媒体数据中包含着丰富的可利用信息。从海量多媒体数据中查找有用信息的方法之一就是进行跨模态信息检索。这些多媒体数据通常都具有数据量大,维数较高等特点,为了能够实现对多媒体数据进行快速准确的检索,需要采用哈希方法对数据进行降维、编码,使用二进制哈希码可以大大降低存储成本和查询时间成本,提高检索性能。当前的跨模态检索哈希检索的研究热点是细粒度跨模态检索。细粒度跨模态检索的对象更加细致,类间差异更加细微,往往只能借助于微小的局部差异才能区分出不同的类别。据此实现细粒度跨模态检索的方法之一就是利用标签的层次结构。在实际应用中,数据的多个标签往往存在着由粗粒度到细粒度的层次结构。比如在电商中,一件衣服可以被标记为:衣服—上衣—衬衫。现有的方法处理多标签数据时,判断两个数据是否相似简单地根据其是否共享至少一个标签,这样显然忽略了标签的层次结构,从而导致检索精度不足。因此,如何有效的利用标签的层次结构,将标签的细粒度和粗粒度互补来提高检索精度是层次化跨模态检索的研究关键。
Changchang Sun等人在其发表的论文“Supervised Hierarchical Cross-ModalHashing”(Proceedings ofthe 42nd International ACM SIGIR Conference onResearch andDevelopment in Information Retrieval,2019,pp.725–734.)中提出了一种监督的层次化跨模态哈希检索方法。该方法通过分层判别学习和正则化的跨模态哈希来为多媒体数据的每一层语义信息学习一组哈希码;最后利用不同层次的哈希码来计算汉明距离,选择距离最近的若干个哈希码对应的多媒体数据,作为检索结果输出。该方法存在的不足之处是,在学习哈希码的过程中保留了数据的同层内的语义相似性信息,忽略了不同层之间的语义关联,使得学习到的哈希码缺乏标签的层次信息,导致图像文本检索精度不高。
山东大学在其申请的专利文献“利用标签层次信息的多媒体数据跨模态检索方法及***”(申请号:202010771701.0,申请公布号:CN 111930972A)中提出了利用标签层次信息的多媒体数据跨模态检索哈希方法。该方法首先获取待检索的第一模态多媒体数据,对待检索的第一模态多媒体数据进行特征提取。其中,图像数据利用预先训练好的卷积神经网络CNN进行特征提取,文本数据利用预先训练好的多层感知器MLP模型进行特征提取;然后利用标签和类哈希码将类别信息先整合到提取的特征中,然后将特征直接映射到二进制哈希码中;最后将第一模态哈希码与预存储的第二模态的所有多媒体数据对应的已知哈希码进行距离计算;选择距离最近的若干个哈希码对应的第二模态的多媒体数据,作为检索结果输出。该方法存在的不足之处是,将标签信息先融合到图像特征和文本特征中,再将图像特征和文本特征中高精度的值直接映射到值为{-1,1}的二进制哈希码,造成部分语义信息损失的问题。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于层次语义结构的跨模态哈希检索方法。用于解决目前提出的跨模态哈希检索方法在处理具有层次标签数据的时候,没有充分保持层间的关联信息以及将标签的语义信息融合到了特征中而导致损失了部分语义信息的问题。
实现本发明的技术思路是,通过将所有图像文本对标签中每层的所有类别的类哈希码用标签扩展为对应层次的层次语义结构,再将各层的层次语义结构融合到哈希码中,使得图像文本对的哈希码保持了标签的同层与层间的关联信息,解决现有跨模态哈希检索方法忽略数据标签层间的语义关联导致标签信息不全面的问题。本发明将图像文本对的层次语义结构和标签语义信息直接映射到了图像文本对的哈希码中,将层次语义结构和标签的语义信息很大程度地保留到了哈希码中,使得学习到的哈希码具有更丰富的语义信息,解决了当前技术中直接将标签信息融合到图像特征和文本特征中导致哈希码损失了部分语义信息的问题。
实现本发明的具体步骤包括如下:
步骤1,建立训练集:
(1a)选取至少500个自然图像数据样本与其对应的文本数据样本组成图像文本对样本集,对每个图像文本对中的图像和文本样本分别从粗粒度到细粒度进行人工分层标注;
(1b)将标注后的每个图像文本对中的图像样本裁剪成224×224像素值的图像;
(1c)利用词袋模型,将标注后的每个图像文本对中的文本样本转化成同样长度的0-1词袋向量;
(1d)将裁剪后的所有图像样本与其对应的文本的词袋向量,组成图像文本对训练集;
步骤2,构建图像和文本特征提取网络:
(2a)构建一个12层的图像特征提取网络,其结构依次为:输入层,第一卷积层,第一最大池化层,第二卷积层,第二最大池化层,第三卷积层,第四卷积层,第五卷积层,第三最大池化层,第一全连接层,第二全连接层,第三全连接层,第四全连接层,输出层;设置图像特征提取网络的各层参数如下:将第一至第五卷积层的卷积核大小分别设置为:11×11×3×64、5×5×64×256、3×3×256×256、3×3×256×256、3×3×256×256,步长分别设置为:4、1、1、1、1;将第一至第四全连接层的神经元数目分别设置为:4096、2048、1024、r,其中r表示图像文本对的哈希码长度,其数值由用户根据其检索的模糊程度从8bits,16bits,32bits,64bits,128bits的编码长度中选取一个长度;第一至第三最大池化层的窗口大小均设置为3×3;
(2b)构建一个由两个卷积层串联的文本特征提取模块;将第一至第二卷积层的卷积核大小分别设置为:1×m×1×8192、1×1×8192×r,步长均设置为1,其中,m表示词袋向量的维度;
(2c)将图像特征提取网络和文本特征提取网络并联成一个图像和文本特征提取网络;
步骤3,利用层次语义结构生成损失函数:
(3a)将所有图像文本对标签中每层所有类别的类哈希码按列从左往右组成一个类哈希码矩阵;
(3b)按照下式,计算训练集中每个图像文本对中每层的层次语义结构:
(3c)按照下式,计算将每个图像文本对每层的层次语义结构映射到图像文本对哈希码中的损失值:
(3d)生成损失函数如下:
其中,J表示损失函数,n表示训练集中图像文本对的总数,t表示图像文本对标签的总层数,αk表示第k层的层次语义结构的权重,设置 表示第i个图像文本对第k层的标签对该图像文本对对应层的层次语义结构分类的损失值,表示第i个图像文本对的最底层的标签对该图像文本对对应的哈希码分类的损失值,η表示将图像特征和文本特征映射到哈希码中的损失值的权重,其取值范围为(0,e),表示第i个图像文本对中图像特征映射到该图像文本对哈希码中的损失值,表示第i个图像文本对中文本特征映射到该图像文本对哈希码中的损失值;
步骤4,训练图像和文本特征提取网络:
(4a)将训练集中的图像文本对分批次输入到图像和文本特征提取网络中,利用Adam优化算法,用梯度下降法更新当前图像和文本特征提取网络中的参数,其中每个批次包含128个图像文本对;
(4b)利用最小二乘法,对更新网络参数后损失函数中的Bi向量和Qi、矩阵分别求一阶导数,并令一阶导数为零,得到每个向量和每个矩阵的封闭解;用每个向量和每个矩阵的封闭解更新当前损失函数中对应的向量和矩阵;
步骤5,用户用图像检索文本:
(5a)采用与步骤(1b)和(1c)相同的方法,对每个待检索的图像样本和被检索的文本样本进行处理后输入到训练好的图像和文本特征提取网络中,分别得到该图像样本的图像特征向量和文本样本的文本特征向量;
(5b)用输出的每个图像样本特征向量与损失函数收敛时的矩阵相乘,每个文本样本特征向量与损失函数收敛时的矩阵相乘,分别得到该图像样本和文本样本的松弛哈希码向量,将每个向量中大于零的元素记为1,其余的记为-1,得到该图像样本和文本样本的哈希码向量;
(5c)将待检索的每个图像哈希码和被检索的每个文本哈希码进行异或操作,得到两个哈希码的汉明距离,将所有的汉明距离升幂排序后提取前k个文本样本,作为图像检索文本的检索结果;其中,k的取值为小于被检索的文本样本的总数;
步骤6,用户用文本检索图像:
采用与步骤5相同的方法,用待检索的文本样本和被检索的图像样本得到文本检索图像的检索结果。
本发明与现有技术相比有以下优点:
第一,本发明将所有图像文本对的标签中每层的所有类别的类哈希码按列从左往右组成一个类哈希码矩阵,计算训练集中每个图像文本对中每层的层次语义结构,克服了现有技术中忽略数据标签不同层之间的语义关联导致标签信息不全面的问题,使得本发明学习到的哈希码保持了数据标签的同层与层间的关联信息,从而提高了图像文本检索的精度。
第二,本发明计算将每个图像文本对每层的层次语义结构映射到图像文本对哈希码中的损失值,克服了当前技术中直接将标签信息融合到图像特征和文本特征中导致部分语义信息损失的问题,使得层次语义结构和标签的语义信息很大程度地保留到了哈希码中,从而提高了哈希码中语义信息的丰富性。
附图说明
图1为本发明的流程图;
图2是本发明的图像和文本特征提取网络的结构示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步描述。
参照图1,对本发明的实现步骤做进一步的描述。
步骤1,建立训练集。
第一步,选取至少500个自然图像数据样本与其对应的文本数据样本组成图像文本对样本集,对每个图像文本对中的图像和文本样本分别从粗粒度到细粒度进行人工分层标注。
第二步,将标注后的每个图像文本对中的图像样本裁剪成224×224像素值的图像。
第三步,利用词袋模型,将标注后的每个图像文本对中的文本样本转化成同样长度的0-1词袋向量。
第四步,将裁剪后的所有图像样本与其对应的文本的词袋向量,组成图像文本对训练集。
步骤2,构建图像和文本特征提取网络。
构建一个12层的图像特征提取网络,其结构依次为:输入层,第一卷积层,第一最大池化层,第二卷积层,第二最大池化层,第三卷积层,第四卷积层,第五卷积层,第三最大池化层,第一全连接层,第二全连接层,第三全连接层,第四全连接层,输出层;设置图像特征提取网络的各层参数如下:将第一至第五卷积层的卷积核大小分别设置为:11×11×3×64、5×5×64×256、3×3×256×256、3×3×256×256、3×3×256×256,步长分别设置为:4、1、1、1、1;将第一至第四全连接层的神经元数目分别设置为:4096、2048、1024、r,其中r表示图像文本对的哈希码长度,其数值由用户根据其检索的模糊程度从8bits,16bits,32bits,64bits,128bits的编码长度中选取一个长度;第一至第三最大池化层的窗口大小均设置为3×3。
构建一个由两个卷积层串联的文本特征提取模块;将第一至第二卷积层的卷积核大小分别设置为:1×m×1×8192、1×1×8192×r,步长均设置为1,其中,m表示词袋向量的维度。
将图像特征提取网络和文本特征提取网络并联成一个图像和文本特征提取网络。
下面结合图2,对本发明构建的图像和文本特征提取网络做进一步的描述。
图2是本发明构建的图像和文本特征提取网络的结构示意图,图像和文本特征提取网络由图像特征提取网络和文本特征提取网络组成。其中,图像特征提取网络包括5层卷积层、4层全连接层和3层最大池化层,文本特征提取网络包括两个卷积层,矩形块上方的参数表示卷积层的卷积核的大小、全连接层的神经元数目和图像特征的维度。图像输入为224×224像素值大小的图像,输出为维度大小为r的图像特征。文本特征输入为词袋向量,输出为维度大小为r的文本特征。
步骤3,利用层次语义结构生成损失函数。
将所有图像文本对标签中每层所有类别的类哈希码按列从左往右组成一个类哈希码矩阵。
按照下式,计算训练集中每个图像文本对中每层的层次语义结构:
按照下式,计算将每个图像文本对每层的层次语义结构映射到图像文本对哈希码中的损失值:
其中,表示第i个图像文本对第k层的层次语义结构映射到该图像文本对哈希码的损失值,||·||2表示二范数操作,Bi表示第i个图像文本对的哈希码,将层次语义结构直接映射到哈希码中,使得哈希码较大程度保留了标签的语义信息。
生成损失函数如下:
其中,J表示损失函数,n表示训练集中图像文本对的总数,t表示图像文本对标签的总层数,αk表示第k层的层次语义结构的权重,设置 表示第i个图像文本对第k层的标签对该图像文本对对应层的层次语义结构分类的损失值,表示第i个图像文本对的最底层的标签对该图像文本对对应的哈希码分类的损失值,η表示将图像特征和文本特征映射到哈希码中的损失值的权重,其取值范围为(0,e),表示第i个图像文本对中图像特征映射到该图像文本对哈希码中的损失值,表示第i个图像文本对中文本特征映射到该图像文本对哈希码中的损失值。
步骤4,训练图像和文本特征提取网络。
第一步,将训练集中的图像文本对分批次输入到图像和文本特征提取网络中,利用Adam优化算法,用梯度下降法更新当前图像和文本特征提取网络中的参数,其中每个批次包含128个图像文本对。
第二步,利用最小二乘法,对更新网络参数后损失函数中的Bi向量和Qi、矩阵分别求一阶导数,并令一阶导数为零,得到每个向量和每个矩阵的封闭解;用每个向量和每个矩阵的封闭解更新当前损失函数中对应的向量和矩阵。
步骤5,用户用图像检索文本。
第一步,采用与步骤1中第一步和第二步相同的方法,对每个待检索的图像样本和被检索的文本样本进行处理后输入到训练好的图像和文本特征提取网络中,分别得到该图像样本的图像特征向量和文本样本的文本特征向量。
第二步,用输出的每个图像样本特征向量与损失函数收敛时的矩阵相乘,每个文本样本特征向量与损失函数收敛时的矩阵相乘,分别得到该图像样本和文本样本的松弛哈希码向量,将每个向量中大于零的元素记为1,其余的记为-1,得到该图像样本和文本样本的哈希码向量。
第三步,将待检索的每个图像哈希码和被检索的每个文本哈希码进行异或操作,得到两个哈希码的汉明距离,将所有的汉明距离升幂排序后提取前k个文本样本,作为图像检索文本的检索结果;其中,k的取值为小于被检索的文本样本的总数。
步骤6,用户利用文本检索图像。
采用与步骤5相同的方法,用待检索的文本样本和被检索的图像样本得到文本检索图像的检索结果。
本发明的效果可以通过以下仿真实验进一步说明:
下面结合仿真实验,对本发明的效果做进一步说明。
1.仿真实验条件:
本发明的仿真实验的硬件平台为:处理器为Intel Core Xeon 4210 CPU,主频为2.2GHz,内存16GB,显卡为Nvidia GeForce RTX 3090。
本发明的仿真实验的软件平台为:Linux4.15操作***和python 3.6。
本发明仿真实验所采用的数据为:FashionVC数据集,包含19862个图像文本对,图像样本为已裁剪成224×224像素值的图像,文本样本为bag-of-words向量。每一个图像文本对由层次标签所标注,层次标签的层数为两层,第一层标签类别为8类,第二层标签类别为27类。从FashionVC数据集中随机选取3000个图像文本对组成测试集,剩余的16862个图像文本对组成训练集。根据检索模糊程度分别将哈希码的长度设置为8bits,16bits,32bits,64bits,128bits五种长度。
2.仿真内容及其结果分析:
本发明的仿真实验是采用本发明方法和五个现有技术(DLFH、SSAH、DADH、HiCHNet和SHDCH)分别构建的六个跨模态信息检索网络,利用相同的训练集数据分别训练六个网络,得到训练好的六个跨模态哈希检索网络,将训练好的跨模态哈希检索网络中输出的训练集在五种哈希码长度下的哈希码作为被检索的哈希码检索集。利用相同的测试集分别对六个训练好的跨模态哈希检索网络在五种哈希码长度下输出图像检索文本和文本检索图像的检索集结果。
在仿真实验中,采用的五个现有技术是指:
现有技术DLFH是指,Wang等人在其发表的论文“Discrete latent factor modelfor cross-modal hashing”(IEEE Transactions on Image Processing,vol.28,no.7,pp.3490–3501,2019)中提出的跨模态哈希检索算法,简称DLFH。
现有技术SSAH是指,Li等人在其发表的论文“Self-supervised adversarialhashing networks for cross-modal retrieval”(Proceedings of the 31st IEEEConference on Computer Vision and Pattern Recognition,2018,pp.4242–4251)中提出的跨模态哈希检索方法,简称SSAH。
现有技术DADH是指,Bai等人在其发表的论文“Deepadversarialdiscretehashing for cross-modal retrieval”(Proceedings of the2020on International Conference on MultimediaRetrieval,2020,pp.525–531)中提出的跨模态信息检索方法,简称DADH。
现有技术HiCHNet是指,Sun等人在其发表的论文“Supervised hierarchicalcross-modalhashing”(Proceedingsofthe42ndInternationalACM SIGIRConferenceon ResearchandDevelopmentinInformationRetrieval,2019,pp.725–734)中提出的跨模态哈希检索方法,简称HiCHNet。
现有技术SHDCH是指,Zhan等人在其发表的论文“Supervisedhierarchical deephashingforcross-modalretrieval”(Proceedingsofthe28thACMInternationalConference onMultimedia,2020,pp.3386–3394)中提出的跨模态哈希检索方法,简称SHDCH。
为了评价本发明实验的仿真效果,利用每种哈希码长度下的平均精度均值mAPy在相同的测试集上分别对六个跨模态哈希检索方法在五种哈希码长度下进行评价。
利用下面公式,分别计算本发明跨模态哈希检索方法与五个现有技术跨模态哈希检索方法中每种方法在图像检索文本的每种哈希码长度下的平均精度均值mAPy,将计算结果制成表1进行比较。
所述的每种方法在每种哈希码长度的平均精度均值是由下式计算得到的:
其中,表示采用第z个跨模态哈希检索方法在检索集和测试集哈希码长度为y的所有图像文本对中图像的平均精度均值,z的取值为{1,2,3,4,5,6},y的取值为{8,16,32,64,128},E表示测试集中图像文本对的总数,本发明的仿真实验中该总数为3000,Σ表示求和操作,e表示测试集中图像文本对的序号,表示采用第z个跨模态哈希检索方法在哈希码长度为y的测试集中第e个图像文本对中图像的平均精度。
所述采用第z个跨模态哈希检索方法在哈希码长度为y的测试集中第e个图像文本对中图像的平均精度是由下式计算得到的:
其中,X表示哈希码检索集中根据标签是否相同得到的与第e个图像相关的样本总数,Ue(x)表示哈希码检索集中与第e个图像相关的第x个样本在根据汉明距离排序后的检索结果中的排名。
采用与图像检索文本相同的方式计算本发明跨模态哈希检索方法与五个现有技术跨模态哈希检索方法中每种方法在文本检索图像的每种哈希码长度下的平均精度均值mAPy,将计算结果制成表2进行比较。
表1:本发明仿真实验图像检索文本的平均检索精度比较表
表2:本发明仿真实验文本检索图像的平均检索精度比较表
结合表1和表2可以看出,本发明方法在计算的图像检索文本和文本检索图像的平均检索精度均高于五种现有技术方法,较于五种现有技术中平均检索精度最好的跨模态哈希检索方法SHDCH,本发明方法的图像检索文本精度在五个哈希码长度上分别提高了1.4%、3%、1.5%、0.4%、1%,本发明方法的文本检索图像精度在五个哈希码长度上分别提高了2.2%、1.6%、0.5%、0.3%、0.7%;证明本方法可以得到更高的跨模态哈希检索精度。
以上仿真实验表明:本发明通过将所有图像文本对标签中每层的类哈希码用标签扩展为对应层次的层次语义结构,再将各层的层次语义结构融合到哈希码中,使得图像文本对的哈希码保持了标签的同层与层间的关联信息,哈希码很大程度地保留了标签信息,解决现有技术跨模态哈希检索方法忽略数据标签不同层之间的语义关联导致图像文本检索精度不高问题和直接将标签信息融合到图像和文本的特征中造成部分语义信息损失的问题,提高了跨模态哈希检索的精度。
Claims (6)
1.一种基于层次语义结构的跨模态哈希检索方法,其特征在于,通过将所有图像文本对标签中每层的所有类别对应的类哈希码扩展为层次语义结构,将层次语义结构直接映射到图像文本对哈希码中;该方法的具体步骤包括如下:
步骤1,建立训练集:
(1a)选取至少500个自然图像数据样本与其对应的文本数据样本组成图像文本对样本集,对每个图像文本对中的图像和文本样本分别从粗粒度到细粒度进行人工分层标注;
(1b)将标注后的每个图像文本对中的图像样本裁剪成224×224像素值的图像;
(1c)利用词袋模型,将标注后的每个图像文本对中的文本样本转化成同样长度的0-1词袋向量;
(1d)将裁剪后的所有图像样本与其对应的文本的词袋向量,组成图像文本对训练集;
步骤2,构建图像和文本特征提取网络:
(2a)构建一个12层的图像特征提取网络,其结构依次为:输入层,第一卷积层,第一最大池化层,第二卷积层,第二最大池化层,第三卷积层,第四卷积层,第五卷积层,第三最大池化层,第一全连接层,第二全连接层,第三全连接层,第四全连接层,输出层;设置图像特征提取网络的各层参数如下:将第一至第五卷积层的卷积核大小分别设置为:11×11×3×64、5×5×64×256、3×3×256×256、3×3×256×256、3×3×256×256,步长分别设置为:4、1、1、1、1;将第一至第四全连接层的神经元数目分别设置为:4096、2048、1024、r,其中r表示图像文本对的哈希码长度,其数值由用户根据其检索的模糊程度从8bits,16bits,32bits,64bits,128bits的编码长度中选取一个长度;第一至第三最大池化层的窗口大小均设置为3×3;
(2b)构建一个由两个卷积层串联的文本特征提取模块;将第一至第二卷积层的卷积核大小分别设置为:1×m×1×8192、1×1×8192×r,步长均设置为1,其中,m表示词袋向量的维度;
(2c)将图像特征提取网络和文本特征提取网络并联成一个图像和文本特征提取网络;
步骤3,利用层次语义结构生成损失函数:
(3a)将所有图像文本对标签中每层所有类别的类哈希码按列从左往右组成一个类哈希码矩阵;
(3b)按照下式,计算训练集中每个图像文本对中每层的层次语义结构:
(3c)按照下式,计算将每个图像文本对每层的层次语义结构映射到图像文本对哈希码中的损失值:
(3d)生成损失函数如下:
其中,J表示损失函数,n表示训练集中图像文本对的总数,t表示图像文本对标签的总层数,αk表示第k层的层次语义结构的权重,设置 表示第i个图像文本对第k层的标签对该图像文本对对应层的层次语义结构分类的损失值,表示第i个图像文本对的最底层的标签对该图像文本对对应的哈希码分类的损失值,η表示将图像特征和文本特征映射到哈希码中的损失值的权重,其取值范围为(0,e),表示第i个图像文本对中图像特征映射到该图像文本对哈希码中的损失值,表示第i个图像文本对中文本特征映射到该图像文本对哈希码中的损失值;
步骤4,训练图像和文本特征提取网络:
(4a)将训练集中的图像文本对分批次输入到图像和文本特征提取网络中,利用Adam优化算法,用梯度下降法更新当前图像和文本特征提取网络中的参数,其中每个批次包含128个图像文本对;
(4b)利用最小二乘法,对更新网络参数后损失函数中的Bi向量和Wi k、Qi、Pi I、Pi T矩阵分别求一阶导数,并令一阶导数为零,得到每个向量和每个矩阵的封闭解;用每个向量和每个矩阵的封闭解更新当前损失函数中对应的向量和矩阵;
步骤5,用户利用图像检索文本:
(5a)采用与步骤(1b)和(1c)相同的方法,对每个待检索的图像样本和被检索的文本样本进行处理后输入到训练好的图像和文本特征提取网络中,分别得到该图像样本的图像特征向量和文本样本的文本特征向量;
(5b)用输出的每个图像样本特征向量与损失函数收敛时的Pi I矩阵相乘,每个文本样本特征向量与损失函数收敛时的Pi T矩阵相乘,分别得到该图像样本和文本样本的松弛哈希码向量,将每个向量中大于零的元素记为1,其余的记为-1,得到该图像样本和文本样本的哈希码向量;
(5c)将待检索的每个图像哈希码和被检索的每个文本哈希码进行异或操作,得到两个哈希码的汉明距离,将所有的汉明距离升幂排序后提取前k个文本样本,作为图像检索文本的检索结果;其中,k的取值为小于被检索的文本样本的总数;
步骤6,用户利用文本检索图像:
采用与步骤5相同的方法,用待检索的文本样本和被检索的图像样本得到文本检索图像的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111140203.7A CN113806580B (zh) | 2021-09-28 | 2021-09-28 | 基于层次语义结构的跨模态哈希检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111140203.7A CN113806580B (zh) | 2021-09-28 | 2021-09-28 | 基于层次语义结构的跨模态哈希检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806580A true CN113806580A (zh) | 2021-12-17 |
CN113806580B CN113806580B (zh) | 2023-10-20 |
Family
ID=78896912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111140203.7A Active CN113806580B (zh) | 2021-09-28 | 2021-09-28 | 基于层次语义结构的跨模态哈希检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806580B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239730A (zh) * | 2021-12-20 | 2022-03-25 | 华侨大学 | 一种基于近邻排序关系的跨模态检索方法 |
CN114329109A (zh) * | 2022-03-15 | 2022-04-12 | 山东建筑大学 | 基于弱监督哈希学习的多模态检索方法及*** |
CN116662490A (zh) * | 2023-08-01 | 2023-08-29 | 山东大学 | 融合层次化标签信息的去混淆文本哈希算法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
WO2021136318A1 (zh) * | 2019-12-30 | 2021-07-08 | 论客科技(广州)有限公司 | 一种面向数字人文的电子邮件历史事件轴生成方法及装置 |
-
2021
- 2021-09-28 CN CN202111140203.7A patent/CN113806580B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
WO2021136318A1 (zh) * | 2019-12-30 | 2021-07-08 | 论客科技(广州)有限公司 | 一种面向数字人文的电子邮件历史事件轴生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
刘昊鑫;吴小俊;庾骏;: "联合哈希特征和分类器学习的跨模态检索算法", 模式识别与人工智能, no. 02 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239730A (zh) * | 2021-12-20 | 2022-03-25 | 华侨大学 | 一种基于近邻排序关系的跨模态检索方法 |
CN114329109A (zh) * | 2022-03-15 | 2022-04-12 | 山东建筑大学 | 基于弱监督哈希学习的多模态检索方法及*** |
CN116662490A (zh) * | 2023-08-01 | 2023-08-29 | 山东大学 | 融合层次化标签信息的去混淆文本哈希算法和装置 |
CN116662490B (zh) * | 2023-08-01 | 2023-10-13 | 山东大学 | 融合层次化标签信息的去混淆文本哈希算法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113806580B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN107480261B (zh) | 一种基于深度学习细粒度人脸图像快速检索方法 | |
CN113806580B (zh) | 基于层次语义结构的跨模态哈希检索方法 | |
CN110059181B (zh) | 面向大规模分类体系的短文本标签方法、***、装置 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN108875076B (zh) | 一种基于Attention机制和卷积神经网络的快速商标图像检索方法 | |
CN111753189A (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN108399185B (zh) | 一种多标签图像的二值向量生成方法及图像语义相似度查询方法 | |
CN108984642B (zh) | 一种基于哈希编码的印花织物图像检索方法 | |
CN113377981B (zh) | 基于多任务深度哈希学习的大规模物流商品图像检索方法 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN111598041A (zh) | 一种用于物品查找的图像生成文本方法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN112949740A (zh) | 一种基于多级度量的小样本图像分类方法 | |
CN111832580B (zh) | 结合少样本学习与目标属性特征的sar目标识别方法 | |
CN113032613A (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN113987188B (zh) | 一种短文本分类方法、装置及电子设备 | |
Zhou et al. | Deep global semantic structure-preserving hashing via corrective triplet loss for remote sensing image retrieval | |
Arulmozhi et al. | DSHPoolF: deep supervised hashing based on selective pool feature map for image retrieval | |
CN108898157B (zh) | 基于卷积神经网络的数值型数据的雷达图表示的分类方法 | |
CN113590867B (zh) | 基于分层度量学习的跨模态信息检索方法 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |