CN111782852B

CN111782852B - 基于深度学习的高层次语义图像检索方法

Info

Publication number: CN111782852B
Application number: CN202010580880.XA
Authority: CN
Inventors: 韩红; 杨慎全
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2024-04-09
Anticipated expiration: 2040-06-23
Also published as: CN111782852A

Abstract

本发明公开了一种基于深度学习的高层次语义图像检索方法，主要解决现有技术从图像语义角度进行检索时存在的语义鸿沟问题。其实现步骤为：1)构建CNN‑RNN网络模型并进行训练；2)使用训练后的网络模型提取图像库中图片的文本特征；3)使用词向量word2vec模型提取文本特征的语义特征向量并存储；4)使用训练后的网络模型提取查询图片的文本特征，并提取其对应的语义特征向量；5)使用余弦法将查询图片的特征向量和图像库中特征向量进行计算比较，并输出结果。本发明能够有效降低语义鸿沟对***的影响，使***可从图片的语义信息上实现相似性检索，适用于互联网企业日常的检索业务也可用于嵌入与智能手机中搜索图片。

Description

基于深度学习的高层次语义图像检索方法

技术领域

本发明属于图像处理技术领域，进一步涉及基于图像的模式识别技术，具体为一种基于深度学习的高层次语义图像检索方法。可在图像检索过程中，对于查询图片(queryimage)，搜索得到图像库里与查询图片相似的图像并将其输出。

背景技术

在web2.0的今天，每时每刻都会有巨量的图像上传到网络上，尤其随着QQ、微信、微博、淘宝等应用程序的流行。例如淘宝的服务器中就存储着近300亿张图片，相比于文本，图片所包含的信息更为丰富，所以如何在这些巨量的图像数据库中发挥计算机的优势，把人们从繁重的手工工作中解放出来，即快速、准确的检索出用户感兴趣的图片，具有很大的经济价值和现实意义。图片检索技术已成为信息检索领域中的一个研究热点，越来越多的研究人员投入到了这一领域当中。

图像检索是指给定一包含特定内容的图像，然后在图像数据库中找到包含相似内容的图像。但是由于不同的图像在拍摄角度、遮挡、光照等因素的影响下差别较大，如何在上述不可控因素的影响下快速找到想要的图像，极具挑战。

传统的图像检索的方法，大多采用方向梯度直方图HOG(Histogram of OrientedGradient)、尺度不变特征变换SIFT(Scale-invariant feature transform)等模型提取图片的特征向量，然后通过计算特征向量的距离来输出相似的图片，但是通过以上模型智能提取例如形状、姿态等某种类型的特征时，容易受到噪声的影响，且计算速度慢、实时性差、检索精度不高，所以亟待新的研究方法问世。

近年来，随着大数据、深度学习研究的发展，卷积神经网络CNN已成为当前语音分析和图像识别领域的研究热点，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统图像检索算法计算量大、速度慢的缺点。

因为CNN等的快速发展，大量基于卷积神经网络的图像检索算法被提出，其中最经典的算法当属基于CNN和哈希算法的图像检索方法Deep Supervised Hashing for FastImage Retrieval(Haomiao Liu,Ruiping Wang,Shiguang Shan,Xilin Chen；The IEEEConference on Computer Vision and Pattern Recognition(CVPR),2016,pp.2064-2072)，它有效的提取了图像的特征向量，并且降低了特征向量的维度，有很好的速度和精度。因此，随后在CNN+哈希编码的基础上出现了许多改进的算法，但是，该方法也存在缺点，就是图像检索中的“语义鸿沟”问题一直没有得到彻底的解决，即不能从图片语义的角度去检索相似的图片。

广东工业大学申请的专利“一种多特征融合的外观设计专利图像检索方法”(专利申请号：CN2010101913413A，公开号：CN101847163A)中提出一种图像检索的方法，包括在特征提取方面采用将整体特征和局部特征相融合的办法，此阿勇边界方向直方图算法和结构特征描述形状特征，采用Gabor滤波算法和分类特征统计提取纹理特征，图像检索的过程中首先采用几何特征进行比较，根据阈值对图像筛选，其次用形状特征和纹理特征进行相似度匹配，将图像按相似度大小排序返回。该方法存在的不足之处是：由于采用了多种特征融合的方式，特征向量维数高、计算时间长，且实时性差。

郑州金惠计算机***工程有限公司申请的专利“一种基于深度学习和哈希图图像检索方法”(专利申请号：CN201510901348.2，公开号：CN105512289B)中提出了一种基于深度学习和哈希的图像检索方法。该方法首先利用深度卷积神经挽留过强大的学习能力，提取图像深层特征，克服了传统算法利用图像底层特征而导致特征表达能力不强、检索精度低的问题，并引进了哈希层构造哈希函数，将图像深度特征的学习和哈希函数的构造在同一过程中完成，挖掘图像特征与哈希函数的内在关系，提高了图像检索准确度。该方法虽然在使用深度学习和哈希编码时，降低了特征向量的维度，加快了检索的速度，然而，仍无法有效的克服或降低检索过程中“语义鸿沟”造成的影响。

发明内容

本发明的目的是针对上述现有的技术的不足，提出了一种基于深度学习的高层次语义图像检索方法。使用编码器-解码器深度模型对被检索的图像提取其图像内容的文本特征，然后使用词向量技术提取其相关的语义特征向量，将该特征向量与特征库中其它图片的特征向量进行计算与比较，从而获取库中与待查询图片相似的图片。有效提高了图像检索的准确率，减小了语义鸿沟造成的影响。

实现本发明方法的具体步骤如下：

(1)构建CNN-RNN网络模型并进行训练：

(1a)对MS COCO数据集中图片和相应的图像标题进行预处理；

(1b)构建卷积神经网络VGG编码器和循环神经网络LSTM解码器，得到由编码器和解码器组成的CNN-RNN网络模型；

(1c)对预处理后的数据划分训练数据集与测试数据集，采用训练数据集对网络模型进行训练，并利用测试数据集进行测试，获取最终CNN-RNN网络模型；

(2)使用最终CNN-RNN网络模型提取待检索图像库中所有图片的图像标题，即图片对应的文本特征，并将提取的文本特征存储在数据库中；

(3)使用gensim库中自带的词向量模型，将文本特征中每个词的词向量相加，并取其相加结果的平均值，得到每个文本特征对应的语义特征向量并存储；

(4)使用最终CNN-RNN网络模型提取查询图片的文本特征，并提取其对应的语义特征向量；

(5)使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较，得到相似语义特征向量；

(6)输出相似语义特征向量对应的图片，即待查询图片的相似图片。

本发明与现有技术先比具有以下优点：

第一、由于本发明结合了CNN网络和RNN网络，所以能够有效的提取图片的高层次概念进行学习，并能够将图片表达的概念用自然语言的形式表达出来；本发明能够在基于文本的图像检索思想下结合基于内容的图像检索技术，充分发挥两者各自优势，有效克服了人工标注文本的繁琐和语义鸿沟造成的影响。

第二、由于本发明采用了近期发展迅速的词向量技术，所以能够将从图片内容提取的自然语言描述转换到向量空间中去，并且保留了图片大量的语义信息，使得图像特征库中的特征向量能够有效的表示图片的语义信息。

附图说明

图1是本发明方法的实现流程图；

图2是本发明构建的CNN-RNN网络结构示意图；

图3是本发明中卷积神经网络VGG编码器的核心结构示意图。

具体实施方式

以下参照附图和实施例，对本发明作进一步详细说明：

参照图1，本发明实现的具体步骤如下：

步骤1，构建包含注意力机制的CNN-RNN网络模型并进行训练：

(1a)对MS COCO数据集中图片和相应的图像标题进行预处理操作，该操作包括分词、句法分析和词向量等；

上述卷积神经网络VGG编码器的核心结构，即inception模块，如图3所示，通过该模块的堆叠形成inception v2网络；构建卷积神经网络VGG编码器具体是将网络最后卷积层的输出作为图片的特征进行输出，即选取最后卷积层的至少5个特征图作为特征向量进行输出。该卷积神经网络是由5层卷积层、3层全连接层、softmax输出层构成，且层与层之间使用最大池化分开，所有隐层神经元均采用ReLU激活函数。

上述循环神经网络LSTM解码器的输入包含当前步的词向量和前一时间步的输出向量，输出为当前时间步输出的词向量。这种结合循环神经网络LSTM解码器得到的CNN-RNN网络模型，可以更好的解决梯度消失和***的问题。

(1c)对预处理后的数据划分训练数据集与测试数据集，采用训练数据集对网络模型进行训练，并利用测试数据集进行测试，获取最终CNN-RNN网络模型。

步骤2，使用最终CNN-RNN网络模型提取待检索图像库中所有图片的图像标题caption，即使用预训练好的编解码网络对待检索的图像库中的图片进行处理，依次提取图片对应的文本特征(自然语言描述)，并将提取的文本特征存储在数据库中。

步骤3，使用gensim库中自带的词向量word2vec模型，将文本特征中每个词的词向量相加，并取其相加结果的平均值，得到每个文本特征对应的语义特征向量并存储；具体为使用word2vec模型对自然语言描述进行处理，得到每一个图片的图像标题caption对应的语义特征向量，也就是图片对应的语义特征向量；把处理后得到特征向量作为最终的特征向量保存在图像特征数据库。

步骤4，使用最终CNN-RNN网络模型提取查询图片的文本特征，并提取其对应的语义特征向量；待检索时，把查询图片query image按照之前对图像库中其它图片的处理方式进行处理，得到查询图片对应的特征向量。

步骤5，使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较，得到相似语义特征向量；

上述余弦相似度比较法又称为余弦相似性计算，具体是通过计算两个语义特征向量的夹角余弦值来评估他们之间的相似度，计算公式如下：

其中A、B分别表示两个不同的语义特征向量。本实施例此处另A为查询图片的语义特征向量，B为图像库中其它图片的语义特征向量。

通过将查询图片的特征向量和图像库中的特征向量进行相似度计算并排序，可以得到查询图片的相似语义特征向量，进一步获取这些相似语义特征向量所对应的图片，从而得出图像库中与查询图片相似度高的图片具体是哪些。

步骤6.输出相似语义特征向量对应的图片，即查询图片的相似图片；

根据上一步的结果，按照用户的要求输出排序后的相似语义特征向量对应的图片，完成检索。

本发明的效果可以通过仿真进一步说明：

1、仿真实验条件：

本发明所用的数据集为：NUS-WIDE；该数据集是包含真实世界图片的数据库，可用于多种图像处理任务；其中包含了Flickr上269648张图片和相关的5018个标签，提取的六种低层次的特征(64维的颜色直方图、144维的颜色相关图、73维的边缘方向直方图、128维的小波纹理、225维的逐块颜色矩和基于SIFT描述的500维的词袋特征)，247849个图像的用户信息。

硬件平台为：Intel Core i5-4210U CPU；

软件平台：visual studio code。

2、实验内容与结果

本发明通过对NUS-WIDE数据集进行实验，通过提取图片的自然语言描述，进而提取包含图片语义信息的特征向量组成特征图像库，然后根据同样的方法去处理查询图片，最后通过向量间的计算，得出结果。在测试的3000张数据中，对比算法Supervised Hashingwith Kernels(KSH)、Deep Neural Network Hashing(DNNH)和Supervised Hashing forImage Retrieval via Image Representation Learning(CNNH)的仿真结果，如表1所示，可以看出本发明方法比其他方法的mAP指标高了近8个百分点甚至更多，在图片检索时有较高的效率。

表1本发明和现有方法的mAP指标对比

上述仿真分析证明了本发明所提方法的正确性与有效性。

本发明未详细说明部分属于本领域技术人员公知常识。

以上描述仅是本发明的一个具体实施例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求的保护范围之内。

Claims

1.一种基于深度学习的高层次语义图像检索方法，其特征在于，包括如下步骤：

(1)构建CNN-RNN网络模型并进行训练：

(1a)对MS COCO数据集中图片和相应的图像标题进行预处理；

(1b)构建卷积神经网络VGG编码器和循环神经网络LSTM解码器，得到由编码器和解码器组成的CNN-RNN网络模型；所述构建卷积神经网络VGG编码器具体是将网络最后卷积层的输出作为图片的特征进行输出，即选取最后卷积层的至少5个特征图作为特征向量进行输出；所述卷积神经网络VGG编码器的网络结构由5层卷积层、3层全连接层、softmax输出层构成，且层与层之间使用最大池化分开，所有隐层神经元均采用ReLU激活函数；

2.根据权利要求1所述的方法，其特征在于：所述文本特征是用自然语言描述图片内容的短文本。

3.根据权利要求1所述的方法，其特征在于：步骤(1a)所述预处理为分词、句法分析和词向量。

4.根据权利要求1所述的方法，其特征在于：步骤(1b)所述循环神经网络LSTM解码器的输入包含当前步的词向量和前一时间步的输出向量，输出为当前时间步输出的词向量。

5.根据权利要求1所述的方法，其特征在于：步骤(3)所述得到每个文本特征对应的语义特征向量，是把图片内容的自然语言描述转换为语义特征向量。

6.根据权利要求1所述的方法，其特征在于：步骤(5)所述余弦相似度按照如下公式计算：

其中A表示查询图片的语义特征向量，B表示图像库中其它图片的语义特征向量。