CN111782853B

CN111782853B - 基于注意力机制的语义图像检索方法

Info

Publication number: CN111782853B
Application number: CN202010582273.7A
Authority: CN
Inventors: 韩红; 杨慎全
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2022-12-02
Anticipated expiration: 2040-06-23
Also published as: CN111782853A

Abstract

本发明公开了一种基于注意力机制的语义图像检索方法，主要解决图片检索过程中语义鸿沟影响检索准确率的问题。其实现步骤为：1)构建包含注意力机制的CNN‑RNN网络模型并进行训练；2)使用训练后的网络模型提取图像库中图片的文本特征；3)使用文本向量doc2vec模型提取文本特征的语义特征向量并存储；4)使用训练后的网络模型提取查询图片的文本特征，并提取其对应的语义特征向量；5)使用余弦法将查询图片的特征向量和图像库中特征向量进行计算比较，并输出结果。本发明能够有效降低语义鸿沟造成的影响，使得***可从图片表现出来的语义信息进行相似性检索，能够用于互联网中对海量数据的快速检索和日常生活中手机照片的搜索。

Description

基于注意力机制的语义图像检索方法

技术领域

本发明属于图像处理技术领域，进一步涉及基于图像的模式识别技术，具体为一种基于注意力机制的语义图像检索方法。可在图像检索过程中，对于查询图片(queryimage)，搜索得到图像库里与查询图片相似的图像并将其输出。

背景技术

图像检索是指给定一包含特定内容的图像，然后在图像数据库中找到包含相似内容的图像，但是由于不同的图像在拍摄角度、遮挡、光照等因素的影响下差别较大，如何在上述不可控因素的影响下快速找到想要的图像是一个具有挑战性的题目。在现今网络时代，网路上每时每刻都会有巨量的图像上传到服务器中，尤其随着社交网络的兴起，例如腾讯的服务器中存储着近60亿张图片，图片包含着非常丰富的信息，所以如何在处理巨量的图像数据中发挥计算机的优势，并且快速、准确的找到用户所感兴趣的图片检索出来，具有很大的价值和现实意义，所以越来越多的科研人员投入到了这一领域中。

传统的图像检索的方法，大多采用方向梯度直方图HOG(Histogram of OrientedGradient)、尺度不变特征变换SIFT(Scale-invariant feature transform)等模型提取图片的特征向量，然后通过计算特征向量的距离来输出相似的图片，但是以上模型容易受到噪声的影响，且计算速度慢、检索精度不高，所以亟待新的研究方法问世。

近几年来，随着深度学习的研究大热，卷积神经网络CNN已成为当前语音分析和图像识别领域的研究热点，它的权值共享、感受野等结构使之在图像领域占据统治地位并且使图像可以直接作为网络的输入，避免了传统图像检索算法计算量大、速度慢的缺点。

因为CNN等的快速发展，大量基于卷积神经网络的图像检索算法被提出，其中最经典的算法当属基于CNN和哈希算法的图像检索方法Deep Supervised Hashing for FastImage Retrieval(Haomiao Liu,Ruiping Wang,Shiguang Shan,Xilin Chen；The IEEEConference on Computer Vision and Pattern Recognition(CVPR),2016,pp.2064-2072)，它有效的提取了图像的特征向量，并且使用二进制码降低了特征向量的维度，有很好的速度和精度。因此，随后在CNN+哈希编码的基础上出现了许多改进的算法，但是，该方法也存在缺点，就是图像检索中的“语义鸿沟”问题一直没有得到彻底的解决，即不能实现从图片语义的角度去检索相似的图片。

中国科学技术大学申请的专利“一种基于CNN的快速图像检索方法”(专利申请号：CN201610211503.2，公开号：CN105912611A)中提出一种图像检索的方法，包括第一阶段是利用Google预训练的CNN网络进行提取得到矢量特征，第二阶段是在特征数据库中对此矢量特征进行K近邻检索。该专利基于PQ的快速检索的思想，并加入文本检索中的倒排策略，在应用中考虑自身的数据量，较为合理的安排***参数，并在检索结果重排序方面进行改进。然而该方案由于采用了CNN提取特征的方式，特征向量维数高，从而使得检索效率较低。

中国科学院自动化研究所申请的专利“基于语义分析的网络图像检索方法”(专利申请号：CN200910089536.4，公开号：CN101751447A)中提出了一种本发明涉及基于语义分析的网络图像检索方法，对用户输入的查询图像提取底层特征。对每种特征进行基于内容的图像检索找到视觉上相似的网络图像集。用网络图像集中各图像所对应的相关文本信息进行语义学习得到查询图像的语义表示。判断各种特征所对应检索图像集在文本信息上的语义一致性，以语义一致性衡量各种特征的描述能力，并赋予不同的置信度。用查询图像的语义和语义一致性在图像库中进行基于文本的图像检索得到图像库中每幅图像与查询图像的语义相关性；用底层特征对图像库基于内容的图像检索,得到图像库中每幅图像与查询图像视觉上的相关性；由线性函数把语义和视觉相关性融合，返回给用户的图像在语义层面上和视觉层面上都具有相似性。该方法存在的不足之处是检索***过于复杂、特征种类过多，这将大大影响检索的速度，无法有效克服或降低检索过程中存在的“语义鸿沟”问题。

发明内容

本发明的目的是针对上述的现有的技术的不足，提出一种基于注意力机制的语义图像检索方法。使用带有注意力机制的CNN-RNN深度模型对被检索的图片提取其图像内容的文本特征，然后使用文本向量doc2vec模型提取文本特征对应的语义特征向量，将该特征向量与图像特征库中的特征向量进行对比，获取库中的相似图片。有效提高了图像检索的准确率，缩小了语义鸿沟造成的影响。

实现本发明方法的具体步骤如下：

(1)构建包含注意力机制的CNN-RNN网络模型并进行训练：

(1a)对MS COCO数据集中图片和相应的图像标题进行预处理；

(1b)构建卷积神经网络VGG编码器和循环神经网络LSTM解码器，并在解码器中加入注意力机制，得到由编码器和解码器组成的CNN-RNN网络模型；

(1c)对预处理后的数据划分训练数据集与测试数据集，采用训练数据集对网络模型进行训练，并利用测试数据集进行测试，获取最终CNN-RNN网络模型；

(2)使用最终CNN-RNN网络模型提取待检索图像库中所有图片的图像标题，即图片对应的文本特征，并将提取的文本特征存储在数据库中；

(3)使用文本向量doc2vec模型提取数据库中文本特征的语义特征向量并存储：

(3a)使用gensim库中的文本向量doc2vec模型对步骤(2)得到的所有文本特征依次进行处理，获取每个图片对应的语义特征向量；

(3b)将得到的语义特征向量与相对应的图片存储在数据库中，并使之相互匹配；

(4)使用最终CNN-RNN网络模型提取查询图片的文本特征，并提取其对应的语义特征向量；

(5)使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较，得到相似语义特征向量；

(6)输出相似语义特征向量对应的图片，即查询图片的相似图片。

本发明与现有技术先比具有以下优点：

第一、由于本发明将计算机视觉和自然语言处理中的相关技术相结合，即在CNN-RNN网络中引入注意力机制(attention mechanism)，所以网络能够有效的提取关于图片的高层次概念，并可将图片表达的概念用自然语言的形式表达出来；本发明方案在基于文本的图像检索思想下结合基于内容的图像检索技术，使得两者的优势都得以体现，有效克服了人工标注文本的繁琐以及语义鸿沟造成的影响。

第二、由于本发明采用了近期发展迅速的词向量技术，且在词向量的基础上使用了文本向量doc2vec，从而能够有效地解决保留单词顺序的问题，在把自然语言描述转换到向量空间时，相比现有技术采用的词向量word2vec模型具有更好的转换效果。

附图说明

图1是本发明方法的实现流程图；

图2是本发明中带有注意力机制的CNN-RNN网络结构示意图；

图3是本发明中卷积神经网络VGG编码器的核心结构示意图。

具体实施方式

以下参照附图和实施例，对本发明作进一步详细说明：

参照图1，本发明实现的具体步骤如下：

步骤1，构建包含注意力机制的CNN-RNN网络模型并进行训练：

(1a)对MS COCO数据集中图片和相应的图像标题进行预处理操作，该操作包括分词、句法分析和词向量等；

上述卷积神经网络VGG编码器的核心结构，即inception模块，如图3所示，通过该模块的堆叠形成inception v2网络；构建卷积神经网络VGG编码器具体是将网络最后卷积层的输出作为图片的特征进行输出，即选取最后卷积层的至少5个特征图作为特征向量进行输出。该卷积神经网络是由5层卷积层、3层全连接层、softmax输出层构成，且层与层之间使用最大池化分开，所有隐层神经元均采用ReLU激活函数。

上述循环神经网络LSTM解码器的输入包含当前步的词向量、前一时间步的输出向量以及注意力机制形成的加权向量，输出为当前时间步输出的词向量。在该解码器中加入注意力机制是指在解码器解码的每一时间步时，将循环神经网络LSTM解码器输出的特征向量进行加权平均得到上下文向量，并将该向量也作为解码器网络的一个输入，用于实现指导当前时间步的解码操作。这种结合循环神经网络LSTM解码器得到的CNN-RNN网络模型，可以更好的解决梯度消失和***的问题。

(1c)对预处理后的数据划分训练数据集与测试数据集，采用训练数据集对网络模型进行训练，并利用测试数据集进行测试，获取最终CNN-RNN网络模型。

步骤2，使用最终CNN-RNN网络模型提取待检索图像库中所有图片的图像标题caption，即使用预训练好的编解码网络对待检索的图像库中的图片进行处理，依次提取图片对应的文本特征(自然语言描述)，并将提取的文本特征存储在数据库中。

步骤3，使用文本向量doc2vec模型提取数据库中文本特征的语义特征向量并存储：

(3a)使用gensim库中的文本向量doc2vec模型对步骤2得到的所有文本特征依次进行处理，即将提取到的自然语言转换到特征向量空间中，得到每个图片对应的语义特征向量；具体为使用doc2vec模型对自然语言描述的每句话进行处理，得到每一个图片的图像标题caption对应的语义特征向量，也就是图片对应的语义特征向量；

(3b)将得到的语义特征向量与相对应的图片存储在数据库中，并使之相互匹配。

步骤4，使用最终CNN-RNN网络模型提取查询图片的文本特征，并提取其对应的语义特征向量；即结合带有注意力机制的CNN-RNN网络和doc2vec模型对查询图片进行图像标题caption提取和特征向量转换；待检索时，把查询图片query image按照之前对图像库中其它图片的处理方式，依次使用编解码网络和doc2vec模型进行处理，得到查询图片对应的特征向量。

步骤5，使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较，得到相似语义特征向量；

上述余弦相似度比较法又称为余弦相似性计算，具体是通过计算两个语义特征向量的夹角余弦值来评估他们之间的相似度，计算公式如下：

其中A、B分别表示两个不同的语义特征向量。本实施例此处另A为查询图片的语义特征向量，B为图像库中其它图片的语义特征向量。

通过将查询图片的特征向量和图像库中的特征向量进行相似度计算并排序，可以得到查询图片的相似语义特征向量，进一步获取这些相似语义特征向量所对应的图片，从而得出图像库中与查询图片相似度高的图片具体是哪些。

步骤6.输出相似语义特征向量对应的图片，即查询图片的相似图片；

根据上一步的结果，按照用户的要求输出排序后的相似语义特征向量对应的图片，完成检索。

本发明的效果可以通过仿真进一步说明：

1、仿真实验条件：

本发明所用的数据集为：NUS-WIDE；该数据集是包含真实世界图片的数据库，可用于多种图像处理任务；其中包含了Flickr上269648张图片和相关的5018个标签，提取的六种低层次的特征(64维的颜色直方图、144维的颜色相关图、73维的边缘方向直方图、128维的小波纹理、225维的逐块颜色矩和基于SIFT描述的500维的词袋特征)，247849个图像的用户信息。

硬件平台为：Intel Core i5-4210U CPU；

软件平台为：visual studio code。

2、实验内容与结果

本发明通过对NUS-WIDE数据集进行实验，通过提取图片的自然语言描述，进而提取包含图片语义信息的特征向量组成特征图像库，然后根据同样的方法去处理查询图片，最后通过向量间的计算，得出结果。在测试的3000张数据中，对比算法Learning to Hashwith Binary Reconstructive Embeddings(BRE)、Deep learning of binary hash codesfor fast image retrieva(DLBHC)、Deep Supervised Hashing for Fast ImageRetrieval(DSH)的仿真结果，如表1所示，可以看出本发明在图片检索时有较高的效率。

表1本发明和现有方法的mAP指标对比

上述仿真分析证明了本发明所提方法的正确性与有效性。

本发明未详细说明部分属于本领域技术人员公知常识。

以上描述仅是本发明的一个具体实施例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求的保护范围之内。

Claims

1.一种基于注意力机制的语义图像检索方法，其特征在于，包括如下步骤：

(1)构建包含注意力机制的CNN-RNN网络模型并进行训练：

(1a)对MS COCO数据集中图片和相应的图像标题进行预处理；

(6)输出相似语义特征向量对应的图片，即待查询图片的相似图片。

2.根据权利要求1所述的方法，其特征在于：所述文本特征是用自然语言描述图片内容的短文本。

3.根据权利要求1所述的方法，其特征在于：步骤(1a)所述预处理为分词、句法分析和词向量。

4.根据权利要求1所述的方法，其特征在于：步骤(1b)所述构建卷积神经网络VGG编码器具体是将网络最后卷积层的输出作为图片的特征进行输出，即选取最后卷积层的至少5个特征图作为特征向量进行输出。

5.根据权利要求4所述的方法，其特征在于：所述卷积神经网络VGG编码器的网络结构由5层卷积层、3层全连接层、softmax输出层构成，且层与层之间使用最大池化分开，所有隐层神经元均采用ReLU激活函数。

6.根据权利要求1所述的方法，其特征在于：步骤(1b)所述在解码器中加入注意力机制是指在解码器解码的每一时间步时，将循环神经网络LSTM解码器输出的特征向量进行加权平均得到上下文向量，并将该向量也作为解码器网络的一个输入，用于实现指导当前时间步的解码操作。

7.根据权利要求1所述的方法，其特征在于：步骤(1b)所述循环神经网络LSTM解码器的输入包含当前步的词向量、前一时间步的输出向量以及注意力机制形成的加权向量，输出为当前时间步输出的词向量。

8.根据权利要求1所述的方法，其特征在于：步骤(3)所述提取数据库中文本特征的语义特征向量是把图片内容的自然语言描述转换为语义特征向量。

9.根据权利要求1所述的方法，其特征在于：步骤(5)所述余弦相似度按照如下公式计算：

其中A表示查询图片的语义特征向量，B表示图像库中其它图片的语义特征向量。