WO2019237646A1

WO2019237646A1 - 一种基于深度学习和语义分割的图像检索方法

Info

Publication number: WO2019237646A1
Application number: PCT/CN2018/114826
Authority: WO
Inventors: 李秀; 金坤
Original assignee: 清华大学深圳研究生院
Priority date: 2018-06-14
Filing date: 2018-11-09
Publication date: 2019-12-19
Also published as: CN108829826A; CN108829826B

Abstract

一种基于深度学习和语义分割的图像检索方法。包括如下步骤：读取图像并进行预处理；通过深度学习由深度神经网络的任意一个卷积层将图像编码为一组特征图；对图像进行语义分割，获得分割图像逐像素的类别标签；根据特征图上每个像素类别标签和设置的类别权重对其进行加权处理，获得加权后的一组特征图；将获得加权后的一组特征图编码为一个固定长度的特征向量，并进行归一化处理，用归一化的特征向量表征图像的最终编码特征向量；相似性计算，返回检索结果。所述方法将语义分割技术引入图像检索的特征编码，大幅提升了检索效果。在获取图像每个类别的权重时，提出的根据先验知识的手工设计法和深度神经网络的参数学习法，非常有效。

Description

一种基于深度学习和语义分割的图像检索方法

技术领域

本发明属于图像检索领域，涉及一种基于深度学习和语义分割的图像检索方法。

背景技术

随着互联网技术快速发展以及智能终端的普及，图像成为人们记录和分享信息的主要方式，由此出现了图像检索技术。图像检索是查询输入的图像内容来检索相似图像的技术，是一种关于图形图像信息检索的搜索技术。

图像特征表示是图像的像素信息和人类对事物的感知相联系，图像特征即为检索的条件。

现有的技术，一般采用sift算子、fisher vector或VLAD等机器学习的方法提取特征，提取的特征向量维度很大，导致数据存储和计算的成本很高，且准确率低下。

基于深度卷积神经网络(简称CNN)的做法，具有准确率高，编码的特征向量维度较低等优点。当前，主要采用预训练的CNN网络，比如VGG-16、ResNet101等提取特征，最后全连接层提取的特征作为图像的特征编码向量，或在CNN的最后一层卷积层应用局部或全局的特征编码方式，获取图像的特征编码向量，以此向量之间的欧式距离或cos距离衡量图像的相似性并根据相似度由大到小排序，形成最终的检索结果。已有的基于CNN的图像检索算法，在编码图像特征的时候，没有考虑到图像的显著性区域特征的加强，比如检索建筑物，建筑物所在的区域即为显著性区域，但是这一显著性区域的特征编码与其存在背景(比如天空、草地)的编码方式是一样的，这显然不够合理。

发明内容

本发明的目的是解决图像检索中的查准率、查全率和快速性问题，提出一种基于深度学习和语义分割的特征编码技术，能够在大规模的数据集上较为准确的检索出与输入图像较为相似的图像。

本发明的技术方案如下：

一种基于深度学习和语义分割的图像检索方法，包括如下步骤：

S1：读取图像并进行预处理；

S2：将步骤S1处理后的图像送入深度神经网络，通过深度学习由深度神经网络的任意一个卷积层将图像编码为一组特征图；

S3：将步骤S1处理后的图像进行语义分割，获得分割图像，同时获取分割图像中每一像素所属的类别标签；

S4：对步骤S3的分割图像进行降采样处理，使分割图像变成与步骤S2的特征图的大小一致，保证分割图像的每个位置与步骤S2的特征图的位置一一对应，将分割图像任一位置的像素对应的类别标签，看作特征图上对应位置的类别标签；

S5：根据步骤S4确定的特征图的每个像素的类别标签，对其进行加权处理，获得加权后的一组特征图；

S6：将步骤S5获得加权后的一组特征图编码为一个固定长度的特征向量，并进行归一化处理，用归一化的特征向量表征图像的最终编码特征向量；

S7：对数据库中所有的图片和输入的待检索的图片进行步骤S1～S6的统一处理，并计算待检索图片特征向量与数据库中所有图片的特征向量之间的距离，来度量图像的相似性；

S8：对步骤S7得到的相似性按照由大到小排序并返回前K张图像，即为检索结果；K由检索人根据需要设定。

优选地，所述步骤S1中图像预处理方法为：对输入的彩色图像进行去均值操作，将R、G、B三通道的数值分别减去对应通道的均值，使得所有输入图像对应的数值满足同一分布。

优选地，所述步骤S2中深度神经网络为以下不同结构的CNN的一种：VGG、ResNet、DenseNet。

进一步优选地，所述深度神经网络采用CNN的最后一层卷积层将图像编码为一组特征图。

优选地，所述步骤S3中语义分割采用传统的N-cut方法或者采用基于深度学习的语义分割方法。

进一步优选地，所述基于深度学习的语义分割方法采用在公开数据集ADE20K预先训练的现有的语义分割网络PSPNet。

优选地，所述步骤S4的降采样处理采用双线性插值方法。

优选地，所述步骤S5的加权处理方法为：采用两种不同的类别权重设置方法：一是手动设计法：根据先验知识，将背景目标的权重设置为0或其它小于1的正数，将前景目标权重设置为3或其它大于1且小于等于10的正数；二是参数学习法：在深度神经网络中设置包括前景目标和背景目标在内的所有参数的权重，通过训练深度神经网络来自动的学习每个类别的权重。

优选地，所述步骤S6中将一组特征图编码为一个固定长度的特征向量的方法是采用已有算法的全局池化或全连接方法。

本发明还提出一种基于深度学习和语义分割的图像检索***，包括：图像采集***、深度神经网络***、图像处理***；所述基于深度学习和语义分割的图像检索***中存储有计算机程序，该程序用于实现上述任一项所述的基于深度学习和语义分割的图像检索方法的步骤。

与现有技术相比，本发明的有益效果是：

本发明提出了基于深度学习和语义分割的算法来增强显著性区域的特征编码、采用两种后处理的方法修正距离计算的结果以提升图像检索的性能。本发明采用深度学习的方法，将图像编码为较短长度(512维或2048维)的特征向量，极大加速了相似性计算的速度，提升了检索效率。本发明在提取图像特征时充分考虑了前景、背景的不同加权，来提升检索性能。本发明首次将语义分割技术引入图像检索的特征编码，语义分割能够识别出图像每个像素点的类别是什么，比如它可能是我们想要检索到的动物、景点、衣服等，当我们知道图像的每一部分区域是什么的时候，相当于获取了一定的先验信息，而且可以通过算法重点关注某一部分区域，而弱化对不重要的背景物体的关注，提升了特征编码的效果，从而大幅提升了检索效果。本发明在获取图像每个类别的权重时，提出的根据先验知识的手工设计法和深度神经网络的参数学习法，非常有效。

附图说明

图1为本发明的基于深度学习和语义分割的图像检索方法流程图。

图2为三种不同建筑物示意图。

图3为采用语义分割技术过滤掉天空这一干扰信息后的三种不同建筑物示意图。

具体实施方式

下面结合具体实施方式并对照附图对本发明作进一步详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

请参考图1。图1为本发明的基于深度学习和语义分割的图像检索方法流程图。

本发明首先提供一种基于深度学习和语义分割的图像检索方法，其步骤如下：

S1：读取图像并进行预处理。

输入一张彩色图像，该图像实际是一个RGB三通道的0-255的正整数组成的数值矩阵，首先采用去均值的操作，将R、G、B三通道的数值分别减去对应通道的均值(即B:104.00698793，G:116.66876762，R:122.67891434)，其均值为业界公认的ImageNet数据集中所有图片对应的每一个通道上的全部数值的均值，使得所有输入图像对应的数值满足同一分布。

S2：将步骤S1处理后的图像送入深度神经网络，通过深度学习由深度神经网络的任意一个卷积层将图像编码为一组特征图。

将预处理后的图像送入深度神经网络，比如常用的VGG、ResNet、DenseNet(这些是不同结构的深度神经网络模型，在数百万的数据集上训练出来的，能够很好的对图像进行特征编码)等，深度神经网络的任意一个卷积层输出一组特征图，这组特征图的通道比步骤S1所述的原图像3通道大，但长和宽比原图像小。本发明采用VGG-16、ResNet101等基础网络框架提取特征，并对最后一层卷积层提取的特征做新的特征编码方式。本发明实验证明，采用CNN的最后一层卷积层，查准率和查全率的效果更好。

S3：将步骤S1处理后的图像进行语义分割，获得分割图像，同时获取分割图像中每一像素所属的类别标签。

将预处理的图片进行语义分割，采用的方法可以是传统的N-cut等，也可以采用基于深度学习的语义分割方法，来获取图像中每一像素所属的类别标签。本发明实验证明，采用在公开数据集ADE20K预先训练的现有的语义分割网络PSPNet，查准率和查全率的效果更好。

现有的CNN提取图像特征，将整张图送入CNN网络能很好的提取出图像的全局特征，却忽略了图像的局部特征。比如，我们要检索某一建筑物的图片，但是该图片包含了这个建筑物，但也包含一些无关的背景(如天空、草地、树木等)。现有的CNN是将建筑物及其背景，不加区分的送入CNN网络来提取特征，也就是说，最后编码的图像的特征，包含了天空、草地等无关的背景，这就造成了极大干扰，也极大的降低了检索性能。为此，本发明将图像的语义分割技术引入进来，可以事先获取图像的哪一个像素是什么物体，如果是无关的背景，就可以降低其在特征提取过程中影响，使得最终的特征编码信息主要包含或全部包含建筑物的信息，从而大幅提升检索性能。

请参考图2，如果我们要检索三种不同的建筑物，当前的基于深度学习的做法是，将三张图片送入CNN网络，进行完全相同过程的特征提取，将图像中的建筑物和天空所在区域同等看待，这导致若一张图中天空占比较多，那么很可能会检索出天空占比较大的图片，而不是包含建筑物的图片。

请参考图3，采用语义分割技术，能够很好的将图片中的天空和建筑物区域识别出来，这样就可以过滤掉天空这一干扰信息，从而更好的进行建筑物的检索。

S4：对步骤S3的分割图像进行降采样处理，使分割图像变成与步骤S2的特征图的大小一致，保证分割图像的每个位置与步骤S2的特征图的位置一一对应，将分割图像任一位置的像素对应的类别标签，看作特征图上对应位置的类别标签。

本发明将分割出来的图像通过双线性插值等降采样方法，变成与特征图的大小一致，这样分割图的每个位置与特征图的位置是一一对应的，将分割图像任一位置的像素对应的类别，看作特征图上对应位置的类别。

S5：根据步骤S4确定的特征图的每个像素的类别标签，对其进行加权处理，获得加权后的一组特征图。

根据特征图每个像素的类别，对其进行加权。类别权重的获取方法是：

针对不同的数据集特点，我们设计了两种不同的类别权重的设置方法：

手动设计法。根据先验知识，比如对于建筑物检索的任务，可以将天空、草地、人等建筑物的背景的权重设置为0或其它小于1的正数，而将类别是建筑物的区域设置一个较大的权重，比如3或其它大于1且小于等于10的正数。

参数学习法。假定数据集中包含150类目标，包括前景目标和背景目标，在深度神经网络中设置150个参数，对应150个目标的权重，通过训练深度神经网络来自动的学习每个类别的权重。

获得每个类别的权重后，对特征图进行加权处理，从而获得加权后的一组特征图。

当我们知道图像中每一个像素是什么的时候，就可以设计一定的方法来降低属于背景的物体对图像特征编码的干扰。第一种方法是依据先验知识，比如我们要检索的是建筑物，那么建筑物在特征编码过程中的起到的作用就越大，越能弱化背景的干扰。因此，可以对属于建筑物的区域，人工设计一个较大的权重，而将属于背景区域，设定权重为0。另一种方法，结合CNN网络强大的学习能力，让CNN网络能自动学习出每一类物体的权重，并施加到对应的像素上。这样，就很好的达到弱化背景的影响，使得CNN在对图像编码的时候，最大可能的提取出带检索物体的特征，从而大幅提升检索性能。

S6：将步骤S5获得加权后的一组特征图编码为一个固定长度的特征向量，并进行归一化处理，用归一化的特征向量表征图像的最终编码特征向量。

加权后的特征图，可以采用已有的算法全局池化，或全连接等方法将其转化为一个固定长度的特征向量，并进行归一化处理。用归一化的向量表征图像的最终编码特征向量。最终编码特征向量为较短长度(512维或2048维)的特征向量。

S7：对数据库中所有的图片和输入的待检索的图片进行步骤S1～S6的统一处理，并计算待检索图片特征向量与数据库中所有图片的特征向量之间的距离，来度量图像的相似性。

对数据库中所有的图片和输入的待检索的图片按照步骤S1～S6进行统一处理，并计算待检索图片特征向量与数据库中所有图片的特征向量之间的距离，来度量图像的相似性。

根据相似性大小排序，按照相似性由大到小排序并返回前K张图像，即为检索结果，K由检索人根据需要设定。

本发明在提取图像特征时考虑了一张图像中的不同区域和不同类别的权重会不一样，充分考虑了前景、背景的不同加权，来提升检索性能。本发明首次将语义分割技术应用到图像的特征编码上，大幅提升了检索效果。本发明在获取每个类别的权重时，提出了根据先验知识的手工设计法和深度神经网络的参数学习法，非常有效。

以上内容是结合具体的/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施例做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。

Claims

一种基于深度学习和语义分割的图像检索方法，其特征在于，包括如下步骤：

S1：读取图像并进行预处理；

S2：将步骤S1处理后的图像送入深度神经网络，通过深度学习由深度神经网络的任意一个卷积层将图像编码为一组特征图；

S3：将步骤S1处理后的图像进行语义分割，获得分割图像，同时获取分割图像中每一像素所属的类别标签；

S4：对步骤S3的分割图像进行降采样处理，使分割图像变成与步骤S2的特征图的大小一致，保证分割图像的每个位置与步骤S2的特征图的位置一一对应，将分割图像任一位置的像素对应的类别标签，看作特征图上对应位置的类别标签；

S5：根据步骤S4确定的特征图的每个像素的类别标签，对其进行加权处理，获得加权后的一组特征图；

S6：将步骤S5获得加权后的一组特征图编码为一个固定长度的特征向量，并进行归一化处理，用归一化的特征向量表征图像的最终编码特征向量；

S7：对数据库中所有的图片和输入的待检索的图片进行步骤S1～S6的统一处理，并计算待检索图片特征向量与数据库中所有图片的特征向量之间的距离，来度量图像的相似性；

S8：对步骤S7得到的相似性按照由大到小排序并返回前K张图像，即为检索结果；K由检索人根据需要设定。
如权利要求1所述的基于深度学习和语义分割的图像检索方法，其特征在于，所述步骤S1中图像预处理方法为：对输入的彩色图像进行去均值操作，将R、G、B三通道的数值分别减去对应通道的均值，使得所有输入图像对应的数值满足同一分布。
如权利要求1所述的基于深度学习和语义分割的图像检索方法，其特征在于，所述步骤S2中深度神经网络为以下不同结构的CNN的一种：VGG、ResNet、DenseNet。
如权利要求3所述的基于深度学习和语义分割的图像检索方法，其特征在于，所述深度神经网络采用CNN的最后一层卷积层将图像编码为一组特征图。
如权利要求1所述的基于深度学习和语义分割的图像检索方法，其特征在于，所述步骤S3中语义分割采用传统的N-cut方法或者采用基于深度学习的语义分割方法。
如权利要求5所述的基于深度学习和语义分割的图像检索方法，其特征在于，所述基于深度学习的语义分割方法采用在公开数据集ADE20K预先训练的现有的语义分割网络PSPNet。
如权利要求1所述的基于深度学习和语义分割的图像检索方法，其特征在于，所述步骤S4的降采样处理采用双线性插值方法。
如权利要求1所述的基于深度学习和语义分割的图像检索方法，其特征在于，所述步骤S5的加权处理方法为：采用两种不同的类别权重设置方法：一是手动设计法：根据先验知识，将背景目标的权重设置为0或其它小于1的正数，将前景目标权重设置为3或其它大于1且小于等于10的正数；二是参数学习法：在深度神经网络中设置包括前景目标和背景目标在内的所有参数的权重，通过训练深度神经网络来自动的学习每个类别的权重。
如权利要求1所述的基于深度学习和语义分割的图像检索方法，其特征在于，所述步骤S6中将一组特征图编码为一个固定长度的特征向量的方法是采用已有算法的全局池化或全连接方法。
一种基于深度学习和语义分割的图像检索***，包括：图像采集***、深度神经网络***、图像处理***；所述基于深度学习和语义分割的图像检索***中存储有计算机程序，该程序用于实现权利要求1～9任一项所述的基于深度学习和语义分割的图像检索方法的步骤。