CN112597329B

CN112597329B - 一种基于改进的语义分割网络的实时图像检索方法

Info

Publication number: CN112597329B
Application number: CN202011523748.1A
Authority: CN
Inventors: 王博; 吴忻生; 陈安; 杨璞光; 陈纯玉
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-12-16
Anticipated expiration: 2040-12-21
Also published as: CN112597329A

Abstract

本发明公开的一种基于改进的语义分割网络的实时图像检索方法，包括以下步骤：S1、收集检索图像组成需要训练的数据集，并对数据集进行扩充，将扩充后的数据集分为训练集、测试集、验证集；S2、构建改进的实时计算的语义分割网络；S3、将训练集的图片输入改进的实时计算的语义分割网络，得到图片的语义向量，按照图片的类别信息存储语义向量，得到图像检索的语义向量数据库；S4、将测试集中待检测图片送入改进的实时计算的语义分割网络得到语义特征向量，比较待检索的图片的语义类别和图像检索语义向量数据库中向量的图像得到包含带检索图片语义类别的候选图片组；S5、将待检测图片的语义特征向量和候选图片组语义特征向量的进行匹配。

Description

一种基于改进的语义分割网络的实时图像检索方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于改进的语义分割网络的实时图像检索方法。

背景技术

依据图像基本视觉特征，从数据库中查找出用户所需求图像的技术称为基于内容的图像检索(CBIR)。通常情况下，用户的需求是以查询图像的方式给定的。简单来讲，它需要通过对用户待查询图像的内容分析，提取合适的检索特征，将图像数据库中符合特征的图片检索得到结果。CBIR作为日常生活中的一项工程性需求，己经被广泛应用于百度，Google等检索网站，也被嵌入各种电商平台，例如京东、淘宝等。传统的图像检索方法使用手工设计的特征提取算子获得图像的低级视觉特征。低级视觉特征包括色彩、边缘、纹理、位置和几何形状等。常用的提取方法包括Gabor滤波器、SIFT算子、SURF算子等。但上述手工设计的特征算子不具有泛化能力，仅对于某一类别有较好的提取能力而对其他类别提取能力弱。图像检索需要处理上百种类别的图像故使用低级视觉特征提取算子存在很大的局限性(阮梦慧.基于卷积神经网络的图像检索若干关键技术研究[D].浙江理工大学,2020.)。

近年来深度学习的发展，基于深度学习的图像处理技术相比于传统图像特征提取方法有着更好的效果。语义分割是计算机视觉的一种任务，使用深度学习技术进行语义分割已经取得了较好的效果。目前将语义分割方法应用在图像检索任务上仍存在一些如检索效率较低准确率不够高，不能提供语义理解等问题。使之在一些实时性较高的场合如无人驾驶车辆的闭环图像检测问题和大规模多类别图像检索问题上仍然有较大的提升空间(姜思瑶.基于全卷积神经网络模型的语义分割算法[D].辽宁工程技术大学,2020.)。

发明内容

本发明的目的在于解决图像检索任务中的查准率和快速性问题，提出一种基于改进语义分割网络的实时图像检索方法。应用于实时性要求较高的检索场景中有更好的效果。

本发明至少通过如下技术方案之一实现。

一种基于改进的语义分割网络的实时图像检索方法，包括以下步骤：

S1、收集检索图像组成需要训练的数据集，并对数据集进行扩充，将扩充后的数据集分为训练集、测试集、验证集；

S2、构建改进的实时计算的语义分割网络；

S3、将训练集的图片输入改进的实时计算的语义分割网络，得到图片的语义向量，按照图片的类别信息存储语义向量，得到图像检索的语义向量数据库；

S4、将测试集中待检测图片送入改进的实时计算的语义分割网络得到语义特征向量，比较待检索的图片的语义类别和图像检索语义向量数据库中向量的图像的类别信息是否一致，得到包含带检索图片语义类别的候选图片组；

S5、将待检测图片的语义特征向量和候选图片组语义特征向量的进行匹配，得到最接近单位值的若干张图片即为检索结果。

优选的，步骤S1是选取数据集PASCAL(Pattern Analysis,StatisticalModelling and Computational Learning(模式分析，统计建模和计算学习)VOC(视觉对象类(Visual Object Classes)2012和伯克利数据集合并构造扩充数据集。

优选的，所述PSCAL VOC 2012数据集中共有二十一个类别，其中训练集、验证集、测试集的图像数目分别为M张、H张、R张，使用伯克利数据集进行扩充原数据集，最终得到训练图像、验证图像和测试图像。

优选的，所述改进的实时计算的语义分割网络采用图像语义分割和实时检索深度学习网络框架；所述网络框架采用编码器-解码器结构，所述编码器的计算结果将用于对象特征信息向量的抽取，所述解码器将用于提取对象的类别信息。

优选的，所述编码器的编码网络采用轻量化网络MobileNet(适用于移动视觉应用的高效卷积神经网络)Efficient Convolutional Neural Networks for Mobile VisionApplications)作为主干网络，并且在原网络的卷积层加入空洞卷积保持特征图的分辨率，同时选取带有邻近信息的空间金字塔池化模块(Atrous Spatial Pyramid Pooling，ASPP)，在ASPP网络结构中加入全局平均池化模块和a*a的池化层提取显著性较高的特征信息，并加入尺度为a*a的空洞卷积提取像素的关联信息。

优选的，所述解码器的解码网络采用双路融合的方式，所述解码网络使用语义特征融合模块SFFM(Semantics Feature Fusion Module)，该SFFM合并经过ASPP网络结构采样过的高层图像特征和主干网络中的block3网格的底层信息特征，并利用两路输入的信息互为补充进一步减少参数量。

优选的，对象特征信息向量的抽取有以下两种方式：

方式一：在原编码器网络的卷积层后添加一个全连接层得到固定长度的特征向量，公式如下，其中x₁到x_n为特征图对应位置的取值，w₁₁…w_nn为全连接层参数，a₁到a_n为从特征图得到的特征向量：

方式二：为添加全局平均池化模块构造构造特征向量，引入全局池化函数将特征图中各个像素点处的高维特征进行融合，使用经验加权平均方法，并令权重相同即得到平均值，抽取的特征X属于如下特征空间，其中h和w分别是特征图的高和宽，c是特征通道数：

X∈R^h×w×c (2)

将各空间位置的特征向量按照特征维数直接相加，再用空间位置总数归一化：

其中X_i表示位置i处的特征向量，ω_i表示对应于X_i的经验权值，得到即包含对象的归一化的图像特征向量。

优选的，对训练集中所有的图片均进行上述步骤的处理构造图像检索数据库，并将测试集中待检测图片送入语义分割网络通过语义分割得到图片的语义特征向量。

优选的，步骤S5的匹配方式如下：

其中，X表示待检测图片的语义特征向量，Y候选图片组语义特征向量。

所述的一种基于改进的语义分割网络的实时图像检索方法的***，包括图像采集***、深度神经网络***、图像处理***；

所述的图像采集***用于收集检索图像组成需要训练的数据集，并对数据集进行扩充；

深度神经网络***包括改进的实时计算的语义分割网络，对象特征信息向量的抽取和提取对象的类别信息；

所述图像处理***用于组合对象特征信息向量和对象类别信息，得到用于图像检索的语义检索向量并进行图像的相似性计算和匹配。

与现有的技术相比，本发明的有益效果为：针对现有通用语义分割网络计算速度较慢的缺点，提出了改进的可实时计算的语义分割网络提高图像检索过程的效率。同时在检索图像的过程中加入了语义类别信息，使得在检索图像时信息更丰富，保证在复杂条件下检索过程的准确性。

附图说明

图1为本发明的整体流程图；

图2为本发明的实时语义分割网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、图2所示的一种基于改进的语义分割网络的实时图像检索方法，具体步骤如下：

(1)获取数据集。下载PASCAL VOC2012数据集和伯克利数据集，由于两者数据集的数据类别相同，合并两个数据集构造扩充数据集用以图像检索任务。PSCAL VOC 2012中共有二十一个类别。其中训练集、验证集、测试集的图像数目分别为1464张，1449张，1456张。使用伯克利数据集进行扩充最终得到10582幅训练图像，1229幅验证图像和1456幅测试图像。扩充后的数据集按照训练集、测试集、验证集比例6：2：2的比例进行分组；

(2)构建改进的实时计算的语义分割网络；改进传统的语义分割网络DeepLab v3(带有可分离卷积的编码器-解码器网络)使其适用于实时计算。改进的编码器网络使用MobileNet v2(Efficient Convolutional Neural Networks for Mobile VisionApplications(适用于移动视觉应用的卷积神经网络)，并对编码层添加特征提取模块抽取特征，同时在解码层添加语义特征融合模块进行类别计算，通过改进的网络训练数据集中的图像；

所述改进的实时计算的语义分割网络采用图像语义分割和实时检索深度学习网络框架。所述网络框架采用编码器-解码器结构，所述编码器的计算结果将用于对象特征信息向量的抽取，所述解码器将用于提取对象的类别信息。

所述编码器的编码网络采用轻量化网络MobileNet v2作为主干网络，并且在原网络的卷积层加入空洞卷积保持特征图的分辨率，同时选取带有邻近信息的空间金字塔池化模块(Atrous Spatial Pyramid Pooling，ASPP)，ASPP网络结构通过聚合不同尺度的感受野信息并提取高层语义信息来获取图像的上下文信息，在ASPP网络结构中加入全局平均池化模块和3*3的池化层提取显著性较高的特征信息，并加入尺度为3*3的空洞卷积提取像素的关联信息，编码结果将用于对象特征信息的抽取。

所述解码器的解码网络采用双路融合的方式，所述解码网络使用语义特征融合模块SFFM(Semantics Feature Fusion Module)，该SFFM合并经过ASPP网络结构采样过的高层图像特征和主干网络中的block3网格的底层信息特征，并利用两路输入的信息互为补充进一步减少参数量，解码结果将用于图像类别提取。

通过改进的实时计算的语义分割网络的编码器提取到表达特征最优的卷积层的特征图后，经过全局平均池化等方法生成图像的特征向量。编码器处理结果经过解码网络可以得到图像中包含的类别信息。将图像中物体的类别信息添加到归一化的特征向量的尾部构造图像语义特征向量。

使用如下两种方式通过编码网络的卷积层得到图像的特征向量：

方式一：在原编码器网络的卷积层后添加一个全连接层得到固定长度的特征向量。公式如下所示，其中x₁到x_n为特征图对应位置的取值，w₁₁…w_nn为全连接层参数，a₁到a_n为从特征图得到的特征向量：

方法二：为添加全局平均池化模块构造构造特征向量。引入全局池化函数将特征图中各个像素点处的高维特征进行融合，使用经验加权平均方法，并令权重相同即得到平均值。抽取的特征X属于如下特征空间，其中h和w分别是特征图的高和宽，c是特征通道数。

X∈R^h×w×c (2)

将各空间位置的特征向量按照特征维数直接相加，再用空间位置总数归一化即得到如下表示

其中X_i表示位置i处的特征向量。ω_i表示对应于X_i的经验权值。将经验权值都设为1，得到即包含了对象的归一化的图像特征向量。

通过解码网络最终得到包含对象语义类别的分割结果。

通过改进的实时语义分割网络的编码层得到的特征向量，与经过解码网络得到图像中包含的类别信息向量进行合并。将图像中物体的类别信息添加到归一化的特征向量的尾部构造图片语义特征向量。

S3、将训练集的图片输入改进的实时计算的语义分割网络，得到图片的语义向量，按照图片的类别信息存储语义向量，得到图像检索语义向量数据库；

S5、计算待检测图片的语义特征向量和候选图片组语义特征向量的余弦得到最接近单位值的若干张图片即为检索结果。

匹配方式如下使用余弦计算方法计算匹配值，提取结果中和单位值最接近的K个向量，作为图像检索的结果值。K的值可以由检索人员根据需要设定。

本实施例提供一种基于改进的语义分割网络的实时图像检索方法，首先通过改进语义分割网络提高实时性，然后使用伯克利数据集扩充PASCAL VOC数据集进行语义分割的训练，得到语义分割的结果后提取类别向量，根据编码层所得的特征图进行全连接或全局平均池化得到特征向量，最后合并得到待检索图片的语义向量。检索时首先粗匹配得到类别一致的图片的分组，再通过余弦计算得到满足要求的K个图片作为结果。本发明技术方案在不损失精度的前提下有效提升了语义分割的速度，获得较好的图片检索效果。在大规模图像检索和图片类别较多的情况下均具有较好的适应性。

本发明还提出一种基于深度学习和语义分割的图像检索***，包括：图像采集***、深度神经网络***、图像处理***；其中图像采集***用于收集检索图像组成需要训练的数据集，并对数据集进行扩充；深度神经网络***包括改进的实时计算的语义分割网络，对象特征信息向量的抽取和提取对象的类别信息；图像处理***用于组合对象特征信息向量和对象类别信息，得到用于图像检索的语义检索向量并进行图像的相似性计算和匹配。

所述基于深度学习和语义分割的图像检索***中存储计算机程序。程序初始化后首先由语义分割数据集训练网络参数。由于使用了改进的语义分割网络所以模型参数得以大幅度缩减。当输入检索图像时，***启动两个线程运行程序，其中一个线程输入图像数据进行语义分割计算，当得到计算结果后，将类别结果传入第二线程。新线程从数据库中检索与输入图像相同的类别得到类别分组。然后对原图像和类别分组中的图像进行向量的相似度计算。得到相似度排序前K张图像作为输入结果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于改进的语义分割网络的实时图像检索方法，其特征在于，包括以下步骤：

S2、构建改进的实时计算的语义分割网络；通过改进的实时计算的语义分割网络的编码器提取到表达特征最优的卷积层的特征图后，经过全局平均池化方法生成图像的特征向量；编码器处理结果经过进行全连接或全局平均池化得到图像中包含的类别信息；特征向量与经过编码器得到图像中包含的类别信息向量进行合并，将图像中物体的类别信息添加到归一化的特征向量的尾部构造图像语义特征向量；

所述改进的实时计算的语义分割网络采用图像语义分割和实时检索深度学习网络框架；所述网络框架采用编码器-解码器结构，所述编码器的计算结果将用于对象特征信息向量的抽取，所述解码器将用于提取对象的类别信息；

所述编码器的编码网络采用轻量化网络MobileNet作为主干网络，并且在原网络的卷积层加入空洞卷积保持特征图的分辨率，同时选取带有邻近信息的空间金字塔池化模块ASPP，在ASPP网络结构中加入全局平均池化模块和a*a的池化层提取显著性较高的特征信息，并加入尺度为a*a的空洞卷积提取像素的关联信息；

所述解码器的解码网络采用双路融合的方式，所述解码网络使用语义特征融合模块SFFM，该SFFM合并经过ASPP网络结构采样过的高层图像特征和主干网络中的block3网格的底层信息特征，并利用两路输入的信息互为补充进一步减少参数量；对象特征信息向量的抽取有以下两种方式：

方式二：为添加全局平均池化模块构造特征向量，引入全局池化函数将特征图中各个像素点处的高维特征进行融合，使用经验加权平均方法，并令权重相同即得到平均值，抽取的特征X属于如下特征空间，其中h和w分别是特征图的高和宽，c是特征通道数：

X∈R^h×w×c (2)

其中X_i表示位置i处的特征向量，ω_i表示对应于X_i的经验权值，得到即包含对象的归一化的图像特征向量；

2.根据权利要求1所述的一种基于改进的语义分割网络的实时图像检索方法，其特征在于，步骤S1是选取数据集PSCAL VOC 2012数据集和伯克利数据集合并构造扩充数据集。

3.根据权利要求2所述的一种基于改进的语义分割网络的实时图像检索方法，其特征在于，所述PSCAL VOC 2012数据集中共有二十一个类别，其中训练集、验证集、测试集的图像数目分别为M张、H张、R张，使用伯克利数据集进行扩充原数据集，最终得到训练图像、验证图像和测试图像。

4.根据权利要求3所述的一种基于改进的语义分割网络的实时图像检索方法，其特征在于，对训练集中所有的图片均进行步骤S2的处理构造图像检索数据库，并将测试集中待检测图片送入语义分割网络通过语义分割得到图片的语义特征向量。

5.根据权利要求4所述的一种基于改进的语义分割网络的实时图像检索方法，其特征在于，步骤S5的匹配方式如下：

6.根据权利要求5所述的一种基于改进的语义分割网络的实时图像检索方法的***，其特征在于，包括图像采集***、深度神经网络***、图像处理***；

所述图像采集***用于收集检索图像，作为图像检索的图像信息输入；

所述图像处理***用于组合对象特征信息向量和对象类别信息，得到用于图像检索的语义检索向量，并进行图像的相似性计算和匹配。