CN107515895B

CN107515895B - 一种基于目标检测的视觉目标检索方法与***

Info

Publication number: CN107515895B
Application number: CN201710574741.4A
Authority: CN
Inventors: 唐胜; 肖俊斌; 李***
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2020-06-05
Anticipated expiration: 2037-07-14
Also published as: CN107515895A

Abstract

本发明涉及一种基于目标检测的视觉目标检索方法和***，包括：采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练，生成初步目标检测模型；采用包含用户指定目标类型的检索数据集对初步目标检测模型进行微调，生成最终目标检测模型；通过最终目标检测模型对待检索图片中的视觉目标进行特征提取，生成待检索图片的多个卷积特征图，通过空间注意力矩阵将卷积特征图进行聚合，生成聚合特征向量，以在图片库中检索与聚合特征向量相匹配的图片。本发明通过将视觉目标检索与检测相关联，避免了候选窗口预测步骤，并通过选择性累加特征图得到注意力矩阵，将卷积层的局部描述子带权聚合成一个全局特征表达用于视觉目标检索，提高了检索速度和精度。

Description

一种基于目标检测的视觉目标检索方法与***

技术领域

本发明涉及多媒体内容分析领域，特别涉及一种基于目标检测的视觉目标检索方法与***。

背景技术

视觉目标检索为图像检索的一种，它在商品搜索、目标识别、目标跟踪等领域得到广泛的应用。区别于基于内容的近似图像检索，视觉目标检索要检索的不是与查询图像相似的图像，而是与查询图像具有同一视觉目标的图像。如图1左侧内容所示，这一视觉目标只占据图像的一小部分(白框内为目标)，并且包含该目标的查询图像与图1右侧库中图像在拍摄角度、光照、形状和大小等方面存在很大的差异。研究视觉目标检索具有重要的意义，同时也具有极大的挑战性。

传统的目标检索方法通过提取图像的局部特征如SIFT、SURF等进行特征匹配，并辅以几何关系验证，在该任务上展现出了良好的鲁棒性。但由于局部特征提取和空间关系验证非常耗时，对于实时性要求高的场合难以适用。近年来，基于深度学习的目标检索技术备受关注，这些技术按照是否需要针对目标任务重新学习可分为两大类：一、利用在大规模分类数据集(如ImageNet)上预训练好的模型直接提取现成的特征进行检索，该类技术侧重于如何利用已有的网络模型提取出适用于检索的特征，避免了面向检索的训练数据集缺乏的问题，但是预训练的模型往往是通过训练面向分类的神经网络(如AlexNet、VGGNet、GoogleNet、ResNet等)而获得的，不是面向检索的网络模型，因而其检索结果很难再进一步提高。二、利用目标相关的数据集对网络进行微调。该类方法利用排序损失(Rank Loss)和对比损失(Contrastive Loss)等面向检索的损失函数端到端学习针对检索的特征。针对目标任务再次学习的方法整体上比利用现成网络模型直接提特征的方法要好，但是其结果往往严重依赖于微调的数据集与目标数据集的视觉相似度。也就是说，如果组织其他辅助数据集学习，则存在域迁移的问题。直接利用目标数据集的查询图片微调可以避免这个问题，但是查询图片的数量极其有限，难以直接用于训练深层网络。

随着目标检测的快速发展，其在检测准确度、速度等方面都取得了惊人的进步。目标检测能够获得图像目标层次的信息，也就是说能够从图像中找到要检索的目标。因此最近文献成功使用目标检测网络Faster R-CNN(Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems.2015:91-99.)的卷积层特征进行视觉目标检索，并取得了良好的检索效果，但是文献侧重于利用FasterR-CNN的RPN部分预测的候选窗口做空间重排序(Spatial Re-ranking)。其采用的策略是利用多个候选区域内的特征进行穷举匹配，然后找相似度最高的两个候选区域的相似度得分作为两张图像的最终相似度得分，该过程可以看做是查询图像预测的多个目标与库中图像预测的多个目标的一一匹配，非常耗时，平均查询一张图片花费将近2.5分钟，实用性较差。此外，文献通过采用RPN产生的候选区域来代替R-MAC中的滑动窗口，在清洗过的Landmark数据集上端到端学习一个全局特征表达，从而取得了目前视觉目标检索的最好的结果，但是其把每一个候选窗口特征同等看待，而实际上只有一个或者少数几个窗口真正包含有待检索的目标，因此会引入很多噪声，此外由于其学习的数据集主要包含地标，仅在地标检索上取得了好结果，在其他数据集上的结果不得而知，以上两种方法都是把预测的候选窗口内的特征看作是图像局部块的描述子来进行特征匹配，神经网络产生候选窗口这一步实际上是比较耗时的，而且候选窗口是矩形，与物体的实际形状存在差异。

因此已有的借助于目标检测技术来解决目标检索的方法中存在以下问题：一、利用候选窗口穷举匹配的时间复杂度高(图3所示)；二、各个候选窗口同等权重考虑容易引起噪声干扰(图4所示)；三、矩形的候选区域与物体的实际形状不符，如图2A与图2B所示，包含两个不同但很相近的建筑。

发明内容

为了解决上述技术问题，本发明目的在于提供一种基于检测与投票的注意力机制用于图像检索。具体地说，本发明公开了一种基于目标检测的视觉目标检索方法，其中包括：

目标检测模型训练步骤，采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练，生成初步目标检测模型；采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调，生成最终目标检测模型；

特征提取与聚合步骤，输入待检索图片，通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取，生成该待检索图片的多个卷积特征图，通过空间注意力矩阵将该卷积特征图进行聚合，生成聚合特征向量，以在图片库中检索与该聚合特征向量相匹配的图片。

该基于目标检测的视觉目标检索方法，其中该交叉熵损失函数为：

该交叉熵损失函数对应的梯度为：

式中

为标准Softmax函数，C为训练数据总的类别个数，x和y分别为一个训练样本的特征和类别标签，I为指示函数，当条件满足时值为1，否则为0，Sj是与第j个类别数目相关的IDF权重系数，θ为需要学习的网络参数。

该基于目标检测的视觉目标检索方法，其中该聚合特征向量为：F＝{f₁,f₂,f₃,...,f_K}，其中F为该聚合特征向量，

W、H和K分别为该最终目标检测模型中最后一个卷积层的宽、高和通道数，m为卷积特征图，α为空间注意力矩阵，i、j分别是特征图内某个数值的索引。

该基于目标检测的视觉目标检索方法，其中该空间注意力矩阵为：

其中t是一个稀疏度阈值超参数，β_k代表第k个特征图的稀疏度，K为该卷积层通道数，m为卷积特征图，I为指示函数当条件满足时值为1，否则为0。

该基于目标检测的视觉目标检索方法，其中

该图片库中包括多个图片，每个该图片对应一个图片特征向量；

其中该相匹配的图片，是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。

本发明还提出了一种基于目标检测的视觉目标检索***，其中包括：

目标检测模型训练模块，用于运行IDF带权的交叉熵损失函数对公共目标检测数据集进行训练，生成初步目标检测模型；采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调，生成最终目标检测模型；

特征提取与聚合模块，用于接收待检索图片，通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取，生成该待检索图片的多个卷积特征图，通过空间注意力矩阵将该卷积特征图进行聚合，生成聚合特征向量，以在图片库中检索与该聚合特征向量相匹配的图片。

该基于目标检测的视觉目标检索***，其中该交叉熵损失函数为：

该交叉熵损失函数对应的梯度为：

式中

该基于目标检测的视觉目标检索***，其中该聚合特征向量为：F＝{f₁,f₂,f₃,...,f_K}，其中F为该聚合特征向量，

该基于目标检测的视觉目标检索***，其中该空间注意力矩阵为：

该基于目标检测的视觉目标检索***，其中

本发明通过将视觉目标检索与检测相关联，避开了目标检测中的候选窗口预测这一步骤，直接利用检测网络的卷积特征图上呈现出来的对目标实例的良好空间分布信息，并进一步通过选择性累加特征图的机制得到空间分布的注意力矩阵，将卷积层的局部描述子带权聚合成一个全局特征表达用于视觉目标检索，相比于之前的利用目标检测网络做检索的工作加快了检索速度，提高了检索的平均精度(mAP)。

附图说明

图1为视觉目标检索示意图；

图2A、图2B为近似图像检索结果图；

图3为基于候选窗口穷举的特征匹配方式示意图；

图4为基于所有窗口特征同等权重聚合的特征匹配方式示意图；

图5为本发明基于检测与投票的注意力机制的特征匹配方式示意图；

图6为本发明基于检测与投票的注意力机制用于图像检索的整体框架图；

图7为本发明实验数据中PASCAL VOC07数据集目标检测结果表格图；

图8为本发明实验数据中Oxford5K数据集检索结果表格图；

图9为本发明在公共数据集上的检索结果与现有检索方法的比较表格图。

具体实施方式

针对以上问题，本发明提出一种基于检测与投票的注意力机制用于图像检索(图5所示)，并下文特举实施例，并配合说明书附图作详细说明如下。本发明属于基于深度学习的以图搜图技术。本发明整的技术框架如图6所示，图6中下半部分对应离线网络训练阶段，为Faster R-CNN的框架图，其通过IDF(inverse document frequency)带权的交叉熵损失函数训练得到一个目标检测模型，即下文中的最终目标检测模型；图6中上半部分对应在线特征提取阶段，为利用该最终目标检测模型提取待检索图片的卷积层的特征向量，并通过注意力系数带权将该特征向量聚合成全局特征用于目标检索。其中该待检索图片数目为多个，在本发明中对每张待检索图像进行处理得到一个聚合特征向量，通过该聚合特征向量可以把注意力集中到待检索的视觉目标上，将图像之间的相似度匹配转化为特征向量间的相似性度量。相应地，本发明采用注意力机制主要考虑到以下两方面：一、针对目标检测训练好的最终目标检测模型在其卷积层特征图上会呈现良好的空间分布信息，也就是说用于检测的最终目标检测模型能够成功的关注到目标实例区域，从而该区域对应的局部描述子的响应会更强。二、通过选择性累加多张卷积特征图可以进一步选择出最突出的视觉目标区域，使得目标区域的局部描述子在聚合的时候具有更大的权重。下面主要从离线目标检测网络训练和在线卷积特征聚合两个阶段对本发明进行详细介绍。

1、离线目标检测网络训练，即目标检测模型训练，采用两阶段训练策略，在公共(通用)的目标检测数据集上采用Faster R-CNN算法，训练得到一个初步目标检测模型，然后利用包含多个目标查询图片的检索数据集对该初步目标检测模型进行微调(fine-tune)，该微调属于深度专有名词，指当目标数据集规模太小，直接利用目标数据集训练网络难以收敛时，可以利用一个更大的辅助数据集将网络训练收敛到一定程度，然后利用目标数据对网络进行微小的调节，使网络能够感知目标数据的特点。微调后生成最终目标检测模型，以使网络学习到待检索的目标实例信息，其中该目标查询图片是指包含有待检索目标的图片，例如：查找某个建筑，那么该目标查询图片需包含要查找的该建筑，这样***可以学习到需要查找图片中的哪个目标，但不局限于带检索图片，重要的是图片中的某个目标。其中该微调技术上与前面所述的初步目标检测模型训练一样，只是在一些超参数的选取上不同，例如减少训练的迭代次数，减小初始的学习率等，此外因为公共目标检测数据集如PASCVOC中定义的感兴趣的目标(如人、车、狗和植物等)与检索数据集中感兴趣的目标可能存在差异，例如Oxford Buildings数据集感兴趣的为地标建筑，特别是，当检索的目标与前面检测的目标出现在同一张图像中时(例如人站在建筑前，建筑旁边有植物)，会给检索带来很大的干扰。为了增强通用网络的泛化性能，在训练的时候，本发明通过引入一个IDF权重形式的交叉熵(cross entropy)损失函数指导该最终目标检测模型的训练，在本实例中即为指导Faster R-CNN中的VGG16层的网络进行训练，该损失函数在训练初始目标检测模型时使用。该损失函数如下：

对应的梯度为：

公式(1)(2)中，

为标准的Softmax函数，C为训练数据总的类别个数，x和y分别为一个训练样本的特征和类别标签，S_j表示第j个类别的IDF权重系数。I为指示函数，当条件满足时值为1，否则为0，θ指需要学习的全部网络参数。S_j是新引入的与每个类别数目相关的IDF权重系数，其具体形式为：

其中S_j表示第j个类别的IDF权重系数，c_i表示训练样本中属于第i个类别的视觉目标的数目，ε为一个很小的常数，用于防止分母为0。该IDF权重系数的意义为当某个类别的样本数目比较多时，会给该类别分配较小的权重，相反，当某个类别的数目比较少时，会给其分配比较大的权重。这种训练样本分布信息将由损失函数传递给误差梯度，作用到整个网络的学***滑下降，学到的网络模型泛化性更好。

2、特征提取与聚合。本部分重点介绍如何利用上一阶段得到的最终目标检测模型提取待检索图片的特征向量，并将该特征向量聚合成一个全局图像表达用于检索。在本实施例中上一阶段得到的最终目标检测模型属于FasterR-CNN模型，因此本阶段承接上一阶段继续使用FasterR-CNN模型提取特征向量。需要注意的是目标检测模型包含区域提取网络和分类网络，分类网络有很多选择，本发明实施例中采用的分类网络为VGG16网络。特征向量聚合是本发明的关键点，下面对其进行详细介绍。

2.1选择性累加

一种基于检测和投票的注意力机制，其中投票是通过选择性累加特征图的方式体现的。该机制使得图像中目标区域所对应的局部特征的响应更强，并且对应的权重也更大，目标区域的特征在整张图像的特征中占主导地位，能够显著提高视觉目标检索的速度与平均准确率(meanaverageprecision,mAP)。

设F＝{f₁,f₂,f₃,...,f_K}，F为聚合后的k维的聚合特征向量，其中f_k可以根据下式计算得到：

其中W、H和K分别为最终目标检测模型最后一个卷积层的宽、高和通道数。m为卷积的特征图，即未使用本发明做后处理(根据注意力矩阵加权)的特征图，i、j分别是特征图内某个数值的索引，m_ijk表示第k个特征图内的第i行第j列的元素。α为空间注意力矩阵，注意力矩阵中的元素称为注意力系数，α通过选择性累加特征图的方式得到：

这里t是一个稀疏度阈值超参数，根据以往实验数据t一般取0.6，超参数是指需要人为设定的参数，与算法中需要优化的参数进行区分。β_k代表第k个特征图的稀疏度，这里本发明采用先统计每张特征图上非0元素所占的百分比：

然后采用如下IDF形式计算出稀疏度：

这里ε为一个很小的常数，用于防止分母为0，使其计算稳定，在接下来的实施例中为了计算方便将其设为0。根据公式(6)，特征图越稀疏，则其稀疏度β值越大。在公式(5)算完得到α矩阵之后，α将进一步采用L2归一化进行数据平滑。

公式(5)中，本发明抛弃稀疏度大的特征图而选择稀疏度较小的特征图进行累加，是因为太稀疏的特征图往往只包含少数几个孤立的响应点，这些点很大概率是噪声引起，所以本发明将其对应的特征图抛弃掉。

2.2 Hellinger距离

本发明采用基于选择性累加和Hellinger距离的深度卷积特征聚合方式。通过多个特征图投票的方式得到特征分布的注意力矩阵，特征聚合的时候，可以起到进一步强化目标区域特征的作用。具体包括，如果将公式(4)得到的特征向量F直接采用欧氏距离进行相似性度量，会有一个问题。因为在注意力矩阵中，视觉突出部分的值会很大，那么原来稠密的特征图矩阵加权求和后得到的值相对而言会比较大。进行距离度量时，整个特征向量的欧氏距离将偏向于维度明显大的值，容易引起偏差。本发明采用Hellinger距离进行度量。Hellinger距离由Hellinger核引出，用于度量两个概率分布的相似度。

假设A、B为两个L1归一化的概率分布，Hellinger核定义为：

其与欧氏距离紧密相关，因为：

根据(7)可知，在实际计算过程中，依然可以使用欧氏距离，只是在计算时，先将特征向量进行L1归一化，然后开根号即可，也就是说，本发明进一步将公式(4)进行如下转变：

由上式得到的特征经过L2归一化，PCA白化处理，已及再次L2归一化后用于最终的图像检索。

实验结果展示。如图7所示oLoss与wLoss分别表示使用原Faster R-CNN的损失函数与本发明提出的IDF权重损失函数直接训练。*_Ft表示利用FasterR-CNN公布的模型微调。从图7中可以看出不管是直接训练还是微调，本发明的IDF权重形式的损失函数都优于原来的损失函数。

如图8所示Oxford5K数据集检索结果。(w/o)表示不使用查询扩展。CLS表示仅使用分类的损失函数训练的模型，oDET和wDET分别表示使用原来的损失函数训练与使用IDF权重损失训练得到的模型。CroW是文献(Kalantidis Y,Mellina C,Osindero S.Cross-dimensional weighting for aggregated deep convolutional features[C]//EuropeanConference on Computer Vision.Springer International Publishing,2016:685-701.)提出的特征聚合方式，RSSP是本发明提出的聚合方式。图表中的第1行与第2行，第3行与第4行，第5行与第6行的结果对比充分说明了本发明提出的RSSP特征聚合的有效性。表中第1行与3行，第2行与第3行对比说明了使用目标检测的注意力机制的有效性。表中最后一行说明了基于检测和投票的注意力机制具有互补性，二者相得益彰，取得最佳结果。

如图9所示的DVA#2表示使用Flickr100K数据集训练PCA。本发明提出的检索方法(DVA)与目前最好的结果对比。在不使用查询扩展的情况下，本发明的方法在所有数据集上都取得了最好结果。使用查询扩展的情况下，本发明的方法在Oxford5k上依然领先最好的结果，在其他数据集上DIR展现了良好的性能，主要是因为DIR使用的排序损失，因此排在前面的样本更有效。此外，DIR训练过程复杂，而且需要专门组织与目标数据集相似的数据训练。

以下为与上述方法实施例对应的***实施例，本实施***可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施***中依然有效，为了减少重复，这里不再赘述。相应地，本实施***中提到的相关技术细节也可应用在上述实施方式中。

该交叉熵损失函数对应的梯度为：

式中

该基于目标检测的视觉目标检索***，其中

虽然本发明以上述实施例公开，但具体实施例仅用以解释本发明，并不用于限定本发明，任何本技术领域技术人员，在不脱离本发明的构思和范围内，可作一些的变更和完善，故本发明的权利保护范围以权利要求书为准。