CN107679250B

CN107679250B - 一种基于深度自编码卷积神经网络的多任务分层图像检索方法

Info

Publication number: CN107679250B
Application number: CN201711057490.9A
Authority: CN
Inventors: 何霞; 汤一平; 王丽冉; 陈朋; 袁公萍; 金宇杰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2020-12-01
Anticipated expiration: 2037-11-01
Also published as: CN107679250A

Abstract

本发明公开一种基于深度自编码卷积神经网络的多任务分层图像检索方法，其特征在于：主要包括一个用于深度学***，且用较少的存储空间，较快的检索速度来满足大数据时代的图像检索要求。

Description

一种基于深度自编码卷积神经网络的多任务分层图像检索方法

技术领域

本发明涉及计算机视觉、模式识别、信息检索、多任务学习、相似度测量、深度自编码卷积神经网络和深度学习技术在图像检索领域的应用，尤其涉及一种基于深度自编码卷积神经网络的多任务分层图像检索方法。

背景技术

图像检索的目的是通过分析输入的查询图像内容来检索相似图像的技术，为用户提供了一种关于图形图像信息检索的搜索技术，该技术包含了图像处理、计算机视觉、多任务学习、模式识别和认知心理等多门学科。其相关技术主要包括图像表示的获取和相似性测量。在大数据时代的背景下图像检索、视频侦查、互联、购物搜索引擎等多种领域都有广泛应用。

对于内容的图像检索技术，常用的传统方法一般基于图像的颜色信息、形状特点、纹理特征等，这类技术属于前深度学习时代的图像检索技术，一般可分为三个步骤：1)提取目标图像的特征表示，对获取图像算法中最普遍的是的SIFT描述算子、颜色或几何不变矩、哈希函数、Fisher向量描述等。2)将图像特征表示进行再编码用于海量图像查找表。对于分辨率较大的目标图像可对其进行降采样处理再进行编码获取图像特征表示，这样可减少搜索过程的运算负担，加快图像比对的速度。3)相似度测量方法：利用步骤2中得到的图像特征表示，计算查询图像与目标数据集的相似度的计算；根据最后查询结果所需的鲁棒性，设定图像筛选阈值，然后根据图片的相似度保留相似值最高的前k个；最后结合特征匹配算法筛选出最为相似的图片。

图像特征表示是图像的像素信息和人类对事物的感知相联系，图像特征即为检索的条件。传统的基于图像内容的检索由于需要靠人工提取特征，这种方法即耗时、耗费精力，检索精度和效率都存在着很大问题，这些方法在使用时常用图像的颜色、纹理、轮廓等底层特征作为图像的基本特征，检索结果便是基于以上人工提取特征的相似度计算与目标数据库中的图像进行匹配得来。在如今大数据时代，目标数据库尤为庞大，那么在检索过程中的时效性及其重要。时效性是衡量一个图像检索***的好坏的标准，针对已有的基于内容的图像检索技术的智能化水平低，缺乏图像特征自编码能力，难以精准快速获取检索结果且难以满足大数据时代的图像检索技术要求。

IBM提出的QBIC(Query by image contnet)、加拿大Idée公司研发的Tineye、MIT媒体实验室开发的Photobook、Virage公司开发研制的Virage、加里福利亚大学ADL开发的NETRA、哥伦比亚大学开发的VisualSeek和WebSeek都是属于前深度学习时代的图像检索技术。

最近几年发展的深度学习是以建立并模拟人脑来分析学习的深度自编码卷积神经网络，它模仿人脑学习机制对图片数据进行解释并表示。其中LeNet模型是早期深度神经网络中最具有代表性的网络模型，随之出现AlexNet、VGG、ResNet网络具有更深的网络结构且对图像表示的能力也更强大。深度学习通过将底层的特征表示成更加抽象的目标图像类别或特征矢量，从而揭示目标数据库的分布式特点。

为了提高检索的精度和效率将哈希方法与深度学习相结合是一种新的趋势。哈希算法也可用于图像之间相似度的测量，主要包含无监督方法和有监督方法。无监督的学习方法往往用于无标签的数据，通过学习数据的几何结构得到一组哈希码，其中局部敏感哈希被广泛运用，它将可能相似性数据的概率最大化作为学习目标从而得到一组相似的哈希码。相比于无监督学习，有监督学习的哈希码可得到一组更具有典型代表的哈希码，基于深度自编码卷积神经网络的哈希方法可自动探索图像的深层特征，是一种十分理想的图像检索技。

中国发明专利申请号201611127943.6公开发明了一种基于序列保留哈希的超低复杂度图像检索方法，其中在图像数据库中随机选取一部分图像作为训练集，并抽取相应的特征用非线性主成分分析法对原图像特征进行降维；再利用K-means聚类算法得到一系列的支撑点最为后续哈希函数学习的基础；然后通过迭代优化学习对应的哈希函数对整个图像数据库哈希编码；最后使用汉明距离度量图像之间的相似度。该技术仍属于传统的基于图像内容的检索技术。

中国发明专利申请号201610877794.9公开发明了一种基于兴趣目标的图像检索方法。其中包括以下步骤：1)依据HS显著性检测算法分析用户的兴趣目标，结合SaliencyCut算法分割出兴趣目标；2)对用户的兴趣目标提取HSV颜色特征、SIFT局部特征和CNN语义特征；3)将提取的兴趣目标的特征与数据库中的图像进行相似度的匹配，并根据相似度排序得到基于兴趣目标的检索结果。本发明利用多个维度的图像特征表示满足了大数据时代的图像检索精度要求，但是该算法存在对***内存要求较高，多个维度的特征的比较降低了检索***的速度，无法用于大规模的图像数据库检索等问题。

中国发明专利申请号201510475003.51公开发明了一种图像检索、获取图像信息及图像识别方法、装置及***。该***首先通过提取检索图像的局部特征，采用预先训练的深度自编码卷积神经网络计算所述局部特征的特征值，然后将所述特征值与图像检索数据库注册图像的特征值进行匹配，最后根据匹配结果选择满足预设条件的注册图像作为所述待检索图像的检索结果。虽然该***通过特征点选取局部特征，但是仍无法保证提取到的局部特征能准确分割出搜素对象；对于多目标多标签图像无法单独提取个对象特征。

中国发明专利申请号201710035674.9公开发明了一种一种超大规模图像特征点匹配方法及***，首先进行图像近邻搜索得到图像匹配对；以图像为节点、图像近邻之间构成边形成一个无向图,对这个图进行广度优先排序,得到排序之后的图像和图像对；按照排序结果对图像的特征信息进行重排,并分块保存成二进制文件；按序读取保存有特征信息的二进制文件,根据排序后的图像对来依次进行特征匹配,并及时释放掉后续无用的特征信息；迭代的读取特征信息和进行特征匹配直到所有图像对完成匹配，该算法能满足对大规模图像的检索需求，但是该算法基于近邻搜索技术，存在着检索精度不高等问题。

综上所述，利用深度自编码卷积神经网络和哈希方法进行以图搜图技术，目前尚存着在如下若干个棘手的问题：1)如何通过多任务的学习方式对多目标多标签图像提取整幅图像的稀疏编码，同时对感兴趣区域的精准分割及其区域感知语义特征的提取；2)如何使用提取到的特征建立分层深度搜索，以获取更为精准的检索结果；3)如何使深度自编码卷积神经网络的识别精度、检测准确率及检索***的检索效率完美结合；4)如何设计一个真正意义上的使用一个CNN网络实现端对端的通过分层深度搜索的图像检索方法的框架；5)如何减少大数据时代背景下图像检索***存储空间消耗大、检索速度慢等问题。

发明内容

针对已有的以图搜图技术中自动化和智能化水平低、缺乏深度学***同时使图像识别、特征获取、检索效率完美结合，使得整个检索***获得了精准的检索结果，使用稀疏编码方式减少了***对内存的依赖、加快了检索速度，从而满足大数据时代背景下的图像检索需求。

要实现上述发明内容，必须解决几个核心问题：1)针对图像特征提取难的问题，利用深度自编码卷积神经网络的强大的特征表征能力实现特征自适应提；2)针对大规模图像检索速度慢的问题，设计一种多任务分层方法，使用查询图像与数据库中图像快速比对；3)针对多目标图像场景语义检索，设计一种感兴趣区域的二次筛选算法对多目标图像检测和分割；4)利用端到端深度网络的优势，设计一种端到端的深度自编码卷积神经网络将检测、识别、特征提取融合到一个网络。

为了实现端对端的多任务的深度自编码卷积神经网络的大规模图像检索方法，本发明包含了一个用于深度学习和训练识别的多任务端到端的卷积神经网络、一种基于RPN网络对感兴趣区域二次筛选模型的快速视觉分割检测和定位方法、一种全图稀疏哈希码的粗检索、一种基于最大响应的区域感知语义特征和矩阵h的精准比对检索、一种对感兴趣区域选着性比较的算法。

本发明解决一种基于深度自编码卷积神经网络的多任务分层图像检索方法，采用技术方案包括以下步骤：

1)关于构建一个用于深度学习和训练识别的多任务端到端卷积神经网络；

卷积神经网络共分为三个模块组成：共享卷积模块、感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块，这些模块由卷积层、激活层和下采样层交替构成的深度卷积神经网络；输入图像在网络中进行逻辑回归、层层映射，得到各层对于图像不同的表现形式，实现感兴趣区域的深度表示；

共享卷积模块：共享网络由5个卷积模块组成，其中conv2_x到conv5_x的最深层分别为{4²,8²,16²,16²}作为特征图的输出尺寸，conv1作为输入层只含有单层卷积层；

感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块：RPN网络将一个任意尺度图像作为输入，输出矩形目标建议框的集合，每个框包含4个位置坐标变量和一个得分；为了生成区域建议框，首先输入图像经过卷积共享层生成特征图，然后，在特征图上进行多尺度卷积操作，实现为：在每一个滑动窗口的位置使用3种尺度和3种长宽比，以当前滑动窗口中心为中心，并对应一种尺度和长宽比，则可以在原图上映射得到9种不同尺度的候选区域，如对于大小为w×h的共享卷积特征图，则总共有w×h×9个候选区域；最后，分类层输出w×h×9×2个候选区域的得分，即对每个区域是目标/非目标的估计概率，回归层输出w×h×9×4个参数，即候选区域的坐标参数；

训练RPN网络时，给每个候选区域分配一个二进制的标签，以此来标注该区域是不是目标。操作如下：1)与某个真正目标区域(Ground Truth，GT)有最高的IoU(Intersection-over-Union，交集并集之比)重叠的候选区域；2)与任意GT包围盒有大于0.7的IoU交叠的候选区域。分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域；3)介于两者之间的舍弃。

有了这些定义，遵循Faster RCNN中的多任务损失，最小化目标函数。对一个图像的损失函数定义为:

其中，i是第i个候选区域的索引，

是候选区域是第i类的概率。如果候选区域的标签为正，

为1，如果候选区域标签为0，

就是0；t_i是一个向量，表示预测的包围盒的4个参数化坐标，

是对应的GT包围盒的坐标向量。N_cls和N_reg分别为分类损失函数与位置回归损失函数的归一化系数，λ为两者之间的权重参数。分类损失函数L_cls是两个类别(目标vs非目标)的对数损失：

对于位置回归损失函数L_reg，用以下函数定义：

其中，R是鲁棒的损失函数(smooth L1)。

根据RPN网络输出的I个感兴趣的建议框的图像特征，首先送入初次筛选层去除2/3背景框增大正样本比例，且能有效减少背景区域的产生；然后再将初次筛选过后的感兴趣的建议框的图像特征进行卷积和ReLU处理，得到I个含有4096维的特征图，接着分别送入分类层和窗口回归层进行处理；最后为了获取最大响应的区域感知语义特征，将得到的I个4096维特征图接入再次筛选网络，最后再次反选出最精确建议框的区域感知语义特征；

感兴趣区域坐标回归和识别模块：卷积神经网络训练是一个反向传播过程，与BP算法类似，通过误差函数反向传播，利用随机梯度下降法对卷积参数和偏置进行优化调整，直到网络收敛或者达到最大迭代次数停止；

该神经网络训练是一个反向传播过程，通过误差函数反向传播，利用随机梯度下降法对卷积参数和偏置进行优化调整，直到网络收敛或者达到最大迭代次数停止；

反向传播需要通过对带有标签的训练样本进行比较，采用平方误差代价函数，对于c个类别，N个训练样本的多类别进行识别，网络最终输出误差函数用公式(5)来计算误差，

式中，E^N为平方误差代价函数，

为第n个样本对应标签的第k维，

为第n个样本对应网络预测的第k个输出；

对误差函数进行反向传播时，采用传统的BP算法类似的计算方法，如公式(6)所示，

式中，δ^l代表当前层的误差函数，δ^l+1代表上一层的误差函数，W^l+1为上一层映射矩阵，f'表示激活函数的反函数，即上采样，u^l表示未通过激活函数的上一层的输出，x^l-1表示下一层的输入，W^l为本层映射权值矩阵；

2)基于RPN网络对感兴趣区域二次筛选模型的快速视觉分割检测和定位，过程如下：

从视频或相机中获取的图像包含多个目标区域，利用概率层对RPN每个建议框坐标输出及得分输出先后经过非极大值抑制和阈值筛选得到最终坐标框及得分，最后再次经过再筛选网络选出最精确建议框的区域，通过对建议框的两次筛选保证对目标对象的准确检测及识别；

3)进行全图稀疏哈希码的粗检索，过程如下：

哈希方法的目标是将样本表示成一串固定长度的二进制编码，包括两个方面：1)对于共享相同语义概念的两个图像，二进制码之间的汉明距离应尽可能小，否则如果相应的图像来自不同的类，汉明距离应该更大，该特征意味着二进制码在汉明空间中具有辨别特性；2)哈希方法可以被视为一个黑盒子，其中输入通常是低级或中级特征，如GIST特征，黑盒子的输出是二进制代码，它在汉明空间中保持语义属性；这种二进制代码的固有属性可以被视为从特征表示的角度建立在低或中等特征的基础上的高级表示，并使其返回与查询图像更相关的语义；

针对深度卷积网络和哈希方法，提出粗检索处理过程如下：

首先假设目标数据集可分为c个类别标签，目标图像经过感兴趣区域的初次筛选网络可获取每个感兴趣区域的目标类别的概率向量p＝(x₁,x₂,...,x_c)，x_c∈(0,1)，为促使稀疏编码模块的二进制输出利用分段函数对概率向量p进行二值化处理；如果目标图像I含有m个感兴趣区域，相应的就会产生m个p向量，融合之后得到P＝(p₁,p₂,...,p_m)，全局概率矩阵P的维度为m×c，P送入二值化函数得到矩阵h，二值化过程如公式(7)所示；

其中i,j∈(m,c)。其次，为了加快图像检索的速度再次采用向量融合的方式，将矩阵h压缩至1×c维的矩阵H表示目标图像的全局特征。整个过程如公式(8)、公式(9)所示，首先将矩阵h转置与自身相乘后得到c×c维的过度矩阵h′，接着选取过度矩阵h′对角线元素作为最后目标图像I的全局特征二进制哈希码，即矩阵H；

H＝diag(h′) (9)

稀疏哈希矩阵H是一个1×c维向量且H_i∈{0,1},i∈c，

表示矩阵(h^Th)第i行，第j列；使用H对目标数据集进行粗检索，利用低维度向量可有效缩短检索时间改善检索精度。

通过深度自编码卷积神经网络，学习到图像的稀疏哈希矩阵和图像目标区域深层感知语义信息，基于上述观点，采用一种由粗到细的检索策略，最终实现图像检索***的快速搜索、准确返回；首先通过图像的稀疏哈希矩阵检索出一组属性相类似的图像，然后通过图像目标区域深层感知语义信息在粗检索出的一组图像中，有选择性检索出与目标图像最为相似的前k个图片

检索过程如下：对于给定的图像I，首先提取图像的输出Out^j(H)稀疏哈希矩阵H

假设目标数据集由n个图像构成，可表示为Γ＝{I₁,I₂,…,I_n}，则目标数据集的稀疏哈希码由Γ_H＝{H₁,H₂,…,H_n}，H_i∈{0,1}表示；进一步假设给定检索图像I_q和检索图像的稀疏哈希码H_q，使用余弦距离度量H_q与H_i∈Γ_H之间相似度，将余弦值大于阈值T_H图像放入候选池U中，

粗检索结果，作为候选图像用于后续精检索过程

4)基于最大响应的区域感知语义特征和矩阵h的精准比对检索；

所述的精检索，给定查询图像I_q和候选池U，使用从再次筛选网络和全连接层精选出来的区域感知语义特征来确定候选池U中图像前k个排名；每幅图像包含的建议框个数不定，可能含有一个或多个；若查询图像I_q包含m个建议框，从候选池U中随机选择一副图像I_n∈U包含了m′个建议框，如果使用暴力的检索方式对比所有建议框，则需要对比m×m′次，m×m′值越大对整个检索***运行速度的降低就越多，针对这个问题：为减少建议框的比对次数，提高程序的运行效率，以矩阵h作为衡量比较次数依据；查询图像I_q矩阵h表示为h_q，一个m×c维向量，候选池中随机图像I_n的矩阵h矩阵为h_n，则相应的对比次数如公式(10)所示：

结果num≤m×m′，通过公式(10)的建议框选择性比较大大减少了需要比对的次数及检索***运算时间，其中图像中建议框数量越多效果越明显，获取需要对比的建议框如公式(11)所示：

其中dis(·)表示修正余弦距离公式，表现形式如公式(12)所示：

查询图像和目标数据集中的任意一张图像的区域感知语义特征分别使用f_q,f_n表示，带人公式(11)得到对比建议框矩阵s，m×m′维。图像产生的建议框往往存在两大类：同类建议框和非同类建议框，所以选择比较的建议框也会存在两类比较结果，因此造成类内和类间建议框的个数的不同的检索差异，所以利用公式(13)可消除这些差异：以查询图像的建议框为基准，取图像I_q与I_n类内框的最大值，类间框的平均值，最后在图像I_q的类内再次取均值，通过运算最大程度上降低这些差异保证结果的准确性，并得到图像I_q与I_n的相似度sim；

首先需要更新矩阵s，取图像I_q与I_n类内框的最大值，更新公式如下：

在公式(13)中i,j∈(m,m′)，选出矩阵s′中第i行最大值用

表示。最后利用公式(14)，取图像I_q与I_n类间框的平均值并在I_q类内平均，最后得到整张图片的相似度，sim获取公式如下：

公式(14)中i,j∈(m,m′)，字符

表示查询图片的矩阵的第i行，第j列，s′^j表示矩阵s′的第j列，相似度计算公式计算结果sim值越大图像相似度越高，对于候选池U中每个候选图片

的排名从sim的最大值开始排列，这样就确定了前k个图片的排名。

进一步，所述方法还包括：步骤5)搜索图像精度的评价，这里使用一个以排名为基础的标准来进行评价；对于给定一个搜索图像I_q和一个相似性度量，对每个数据集图像进行一个排名；这里用评估前k个排名图像来表示一个搜索图像I_q的检索精度，用公式(15)表示；

式中，Rel(i)表示搜索图像I_q与第i个排名图像之间的真实相关，k表示排名图像的个数，Precision@k搜索精度；在计算真实相关时，只考虑有分类标签的部分，Rel(i)∈{0,1}，如果搜索图像与第i个排名图像都具有相同的标签设置Rel(i)＝1，否则设置Rel(i)＝0，遍历候选池P中前k个排名图像就能得到搜索精度。

下面简单归纳总结一下基于深度自编码卷积神经网络的多任务分层图像检索方法的整体图像检索流程图：1)将图像送入深度自编码卷积神经网络，在特征图上进行逻辑回归，对查询图像上的感兴趣区域进行位置、类别的分割、预测；2)使用深度自编码卷积神经网络提取图像的稀疏哈希矩阵和感兴趣区域的感知语义特征；3)使用稀疏哈希矩阵对数据库中图像进行粗检索，得到类似属性的候选图像放入候选池U；4)在粗检索的基础上，即候选池U进一步有选择性地对建议框使用修正余弦距离进行比较并排序，得到排名前k的图像。

本发明的有益效果主要表现在：

1)提供了一种基于深度自编码卷积神经网络的多任务分层图像检索方法；

2)利用深度卷积神经网络强大的特征表征能力实现特征自适应提取；

3)采用分层深度搜索的图像检索方法能满足大规模图像数据的搜索需求；

4)本设计兼顾了通用性和专用性，在通用性方面，检索速度、精度和实用性等方面满足各类用户的需求；专用性方面用户根据自己的特定需求，做一个专用数据集并对网络参数进行微调后，实现一种面向特定应用的以图搜图的***。

附图说明

图1为本发明工作流程图。

图2为共享网络示意图。

图3为RPN网络展开图。

图4为基于RPN网络对感兴趣区域二次筛选模型的快速视觉分割检测和定位流程图。

图5为粗检索流程示意图。

图6为一种基于深度自编码卷积神经网络的多任务分层图像检索方法整体流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参照图1～图6，一种基于深度自编码卷积神经网络的多任务分层图像检索方法，如图6所示，输入的检索图像首先经过卷积神经网络的共享模块，再送入感兴趣模块筛选出图像中粗略感兴趣区域的位置，然后送入基于感兴趣模块对感兴趣区域二次筛选模型的快速视觉分割检测和定位得到图像中目标精确的位置，通过深度学习的方法便可获取图像的全图稀疏哈希码进行粗检索、获取图像最大响应的区域感知语义特征和矩阵h的精准比对检索。

用深度学习的方法进行图像检索，是从图像中通过图像在共享网络模块和感兴趣区域初次筛选模块中进行逻辑回归得到粗略的目标候选区域，这一步的完成质量对***性能的速度有着直接的影响，通过初步筛选获得目标大致区减小第二阶段筛选的计算复杂度，为了保证识别***的可靠性和适应性；本发明包括以下步骤：

1)构建深度学习和训练识别的多任务端到端卷积神经网络；

共享卷积模块：共享网络由5个卷积模块组成，其中conv2_x到conv5_x的最深层分别为{4²,8²,16²,16²}作为特征图的输出尺寸，conv1作为输入层只含有单层卷积层，如图2所示，这种深度结构能够有效减少计算时间并建立空间结构上的不变性。输入图像在网络中进行层层映射，最终得到各层对于图像不同的表示形式，实现图像的深度表示，其中卷积核以及下采样的方式直接决定图像的映射方式，卷积神经网本质上是一种深度映射的网络结构，输入信号通过在网络中进行层层映射，不断进行分解和表示，最终形成关于对象目标的多层表达，其最主要特点就是不必再人为的选取和构建对象特征，而是通过机器自动学习，得到关于对象目标的深层表示；

感兴趣区域初次筛选模块：RPN网络将一个任意尺度图像作为输入，输出矩形目标建议框的集合，每个框包含4个位置坐标变量和一个得分。为了生成区域建议框，首先输入图像经过卷积共享层生成特征图，然后，在特征图上进行多尺度卷积操作，具体实现为：在每一个滑动窗口的位置使用3种尺度和3种长宽比，以当前滑动窗口中心为中心，并对应一种尺度和长宽比，则可以在原图上映射得到9种不同尺度的候选区域，如对于大小为w×h的共享卷积特征图，则总共有w×h×9个候选区域。最后，分类层输出w×h×9×2个候选区域的得分，即对每个区域是目标/非目标的估计概率，回归层输出w×h×9×4个参数，即候选区域的坐标参数，具体形式如图3所示。

训练RPN网络时，给每个候选区域分配一个二进制的标签，以此来标注该区域是不是目标。具体操作如下：1)与某个真正目标区域(Ground Truth，GT)有最高的IoU(Intersection-over-Union，交集并集之比)重叠的候选区域；2)与任意GT包围盒有大于0.7的IoU交叠的候选区域。分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域；3)介于两者之间的舍弃。

其中，i是第i个候选区域的索引，

是候选区域是第i类的概率。如果候选区域的标签为正，

为1，如果候选区域标签为0，

就是0。t_i是一个向量，表示预测的包围盒的4个参数化坐标，

对于位置回归损失函数L_reg，用以下函数定义：

其中，R是鲁棒的损失函数(smooth L1)。

根据RPN网络输出的I个感兴趣的建议框的图像特征，首先送入初次筛选层去除2/3背景框增大正样本比例，且能有效减少背景区域的产生；然后再将初次筛选过后的感兴趣的建议框的图像特征进行卷积和ReLU处理，得到I个含有4096维的特征图，接着分别送入分类层和窗口回归层进行处理；最后为了获取最大响应的区域感知语义特征，将得到的I个4096维特征图接入再次筛选网络，最后再次反选出最精确建议框的区域感知语义特征。

感兴趣区域坐标回归和识别模块：卷积神经网络训练是一个反向传播过程，与BP算法类似，通过误差函数反向传播，利用随机梯度下降法对卷积参数和偏置进行优化调整，直到网络收敛或者达到最大迭代次数停止。

式中，E^N为平方误差代价函数，

为第n个样本对应标签的第k维，

为第n个样本对应网络预测的第k个输出；

2)通过感兴趣区域初次筛选模块得到的粗略目标送入感兴趣区域二次筛选模型的快速视觉分割检测和定位。如图4所示，利用概率层对RPN每个建议框坐标输出及得分输出先后经过非极大值抑制和阈值筛选得到最终坐标框及得分，最后再次经过再筛选网络选出最精确建议框的区域，通过对建议框的两次筛选保证对目标对象的准确检测及识别，可获取图像的全局稀疏哈希码和图像中建议框语义信息；通过端到端的微调，将图像的全局信息高度概括在稀疏哈希码中，并使用此低维特征快速对数据库中图像进行粗检索，是一种有效地减少计算量的方法；之后使用全连接层和初次筛选网络的输出连接二次筛选网络，提取出图像中感兴趣区域中响应最大的建议框，利用高层语义特征在粗检索的结果中有选择性地对比进一步减少检索***运行的时间；

3)通过深度自编码卷积神经网络，学习到图像的稀疏哈希矩阵和图像目标区域深层感知语义信息，基于上述观点，本发明采用一种由粗到细的检索策略，最终实现图像检索***的快速搜索、准确返回；首先通过图像的稀疏哈希矩阵检索出一组属性相类似的图像，然后通过图像目标区域深层感知语义信息在粗检索出的一组图像中，有选择性检索出与目标图像最为相似的前k个图片。

首先假设目标数据集可分为c个类别标签，目标图像经过感兴趣区域的初次筛选网络可获取每个感兴趣区域的目标类别的概率向量p＝(x₁,x₂,...,x_c)，x_c∈(0,1)，为促使稀疏编码模块的二进制输出利用分段函数对概率向量p进行二值化处理，整体过程如图2所示。如果目标图像I含有m个感兴趣区域，相应的就会产生m个p向量，融合之后得到P＝(p₁,p₂,...,p_m)，全局概率矩阵P的维度为m×c，P送入二值化函数得到矩阵h，二值化过程如公式(7)所示；

其中i,j∈(m,c)。其次，为了加快图像检索的速度再次采用向量融合的方式，将矩阵h压缩至1×c维的矩阵H表示目标图像的全局特征。整个过程如公式(8)、公式(9)所示，首先将矩阵h转置与自身相乘后得到c×c维的过度矩阵h′，接着选取过度矩阵h′对角线元素作为最后目标图像I的全局特征二进制哈希码，即矩阵H。

H＝diag(h′) (9)

稀疏哈希矩阵H是一个1×c维向量且H_i∈{0,1},i∈c，

粗检索处理流程如图5所示，检索过程如下：对于给定的图像I，首先提取图像的输出Out^j(H)稀疏哈希矩阵H。

粗检索结果，作为候选图像用于后续精检索过程。

4)基于最大响应的区域感知语义特征和矩阵h的精准比对检索。

所述的精检索，给定查询图像I_q和候选池U，使用从再次筛选网络和全连接层精选出来的区域感知语义特征来确定候选池U中图像前k个排名；每幅图像包含的建议框个数不定，可能含有一个或多个。若查询图像I_q包含m个建议框，从候选池U中随机选择一副图像I_n∈U包含了m′个建议框，如果使用暴力的检索方式对比所有建议框，则需要对比m×m′次，m×m′值越大对整个检索***运行速度的降低就越多，针对这个问题：为减少建议框的比对次数，提高程序的运行效率，以矩阵h作为衡量比较次数依据；查询图像I_q矩阵h表示为h_q，一个m×c维向量，候选池中随机图像I_n的矩阵h矩阵为h_n，则相应的对比次数如公式(10)所示：

其中dis(·)表示修正余弦距离公式，具体表现形式如公式(12)所示：

查询图像和目标数据集中的任意一张图像的区域感知语义特征分别使用f_q,f_n表示，带人公式(11)得到对比建议框矩阵s，m×m′维。图像产生的建议框往往存在两大类：同类建议框和非同类建议框，所以选择比较的建议框也会存在两类比较结果，因此造成类内和类间建议框的个数的不同的检索差异，所以利用公式(13)可消除这些差异：以查询图像的建议框为基准，取图像I_q与I_n类内框的最大值，类间框的平均值，最后在图像I_q的类内再次取均值，通过运算最大程度上降低这些差异保证结果的准确性，并得到图像I_q与I_n的相似度sim。

在公式(13)中i,j∈(m,m′)，选出矩阵s′中第i行最大值用

公式(14)中i,j∈(m,m′)，字符

以上所述仅为本发明的较佳实施举例，并不用于限制本发明，凡在本发明精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度自编码卷积神经网络的多任务分层图像检索方法，其特征在于：所述方法包括以下步骤：

1)构建用于深度学习和训练识别的多任务端到端卷积神经网络；所述的卷积神经网络，共要分为三个模块组成：共享卷积模块、感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块，所述共享卷积模块、感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块均由卷积层、激活层和下采样层交替构成；输入图像在网络中进行逻辑回归、层层映射，得到各层对于图像不同的表现形式，实现感兴趣区域的深度表示；

2)基于RPN网络对感兴趣区域二次筛选模型进行快速视觉分割检测和定位，采用以RPN网络为基础添加初次和再次筛选网络，对RPN产生的初始建议框进行评分和多重过滤，根据得分的高低和最大响应区域的过滤确定最后感兴趣区域；

3)进行全图稀疏哈希码的粗检索，通过对初次筛选网络，首先RPN产生的建议框的属性概率向量进行二值化编码，然后通过向量融合方式对二维向量进行扁平化成一维向量得到全图的稀疏哈希码；最后通过余弦距离对这种紧凑的二进制编码向量进行快速图像对比；

哈希方法的目标是将样本表示成一串固定长度的二进制编码，包括两个方面：1)对于共享相同语义概念的两个图像，二进制码之间的汉明距离应尽可能小，否则如果相应的图像来自不同的类，汉明距离应该更大，该特征意味着二进制码在汉明空间中具有辨别特性；2)哈希方法视为一个黑盒子，其中输入低级或中级特征，所述输入低级或中级特征为GIST特征，黑盒子的输出是二进制代码，它在汉明空间中保持语义属性；这种二进制代码的固有属性可以被视为从特征表示的角度建立在低或中等特征的基础上的高级表示，并使其返回与查询图像更相关的语义；

深度哈希算法的处理过程为；首先假设目标数据集可分为c个类别标签，目标图像经过感兴趣区域的初次筛选网络获取每个感兴趣区域的目标类别的概率向量p＝(x₁,x₂,...,x_c)，x_c∈(0,1)，为促使稀疏编码模块的二进制输出利用分段函数对概率向量p进行二值化处理；如果目标图像I含有m个感兴趣区域，相应的就会产生m个p向量，融合之后得到P＝(p₁,p₂,...,p_m)，全局概率矩阵P的维度为m×c，P送入二值化函数得到矩阵h，二值化过程如公式(7)所示：

其中i,j∈(m,c)，其次，为了加快图像检索的速度再次采用向量融合的方式，将矩阵h压缩至1×c维的矩阵H表示目标图像的全局特征；整个过程如公式(8)、公式(9)所示，首先将矩阵h转置与自身相乘后得到c×c维的过度矩阵h′，接着选取过度矩阵h′对角线元素作为最后目标图像I的全局特征二进制哈希码，即矩阵H；

H＝diag(h′) (9)

稀疏哈希矩阵H是一个1×c维向量且H_i∈{0,1},i∈c，

表示矩阵(h^Th)第i行，第j列；使用H对目标数据集进行粗检索，利用低维度向量可有效缩短检索时间改善检索精度；

通过深度自编码卷积神经网络，学习到图像的稀疏哈希矩阵和图像目标区域深层感知语义信息，基于上述观点，采用一种由粗到细的检索策略，最终实现图像检索***的快速搜索、准确返回；首先通过图像的稀疏哈希矩阵检索出一组属性相类似的图像，然后通过图像目标区域深层感知语义信息在粗检索出的一组图像中，有选择性检索出与目标图像最为相似的前k个图片；

检索过程如下：对于给定的图像I，首先提取图像的输出Out^j(H)稀疏哈希矩阵H；

假设目标数据集由n个图像构成，表示为Γ＝{I₁,I₂,…,I_n}，则目标数据集的稀疏哈希码由Γ_H＝{H₁,H₂,…,H_n}，H_i∈{0,1}表示；进一步假设给定检索图像I_q和检索图像的稀疏哈希码H_q，使用余弦距离度量H_q与H_i∈Γ_H之间相似度，将余弦值大于阈值T_H图像放入候选池U中，

粗检索结果，作为候选图像用于后续精检索过程；

4)基于最大响应的区域感知语义特征和矩阵h的精准比对检索，通过再次筛选网络，对初次筛选网络结果和全连接层最大响应提取建议框的高层语义信息，结合在快速对比方法中得到的返回图像使用修正余弦距离进行有选择性的比较、排序，前k个图像最为最后返回结果。

2.如权利要求1所述的基于深度自编码卷积神经网络的多任务分层图像检索方法，其特征在于：所述步骤1)中，共享卷积模块：共享网络由5个卷积模块组成，其中conv2_x到conv5_x的最深层分别为{4²,8²,16²,16²}作为特征图的输出尺寸，conv1作为输入层只含有单层卷积层；

感兴趣区域坐标回归和识别模块：RPN网络将一个任意尺度图像作为输入，输出矩形目标建议框的集合，每个框包含4个位置坐标变量和一个得分；为了生成区域建议框，首先输入图像经过卷积共享层生成特征图，然后，在特征图上进行多尺度卷积操作，实现为：在每一个滑动窗口的位置使用3种尺度和3种长宽比，以当前滑动窗口中心为中心，并对应一种尺度和长宽比，则可以在原图上映射得到9种不同尺度的候选区域，如对于大小为w×h的共享卷积特征图，则总共有w×h×9个候选区域；最后，分类层输出w×h×9×2个候选区域的得分，即对每个区域是目标/非目标的估计概率，回归层输出w×h×9×4个参数，即候选区域的坐标参数；

训练RPN网络时，给每个候选区域分配一个二进制的标签，以此来标注该区域是不是目标，操作如下：1)与某个真正目标区域(Ground Truth，GT)有最高的IoU(Intersection-over-Union，交集并集之比)重叠的候选区域；2)与任意GT包围盒有大于0.7的IoU交叠的候选区域，分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域；3)介于两者之间的舍弃；

有了这些定义，遵循Faster RCNN中的多任务损失，最小化目标函数，对一个图像的损失函数定义为:

其中，i是第i个候选区域的索引，

是候选区域是第i类的概率；如果候选区域的标签为正，

为1，如果候选区域标签为0，

是对应的GT包围盒的坐标向量，N_cls和N_reg分别为分类损失函数与位置回归损失函数的归一化系数，λ为两者之间的权重参数，分类损失函数L_cls是两个类别的对数损失，两个类别为目标和非目标：

对于位置回归损失函数L_reg，用以下函数定义：

其中，R是鲁棒的损失函数smooth_L1：

感兴趣区域二次筛选模块：根据RPN网络输出的I个感兴趣的建议框的图像特征，首先送入初次筛选层去除2/3背景框增大正样本比例，且能有效减少背景区域的产生；然后再将初次筛选过后的感兴趣的建议框的图像特征进行卷积和ReLU处理，得到I个含有4096维的特征图，接着分别送入分类层和窗口回归层进行处理；最后为了获取最大响应的区域感知语义特征，将得到的I个4096维特征图接入再次筛选网络，最后再次反选出最精确建议框的区域感知语义特征；

卷积神经网络训练是一个反向传播过程，通过误差函数反向传播，利用随机梯度下降法对卷积参数和偏置进行优化调整，直到网络收敛或者达到最大迭代次数停止；

式中，E^N为平方误差代价函数，

为第n个样本对应标签的第k维，

为第n个样本对应网络预测的第k个输出；

δ^l＝(W^l+1)^Tδ^l+1×f′(u^l) (u^l＝W^lx^l-1+b^l) (6)

式中，δ^l代表当前层的误差函数，δ^l+1代表上一层的误差函数，W^l+1为上一层映射矩阵，f'表示激活函数的反函数，即上采样，u^l表示未通过激活函数的上一层的输出，x^l-1表示下一层的输入，W^l为本层映射权值矩阵。

3.如权利要求1或2所述的基于深度自编码卷积神经网络的多任务分层图像检索方法，其特征在于：所述步骤2)中，从视频或相机中获取的图像包含多个目标区域，利用概率层对RPN每个建议框坐标输出及得分输出先后经过非极大值抑制和阈值筛选得到最终坐标框及得分，最后再次经过再筛选网络选出最精确建议框的区域，通过对建议框的两次筛选保证对目标对象的准确检测及识别。

4.如权利要求1所述的基于深度自编码卷积神经网络的多任务分层图像检索方法，其特征在于：给定查询图像I_q和候选池U，使用从再次筛选网络和全连接层精选出来的区域感知语义特征来确定候选池U中图像前k个排名；每幅图像包含的建议框个数不定，可能含有一个或多个；若查询图像I_q包含m个建议框，从候选池U中随机选择一副图像I_n∈U包含了m′个建议框，如果使用暴力的检索方式对比所有建议框，则需要对比m×m′次，m×m′值越大对整个检索***运行速度的降低就越多，针对这个问题：为减少建议框的比对次数，提高程序的运行效率，以矩阵h作为衡量比较次数依据；查询图像I_q矩阵h表示为h_q，一个m×c维向量，候选池中随机图像I_n的矩阵h矩阵为h_n，则相应的对比次数如公式(10)所示：

查询图像和目标数据集中的任意一张图像的区域感知语义特征分别使用f_q,f_n表示，带入公式(11)得到对比建议框矩阵s，m×m′维，图像产生的建议框往往存在两大类：同类建议框和非同类建议框，所以选择比较的建议框也会存在两类比较结果，因此造成类内和类间建议框的个数的不同的检索差异，所以利用公式(13)可消除这些差异：以查询图像的建议框为基准，取图像I_q与I_n类内框的最大值，类间框的平均值，最后在图像I_q的类内再次取均值，通过运算最大程度上降低这些差异保证结果的准确性，并得到图像I_q与I_n的相似度sim；

在公式(13)中i,j∈(m,m′)，选出矩阵s′中第i行最大值用

表示，最后利用公式(14)，取图像I_q与I_n类间框的平均值并在I_q类内平均，最后得到整张图片的相似度，sim获取公式如下：

公式(14)中i,j∈(m,m′)，字符

5.如权利要求4所述的基于深度自编码卷积神经网络的多任务分层图像检索方法，其特征在于：所述方法还包括：步骤5)搜索图像精度的评价，这里使用一个以排名为基础的标准来进行评价；对于给定一个搜索图像I_q和一个相似性度量，对每个数据集图像进行一个排名；这里用评估前k个排名图像来表示一个搜索图像I_q的检索精度，用公式(15)表示；