CN107679250B - 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 - Google Patents

一种基于深度自编码卷积神经网络的多任务分层图像检索方法 Download PDF

Info

Publication number
CN107679250B
CN107679250B CN201711057490.9A CN201711057490A CN107679250B CN 107679250 B CN107679250 B CN 107679250B CN 201711057490 A CN201711057490 A CN 201711057490A CN 107679250 B CN107679250 B CN 107679250B
Authority
CN
China
Prior art keywords
image
matrix
region
retrieval
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711057490.9A
Other languages
English (en)
Other versions
CN107679250A (zh
Inventor
何霞
汤一平
王丽冉
陈朋
袁公萍
金宇杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201711057490.9A priority Critical patent/CN107679250B/zh
Publication of CN107679250A publication Critical patent/CN107679250A/zh
Application granted granted Critical
Publication of CN107679250B publication Critical patent/CN107679250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:主要包括一个用于深度学***,且用较少的存储空间,较快的检索速度来满足大数据时代的图像检索要求。

Description

一种基于深度自编码卷积神经网络的多任务分层图像检索 方法
技术领域
本发明涉及计算机视觉、模式识别、信息检索、多任务学习、相似度测量、深度自编码卷积神经网络和深度学习技术在图像检索领域的应用,尤其涉及一种基于深度自编码卷积神经网络的多任务分层图像检索方法。
背景技术
图像检索的目的是通过分析输入的查询图像内容来检索相似图像的技术,为用户提供了一种关于图形图像信息检索的搜索技术,该技术包含了图像处理、计算机视觉、多任务学习、模式识别和认知心理等多门学科。其相关技术主要包括图像表示的获取和相似性测量。在大数据时代的背景下图像检索、视频侦查、互联、购物搜索引擎等多种领域都有广泛应用。
对于内容的图像检索技术,常用的传统方法一般基于图像的颜色信息、形状特点、纹理特征等,这类技术属于前深度学习时代的图像检索技术,一般可分为三个步骤:1)提取目标图像的特征表示,对获取图像算法中最普遍的是的SIFT描述算子、颜色或几何不变矩、哈希函数、Fisher向量描述等。2)将图像特征表示进行再编码用于海量图像查找表。对于分辨率较大的目标图像可对其进行降采样处理再进行编码获取图像特征表示,这样可减少搜索过程的运算负担,加快图像比对的速度。3)相似度测量方法:利用步骤2中得到的图像特征表示,计算查询图像与目标数据集的相似度的计算;根据最后查询结果所需的鲁棒性,设定图像筛选阈值,然后根据图片的相似度保留相似值最高的前k个;最后结合特征匹配算法筛选出最为相似的图片。
图像特征表示是图像的像素信息和人类对事物的感知相联系,图像特征即为检索的条件。传统的基于图像内容的检索由于需要靠人工提取特征,这种方法即耗时、耗费精力,检索精度和效率都存在着很大问题,这些方法在使用时常用图像的颜色、纹理、轮廓等底层特征作为图像的基本特征,检索结果便是基于以上人工提取特征的相似度计算与目标数据库中的图像进行匹配得来。在如今大数据时代,目标数据库尤为庞大,那么在检索过程中的时效性及其重要。时效性是衡量一个图像检索***的好坏的标准,针对已有的基于内容的图像检索技术的智能化水平低,缺乏图像特征自编码能力,难以精准快速获取检索结果且难以满足大数据时代的图像检索技术要求。
IBM提出的QBIC(Query by image contnet)、加拿大Idée公司研发的Tineye、MIT媒体实验室开发的Photobook、Virage公司开发研制的Virage、加里福利亚大学ADL开发的NETRA、哥伦比亚大学开发的VisualSeek和WebSeek都是属于前深度学习时代的图像检索技术。
最近几年发展的深度学习是以建立并模拟人脑来分析学习的深度自编码卷积神经网络,它模仿人脑学习机制对图片数据进行解释并表示。其中LeNet模型是早期深度神经网络中最具有代表性的网络模型,随之出现AlexNet、VGG、ResNet网络具有更深的网络结构且对图像表示的能力也更强大。深度学习通过将底层的特征表示成更加抽象的目标图像类别或特征矢量,从而揭示目标数据库的分布式特点。
为了提高检索的精度和效率将哈希方法与深度学习相结合是一种新的趋势。哈希算法也可用于图像之间相似度的测量,主要包含无监督方法和有监督方法。无监督的学习方法往往用于无标签的数据,通过学习数据的几何结构得到一组哈希码,其中局部敏感哈希被广泛运用,它将可能相似性数据的概率最大化作为学习目标从而得到一组相似的哈希码。相比于无监督学习,有监督学习的哈希码可得到一组更具有典型代表的哈希码,基于深度自编码卷积神经网络的哈希方法可自动探索图像的深层特征,是一种十分理想的图像检索技。
中国发明专利申请号201611127943.6公开发明了一种基于序列保留哈希的超低复杂度图像检索方法,其中在图像数据库中随机选取一部分图像作为训练集,并抽取相应的特征用非线性主成分分析法对原图像特征进行降维;再利用K-means聚类算法得到一系列的支撑点最为后续哈希函数学习的基础;然后通过迭代优化学习对应的哈希函数对整个图像数据库哈希编码;最后使用汉明距离度量图像之间的相似度。该技术仍属于传统的基于图像内容的检索技术。
中国发明专利申请号201610877794.9公开发明了一种基于兴趣目标的图像检索方法。其中包括以下步骤:1)依据HS显著性检测算法分析用户的兴趣目标,结合SaliencyCut算法分割出兴趣目标;2)对用户的兴趣目标提取HSV颜色特征、SIFT局部特征和CNN语义特征;3)将提取的兴趣目标的特征与数据库中的图像进行相似度的匹配,并根据相似度排序得到基于兴趣目标的检索结果。本发明利用多个维度的图像特征表示满足了大数据时代的图像检索精度要求,但是该算法存在对***内存要求较高,多个维度的特征的比较降低了检索***的速度,无法用于大规模的图像数据库检索等问题。
中国发明专利申请号201510475003.51公开发明了一种图像检索、获取图像信息及图像识别方法、装置及***。该***首先通过提取检索图像的局部特征,采用预先训练的深度自编码卷积神经网络计算所述局部特征的特征值,然后将所述特征值与图像检索数据库注册图像的特征值进行匹配,最后根据匹配结果选择满足预设条件的注册图像作为所述待检索图像的检索结果。虽然该***通过特征点选取局部特征,但是仍无法保证提取到的局部特征能准确分割出搜素对象;对于多目标多标签图像无法单独提取个对象特征。
中国发明专利申请号201710035674.9公开发明了一种一种超大规模图像特征点匹配方法及***,首先进行图像近邻搜索得到图像匹配对;以图像为节点、图像近邻之间构成边形成一个无向图,对这个图进行广度优先排序,得到排序之后的图像和图像对;按照排序结果对图像的特征信息进行重排,并分块保存成二进制文件;按序读取保存有特征信息的二进制文件,根据排序后的图像对来依次进行特征匹配,并及时释放掉后续无用的特征信息;迭代的读取特征信息和进行特征匹配直到所有图像对完成匹配,该算法能满足对大规模图像的检索需求,但是该算法基于近邻搜索技术,存在着检索精度不高等问题。
综上所述,利用深度自编码卷积神经网络和哈希方法进行以图搜图技术,目前尚存着在如下若干个棘手的问题:1)如何通过多任务的学习方式对多目标多标签图像提取整幅图像的稀疏编码,同时对感兴趣区域的精准分割及其区域感知语义特征的提取;2)如何使用提取到的特征建立分层深度搜索,以获取更为精准的检索结果;3)如何使深度自编码卷积神经网络的识别精度、检测准确率及检索***的检索效率完美结合;4)如何设计一个真正意义上的使用一个CNN网络实现端对端的通过分层深度搜索的图像检索方法的框架;5)如何减少大数据时代背景下图像检索***存储空间消耗大、检索速度慢等问题。
发明内容
针对已有的以图搜图技术中自动化和智能化水平低、缺乏深度学***同时使图像识别、特征获取、检索效率完美结合,使得整个检索***获得了精准的检索结果,使用稀疏编码方式减少了***对内存的依赖、加快了检索速度,从而满足大数据时代背景下的图像检索需求。
要实现上述发明内容,必须解决几个核心问题:1)针对图像特征提取难的问题,利用深度自编码卷积神经网络的强大的特征表征能力实现特征自适应提;2)针对大规模图像检索速度慢的问题,设计一种多任务分层方法,使用查询图像与数据库中图像快速比对;3)针对多目标图像场景语义检索,设计一种感兴趣区域的二次筛选算法对多目标图像检测和分割;4)利用端到端深度网络的优势,设计一种端到端的深度自编码卷积神经网络将检测、识别、特征提取融合到一个网络。
为了实现端对端的多任务的深度自编码卷积神经网络的大规模图像检索方法,本发明包含了一个用于深度学习和训练识别的多任务端到端的卷积神经网络、一种基于RPN网络对感兴趣区域二次筛选模型的快速视觉分割检测和定位方法、一种全图稀疏哈希码的粗检索、一种基于最大响应的区域感知语义特征和矩阵h的精准比对检索、一种对感兴趣区域选着性比较的算法。
本发明解决一种基于深度自编码卷积神经网络的多任务分层图像检索方法,采用技术方案包括以下步骤:
1)关于构建一个用于深度学习和训练识别的多任务端到端卷积神经网络;
卷积神经网络共分为三个模块组成:共享卷积模块、感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块,这些模块由卷积层、激活层和下采样层交替构成的深度卷积神经网络;输入图像在网络中进行逻辑回归、层层映射,得到各层对于图像不同的表现形式,实现感兴趣区域的深度表示;
共享卷积模块:共享网络由5个卷积模块组成,其中conv2_x到conv5_x的最深层分别为{42,82,162,162}作为特征图的输出尺寸,conv1作为输入层只含有单层卷积层;
感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块:RPN网络将一个任意尺度图像作为输入,输出矩形目标建议框的集合,每个框包含4个位置坐标变量和一个得分;为了生成区域建议框,首先输入图像经过卷积共享层生成特征图,然后,在特征图上进行多尺度卷积操作,实现为:在每一个滑动窗口的位置使用3种尺度和3种长宽比,以当前滑动窗口中心为中心,并对应一种尺度和长宽比,则可以在原图上映射得到9种不同尺度的候选区域,如对于大小为w×h的共享卷积特征图,则总共有w×h×9个候选区域;最后,分类层输出w×h×9×2个候选区域的得分,即对每个区域是目标/非目标的估计概率,回归层输出w×h×9×4个参数,即候选区域的坐标参数;
训练RPN网络时,给每个候选区域分配一个二进制的标签,以此来标注该区域是不是目标。操作如下:1)与某个真正目标区域(Ground Truth,GT)有最高的IoU(Intersection-over-Union,交集并集之比)重叠的候选区域;2)与任意GT包围盒有大于0.7的IoU交叠的候选区域。分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域;3)介于两者之间的舍弃。
有了这些定义,遵循Faster RCNN中的多任务损失,最小化目标函数。对一个图像的损失函数定义为:
Figure BDA0001453851260000041
其中,i是第i个候选区域的索引,
Figure BDA0001453851260000051
是候选区域是第i类的概率。如果候选区域的标签为正,
Figure BDA0001453851260000052
为1,如果候选区域标签为0,
Figure BDA0001453851260000053
就是0;ti是一个向量,表示预测的包围盒的4个参数化坐标,
Figure BDA0001453851260000054
是对应的GT包围盒的坐标向量。Ncls和Nreg分别为分类损失函数与位置回归损失函数的归一化系数,λ为两者之间的权重参数。分类损失函数Lcls是两个类别(目标vs非目标)的对数损失:
Figure BDA00014538512600000511
对于位置回归损失函数Lreg,用以下函数定义:
Figure BDA0001453851260000056
其中,R是鲁棒的损失函数(smooth L1)。
Figure BDA0001453851260000057
根据RPN网络输出的I个感兴趣的建议框的图像特征,首先送入初次筛选层去除2/3背景框增大正样本比例,且能有效减少背景区域的产生;然后再将初次筛选过后的感兴趣的建议框的图像特征进行卷积和ReLU处理,得到I个含有4096维的特征图,接着分别送入分类层和窗口回归层进行处理;最后为了获取最大响应的区域感知语义特征,将得到的I个4096维特征图接入再次筛选网络,最后再次反选出最精确建议框的区域感知语义特征;
感兴趣区域坐标回归和识别模块:卷积神经网络训练是一个反向传播过程,与BP算法类似,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止;
该神经网络训练是一个反向传播过程,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止;
反向传播需要通过对带有标签的训练样本进行比较,采用平方误差代价函数,对于c个类别,N个训练样本的多类别进行识别,网络最终输出误差函数用公式(5)来计算误差,
Figure BDA0001453851260000058
式中,EN为平方误差代价函数,
Figure BDA0001453851260000059
为第n个样本对应标签的第k维,
Figure BDA00014538512600000510
为第n个样本对应网络预测的第k个输出;
对误差函数进行反向传播时,采用传统的BP算法类似的计算方法,如公式(6)所示,
Figure BDA0001453851260000061
式中,δl代表当前层的误差函数,δl+1代表上一层的误差函数,Wl+1为上一层映射矩阵,f'表示激活函数的反函数,即上采样,ul表示未通过激活函数的上一层的输出,xl-1表示下一层的输入,Wl为本层映射权值矩阵;
2)基于RPN网络对感兴趣区域二次筛选模型的快速视觉分割检测和定位,过程如下:
从视频或相机中获取的图像包含多个目标区域,利用概率层对RPN每个建议框坐标输出及得分输出先后经过非极大值抑制和阈值筛选得到最终坐标框及得分,最后再次经过再筛选网络选出最精确建议框的区域,通过对建议框的两次筛选保证对目标对象的准确检测及识别;
3)进行全图稀疏哈希码的粗检索,过程如下:
哈希方法的目标是将样本表示成一串固定长度的二进制编码,包括两个方面:1)对于共享相同语义概念的两个图像,二进制码之间的汉明距离应尽可能小,否则如果相应的图像来自不同的类,汉明距离应该更大,该特征意味着二进制码在汉明空间中具有辨别特性;2)哈希方法可以被视为一个黑盒子,其中输入通常是低级或中级特征,如GIST特征,黑盒子的输出是二进制代码,它在汉明空间中保持语义属性;这种二进制代码的固有属性可以被视为从特征表示的角度建立在低或中等特征的基础上的高级表示,并使其返回与查询图像更相关的语义;
针对深度卷积网络和哈希方法,提出粗检索处理过程如下:
首先假设目标数据集可分为c个类别标签,目标图像经过感兴趣区域的初次筛选网络可获取每个感兴趣区域的目标类别的概率向量p=(x1,x2,...,xc),xc∈(0,1),为促使稀疏编码模块的二进制输出利用分段函数对概率向量p进行二值化处理;如果目标图像I含有m个感兴趣区域,相应的就会产生m个p向量,融合之后得到P=(p1,p2,...,pm),全局概率矩阵P的维度为m×c,P送入二值化函数得到矩阵h,二值化过程如公式(7)所示;
Figure BDA0001453851260000062
其中i,j∈(m,c)。其次,为了加快图像检索的速度再次采用向量融合的方式,将矩阵h压缩至1×c维的矩阵H表示目标图像的全局特征。整个过程如公式(8)、公式(9)所示,首先将矩阵h转置与自身相乘后得到c×c维的过度矩阵h′,接着选取过度矩阵h′对角线元素作为最后目标图像I的全局特征二进制哈希码,即矩阵H;
Figure BDA0001453851260000071
H=diag(h′) (9)
稀疏哈希矩阵H是一个1×c维向量且Hi∈{0,1},i∈c,
Figure BDA0001453851260000072
表示矩阵(hTh)第i行,第j列;使用H对目标数据集进行粗检索,利用低维度向量可有效缩短检索时间改善检索精度。
通过深度自编码卷积神经网络,学习到图像的稀疏哈希矩阵和图像目标区域深层感知语义信息,基于上述观点,采用一种由粗到细的检索策略,最终实现图像检索***的快速搜索、准确返回;首先通过图像的稀疏哈希矩阵检索出一组属性相类似的图像,然后通过图像目标区域深层感知语义信息在粗检索出的一组图像中,有选择性检索出与目标图像最为相似的前k个图片
检索过程如下:对于给定的图像I,首先提取图像的输出Outj(H)稀疏哈希矩阵H
假设目标数据集由n个图像构成,可表示为Γ={I1,I2,…,In},则目标数据集的稀疏哈希码由ΓH={H1,H2,…,Hn},Hi∈{0,1}表示;进一步假设给定检索图像Iq和检索图像的稀疏哈希码Hq,使用余弦距离度量Hq与Hi∈ΓH之间相似度,将余弦值大于阈值TH图像放入候选池U中,
Figure BDA0001453851260000073
粗检索结果,作为候选图像用于后续精检索过程
4)基于最大响应的区域感知语义特征和矩阵h的精准比对检索;
所述的精检索,给定查询图像Iq和候选池U,使用从再次筛选网络和全连接层精选出来的区域感知语义特征来确定候选池U中图像前k个排名;每幅图像包含的建议框个数不定,可能含有一个或多个;若查询图像Iq包含m个建议框,从候选池U中随机选择一副图像In∈U包含了m′个建议框,如果使用暴力的检索方式对比所有建议框,则需要对比m×m′次,m×m′值越大对整个检索***运行速度的降低就越多,针对这个问题:为减少建议框的比对次数,提高程序的运行效率,以矩阵h作为衡量比较次数依据;查询图像Iq矩阵h表示为hq,一个m×c维向量,候选池中随机图像In的矩阵h矩阵为hn,则相应的对比次数如公式(10)所示:
Figure BDA0001453851260000074
结果num≤m×m′,通过公式(10)的建议框选择性比较大大减少了需要比对的次数及检索***运算时间,其中图像中建议框数量越多效果越明显,获取需要对比的建议框如公式(11)所示:
Figure BDA0001453851260000081
其中dis(·)表示修正余弦距离公式,表现形式如公式(12)所示:
Figure BDA0001453851260000082
查询图像和目标数据集中的任意一张图像的区域感知语义特征分别使用fq,fn表示,带人公式(11)得到对比建议框矩阵s,m×m′维。图像产生的建议框往往存在两大类:同类建议框和非同类建议框,所以选择比较的建议框也会存在两类比较结果,因此造成类内和类间建议框的个数的不同的检索差异,所以利用公式(13)可消除这些差异:以查询图像的建议框为基准,取图像Iq与In类内框的最大值,类间框的平均值,最后在图像Iq的类内再次取均值,通过运算最大程度上降低这些差异保证结果的准确性,并得到图像Iq与In的相似度sim;
首先需要更新矩阵s,取图像Iq与In类内框的最大值,更新公式如下:
Figure BDA0001453851260000083
在公式(13)中i,j∈(m,m′),选出矩阵s′中第i行最大值用
Figure BDA0001453851260000084
表示。最后利用公式(14),取图像Iq与In类间框的平均值并在Iq类内平均,最后得到整张图片的相似度,sim获取公式如下:
Figure BDA0001453851260000085
公式(14)中i,j∈(m,m′),字符
Figure BDA0001453851260000086
表示查询图片的矩阵的第i行,第j列,s′j表示矩阵s′的第j列,相似度计算公式计算结果sim值越大图像相似度越高,对于候选池U中每个候选图片
Figure BDA0001453851260000087
的排名从sim的最大值开始排列,这样就确定了前k个图片的排名。
进一步,所述方法还包括:步骤5)搜索图像精度的评价,这里使用一个以排名为基础的标准来进行评价;对于给定一个搜索图像Iq和一个相似性度量,对每个数据集图像进行一个排名;这里用评估前k个排名图像来表示一个搜索图像Iq的检索精度,用公式(15)表示;
Figure BDA0001453851260000088
式中,Rel(i)表示搜索图像Iq与第i个排名图像之间的真实相关,k表示排名图像的个数,Precision@k搜索精度;在计算真实相关时,只考虑有分类标签的部分,Rel(i)∈{0,1},如果搜索图像与第i个排名图像都具有相同的标签设置Rel(i)=1,否则设置Rel(i)=0,遍历候选池P中前k个排名图像就能得到搜索精度。
下面简单归纳总结一下基于深度自编码卷积神经网络的多任务分层图像检索方法的整体图像检索流程图:1)将图像送入深度自编码卷积神经网络,在特征图上进行逻辑回归,对查询图像上的感兴趣区域进行位置、类别的分割、预测;2)使用深度自编码卷积神经网络提取图像的稀疏哈希矩阵和感兴趣区域的感知语义特征;3)使用稀疏哈希矩阵对数据库中图像进行粗检索,得到类似属性的候选图像放入候选池U;4)在粗检索的基础上,即候选池U进一步有选择性地对建议框使用修正余弦距离进行比较并排序,得到排名前k的图像。
本发明的有益效果主要表现在:
1)提供了一种基于深度自编码卷积神经网络的多任务分层图像检索方法;
2)利用深度卷积神经网络强大的特征表征能力实现特征自适应提取;
3)采用分层深度搜索的图像检索方法能满足大规模图像数据的搜索需求;
4)本设计兼顾了通用性和专用性,在通用性方面,检索速度、精度和实用性等方面满足各类用户的需求;专用性方面用户根据自己的特定需求,做一个专用数据集并对网络参数进行微调后,实现一种面向特定应用的以图搜图的***。
附图说明
图1为本发明工作流程图。
图2为共享网络示意图。
图3为RPN网络展开图。
图4为基于RPN网络对感兴趣区域二次筛选模型的快速视觉分割检测和定位流程图。
图5为粗检索流程示意图。
图6为一种基于深度自编码卷积神经网络的多任务分层图像检索方法整体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参照图1~图6,一种基于深度自编码卷积神经网络的多任务分层图像检索方法,如图6所示,输入的检索图像首先经过卷积神经网络的共享模块,再送入感兴趣模块筛选出图像中粗略感兴趣区域的位置,然后送入基于感兴趣模块对感兴趣区域二次筛选模型的快速视觉分割检测和定位得到图像中目标精确的位置,通过深度学习的方法便可获取图像的全图稀疏哈希码进行粗检索、获取图像最大响应的区域感知语义特征和矩阵h的精准比对检索。
用深度学习的方法进行图像检索,是从图像中通过图像在共享网络模块和感兴趣区域初次筛选模块中进行逻辑回归得到粗略的目标候选区域,这一步的完成质量对***性能的速度有着直接的影响,通过初步筛选获得目标大致区减小第二阶段筛选的计算复杂度,为了保证识别***的可靠性和适应性;本发明包括以下步骤:
1)构建深度学习和训练识别的多任务端到端卷积神经网络;
卷积神经网络共分为三个模块组成:共享卷积模块、感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块,这些模块由卷积层、激活层和下采样层交替构成的深度卷积神经网络;输入图像在网络中进行逻辑回归、层层映射,得到各层对于图像不同的表现形式,实现感兴趣区域的深度表示;
共享卷积模块:共享网络由5个卷积模块组成,其中conv2_x到conv5_x的最深层分别为{42,82,162,162}作为特征图的输出尺寸,conv1作为输入层只含有单层卷积层,如图2所示,这种深度结构能够有效减少计算时间并建立空间结构上的不变性。输入图像在网络中进行层层映射,最终得到各层对于图像不同的表示形式,实现图像的深度表示,其中卷积核以及下采样的方式直接决定图像的映射方式,卷积神经网本质上是一种深度映射的网络结构,输入信号通过在网络中进行层层映射,不断进行分解和表示,最终形成关于对象目标的多层表达,其最主要特点就是不必再人为的选取和构建对象特征,而是通过机器自动学习,得到关于对象目标的深层表示;
感兴趣区域初次筛选模块:RPN网络将一个任意尺度图像作为输入,输出矩形目标建议框的集合,每个框包含4个位置坐标变量和一个得分。为了生成区域建议框,首先输入图像经过卷积共享层生成特征图,然后,在特征图上进行多尺度卷积操作,具体实现为:在每一个滑动窗口的位置使用3种尺度和3种长宽比,以当前滑动窗口中心为中心,并对应一种尺度和长宽比,则可以在原图上映射得到9种不同尺度的候选区域,如对于大小为w×h的共享卷积特征图,则总共有w×h×9个候选区域。最后,分类层输出w×h×9×2个候选区域的得分,即对每个区域是目标/非目标的估计概率,回归层输出w×h×9×4个参数,即候选区域的坐标参数,具体形式如图3所示。
训练RPN网络时,给每个候选区域分配一个二进制的标签,以此来标注该区域是不是目标。具体操作如下:1)与某个真正目标区域(Ground Truth,GT)有最高的IoU(Intersection-over-Union,交集并集之比)重叠的候选区域;2)与任意GT包围盒有大于0.7的IoU交叠的候选区域。分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域;3)介于两者之间的舍弃。
有了这些定义,遵循Faster RCNN中的多任务损失,最小化目标函数。对一个图像的损失函数定义为:
Figure BDA0001453851260000119
其中,i是第i个候选区域的索引,
Figure BDA0001453851260000112
是候选区域是第i类的概率。如果候选区域的标签为正,
Figure BDA0001453851260000113
为1,如果候选区域标签为0,
Figure BDA0001453851260000114
就是0。ti是一个向量,表示预测的包围盒的4个参数化坐标,
Figure BDA0001453851260000115
是对应的GT包围盒的坐标向量。Ncls和Nreg分别为分类损失函数与位置回归损失函数的归一化系数,λ为两者之间的权重参数。分类损失函数Lcls是两个类别(目标vs非目标)的对数损失:
Figure BDA00014538512600001110
对于位置回归损失函数Lreg,用以下函数定义:
Figure BDA0001453851260000117
其中,R是鲁棒的损失函数(smooth L1)。
Figure BDA0001453851260000118
根据RPN网络输出的I个感兴趣的建议框的图像特征,首先送入初次筛选层去除2/3背景框增大正样本比例,且能有效减少背景区域的产生;然后再将初次筛选过后的感兴趣的建议框的图像特征进行卷积和ReLU处理,得到I个含有4096维的特征图,接着分别送入分类层和窗口回归层进行处理;最后为了获取最大响应的区域感知语义特征,将得到的I个4096维特征图接入再次筛选网络,最后再次反选出最精确建议框的区域感知语义特征。
感兴趣区域坐标回归和识别模块:卷积神经网络训练是一个反向传播过程,与BP算法类似,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止。
该神经网络训练是一个反向传播过程,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止;
反向传播需要通过对带有标签的训练样本进行比较,采用平方误差代价函数,对于c个类别,N个训练样本的多类别进行识别,网络最终输出误差函数用公式(5)来计算误差,
Figure BDA0001453851260000121
式中,EN为平方误差代价函数,
Figure BDA0001453851260000122
为第n个样本对应标签的第k维,
Figure BDA0001453851260000123
为第n个样本对应网络预测的第k个输出;
对误差函数进行反向传播时,采用传统的BP算法类似的计算方法,如公式(6)所示,
Figure BDA0001453851260000124
式中,δl代表当前层的误差函数,δl+1代表上一层的误差函数,Wl+1为上一层映射矩阵,f'表示激活函数的反函数,即上采样,ul表示未通过激活函数的上一层的输出,xl-1表示下一层的输入,Wl为本层映射权值矩阵;
2)通过感兴趣区域初次筛选模块得到的粗略目标送入感兴趣区域二次筛选模型的快速视觉分割检测和定位。如图4所示,利用概率层对RPN每个建议框坐标输出及得分输出先后经过非极大值抑制和阈值筛选得到最终坐标框及得分,最后再次经过再筛选网络选出最精确建议框的区域,通过对建议框的两次筛选保证对目标对象的准确检测及识别,可获取图像的全局稀疏哈希码和图像中建议框语义信息;通过端到端的微调,将图像的全局信息高度概括在稀疏哈希码中,并使用此低维特征快速对数据库中图像进行粗检索,是一种有效地减少计算量的方法;之后使用全连接层和初次筛选网络的输出连接二次筛选网络,提取出图像中感兴趣区域中响应最大的建议框,利用高层语义特征在粗检索的结果中有选择性地对比进一步减少检索***运行的时间;
3)通过深度自编码卷积神经网络,学习到图像的稀疏哈希矩阵和图像目标区域深层感知语义信息,基于上述观点,本发明采用一种由粗到细的检索策略,最终实现图像检索***的快速搜索、准确返回;首先通过图像的稀疏哈希矩阵检索出一组属性相类似的图像,然后通过图像目标区域深层感知语义信息在粗检索出的一组图像中,有选择性检索出与目标图像最为相似的前k个图片。
首先假设目标数据集可分为c个类别标签,目标图像经过感兴趣区域的初次筛选网络可获取每个感兴趣区域的目标类别的概率向量p=(x1,x2,...,xc),xc∈(0,1),为促使稀疏编码模块的二进制输出利用分段函数对概率向量p进行二值化处理,整体过程如图2所示。如果目标图像I含有m个感兴趣区域,相应的就会产生m个p向量,融合之后得到P=(p1,p2,...,pm),全局概率矩阵P的维度为m×c,P送入二值化函数得到矩阵h,二值化过程如公式(7)所示;
Figure BDA0001453851260000125
其中i,j∈(m,c)。其次,为了加快图像检索的速度再次采用向量融合的方式,将矩阵h压缩至1×c维的矩阵H表示目标图像的全局特征。整个过程如公式(8)、公式(9)所示,首先将矩阵h转置与自身相乘后得到c×c维的过度矩阵h′,接着选取过度矩阵h′对角线元素作为最后目标图像I的全局特征二进制哈希码,即矩阵H。
Figure BDA0001453851260000131
H=diag(h′) (9)
稀疏哈希矩阵H是一个1×c维向量且Hi∈{0,1},i∈c,
Figure BDA0001453851260000132
表示矩阵(hTh)第i行,第j列;使用H对目标数据集进行粗检索,利用低维度向量可有效缩短检索时间改善检索精度。
粗检索处理流程如图5所示,检索过程如下:对于给定的图像I,首先提取图像的输出Outj(H)稀疏哈希矩阵H。
假设目标数据集由n个图像构成,可表示为Γ={I1,I2,…,In},则目标数据集的稀疏哈希码由ΓH={H1,H2,…,Hn},Hi∈{0,1}表示;进一步假设给定检索图像Iq和检索图像的稀疏哈希码Hq,使用余弦距离度量Hq与Hi∈ΓH之间相似度,将余弦值大于阈值TH图像放入候选池U中,
Figure BDA0001453851260000133
粗检索结果,作为候选图像用于后续精检索过程。
4)基于最大响应的区域感知语义特征和矩阵h的精准比对检索。
所述的精检索,给定查询图像Iq和候选池U,使用从再次筛选网络和全连接层精选出来的区域感知语义特征来确定候选池U中图像前k个排名;每幅图像包含的建议框个数不定,可能含有一个或多个。若查询图像Iq包含m个建议框,从候选池U中随机选择一副图像In∈U包含了m′个建议框,如果使用暴力的检索方式对比所有建议框,则需要对比m×m′次,m×m′值越大对整个检索***运行速度的降低就越多,针对这个问题:为减少建议框的比对次数,提高程序的运行效率,以矩阵h作为衡量比较次数依据;查询图像Iq矩阵h表示为hq,一个m×c维向量,候选池中随机图像In的矩阵h矩阵为hn,则相应的对比次数如公式(10)所示:
Figure BDA0001453851260000134
结果num≤m×m′,通过公式(10)的建议框选择性比较大大减少了需要比对的次数及检索***运算时间,其中图像中建议框数量越多效果越明显,获取需要对比的建议框如公式(11)所示:
Figure BDA0001453851260000141
其中dis(·)表示修正余弦距离公式,具体表现形式如公式(12)所示:
Figure BDA0001453851260000142
查询图像和目标数据集中的任意一张图像的区域感知语义特征分别使用fq,fn表示,带人公式(11)得到对比建议框矩阵s,m×m′维。图像产生的建议框往往存在两大类:同类建议框和非同类建议框,所以选择比较的建议框也会存在两类比较结果,因此造成类内和类间建议框的个数的不同的检索差异,所以利用公式(13)可消除这些差异:以查询图像的建议框为基准,取图像Iq与In类内框的最大值,类间框的平均值,最后在图像Iq的类内再次取均值,通过运算最大程度上降低这些差异保证结果的准确性,并得到图像Iq与In的相似度sim。
首先需要更新矩阵s,取图像Iq与In类内框的最大值,更新公式如下:
Figure BDA0001453851260000143
在公式(13)中i,j∈(m,m′),选出矩阵s′中第i行最大值用
Figure BDA0001453851260000144
表示。最后利用公式(14),取图像Iq与In类间框的平均值并在Iq类内平均,最后得到整张图片的相似度,sim获取公式如下:
Figure BDA0001453851260000145
公式(14)中i,j∈(m,m′),字符
Figure BDA0001453851260000146
表示查询图片的矩阵的第i行,第j列,s′j表示矩阵s′的第j列,相似度计算公式计算结果sim值越大图像相似度越高,对于候选池U中每个候选图片
Figure BDA0001453851260000147
的排名从sim的最大值开始排列,这样就确定了前k个图片的排名。
进一步,所述方法还包括:步骤5)搜索图像精度的评价,这里使用一个以排名为基础的标准来进行评价;对于给定一个搜索图像Iq和一个相似性度量,对每个数据集图像进行一个排名;这里用评估前k个排名图像来表示一个搜索图像Iq的检索精度,用公式(15)表示;
Figure BDA0001453851260000148
式中,Rel(i)表示搜索图像Iq与第i个排名图像之间的真实相关,k表示排名图像的个数,Precision@k搜索精度;在计算真实相关时,只考虑有分类标签的部分,Rel(i)∈{0,1},如果搜索图像与第i个排名图像都具有相同的标签设置Rel(i)=1,否则设置Rel(i)=0,遍历候选池P中前k个排名图像就能得到搜索精度。
下面简单归纳总结一下基于深度自编码卷积神经网络的多任务分层图像检索方法的整体图像检索流程图:1)将图像送入深度自编码卷积神经网络,在特征图上进行逻辑回归,对查询图像上的感兴趣区域进行位置、类别的分割、预测;2)使用深度自编码卷积神经网络提取图像的稀疏哈希矩阵和感兴趣区域的感知语义特征;3)使用稀疏哈希矩阵对数据库中图像进行粗检索,得到类似属性的候选图像放入候选池U;4)在粗检索的基础上,即候选池U进一步有选择性地对建议框使用修正余弦距离进行比较并排序,得到排名前k的图像。
以上所述仅为本发明的较佳实施举例,并不用于限制本发明,凡在本发明精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:所述方法包括以下步骤:
1)构建用于深度学习和训练识别的多任务端到端卷积神经网络;所述的卷积神经网络,共要分为三个模块组成:共享卷积模块、感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块,所述共享卷积模块、感兴趣区域二次筛选模块、感兴趣区域坐标回归和识别模块均由卷积层、激活层和下采样层交替构成;输入图像在网络中进行逻辑回归、层层映射,得到各层对于图像不同的表现形式,实现感兴趣区域的深度表示;
2)基于RPN网络对感兴趣区域二次筛选模型进行快速视觉分割检测和定位,采用以RPN网络为基础添加初次和再次筛选网络,对RPN产生的初始建议框进行评分和多重过滤,根据得分的高低和最大响应区域的过滤确定最后感兴趣区域;
3)进行全图稀疏哈希码的粗检索,通过对初次筛选网络,首先RPN产生的建议框的属性概率向量进行二值化编码,然后通过向量融合方式对二维向量进行扁平化成一维向量得到全图的稀疏哈希码;最后通过余弦距离对这种紧凑的二进制编码向量进行快速图像对比;
哈希方法的目标是将样本表示成一串固定长度的二进制编码,包括两个方面:1)对于共享相同语义概念的两个图像,二进制码之间的汉明距离应尽可能小,否则如果相应的图像来自不同的类,汉明距离应该更大,该特征意味着二进制码在汉明空间中具有辨别特性;2)哈希方法视为一个黑盒子,其中输入低级或中级特征,所述输入低级或中级特征为GIST特征,黑盒子的输出是二进制代码,它在汉明空间中保持语义属性;这种二进制代码的固有属性可以被视为从特征表示的角度建立在低或中等特征的基础上的高级表示,并使其返回与查询图像更相关的语义;
深度哈希算法的处理过程为;首先假设目标数据集可分为c个类别标签,目标图像经过感兴趣区域的初次筛选网络获取每个感兴趣区域的目标类别的概率向量p=(x1,x2,...,xc),xc∈(0,1),为促使稀疏编码模块的二进制输出利用分段函数对概率向量p进行二值化处理;如果目标图像I含有m个感兴趣区域,相应的就会产生m个p向量,融合之后得到P=(p1,p2,...,pm),全局概率矩阵P的维度为m×c,P送入二值化函数得到矩阵h,二值化过程如公式(7)所示:
Figure FDA0002525490190000021
其中i,j∈(m,c),其次,为了加快图像检索的速度再次采用向量融合的方式,将矩阵h压缩至1×c维的矩阵H表示目标图像的全局特征;整个过程如公式(8)、公式(9)所示,首先将矩阵h转置与自身相乘后得到c×c维的过度矩阵h′,接着选取过度矩阵h′对角线元素作为最后目标图像I的全局特征二进制哈希码,即矩阵H;
Figure FDA0002525490190000022
H=diag(h′) (9)
稀疏哈希矩阵H是一个1×c维向量且Hi∈{0,1},i∈c,
Figure FDA0002525490190000023
表示矩阵(hTh)第i行,第j列;使用H对目标数据集进行粗检索,利用低维度向量可有效缩短检索时间改善检索精度;
通过深度自编码卷积神经网络,学习到图像的稀疏哈希矩阵和图像目标区域深层感知语义信息,基于上述观点,采用一种由粗到细的检索策略,最终实现图像检索***的快速搜索、准确返回;首先通过图像的稀疏哈希矩阵检索出一组属性相类似的图像,然后通过图像目标区域深层感知语义信息在粗检索出的一组图像中,有选择性检索出与目标图像最为相似的前k个图片;
检索过程如下:对于给定的图像I,首先提取图像的输出Outj(H)稀疏哈希矩阵H;
假设目标数据集由n个图像构成,表示为Γ={I1,I2,…,In},则目标数据集的稀疏哈希码由ΓH={H1,H2,…,Hn},Hi∈{0,1}表示;进一步假设给定检索图像Iq和检索图像的稀疏哈希码Hq,使用余弦距离度量Hq与Hi∈ΓH之间相似度,将余弦值大于阈值TH图像放入候选池U中,
Figure FDA0002525490190000024
Figure FDA0002525490190000025
粗检索结果,作为候选图像用于后续精检索过程;
4)基于最大响应的区域感知语义特征和矩阵h的精准比对检索,通过再次筛选网络,对初次筛选网络结果和全连接层最大响应提取建议框的高层语义信息,结合在快速对比方法中得到的返回图像使用修正余弦距离进行有选择性的比较、排序,前k个图像最为最后返回结果。
2.如权利要求1所述的基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:所述步骤1)中,共享卷积模块:共享网络由5个卷积模块组成,其中conv2_x到conv5_x的最深层分别为{42,82,162,162}作为特征图的输出尺寸,conv1作为输入层只含有单层卷积层;
感兴趣区域坐标回归和识别模块:RPN网络将一个任意尺度图像作为输入,输出矩形目标建议框的集合,每个框包含4个位置坐标变量和一个得分;为了生成区域建议框,首先输入图像经过卷积共享层生成特征图,然后,在特征图上进行多尺度卷积操作,实现为:在每一个滑动窗口的位置使用3种尺度和3种长宽比,以当前滑动窗口中心为中心,并对应一种尺度和长宽比,则可以在原图上映射得到9种不同尺度的候选区域,如对于大小为w×h的共享卷积特征图,则总共有w×h×9个候选区域;最后,分类层输出w×h×9×2个候选区域的得分,即对每个区域是目标/非目标的估计概率,回归层输出w×h×9×4个参数,即候选区域的坐标参数;
训练RPN网络时,给每个候选区域分配一个二进制的标签,以此来标注该区域是不是目标,操作如下:1)与某个真正目标区域(Ground Truth,GT)有最高的IoU(Intersection-over-Union,交集并集之比)重叠的候选区域;2)与任意GT包围盒有大于0.7的IoU交叠的候选区域,分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域;3)介于两者之间的舍弃;
有了这些定义,遵循Faster RCNN中的多任务损失,最小化目标函数,对一个图像的损失函数定义为:
Figure FDA0002525490190000031
其中,i是第i个候选区域的索引,
Figure FDA0002525490190000032
是候选区域是第i类的概率;如果候选区域的标签为正,
Figure FDA0002525490190000033
为1,如果候选区域标签为0,
Figure FDA0002525490190000034
就是0;ti是一个向量,表示预测的包围盒的4个参数化坐标,
Figure FDA0002525490190000035
是对应的GT包围盒的坐标向量,Ncls和Nreg分别为分类损失函数与位置回归损失函数的归一化系数,λ为两者之间的权重参数,分类损失函数Lcls是两个类别的对数损失,两个类别为目标和非目标:
Figure FDA0002525490190000036
对于位置回归损失函数Lreg,用以下函数定义:
Figure FDA0002525490190000037
其中,R是鲁棒的损失函数smoothL1
Figure FDA0002525490190000038
感兴趣区域二次筛选模块:根据RPN网络输出的I个感兴趣的建议框的图像特征,首先送入初次筛选层去除2/3背景框增大正样本比例,且能有效减少背景区域的产生;然后再将初次筛选过后的感兴趣的建议框的图像特征进行卷积和ReLU处理,得到I个含有4096维的特征图,接着分别送入分类层和窗口回归层进行处理;最后为了获取最大响应的区域感知语义特征,将得到的I个4096维特征图接入再次筛选网络,最后再次反选出最精确建议框的区域感知语义特征;
卷积神经网络训练是一个反向传播过程,通过误差函数反向传播,利用随机梯度下降法对卷积参数和偏置进行优化调整,直到网络收敛或者达到最大迭代次数停止;
反向传播需要通过对带有标签的训练样本进行比较,采用平方误差代价函数,对于c个类别,N个训练样本的多类别进行识别,网络最终输出误差函数用公式(5)来计算误差,
Figure FDA0002525490190000041
式中,EN为平方误差代价函数,
Figure FDA0002525490190000042
为第n个样本对应标签的第k维,
Figure FDA0002525490190000043
为第n个样本对应网络预测的第k个输出;
对误差函数进行反向传播时,采用传统的BP算法类似的计算方法,如公式(6)所示,
δl=(Wl+1)Tδl+1×f′(ul) (ul=Wlxl-1+bl) (6)
式中,δl代表当前层的误差函数,δl+1代表上一层的误差函数,Wl+1为上一层映射矩阵,f'表示激活函数的反函数,即上采样,ul表示未通过激活函数的上一层的输出,xl-1表示下一层的输入,Wl为本层映射权值矩阵。
3.如权利要求1或2所述的基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:所述步骤2)中,从视频或相机中获取的图像包含多个目标区域,利用概率层对RPN每个建议框坐标输出及得分输出先后经过非极大值抑制和阈值筛选得到最终坐标框及得分,最后再次经过再筛选网络选出最精确建议框的区域,通过对建议框的两次筛选保证对目标对象的准确检测及识别。
4.如权利要求1所述的基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:给定查询图像Iq和候选池U,使用从再次筛选网络和全连接层精选出来的区域感知语义特征来确定候选池U中图像前k个排名;每幅图像包含的建议框个数不定,可能含有一个或多个;若查询图像Iq包含m个建议框,从候选池U中随机选择一副图像In∈U包含了m′个建议框,如果使用暴力的检索方式对比所有建议框,则需要对比m×m′次,m×m′值越大对整个检索***运行速度的降低就越多,针对这个问题:为减少建议框的比对次数,提高程序的运行效率,以矩阵h作为衡量比较次数依据;查询图像Iq矩阵h表示为hq,一个m×c维向量,候选池中随机图像In的矩阵h矩阵为hn,则相应的对比次数如公式(10)所示:
Figure FDA0002525490190000051
结果num≤m×m′,通过公式(10)的建议框选择性比较大大减少了需要比对的次数及检索***运算时间,其中图像中建议框数量越多效果越明显,获取需要对比的建议框如公式(11)所示:
Figure FDA0002525490190000052
其中dis(·)表示修正余弦距离公式,表现形式如公式(12)所示:
Figure FDA0002525490190000053
查询图像和目标数据集中的任意一张图像的区域感知语义特征分别使用fq,fn表示,带入公式(11)得到对比建议框矩阵s,m×m′维,图像产生的建议框往往存在两大类:同类建议框和非同类建议框,所以选择比较的建议框也会存在两类比较结果,因此造成类内和类间建议框的个数的不同的检索差异,所以利用公式(13)可消除这些差异:以查询图像的建议框为基准,取图像Iq与In类内框的最大值,类间框的平均值,最后在图像Iq的类内再次取均值,通过运算最大程度上降低这些差异保证结果的准确性,并得到图像Iq与In的相似度sim;
首先需要更新矩阵s,取图像Iq与In类内框的最大值,更新公式如下:
Figure FDA0002525490190000054
在公式(13)中i,j∈(m,m′),选出矩阵s′中第i行最大值用
Figure FDA0002525490190000058
表示,最后利用公式(14),取图像Iq与In类间框的平均值并在Iq类内平均,最后得到整张图片的相似度,sim获取公式如下:
Figure FDA0002525490190000055
公式(14)中i,j∈(m,m′),字符
Figure FDA0002525490190000056
表示查询图片的矩阵的第i行,第j列,s′j表示矩阵s′的第j列,相似度计算公式计算结果sim值越大图像相似度越高,对于候选池U中每个候选图片
Figure FDA0002525490190000057
的排名从sim的最大值开始排列,这样就确定了前k个图片的排名。
5.如权利要求4所述的基于深度自编码卷积神经网络的多任务分层图像检索方法,其特征在于:所述方法还包括:步骤5)搜索图像精度的评价,这里使用一个以排名为基础的标准来进行评价;对于给定一个搜索图像Iq和一个相似性度量,对每个数据集图像进行一个排名;这里用评估前k个排名图像来表示一个搜索图像Iq的检索精度,用公式(15)表示;
Figure FDA0002525490190000061
式中,Rel(i)表示搜索图像Iq与第i个排名图像之间的真实相关,k表示排名图像的个数,Precision@k搜索精度;在计算真实相关时,只考虑有分类标签的部分,Rel(i)∈{0,1},如果搜索图像与第i个排名图像都具有相同的标签设置Rel(i)=1,否则设置Rel(i)=0,遍历候选池P中前k个排名图像就能得到搜索精度。
CN201711057490.9A 2017-11-01 2017-11-01 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 Active CN107679250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711057490.9A CN107679250B (zh) 2017-11-01 2017-11-01 一种基于深度自编码卷积神经网络的多任务分层图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711057490.9A CN107679250B (zh) 2017-11-01 2017-11-01 一种基于深度自编码卷积神经网络的多任务分层图像检索方法

Publications (2)

Publication Number Publication Date
CN107679250A CN107679250A (zh) 2018-02-09
CN107679250B true CN107679250B (zh) 2020-12-01

Family

ID=61144118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711057490.9A Active CN107679250B (zh) 2017-11-01 2017-11-01 一种基于深度自编码卷积神经网络的多任务分层图像检索方法

Country Status (1)

Country Link
CN (1) CN107679250B (zh)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536019A (zh) 2017-09-27 2021-10-22 深圳市商汤科技有限公司 一种图像检索方法、装置及计算机可读存储介质
CN108428238B (zh) * 2018-03-02 2022-02-15 南开大学 一种基于深度网络的多类型任务通用的检测方法
CN108520268B (zh) * 2018-03-09 2021-05-18 浙江工业大学 基于样本选择和模型进化的黑盒对抗性攻击防御方法
CN108363998A (zh) * 2018-03-21 2018-08-03 北京迈格威科技有限公司 一种对象的检测方法、装置、***和电子设备
CN109740585A (zh) * 2018-03-28 2019-05-10 北京字节跳动网络技术有限公司 一种文本定位方法及装置
CN108898047B (zh) * 2018-04-27 2021-03-19 中国科学院自动化研究所 基于分块遮挡感知的行人检测方法及***
CN108733801B (zh) * 2018-05-17 2020-06-09 武汉大学 一种面向数字人文的移动视觉检索方法
CN110532833A (zh) * 2018-05-23 2019-12-03 北京国双科技有限公司 一种视频分析方法及装置
CN108804581B (zh) * 2018-05-24 2022-05-17 广州数据盒子科技有限公司 一种基于深度学习的同类物体检索方法及***
CN108829763B (zh) * 2018-05-28 2021-09-07 电子科技大学 一种基于深度神经网络的影评网站用户的属性预测方法
CN108846345B (zh) * 2018-06-06 2021-09-17 安徽大学 一种监控场景中的运动目标尺度估计方法
CN108897791B (zh) * 2018-06-11 2021-09-03 云南师范大学 一种基于深度卷积特征和语义相似度量的图像检索方法
CN108829826B (zh) * 2018-06-14 2020-08-07 清华大学深圳研究生院 一种基于深度学习和语义分割的图像检索方法
CN110674331A (zh) 2018-06-15 2020-01-10 华为技术有限公司 信息处理方法、相关设备及计算机存储介质
CN108984642B (zh) * 2018-06-22 2021-07-27 西安工程大学 一种基于哈希编码的印花织物图像检索方法
CN109063112B (zh) * 2018-07-30 2022-04-01 成都快眼科技有限公司 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
CN108920720B (zh) * 2018-07-30 2021-09-07 电子科技大学 基于深度哈希和gpu加速的大规模图像检索方法
CN109145798B (zh) * 2018-08-13 2021-10-22 浙江零跑科技股份有限公司 一种驾驶场景目标识别与可行驶区域分割集成方法
CN109131843B (zh) * 2018-08-22 2022-04-26 王桥生 长时视觉追踪主动分离式起落架
CN109271949A (zh) * 2018-09-28 2019-01-25 中国科学院长春光学精密机械与物理研究所 多谱段图像数据提取方法、装置、设备及可读存储介质
CN109409246B (zh) * 2018-09-30 2020-11-27 中国地质大学(武汉) 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法
CN109683871B (zh) * 2018-11-01 2022-04-12 中山大学 基于图像目标检测的代码自动生成装置及方法
CN109447169B (zh) * 2018-11-02 2020-10-27 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子***
CN110084777A (zh) * 2018-11-05 2019-08-02 哈尔滨理工大学 一种基于深度学习的微小零件定位跟踪方法
CN109711245B (zh) * 2018-11-05 2023-04-18 广东工业大学 一种基于图像候选区域的闭环检测方法
CN114502061B (zh) * 2018-12-04 2024-05-28 巴黎欧莱雅 使用深度学习的基于图像的自动皮肤诊断
CN109766469B (zh) * 2018-12-14 2020-12-01 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN109871749B (zh) * 2019-01-02 2021-07-16 上海高重信息科技有限公司 一种基于深度哈希的行人重识别方法和装置、计算机***
CN109933682B (zh) * 2019-01-11 2022-01-04 上海交通大学 一种基于语义与内容信息结合的图像哈希检索方法及***
CN109800716A (zh) * 2019-01-22 2019-05-24 华中科技大学 一种基于特征金字塔的海面遥感图像船舶检测方法
CN110021425B (zh) * 2019-01-31 2022-12-09 湖南品信生物工程有限公司 一种比较检测器及其构建方法与***细胞检测方法
CN109977960B (zh) * 2019-04-03 2020-02-28 杭州深数科技有限公司 基于神经网络的木料堆信息获取方法、***、装置
CN110135428B (zh) * 2019-04-11 2021-06-04 北京航空航天大学 图像分割处理方法和装置
CN110032975B (zh) * 2019-04-15 2021-09-07 禁核试北京国家数据中心 一种地震震相的拾取方法
CN110070124A (zh) * 2019-04-15 2019-07-30 广州小鹏汽车科技有限公司 一种基于生成式对抗网络的图像扩增方法及***
CN111831844A (zh) 2019-04-17 2020-10-27 京东方科技集团股份有限公司 图像检索方法、图像检索装置、图像检索设备及介质
CN110189394B (zh) * 2019-05-14 2020-12-29 北京字节跳动网络技术有限公司 口型生成方法、装置及电子设备
CN110222592B (zh) * 2019-05-16 2023-01-17 西安特种设备检验检测院 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法
CN110210462A (zh) * 2019-07-02 2019-09-06 北京工业大学 一种基于卷积神经网络的仿生海马认知地图构建方法
CN110765331B (zh) * 2019-07-08 2024-03-26 中国人民解放军战略支援部队信息工程大学 一种时空数据的检索方法及***
CN112214627A (zh) * 2019-07-12 2021-01-12 上海赜睿信息科技有限公司 搜索方法、可读存储介质和电子设备
CN110502898B (zh) * 2019-07-31 2022-07-05 达闼机器人股份有限公司 审计智能合约的方法、***、装置、存储介质和电子设备
CN110427509A (zh) * 2019-08-05 2019-11-08 山东浪潮人工智能研究院有限公司 一种基于深度学习的多尺度特征融合图像哈希检索方法及***
CN110503046A (zh) * 2019-08-26 2019-11-26 华北电力大学(保定) 一种基于图像识别技术的铅封识别法
CN110807452A (zh) * 2019-10-11 2020-02-18 上海上湖信息技术有限公司 预测模型构建方法、装置、***及银行卡***识别方法
CN110853053A (zh) * 2019-10-25 2020-02-28 天津大学 一种以多候选对象为语义知识的显著对象检测方法
CN110837818A (zh) * 2019-11-18 2020-02-25 汕头大学 一种基于卷积神经网路的中华白海豚背鳍识别方法
CN110929794B (zh) * 2019-11-28 2022-12-13 哈尔滨工程大学 一种基于多任务学习的侧扫声呐图像分类方法
CN111127416A (zh) * 2019-12-19 2020-05-08 武汉珈鹰智能科技有限公司 基于计算机视觉的混凝土结构表面缺陷自动检测方法
CN110766011B (zh) * 2019-12-26 2020-04-28 南京智莲森信息技术有限公司 一种基于深度多级优化的接触网螺母异常识别方法
US11023730B1 (en) * 2020-01-02 2021-06-01 International Business Machines Corporation Fine-grained visual recognition in mobile augmented reality
CN111275041B (zh) * 2020-01-20 2022-12-13 腾讯科技(深圳)有限公司 内窥镜图像展示方法、装置、计算机设备及存储介质
CN111325712B (zh) * 2020-01-20 2024-01-23 北京百度网讯科技有限公司 用于检测图像有效性的方法及装置
CN111310439B (zh) * 2020-02-20 2023-06-27 齐鲁工业大学 一种基于深度特征变维机制的智能语义匹配方法和装置
CN111368662B (zh) * 2020-02-25 2023-03-21 华南理工大学 一种人脸图像属性编辑方法、装置、存储介质及设备
CN111460200B (zh) * 2020-03-04 2023-07-04 西北大学 基于多任务深度学习的图像检索方法、模型及其构建方法
CN111507941B (zh) * 2020-03-24 2023-06-02 杭州电子科技大学 一种用于美学质量评价的构图表征学习方法
CN111611999B (zh) * 2020-05-22 2023-04-07 福建师范大学 一种融合小型深度生成模型的显著性检测方法及终端
CN111695507B (zh) * 2020-06-12 2022-08-16 桂林电子科技大学 一种基于改进VGGNet网络和PCA的静态手势识别方法
CN111737500A (zh) * 2020-06-22 2020-10-02 广东小天才科技有限公司 电子页面的检索方法及装置、学习设备、可读存储介质
CN111984816B (zh) * 2020-07-21 2024-05-28 西安理工大学 基于l2归一化的烟包随机码图像检索方法
CN112084886B (zh) * 2020-08-18 2022-03-15 眸芯科技(上海)有限公司 提升检测神经网络目标检测性能的方法及装置
CN112006649A (zh) * 2020-08-25 2020-12-01 张寅升 一种基于神经网络和自适应形态学约束的黄斑检测方法
CN112232289A (zh) * 2020-11-06 2021-01-15 珠海大横琴科技发展有限公司 一种船只检索方法、装置、电子设备及存储介质
CN112488231A (zh) * 2020-12-11 2021-03-12 北京工业大学 一种具有平衡相似性的余弦度量监督深度哈希算法
CN112650869B (zh) * 2020-12-23 2022-12-06 科大讯飞股份有限公司 图像检索重排序方法、装置、电子设备及存储介质
CN113032612B (zh) * 2021-03-12 2023-04-11 西北大学 一种多目标图像检索模型的构建方法及检索方法和装置
CN113011359B (zh) * 2021-03-26 2023-10-24 浙江大学 一种基于图像的同时检测平面结构和生成平面描述的方法及应用
CN113076962B (zh) * 2021-05-14 2022-10-21 电子科技大学 一种基于可微神经网络搜索技术的多尺度目标检测方法
CN113377981B (zh) * 2021-06-29 2022-05-27 山东建筑大学 基于多任务深度哈希学习的大规模物流商品图像检索方法
CN113744203A (zh) * 2021-08-13 2021-12-03 澳门科技大学 基于多任务辅助的上消化道病变区域确定方法及装置
CN113505860B (zh) * 2021-09-07 2021-12-31 天津所托瑞安汽车科技有限公司 盲区检测训练集的筛选方法、装置、服务器及存储介质
CN113807516B (zh) * 2021-09-13 2024-05-14 新长城科技有限公司 神经网络模型的训练方法及图像检索方法
CN114048344A (zh) * 2021-11-25 2022-02-15 天翼数字生活科技有限公司 一种相似人脸搜索方法、装置、设备和可读存储介质
CN115791817B (zh) * 2023-02-06 2023-04-28 泸州老窖股份有限公司 一种透明酒瓶质量检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227851A (zh) * 2016-07-29 2016-12-14 汤平 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106339591A (zh) * 2016-08-25 2017-01-18 汤平 一种基于深度卷积神经网络的预防乳腺癌自助健康云服务***
CN106372571A (zh) * 2016-08-18 2017-02-01 宁波傲视智绘光电科技有限公司 路面交通标志检测与识别方法
CN106951911A (zh) * 2017-02-13 2017-07-14 北京飞搜科技有限公司 一种快速的多标签图片检索***及实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10809895B2 (en) * 2016-03-11 2020-10-20 Fuji Xerox Co., Ltd. Capturing documents from screens for archival, search, annotation, and sharing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106227851A (zh) * 2016-07-29 2016-12-14 汤平 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法
CN106372571A (zh) * 2016-08-18 2017-02-01 宁波傲视智绘光电科技有限公司 路面交通标志检测与识别方法
CN106339591A (zh) * 2016-08-25 2017-01-18 汤平 一种基于深度卷积神经网络的预防乳腺癌自助健康云服务***
CN106951911A (zh) * 2017-02-13 2017-07-14 北京飞搜科技有限公司 一种快速的多标签图片检索***及实现方法

Also Published As

Publication number Publication date
CN107679250A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108108657B (zh) 基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN107885764B (zh) 基于多任务深度学习快速哈希车辆检索方法
Chaudhuri et al. Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method
CN110717534B (zh) 一种基于网络监督的目标分类和定位方法
CN106682233B (zh) 一种基于深度学习与局部特征融合的哈希图像检索方法
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN108595636A (zh) 基于深度跨模态相关性学习的手绘草图的图像检索方法
Zheng et al. Differential Learning: A Powerful Tool for Interactive Content-Based Image Retrieval.
CN108491430A (zh) 一种基于对特征方向进行聚类的无监督哈希检索方法
Bouchakwa et al. A review on visual content-based and users’ tags-based image annotation: methods and techniques
Naiemi et al. Scene text detection using enhanced extremal region and convolutional neural network
Guo Research on sports video retrieval algorithm based on semantic feature extraction
CN117312594A (zh) 一种融合双尺度特征的草图化机械零件库检索方法
JP4302799B2 (ja) 文書検索装置、方法および記録媒体
Wei et al. Salient object detection based on weighted hypergraph and random walk
Amuthavalli et al. Notice of Violation of IEEE Publication Principles: Sketch Based Image Retrieval System Using ExHoG
Mumar Image retrieval using SURF features
CN112364193A (zh) 面向图像检索的融合多层特征深度神经网络模型方法
CN109919162A (zh) 用于输出mr图像特征点描述向量符的模型及其建立方法
Kiruthika et al. A Comparative Study Of Image Retrieval Techniques
CN117725243B (zh) 一种基于层级语义区域分解的类无关实例检索方法
Elhady et al. Weighted feature voting technique for content-based image retrieval
Nayef et al. Efficient symbol retrieval by building a symbol index from a collection of line drawings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant