CN107515895B - 一种基于目标检测的视觉目标检索方法与*** - Google Patents
一种基于目标检测的视觉目标检索方法与*** Download PDFInfo
- Publication number
- CN107515895B CN107515895B CN201710574741.4A CN201710574741A CN107515895B CN 107515895 B CN107515895 B CN 107515895B CN 201710574741 A CN201710574741 A CN 201710574741A CN 107515895 B CN107515895 B CN 107515895B
- Authority
- CN
- China
- Prior art keywords
- picture
- target detection
- target
- detection model
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于目标检测的视觉目标检索方法和***,包括:采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对初步目标检测模型进行微调,生成最终目标检测模型;通过最终目标检测模型对待检索图片中的视觉目标进行特征提取,生成待检索图片的多个卷积特征图,通过空间注意力矩阵将卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与聚合特征向量相匹配的图片。本发明通过将视觉目标检索与检测相关联,避免了候选窗口预测步骤,并通过选择性累加特征图得到注意力矩阵,将卷积层的局部描述子带权聚合成一个全局特征表达用于视觉目标检索,提高了检索速度和精度。
Description
技术领域
本发明涉及多媒体内容分析领域,特别涉及一种基于目标检测的视觉目标检索方法与***。
背景技术
视觉目标检索为图像检索的一种,它在商品搜索、目标识别、目标跟踪等领域得到广泛的应用。区别于基于内容的近似图像检索,视觉目标检索要检索的不是与查询图像相似的图像,而是与查询图像具有同一视觉目标的图像。如图1左侧内容所示,这一视觉目标只占据图像的一小部分(白框内为目标),并且包含该目标的查询图像与图1右侧库中图像在拍摄角度、光照、形状和大小等方面存在很大的差异。研究视觉目标检索具有重要的意义,同时也具有极大的挑战性。
传统的目标检索方法通过提取图像的局部特征如SIFT、SURF等进行特征匹配,并辅以几何关系验证,在该任务上展现出了良好的鲁棒性。但由于局部特征提取和空间关系验证非常耗时,对于实时性要求高的场合难以适用。近年来,基于深度学习的目标检索技术备受关注,这些技术按照是否需要针对目标任务重新学习可分为两大类:一、利用在大规模分类数据集(如ImageNet)上预训练好的模型直接提取现成的特征进行检索,该类技术侧重于如何利用已有的网络模型提取出适用于检索的特征,避免了面向检索的训练数据集缺乏的问题,但是预训练的模型往往是通过训练面向分类的神经网络(如AlexNet、VGGNet、GoogleNet、ResNet等)而获得的,不是面向检索的网络模型,因而其检索结果很难再进一步提高。二、利用目标相关的数据集对网络进行微调。该类方法利用排序损失(Rank Loss)和对比损失(Contrastive Loss)等面向检索的损失函数端到端学习针对检索的特征。针对目标任务再次学习的方法整体上比利用现成网络模型直接提特征的方法要好,但是其结果往往严重依赖于微调的数据集与目标数据集的视觉相似度。也就是说,如果组织其他辅助数据集学习,则存在域迁移的问题。直接利用目标数据集的查询图片微调可以避免这个问题,但是查询图片的数量极其有限,难以直接用于训练深层网络。
随着目标检测的快速发展,其在检测准确度、速度等方面都取得了惊人的进步。目标检测能够获得图像目标层次的信息,也就是说能够从图像中找到要检索的目标。因此最近文献成功使用目标检测网络Faster R-CNN(Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems.2015:91-99.)的卷积层特征进行视觉目标检索,并取得了良好的检索效果,但是文献侧重于利用FasterR-CNN的RPN部分预测的候选窗口做空间重排序(Spatial Re-ranking)。其采用的策略是利用多个候选区域内的特征进行穷举匹配,然后找相似度最高的两个候选区域的相似度得分作为两张图像的最终相似度得分,该过程可以看做是查询图像预测的多个目标与库中图像预测的多个目标的一一匹配,非常耗时,平均查询一张图片花费将近2.5分钟,实用性较差。此外,文献通过采用RPN产生的候选区域来代替R-MAC中的滑动窗口,在清洗过的Landmark数据集上端到端学习一个全局特征表达,从而取得了目前视觉目标检索的最好的结果,但是其把每一个候选窗口特征同等看待,而实际上只有一个或者少数几个窗口真正包含有待检索的目标,因此会引入很多噪声,此外由于其学习的数据集主要包含地标,仅在地标检索上取得了好结果,在其他数据集上的结果不得而知,以上两种方法都是把预测的候选窗口内的特征看作是图像局部块的描述子来进行特征匹配,神经网络产生候选窗口这一步实际上是比较耗时的,而且候选窗口是矩形,与物体的实际形状存在差异。
因此已有的借助于目标检测技术来解决目标检索的方法中存在以下问题:一、利用候选窗口穷举匹配的时间复杂度高(图3所示);二、各个候选窗口同等权重考虑容易引起噪声干扰(图4所示);三、矩形的候选区域与物体的实际形状不符,如图2A与图2B所示,包含两个不同但很相近的建筑。
发明内容
为了解决上述技术问题,本发明目的在于提供一种基于检测与投票的注意力机制用于图像检索。具体地说,本发明公开了一种基于目标检测的视觉目标检索方法,其中包括:
目标检测模型训练步骤,采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合步骤,输入待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片。
该基于目标检测的视觉目标检索方法,其中该交叉熵损失函数为:该交叉熵损失函数对应的梯度为:式中为标准Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,I为指示函数,当条件满足时值为1,否则为0,Sj是与第j个类别数目相关的IDF权重系数,θ为需要学习的网络参数。
该基于目标检测的视觉目标检索方法,其中该聚合特征向量为:F={f1,f2,f3,...,fK},其中F为该聚合特征向量,W、H和K分别为该最终目标检测模型中最后一个卷积层的宽、高和通道数,m为卷积特征图,α为空间注意力矩阵,i、j分别是特征图内某个数值的索引。
该基于目标检测的视觉目标检索方法,其中
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
本发明还提出了一种基于目标检测的视觉目标检索***,其中包括:
目标检测模型训练模块,用于运行IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合模块,用于接收待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片。
该基于目标检测的视觉目标检索***,其中该交叉熵损失函数为:该交叉熵损失函数对应的梯度为:式中为标准Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,I为指示函数,当条件满足时值为1,否则为0,Sj是与第j个类别数目相关的IDF权重系数,θ为需要学习的网络参数。
该基于目标检测的视觉目标检索***,其中该聚合特征向量为:F={f1,f2,f3,...,fK},其中F为该聚合特征向量,W、H和K分别为该最终目标检测模型中最后一个卷积层的宽、高和通道数,m为卷积特征图,α为空间注意力矩阵,i、j分别是特征图内某个数值的索引。
该基于目标检测的视觉目标检索***,其中
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
本发明通过将视觉目标检索与检测相关联,避开了目标检测中的候选窗口预测这一步骤,直接利用检测网络的卷积特征图上呈现出来的对目标实例的良好空间分布信息,并进一步通过选择性累加特征图的机制得到空间分布的注意力矩阵,将卷积层的局部描述子带权聚合成一个全局特征表达用于视觉目标检索,相比于之前的利用目标检测网络做检索的工作加快了检索速度,提高了检索的平均精度(mAP)。
附图说明
图1为视觉目标检索示意图;
图2A、图2B为近似图像检索结果图;
图3为基于候选窗口穷举的特征匹配方式示意图;
图4为基于所有窗口特征同等权重聚合的特征匹配方式示意图;
图5为本发明基于检测与投票的注意力机制的特征匹配方式示意图;
图6为本发明基于检测与投票的注意力机制用于图像检索的整体框架图;
图7为本发明实验数据中PASCAL VOC07数据集目标检测结果表格图;
图8为本发明实验数据中Oxford5K数据集检索结果表格图;
图9为本发明在公共数据集上的检索结果与现有检索方法的比较表格图。
具体实施方式
针对以上问题,本发明提出一种基于检测与投票的注意力机制用于图像检索(图5所示),并下文特举实施例,并配合说明书附图作详细说明如下。本发明属于基于深度学习的以图搜图技术。本发明整的技术框架如图6所示,图6中下半部分对应离线网络训练阶段,为Faster R-CNN的框架图,其通过IDF(inverse document frequency)带权的交叉熵损失函数训练得到一个目标检测模型,即下文中的最终目标检测模型;图6中上半部分对应在线特征提取阶段,为利用该最终目标检测模型提取待检索图片的卷积层的特征向量,并通过注意力系数带权将该特征向量聚合成全局特征用于目标检索。其中该待检索图片数目为多个,在本发明中对每张待检索图像进行处理得到一个聚合特征向量,通过该聚合特征向量可以把注意力集中到待检索的视觉目标上,将图像之间的相似度匹配转化为特征向量间的相似性度量。相应地,本发明采用注意力机制主要考虑到以下两方面:一、针对目标检测训练好的最终目标检测模型在其卷积层特征图上会呈现良好的空间分布信息,也就是说用于检测的最终目标检测模型能够成功的关注到目标实例区域,从而该区域对应的局部描述子的响应会更强。二、通过选择性累加多张卷积特征图可以进一步选择出最突出的视觉目标区域,使得目标区域的局部描述子在聚合的时候具有更大的权重。下面主要从离线目标检测网络训练和在线卷积特征聚合两个阶段对本发明进行详细介绍。
1、离线目标检测网络训练,即目标检测模型训练,采用两阶段训练策略,在公共(通用)的目标检测数据集上采用Faster R-CNN算法,训练得到一个初步目标检测模型,然后利用包含多个目标查询图片的检索数据集对该初步目标检测模型进行微调(fine-tune),该微调属于深度专有名词,指当目标数据集规模太小,直接利用目标数据集训练网络难以收敛时,可以利用一个更大的辅助数据集将网络训练收敛到一定程度,然后利用目标数据对网络进行微小的调节,使网络能够感知目标数据的特点。微调后生成最终目标检测模型,以使网络学习到待检索的目标实例信息,其中该目标查询图片是指包含有待检索目标的图片,例如:查找某个建筑,那么该目标查询图片需包含要查找的该建筑,这样***可以学习到需要查找图片中的哪个目标,但不局限于带检索图片,重要的是图片中的某个目标。其中该微调技术上与前面所述的初步目标检测模型训练一样,只是在一些超参数的选取上不同,例如减少训练的迭代次数,减小初始的学习率等,此外因为公共目标检测数据集如PASCVOC中定义的感兴趣的目标(如人、车、狗和植物等)与检索数据集中感兴趣的目标可能存在差异,例如Oxford Buildings数据集感兴趣的为地标建筑,特别是,当检索的目标与前面检测的目标出现在同一张图像中时(例如人站在建筑前,建筑旁边有植物),会给检索带来很大的干扰。为了增强通用网络的泛化性能,在训练的时候,本发明通过引入一个IDF权重形式的交叉熵(cross entropy)损失函数指导该最终目标检测模型的训练,在本实例中即为指导Faster R-CNN中的VGG16层的网络进行训练,该损失函数在训练初始目标检测模型时使用。该损失函数如下:
对应的梯度为:
公式(1)(2)中,为标准的Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,Sj表示第j个类别的IDF权重系数。I为指示函数,当条件满足时值为1,否则为0,θ指需要学习的全部网络参数。Sj是新引入的与每个类别数目相关的IDF权重系数,其具体形式为:
其中Sj表示第j个类别的IDF权重系数,ci表示训练样本中属于第i个类别的视觉目标的数目,ε为一个很小的常数,用于防止分母为0。该IDF权重系数的意义为当某个类别的样本数目比较多时,会给该类别分配较小的权重,相反,当某个类别的数目比较少时,会给其分配比较大的权重。这种训练样本分布信息将由损失函数传递给误差梯度,作用到整个网络的学***滑下降,学到的网络模型泛化性更好。
2、特征提取与聚合。本部分重点介绍如何利用上一阶段得到的最终目标检测模型提取待检索图片的特征向量,并将该特征向量聚合成一个全局图像表达用于检索。在本实施例中上一阶段得到的最终目标检测模型属于FasterR-CNN模型,因此本阶段承接上一阶段继续使用FasterR-CNN模型提取特征向量。需要注意的是目标检测模型包含区域提取网络和分类网络,分类网络有很多选择,本发明实施例中采用的分类网络为VGG16网络。特征向量聚合是本发明的关键点,下面对其进行详细介绍。
2.1选择性累加
一种基于检测和投票的注意力机制,其中投票是通过选择性累加特征图的方式体现的。该机制使得图像中目标区域所对应的局部特征的响应更强,并且对应的权重也更大,目标区域的特征在整张图像的特征中占主导地位,能够显著提高视觉目标检索的速度与平均准确率(meanaverageprecision,mAP)。
设F={f1,f2,f3,...,fK},F为聚合后的k维的聚合特征向量,其中fk可以根据下式计算得到:
其中W、H和K分别为最终目标检测模型最后一个卷积层的宽、高和通道数。m为卷积的特征图,即未使用本发明做后处理(根据注意力矩阵加权)的特征图,i、j分别是特征图内某个数值的索引,mijk表示第k个特征图内的第i行第j列的元素。α为空间注意力矩阵,注意力矩阵中的元素称为注意力系数,α通过选择性累加特征图的方式得到:
这里t是一个稀疏度阈值超参数,根据以往实验数据t一般取0.6,超参数是指需要人为设定的参数,与算法中需要优化的参数进行区分。βk代表第k个特征图的稀疏度,这里本发明采用先统计每张特征图上非0元素所占的百分比:然后采用如下IDF形式计算出稀疏度:
这里ε为一个很小的常数,用于防止分母为0,使其计算稳定,在接下来的实施例中为了计算方便将其设为0。根据公式(6),特征图越稀疏,则其稀疏度β值越大。在公式(5)算完得到α矩阵之后,α将进一步采用L2归一化进行数据平滑。
公式(5)中,本发明抛弃稀疏度大的特征图而选择稀疏度较小的特征图进行累加,是因为太稀疏的特征图往往只包含少数几个孤立的响应点,这些点很大概率是噪声引起,所以本发明将其对应的特征图抛弃掉。
2.2 Hellinger距离
本发明采用基于选择性累加和Hellinger距离的深度卷积特征聚合方式。通过多个特征图投票的方式得到特征分布的注意力矩阵,特征聚合的时候,可以起到进一步强化目标区域特征的作用。具体包括,如果将公式(4)得到的特征向量F直接采用欧氏距离进行相似性度量,会有一个问题。因为在注意力矩阵中,视觉突出部分的值会很大,那么原来稠密的特征图矩阵加权求和后得到的值相对而言会比较大。进行距离度量时,整个特征向量的欧氏距离将偏向于维度明显大的值,容易引起偏差。本发明采用Hellinger距离进行度量。Hellinger距离由Hellinger核引出,用于度量两个概率分布的相似度。
根据(7)可知,在实际计算过程中,依然可以使用欧氏距离,只是在计算时,先将特征向量进行L1归一化,然后开根号即可,也就是说,本发明进一步将公式(4)进行如下转变:
由上式得到的特征经过L2归一化,PCA白化处理,已及再次L2归一化后用于最终的图像检索。
实验结果展示。如图7所示oLoss与wLoss分别表示使用原Faster R-CNN的损失函数与本发明提出的IDF权重损失函数直接训练。*_Ft表示利用FasterR-CNN公布的模型微调。从图7中可以看出不管是直接训练还是微调,本发明的IDF权重形式的损失函数都优于原来的损失函数。
如图8所示Oxford5K数据集检索结果。(w/o)表示不使用查询扩展。CLS表示仅使用分类的损失函数训练的模型,oDET和wDET分别表示使用原来的损失函数训练与使用IDF权重损失训练得到的模型。CroW是文献(Kalantidis Y,Mellina C,Osindero S.Cross-dimensional weighting for aggregated deep convolutional features[C]//EuropeanConference on Computer Vision.Springer International Publishing,2016:685-701.)提出的特征聚合方式,RSSP是本发明提出的聚合方式。图表中的第1行与第2行,第3行与第4行,第5行与第6行的结果对比充分说明了本发明提出的RSSP特征聚合的有效性。表中第1行与3行,第2行与第3行对比说明了使用目标检测的注意力机制的有效性。表中最后一行说明了基于检测和投票的注意力机制具有互补性,二者相得益彰,取得最佳结果。
如图9所示的DVA#2表示使用Flickr100K数据集训练PCA。本发明提出的检索方法(DVA)与目前最好的结果对比。在不使用查询扩展的情况下,本发明的方法在所有数据集上都取得了最好结果。使用查询扩展的情况下,本发明的方法在Oxford5k上依然领先最好的结果,在其他数据集上DIR展现了良好的性能,主要是因为DIR使用的排序损失,因此排在前面的样本更有效。此外,DIR训练过程复杂,而且需要专门组织与目标数据集相似的数据训练。
以下为与上述方法实施例对应的***实施例,本实施***可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施***中依然有效,为了减少重复,这里不再赘述。相应地,本实施***中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于目标检测的视觉目标检索***,其中包括:
目标检测模型训练模块,用于运行IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合模块,用于接收待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片。
该基于目标检测的视觉目标检索***,其中该交叉熵损失函数为:该交叉熵损失函数对应的梯度为:式中为标准Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,I为指示函数,当条件满足时值为1,否则为0,Sj是与第j个类别数目相关的IDF权重系数,θ为需要学习的网络参数。
该基于目标检测的视觉目标检索***,其中该聚合特征向量为:F={f1,f2,f3,...,fK},其中F为该聚合特征向量,W、H和K分别为该最终目标检测模型中最后一个卷积层的宽、高和通道数,m为卷积特征图,α为空间注意力矩阵,i、j分别是特征图内某个数值的索引。
该基于目标检测的视觉目标检索***,其中
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。
Claims (8)
1.一种基于目标检测的视觉目标检索方法,其特征在于,包括:
目标检测模型训练步骤,采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合步骤,输入待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片;
4.如权利要求1所述的基于目标检测的视觉目标检索方法,其特征在于,
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
5.一种基于目标检测的视觉目标检索***,其特征在于,包括:
目标检测模型训练模块,用于运行IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合模块,用于接收待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片;
8.如权利要求5所述的基于目标检测的视觉目标检索***,其特征在于,
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710574741.4A CN107515895B (zh) | 2017-07-14 | 2017-07-14 | 一种基于目标检测的视觉目标检索方法与*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710574741.4A CN107515895B (zh) | 2017-07-14 | 2017-07-14 | 一种基于目标检测的视觉目标检索方法与*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107515895A CN107515895A (zh) | 2017-12-26 |
CN107515895B true CN107515895B (zh) | 2020-06-05 |
Family
ID=60721794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710574741.4A Active CN107515895B (zh) | 2017-07-14 | 2017-07-14 | 一种基于目标检测的视觉目标检索方法与*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107515895B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447048B (zh) * | 2018-02-23 | 2021-09-14 | 天津大学 | 基于关注层的卷积神经网络图像特征处理方法 |
EP3766002A4 (en) * | 2018-03-22 | 2021-05-26 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | PROCESS AND SYSTEM FOR RECOVERING VIDEO TIME SEGMENTS |
CN108556795A (zh) * | 2018-04-08 | 2018-09-21 | 广州大学 | 一种车辆智能电控设备集成控制方法及*** |
CN109033950B (zh) * | 2018-06-12 | 2020-07-17 | 浙江工业大学 | 基于多特征融合级联深度模型的车辆违停检测方法 |
CN110751163B (zh) * | 2018-07-24 | 2023-05-26 | 杭州海康威视数字技术股份有限公司 | 目标定位方法及其装置、计算机可读存储介质和电子设备 |
CN109035233B (zh) * | 2018-07-24 | 2021-09-21 | 西安邮电大学 | 视觉注意力网络***及工件表面缺陷检测方法 |
CN109300114A (zh) * | 2018-08-30 | 2019-02-01 | 西南交通大学 | 高铁接触网支撑装置极小目标零部件顶紧缺失检测方法 |
CN109460483B (zh) * | 2018-09-26 | 2021-05-04 | 北京理工大学 | 一种基于深度注意力机制的图片新闻封面自动选择方法 |
CN111127509B (zh) * | 2018-10-31 | 2023-09-01 | 杭州海康威视数字技术股份有限公司 | 目标跟踪方法、装置和计算机可读存储介质 |
CN109635926B (zh) * | 2018-11-30 | 2021-11-05 | 深圳市商汤科技有限公司 | 用于神经网络的注意力特征获取方法、装置及存储介质 |
CN109829427B (zh) * | 2019-01-31 | 2022-05-17 | 福州大学 | 一种基于纯度检测和空间注意力网络的人脸聚类方法 |
CN109816039B (zh) * | 2019-01-31 | 2021-04-20 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN109948700B (zh) * | 2019-03-19 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 用于生成特征图的方法和装置 |
CN110321451B (zh) * | 2019-04-25 | 2022-08-05 | 吉林大学 | 基于分布熵增益损失函数的图像检索算法 |
CN110334226B (zh) * | 2019-04-25 | 2022-04-05 | 吉林大学 | 融合特征分布熵的深度图像检索方法 |
CN110580525B (zh) * | 2019-06-03 | 2021-05-11 | 北京邮电大学 | 适用于资源受限的设备的神经网络压缩方法及*** |
CN110347854B (zh) * | 2019-06-13 | 2022-02-22 | 西安理工大学 | 基于目标定位的图像检索方法 |
CN110598037B (zh) * | 2019-09-23 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种图像搜索方法、装置和存储介质 |
CN110765291A (zh) * | 2019-10-28 | 2020-02-07 | 广东三维家信息科技有限公司 | 检索方法、装置及电子设备 |
CN111553372B (zh) * | 2020-04-24 | 2023-08-08 | 北京搜狗科技发展有限公司 | 一种训练图像识别网络、图像识别搜索的方法及相关装置 |
CN111340509B (zh) * | 2020-05-22 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种虚假交易识别方法、装置及电子设备 |
CN111814726B (zh) * | 2020-07-20 | 2023-09-22 | 南京工程学院 | 一种探测机器人视觉目标检测方法 |
CN111914110A (zh) * | 2020-07-29 | 2020-11-10 | 厦门大学 | 一种基于深度激活显著区域的实例检索方法 |
CN112036511B (zh) * | 2020-09-30 | 2024-04-30 | 上海美迪索科电子科技有限公司 | 基于注意力机制图卷积神经网络的图像检索方法 |
CN113177546A (zh) * | 2021-04-30 | 2021-07-27 | 中国科学技术大学 | 一种基于稀疏注意力模块的目标检测方法 |
CN113901250B (zh) * | 2021-10-09 | 2023-07-21 | 南京航空航天大学 | 一种基于显著性注意力的美容产品检索方法 |
CN115222896B (zh) * | 2022-09-20 | 2023-05-23 | 荣耀终端有限公司 | 三维重建方法、装置、电子设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8311334B2 (en) * | 2008-10-31 | 2012-11-13 | Ntt Docomo, Inc. | Complexity regularized pattern representation, search, and compression |
CN104794534A (zh) * | 2015-04-16 | 2015-07-22 | 国网山东省电力公司临沂供电公司 | 一种基于改进深度学习模型的电网安全态势预测方法 |
CN105243154A (zh) * | 2015-10-27 | 2016-01-13 | 武汉大学 | 基于显著点特征和稀疏自编码的遥感图像检索方法及*** |
CN105844627A (zh) * | 2016-03-21 | 2016-08-10 | 华中科技大学 | 一种基于卷积神经网络的海面目标图像背景抑制方法 |
CN106844524A (zh) * | 2016-12-29 | 2017-06-13 | 北京工业大学 | 一种基于深度学习和Radon变换的医学图像检索方法 |
-
2017
- 2017-07-14 CN CN201710574741.4A patent/CN107515895B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8311334B2 (en) * | 2008-10-31 | 2012-11-13 | Ntt Docomo, Inc. | Complexity regularized pattern representation, search, and compression |
CN104794534A (zh) * | 2015-04-16 | 2015-07-22 | 国网山东省电力公司临沂供电公司 | 一种基于改进深度学习模型的电网安全态势预测方法 |
CN105243154A (zh) * | 2015-10-27 | 2016-01-13 | 武汉大学 | 基于显著点特征和稀疏自编码的遥感图像检索方法及*** |
CN105844627A (zh) * | 2016-03-21 | 2016-08-10 | 华中科技大学 | 一种基于卷积神经网络的海面目标图像背景抑制方法 |
CN106844524A (zh) * | 2016-12-29 | 2017-06-13 | 北京工业大学 | 一种基于深度学习和Radon变换的医学图像检索方法 |
Non-Patent Citations (1)
Title |
---|
移动视觉搜索综述;贾佳 等;《计算机辅助设计与图形学学报》;20170615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107515895A (zh) | 2017-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与*** | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN107679250B (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
CN111967294B (zh) | 一种无监督域自适应的行人重识别方法 | |
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
CN107368807B (zh) | 一种基于视觉词袋模型的监控视频车型分类方法 | |
CN108280187B (zh) | 一种基于卷积神经网络深度特征的分级图像检索方法 | |
CN104239898B (zh) | 一种快速卡口车辆比对和车型识别方法 | |
CN111126360A (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN102693299B (zh) | 一种并行视频拷贝检测***和方法 | |
CN110188225B (zh) | 一种基于排序学习和多元损失的图像检索方法 | |
CN110942091B (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN110097060B (zh) | 一种面向树干图像的开集识别方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN102663447B (zh) | 基于判别相关分析的跨媒体检索方法 | |
CN112101430A (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN108897791B (zh) | 一种基于深度卷积特征和语义相似度量的图像检索方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN112800249A (zh) | 基于生成对抗网络的细粒度跨媒体检索方法 | |
CN109871379B (zh) | 一种基于数据块学习的在线哈希最近邻查询方法 | |
CN108763295A (zh) | 一种基于深度学习的视频近似拷贝检索算法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |