CN106951911A - 一种快速的多标签图片检索***及实现方法 - Google Patents

一种快速的多标签图片检索***及实现方法 Download PDF

Info

Publication number
CN106951911A
CN106951911A CN201710076634.9A CN201710076634A CN106951911A CN 106951911 A CN106951911 A CN 106951911A CN 201710076634 A CN201710076634 A CN 201710076634A CN 106951911 A CN106951911 A CN 106951911A
Authority
CN
China
Prior art keywords
picture
convolutional neural
neural networks
represented
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710076634.9A
Other languages
English (en)
Other versions
CN106951911B (zh
Inventor
胡焜
白洪亮
董远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU FEISOU TECHNOLOGY Co.,Ltd.
Original Assignee
Beijing Faceall Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Faceall Co filed Critical Beijing Faceall Co
Priority to CN201710076634.9A priority Critical patent/CN106951911B/zh
Publication of CN106951911A publication Critical patent/CN106951911A/zh
Application granted granted Critical
Publication of CN106951911B publication Critical patent/CN106951911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种快速的多标签图片检索***及实现方法,方法包括:在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,与数据库中的哈希码对比后,完成图片检索。本发明通过分类与哈希的多任务学习来训练整个网络,从而有效地保证检索的准确性。同时在检索过程中使用汉明距离来度量相似度,大大提升了检索的效率。

Description

一种快速的多标签图片检索***及实现方法
技术领域
本发明涉及神经卷积网络和图像处理领域,特别涉及一种快速的多标签图片检索***及实现方法。
背景技术
现如今对于多标签图片检索***而言,为了提升检索的速度,很多方法都利用哈希方法来对特征二值化,并用汉明距离来度量相似度。在哈希方法方面,主要分为两种:非监督式的和监督式的。
非监督式的方法,例如LSH,通过随机的映射或者随机排列来构成哈希函数,并且不依赖空间中的数据点,这种方法往往需要较长的哈希码才能获得比较好的性能。
监督式的方法,即是通过学习的方法从训练集中学习得到哈希函数,利用了训练集中的标注信息,但是目前的方法大多数单任务的学习,即只利用成对的标注信息。例如DPSH方法是通过一个卷积神经网络结构来学习特征并同时学习哈希函数,在最后一层后面接入一个sigmoid激活层来将特征归一化到0-1,再加入pairwise损失函数来监督学习整个网络的参数。很多类似于DPSH的方法都是只利用到了成对的标签信息,即训练时输入一堆图片及其是否相似的标注信息并且输入的是整张图片。而实际上,对于多标签数据集而言,图片通常包含多个目标以及丰富的多标签信息。
所以,如何在提高检索效率的同时减少存储空间,是现在有待解决的技术问题。
发明内容
本发明要解决的技术问题是,提供减小检索***中特征存储空间、同时提升检索效率的快速的多标签图片检索方法。
解决上述技术问题,本发明提供了一种快速的多标签图片检索的方法,包括如下步骤:
在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
本发明结合候选区域的信息提取图片中特定区域的特征,并利用到图片的多标签信息,在训练时进行多任务学习来促进哈希函数的学习,提升特征的表达能力。
更进一步,建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
2-1)根据多标签信息得到标签的总个数为C,
2-2)连接一个通道数为C的全连接层后得到一个N*C矩阵,
2-3)在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,...,YN表示每个候选区域对应的特征向量,再进行如下计算其中yj表示第j类标签对应的特征值,
2-4)经过下面的公式得到一个概率分布p=(p1,p2,...,pC):
2-5)通过下述的多标签分类损失函数来训练卷积神经网络:
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
更进一步,同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
3-1)设一全连接层的通道数为B,得到一个N*B矩阵,
3-2)在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
3-3)在H中,用Hi表示第i个proposals对应的特征,
3-4)在P中,用表示第i个proposals属于第j个标签的概率,
3-5)通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
其中,表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积可以得到一个c*b维的向量:
3-6)经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
3-7)用下面的损失函数来训练网络:
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
更进一步,方法还包括:根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
更进一步,上述每张图片由一个48bit的短向量表示。
基于上述本发明还提供了一种快速的多标签图片检索***,包括:神经网络训练单元和检索单元,
所述神经网络训练单元,用以在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
所述检索单元,用以通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
更进一步,所述数据库包括一检索候选集,用以存放每一张图片的哈希码。
更进一步,***还包括相似度比较单元,用以根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
更进一步,所述神经网络训练单元在建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
根据多标签信息得到标签的总个数为C,
连接一个通道数为C的全连接层后得到一个N*C矩阵,
在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,...,YN表示每个候选区域对应的特征向量,再进行如下计算其中yj表示第j类标签对应的特征值,
经过下面的公式得到一个概率分布p=(p1,p2,...,pC):
通过下述的多标签分类损失函数来训练卷积神经网络:
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
更进一步,所述神经网络训练单元同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
设一全连接层的通道数为B,得到一个N*B矩阵,
在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H
表示所述N*B矩阵,用P表示所述N*C矩阵;
在H中,用Hi表示第i个proposals对应的特征,
在P中,用表示第i个proposals属于第j个标签的概率,
通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示
对应特定标签的b维特征向量,具体计算如下公式所示:
其中,表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积可以得到一个c*b维的向量:
经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
用下面的损失函数来训练网络:
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
在测试过程中,通过对特征的量化,每张图片由一个48bit的短向量表示,用汉明距离来度量图片之间的相似性,提升检索效率以及减少特征存储空间。
本发明的有益效果:
本发明主要是基于多标签数据集的,结合数据的多便签信息,引入候选区域信息,通过分类与哈希的多任务学习,来训练整个网络,从而有效地保证检索的准确性,同时通过对特征的二值化使得最后特征占用的存储空间很小,并且在检索过程中使用汉明距离来度量相似度,大大提升了检索的效率。
此外本发明还具备如下的优点:由于卷积神经网络中结合了多标签信息以及候选区域信息,使得检索准确率高。由于特征提取只需要在卷积神经网络中进行单次的前馈计算,使得检索速度快。由于哈希函数二值特征并且长度短,使得检索***所占用存储空间小。此外,最后哈希码的长度很短,相似度计算很快,所以检索效率得到了有效提高。
附图说明
图1是本发明一实施例中的方法流程示意图;
图2是本发明一实施例中的***结构示意图;
图3是本发明中的多任务学习训练框架示意图;
图4是本发明中一实施例中的***原理图。
具体实施方式
现在将参考一些示例实施例描述本公开的原理。可以理解,这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述,而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。
如本文中所述,术语“包括”及其各种变体可以被理解为开放式术语,其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。
在本实施例中的名词的含义如下:
RPN网络,RPN网络的核心思想是使用卷积神经网络直接产生region proposal,使用的方法本质上就是滑动窗口。RPN网络即表示候选区域生成网络。
ROI Pooling为ROI池化,ROI,region of ineterst,特定目标的区域。
卷积特征图包括但不限于,卷积神经网络中卷积层输出的一系列特征。
候选区域包括但不限于,图片中可能包含特定目标的区域。
多标签包括但不限于,图片中同时包含多个标注信息。
图1是本发明一实施例中的方法流程示意图,本实施例中的一种快速的多标签图片检索的方法,包括如下步骤:
步骤S100在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
步骤S101池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
步骤S102通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
步骤S103若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
作为本实施例中的优选,在所述步骤S101中建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
2-1)根据多标签信息得到标签的总个数为C,
2-2)连接一个通道数为C的全连接层后得到一个N*C矩阵,
2-3)在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,...,YN表示每个候选区域对应的特征向量,再进行如下计算其中yj表示第j类标签对应的特征值,
2-4)经过下面的公式得到一个概率分布p=(p1,p2,...,pC):
2-5)通过下述的多标签分类损失函数来训练卷积神经网络:
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
本实施例中的基础是一个卷积神经网络,并且假设已经训练好了RPN网络用于提取候选区域。假设经过RPN之后得到N个候选区域(proposals)之后,对于每个proposal,首先进行一个ROI pooling的计算,得到N*D矩阵,其中D表示中间层每个候选区域对应的特征维度,再经过一个全连接层用于特征的变换。
作为本实施例中的优选,在所述步骤S101中同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
3-1)设一全连接层的通道数为B,得到一个N*B矩阵,
3-2)在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
3-3)在H中,用Hi表示第i个proposals对应的特征,
3-4)在P中,用表示第i个proposals属于第j个标签的概率,
3-5)通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
其中,表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积可以得到一个c*b维的向量:
3-6)经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
3-7)用下面的损失函数来训练网络:
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
在一些实施例中,还需要在经过ROI Pooling以及一个全连接层之后,再接一个不同的全连接层到另外一个分支,用于哈希函数的学习。
在一些实施例中,方法还包括:根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
在一些实施例中,上述每张图片由一个48bit的短向量表示。
在本实施例中,是基于多标签数据集的、结合数据的多便签信息,再引入候选区域信息,然后通过分类与哈希的多任务学习,来训练整个卷积神经网络,从而有效地保证检索的准确性。同时,通过对特征的二值化(哈希值)使得最后特征占用的存储空间很小,并且在检索过程中使用汉明距离来度量相似度,大大提升了检索的效率。
请参考图3是本发明中的多任务学习训练框架示意图,具体来说,在训练过程中,首先利用数据集中的标注框的信息来训练RPN,用于提取候选区域框,而后固定前面层的参数不更新,随机初始化后面层的参数,通过
的损失函数来训练整个网络,经过一定的迭代次数后终止训练。
请参考图4是本发明中一实施例中的***原理图,用得到的网络来提取候选集中每一张图片的哈希码并存入数据库,对于每一张查询图片,首先经过网络的前馈计算提取其哈希码,再和数据库中的哈希码两两计算汉明距离,最后排序返回汉明距离更近的样本,即达到了检索的目的。
请参考图2是本发明一实施例中的***结构示意图,一种快速的多标签图片检索***,包括:神经网络训练单元1和检索单元2,
所述神经网络训练单元1,用以在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
所述检索单元2,用以通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
作为本实施例中的优选,所述数据库包括一检索候选集,用以存放每一张图片的哈希码。
作为本实施例中的优选,***中还包括相似度比较单元,用以根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
作为本实施例中的优选,所述神经网络训练单元1在建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
根据多标签信息得到标签的总个数为C,
连接一个通道数为C的全连接层后得到一个N*C矩阵,
在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,...,YN表示每个候选区域对应的特征向量,再进行如下计算其中yj表示第j类标签对应的特征值,
经过下面的公式得到一个概率分布p=(p1,p2,...,pC):
通过下述的多标签分类损失函数来训练卷积神经网络:
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
作为本实施例中的优选,所述神经网络训练单元1同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
设一全连接层的通道数为B,得到一个N*B矩阵,
在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
在H中,用Hi表示第i个proposals对应的特征,
在P中,用表示第i个proposals属于第j个标签的概率,
通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
其中,表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积可以得到一个c*b维的向量:
经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
用下面的损失函数来训练网络:
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
本实施例中的***,是结合图片候选区域信息,加入多任务的损失函数来同时学习图片的特征以及特征的哈希函数,从而保证准确率的前提下大大提升检索效率以及特征存储空间。本实施例中的***,能够结合候选区域的信息提取图片中特定区域的特征,并利用到图片的多标签信息,在训练时进行多任务学习来促进哈希函数的学习,提升特征的表达能力,最后在测试过程中,通过对特征的量化,每张图片由一个48bit的短向量表示,用汉明距离来度量图片之间的相似性,提升检索效率以及减少特征存储空间。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
总体而言,本公开的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合实施。一些方面可以以硬件实施,而其它一些方面可以以固件或软件实施,该固件或软件可以由控制器、微处理器或其它计算设备执行。虽然本公开的各种方面被示出和描述为框图、流程图或使用其它一些绘图表示,但是可以理解本文描述的框、设备、***、技术或方法可以以非限制性的方式以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其一些组合实施。
此外,虽然操作以特定顺序描述,但是这不应被理解为要求这类操作以所示的顺序执行或是以顺序序列执行,或是要求所有所示的操作被执行以实现期望结果。在一些情形下,多任务或并行处理可以是有利的。类似地,虽然若干具体实现方式的细节在上面的讨论中被包含,但是这些不应被解释为对本公开的范围的任何限制,而是特征的描述仅是针对具体实施例。在分离的一些实施例中描述的某些特征也可以在单个实施例中组合地执行。相反对,在单个实施例中描述的各种特征也可以在多个实施例中分离地实施或是以任何合适的子组合的方式实施。

Claims (10)

1.一种快速的多标签图片检索的方法,其特征在于包括如下步骤:
在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
2.根据权利要求1所述方法,其特征在于,建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
2-1)根据多标签信息得到标签的总个数为C,
2-2)连接一个通道数为C的全连接层后得到一个N*C矩阵,
2-3)在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,...,YN表示每个候选区域对应的特征向量,再进行如下计算其中yj表示第j类标签对应的特征值,
2-4)经过下面的公式得到一个概率分布p=(p1,p2,...,pC):
p j = exp ( y j ) Σ k = 1 c exp ( y j )
2-5)通过下述的多标签分类损失函数来训练卷积神经网络:
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
3.根据权利要求2所述方法,其特征在于,同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
3-1)设一全连接层的通道数为B,得到一个N*B矩阵,
3-2)在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
3-3)在H中,用Hi表示第i个proposals对应的特征,
3-4)在P中,用表示第i个proposals属于第j个标签的概率,
3-5)通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
F = 1 N Σ i = 1 N P i ⊗ H i
其中,表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积可以得到一个c*b维的向量:
( P i 1 H i 1 , ... , P i 1 H i b ; P i 2 H i 1 , ... , P i 2 H i b ; ... ; P i c H i 1 , ... , P i c H i b )
3-6)经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
3-7)用下面的损失函数来训练网络:
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
4.根据权利要求1所述方法,其特征在于,还包括:根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
5.根据权利要求4所述方法,其特征在于,上述每张图片由一个48bit的短向量表示。
6.一种快速的多标签图片检索***,其特征在于,包括:神经网络训练单元和检索单元,
所述神经网络训练单元,用以在一卷积神经网络中,部署用于提取候选区域的RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络;
所述检索单元,用以通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索。
7.根据权利要求6所述方法,其特征在于,所述数据库包括一检索候选集,用以存放每一张图片的哈希码。
8.根据权利要求6所述方法,其特征在于,还包括相似度比较单元,用以根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
9.根据权利要求6所述方法,其特征在于,所述神经网络训练单元在建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
根据多标签信息得到标签的总个数为C,
连接一个通道数为C的全连接层后得到一个N*C矩阵,
在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,...,YN表示每个候选区域对应的特征向量,再进行如下计算其中yj表示第j类标签对应的特征值,
经过下面的公式得到一个概率分布p=(p1,p2,...,pC):
p j = exp ( y j ) Σ k = 1 c exp ( y j )
通过下述的多标签分类损失函数来训练卷积神经网络:
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
10.根据权利要求6所述方法,其特征在于,所述神经网络训练单元同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
设一全连接层的通道数为B,得到一个N*B矩阵,
在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
在H中,用Hi表示第i个proposals对应的特征,
在P中,用Pi j表示第i个proposals属于第j个标签的概率,
通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
F = 1 N Σ i = 1 N P i ⊗ H i
其中,表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积可以得到一个c*b维的向量:
( P i 1 H i 1 , ... , P i 1 H i b ; P i 2 H i 1 , ... , P i 2 H i b ; ... ; P i c H i 1 , ... , P i c H i b )
经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
用下面的损失函数来训练网络:
其中,fi,fi +,fi -表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
CN201710076634.9A 2017-02-13 2017-02-13 一种快速的多标签图片检索***及实现方法 Active CN106951911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710076634.9A CN106951911B (zh) 2017-02-13 2017-02-13 一种快速的多标签图片检索***及实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710076634.9A CN106951911B (zh) 2017-02-13 2017-02-13 一种快速的多标签图片检索***及实现方法

Publications (2)

Publication Number Publication Date
CN106951911A true CN106951911A (zh) 2017-07-14
CN106951911B CN106951911B (zh) 2021-06-29

Family

ID=59466388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710076634.9A Active CN106951911B (zh) 2017-02-13 2017-02-13 一种快速的多标签图片检索***及实现方法

Country Status (1)

Country Link
CN (1) CN106951911B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480730A (zh) * 2017-09-05 2017-12-15 广州供电局有限公司 电力设备识别模型构建方法和***、电力设备的识别方法
CN107563418A (zh) * 2017-08-19 2018-01-09 四川大学 一种基于区域敏感得分图谱及多实例学习的图片属性探测方法
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108038122A (zh) * 2017-11-03 2018-05-15 福建师范大学 一种商标图像检索的方法
CN108229503A (zh) * 2018-01-04 2018-06-29 浙江大学 一种针对服装照片的特征提取方法
CN108257139A (zh) * 2018-02-26 2018-07-06 中国科学院大学 基于深度学习的rgb-d三维物体检测方法
CN108319633A (zh) * 2017-11-17 2018-07-24 腾讯科技(深圳)有限公司 一种图像处理方法、装置及服务器、***、存储介质
CN108399185A (zh) * 2018-01-10 2018-08-14 中国科学院信息工程研究所 一种多标签图像的二值向量生成方法及图像语义相似度查询方法
CN108595474A (zh) * 2018-03-09 2018-09-28 中山大学 一种带有物***置感知的多标签图片哈希方法
CN108664989A (zh) * 2018-03-27 2018-10-16 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN108764370A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108764208A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN109522436A (zh) * 2018-11-29 2019-03-26 厦门美图之家科技有限公司 相似图像查找方法及装置
CN109657596A (zh) * 2018-12-12 2019-04-19 天津卡达克数据有限公司 一种基于深度学习的车辆外观部件识别方法
CN109885716A (zh) * 2019-02-18 2019-06-14 成都快眼科技有限公司 基于异质多任务学习深度监督离散哈希的图像检索方法
CN109993058A (zh) * 2019-02-27 2019-07-09 北京大学 基于多标签分类的道路交通标志的识别方法
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、***、装置和存储介质
CN110321957A (zh) * 2019-07-05 2019-10-11 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法
CN110506281A (zh) * 2017-07-17 2019-11-26 谷歌有限责任公司 学习统一嵌入
CN111125395A (zh) * 2019-10-29 2020-05-08 武汉大学 一种基于双分支深度学习的cad图纸检索方法及***
CN111506751A (zh) * 2020-04-20 2020-08-07 创景未来(北京)科技有限公司 一种搜索机械制图的方法及装置
WO2020173503A1 (zh) * 2019-02-28 2020-09-03 上海寒武纪信息科技有限公司 运算方法、装置及相关产品
CN111094952B (zh) * 2017-09-06 2021-11-16 科磊股份有限公司 使用统一神经网络进行缺陷检测及分类的方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2014154005A (ru) * 2014-12-29 2016-07-20 Российская Федерация, от имени которой выступает Федеральная служба по техническому и экспортному контролю (ФСТЭК России) Способ гарантированного обезличивания электронных документов
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN106127173A (zh) * 2016-06-30 2016-11-16 北京小白世纪网络科技有限公司 一种基于深度学习的人体属性识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2014154005A (ru) * 2014-12-29 2016-07-20 Российская Федерация, от имени которой выступает Федеральная служба по техническому и экспортному контролю (ФСТЭК России) Способ гарантированного обезличивания электронных документов
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN106127173A (zh) * 2016-06-30 2016-11-16 北京小白世纪网络科技有限公司 一种基于深度学习的人体属性识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘冶等: "FP-CNNH:一种基于深度卷积神经网络的快速图像哈希算法", 《计算机科学》 *
张明君等: "医学图像检索二进制码学习方法", 《安徽师范大学学报(自然科学版)》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110506281A (zh) * 2017-07-17 2019-11-26 谷歌有限责任公司 学习统一嵌入
CN107563418A (zh) * 2017-08-19 2018-01-09 四川大学 一种基于区域敏感得分图谱及多实例学习的图片属性探测方法
CN107480730A (zh) * 2017-09-05 2017-12-15 广州供电局有限公司 电力设备识别模型构建方法和***、电力设备的识别方法
CN111094952B (zh) * 2017-09-06 2021-11-16 科磊股份有限公司 使用统一神经网络进行缺陷检测及分类的方法及***
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN107679250B (zh) * 2017-11-01 2020-12-01 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108038122A (zh) * 2017-11-03 2018-05-15 福建师范大学 一种商标图像检索的方法
CN108038122B (zh) * 2017-11-03 2021-12-14 福建师范大学 一种商标图像检索的方法
CN108319633A (zh) * 2017-11-17 2018-07-24 腾讯科技(深圳)有限公司 一种图像处理方法、装置及服务器、***、存储介质
CN108319633B (zh) * 2017-11-17 2022-02-11 腾讯科技(深圳)有限公司 一种图像处理方法、装置及服务器、***、存储介质
CN108229503A (zh) * 2018-01-04 2018-06-29 浙江大学 一种针对服装照片的特征提取方法
CN108399185B (zh) * 2018-01-10 2021-12-21 中国科学院信息工程研究所 一种多标签图像的二值向量生成方法及图像语义相似度查询方法
CN108399185A (zh) * 2018-01-10 2018-08-14 中国科学院信息工程研究所 一种多标签图像的二值向量生成方法及图像语义相似度查询方法
CN108257139A (zh) * 2018-02-26 2018-07-06 中国科学院大学 基于深度学习的rgb-d三维物体检测方法
CN108257139B (zh) * 2018-02-26 2020-09-08 中国科学院大学 基于深度学习的rgb-d三维物体检测方法
CN108595474A (zh) * 2018-03-09 2018-09-28 中山大学 一种带有物***置感知的多标签图片哈希方法
CN108595474B (zh) * 2018-03-09 2022-04-12 中山大学 一种带有物***置感知的多标签图片哈希方法
US11436449B2 (en) 2018-03-27 2022-09-06 Beijing Dajia Internet Information Tech. Co., Ltd. Method and electronic apparatus for processing image and training image tag classification model
CN108664989B (zh) * 2018-03-27 2019-11-01 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN108664989A (zh) * 2018-03-27 2018-10-16 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN108764370B (zh) * 2018-06-08 2021-03-12 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
WO2019233394A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN108764370A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108764208A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN108764208B (zh) * 2018-06-08 2021-06-08 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN109522436A (zh) * 2018-11-29 2019-03-26 厦门美图之家科技有限公司 相似图像查找方法及装置
CN109657596A (zh) * 2018-12-12 2019-04-19 天津卡达克数据有限公司 一种基于深度学习的车辆外观部件识别方法
CN109885716A (zh) * 2019-02-18 2019-06-14 成都快眼科技有限公司 基于异质多任务学习深度监督离散哈希的图像检索方法
CN109993058A (zh) * 2019-02-27 2019-07-09 北京大学 基于多标签分类的道路交通标志的识别方法
WO2020173503A1 (zh) * 2019-02-28 2020-09-03 上海寒武纪信息科技有限公司 运算方法、装置及相关产品
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、***、装置和存储介质
CN110321957A (zh) * 2019-07-05 2019-10-11 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法
CN110321957B (zh) * 2019-07-05 2023-03-24 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法
CN111125395A (zh) * 2019-10-29 2020-05-08 武汉大学 一种基于双分支深度学习的cad图纸检索方法及***
CN111506751A (zh) * 2020-04-20 2020-08-07 创景未来(北京)科技有限公司 一种搜索机械制图的方法及装置

Also Published As

Publication number Publication date
CN106951911B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN106951911A (zh) 一种快速的多标签图片检索***及实现方法
Wu et al. Object detection based on RGC mask R‐CNN
Liu et al. Very deep convolutional neural network based image classification using small training sample size
Lian et al. Cascaded hierarchical atrous spatial pyramid pooling module for semantic segmentation
Zhang et al. Global prototypical network for few-shot hyperspectral image classification
CN109325547A (zh) 非机动车图像多标签分类方法、***、设备及存储介质
CN110059198A (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN109446430A (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
CN104598611B (zh) 对搜索条目进行排序的方法及***
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN109190643A (zh) 基于卷积神经网络中药识别方法及电子设备
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN107729312A (zh) 基于序列标注建模的多粒度分词方法及***
Zhou et al. Convolutional neural networks based pornographic image classification
CN110516098A (zh) 基于卷积神经网络及二进制编码特征的图像标注方法
Yuan et al. Interpreting image classifiers by generating discrete masks
CN107133640A (zh) 基于局部图像块描述子和费舍尔向量的图像分类方法
Chen et al. An Improved Deep Fusion CNN for Image Recognition.
CN108596276A (zh) 基于特征加权的朴素贝叶斯微博用户分类方法
Onoro-Rubio et al. The challenge of simultaneous object detection and pose estimation: A comparative study
Hong et al. Selective residual learning for visual question answering
Tan Information Analysis of Advanced Mathematics Education‐Adaptive Algorithm Based on Big Data
Zhang [Retracted] Automatic Detection Method of Technical and Tactical Indicators for Table Tennis Based on Trajectory Prediction Using Compensation Fuzzy Neural Network
Xu et al. [Retracted] Optimization of Online Education and Teaching Evaluation System Based on GA‐BP Neural Network
CN104537280B (zh) 基于文本关系相似性的蛋白质交互关系识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210601

Address after: 215123 unit 2-b702, creative industry park, 328 Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: SUZHOU FEISOU TECHNOLOGY Co.,Ltd.

Address before: Floor 17, building 7, No.15 Xueyuan South Road, Haidian District, Beijing

Applicant before: BEIJING FEISOU TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant