CN106407352A

CN106407352A - 基于深度学习的交通图像检索方法

Info

Publication number: CN106407352A
Application number: CN201610806287.6A
Authority: CN
Inventors: 赖剑煌; 谷扬
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2016-09-06
Filing date: 2016-09-06
Publication date: 2017-02-15
Anticipated expiration: 2036-09-06
Also published as: CN106407352B

Abstract

本发明在智能交通应用场景下，提出一种基于深度学习的交通图像检索方法，实现深度哈希编码进行交通监控视频图像检索。包括：将目标数据集分为训练集与测试集两部分；通过深度卷积神经网络得到目标类别、颜色的特征以及图像哈希编码；类别、颜色特征的分类损失与哈希编码损失经后向传播优化哈希函数；哈希函数对图像进行哈希编码，计算查询图像与测试数据集中图像的哈希编码之间的汉明距离以表征两者相似程度；根据汉明距离的大小进行相似度得分排序来检索图像。本方法进行图像检索即保留了图像中丰富的多级语义信息又利用了各图像中目标特有的属性信息，通过共享网络结构完成检索与图像属性分类多任务，利用分类任务辅助检索。

Description

基于深度学习的交通图像检索方法

技术领域

本发明涉及基于内容的图像检索技术领域，特别涉及一种基于深度学习的多属性深度哈希编码图像检索方法，具体是指一种基于深度学习实现交通图像检索的方法。

背景技术

随着平安城市、智能交通等工程的推进，监控摄像为大多数案件留下了影像资料，给警方破案带来了很大的便利。但查找视频、分析视频的工作常常会耗用大量的时间和人力。在海量视频中更方便查找到相关信息的需求越来越强烈，视频检索技术也越来越重要。交通监控视频的数据量非常之大，在这种海量数据中寻找特定目标是不易的，因此这种交通应用场景下的图像检索应运而生。

为了适应海量图像库的检索需求并降低“维数灾难”的影响，常采用的方法为图像哈希的方法。该方法将图像特征映射成二进制哈希码，再用哈希码间的汉明距离表示图像间的相似程度。利用图像哈希方法能够快速计算哈希码间的汉明距离并大大降低了数据的存储量，但其缺点在于：依赖于图像特征的提取，一张图像的复杂程度往往不能用几个特征来表达，此时编码函数不能很好的贴近原图像信息则检索的精确度会下降。

为解决上述问题，研究人员提出了采用多标签图像中包含的多级语义进行深度哈希学习。深度哈希学习可以处理图像中多级语义相似度而不仅是描述图像表观特征。这种方法虽然处理了图像包含的高级语义信息，但是没有利用上图中物体的属性特征信息，这种单一的深度哈希编码方法还有提升的空间。

发明内容

本发明的目的在于克服现有技术的不足，在智能交通应用场景下，提出一种基于深度学习的交通图像检索方法，是一种融合目标的多属性特征与深度哈希编码进行学习从而达到交通监控视频图像检索的方法。本方法基于深度卷积神经网络，通过加入目标属性分类任务融合目标的多属性特征与深度哈希编码进行学习从而达到交通监控视频图像检索的目的。本方法的特点在于既保留了图像中丰富的多级语义信息又利用了各图像中目标特有的属性信息，通过共享网络结构同时利用了CNN输出包含的多种图像属性特征的特点，让深度哈希函数更加好的表达图像信息，使得在交通监控中的视频图像搜索更为精确有效。

本发明的目的通过以下的技术方案实现：

一种基于深度学习的交通图像检索方法，包括下述步骤：

步骤1：将已经分离好且具有多属性标签的运动目标视频帧数据集分为训练集和测试集两部分；

步骤2：把训练集图像输入深度卷积神经网络中，得到目标颜色、类别特征，同时根据哈希编码函数初始参数计算每张图的哈希编码；

步骤3：对图像之间的类标进行相似度排序；

步骤4：计算目标损失函数，先计算训练集中图像哈希编码之间的汉明距离并进行排序，与类标的相似度排序比较进行检索分支损失函数的计算；该目标损失函数由颜色及类别属性分类任务multihinge-loss与哈希函数学习任务的triplet-loss共同组成，经随机梯度下降法与后向传播改变网络参数以得到深度学习哈希编码函数；

步骤5：对于新的查询图像，利用步骤4学习到的哈希编码函数对图像进行哈希编码，计算查询图像与测试集中图像的哈希编码之间的汉明距离，采用该汉明距离表征查询图像与测试集中图像之间的相似程度；

步骤6：根据查询图像与测试集中图像的哈希编码之间的汉明距离得到距离的大小序列进行相似度得分排序来得到检索图像列表，根据被检索图像路径所属的视频段得到相应视频的搜索。

优选地，所述步骤1中，对交通监控视频数据集做运动物体分割识别得到分离好的运动目标，并且采用人工标注方式标注每帧图像上的目标类别与目标颜色，目标视频帧数据集中的图片路径信息包含其所属的视频段标号。

优选地，所述步骤2中，深度卷积神经网络为alex—net网络结构，包含五个卷积层，两个全连接层以及一个哈希编码层；哈希编码函数表达为：

上式中，k表示函数计算的第k个哈希编码值，sgn()为符号函数，为第k个哈希编码值的权重，xⁱ为第i张图像；最终第i张图像的哈希编码表述为：

h(xⁱ)＝[h₁(xⁱ),h₂(xⁱ),…,h_k(xⁱ)]。

优选地，所述步骤3中，对图像之间的类标进行相似度排序，具体是：对于训练集中的图像{X¹,X²,X³,…,X^N}，每一张图与其他图进行类标的权重相似度得分排序，N表示训练数据集中的图像数目；采用以下公式：

其中，score(Xⁱ,Xj)代表图像Xⁱ和X^j进行类标的带权重相似度得分排序；w₁与w₂分别代表类别类标与颜色类标的权重；函数g[…]输入两个集合，返回两个集合相同的个数；表示属于第i张图像的类别类标、颜色类标的集合；排序最终得到一个第i张图Xⁱ与其他图比较得到的关于i的综合相似度排序列表。

优选地，所述步骤4中，颜色与类别属性分类采用SVM分类类器，目标损失函数hinge-loss在SVM分类器的最大化间隔分类中，输出t＝±1和分类器分数y，预测分数值y的损失定义如下：

l(y)＝max(0，1-t·y)

当t和y有相同的符号时，即表示y预测出正确的分类；

|y|≥1

此时的hinge loss

l(y)＝0

但是如果它们的符号相反，l(y)则会根据y线性增加；所属步骤4中哈希编码函数学习任务的目标损失函数是基于图像类标相似度排序三元组的triplet-loss，三元组的三个元素表示为[h(x_i),h(x_j),h(x_k)]，其中[i,j,k]是由步骤3中通过类标的score计算得到的排序三元组；通过学习让表征图像i与图像j之间的距离尽可能小，表征图像i与图像k之间的距离尽可能大，并让i、j之间的距离与i、k之间的距离有一个最小间隔α，目标损失函数表示为：

这里距离用汉明距离度量，[·]+表示[·]内的值大于零时取该值为损失，小于零时损失为零。

优选地，所述步骤5中，查询图像输入，采用步骤4中得到的深度哈希函数对查询图像进行哈希编码，数据库里面的每一幅图已经用哈希编码方式储存；汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数，简单用矩阵相乘方式得到；汉明距离d(h)公示表达为：

d(h)＝[h(X_i)]*[h(X_j)]

h(X_i)，h(X_j)分别表示第i张图与第j张图的哈希编码函数。

本方法与现有技术相比具有如下优点和有益效果：

1.本方法基于深度卷积神经网络，使用哈希编码方法结合物体类别、颜色等目标属性特征学习，得到一个多属性监督的深度哈希编码函数。

2.采用多任务的学习方式，加入了图像的属性特征学习即保留了图像中丰富的多级语义信息又利用了各图像中目标特有的属性信息，改善了传统基于单一哈希编码算法在图像搜索中对图像丰富语义信息提取不足让深度哈希函数更加好的表达图像信息，使得在交通监控中的视频图像搜索更为精确有效。

3.将基于多任务深度学习的图像搜索技术应用到交通图像搜索匹配的领域，填补了该技术在此领域的应用。

附图说明

图1为本发明基于深度学习实现交通图像检索的方法流程示意图。

图2为本发明方法在一般评价标准上的性能曲线示意图。

图3为本发明检索效果示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，本发明公开的基于深度学习实现交通图像检索的方法，包含以下步骤：

步骤1：本发明实例采用的交通监控视频数据集来源于广州大学城公路监控视频。视频经过分帧后包含照片12510张图像。其中包含4610个目标对象，平均每个目标含有30张图片。每张图片已完成运动物体分割识别，并且采用了人工标注每帧图像上的目标类别与目标颜色等预处理，数据集中的图片路径设信息包含其所属的视频段标号。从中随机选取461个目标当作测试集，其余当作训练集与检索数据库。

步骤2：把训练集图像输入深度卷积神经网络中，得到目标颜色、类别特征与根据哈希编码函数初始参数计算的每张图的哈希编码。如图1所示网络结构图深度卷积神经网络包含五个卷积层，两个全连接层以及一个哈希编码层。每张图最后在通过全连接层以后得到4096维特征向量。该特征向量分两路输出，一路输出到分类器中，另一路输入到哈希编码层中进行编码。其中哈希编码层的哈希函数表达为：

上式中k表示第k个哈希函数，xⁱ为第i中图像提取得到的特征，为第k个哈希函数的权重。最终第i张图像的哈希编码表述为：

h(xⁱ)＝[h₁(xⁱ),h₂(xⁱ)…h_k(xⁱ)]

步骤3：根据图像之间类标权重相似度进行排序。对于训练数据库中的图像{X¹,X²,X³,…,X^N}，计算每一张图与其他图进行两两的权重相似度得分排序，N表示训练数据集中的图像数目。采用公式：

其中w1与w2代表类别类标与颜色类标的权重；函数g(.)输入两个集合，返回两个集合相同元素的个数；表示属于第i张图像的类别类标、颜色类标的集合，当图像i与图像j类标相似则score(Xⁱ,X^j)得分就越高，此时就认为这两张图在语义上是相似的，反之则说明两张图是不相似的。两两输入计算得分后得到一个得分方阵：

Score：

图像X	X¹	X²	…	X^N
					X¹	5	4	…	3
X²	4	3	…	1
					…	…	…	…	…
X^N	3	1	…	5

对这个得分矩阵的第i行进行大小排序，输出多个关于第i张图的得分排序三元组[i,j,k]。这个三元组的生成满足第j张图的得分比第k张图得分大，表示图像i与图像j的相似度比图像k要大，通过这个三元组的组合计算tripletloss中特征值之间的距离。

步骤4：计算网络的目标损失函数。目标损失函数由属性分类任务multihinge-loss与哈希函数学习任务的triplet-loss共同组成，经随机梯度下降法与后向传播改变网络参数以得到深度学习哈希编码函数。类别与颜色的属性分类采用SVM分器，损失函数Hinge Loss最常用在SVM中的最大化间隔分类中。哈希函数学习任务的损失函数是基于图像类标相似度排序三元组的triplet-loss，三元组的三个元素表示为[h(x_i),h(x_j),h(x_k)]，其中[i,j,k]是由步骤3中通过类标的score计算得到的排序三元组。通过学习让表征图像i与图像j之间的距离尽可能小，表征图像i与图像k之间的距离尽可能大，并让i、j之间的距离与i、k之间的距离有一个最小间隔α。目标函数表示为：

这里两张图之间的距离度量采用汉明距离d_H(a,b)，[a,b]在式中为[h(x_i),h(x_j)]代表图像i与图像j的哈希编码。[·]+表示[]内的值大于零时取该值为损失，小于零时损失为零。

步骤5：对于新的查询图像，利用经过网络学习到的哈希编码函数对图像进行哈希编码，计算查询图像与测试数据集中图像的哈希编码之间的汉明距离表征查询图像与测试图像之间的相似程度。查询图像输入如图1网络输入图像所示，采用步骤4中得到的深度哈希函数对查询图像进行哈希编码，检索数据库里面的每一幅图已经用深度哈希函数进行哈希编码储存。计算查询图像哈希编码与数据库中每一个哈希编码的汉明距离，汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数，可以简单用矩阵相乘方式得到。汉明距离d(h)公式表达为：

d(h)＝[X_i]*[X_j]

[X_i]，[X_j]分别表示第i张图与第j张图的哈希编码。

步骤6：根据得到的汉明距离的大小序列进行检索得分排序来得到检索图像列表，根据被检索图像路径所属的视频段得到相应视频的搜索；图2所示为采用NDCG打分标准对检索结果进行打分,这是用来衡量排序质量的指标，其计算公式为：n代表每张图取排序前n个检索图，r(j)表示检索出来第j张图的真实排序。在检索查询图像top100的图像时，哈希编码比特数越高其得分越高，采用多任务学习与单一的深度哈希学习相比，多任务的得分在相同哈希编码长度中都比较高，进一步说明本方法的有效性。图3所示为比分图像的检索示例，每一行的第一列为查询图像，其他列是对应检索结果做接近的第一到第五张图。从这些结果可以看到检索结果与查询图像是很相近的。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习的交通图像检索方法，其特征在于，包括下述步骤：

步骤3：对图像之间的类标进行相似度排序；

2.根据权利要求1所述的方法，其特征在于：所述步骤1中，对交通监控视频数据集做运动物体分割识别得到分离好的运动目标，并且采用人工标注方式标注每帧图像上的目标类别与目标颜色，目标视频帧数据集中的图片路径信息包含其所属的视频段标号。

3.根据权利要求1所述的方法，其特征在于：所述步骤2中，深度卷积神经网络为alex—net网络结构，包含五个卷积层，两个全连接层以及一个哈希编码层；哈希编码函数表达为：

h_{k} (x^{i}) = sgn (w_{k}^{T} x^{i})

上式中，k表示第k个哈希编码函数，sgn()为符号函数，为第k个哈希编码值的权重，xⁱ为第i张图像；最终第i张图像的哈希编码函数表述为：

h(xⁱ)＝[h₁(xⁱ),h₂(xⁱ),…,h_k(xⁱ)]。

4.根据权利要求1所述方法，其特征在于：所述步骤3中，对图像之间的类标进行相似度排序，具体是：对于训练集中的图像{X¹,X²,X³,…,X^N}，每一张图与其他图进行类标的权重相似度得分排序，N表示训练数据集中的图像数目；采用以下公式：

s c o r e (X^{i}, X^{j}) = w_{1} * g [l_{1}^{i}, l_{1}^{j}] + w_{2} * g [l_{2}^{i}, l_{2}^{j}]

其中，score(Xⁱ,X^j)代表图像Xⁱ和X^j进行类标的带权重相似度得分排序；w₁与w₂分别代表类别类标与颜色类标的权重；函数g[…]输入两个集合，返回两个集合相同的个数；表示属于第i张图像的类别类标、颜色类标的集合；排序最终得到一个第i张图Xⁱ与其他图比较得到的关于i的综合相似度排序列表。

5.根据权利要求4所述的方法，其特征在于：所述步骤4中，颜色与类别属性分类采用SVM分类类器，目标损失函数hinge loss在SVM分类器的最大化间隔分类中，对输出t＝±1和分类器分数y，预测值y的hinge loss定义如下：