CN110046669B - 基于素描图像的半耦合度量鉴别字典学习的行人检索方法 - Google Patents
基于素描图像的半耦合度量鉴别字典学习的行人检索方法 Download PDFInfo
- Publication number
- CN110046669B CN110046669B CN201910325189.4A CN201910325189A CN110046669B CN 110046669 B CN110046669 B CN 110046669B CN 201910325189 A CN201910325189 A CN 201910325189A CN 110046669 B CN110046669 B CN 110046669B
- Authority
- CN
- China
- Prior art keywords
- learning
- image
- dictionary
- sketch
- image set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于交通行人图像处理技术领域,公开了一种基于素描图像的半耦合度量鉴别字典学习的行人检索方法及***,建立自己的异构行人检索数据库,然后进行特征提取,从图像中提取特征并用相应的颜色标注不同的人;对提取出来的样本特征进行处理,引入字典学习方法,学习异构数据的字典对;从素描图像集和正规图像集中学习映射矩阵;引入鉴别算法学习度量。本发明的优点在于解决了异构行人检索领域中异构行人数据集缺乏的问题以及首次提出了半耦合度量鉴别字典学习(SMD2L)技术。该技术可以从异构样本和字典对中学习半耦合映射矩阵,在一定程度上减小异构数据之间的差异。在新的SINPID数据集上取得了理想的检索效果。
Description
技术领域
本发明属于交通行人图像处理技术领域,尤其涉及一种基于素描图像的半耦合度量鉴别字典学习的行人检索方法。
背景技术
目前,最接近的现有技术:
素描图像和普通图像之间的异构行人检索在公共安全和刑事侦查方面发挥着重要作用,异构行人检索(HPR)的目的就是从异类图像集中检索出同一个人的图像进行识别。虽然行人检索在公共安全和刑事侦查有很重要的作用,但是研究尚不多见,到目前为止,在行人识别领域还没有用于素描图图像和普通图像之间的行人检索问题(SINPR)的数据集。因此有必要采集素描图像和普通图像的行人数据集(SINPID)。
目前的大多数行人重识别问题大多侧重于正常场景下的匹配问题,并且在一定程度上解决了此问题。
然而,直接将现有的行人重识别方法应用于SINPR将会限制它们的性能。半耦合矩阵是一种适用于不同数据源应用的有效技术,它可以将不同数据源之间的关系联系起来。而字典学习是一种有效的计算机视觉应用和对象表示技术。同时本发明可以学习一个投影矩阵,来减少异构样本之间的差异,并对不同数据源学习字典对。
综上所述,现有技术存在的问题是:
(1)直接将现有的行人重识别方法应用于SINPR将会限制它们的性能。不能直接用现有的行人重方法,因为以前的方法基于异构行人检索的方法,它的目的是从异类图像集中检索出同一个人的图像进行识别。而不能分析的素描图图像和普通图像之间的行人检索问题。
(2)现有技术中,没有采用半耦合映射策略,将素描图像与普通照片的关系连接起来,减少异构样本之间的差异。
(3)没有结合学习度量矩阵可以揭示异构数据的内在投影。
(4)对于复杂场景下的素描图像和普通照片,现有技术词典对不具有较好的适用性。
(5)现有技术没有结合判别约束使同一类别紧凑和不同类别分离,不利于检索和分类。
到目前为止,在行人识别领域还没有用于素描图图像和普通图像之间的行人检索问题(SINPR)的数据集。因此有必要采集素描图像和普通图像的行人数据集(SINPID)。
解决上述技术问题的难度:
本发明需要建立素面图像与普通照片的数据集,现有技术中,没有采用半耦合映射策略,将素描图像与普通照片的关系连接起来,减少异构样本之间的差异。
需要建立较好的字典对,来满足复杂场景下的素描图片和普通照片的关系。
对于异构数据的内在投影,需要结合学习度量矩阵。
为了使得检索和分类的效果更好,需要使同一类别紧凑和不同类别分离。
解决上述技术问题的意义:
在交通行人图像处理技术领域,素描图像和普通图像之间的异构行人检索在公共安全和刑事侦查方面发挥着重要作用,异构行人检索(HPR)的目的就是从异类图像集中检索出同一个人的图像进行识别。虽然行人检索在公共安全和刑事侦查有很重要的作用,但是研究尚不多见,到目前为止,在行人识别领域还没有用于素描图图像和普通图像之间的行人检索问题(SINPR)的数据集。因此有必要采集素描图像和普通图像的行人数据集(SINPID)。
然而,直接将现有的行人重识别方法应用于SINPR将会限制它们的性能。半耦合矩阵是一种适用于不同数据源应用的有效技术,它可以将不同数据源之间的关系联系起来。而字典学习是一种有效的计算机视觉应用和对象表示技术。同时本发明可以学习一个投影矩阵,来减少异构样本之间的差异,并对不同数据源学习字典对。
发明内容
针对现有技术存在的问题,本发明提供了一种基于素描图像的半耦合度量鉴别字典学习的行人检索方法。目前,在行人识别领域还没有用于素描图图像和普通图像之间的行人检索问题(SINPR)的数据集。因此有必要采集素描图像和普通图像的行人数据集(SINPID)。半耦合矩阵是一种适用于不同数据源应用的有效技术,它可以将不同数据源之间的关系联系起来。而字典学习是一种有效的计算机视觉应用和对象表示技术。同时本发明可以学习一个投影矩阵,来减少异构样本之间的差异,并对不同数据源学习字典对。
本发明是这样实现的,一种基于素描图像的半耦合度量鉴别字典学习的行人检索方法(SMD2L),包括以下步骤:
步骤一、用相机拍摄照片并建立自己的数据库;
步骤二、特征提取;
步骤三、利用字典学习技术学习异构字典对DS和DN;
步骤四、从素描图像集和普通图像集学习投影矩阵P;
步骤五、利用鉴别学习的思想学习度量矩阵W;
步骤六、参数求解;
步骤七、行人重识别。
进一步,在步骤一中,用相机拍摄照片并建立自己的数据库,具体做法是:
首先在校园内用2个摄像头拍摄真实场景下的照片来收集数据,总共收集了 200个行人共400张照片数据。然后将其中一个摄像头的数据作为普通图像集,另外一个摄像头的数据经过处理形成素描图像集。因此本发明收集到的行人数据集(SINPID)是由2个部分组成1)普通图像集;2)素描图像集。本发明随机选取了一半的素描图像和普通图像的样本作为训练集,其余的作为测试集。并且本发明对图像集进行分割处理,普通图像是4160*3120pixels,本发明从原始照片中手工分割出每一个人,最后每个行人图像是560*230pixels。其中普通图像集是用摄像头拍摄的普通RGB图像,将这组普通图像集作为画廊数据集;素描图像集是通过电脑软件和人工辅助生成水粉素描集图像而不是通过艺术家和目击者生成素描风格的图像,将这组素描图像集作为探针集。这里生成素描集的软件可以使用Sketch Guru,生成素描图像的类型本发明可以选择水粉素描类型。因为证人不能提供可疑的出庭信息,但证人可以给出粗略和全面的描述,水粉素描的图像在一定程度上忽略了人的一些细节但是衣服的颜色和布局都是相同的即外套和裤子的颜色几乎没有变化,这有助于从画廊数据集中识别出一个人。SINPID数据集可以从https://sites.***.com/site/SINPID2018获得。
进一步,在步骤二中,特征提取,本发明对所收集到的行人数据集(SINPID) 提取出两种类型的特征进行评价,其中包括LOMO贴片特征和PCB深度特征。因为LOMO可以从三尺度金字塔表示的图像中提取出HSV颜色特征和SILTP 纹理特征,这种特征是通过贴片提取的,对不同视点的变化具有一定的鲁棒性;而PCB可以提取一种由多个部分级特征组成的深度卷积描述符,该特征可以把整个图像作为输入,并得到每幅图像的特征向量。
进一步,在步骤三中,利用字典学习技术学习异构字典对DS和DN。引入了字典学习技术的目的是为了得到不同风格图像的良好数据表示,因此对异构数据分别学习字典对。假设X=[x1,x2...xN]和Y=[y1,y2...yN]分别是素描图像集和普通图像集。X∈Rd*N,Y∈Rd* N.d是图像特征的维数,N表示样本图像的总数量。 DS和DN分别表示素描图像和普通图像的字典对,因此利用字典学习技术学习异构字典对的目标函数可以定义为:
其中字典对DS和DN分别为:DS∈Rd*m,DN∈Rd*m,m表示的是字典对中的元素的数量。A=[a1,a2...aN],B=[b1,b2...bN].A表示的是X在DS上的编码系数矩阵,B表示的是Y在DN上的编码系数矩阵。
进一步,在步骤四中,从素描图像和普通图像集中学习投影矩阵P。它的目的是为了建立素描图像集和普通图像集二者之间的关系,寻找一个半耦合投影矩阵,在一定程度上减少他们之间的差异。假设P∈Rd*d是半耦合投影矩阵。通过最小化A和B编码系数矩阵的距离,得到半耦合投影矩阵,从而减小样本之间的差异。因此半耦合映射矩阵可以按以下方式计算:
进一步,在步骤五中,利用鉴别学习的思想学习度量矩阵W。它的目的是为了提高良好的特征表示能力,加上鉴别约束项,可以使得同一类的样本紧凑,不同类的样本分离。利用鉴别思想进行度量学习和字典学习可以按以下方式计算:
其中S表示的是(i,j)元素属于同一类,D表示的是(i,j)元素属于不同类。
M=WTW W∈Rd*d (5)
此外,为了防止过拟合,本发明正则化以下:参数投影矩阵P,系数A,B以及鉴别约束项W。正则化项可以表示为:
结合上述公式(1),(2),(3),(6).于是SMD2L的目标函数可以改写为:
其中λ为正则化参数平衡因子。
进一步,在步骤六中,参数求解。公式(7)对于DS,DN,P,W都不是联合凸函数,但是如果其他变量固定的情况下,对于每个变量都是凸函数求解。因此本发明将公式(7)划分为4个子问题求解,即字典对更新,表示系数更新和半耦合投影矩阵的更新。具体包括:
1)首先本发明固定其它参数来更新A和B。更新A对只存在A的项进行保留,公式(7)可以改写为:
为了求解公式(8),本发明可以通过将αi的导数设置为0来求解。αi可
表示为如下:
αi=(DS TDS+PTP+λI+(1-β)WTW)-1
B与A的求解类似,
bi=(DN TDN+(λ-1)I+(1-β)WTW)-1
2)更新DS和DN,更新DS公式(7)可以改写为如下:
为了求解公式(11),DS的计算可以通过以下公式得到:DS=XAT(AAT+∧))-1 (12);∧是一个对角阵,与公式(11)相似,更新DN可以将公式(7)改写为如下:
3)更新P,固定其它参数,本发明可以将公式(7)改写为:
求解公式(14),可以通过将P的导数设置为0来求解,P的求解如下:
P=BAT(AAT+λI))-1 (15);
4)最后更新W,固定其它参数,公式(7)可以改写为如下:
本发明可以通过梯度下降算法来更新W,
其中t表示的是算法的迭代次数为t。
进一步,在步骤七中,行人重识别。随机选取了一半的素描图像和普通图像作为训练集,其余的作为测试集。并且将素描图像作为探针集,普通图像作为画廊集。给出一幅来自探针的素描图像,进行行人检索。输入素描图像集和普通图像集,按照上述公式(12),(15),(18)求解参数DS,DN,P,W。假设F是素描图像集的特征,G是普通照片集的特征,
本发明按照以下方式执行行人检索:
1)首先利用公式(9)求解素描图像集字典DS,利用学习到的投影矩阵P,来求解DS对应的系数矩阵f,计算方式如下:
2)利用公式(10)求解普通图像集字典DN,然后求解DN对应的系数矩阵g,计算方式如下:
3)通过公式(19)和公式(20)求解出素描图像集所对应的系数矩阵f和普通图像集所对应的系数矩阵g,本发明可以检索在普通图像集中所对应的素描图像,可以通过计算两个图像之间的距离来获得,计算方式如下:
计算公式(21),求解出所对应的距离,再对距离进行排序,其中距离最小的普通照片就是利用素描图像所检索出来的图片。
本发明的另一目的在于提供一种基于素描图像的半耦合度量鉴别字典学习的行人检索控制***。
本发明的另一目的在于提供一种基于素描图像的半耦合度量鉴别字典学习的行人检索方法的交通道路行人图像检索终端。
综上所述,本发明的优点及积极效果为:
本发明解决了异构行人检索领域中异构行人数据集缺乏的问题以及首次提出了半耦合度量鉴别字典学习(SMD2L)技术。该技术可以从异构样本和字典对中学习半耦合映射矩阵,在一定程度上减小异构数据之间的差异。在新的SINPID 数据集上取得了理想的检索效果。
为验证本算法是否有很好的优越性,将基于素描图像的半耦合度量鉴别字典学习的行人检索算法与6种对比算法KISSME、XQDA、TDL、SLD2L、JDML 和PCB进行比较。这6种对比算法包括基于度量,基于字典学习,基于深度学习,基于行人重识别的算法。最后在本发明的新数据集SINPID作为实验数据进行验证。
检索识别的评估指标是累计匹配特性曲线CMC,CMC曲线是一种top-k的匹配概率,将普通图像集中的每个样本依次与其探针图像集算取一个距离,然后进行排序的,rank是本发明所选取的top-k的值,CMC匹配率的值是趋于1 的,如果测试的次数越多,识别的准确率越好。
为了验证本发明方法SMD2L的性能,在新的SINPID数据集做实验,实验结果为表1和图2。
表1在SINPID数据集上的top-r的匹配率
图2中(a)表示的是使用LOMO特征的实验结果,(b)中表示的是使用PCB 特征的实验结果。从表1中的实验结果可以看出:本发明的算法在对比算法中获得了较高的匹配率,例如,SMD2L在SINPID数据集有LOMO特征的对比算法XQDA相比,Rank-1的匹配率提高了2.1%(=36.2%-34.1%)。同时本发明也利用了深度特征进行评估,看出有些结果低于LOMO特征的方法。其原因可能有三方面:1)SINPID数据集只有400幅200人的图像,这使得PCB没有经过足够的样本训练。2)水彩素描式图像比另一台摄像机的普通照片包含的信息量少。3) 网络体系结构不适用于异构行人样本,而适用于两种正常样本。
通过以上实验可以看出:本发明方法SMD2L的大多数匹配率都优于其他具有LOMO特征和PCB深度特征的方法。主要有3个方面:1)采用半耦合映射策略,能够将素描图像与普通照片的关系连接起来,减少异构样本之间的差异。 2)学习度量矩阵可以揭示异构数据的内在投影。3)对于复杂场景下的素描图像和普通照片,词典对具有较好的适用性。4)判别约束能使同一类别紧凑和不同类别分离,有利于检索和分类任务。从以上分析可以看出,新的SINPID数据集对不同类型的特征是稳定的,适用于行人检索的进一步评价,表明了SMD2L算法的优越性。
附图说明
图1是本发明实施例提供的基于素描图像的半耦合度量鉴别字典学习的行人检索方法流程图。
图2是本发明实施例提供的不同方法和特征在新的SINPID数据集上的性能图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中,没有采用半耦合映射策略,将素描图像与普通照片的关系连接起来,减少异构样本之间的差异。没有结合学习度量矩阵可以揭示异构数据的内在投影。对于复杂场景下的素描图像和普通照片,现有技术词典对不具有较好的适用性。现有技术没有结合判别约束使同一类别紧凑和不同类别分离,不利于检索和分类。
为解决上述技术问题,下面结合具体方案对本发明作详细描述。
如图1所示,本发明实施例提供的基于素描图像的半耦合度量鉴别字典学习的行人检索方法包括:
步骤一、用相机拍摄照片并建立自己的数据库:首先在校园内用2个摄像头拍摄真实场景下的照片来收集数据,总共收集了200个行人共400 张照片数据。然后将其中一个摄像头的数据作为普通图像集,另外一个摄像头的数据经过处理形成素描图像集。因此本发明收集到的行人数据集(SINPID)是由2个部分组成1)普通图像集;2)素描图像集。本发明随机选取了一半的素描图像和普通图像的样本作为训练集,其余的作为测试集。并且本发明对图像集进行分割处理,普通图像是4160*3120pixels,本发明从原始照片中手工分割出每一个人,最后每个行人图像是560*230pixels。其中普通图像集是用摄像头拍摄的普通RGB图像,将这组普通图像集作为画廊数据集;素描图像集是通过电脑软件和人工辅助生成水粉素描集图像而不是通过艺术家和目击者生成素描风格的图像,将这组素描图像集作为探针集。这里生成素描集的软件可以使用Sketch Guru,生成素描图像的类型本发明可以选择水粉素描类型。因为证人不能提供可疑的出庭信息,但证人可以给出粗略和全面的描述,水粉素描的图像在一定程度上忽略了人的一些细节但是衣服的颜色和布局都是相同的即外套和裤子的颜色几乎没有变化,这有助于从画廊数据集中识别出一个人。 SINPID数据集可以从https://sites.***.com/site/SINPID2018获得。
步骤二、特征提取,本发明对所收集到的行人数据集(SINPID)提取出两种类型的特征进行评价,其中包括LOMO贴片特征和PCB深度特征。因为LOMO 可以从三尺度金字塔表示的图像中提取出HSV颜色特征和SILTP纹理特征,这种特征是通过贴片提取的,对不同视点的变化具有一定的鲁棒性;而PCB可以提取一种由多个部分级特征组成的深度卷积描述符,该特征可以把整个图像作为输入,并得到每幅图像的特征向量。
步骤三、利用字典学习技术学习异构字典对DS和DN。引入了字典学习技术的目的是为了得到不同风格图像的良好数据表示,因此对异构数据分别学习字典对。假设X=[x1,x2...xN]和Y=[y1,y2...yN]分别是素描图像集和普通图像集。 X∈Rd*N,Y∈Rd*N.d是图像特征的维数,N表示样本图像的总数量。DS和DN分别表示素描图像和普通图像的字典对,因此利用字典学习技术学习异构字典对的目标函数可以定义为:
其中字典对DS和DN分别为:DS∈Rd*m,DN∈Rd*m,m表示的是字典对中的元素的数量。A=[a1,a2...aN],B=[b1,b2...bN].A表示的是X在DS上的编码系数矩阵,B表示的是Y在DN上的编码系数矩阵。
步骤四、从素描图像和普通图像集中学习投影矩阵P。它的目的是为了建立素描图像集和普通图像集二者之间的关系,寻找一个半耦合投影矩阵,
在一定程度上减少他们之间的差异。假设P∈Rd*d是半耦合投影矩阵。通过最小化A和B编码系数矩阵的距离,得到半耦合投影矩阵,从而减小样本之
间的差异。因此半耦合映射矩阵可以按以下方式计算:
步骤五、利用鉴别学习的思想学习度量矩阵W。它的目的是为了提高良好的特征表示能力,加上鉴别约束项,可以使得同一类的样本紧凑,不同类的样本分离。利用鉴别思想进行度量学习和字典学习可以按以下方式计算:
其中S表示的是(i,j)元素属于同一类,D表示的是(i,j)元素属于不同类。
M=WTW W∈Rd*d (5);
此外,为了防止过拟合,本发明正则化以下:参数投影矩阵P,系数A,B以及鉴别约束项W。正则化项可以表示为:
结合上述公式(1),(2),(3),(6).于是SMD2L的目标函数可以改写为:
其中λ为正则化参数平衡因子。
在步骤六中,参数求解。公式(7)对于DS,DN,P,W都不是联合凸函数,但是如果其他变量固定的情况下,对于每个变量都是凸函数求解。因此本发明将公式(7)划分为4个子问题求解,即字典对更新,表示系数更新和半耦合投影矩阵的更新。具体包括:
1)首先本发明固定其它参数来更新A和B。更新A对只存在A的项进行保留,公式(7)可以改写为:
为了求解公式(8),本发明可以通过将αi的导数设置为0来求解。αi可表示为如下:
αi=(DS TDS+PTP+λI+(1-β)WTW)-1
B与A的求解类似,
bi=(DN TDN+(λ-1)I+(1-β)WTW)-1
2)更新DS和DN,更新DS公式(7)可以改写为如下:
为了求解公式(11),DS的计算可以通过以下公式得到:DS=XAT(AAT+∧))-1 (12);∧是一个对角阵,与公式(11)相似,更新DN可以将公式(7)改写为
如下:
3)更新P,固定其它参数,本发明可以将公式(7)改写为:
求解公式(14),可以通过将P的导数设置为0来求解,P的求解如下:
P=BAT(AAT+λI))-1 (15);
4)最后更新W,固定其它参数,公式(7)可以改写为如下:
本发明可以通过梯度下降算法来更新W,
其中t表示的是算法的迭代次数为t。
进一步,在步骤七中,行人重识别。随机选取了一半的素描图像和普通图像作为训练集,其余的作为测试集。并且将素描图像作为探针集,普通图像作为画廊集。给出一幅来自探针的素描图像,进行行人检索。输入素描图像集和普通图像集,按照上述公式(12),(15),(18)求解参数DS,DN,P,W。假设F是素描图像集的特征,G是普通照片集的特征,
本发明按照以下方式执行行人检索:
1)首先利用公式(9)求解素描图像集字典DS,利用学习到的投影矩阵P,来求解DS对应的系数矩阵f,计算方式如下:
2)利用公式(10)求解普通图像集字典DN,然后求解DN对应的系数矩阵g,计算方式如下:
3)通过公式(19)和公式(20)求解出素描图像集所对应的系数矩阵f和普通图像集所对应的系数矩阵g,本发明可以检索在普通图像集中所对应的素描图像,可以通过计算两个图像之间的距离来获得,计算方式如下:
计算公式(21),求解出所对应的距离,再对距离进行排序,其中距离最小的普通照片就是利用素描图像所检索出来的图片。
下面结合实验对本发明做进一步描述。
为验证本算法是否有很好的优越性,将基于素描图像的半耦合度量鉴别字典学习的行人检索算法与6种对比算法KISSME、XQDA、TDL、SLD2L、JDML 和PCB进行比较。这6种对比算法包括基于度量,基于字典学习,基于深度学习,基于行人重识别的算法。最后在本发明的新数据集SINPID作为实验数据进行验证。
检索识别的评估指标是累计匹配特性曲线CMC,CMC曲线是一种top-k的匹配概率,将普通图像集中的每个样本依次与其探针图像集算取一个距离,然后进行排序的,rank是本发明所选取的top-k的值,CMC匹配率的值是趋于1 的,如果测试的次数越多,识别的准确率越好。
为了验证本发明方法SMD2L的性能,在新的SINPID数据集做实验,实验结果为表1和图2。
表1在SINPID数据集上的top-r的匹配率
图2中(a)表示的是使用LOMO特征的实验结果,(b)中表示的是使用PCB 特征的实验结果。从表1中的实验结果可以看出:本发明的算法在对比算法中获得了较高的匹配率,例如,SMD2L在SINPID数据集有LOMO特征的对比算法XQDA相比,Rank-1的匹配率提高了2.1%(=36.2%-34.1%)。同时本发明也利用了深度特征进行评估,看出有些结果低于LOMO特征的方法。其原因可能有三方面:1)SINPID数据集只有400幅200人的图像,这使得PCB没有经过足够的样本训练。2)水彩素描式图像比另一台摄像机的普通照片包含的信息量少。3) 网络体系结构不适用于异构行人样本,而适用于两种正常样本。
通过以上实验可以看出:本发明方法SMD2L的大多数匹配率都优于其他具有LOMO特征和PCB深度特征的方法。主要有3个方面:1)采用半耦合映射策略,能够将素描图像与普通照片的关系连接起来,减少异构样本之间的差异。 2)学习度量矩阵可以揭示异构数据的内在投影。3)对于复杂场景下的素描图像和普通照片,词典对具有较好的适用性。4)判别约束能使同一类别紧凑和不同类别分离,有利于检索和分类任务。从以上分析可以看出,新的SINPID数据集对不同类型的特征是稳定的,适用于行人检索的进一步评价,表明了SMD2L算法的优越性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于素描图像的半耦合度量鉴别字典学习的行人检索方法,其特征在于,所述基于素描图像的半耦合度量鉴别字典学习的行人检索方法包括:
建立异构行人检索数据库SINPID,包括素描图像集和正规图像集;进行特征提取,从图像中提取特征用相应的颜色进行不同的图像标注;
对提取出来的样本特征进行对异构的数据处理;引入字典学习方法学习异构数据的字典对,从素描图像集和正规图像集中学习映射矩阵;
并引入鉴别算法学习度量,进行基于素描图像的半耦合度量鉴别字典学习的行人检索;
所述基于素描图像的半耦合度量鉴别字典学习的行人检索算方法包括以下步骤:
步骤一、用相机拍摄照片并建立自己的数据库;
步骤二、特征提取;
步骤三、利用字典学习技术学习异构字典对DS和DN;
步骤四、从素描图像集和普通图像集学习投影矩阵P;
步骤五、利用鉴别学习的思想学习度量矩阵W;
步骤六、参数求解;
步骤七、行人重识别;
步骤三中,X=[x1,x2...xN]和Y=[y1,y2...yN]分别是素描图像集和普通图像集;X ∈Rd*N,Y∈Rd*N;d是图像特征的维数,N表示样本图像的总数量;DS和DN分别表示素描图像和普通图像的字典对,利用字典学习技术学习异构字典对的目标函数定义为:
其中字典对DS和DN分别为:DS∈Rd*m,DN∈Rd*m,m表示的是字典对中的元素的数量;A=[a1,a2...aN],B=[b1,b2...bN],A表示的是X在DS上的编码系数矩阵,B表示的是Y在DN上的编码系数矩阵;
步骤四中,P∈Rd*d是半耦合投影矩阵;通过最小化A和B编码系数矩阵的距离,得到半耦合投影矩阵;半耦合映射矩阵按以下方式计算:
步骤五中,利用鉴别思想进行度量学习和字典学习按以下方式计算:
其中S表示的是(i,j)元素属于同一类,D表示的是(i,j)元素属于不同类;
M=WTW W∈Rd*d
(5);
参数投影矩阵P,系数A,B以及鉴别约束项W;正则化项表示为:
结合上述公式(1),(2),(3),(6);于是SMD2L的目标函数改写为:
其中λ为正则化参数平衡因子;
步骤六中将公式(7)划分的字典对更新,表示系数更新和半耦合投影矩阵的更新子问题包括:
1)固定公式(8)除参数A和B外的参数以及更新参数A和B;更新A对只存在参数A的项并进行保留,公式(7)改写为:
通过将αi的导数设置为0求解;αi表示为如下:
αi=(DS TDS+PTP+λI+(1-β)WTW)-1
更新B对只存在参数B的项并进行保留,
bi=(DN TDN+(λ-1)I+(1-β)WTW)-1
2)更新DS和DN,更新DS公式(7)改写为如下:
DS的计算可以通过以下公式得到:DS=XAT(AAT+∧))-1 (12);
∧是一个对角阵,更新DN将公式(7)改写为如下:
3)更新P,固定其它参数,将公式(7)改写为:
通过将P的导数设置为0求解,P的求解如下:
P=BAT(AAT+λI))-1 (15);
4)最后更新W,固定其它参数,公式(7)改写为如下:
通过梯度下降算法来更新W,
其中t表示的是算法的迭代次数为t;
步骤七中,输入素描图像集和普通图像集,按照公式(12),(15),(18)求解参数DS,DN,P,W;F是素描图像集的特征,G是普通照片集的特征,具体包括:
利用公式(9)求解素描图像集字典DS,利用学习到的投影矩阵P,来求解DS对应的系数矩阵f,计算方式如下:
利用公式(10)求解普通图像集字典DN,然后求解DN对应的系数矩阵g,计算方式如下:
通过公式(19)和公式(20)求解出素描图像集所对应的系数矩阵f和普通图像集所对应的系数矩阵g,检索在普通图像集中所对应的素描图像,通过计算两个图像之间的距离来获得,计算方式如下:
计算公式(21),求解出所对应的距离,再对距离进行排序,距离最小的普通照片就是利用素描图像所检索出来的图片。
2.如权利要求1所述的基于素描图像的半耦合度量鉴别字典学习的行人检索方法,其特征在于,在步骤一具体包括:
用多个摄像头拍摄真实场景下的照片来收集数据,总共收集多张照片数据;然后将一摄像头的数据作为普通图像集,另外一摄像头的数据经过处理形成素描图像集;
素描图像集,随机选取一半的素描图像和普通图像的样本作为训练集,剩余的作为测试集;并且对图像集进行分割处理。
3.如权利要求1所述的基于素描图像的半耦合度量鉴别字典学习的行人检索方法,步骤二中,对所收集到的行人数据集SINPID提取出两种类型的特征进行评价,包括LOMO贴片特征和PCB深度特征;LOMO贴片特征通过贴片提取;PCB深度特征为由多个部分级特征组成的深度卷积描述符,把整个图像作为输入,并得到每幅图像的特征向量。
4.一种实施权利要求1所述的基于素描图像的半耦合度量鉴别字典学习的行人检索方法的基于素描图像的半耦合度量鉴别字典学习的行人检索控制***。
5.一种实施权利要求1所述的基于素描图像的半耦合度量鉴别字典学习的行人检索方法的交通道路行人图像检索终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910325189.4A CN110046669B (zh) | 2019-04-22 | 2019-04-22 | 基于素描图像的半耦合度量鉴别字典学习的行人检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910325189.4A CN110046669B (zh) | 2019-04-22 | 2019-04-22 | 基于素描图像的半耦合度量鉴别字典学习的行人检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046669A CN110046669A (zh) | 2019-07-23 |
CN110046669B true CN110046669B (zh) | 2019-12-24 |
Family
ID=67278414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910325189.4A Active CN110046669B (zh) | 2019-04-22 | 2019-04-22 | 基于素描图像的半耦合度量鉴别字典学习的行人检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046669B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240715A (zh) * | 2021-05-29 | 2021-08-10 | 刘文平 | 多重特征驱动的相似度量学习人物检索法 |
CN113553947B (zh) * | 2021-07-23 | 2022-05-17 | 湖南大学 | 生成描述多模态行人重识别方法、装置及电子设备 |
CN116052095B (zh) * | 2023-03-31 | 2023-06-16 | 松立控股集团股份有限公司 | 一种用于智慧城市全景视频监控的车辆重识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7567715B1 (en) * | 2004-05-12 | 2009-07-28 | The Regents Of The University Of California | System and method for representing and encoding images |
CN108027836A (zh) * | 2015-09-24 | 2018-05-11 | 高通股份有限公司 | 用捕获的查询图像访问图像的***和方法 |
CN108932518A (zh) * | 2018-06-22 | 2018-12-04 | 大连理工大学 | 一种基于视觉词袋模型的鞋印图像特征提取及检索方法 |
CN109284668A (zh) * | 2018-07-27 | 2019-01-29 | 昆明理工大学 | 一种基于距离正则化投影和字典学习的行人重识别算法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120162244A1 (en) * | 2010-12-28 | 2012-06-28 | Microsoft Corporation | Image search color sketch filtering |
CN104239359B (zh) * | 2013-06-24 | 2017-09-01 | 富士通株式会社 | 基于多模态的图像标注装置以及方法 |
CN105550649B (zh) * | 2015-12-09 | 2019-03-08 | 武汉工程大学 | 基于全耦合局部约束表示的极低分辨率人脸识别方法及*** |
JP6851193B2 (ja) * | 2016-12-20 | 2021-03-31 | 東芝テック株式会社 | 情報処理装置及びプログラム |
CN106919919B (zh) * | 2017-02-28 | 2019-08-06 | 西安电子科技大学 | 一种基于多特征融合词包模型的sar目标鉴别方法 |
CN108647690B (zh) * | 2017-10-17 | 2021-12-31 | 南京工程学院 | 基于判别稀疏保持投影的非约束人脸图像降维方法 |
CN109117860B (zh) * | 2018-06-27 | 2022-10-25 | 南京邮电大学 | 一种基于子空间投影和字典学习的图像分类方法 |
CN109064403B (zh) * | 2018-08-10 | 2022-11-01 | 安徽师范大学 | 基于分类耦合字典稀疏表示的指纹图像超分辨率方法 |
CN109409201B (zh) * | 2018-09-05 | 2021-06-18 | 昆明理工大学 | 一种基于共享及特有字典对联合学习的行人再识别方法 |
-
2019
- 2019-04-22 CN CN201910325189.4A patent/CN110046669B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7567715B1 (en) * | 2004-05-12 | 2009-07-28 | The Regents Of The University Of California | System and method for representing and encoding images |
CN108027836A (zh) * | 2015-09-24 | 2018-05-11 | 高通股份有限公司 | 用捕获的查询图像访问图像的***和方法 |
CN108932518A (zh) * | 2018-06-22 | 2018-12-04 | 大连理工大学 | 一种基于视觉词袋模型的鞋印图像特征提取及检索方法 |
CN109284668A (zh) * | 2018-07-27 | 2019-01-29 | 昆明理工大学 | 一种基于距离正则化投影和字典学习的行人重识别算法 |
Also Published As
Publication number | Publication date |
---|---|
CN110046669A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229468B (zh) | 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备 | |
Laffont et al. | Transient attributes for high-level understanding and editing of outdoor scenes | |
CN106778604B (zh) | 基于匹配卷积神经网络的行人再识别方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN110909605B (zh) | 基于对比相关的跨模态行人重识别方法 | |
CN109543602B (zh) | 一种基于多视角图像特征分解的行人再识别方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN110046669B (zh) | 基于素描图像的半耦合度量鉴别字典学习的行人检索方法 | |
CN109961051A (zh) | 一种基于聚类和分块特征提取的行人重识别方法 | |
Zhang et al. | Detecting and extracting the photo composites using planar homography and graph cut | |
CN108280411A (zh) | 一种具有空间变换能力的行人搜索方法 | |
CN112507853B (zh) | 一种基于互注意力机制的跨模态行人重识别方法 | |
CN111738048B (zh) | 一种行人再识别的方法 | |
CN107977948B (zh) | 一种面向社群图像的显著图融合方法 | |
CN113095371B (zh) | 一种面向三维重建的特征点匹配方法及*** | |
CN111046789A (zh) | 一种行人重识别方法 | |
Liao et al. | Unsupervised foggy scene understanding via self spatial-temporal label diffusion | |
Zhou et al. | Attention transfer network for nature image matting | |
CN114239754B (zh) | 基于属性特征学习解耦的行人属性识别方法及*** | |
Chang et al. | Generating 360 outdoor panorama dataset with reliable sun position estimation | |
CN114743162A (zh) | 一种基于生成对抗网络的跨模态行人重识别方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
Kınlı et al. | Modeling the lighting in scenes as style for auto white-balance correction | |
Di Martino et al. | Rethinking shape from shading for spoofing detection | |
CN114627500A (zh) | 一种基于卷积神经网络的跨模态行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |