CN110135363B - 基于判别词典嵌入行人图像检索方法、***、设备及介质 - Google Patents

基于判别词典嵌入行人图像检索方法、***、设备及介质 Download PDF

Info

Publication number
CN110135363B
CN110135363B CN201910416251.0A CN201910416251A CN110135363B CN 110135363 B CN110135363 B CN 110135363B CN 201910416251 A CN201910416251 A CN 201910416251A CN 110135363 B CN110135363 B CN 110135363B
Authority
CN
China
Prior art keywords
pedestrian
dictionary
images
pedestrian image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910416251.0A
Other languages
English (en)
Other versions
CN110135363A (zh
Inventor
董虎胜
陆萍
王利锋
许枫丹
徐建峰
孙浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Institute of Trade and Commerce
Original Assignee
Suzhou Institute of Trade and Commerce
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Institute of Trade and Commerce filed Critical Suzhou Institute of Trade and Commerce
Priority to CN201910416251.0A priority Critical patent/CN110135363B/zh
Publication of CN110135363A publication Critical patent/CN110135363A/zh
Application granted granted Critical
Publication of CN110135363B publication Critical patent/CN110135363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于判别词典嵌入行人图像检索方法、***、设备及介质,包括首先从行人图像中提取颜色与纹理特征,然后在训练集上联合学习跨视角的判别词典与度量嵌入矩阵。利用学习到的判别词典,可以把行人图像特征表达为判别性更强的词典基向量的组合系数向量,再使用学习到的度量嵌入矩阵计算测试集中不同摄像机下行人图像间的距离,实现对行人图像检索的任务。在本发明中将判别词典学习与度量学习的优势进行了组合,通过在数据集上的验证可知,本发明能够显著地提升行人图像检索的准确率。

Description

基于判别词典嵌入行人图像检索方法、***、设备及介质
技术领域
本发明涉及图像识别,具体地,涉及一种基于判别词典嵌入行人图像检索方法、***、设备及介质。
背景技术
在由多个摄像机组成的分布式视频监控***中,常常需要检索出具有特定外观的行人对象,进而对此人的行为及事件进行分析。当获得了该行人在某一摄像机下的画面后,从其他摄像机画面中检索出该行人的工作就转化为一个“以图搜图”的任务,其核心是计算检索图像与待匹配图像间的距离或相似度,使得具有相同身份标签的行人在距离上更小或是相似度更高。这样就可以在对所有待匹配图像按相似度排序后,缩小检索范围,提高检索效率。
由于同一行人被不同摄像机拍摄时可能会在姿态、视角上呈现很大的差异,而且受到摄像机内部参数、成像时光照环境、行人遮挡等因素的影响,不同摄像机画面中的行人会在外观上存在相当大的差异,这使得根据行人提供的表观信息进行行人图像检索的工作面临着巨大的挑战。
当前在处理行人图像检索的问题上主要从特征描述子设计与度量学习模型两个方面开展。前一类方法主要关注从行人图像中提取对光照、视角、姿态等引起引人外观变化的因素具有鲁棒性的特征描述子,然后再借助欧氏距离、余弦相似度、巴氏距离等不需要学习的计算方法来获得检索图像与待匹配图像之间的距离/相似度。不过这些方法在匹配性能上存在一定的不足。与之相比,度量学习模型尽管不特别强调特征描述子的鲁棒性,但是能够利用训练样本与标签蕴含的判别信息来学习匹配模型的参数,获得训练样本数据的内在分布,因此通常能够获得更为优秀的检索准确率。为了获得度量学习模型,通常需要首先在训练数据上学习模型参数,然后再将模型部署到新的环境中进行测试。
在当前已公开的论文与专利中已有大量基于度量学习模型的行人图像检索方法。在名称为“Efficient PSD Constrained Asymmetric Metric Learning for Person Re-identification”的文献中公开了一种对训练样本作不对称加权的马氏距离度量学习模型,该方法能够有效地抑制训练样本中正负样本不均衡带来的度量偏差问题。名称为“Top-Push Video-Based Person Reidentification”的文献中公开了一种“顶推”(Top Push)的度量学习模型,使用由检索样本和一对正、负待匹配样本组成的三元组来约束相对距离关系。名称为“Semi-supervised coupled dictionary learning for person re-identification”的文献中通过学习跨视角的半监督耦合词典来表达同一行人在不同摄像机下的外观。名称为“Sample-Specific SVM Learning for Person Reidentification”的文献中为每个行人学习一个支持向量机的判别向量,再进一步创建最小二乘半耦合词典来表达从行人图像中提取的特征描述子,获得了更具有判别性的特征表达来计算图像间的距离。名称为“Kernel Cross-View Collaborative Representation based Classificationfor Person Re-Identification”文献中在学习跨视角的协同表达时引入了核函数来刻画行人图像检索中的不同摄像机下行人外观的非线性变化。
现有度量学习模型中仅学习了单一的马氏距离度量矩阵,尽管马氏距离度量能够捕获特征表达向量中不同维度间的关系,但是特征表达向量自身的表达能力却未能得到提升。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种判别词典嵌入的行人图像检索方法。本发明除了能够学习度量嵌入矩阵外,还联合学习了跨视角的判别词典来提升行人图像特征表达的判别性。
根据本发明提供的基于判别词典嵌入的行人图像检索方法,包括如下步骤:
步骤S1:将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
步骤S2:将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
步骤S3:根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
步骤S4:通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
优选地,所述步骤S1包括如下步骤:
步骤S101:将所述行人图像进行两次缩放生成缩放后行人图像,其中每次缩放时图像宽度与高度均为前一次的设定倍数;
步骤S102:对所述行人图像和所述缩放后行人图像分别使用滑动窗口从图像左上角开始,在水平与垂直方向均以设定像素作为移动步长进行滑动,每次移动后从滑动窗口覆盖的区域中分别提第一HSV直方图、第一RGB直方图以及第一LTP直方图;
步骤S103:对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图;
步骤S104:使用蒙板从所述行人图像的前景中获得行人前景,先将所述行人前景划分为多个水平条,从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图;
步骤S105:使用训练后的深度残差网络模型从行人图像中提取深度卷积特征;
步骤S106:将第二HSV直方图、第二RGB直方图、第二LTP直方图、第三HSV直方图、第三RGB直方图、第三LTP直方图以及深度卷积特征作串联操作后作为每一所述行人图像的特征表达向量。
优选地,所述步骤S3包括如下步骤:
步骤S301:令所述训练数据集中由检索集中行人图像提取的特征矩阵为
Figure BDA0002064219000000031
从匹配集中行人图像提取的特征矩阵为
Figure BDA0002064219000000032
d为特征的维度,n为行人图像数;另记
Figure BDA0002064219000000033
为Xp与Xg中特征
Figure BDA0002064219000000034
Figure BDA0002064219000000035
(i,j=1,2,…,n)是否具有相同身份的标签矩阵,若相同yij=1,否则yij=-1;建立如下所示的跨视频判别词典嵌入的学习模型:
Figure BDA0002064219000000036
其中,
Figure BDA0002064219000000037
为待求解的跨视角判别词典,di为词典的第i列,m为组合系数的个数,m<n,
Figure BDA0002064219000000038
指代Xp使用词典D进行表达时的组合系数向量,
Figure BDA0002064219000000039
指代Xg使用词典D进行表达时的组合系数向量,即原始特征矩阵作变换后的特征表达,
Figure BDA00020642190000000310
为Zp第i列,
Figure BDA00020642190000000311
为Zg的第j列i,j=1,2,…,n,n为自然数;
Figure BDA00020642190000000312
为度量嵌入矩阵;
Figure BDA0002064219000000041
为距离约束损失函数,计算式为:
Figure BDA0002064219000000042
[·]+为铰链损失(Hinge Loss)函数,即[x]+=max(0,x),μ为一个正的常数,用作为判断阈值;式(2)将对具有相同身份标签但距离大于阈值的行人图像和标签不同但距离小于阈值的图人物像对进行惩罚,使得相同标签的行人图像间距离缩小,同时使得标签不同的行人图像间距离增大。
式(1)中βij
Figure BDA0002064219000000043
的贡献系数,用于抑制学***衡带来的偏差问题;βij根据
Figure BDA0002064219000000044
之间的距离自适应确定,首先对每个待匹配行人图像特征表达
Figure BDA0002064219000000045
变换为
Figure BDA0002064219000000046
计算
Figure BDA0002064219000000047
Figure BDA0002064219000000048
之间的距离,然后将
Figure BDA0002064219000000049
(i,j=1,2,…,n)划分为如下的三个组:
Figure BDA00020642190000000410
式(3)中
Figure BDA00020642190000000411
指代在根据和
Figure BDA00020642190000000412
的距离升序排序的图像列表中,
Figure BDA00020642190000000413
的排序顺序(Rank);
Figure BDA00020642190000000414
指代与
Figure BDA00020642190000000415
正确匹配的图像
Figure BDA00020642190000000416
的排序位置;
Figure BDA00020642190000000417
Figure BDA00020642190000000418
中的样本分别对应于
Figure BDA00020642190000000419
的困难匹配集(hard set)、中等匹配集(medium set)与容易匹配集(easy set).
令N+和N-分别为训练数据集中正样本对和负样本对的数量,βij的取值根据下式自适应确定:
Figure BDA00020642190000000420
步骤S302:所述跨视频判别词典嵌入学习模型固定其他参数,仅优化关于Zp的问题,此时能够获得Zp各列闭合形式的解,即按下式计算
Figure BDA00020642190000000421
Figure BDA00020642190000000422
式(5)中
Figure BDA00020642190000000423
为示性函数,当
Figure BDA00020642190000000424
时取值为δij=yij,否则δij=0;I为单位矩阵;
步骤S303:对所述跨视频判别词典嵌入学习模型固定其他参数,仅优化参数Zg;在求解后即按下式更新Zg
Figure BDA0002064219000000051
步骤S404:对所述跨视频判别词典嵌入的学习模型固定其他参数,仅优化参数D;为简化运算,令X=[Xp,Xg]和Z=[Zp,Zg],把检索集与匹配集中行人图像的特征矩阵与词典基向量组合系数矩阵进行拼合,对式(1)应用拉格朗日对偶方法求解D,可获得如下的更新运算式:
D=XZT(ZZT*)-1 (7)
式(7)中Λ*是由最优拉格朗日对偶变量组成的对角矩阵。若ZZT*在取逆时出现矩阵奇异无法计算的情况,可以对主对角线元素添加比较小的正实数来进行正则化处理。
步骤S305:对所述判别词典嵌入学习模型固定其他参数,仅优化参数W,此时的优化问题可重新表达为:
Figure BDA0002064219000000052
由于式(8)中存在铰链损失函数,无法获得闭合形式的解,为了获得参数W的最优解,可以首先计算Γ(W)关于W的梯度,再使用梯度下降法来更新W,式(8)关于W的梯度如下:
Figure BDA0002064219000000053
式(9)中
Figure BDA0002064219000000054
两者都是对角矩阵,R的主对角线上各元素是由βijδij组成的矩阵各行的和,H由对应的列和组成,在采用梯度下降方法更新W时,第t步迭代中的计算式为
Figure BDA0002064219000000055
η为更新步长;
步骤S306:对步骤S402至步骤S405作循环迭代,直至跨视频判别词典嵌入的学习模型收敛或达到最大迭代次数,在循环迭代结束后,输出模型参数D与W。
优选地,所述步骤S4包括如下步骤:
步骤S401:对检索集中的图像
Figure BDA0002064219000000056
与待匹配集中的图像
Figure BDA0002064219000000057
通过求解下式来获得使用判别词典D表达的组合系数向量
Figure BDA0002064219000000058
Figure BDA0002064219000000059
Figure BDA00020642190000000510
式(9)中
Figure BDA00020642190000000511
Figure BDA00020642190000000512
Figure BDA00020642190000000513
Figure BDA00020642190000000514
步骤S402:对每个检索集中的组合系数向量
Figure BDA00020642190000000515
按下式计算
Figure BDA00020642190000000516
Figure BDA00020642190000000517
之间的距离向量d:
Figure BDA0002064219000000061
步骤S403:对距离向量d按升序排序,获得匹配集中各图像的排序次序;
步骤S404:计算各排序次序上的匹配准确率。
本发明提供的基于判别词典嵌入的行人图像检索***,用于实现所述的基于判别词典嵌入的行人图像检索方法,包括:
特征表达向量生成模块,用于将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
数据集生成模块,用于将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
模型生成模块,用于根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
图像匹配模块,用于通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
本发明提供的基于判别词典嵌入的行人图像检索设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述基于判别词典嵌入的行人图像检索方法的步骤。
本发明提供的计算机可读存储介质,用于存储程序,所述程序被执行时实现所述基于判别词典嵌入的行人图像检索方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提供利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵,在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后,再使用度量嵌入矩阵投影到新的子空间中进行距离计算,将词典学习与度量学习的优势结果起来,能够进一步提高行人图像检索的准确率;
2、本发明在从行人图像中提取特征表达时,不仅提取了颜色与纹理特征,还使用了深度学习模型来提取深度特征,这两种不同类型特征的融合,能够带来更强的行人外观信息表达能力;
3、本发明在学***衡带来的偏差。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明在基于判别词典嵌入的行人图像检索方法的步骤流程图。
图2为本发明一实施例的算法模型流程图;
图3为本发明一实施例行人图像检索常用的VIPeR数据集中随机抽选的不同摄像机视角下的行人图像示例图;
图4为本发明与其他方法在VIPeR数据集上检索结果性能比较示意图;
图5为本发明中基于判别词典嵌入的行人图像检索***的模块示意图;
图6为本发明中基于判别词典嵌入的行人图像检索设备的结构示意图;以及
图7为本发明中计算机可读存储介质的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
在本实施例中,图1为本发明在基于判别词典嵌入的行人图像检索方法的步骤流程图,如图1所示,本发明提供的基于判别词典嵌入的行人图像检索方法,包括如下步骤:
步骤S1:将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
步骤S2:将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
步骤S3:根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
步骤S4:通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
所述步骤S1包括如下步骤:
步骤S101:将所述行人图像进行两次缩放生成缩放后行人图像,其中每次缩放时图像宽度与高度均为前一次的1/2;
步骤S102:对所述行人图像和所述缩放后行人图像分别使用10×10像素的滑动窗口从图像左上角开始,在水平与垂直方向均以5像素作为移动步长进行滑动,每次移动后从滑动窗口覆盖的区域中分别提取8×8×8维度的第一HSV直方图、第一RGB直方图以及第一LTP直方图,其中,LTP为尺度不变局部三值模式,Local Ternary Pattern;
步骤S103:对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图,即只保留每个维度上最大的值,其余值均丢弃;
步骤S104:使用蒙板从所述行人图像的前景中获得行人前景,先将所述行人前景划分为8个水平条,在去除上下两个水平条高的一半后再划分为7个水平条;从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图;
步骤S105:使用训练后的深度残差网络模型从行人图像中提取2048维的深度卷积特征;
步骤S106:将第二HSV直方图、第二RGB直方图、第二LTP直方图、第三HSV直方图、第三RGB直方图、第三LTP直方图以及深度卷积特征作串联操作后作为每一所述行人图像的特征表达向量。
图2为本发明一实施例的算法模型流程图,如图2所示,所述步骤S3包括如下步骤:
步骤S301:令所述训练数据集中由检索集中行人图像提取的特征矩阵为
Figure BDA0002064219000000081
从匹配集中行人图像提取的特征矩阵为
Figure BDA0002064219000000082
d为特征的维度,n为行人图像数;另记
Figure BDA0002064219000000083
为Xp与Xg中特征
Figure BDA0002064219000000084
Figure BDA0002064219000000085
(i,j=1,2,…,n)是否具有相同身份的标签矩阵,若相同yij=1,否则yij=-1;建立如下所示的跨视频判别词典嵌入的学习模型:
Figure BDA0002064219000000086
其中,
Figure BDA0002064219000000091
为待求解的跨视角判别词典,di为词典的第i列,m为组合系数的个数,m<n,
Figure BDA0002064219000000092
指代Xp使用词典D进行表达时的组合系数向量,
Figure BDA0002064219000000093
指代Xg使用词典D进行表达时的组合系数向量,即原始特征矩阵作变换后的特征表达,
Figure BDA0002064219000000094
为Zp第i列,
Figure BDA0002064219000000095
为Zg的第j列i,j=1,2,…,n,n为自然数;
Figure BDA0002064219000000096
为度量嵌入矩阵;
Figure BDA0002064219000000097
为距离约束损失函数,计算式为:
Figure BDA0002064219000000098
[·]+为铰链损失(Hinge Loss)函数,即[x]+=max(0,x),μ为一个正的常数,用作为判断阈值;式(2)将对具有相同身份标签但距离大于阈值的行人图像和标签不同但距离小于阈值的图人物像对进行惩罚,使得相同标签的行人图像间距离缩小,同时使得标签不同的行人图像间距离增大。
式(1)中βij
Figure BDA0002064219000000099
的贡献系数,用于抑制学***衡带来的偏差问题;βij根据
Figure BDA00020642190000000910
之间的距离自适应确定,首先对每个待匹配行人图像特征表达
Figure BDA00020642190000000911
变换为
Figure BDA00020642190000000912
计算
Figure BDA00020642190000000913
Figure BDA00020642190000000914
之间的距离,然后将
Figure BDA00020642190000000915
(i,j=1,2,…,n)划分为如下的三个组:
Figure BDA00020642190000000916
式(3)中
Figure BDA00020642190000000917
指代在根据和
Figure BDA00020642190000000918
的距离升序排序的图像列表中,
Figure BDA00020642190000000919
的排序顺序(Rank);
Figure BDA00020642190000000920
指代与
Figure BDA00020642190000000921
正确匹配的图像
Figure BDA00020642190000000922
的排序位置;
Figure BDA00020642190000000923
Figure BDA00020642190000000924
中的样本分别对应于
Figure BDA00020642190000000925
的困难匹配集(hard set)、中等匹配集(medium set)与容易匹配集(easy set).
令N+和N-分别为训练数据集中正样本对和负样本对的数量,βij的取值根据下式自适应确定:
Figure BDA00020642190000000926
步骤S302:所述跨视频判别词典嵌入学习模型固定其他参数,仅优化关于Zp的问题,此时能够获得Zp各列闭合形式的解,即按下式计算
Figure BDA00020642190000000927
Figure BDA00020642190000000928
式(5)中
Figure BDA0002064219000000101
为示性函数,当
Figure BDA0002064219000000102
对取值为δij=yij,否则δij=0;I为单位矩阵;
步骤S303:对所述跨视频判别词典嵌入学习模型固定其他参数,仅优化参数Zg;在求解后即按下式更新Zg
Figure BDA0002064219000000103
步骤S404:对所述跨视频判别词典嵌入的学习模型固定其他参数,仅优化参数D;为简化运算,令X=[Xp,Xg]和Z=[Zp,Zg],把检索集与匹配集中行人图像的特征矩阵与词典基向量组合系数矩阵进行拼合,对式(1)应用拉格朗日对偶方法求解D,可获得如下的更新运算式:
D=XZT(ZZT*)-1 (7)
式(7)中Λ*是由最优拉格朗日对偶变量组成的对角矩阵。若ZZT*在取逆时出现矩阵奇异无法计算的情况,可以对主对角线元素添加比较小的正实数来进行正则化处理。
步骤S305:对所述判别词典嵌入学习模型固定其他参数,仅优化参数W,此时的优化问题可重新表达为:
Figure BDA0002064219000000104
由于式(8)中存在铰链损失函数,无法获得闭合形式的解,为了获得参数W的最优解,可以首先计算Γ(W)关于W的梯度,再使用梯度下降法来更新W,式(8)关于W的梯度如下:
Figure BDA0002064219000000105
式(9)中
Figure BDA0002064219000000106
两者都是对角矩阵,R的主对角线上各元素是由βijδij组成的矩阵各行的和,H由对应的列和组成,在采用梯度下降方法更新W时,第t步迭代中的计算式为
Figure BDA0002064219000000107
η为更新步长;
步骤S306:对步骤S402至步骤S405作循环迭代,直至跨视频判别词典嵌入的学习模型收敛或达到最大迭代次数,在循环迭代结束后,输出模型参数D与W。
所述步骤S4包括如下步骤:
步骤S401:对检索集中的图像
Figure BDA0002064219000000108
与待匹配集中的图像
Figure BDA0002064219000000109
通过求解下式来获得使用判别词典D表达的组合系数向量
Figure BDA00020642190000001010
Figure BDA00020642190000001011
Figure BDA00020642190000001012
式(9)中
Figure BDA0002064219000000111
Figure BDA0002064219000000112
Figure BDA0002064219000000113
Figure BDA0002064219000000114
步骤S402:对每个检索集中的组合系数向量
Figure BDA0002064219000000115
按下式计算
Figure BDA0002064219000000116
Figure BDA0002064219000000117
之间的距离向量d:
Figure BDA0002064219000000118
步骤S403:对距离向量d按升序排序,获得匹配集中各图像的排序次序;
步骤S404:计算各排序次序上的匹配准确率。
图3为本发明一实施例行人图像检索常用的VIPeR数据集中随机抽选的不同摄像机视角下的行人图像示例图。图中每列两张图像为同一行人被不同摄像机拍摄时的画面,该数据集中不同摄像机拍摄的行人图像在光照与视角上存在强烈的差异。
图4为本发明与其他方法在VIPeR数据集上检索结果性能比较示意图。图中采用的性能评价标准为CMC累积匹配率(Cumulative Matching Rate)特征曲线,其横坐标为各排序次序,纵坐标为累积的正确匹配率(百分比),曲线左靠近左上角说明算法的检索性能越优秀。图中CDDM指代本发明提出的基于跨视角判别词典嵌入(Cross-view DiscriminativeDictionary Learning with Metric Embedding,CDDM)的行人图像检索方法。SCSP表示具有空间约束的二次核相似度检索方法(Spatially Constrained Similarity usingPolynomial kernel,SCSP);KX-CRC表示基于核化跨视角协同表达分类(Kernel Cross-View Collaborative Representation based Classification,KX-CRC)的行人图像检索方法;NFST指代使用零空间Folly-Sammon变换(Null Folly-Sammon Transformation)进行图像检索的方法;CRAFT指代摄像机相关性已知的特征扩增(Camera coRrelation AwareFeature augmenTation,CRAFT)方法;GOG指代高斯化高斯(Gaussian of Gaussian,GOG)方法;MLAPG指代基于加速近邻梯度的度量学习(Metric Learning by AcceleratedProximal Gradient,MLAPG)方法;XQDA指代跨视角二次判别分析(Cross-view QuadraticDiscriminant Analysis,XQDA)方法。从对比结果可以看出本发明的方法明显优于现有的行人图像检索方法。主要是因为在本发明提出的方法中融合了判别词典学习与度量学习的优势,不仅利用判别词典将原行人图像的特征表达为更具判别性的词典基向量组合系数向量,还利用了度量嵌入矩阵把变换后的表达投影到新的特征子空间中计算图像间的距离。因此本发明提出的方法能够更好的捕捉行人在不同摄像机视角下的外观变化关系,具有更高的图像检索准确率。
图5为本发明中基于判别词典嵌入的行人图像检索***的模块示意图,如图5所示,本发明提供的基于判别词典嵌入的行人图像检索***,用于实现所述的基于判别词典嵌入的行人图像检索方法,包括:
特征表达向量生成模块,用于将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
数据集生成模块,用于将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
模型生成模块,用于根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
图像匹配模块,用于通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
本发明实施例中还提供的基于判别词典嵌入的行人图像检索设备,包括处理器,存储器,其中存储有处理器的可执行指令。其中,处理器配置为经由执行可执行指令来执行基于判别词典嵌入的行人图像检索方法的步骤。
如上,该实施例中利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵,在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后,再使用度量嵌入矩阵投影到新的子空间中进行距离计算,将词典学习与度量学习的优势结果起来,能够进一步提高行人图像检索的准确率。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
图6是本发明中基于判别词典嵌入的行人图像检索设备的结构示意图的结构示意图。下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图6中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。
本发明实施例中还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现的图像拼接方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例的计算机可读存储介质的程序在执行时,利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵,在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后,再使用度量嵌入矩阵投影到新的子空间中进行距离计算,将词典学习与度量学习的优势结果起来,能够进一步提高行人图像检索的准确率。
图7是本发明的计算机可读存储介质的结构示意图。参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本实施例中,本发明提供利用训练数据及其标签所蕴含的判别信息联合学***衡带来的偏差。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (7)

1.一种基于判别词典嵌入的行人图像检索方法,其特征在于,包括如下步骤:
步骤S1:将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
步骤S2:将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
步骤S3:根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
步骤S4:通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
2.根据权利要求1所述的基于判别词典嵌入的行人图像检索方法,其特征在于,所述步骤S1包括如下步骤:
步骤S101:将所述行人图像进行两次缩放生成缩放后行人图像,其中每次缩放时图像宽度与高度均为前一次的设定倍数;
步骤S102:对所述行人图像和所述缩放后行人图像分别使用滑动窗口从图像左上角开始,在水平与垂直方向均以设定像素作为移动步长进行滑动,每次移动后从滑动窗口覆盖的区域中分别提第一HSV直方图、第一RGB直方图以及第一LTP直方图;
步骤S103:对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图;
步骤S104:使用蒙板从所述行人图像的前景中获得行人前景,先将所述行人前景划分为多个水平条,从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图;
步骤S105:使用训练后的深度残差网络模型从行人图像中提取深度卷积特征;
步骤S106:将第二HSV直方图、第二RGB直方图、第二LTP直方图、第三HSV直方图、第三RGB直方图、第三LTP直方图以及深度卷积特征作串联操作后作为每一所述行人图像的特征表达向量。
3.根据权利要求1所述的基于判别词典嵌入的行人图像检索方法,其特征在于,所述步骤S3包括如下步骤:
步骤S301:令所述训练数据集中由检索集中行人图像提取的特征矩阵为
Figure FDA0002064218990000021
从匹配集中行人图像提取的特征矩阵为
Figure FDA0002064218990000022
d为特征的维度,n为行人图像数;另记
Figure FDA0002064218990000023
为Xp与Xg中特征
Figure FDA0002064218990000024
Figure FDA0002064218990000025
是否具有相同身份的标签矩阵,若相同yij=1,否则yij=-1;建立如下所示的跨视频判别词典嵌入的学习模型:
Figure FDA0002064218990000026
其中,
Figure FDA0002064218990000027
为待求解的跨视角判别词典,di为词典的第i列,m为组合系数的个数,m<n,
Figure FDA0002064218990000028
指代Xp使用词典D进行表达时的组合系数向量,
Figure FDA0002064218990000029
指代Xg使用词典D进行表达时的组合系数向量,即原始特征矩阵作变换后的特征表达,
Figure FDA00020642189900000210
为Zp第i列,
Figure FDA00020642189900000211
为Zg的第j列i,j=1,2,…,n,n为自然数;
Figure FDA00020642189900000212
为度量嵌入矩阵;
Figure FDA00020642189900000213
为距离约束损失函数,计算式为:
Figure FDA00020642189900000214
[·]+为铰链损失(Hinge Loss)函数,即[x]+=max(0,x),μ为一个正的常数,用作为判断阈值;式(2)将对具有相同身份标签但距离大于阈值的行人图像和标签不同但距离小于阈值的图人物像对进行惩罚,使得相同标签的行人图像间距离缩小,同时使得标签不同的行人图像间距离增大;
式(1)中βij
Figure FDA00020642189900000215
的贡献系数,用于抑制学***衡带来的偏差问题;βij根据
Figure FDA00020642189900000216
之间的距离自适应确定,首先对每个待匹配行人图像特征表达
Figure FDA00020642189900000217
变换为
Figure FDA00020642189900000218
计算
Figure FDA00020642189900000219
Figure FDA00020642189900000220
之间的距离,然后将
Figure FDA00020642189900000221
划分为如下的三个组:
Figure FDA00020642189900000222
式(3)中
Figure FDA00020642189900000223
指代在根据和
Figure FDA00020642189900000224
的距离升序排序的图像列表中,
Figure FDA00020642189900000225
的排序顺序(Rank);
Figure FDA00020642189900000226
指代与
Figure FDA00020642189900000227
正确匹配的图像
Figure FDA00020642189900000228
的排序位置;
Figure FDA00020642189900000229
Figure FDA00020642189900000230
中的样本分别对应于
Figure FDA00020642189900000231
的困难匹配集(hard set)、中等匹配集(medium set)与容易匹配集(easy set).
令N+和N-分别为训练数据集中正样本对和负样本对的数量,βij的取值根据下式自适应确定:
Figure FDA0002064218990000031
步骤S302:所述跨视频判别词典嵌入学习模型固定其他参数,仅优化关于Zp的问题,此时能够获得Zp各列闭合形式的解,即按下式计算
Figure FDA0002064218990000032
Figure FDA0002064218990000033
式(5)中
Figure FDA0002064218990000034
为示性函数,当
Figure FDA0002064218990000035
时取值为δij=yij,否则δij=0;I为单位矩阵;
步骤S303:对所述跨视频判别词典嵌入学习模型固定其他参数,仅优化参数Zg;在求解后即按下式更新Zg
Figure FDA0002064218990000036
步骤S404:对所述跨视频判别词典嵌入的学习模型固定其他参数,仅优化参数D;为简化运算,令X=[Xp,Xg]和Z=[Zp,Zg],把检索集与匹配集中行人图像的特征矩阵与词典基向量组合系数矩阵进行拼合,对式(1)应用拉格朗日对偶方法求解D,可获得如下的更新运算式:
Figure FDA0002064218990000039
式(7)中Λ*是由最优拉格朗日对偶变量组成的对角矩阵; 若
Figure FDA00020642189900000310
在取逆时出现矩阵奇异无法计算的情况,可以对主对角线元素添加比较小的正实数来进行正则化处理;
步骤S305:对所述判别词典嵌入学习模型固定其他参数,仅优化参数W,此时的优化问题可重新表达为:
Figure FDA0002064218990000037
由于式(8)中存在铰链损失函数,无法获得闭合形式的解,为了获得参数W的最优解,可以首先计算Γ(W)关于W的梯度,再使用梯度下降法来更新W,式(8)关于W的梯度如下:
Figure FDA0002064218990000038
式(9)中
Figure FDA0002064218990000041
两者都是对角矩阵,R的主对角线上各元素是由βijδij组成的矩阵各行的和,H由对应的列和组成,在采用梯度下降方法更新W时,第t步迭代中的计算式为
Figure FDA0002064218990000042
η为更新步长;
步骤S306:对步骤S402至步骤S405作循环迭代,直至跨视频判别词典嵌入的学习模型收敛或达到最大迭代次数,在循环迭代结束后,输出模型参数D与W。
4.根据权利要求3所述的基于判别词典嵌入的行人图像检索方法,其特征在于,所述步骤S4包括如下步骤:
步骤S401:对检索集中的图像
Figure FDA0002064218990000043
与待匹配集中的图像
Figure FDA0002064218990000044
通过求解下式来获得使用判别词典D表达的组合系数向量
Figure FDA0002064218990000045
Figure FDA0002064218990000046
Figure FDA0002064218990000047
式(9)中
Figure FDA0002064218990000048
Figure FDA0002064218990000049
Figure FDA00020642189900000410
Figure FDA00020642189900000411
步骤S402:对每个检索集中的组合系数向量
Figure FDA00020642189900000412
按下式计算
Figure FDA00020642189900000413
Figure FDA00020642189900000414
之间的距离向量d:
Figure FDA00020642189900000415
步骤S403:对距离向量d按升序排序,获得匹配集中各图像的排序次序;
步骤S404:计算各排序次序上的匹配准确率。
5.一种基于判别词典嵌入的行人图像检索***,用于实现权利要求1至4中任一项所述的基于判别词典嵌入的行人图像检索方法,其特征在于,包括:
特征表达向量生成模块,用于将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
数据集生成模块,用于将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
模型生成模块,用于根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
图像匹配模块,用于通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
6.一种基于判别词典嵌入的行人图像检索设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1 至 4 中任意一项所述基于判别词典嵌入的行人图像检索方法的步骤。
7.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1 至 4 中任意一项所述基于判别词典嵌入的行人图像检索方法的步骤。
CN201910416251.0A 2019-05-13 2019-05-13 基于判别词典嵌入行人图像检索方法、***、设备及介质 Active CN110135363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910416251.0A CN110135363B (zh) 2019-05-13 2019-05-13 基于判别词典嵌入行人图像检索方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910416251.0A CN110135363B (zh) 2019-05-13 2019-05-13 基于判别词典嵌入行人图像检索方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN110135363A CN110135363A (zh) 2019-08-16
CN110135363B true CN110135363B (zh) 2022-09-27

Family

ID=67571604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910416251.0A Active CN110135363B (zh) 2019-05-13 2019-05-13 基于判别词典嵌入行人图像检索方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN110135363B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112068866B (zh) * 2020-09-29 2022-07-19 支付宝(杭州)信息技术有限公司 更新业务模型的方法及装置
CN114332621B (zh) * 2021-12-30 2023-06-13 华智生物技术有限公司 一种基于多模型特征融合的病虫害识别方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330397A (zh) * 2017-06-28 2017-11-07 苏州经贸职业技术学院 一种基于大间隔相对距离度量学习的行人重识别方法
CN107506700A (zh) * 2017-08-07 2017-12-22 苏州经贸职业技术学院 基于广义相似性度量学习的行人再识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858502B2 (en) * 2014-03-31 2018-01-02 Los Alamos National Security, Llc Classification of multispectral or hyperspectral satellite imagery using clustering of sparse approximations on sparse representations in learned dictionaries obtained using efficient convolutional sparse coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330397A (zh) * 2017-06-28 2017-11-07 苏州经贸职业技术学院 一种基于大间隔相对距离度量学习的行人重识别方法
CN107506700A (zh) * 2017-08-07 2017-12-22 苏州经贸职业技术学院 基于广义相似性度量学习的行人再识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多视觉词典的显著性加权图像检索方法;孔超等;《数据采集与处理》;20170315(第02期);全文 *

Also Published As

Publication number Publication date
CN110135363A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
US10691899B2 (en) Captioning a region of an image
CN111310731B (zh) 基于人工智能的视频推荐方法、装置、设备及存储介质
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
US9978002B2 (en) Object recognizer and detector for two-dimensional images using Bayesian network based classifier
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
US6829384B2 (en) Object finder for photographic images
KR100647322B1 (ko) 객체의 모양모델 생성장치 및 방법과 이를 이용한 객체의특징점 자동탐색장치 및 방법
US9070041B2 (en) Image processing apparatus and image processing method with calculation of variance for composited partial features
US20100272366A1 (en) Method and device of detecting object in image and system including the device
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
US20150235074A1 (en) Face Detector Training Method, Face Detection Method, and Apparatuses
CN105005772A (zh) 一种视频场景检测方法
CN109413510B (zh) 视频摘要生成方法和装置、电子设备、计算机存储介质
CN110516707B (zh) 一种图像标注方法及其装置、存储介质
TW200529093A (en) Face image detection method, face image detection system, and face image detection program
CN110135363B (zh) 基于判别词典嵌入行人图像检索方法、***、设备及介质
Shah et al. Efficient portable camera based text to speech converter for blind person
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及***
CN112446322A (zh) 眼球特征检测方法、装置、设备及计算机可读存储介质
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN115862055A (zh) 基于对比学习和对抗训练的行人重识别方法及装置
CN111242114B (zh) 文字识别方法及装置
KR101334858B1 (ko) 나비종 자동분류 시스템 및 방법, 이를 이용한 나비종 자동분류 기능이 구비된 휴대 단말기
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant