CN117115850A - 一种基于离线蒸馏的轻量级行人重识别方法 - Google Patents

一种基于离线蒸馏的轻量级行人重识别方法 Download PDF

Info

Publication number
CN117115850A
CN117115850A CN202310562808.8A CN202310562808A CN117115850A CN 117115850 A CN117115850 A CN 117115850A CN 202310562808 A CN202310562808 A CN 202310562808A CN 117115850 A CN117115850 A CN 117115850A
Authority
CN
China
Prior art keywords
pedestrian
network
image
training
distillation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310562808.8A
Other languages
English (en)
Inventor
吕泽
王进
陈海明
芦欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANTONG INSTITUTE OF TECHNOLOGY
Nantong University
Original Assignee
NANTONG INSTITUTE OF TECHNOLOGY
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANTONG INSTITUTE OF TECHNOLOGY, Nantong University filed Critical NANTONG INSTITUTE OF TECHNOLOGY
Priority to CN202310562808.8A priority Critical patent/CN117115850A/zh
Publication of CN117115850A publication Critical patent/CN117115850A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于离线蒸馏的轻量级行人重识别方法,在数据集中选取行人的若干张图像构建样本,基于残差网络和归一化的注意力机制,提取样本中图像的特征,通过全连接网络和损失函数,基于提取后的图像特征,训练教师网络,根据获得的教师网络,通过解耦知识蒸馏,协助训练出性能相近的学生网络,并应用该模型,对目标区域的行人进行重识别;本发明提出了基于离线蒸馏的轻量级行人重识别网络,在仅损失少量精度的前提下,极大地降低了网络模型的参数量,有效地提升了行人重识别的推理速度。

Description

一种基于离线蒸馏的轻量级行人重识别方法
技术领域
本发明属于人工智能和计算机视觉技术领域,尤其涉及一种基于离线蒸馏的轻量级行人重识别方法。
背景技术
行人重识别是从大量摄像机拍的行人图像中,识别出特定的行人。行人重识别一般不需要识别图片中是否有人像和切割图像,只涉及将分割好的人物图像识别出具体的身份,这在智能监控领域有着相当广阔的应用前景,比如刑事侦查、无人超市、走失救助。具体地,出于公共安全或者防疫等需求,需要对某些区域监控,然后识别出经过的行人的身份或者搜索某个人出现过的地方。如在一个公共场合内布置了监控摄像头,现给定一张行人图像,需要对其所有摄像头捕获的图像进行识别,分辨出同一身份的行人图像。
在早期的研究中,为解决不同摄像头所捕获的行人图像存在背景、姿态、视角和遮挡等差异的问题,前人提出了许多解决办法且取得了不错的效果,这些方法大多分为三类:结合局部特征、融合注意力机制、设计专属的行人重识别特征提取网络。
然而,在网络中加入各类技巧会大大增加网络参数量和计算量,这对行人重识别***的效率有很大影响。例如,在刑侦、传染病排查等一些特定场景下,行人重识别的时效性尤为重要。庞大的体积也将限制它的应用,这点尤其在各类边缘设备上更加明显。
发明内容
发明目的:本发明的目的在于提供一种基于离线蒸馏的轻量级行人重识别方法,利用离线蒸馏的方式,极大地缩减了模型的参数量,从而提高了运行速度。
技术方案:本发明的一种基于离线蒸馏的轻量级行人重识别方法,在数据集中选取目标区域若干行人,并对每个行人分别选择的若干张图像构建样本,通过执行以下步骤,训练学生网络模型,并应用该模型,对目标区域的行人进行重识别;
步骤1:在数据集中选取目标区域若干行人,并对每个行人分别选择的若干张图像构建样本,进入步骤2;
步骤2:在前N个epoch中,基于残差网络和归一化的注意力机制,提取样本中图像的特征,进入步骤3;
步骤3:通过全连接网络和损失函数,基于提取后的图像特征,训练教师网络,进入步骤4;
步骤4:在N个epoch后,根据获得的教师网络,通过解耦知识蒸馏,协助训练学生网络,进入步骤5;
步骤5:若达到指定的训练轮数,则进行步骤6,否则继续训练,返回步骤1;
步骤6:得到训练完成的学生网络模型,并应用该模型,对目标区域的行人进行重识别。
进一步的,步骤1具体为:所述数据集包括Market1501和DukeMTMC-ReID,所述图像通过随机裁剪、水平翻转和擦除三种数据增强方法增强鲁棒性;图像由红、绿、蓝三种基色构成,并含有三个通道,每种通道与基色相对应。设行人图像共有n1张,图像样本表示为,其中,Ii表示第i幅行人图像,yi分别表示Ii对应的身份。
进一步的,步骤2具体包括如下步骤:
步骤2-1:将图像Ii输入网络,分别经过一层卷积网络,用来提取它的初步特征fi
步骤2-2:将fi输入由ResNet50后四层的卷积层和基于归一化的注意力块组成的网络中,获得具有信息的图像特征;
步骤2-3:输出图像特征。
进一步的,步骤2-2中,将基于归一化的注意力块内嵌在ResNet50网络中,增强行人显著特征。基于归一化的注意力块具有增强特征显著通道和抑制特征不显著通道的特点,解决了不显著通道信息带来的负面影响,提高模型提取有效信息的效率,从而提高模型的准确性。
将ResNet50每个瓶颈的第二个批归一化替换成分组归一化。在深度神经网络中,批归一化效果较好,但太过依赖于批的大小,若批次大小过大或过小,批归一化处理的效果就会变差。将ResNet50每个瓶颈的第二个批归一化替换成分组归一化,解决了批归一化极度依赖批大小的缺陷。
步骤2中,将整个训练流程分为2个阶段。我们在前N个epoch中,只训练以ResNet50为骨干网络的教师网络;N个epoch后,只训练学生网络,以获得效果良好的学生网络,也就是我们最终应用的模型。
进一步的,步骤3具体包括如下步骤:
步骤3-1:将步骤2获得的图像特征先是经过Softmax激活层,进入步骤3-2;
步骤3-2:将步骤3-1获得的图像特征再经过全连接层,降低信息的维度的同时,充分感知图像信息,获得与类别对应的维度信息,进入步骤3-3;
步骤3-3:将步骤3-2获得的维度信息,利用加权正则化三元组损失、带平滑标签的交叉熵损失和中心损失,共同训练教师网络。
进一步的,在传统三元组损失的基础上,增加了加权正则化的过程,继承了三元组损失优化正负样本之间的距离的优点,且避免了引入范围参数。不仅增加了三元组损失的适用范围,而且提升了模型的训练速度和检索任务的准确率。所述加权正则化三元组损失对锚点的权值进行评分,并添加正则化的步骤,进而计算出损失;使用权重衰减因子为5×10-4的L2正则化,采用欧式距离的方式度量两个特征向量之间的距离,如式(1)所示:
D(f1,f2)=||f1-f2||2 (1)
其中,f1和f2代表行人图像的特征向量,假设在训练集中选取P个行人身份,从每个行人身份中随机选取K张行人图像,则每一个批次内有P*K张行人图像,针对行人重识别任务的加权正则化三元组损失如式(2)所示:
其中,(i,j,k)表示每批训练图像内的一个困难三元组,i为每个批中的锚点图像,Pi表示正样本集,Ni表示负样本集,和/>分别表示锚点图像与正样本图像和负样本图像间的距离,ρ代表人为设定的阈值参数,/>和/>为权值。
进一步的,所述交叉熵损失函数在训练时,在训练集中选取P个身份,从每个身份中随机选取K张行人图像,每一个Batch内有PK张行人图像,为了克服模型过拟合的问题,本文采用了带平滑标签的交叉熵损失,增强模型的泛化能力。针对行人重识别任务的身份损失如式(3)所示:
其中,yi,k代表第i张图像的身份是否为k,N表示数据集中行人总类别数,pi,k表示第i张图像的身份是为k的概率。
进一步的,所述中心损失通过为每个类别学习一个中心特征点,在训练过程中不断拉进同类样本,以达到缩小类内距离的作用,其计算如式(4)所示:
其中,B为batchsize,fi为第i个人的特征,yi为第i个人的标签。
进一步的,所述教师网络每一层的输出均使用上述三种损失函数加以限制,故最终的损失函数如式(5)所示:
L=Lwrt+Lcls+Lcenter (5)
其中,Lwrt表示加权正则化三元组损失,Lcls表示交叉熵损失函数,Lcenter表示中心损失。
所述步骤4利用解耦知识蒸馏(DKD)协助教师网络训练学生网络。解耦知识蒸馏是将最基本的知识蒸馏分为两个部分分别进行蒸馏,一部分为目标类概率的相似性进行知识蒸馏,另一部分为非目标类概率的相似性进行知识蒸馏。
作为优选,步骤4具体包括如下步骤:
步骤4-1:将输入的图片分别输入教师网络和学生网络,得到两个模型关于输入图片的概率;
步骤4-2:根据步骤4-1获得的目标类概率,计算它们的相似性,完成TCKD部分的目标类蒸馏;
步骤4-3:根据步骤4-1获得的非目标类概率,计算它们的相似性,完成NCKD部分的目标类蒸馏;
步骤4-4:根据根据TCKD和NCKD两部分的相似性,共同约束,反向传播训练学生网络。
步骤4中利用解耦知识蒸馏(DKD)协助教师网络训练学生网络。解耦知识蒸馏是将最基本的知识蒸馏分为两个部分分别进行蒸馏,一部分为目标类概率的相似性进行知识蒸馏,另一部分为非目标类概率的相似性进行知识蒸馏。如图7所示,图中TCKD部分即为目标类蒸馏,NCKD为非目标类蒸馏。解耦知识蒸馏认为,TCKD部分仅仅给学生网络传递了部分“难度”知识,知识蒸馏真正起作用的部分在于NCKD,而传统的知识蒸馏中的却限制了该部分。给定一个共C类,目标类为t的训练样本,在训练时,其通过网络并使用Softmax函数输出的结果,将其分为两个部分,第一部分为表示目标类概率向量,第二部分为非目标类概率向量,使用这两部分蒸馏的和作为蒸馏结果。
发明原理:本发明设计了一个以ResNet50为骨干网络的教师网络,然后协助训练一个以MobileNetv2为骨干网络的学生网络,最后应用学生网络。首先,本发明提出了融合基于归一化的注意力机制的残差网络,充分感知图片信息。特别地,本发明加入了基于归一化的注意力模块,增强特征显著通道和抑制特征不显著通道,解决了不显著通道信息带来的负面影响,提高模型提取有效信息的效率。其次,本发明提出了将ResNet50每个瓶颈的第二个批归一化替换成分组归一化(GN),解决了批归一化极度依赖批大小的缺陷。
有益效果:与现有技术相比,本发明具有如下显著优点:本发明提出了基于离线蒸馏的轻量级行人重识别网络,成功地将注意力机制融入到了深度学习模型中,并有选择地批归一化替换成分组归一化,在不带来额外的计算的负担的情况下,实现了不错的性能提升。本发明通过将性能优异的重量级模型中的知识蒸馏到效率高的轻量级模型中,在压缩模型领域起到了很好的效果,解决上述行人重识别模型大导致的难以部署的问题。本发明能在仅损失少量精度的前提下,极大地降低了网络模型的参数量,有效地提升了行人重识别的推理速度。
附图说明
图1为Market1501数据集中2个不同行人在不同角度拍摄的图;
图2为DukeMTMC-ReID数据集中2个不同行人在不同角度拍摄的图;
图3为本发明基于离线蒸馏的轻量级行人重识别方法网络框架;
图4为本发明训练阶段流程图;
图5为本发明基于归一化的注意力块结构图;
图6为不同归一化示意图;
图7为解耦知识蒸馏示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本发明提出一种轻量级行人重识别方法,以减少模型的大小从而提高模型的推理速度。具体地,本发明提出基于离线蒸馏的轻量级行人重识别特征提取网络,该网络的框架图如图3所示。
本发明所提出的网络的训练流程图如图4所示。该训练流程采用小批量训练(mini-batch)的方式进行训练,每批次将随机选取P个行人,对这些行人分别随机选择K张图像。接下来,将以输入一张图像为例,介绍训练流程,具体如下:
步骤1:在前N个epoch中,输入PK张彩色图像至轻量级行人重识别特征提取网络,进入步骤2;
步骤2:利用Resnet50网络和基于归一化的注意力块,将步骤1中输入的图像生成富含信息的图片特征,进入步骤3;
步骤3:通过全连接网络和损失函数,训练出性能良好的教师网络,进入步骤4;
步骤4:在N个epoch后,根据获得的教师网络,使用解耦知识蒸馏(DKD),协助训练出性能相近的学生网络,进入步骤5;
步骤5:若达到指定的训练轮数,则进行步骤6,否则继续完成训练,返回步骤1;
步骤6:结束。
图1所示的是2015年的论文《Person Re-identification Meets Image Search》提出的数据集Market1501内的部分的行人图像,Market1501数据集是使用6个摄像机,并用Dynamic Movement Primitives行人检测方法采集而得,共有由1501个行人的32668张图像。其中共12936张图像由751人组成并作为训练集,共19732图像由750人组成并作为测试集。测试集又分为3368张查询图像和19364张待查询图像。
图2所示的是2017年的论文《Unlabeled Samples Generated by GAN Improvethe Person Re-identification Baseline in Vitro》提出的数据集DukeMTMC-ReID内的部分的行人图像,DukeMTMC-ReID数据集是DukeMTMC的数据集的一个子集,专门用于行人重识别。该数据集由8个摄像机采集而得,其中由1404个行人被2个及以上的摄像机捕捉到。训练集包括由702个行人组成的16522张图像,测试集包括由702个行人组成的19889张图像。测试集又分为2228张查询图片和17661张待查询图片。
作为优选,步骤1中的图像均来自于行人重识别的标准数据集,Market1501和DukeMTMC-ReID数据集等。图像由红、绿、蓝三种基色构成,并含有三个通道,每种通道与基色相对应。本发明假设行人图像共有n1张,图像样本可表示为。其中,Ii表示第i幅行人图像,yi分别表示Ii对应的身份。对每个图像进行带零填充的随机裁剪与随机水平翻转的操作,最后形成高为256,宽为128的行人图像。与上文所述一致,本发明以输入P个样本{Ii,yi}为例,介绍本发明在训练过程中的工作原理。
作为优选,步骤1中的图像均考虑了随机裁剪、水平翻转和擦除三种数据增强方法,增强模型的鲁棒性。
作为优选,步骤2中本发明利用残差网络(Residual Network)和基于归一化的注意力机制(Normalization-based Attention Module)提取特征。其中,ResNet50网络是残差网络中的典型网络,包含了50个二维卷积操作。本发明采用ResNet50网络,能够增加网络深度,提高特征表达能力。
作为优选,步骤2中本发明同时以基于归一化的注意力块的形式,内嵌在ResNet50网络中,增强行人显著特征。基于归一化的注意力块具有增强特征显著通道和抑制特征不显著通道的特点,解决了不显著通道信息带来的负面影响,提高模型提取有效信息的效率,从而提高模型的准确性。首先让特征经过Group Normalization,然后利用归一化的参数对通道进行加权,权重设置见式1:
式中W为通道权重,通道权重能够增强特征明显通道和抑制特征不显著通道,γ为Group Normalization的放缩因子,得到权重后,将其与特征相乘并经过Sigmoid函数得到注意特征,最后将原特征与注意特征相乘,得到输出特征。
NAM注意力的计算过程见式2:
xout=Sigmoid(W(GN(xin))) (2)
式中xin为输入特征,xout为输出特征,W为权重,GN为Group Normalization。注意力块的结构如图5所示。
作为优选,由于该注意力为无参注意力,并不会增加网络参数,且该注意力计算量较小,所以在本方法中,该注意力模块不仅嵌入到教师网络中,还少量嵌入到学生网络中。
作为优选,步骤2中本发明同时将ResNet50每个瓶颈的第二个批归一化替换成分组归一化,解决了批归一化极度依赖批大小的缺陷。
为克服梯度***的问题,深度神经网络中需要加入归一化处理,如图6所示,从左到右分别为批归一化处理、层归一化处理、实例归一化处理和分组归一化处理,其中批归一化处理是针对每个批次做归一化,层归一化处理是针对每个通道做归一化,实例归一化处理是针对每个样本的特征做归一化,分组归一化处理将每个通道分组,对每个分组做归一化。在计算机视觉领域,批归一化效果较好,但太过依赖于批的大小,若批次大小过大或过小,批归一化处理的效果就会变差,而分组归一化处理就能很好的解决这个问题。
为更好的介绍Group Normalization,首先介绍特征归一化的一般方法,如式3所示为一般归一化的公式:
其中,x表示网络某一层输出的特征,i=(iN,iC,iH,iW)是以(N,C,H,W)顺序索引特征的四维向量的索引,其中N是批处理轴,C是通道轴,H、W是空间高度和宽度轴,σ、ε分别表示标准差和平均值,公式表示见式4:
其中,ε为常数,Si为计算平均数和标准差的像素集合,m为该集合的大小,归一化的不同主要就在于此集合的不同。在批归一化中,集合Si的定义如式5:
Si={k|kC=iC} (5)
其中,ic(和kc)表示沿着C轴的i(和k)的子索引。这意味着共享相同通道索引的像素被归一化在一起,即对于每个通道,批归一化沿(N,H,W)轴计算μ和σ。层归一化和实例归一化此处不做介绍,在分组归一化中,集合Si的定义如式6:
其中,G是组的数量,这是一个预定义的参数(默认情况下G=32)。C/G是每个组的通道数。表示索引i和k位于同一组通道中,假设每组通道沿C轴按顺序存储,Group Normalization沿(H,W)轴和一组C/G通道计算μ和σ。GN的计算如图6(最右边)所示,这是2个组(G=2)的简单情况,每个组有3个通道。
作为优选,本发明在训练流程的步骤2内的提取图片特征的步骤如下:
步骤2-1:将图像Ii输入网络,分别经过一层卷积网络,用来提取它的初步特征fi
步骤2-2:将fi输入由ResNet50后四层的卷积层和基于归一化的注意力块组成的网络中,获得富含信息的图片特征;
步骤2-3:输出图片特征。
作为优选,本发明在训练流程的步骤3内的训练出性能良好的教师网络的步骤如下:
步骤3-1:将步骤2获得的图片特征先是经过Softmax激活层,进入步骤3-2;
步骤3-2:将步骤3-1获得的图片特征再经过全连接层,降低信息的维度的同时,充分感知图片信息,获得与类别对应的维度信息,进入步骤3-3;
步骤3-3:将步骤3-2获得的维度信息,利用加权正则化三元组损失、带平滑标签的交叉熵损失和中心损失,共同训练教师网络。
作为优选,步骤4中本发明利用MobileNetv2作为学生网络骨架。MobileNetV2是由***团队在2018年提出的,具有模型小但准确率较高的特点。
作为优选,步骤4中利用解耦知识蒸馏(DKD)协助教师网络训练学生网络。解耦知识蒸馏是将最基本的知识蒸馏分为两个部分分别进行蒸馏,一部分为目标类概率的相似性进行知识蒸馏,另一部分为非目标类概率的相似性进行知识蒸馏。如图7所示,图中TCKD部分即为目标类蒸馏,NCKD为非目标类蒸馏。解耦知识蒸馏认为,TCKD部分仅仅给学生网络传递了部分“难度”知识,知识蒸馏真正起作用的部分在于NCKD,而传统的知识蒸馏中的却限制了该部分。给定一个共C类,目标类为t的训练样本,在训练时,其通过网络并使用Softmax函数输出的结果,将其分为两个部分,第一部分为表示目标类概率向量,第二部分为非目标类概率向量,使用这两部分蒸馏的和作为蒸馏结果。
作为优选,本发明在训练流程中采用加权正则化三元组损失函数、交叉熵损失函数和中心损失联合训练网络。这三种损失函数是行人重识别领域常用的损失函数。
作为优选,本发明采用的基于行人重识别任务的加权正则化三元组损失在传统三元组损失的基础上,增加了加权正则化的过程,继承了三元组损失优化正负样本之间的距离的优点,且避免了引入范围参数。不仅增加了三元组损失的适用范围,而且提升了模型的训练速度和检索任务的准确率。加权正则化三元组损失会对锚点的权值进行评分,并添加正则化的步骤,进而计算出损失。本发明使用权重衰减因子为5×10-4的L2正则化。
采用欧式距离的方式度量两个特征向量之间的距离,如公式7所示。其中,f1和f2代表行人图像的特征向量。
D(f1,f2)=||f1-f2||2 (7)
假设在训练集中选取P个行人身份,从每个行人身份中随机选取K张行人图像,则每一个批次内有PK张行人图像。针对行人重识别任务的加权正则化三元组损失如公式8所示。其中,i为每个批中的锚点图像,Pi表示正样本集,Ni表示负样本集,和/>分别锚点图像与正样本图像和负样本图像间的距离,ρ代表人为设定的阈值参数。
作为优选,本发明采用了交叉熵损失函数。与其他的损失函数类似,交叉熵损失在训练时,在训练集中选取P个身份,从每个身份中随机选取K张行人图像,每一个Batch内有PK张行人图像。针对行人重识别任务的身份损失如公式9所示。其中,yi,k代表第i张图像的身份是否为k,N表示数据集中行人总类别数,pi,k表示第i张图像的身份是为k的概率。为了克服模型过拟合的问题,本文采用了带平滑标签的交叉熵损失,增强模型的泛化能力。
作为优选,本发明采用了中心损失。为使类内特征更加紧凑,本文引进了中心损失,中心损失通过为每个类别学习一个中心特征点,在训练过程中不断拉进同类样本,以达到缩小类内距离的作用,其计算如公式10所示。其中,B为batchsize,fi为第i个人的特征,yi为第i个人的标签。
作为优选,本发明的网络每一层的输出均需要使用上述三种损失函数加以限制,故最终的损失函数如公式11所示。
L=Lwrt+Lcls+Lcenter (11)
本发明的测试流程为:
步骤1:输入查询集(query set)和图库集(gallery set),进入步骤2;
步骤2:利用训练过程得到的模型,对步骤1输入的查询集(query set)和图库集(gallery set)的所有行人图像进行特征提取,进入步骤3;
步骤3:计算查询集特征与图库集特征的相似度,进入步骤4;
步骤4:根据相似度的高低,得出查询集内的每张行人图像对应的匹配结果,进入步骤5;
步骤5:结束。
作为优选,测试流程中的步骤1内的查询集表示待查询行人图像的集合,而图库集表示待查询集匹配的行人图像的集合。
作为优选,测试流程中的步骤2内,测试的数据仅经过学生网络模型进行特征提取,如图3虚线框所示。
作为优选,测试流程中的步骤3内的相似度计算方法为点乘相似度。
作为优选,测试流程中的步骤4内,每一张查询集内的图像均有若干张从图库集内匹配的图像,根据累计匹配特性(Cumulative Matching Characteristic,CMC)和平均精度均值(mean Average Precision,mAP)作为评价指标。其中,CMC中的Rank-k准确率测量前k个检索结果中出现正确跨模态行人图像的概率,而mAP可以体现方法的平均检索性能。
如上文所说,行人重识别本身具有广阔的应用前景,如智能监控、公共安全或者防疫等。因本发明是轻量级的行人重识别模型,因此可以用在大多数的场景下。其中,尤其是注重速度的场景,如实时监控、刑侦、流行病检测;或者是为了降低设备成本,在设备处理能力有限的情况下,本文的轻量级模型能够应用在其他模型无法应用的场景下,且表现出较高的准确率。
在Market1501和DukeMTMC-ReID公共数据集中,本发明的方法的第一个识别结果的正确识别率(Rank-1)和平均精度均值(mAP)分别为92.8%、84.5%和81.4%、71.8%,准确率比大多数模型高,而模型的参数量仅为2.2M,每秒浮点数计算量仅为0.2G,大大提升了推理速度。
本实施例将为本发明的模型采用小批量梯度下降(Mini-batch GradientDescent)的方式更新模型参数,即每次梯度下降时,随机选择一小批样本进行参数更新。选用ResNet50网络作为教师网络的基本骨架,ResNet50的参数在ImageNet上进行预训练,教师网络最后一个瓶颈块的步幅设为1。学生网络的基本骨架为MobileNetv2,同样,MobileNetv2的参数在ImageNet上预训练。图像预处理方面,考虑了随机裁剪、水平翻转和擦除三种数据增强方法,加权正则化三元组损失的边缘和标签平滑正则化率分别设置为0.3和0.1。实验中,图像大小统一设置为256×128。训练模型的优化器为Adam,优化器的权重衰减因子为5×10-4的L2正则化。学***均池化来处理三维特征。本实验使用pytorch1.8深度学习框架,采用一张NVIDIA3090进行加速。
实施例1:
本实施例将利用Market1501和DukeMTMC-ReID公共数据集,完成行人重识别任务,并测试模型的性能。各个方法在Market1501和DukeMTMC-ReID数据集上的性能对比结果如表1所示。
表1本发明的方法与其他方法在Market1501和DukeMTMC-ReID数据集上的性能对比
本实验选择了部分主流的行人重识别方法进行比较以验证本文方案的有效性,对比实验结果如表1所示,所对比的模型共五类,其中,基于手工提取特征的模型为《ScalablePerson Re-identification:ABenchmark》中的Bow+KISSME,基于全局特征的模型有《SVDNet for Pedestrian Retrieval》中的SVDNet、《Interaction-And-AggregationNetwork for Person Re-Identification》中的IANet,基于局部特征的模型有《AlignedReID++:Dynamically matching local information for person re-identification-ScienceDirect》中的AlignedReID、《Beyond Part Models:PersonRetrieval with Refined Part Pooling(and AStrong Convolutional Baseline)》中的PCB,采用注意力机制的方法有《Self-paced Contrastive Learning with Hybrid Memoryfor Domain Adaptive Object Re-ID》中的AACN,轻量级模型包括《Mixed High-OrderAttention Network for Person Re-Identification》中的HA-CNN、《Auto-ReID:Searching for a Part-Aware ConvNet for Person Re-Identification》中的Auto-ReID。本文中所有实验均采用单帧查询模式。对于模型轻量化指标,本实验采用网络参数量(Params)和每秒浮点数计算量(Flops)两个指标进行评判。
由表1可知,本文所提方案在Maket1501和DukeMTMC-ReID上的Rank-1和mAP分别为92.8%、84.5%和81.4%、71.8%,而模型的参数量仅为2.2M,每秒浮点数计算量仅为0.2G。
基于手工特征的Bow+KISSME在Market1501数据集上的Rank-1和mAP分别仅为44.4%和20.8%,本文方案分别比其高出48.8%和60.6%,在DukeMTMC-ReID数据及上的Rank-1和mAP分别仅为25.1%和12.2%,本文方案分别比其高出59.4%和59.6%。基于全局特征的方法的模型中,IANet在Market1501数据集上的Rank-1和mAP分别为94.4%和83.1%,分别比本文方案高出1.6%和1.7%,在DukeMTMC-ReID数据及上的Rank-1和mAP分别为87.1%和73.4%,分别比本文方案高出2.6%和1.6%,然而本文方案的参数量仅为该模型的1/10,每秒浮点数计算量仅为该模型的1/20。与另一个基于全局特征的方法相比,本文方案在各个方面都遥遥领先。与基于局部特征的方法相比,本文方案在各个指标上都处于全面领先的状态。与基于注意力的方法相比,本文方法同样具有优势。与同为轻量级模型的HA-CNN相比,本文方案在Market1501数据集上的Rank-1和mAP分别领先1.6%和5.7%,而每秒浮点计算量仅为该模型的2/13。与另一个轻量级模型Auto-ReID相比,虽然在Rank-1和mAP上略有逊色,但在轻量级上,本文方案显然更优。综上所述,本文方案在较高的识别率情况下,大大降低了模型参数量和计算量,为轻量级行人重识别任务提供了一个很好的解决思路。
实施例2:
本实施例将介绍本发明的一种适用场景。
在某些比较重要的区域内,比如政府、公司、幼儿园等地方,出于安全考虑,需要对出入人员的身份进行实时核查,避免无关人员混入,出现非法拍摄、信息泄露和威胁安全等问题。
首先,安全员获得该区域摄像头的原始视频,并利用行人检测的相关技术,裁剪出监控视频中出现的行人图像,并以摄像头名和行人身份作为图像名称。
接着,将这些信息输入教师网络,获得性能良好的模型。
然后,再利用学生网络学习并减少模型大小。
最后,将该模型部署到该区域的处理器上,对于日后在该场景出现的行人,先用行人检测技术分离出行人图像,再利用行人重识别技术,将相关的图像信息输入本发明提出的轻量级行人重识别模型,从而实时识别出行人的身份,相比于常规行人重识别模型,本发明提出的模型因其具有模型小的特点,因此具有更快的推理速度,一旦有陌生人闯入,立即识别出该行人身份异常,并反馈给安保人员,确保区域安全和隐私信息安全。

Claims (10)

1.一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,在数据集中选取目标区域若干行人,并对每个行人分别选择的若干张图像构建样本,通过执行以下步骤,训练学生网络模型,并应用该模型,对目标区域的行人进行重识别;
步骤1:在数据集中选取目标区域若干行人,并对每个行人分别选择的若干张图像构建样本,进入步骤2;
步骤2:在前N个epoch中,基于残差网络和归一化的注意力机制,提取样本中图像的特征,进入步骤3;
步骤3:通过全连接网络和损失函数,基于提取后的图像特征,训练教师网络,进入步骤4;
步骤4:在N个epoch后,根据获得的教师网络,通过解耦知识蒸馏,协助训练学生网络,进入步骤5;
步骤5:若达到指定的训练轮数,则进行步骤6,否则继续训练,返回步骤1;
步骤6:得到训练完成的学生网络模型,并应用该模型,对目标区域的行人进行重识别。
2.根据权利要求1所述的一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,步骤1具体为:所述数据集包括Market1501和DukeMTMC-ReID,所述图像通过随机裁剪、水平翻转和擦除三种数据增强方法增强鲁棒性;设行人图像共有n1张,图像样本表示为其中,Ii表示第i幅行人图像,yi分别表示Ii对应的身份。
3.根据权利要求1所述的一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,步骤2具体包括如下步骤:
步骤2-1:将图像Ii输入网络,分别经过一层卷积网络,用来提取它的初步特征fi
步骤2-2:将fi输入由ResNet50后四层的卷积层和基于归一化的注意力块组成的网络中,获得具有信息的图像特征;
步骤2-3:输出图像特征。
4.根据权利要求3所述的一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,步骤2-2中,将基于归一化的注意力块内嵌在ResNet50网络中,并将ResNet50每个瓶颈的第二个批归一化替换成分组归一化。
5.根据权利要求1所述的一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,步骤3具体包括如下步骤:
步骤3-1:将步骤2获得的图像特征先是经过Softmax激活层,进入步骤3-2;
步骤3-2:将步骤3-1获得的图像特征再经过全连接层,降低信息的维度的同时,充分感知图像信息,获得与类别对应的维度信息,进入步骤3-3;
步骤3-3:将步骤3-2获得的维度信息,利用加权正则化三元组损失、带平滑标签的交叉熵损失和中心损失,共同训练教师网络。
6.根据权利要求5所述的一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,所述加权正则化三元组损失对锚点的权值进行评分,并添加正则化的步骤,进而计算出损失;使用权重衰减因子为5×10-4的L2正则化,采用欧式距离的方式度量两个特征向量之间的距离,如式(1)所示:
D(f1,f2)=||f1-f2||2 (1)
其中,f1和f2代表行人图像的特征向量,假设在训练集中选取P个行人身份,从每个行人身份中随机选取K张行人图像,则每一个批次内有P*K张行人图像,针对行人重识别任务的加权正则化三元组损失如式(2)所示:
其中,(i,j,k)表示每批训练图像内的一个困难三元组,i为每个批中的锚点图像,Pi表示正样本集,Ni表示负样本集,和/>分别表示锚点图像与正样本图像和负样本图像间的距离,ρ代表人为设定的阈值参数,/>和/>为权值。
7.根据权利要求5所述的一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,所述交叉熵损失函数在训练时,在训练集中选取P个身份,从每个身份中随机选取K张行人图像,每一个Batch内有P*K张行人图像,针对行人重识别任务的身份损失如式(3)所示:
其中,yi,k代表第i张图像的身份是否为k,N表示数据集中行人总类别数,pi,k表示第i张图像的身份是为k的概率。
8.根据权利要求5所述的一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,所述中心损失通过为每个类别学习一个中心特征点,在训练过程中不断拉进同类样本,以达到缩小类内距离的作用,其计算如式(4)所示:
其中,B为batchsize,fi为第i个人的特征,yi为第i个人的标签。
9.根据权利要求5所述的一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,所述教师网络每一层的输出均使用上述三种损失函数加以限制,故最终的损失函数如式(5)所示:
L=Lwrt+Lcls+Lcenter (5)
其中,Lwrt表示加权正则化三元组损失,Lcls表示交叉熵损失函数,Lcenter表示中心损失。
10.根据权利要求1所述的一种基于离线蒸馏的轻量级行人重识别方法,其特征在于,步骤4具体包括如下步骤:
步骤4-1:将输入的图片分别输入教师网络和学生网络,得到两个模型关于输入图片的概率;
步骤4-2:根据步骤4-1获得的目标类概率,计算它们的相似性,完成TCKD部分的目标类蒸馏;
步骤4-3:根据步骤4-1获得的非目标类概率,计算它们的相似性,完成NCKD部分的目标类蒸馏;
步骤4-4:根据TCKD和NCKD两部分的相似性,共同约束,反向传播训练学生网络。
CN202310562808.8A 2023-05-18 2023-05-18 一种基于离线蒸馏的轻量级行人重识别方法 Pending CN117115850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310562808.8A CN117115850A (zh) 2023-05-18 2023-05-18 一种基于离线蒸馏的轻量级行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310562808.8A CN117115850A (zh) 2023-05-18 2023-05-18 一种基于离线蒸馏的轻量级行人重识别方法

Publications (1)

Publication Number Publication Date
CN117115850A true CN117115850A (zh) 2023-11-24

Family

ID=88795435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310562808.8A Pending CN117115850A (zh) 2023-05-18 2023-05-18 一种基于离线蒸馏的轻量级行人重识别方法

Country Status (1)

Country Link
CN (1) CN117115850A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118051949A (zh) * 2024-04-16 2024-05-17 贵州优特云科技有限公司 基于ai的平台内容安全巡检方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283362A (zh) * 2021-06-04 2021-08-20 中国矿业大学 一种跨模态的行人重识别方法
CN113920540A (zh) * 2021-11-04 2022-01-11 厦门市美亚柏科信息股份有限公司 基于知识蒸馏的行人重识别方法、装置、设备及存储介质
CN115661754A (zh) * 2022-11-04 2023-01-31 南通大学 一种基于维度融合注意力的行人重识别方法
CN115880529A (zh) * 2022-12-02 2023-03-31 北京林业大学 基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及***
CN115984233A (zh) * 2023-01-12 2023-04-18 长沙理工大学 一种基于分组归一化和移位的图像裂缝检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283362A (zh) * 2021-06-04 2021-08-20 中国矿业大学 一种跨模态的行人重识别方法
CN113920540A (zh) * 2021-11-04 2022-01-11 厦门市美亚柏科信息股份有限公司 基于知识蒸馏的行人重识别方法、装置、设备及存储介质
CN115661754A (zh) * 2022-11-04 2023-01-31 南通大学 一种基于维度融合注意力的行人重识别方法
CN115880529A (zh) * 2022-12-02 2023-03-31 北京林业大学 基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及***
CN115984233A (zh) * 2023-01-12 2023-04-18 长沙理工大学 一种基于分组归一化和移位的图像裂缝检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118051949A (zh) * 2024-04-16 2024-05-17 贵州优特云科技有限公司 基于ai的平台内容安全巡检方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN111325115B (zh) 带有三重约束损失的对抗跨模态行人重识别方法和***
CN114202696A (zh) 基于上下文视觉的sar目标检测方法、装置和存储介质
CN113239784B (zh) 一种基于空间序列特征学习的行人重识别***及方法
Liang et al. Cross-modality transformer with modality mining for visible-infrared person re-identification
CN110598543B (zh) 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN111783521B (zh) 基于低秩先验引导的域不变信息分离的行人重识别方法
Xu et al. Underwater image classification using deep convolutional neural networks and data augmentation
CN112434654B (zh) 一种基于对称卷积神经网络的跨模态行人重识别方法
CN113763417B (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN109165698A (zh) 一种面向智慧交通的图像分类识别方法及其存储介质
CN113947814A (zh) 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法
CN117115850A (zh) 一种基于离线蒸馏的轻量级行人重识别方法
CN117011883A (zh) 一种基于金字塔卷积和Transformer双分支的行人重识别方法
CN114782977A (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN115661754A (zh) 一种基于维度融合注意力的行人重识别方法
Shen et al. MCCG: A ConvNeXt-based multiple-classifier method for cross-view geo-localization
Zhao et al. Visible-infrared person re-identification based on frequency-domain simulated multispectral modality for dual-mode cameras
Miao et al. Abnormal behavior learning based on edge computing toward a crowd monitoring system
Chen et al. Combining the Convolution and Transformer for Classification of Smoke-Like Scenes in Remote Sensing Images
CN112418203B (zh) 基于双线性汇合四流网络的鲁棒性rgb-t跟踪方法
CN113627380A (zh) 一种用于智能安防及预警的跨视域行人重识别方法及***
CN115690669A (zh) 一种基于特征分离与因果比较损失的跨模态重识别方法
He et al. Spectral-spatial classification of hyperspectral images using label dependence
CN115830643B (zh) 一种姿势引导对齐的轻量行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination