CN115641613A - 一种基于聚类和多尺度学习的无监督跨域行人重识别方法 - Google Patents
一种基于聚类和多尺度学习的无监督跨域行人重识别方法 Download PDFInfo
- Publication number
- CN115641613A CN115641613A CN202211372036.3A CN202211372036A CN115641613A CN 115641613 A CN115641613 A CN 115641613A CN 202211372036 A CN202211372036 A CN 202211372036A CN 115641613 A CN115641613 A CN 115641613A
- Authority
- CN
- China
- Prior art keywords
- training
- picture
- model
- loss
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种基于聚类和多尺度学习的无监督跨域行人重识别方法,包括:构建相同的两个原始卷积神经网络,对两个原始卷积神经网络分别采用不同的初始化参数利用源域训练集进行预训练,得到预训练完成的两个预训练学生模型,并分别复制得到两个预训练教师模型;构建图片特征记忆库;利用目标域训练集对两个预训练学生模型和两个预训练教师模型进行多轮目标域交互监督学习,直至达到得到预设的学习终止条件,得到跨域学习完成的两个学生模型和两个教师模型;利用跨域学习完成的任一个模型对目标域查询样本进行识别,找到目标域底库图片集中具有相同标签的图片,完成行人重识别。本发明的方法提高了无监督跨域行人重识别的识别精度。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于聚类和多尺度学习的无监督跨域行人重识别方法。
背景技术
行人重识别是指给定某张行人图像,运用计算机视觉或者机器学习方法从给定的一系列行人图像中检索出不同视角或不同场景下的具有相同身份的行人图像。为了解决日常生活中的目标检索和实时跟踪等问题,其在智能视频监控领域具有广泛的应用场景。
跨域无监督行人重识别允许利用另一个带有标签的数据集进行迁移学习。因其不需要花费人工成本进行标注,所以针对特定场景的学习只需要机器自动采集并根据已有模型和数据进行自动训练,以拟合出适应该特殊场景的参数。因此,开发高效和鲁棒的无监督行人重识别***,无论是在学术领域还是在工业领域都非常有吸引力。
在跨域无监督行人重识别任务发展的早期,流行一种基于域转换的生成方法,这类方法通过与训练生成模型,经源域图像通过生成方法,合成出与目标域图像具有相同风格的图像,随后根据源域图像的真实标签,从而将跨域问题转化为同域下的半监督问题,以便利用半监督方法进行训练。但是这种基于生成图像的方法由于要先训练一个生成模型,这样会导致不可避免的误差,这些误差会在后续的训练中被进一步方法,从而导致不可挽回的性能损失,使得模型的识别准确率大打折扣。因此,这类方法在近年的跨域无监督行人重识别中逐渐失去了主流的地位,取而代之的是一种基于预训练微调的方法,这类方法首先根据源域带有标签的数据预训练一个模型,然后根据这个模型在目标域进行无监督方法的微调例如各类聚类方法赋予伪标签等,取得了先进的效果。但这种基于预训练微调的方法仍然存在伪标签不准确、放大错误聚类等问题,同样会影响识别的准确率。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于聚类和多尺度学习的无监督跨域行人重识别方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于聚类和多尺度学习的无监督跨域行人重识别方法,包括:
步骤1:构建相同的两个原始卷积神经网络,对所述两个原始卷积神经网络分别采用不同的初始化参数利用源域训练集进行预训练,得到预训练完成的第一预训练学生模型和第二预训练学生模型,对所述第一预训练学生模型和所述第二预训练学生模型分别复制得到对应的第一预训练教师模型和第二预训练教师模型;
步骤2:构建图片特征记忆库,所述图片特征记忆库用于存放目标域训练集的图片特征和对应的标签;
步骤3:根据所述第一预训练学生模型、所述第二预训练学生模型、所述第一预训练教师模型和所述第二预训练教师模型,利用目标域训练集进行多轮目标域交互监督学习,直至达到得到预设的学习终止条件,得到跨域学习完成的第一学生模型、第二学生模型、第一教师模型和第二教师模型;
其中,针对每一轮目标域交互监督学习,将所述目标域训练集输入所述第一预训练学生模型和所述第二预训练学生模型,对任意一个预训练学生模型提取到的图片特征进行DBSCAN聚类,根据聚类结果更新所述图片特征记忆库中的图片特征和标签;
在每一轮目标域交互监督学习时,利用网络总损失对所述第一预训练学生模型、所述第二预训练学生模型、所述第一预训练教师模型和所述第二预训练教师模型的参数进行更新,所述网络总损失包括硬软伪标签结合监督总损失和对比学习总损失;
步骤4:利用跨域学习完成的任一个模型对目标域查询样本进行识别,找到目标域图片集中具有相同标签的图片,完成行人重识别。
在本发明的一个实施例中,所述源域训练集为附有标签的图片集,所述目标域训练集为无标签的图片集。
在本发明的一个实施例中,所述步骤1包括:
步骤1.1:构建相同的两个原始卷积神经网络,对所述两个原始卷积神经网络分别采用不同的初始化参数;
步骤1.2:利用源域训练集对所述两个原始卷积神经网络分别进行多轮预训练,直至达到得到预设的预训练终止条件,得到预训练完成的第一预训练学生模型Net1和第二预训练学生模型Net2;
其中,针对每一轮预训练,对输入两个原始卷积神经网络的图像分别采用不同的随机增强方式,对两个原始卷积神经网络的输出特征分别采用随机dropout,在每一轮预训练时,两个原始卷积神经网络均采用Log softmax loss和Triplet loss反向传播更新网络参数;
步骤3:将第一预训练学生模型Net1和第二预训练学生模型Net2的结构、参数分别复制得到对应的第一预训练教师模型Mean-Net1和第二预训练教师模型Mean-Net2。
在本发明的一个实施例中,在构建图片特征记忆库之后,对所述图片特征记忆库进行初始化,包括:
将所述目标域训练集分别经过第一预训练学生模型和第二预训练学生模型提取得到每一张图片对应的图片特征和标签,将所述图片特征和标签存入所述图片特征记忆库完成初始化,其中,所述图片特征F=(F1+F2)/,其中,F1表示图片经过第一预训练学生模型提取得到的第一图片特征,F2表示图片经过第二预训练学生模型提取得到的第二图片特征。
在本发明的一个实施例中,将所述目标域训练集输入所述第一预训练学生模型和所述第二预训练学生模型,对任意一个预训练学生模型提取到的图片特征进行DBSCAN聚类,根据聚类结果更新所述图片特征记忆库中的图片特征和标签,包括:
将所述目标域训练集输入所述第一预训练学生模型和所述第二预训练学生模型;
根据任意一个预训练学生模型提取到的图片特征计算jaccard距离;
根据所述jaccard距离对提取到的图片特征进行DBSCAN聚类;
对每一个聚类类别计算其聚类中心,并对所述聚类类别分配对应的伪标签;
根据提取到的图片特征和对应的伪标签更新所述图片特征记忆库中的图片特征和标签。
在本发明的一个实施例中,利用网络总损失对所述第一预训练学生模型、所述第二预训练学生模型、所述第一预训练教师模型和所述第二预训练教师模型的参数进行更新,包括:
根据所述网络总损失,通过梯度反向传播对第一预训练学生模型和所述第二预训练学生模型进行参数更新,之后通过EMA方式对所述第一预训练教师模型和所述第二预训练教师模型进行参数更新;
其中,按照下式对所述第一预训练教师模型和所述第二预训练教师模型进行参数更新,
式中,E[θ]表示网络参数θ的累计平均值,T表示第T轮目标域交互监督学***滑系数超参数。
在本发明的一个实施例中,所述硬软伪标签结合监督总损失包括:使用硬伪标签进行监督时的分类损失、使用软伪标签进行监督时的分类损失、使用硬伪标签进行监督时的三元组损失和使用软伪标签进行监督时三元组损失;
所述硬软伪标签结合监督总损失按照下式计算得到:
式中,t为当前训练轮次,表示软伪标签分类损失系数,表示软伪标签三元组损失系数,表示使用硬伪标签进行监督时的分类损失,表示使用软伪标签进行监督时的分类损失,表示使用硬伪标签进行监督时的三元组损失,表示使用软伪标签进行监督时的三元组损失;
其中,使用硬伪标签进行监督时的分类损失函数为:
使用软伪标签进行监督时的分类损失函数为:
式中,表示第一预训练教师模型的分类预测值,表示第二预训练教师模型的分类预测值,表示图片通过第一预训练学生模型进行特征提取和分类后的分类结果,表示图片通过第二预训练学生模型进行特征提取和分类后的分类结果,表示经过不同的随机数据增强方式;
使用硬伪标签进行监督时的三元组损失函数为:
使用软伪标签进行监督时的三元组损失函数为:
式中,Lbce(p,q)=-qlogp-(1-q)log(1-p),表示当硬伪标签进行监督时使用的二元交叉熵损失函数。
在本发明的一个实施例中,所述对比学习总损失包括全局对比损失和局部对比损失,其中,
所述全局对比损失按照下式计算得到:
式中,Nc表示当前记忆库中已聚类的样本特征数,N0表示当前记忆库中未聚类的样本特征数,qi表示当前输入小批量图片的第i个特征,f+表示特征qi在图片特征记忆库中对应样本的特征,τ为超参数温度系数,<·,·>表示度量相似性的两个特征向量之间的内积,表示已经聚类的样本,fk表示图片特征记忆库中所有未聚类的样本特征;
所述局部对比损失按照下式计算得到:
式中,yi和yj分别表示当前输入小批量图片中特征qi和特征qj的伪标签,B表示当前输入小批量图片的数量。
与现有技术相比,本发明的有益效果在于:
1.本发明的基于聚类和多尺度学***均学习框架,克服初始伪标签噪声较大的情况下模型的较大崩溃风险;能够逐步减小伪标签噪声,提高伪标签质量,提高聚类的准确性,从而提升了无监督跨域行人重识别的识别精度。
2.本发明的基于聚类和多尺度学习的无监督跨域行人重识别方法,基于全局和局部的对比学习方法,引入记忆库并采用困难样本挖掘策略,防止噪声伪类标签导致的训练误差放大,并逐渐生成更可靠的目标域簇,用于在混合存储器中学习更好的特征,从而改进聚类,提高聚类的准确性,从而提升了无监督跨域行人重识别的识别精度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明实施例提供的一种基于聚类和多尺度学习的无监督跨域行人重识别方法的流程图;
图2是本发明实施例提供的一种基于聚类和多尺度学习的无监督跨域行人重识别方法的示意图;
图3是本发明实施例提供的一种预训练的示意图;
图4是本发明实施例提供的一种基于交互平均学习的无监督跨域行人重识别训练示意图;
图5是本发明实施例提供的一种基于混合对比学习的无监督跨域行人重识别训练示意图;
图6是本发明实施例提供的一种图片分类测试可视化示意图。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于聚类和多尺度学习的无监督跨域行人重识别方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
实施例一
请结合参见图1和图2,图1是本发明实施例提供的一种基于聚类和多尺度学习的无监督跨域行人重识别方法的流程图;图2是本发明实施例提供的一种基于聚类和多尺度学习的无监督跨域行人重识别方法的示意图。如图所示,本实施例的基于聚类和多尺度学习的无监督跨域行人重识别方法,包括:
步骤1:构建相同的两个原始卷积神经网络,对两个原始卷积神经网络分别采用不同的初始化参数利用源域训练集进行预训练,得到预训练完成的第一预训练学生模型和第二预训练学生模型,对第一预训练学生模型和第二预训练学生模型分别复制得到对应的第一预训练教师模型和第二预训练教师模型;
请参见如图3所示的预训练的示意图,在一个可选地实施方式中,步骤1包括:
步骤1.1:构建相同的两个原始卷积神经网络,对两个原始卷积神经网络分别采用不同的初始化参数;
可选地,原始卷积神经网络包括:原始孪生神经网络、原始特征融合模块、原始特征优化模块和原始互相关模块。
可选地,可以采用骨干网络ResNet-ibn50作为原始孪生网络结构,ResNet-ibn50是在ResNet-50网络基础上在bottleneck层加入了ibn模块,需要说明的是,本发明对原始孪生网络结构不做具体限制。ResNet-50由16个卷积块组成,每个卷积块包括三层卷积层,且每个卷积块的第一卷积层的卷积核大小为1x1,第二卷积层的卷积核大小为3x3,第三卷积层的卷积核大小为1x1。另外,ResNet-50网络框架是典型的残差网络,能够克服随着网络深度加深而产生学习率变低与准确率无法有效提升的问题,同时能提取图片的深层特征。
步骤1.2:利用源域训练集对两个原始卷积神经网络分别进行多轮预训练,直至达到得到预设的预训练终止条件,得到预训练完成的第一预训练学生模型Net1和第二预训练学生模型Net2;
在本实施例中,通过向原始卷积神经网路输入源域训练集,以及设置预设输入参数、训练参数、样本参数、训练周期参数、学习率参数、损失函数和梯度下降函数等初始化参数,能够以最小化损失函数为目标对原始卷积神经网络进行预训练,直至达到预设的预训练终止条件,即达到预设的训练周期或是损失函数值达到预设的阈值之后,得到预训练完成的学生模型。
在一个可选地实施方式中,针对每一轮预训练,对输入两个原始卷积神经网络的图像分别采用不同的随机增强方式,例如随机裁剪、随机翻转、随机擦除等,对两个原始卷积神经网络的输出特征分别采用随机dropout。
在本实施例中,源域训练集为附有标签的图片集,可选地,每个训练小批量包含16个实际或伪身份的64个人图像,每个身份包括4张图像。在本实施例中,所有图像在输入网络之前都被调整为256×128尺寸大小。
示例性地,样本参数为64,即最小批处理样本数为64;训练周期参数为80,即训练周期为80轮;前10轮学习率参数采用预热(warmup)学习率,即前10轮训练周期由0.000035以线性增长形式至0.00035,第10轮训练开始保持该学习率,在第40轮和第70轮学习率分别为此前的0.1倍。采用Adam优化器训练梯度下降函数,以0.0005的权重衰减来优化网络。
在每一轮预训练时,两个原始卷积神经网络均采用Log softmax loss和Tripletloss反向传播更新网络参数,通过分别计算两个原始卷积神经网络的总损失Lpre并反向传播更新对应网络的网络参数进行训练,得到预训练完成的第一预训练学生模型Net1和第二预训练学生模型Net2。
其中,总损失Lpre为:
Lpre=λlsLls(xi)+λtL(a,p,n), (1);
式中,λls和λt分别表示分类损失Lls(xi)和三元组损失L(a,p,n)的系数,根据经验值均设为。1
Log softmax loss相当于对softmax loss取对数,公式如下:
Lls(xi)=LogSoftmax(xi)=log(exp(xi)/∑jexp(xj)), (2);
式中,xi表示输入的特征矩阵,xj为其中按照行/列遍历的元素。
Triplet loss公式如下:
L(a,p,n)=max(d(a,p)-d(a,n)+margin,0), (3);
式中,输入是一个三元组,包括锚样本(a)、正样本(p)、负样本(n),正样本与a是同一类别的样本,负样本与a是不同类别的样本,margin是一个大于0的常数。最终的优化目标是拉近a和p的距离,拉远a和n的距离。
步骤3:将第一预训练学生模型Net1和第二预训练学生模型Net2的结构、参数分别复制得到对应的第一预训练教师模型Mean-Net1和第二预训练教师模型Mean-Net2。
在本实施例中,设置与第一预训练学生模型Net1和第二预训练学生模型Net2对应的第一预训练教师模型Mean-Net1和第二预训练教师模型Mean-Net2,以实现后续基于交互平均学习框架下的两组师生模型,同网络教师模型与学生模型间和不同网络之间都进行互相监督学习,以提高伪标签质量,使得聚类更准确,提高分类精度。
步骤2:构建图片特征记忆库,图片特征记忆库用于存放目标域训练集的图片特征和对应的标签;
在本实施例中,目标域训练集为无标签的图片集。
需要说明的是,在构建图片特征记忆库之后,对图片特征记忆库进行初始化,初始化仅在对第一预训练学生模型、第二预训练学生模型、第一预训练教师模型和第二预训练教师模型进行目标域交互监督学习之前进行。
具体初始化过程包括:将目标域训练集分别经过第一预训练学生模型和第二预训练学生模型提取得到每一张图片对应的图片特征和标签,将图片特征和标签存入图片特征记忆库完成初始化,其中,图片特征F=(F1+F2)/2,其中,F1表示图片经过第一预训练学生模型提取得到的第一图片特征,F2表示图片经过第二预训练学生模型提取得到的第二图片特征。
在本实施例中,将目标域训练集分别输入到第一预训练学生模型Net1和第二预训练学生模型Net2中对特征取均值,使得网络捕捉到的特征更加均衡,目标域实例特征更加清晰,提高了***的稳定性。
步骤3:根据第一预训练学生模型、第二预训练学生模型、第一预训练教师模型和第二预训练教师模型,利用目标域训练集进行多轮目标域交互监督学习,直至达到得到预设的学习终止条件,得到跨域学习完成的第一学生模型、第二学生模型、第一教师模型和第二教师模型;
在本实施例中,预设的学习终止条件为达到预设的学习周期或是损失函数值达到预设的阈值。
其中,针对每一轮目标域交互监督学习,将目标域训练集输入第一预训练学生模型和第二预训练学生模型,对任意一个预训练学生模型提取到的图片特征进行DBSCAN聚类,根据聚类结果更新图片特征记忆库中的图片特征和标签,具体包括:
步骤(1):在每一轮目标域交互监督学习中,将目标域训练集输入第一预训练学生模型和第二预训练学生模型;
步骤(2):根据任意一个预训练学生模型(第一预训练学生模型或第二预训练学生模型)提取到的图片特征计算jaccard距离;
那么,jaccard系数可以表示为:
同样的,可以用另一种集合表示的方法:
需要说明的是,所得到的jaccard系数值越大,表示相似度越高。
步骤(3):根据jaccard距离对提取到的图片特征进行DBSCAN聚类;
其中,DBSCAN聚类是一种基于密度的空间聚类算法,该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合,该聚类算法将训练数据分组为已经聚类的样本集合Xc和未聚类的离群样本集合Xo。
需要说明的是,DBSCAN聚类算法有两个重要的超参数,一个是判断能聚成同类的特征间的最大距离(小于这个距离则认为这两个特征互为近邻),另一个是判断是否能成为聚类中心的近邻特征数量。在本实施例中,经验性地将这两个超参数分别设为0.5和5。
步骤(4):对每一个聚类类别计算其聚类中心,并对聚类类别分配对应的伪标签;
在本实施例中,已经聚同类的样本具有相同的伪标签,而未聚类的每个离群样本均将其视为一个独立的类分配伪标签。需要说明的是,该伪标签作为硬伪标签用于后续网络损失的计算。
步骤(5):根据提取到的图片特征和对应的伪标签更新图片特征记忆库中的图片特征和标签。
需要说明的是,根据每一轮的聚类结果重新计算聚类中心并赋予相应伪标签后,需要根据新的聚类中心进行归一化并将参数赋予网络的分类器。
本实施例充分利用样本数据,不仅给已经聚类的大量样本集合标注伪标签,未聚类的少量离群样本同样给予单独的伪标签,避免了离群样本标注错误伪标签导致训练时放大错误情况的发生,提高了伪标签标注和聚类的准确性,进一步提高分类精度。
如图4所示的基于交互平均学习的无监督跨域行人重识别训练示意图,在一个可选地实施方式中,在每一轮目标域交互监督学习时,利用网络总损失对第一预训练学生模型、第二预训练学生模型、第一预训练教师模型和第二预训练教师模型的参数进行更新。
在本实施例中,网络总损失包括硬软伪标签结合监督总损失和对比学习总损失,即,
Ltotal=L(θ1,θ2)+LL2G (6);
式中,Ltotal表示网络总损失,L(θ1,θ2)表示硬软伪标签结合监督总损失,LL2G表示对比学习总损失。
可选地,在每一轮目标域交互监督学习时,根据网络总损失,通过梯度反向传播对第一预训练学生模型和第二预训练学生模型进行参数更新,之后通过EMA方式对第一预训练教师模型和第二预训练教师模型进行参数更新。
其中,EMA更新方式的参数E[θ]是对应网络参数θ的累计平均值。具体来说,参数不是由损失函数的反向传播来进行更新的,而是在每次通过网络总损失的反向传播后,按照下式对第一预训练教师模型和第二预训练教师模型进行参数更新,
式中,E[θ]表示网络参数θ的累计平均值,T表示第T轮目标域交互监督学***滑系数超参数。在初始化时,E(0)[θ1]=θ1,E(0)[θ2]=θ2。
EMA更新方式可以看作对网络过去的参数进行平均,两个预训练教师模型通过EMA更新方式由于具有时间上的累积,解耦性更强,输出更加独立和互补。
在本实施例中,利用交互平均学习框架和师生模型,两组师生网络互相内外部监督,使得学到的特征更加的稳定,分类标准也更加的稳定。噪声伪标签不会再将错误放大,被稳定的***逐步校正,从而提高行人识别精度。
在一个可选地实施方式中,硬软伪标签结合监督总损失包括:使用硬伪标签进行监督时的分类损失、使用软伪标签进行监督时的分类损失、使用硬伪标签进行监督时的三元组损失和使用软伪标签进行监督时三元组损失。
可选地,硬软伪标签结合监督总损失按照下式计算得到:
式中,t为当前训练轮次,表示软伪标签分类损失系数,表示软伪标签三元组损失系数,在本实施例中,和取值为0.5。表示使用硬伪标签进行监督时的分类损失,表示使用软伪标签进行监督时的分类损失,表示使用硬伪标签进行监督时的三元组损失,表示使用软伪标签进行监督时的三元组损失。
其中,使用硬伪标签进行监督时的分类损失可以用一般的多分类交叉熵损失函数Lce来表示,具体地,使用硬伪标签进行监督时的分类损失函数为:
式中,Nt表示图片数量,Lce表示多分类交叉熵损失函数,表示图片通过预训练学生模型进行特征提取和分类后的分类结果,表示目标域训练集中图片的硬伪标签,该硬伪标签即为聚类后分配的伪标签,表示目标域训练集中的图片。
在相互平均学习的框架下,软分类损失中的软伪标签是预训练教师模型Mean-Net1/2的分类预测值针对分类预测,利用软交叉熵损失函数-qlogp来进行监督,用于减小两分布间的距离。具体地,使用软伪标签进行监督时的分类损失函数为:
式中,表示第一预训练教师模型的分类预测值,表示第二预训练教师模型的分类预测值,表示图片通过第一预训练学生模型进行特征提取和分类后的分类结果,表示图片通过第二预训练学生模型进行特征提取和分类后的分类结果,表示经过不同的随机数据增强方式。
使用硬伪标签进行监督时的三元组损失函数为:
示例性地,若一个输入的小批量图片中包括4个身份的32张图片,每个身份包括8张图,随机选一个是锚样本,其他图片和锚样本是同一个身份的为正样本,不是一个身份的为负样本。然后把一个输入的小批量图片中里每张图做作为依次作为锚样本,计算对应的损失,最后把32个损失值求平均得到使用硬伪标签进行监督时的三元组损失。
三元组损失即最大三元组标签损失,软最大三元组标签损失精炼伪标签是在三元组的图像特征基础上应用合理的软伪标签和对应的软三元组损失函数提高伪标签质量。使用softmax-triplet来表示三元组内特征间的关系,表示为:
上式中,结果的取值范围是[0,1)。
同时,软化了对三元组的监督(使用EMA更新的特征距离比Γi(E(T)[θ])代替硬伪标签“1”,软化后取值在[0,1)之间)。具体来说,在相互平均学习框架中,图像特征计算出的softmax-triplet可用作"软"伪标签以监督三元组的训练,那么使用软伪标签进行监督时的三元组损失函数可表示为:
式中,Lbce(p,q)=-qlogp-(1-q)log(1-p),表示当硬伪标签进行监督时使用的二元交叉熵损失函数。
在本实施例中,将硬标签软化为软标签,并将传统分类损失和三元组损失软标签化,通过使用硬软伪标签结合进行监督时的总损失,可以减轻基于聚类无监督跨域行人重识别的伪标签噪声,提高伪标签质量,更好的捕捉图片的整体与局部特征,学习更多有辨别力的人物特征,提高了特征分类的精确性从而提高识别精度。
如图5所示的基于混合对比学习的无监督跨域行人重识别训练示意图,在一个可选地实施方式中,对比学习总损失包括全局对比损失和局部对比损失。即,
LL2G=LLB+LGM (14);
式中,LL2G表示对比学习总损失,LLB表示局部对比损失,LGM表示全局对比损失。
在本实施例中,使用困难样本挖掘策略计算全局对比损失,对于每个目标域训练集合的训练样本xi,定义fθ(xi)为其特征表示向量,缩写为fi=fθ(xi),xi∈Xo∪Xc,Xc是已经聚类的样本集合,Xo是未聚类的离群样本集合,那么,基于动态记忆库的全局对比损失LGM定义为:
式中,Nc表示当前记忆库中已聚类的样本特征数,N0表示当前记忆库中未聚类的样本特征数,qi表示当前输入小批量图片的第i个特征,f+表示特征qi在图片特征记忆库中对应样本的特征,τ为超参数温度系数,<·,·>表示度量相似性的两个特征向量之间的内积,表示已经聚类的样本,fk表示图片特征记忆库中所有未聚类的样本特征。
如果当前特征qi属于已经聚类地特征,则f+是qi在图片特征记忆库中同类样本中的最难正样本,其中最难正样本表示所选样本特征在同一聚类中离qi最远。在所有挑选的已经聚类的样本中,除了一个是在qi同类中挑选的最难正样本之外,其他均是在剩下的Nc-1个类中挑选的最难负样本,这里最难负样本是指qi在每个聚类中距离最近的样本特征。随后再挑选图片特征记忆库中所有未聚类的样本特征fk,k∈{1,...,No}作为负样本。如果qi是未聚类样本特征,则设置f+=fk作为在图片特征记忆库中qi对应的未聚类样本特征,此时则表示所有Nc个已经聚成类的qi的最难负样本。因此,可以充分利用所有实例级自监督信号作自对比学习。需要注意的是,下文所述q均代表当前输入小批量图片中的特征,f代表图片特征记忆库中的特征。
在本实施例中,用困难样本挖掘策略计算局部对比损失,和全局对比损失类似地,局部对比损失LLB公式如下:
式中,yi和yj分别表示当前输入小批量图片中特征qi和特征qj的伪标签,B表示当前输入小批量图片的数量。
需要说明的是,基于当前输入小批量图片内部的局部对比损失LLB就是传统的对比损失,唯一的区别在于其中的正负样本特征均用最难样本挖掘策略在当前输入小批量图片中挑选。
在本实施例中,将困难样本挖掘策略应用于全局和局部对比学习损失中,即为每一个样本选择同类特征距离最远的特征作为正例,挑选不同类中距离最近的特征作为负例。在监督学习过程中,使用挖掘出的最难样本特征动态更新存储在图片特征记忆库中的实例特征,在图片特征记忆库中学习更好的特征,使用困难样本挖掘策略改进聚类。
本实施例的目标域交互监督学习过程中,挖掘出的最难样本特征动态更新存储在图片特征记忆库中的实例特征。局部到全局的对比学习过程可以利用整个目标域训练集在聚类层次上挖掘出最有价值和信息量最大的训练实例,并且使模型的整个优化过程避免了由于错误聚类而放大训练误差,从而保持训练过程的稳定有效且具有更强的鲁棒性,同时也很好的提升了识别精度。
步骤4:利用跨域学习完成的任一个模型对目标域查询样本进行识别,找到目标域图片集中具有相同标签的图片,完成行人重识别。
在本实施例中,目标域图片集为gallery图库,用来匹配查询库quary中(目标域查询样本)的身份。
请参见图6所示的图片分类测试可视化示意图,其中第一列为目标域查询样本,其余5列为目标域底库图片集中具有相同标签的图片。
基于实验对本实施例的无监督跨域行人重识别方法进行验证,具体实验参数如下:
数据库:在两个广泛使用的个人身份数据集上进行评估,即Market-1501和DukeMTMC-reID。Market-1501数据集由6台摄像机共拍摄的32668张1501个身份的注释图像组成,其中751个身份中的12936张图像用于训练,测试集中有750个身份的19732张图像。DukeMTMC-reID包含用于训练的702个身份的16522个人图像,以及用于测试的其他702个标识中的剩余图像,其中所有图像都是从8个摄像机收集的。
评价标准:本实施例使用的评价标准为累计匹配特征(CMC)和平均精度(mAP)。CMC一般用Rank-1、Rank-5等代替,反应检索准确度;Rank-n识别率就是表示按照某种相似度匹配规则匹配后,第n次能判断出正确的标签的测试数目与总的测试样本数目之比。mAP平均准确率=正确分类的图片数量/总的图片数量。
实验结果参见表1-表6。
表1行人重识别准确率(目标域为Market-1501,batch size=16时)
表2行人重识别准确率(目标域为Market-1501,batch size=32时)
表3行人重识别准确率(目标域为Market-1501,batch size=64时)
从表1、表2、表3对比可以看到,随着batch size的提升,各模型的精度都有一定程度的提升,在batch size=64时效果最佳。其中,由于混合对比学***均学***均学***均学习框架和混合对比学习在无监督跨域行人重识别上的优良效果。
表4行人重识别准确率(目标域为DukeMTMC-reID,batch size=16时)
表5行人重识别准确率(目标域为DukeMTMC-reID,batch size=32时)
表6行人重识别准确率(目标域为DukeMTMC-reID,batch size=64时)
表4、表5、表6是将表1、表2、表3中的源域目标域置换后的实验结果。同样地,可以看到,随着batch size的提升,各模型的精度都有一定程度的提升,在batch size=64时效果最佳。同样地,由于混合对比学***均学***均学习框架和混合对比学习在无监督跨域行人重识别上的优良效果。
本实施例的基于聚类和多尺度学***均学习框架,克服初始伪标签噪声较大的情况下模型的较大崩溃风险;能够逐步减小伪标签噪声,提高伪标签质量,提高聚类的准确性,从而提升了无监督跨域行人重识别的识别精度。另外,基于全局和局部的对比学习方法,引入记忆库并采用困难样本挖掘策略,防止噪声伪类标签导致的训练误差放大,并逐渐生成更可靠的目标域簇,用于在混合存储器中学习更好的特征,从而改进聚类,提高聚类的准确性,从而提升了无监督跨域行人重识别的识别精度。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1.一种基于聚类和多尺度学习的无监督跨域行人重识别方法,其特征在于,包括:
步骤1:构建相同的两个原始卷积神经网络,对所述两个原始卷积神经网络分别采用不同的初始化参数利用源域训练集进行预训练,得到预训练完成的第一预训练学生模型和第二预训练学生模型,对所述第一预训练学生模型和所述第二预训练学生模型分别复制得到对应的第一预训练教师模型和第二预训练教师模型;
步骤2:构建图片特征记忆库,所述图片特征记忆库用于存放目标域训练集的图片特征和对应的标签;
步骤3:根据所述第一预训练学生模型、所述第二预训练学生模型、所述第一预训练教师模型和所述第二预训练教师模型,利用目标域训练集进行多轮目标域交互监督学习,直至达到得到预设的学习终止条件,得到跨域学习完成的第一学生模型、第二学生模型、第一教师模型和第二教师模型;
其中,针对每一轮目标域交互监督学习,将所述目标域训练集输入所述第一预训练学生模型和所述第二预训练学生模型,对任意一个预训练学生模型提取到的图片特征进行DBSCAN聚类,根据聚类结果更新所述图片特征记忆库中的图片特征和标签;
在每一轮目标域交互监督学习时,利用网络总损失对所述第一预训练学生模型、所述第二预训练学生模型、所述第一预训练教师模型和所述第二预训练教师模型的参数进行更新,所述网络总损失包括硬软伪标签结合监督总损失和对比学习总损失;
步骤4:利用跨域学习完成的任一个模型对目标域查询样本进行识别,找到目标域图片集中具有相同标签的图片,完成行人重识别。
2.根据权利要求1所述的基于聚类和多尺度学习的无监督跨域行人重识别方法,其特征在于,所述源域训练集为附有标签的图片集,所述目标域训练集为无标签的图片集。
3.根据权利要求2所述的基于聚类和多尺度学习的无监督跨域行人重识别方法,其特征在于,所述步骤1包括:
步骤1.1:构建相同的两个原始卷积神经网络,对所述两个原始卷积神经网络分别采用不同的初始化参数;
步骤1.2:利用源域训练集对所述两个原始卷积神经网络分别进行多轮预训练,直至达到得到预设的预训练终止条件,得到预训练完成的第一预训练学生模型Net1和第二预训练学生模型Net2;
其中,针对每一轮预训练,对输入两个原始卷积神经网络的图像分别采用不同的随机增强方式,对两个原始卷积神经网络的输出特征分别采用随机dropout,在每一轮预训练时,两个原始卷积神经网络均采用Log softmax loss和Triplet loss反向传播更新网络参数;
步骤3:将第一预训练学生模型Net1和第二预训练学生模型Net2的结构、参数分别复制得到对应的第一预训练教师模型Mean-Net1和第二预训练教师模型Mean-Net2。
4.根据权利要求3所述的基于聚类和多尺度学习的无监督跨域行人重识别方法,其特征在于,在构建图片特征记忆库之后,对所述图片特征记忆库进行初始化,包括:
将所述目标域训练集分别经过第一预训练学生模型和第二预训练学生模型提取得到每一张图片对应的图片特征和标签,将所述图片特征和标签存入所述图片特征记忆库完成初始化,其中,所述图片特征F=(F1+F2)/2,其中,F1表示图片经过第一预训练学生模型提取得到的第一图片特征,F2表示图片经过第二预训练学生模型提取得到的第二图片特征。
5.根据权利要求4所述的基于聚类和多尺度学习的无监督跨域行人重识别方法,其特征在于,将所述目标域训练集输入所述第一预训练学生模型和所述第二预训练学生模型,对任意一个预训练学生模型提取到的图片特征进行DBSCAN聚类,根据聚类结果更新所述图片特征记忆库中的图片特征和标签,包括:
将所述目标域训练集输入所述第一预训练学生模型和所述第二预训练学生模型;
根据任意一个预训练学生模型提取到的图片特征计算jaccard距离;
根据所述jaccard距离对提取到的图片特征进行DBSCAN聚类;
对每一个聚类类别计算其聚类中心,并对所述聚类类别分配对应的伪标签;
根据提取到的图片特征和对应的伪标签更新所述图片特征记忆库中的图片特征和标签。
7.根据权利要求6所述的基于聚类和多尺度学习的无监督跨域行人重识别方法,其特征在于,所述硬软伪标签结合监督总损失包括:使用硬伪标签进行监督时的分类损失、使用软伪标签进行监督时的分类损失、使用硬伪标签进行监督时的三元组损失和使用软伪标签进行监督时三元组损失;
所述硬软伪标签结合监督总损失按照下式计算得到:
式中,t为当前训练轮次,表示软伪标签分类损失系数,表示软伪标签三元组损失系数,表示使用硬伪标签进行监督时的分类损失,表示使用软伪标签进行监督时的分类损失,表示使用硬伪标签进行监督时的三元组损失,表示使用软伪标签进行监督时的三元组损失;
其中,使用硬伪标签进行监督时的分类损失函数为:
使用软伪标签进行监督时的分类损失函数为:
式中,表示第一预训练教师模型的分类预测值,表示第二预训练教师模型的分类预测值,表示图片通过第一预训练学生模型进行特征提取和分类后的分类结果,表示图片通过第二预训练学生模型进行特征提取和分类后的分类结果,表示经过不同的随机数据增强方式;
使用硬伪标签进行监督时的三元组损失函数为:
使用软伪标签进行监督时的三元组损失函数为:
式中,Lbce(p,q)=-qlogp-(1-q)log(1-p),表示当硬伪标签进行监督时使用的二元交叉熵损失函数。
8.根据权利要求7所述的基于聚类和多尺度学习的无监督跨域行人重识别方法,其特征在于,所述对比学习总损失包括全局对比损失和局部对比损失,其中,
所述全局对比损失按照下式计算得到:
式中,Nc表示当前记忆库中已聚类的样本特征数,N0表示当前记忆库中未聚类的样本特征数,qi表示当前输入小批量图片的第i个特征,f+表示特征qi在图片特征记忆库中对应样本的特征,τ为超参数温度系数,<·,·>表示度量相似性的两个特征向量之间的内积,fck*表示已经聚类的样本,fk表示图片特征记忆库中所有未聚类的样本特征;
所述局部对比损失按照下式计算得到:
式中,yi和yj分别表示当前输入小批量图片中特征qi和特征qj的伪标签,B表示当前输入小批量图片的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211372036.3A CN115641613A (zh) | 2022-11-03 | 2022-11-03 | 一种基于聚类和多尺度学习的无监督跨域行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211372036.3A CN115641613A (zh) | 2022-11-03 | 2022-11-03 | 一种基于聚类和多尺度学习的无监督跨域行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115641613A true CN115641613A (zh) | 2023-01-24 |
Family
ID=84946978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211372036.3A Pending CN115641613A (zh) | 2022-11-03 | 2022-11-03 | 一种基于聚类和多尺度学习的无监督跨域行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115641613A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325223A (zh) * | 2018-12-13 | 2020-06-23 | 中国电信股份有限公司 | 深度学习模型的训练方法、装置和计算机可读存储介质 |
CN116824695A (zh) * | 2023-06-07 | 2023-09-29 | 南通大学 | 一种基于特征去噪的行人再识别非局部防御方法 |
CN116912535A (zh) * | 2023-09-08 | 2023-10-20 | 中国海洋大学 | 一种基于相似筛选的无监督目标重识别方法、装置及介质 |
CN117115641A (zh) * | 2023-07-20 | 2023-11-24 | 中国科学院空天信息创新研究院 | 建筑物信息提取方法、装置、电子设备及存储介质 |
CN117351522A (zh) * | 2023-12-06 | 2024-01-05 | 云南联合视觉科技有限公司 | 基于风格注入与跨视角难样本挖掘的行人重识别方法 |
CN117556866A (zh) * | 2024-01-09 | 2024-02-13 | 南开大学 | 一种无源域图的数据域适应网络构建方法 |
CN117993468A (zh) * | 2024-04-03 | 2024-05-07 | 杭州海康威视数字技术股份有限公司 | 一种模型训练方法、装置、存储介质和电子设备 |
CN117993468B (zh) * | 2024-04-03 | 2024-06-28 | 杭州海康威视数字技术股份有限公司 | 一种模型训练方法、装置、存储介质和电子设备 |
-
2022
- 2022-11-03 CN CN202211372036.3A patent/CN115641613A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325223A (zh) * | 2018-12-13 | 2020-06-23 | 中国电信股份有限公司 | 深度学习模型的训练方法、装置和计算机可读存储介质 |
CN111325223B (zh) * | 2018-12-13 | 2023-10-24 | 中国电信股份有限公司 | 深度学习模型的训练方法、装置和计算机可读存储介质 |
CN116824695A (zh) * | 2023-06-07 | 2023-09-29 | 南通大学 | 一种基于特征去噪的行人再识别非局部防御方法 |
CN117115641A (zh) * | 2023-07-20 | 2023-11-24 | 中国科学院空天信息创新研究院 | 建筑物信息提取方法、装置、电子设备及存储介质 |
CN117115641B (zh) * | 2023-07-20 | 2024-03-22 | 中国科学院空天信息创新研究院 | 建筑物信息提取方法、装置、电子设备及存储介质 |
CN116912535A (zh) * | 2023-09-08 | 2023-10-20 | 中国海洋大学 | 一种基于相似筛选的无监督目标重识别方法、装置及介质 |
CN116912535B (zh) * | 2023-09-08 | 2023-11-28 | 中国海洋大学 | 一种基于相似筛选的无监督目标重识别方法、装置及介质 |
CN117351522A (zh) * | 2023-12-06 | 2024-01-05 | 云南联合视觉科技有限公司 | 基于风格注入与跨视角难样本挖掘的行人重识别方法 |
CN117556866A (zh) * | 2024-01-09 | 2024-02-13 | 南开大学 | 一种无源域图的数据域适应网络构建方法 |
CN117556866B (zh) * | 2024-01-09 | 2024-03-29 | 南开大学 | 一种无源域图的数据域适应网络构建方法 |
CN117993468A (zh) * | 2024-04-03 | 2024-05-07 | 杭州海康威视数字技术股份有限公司 | 一种模型训练方法、装置、存储介质和电子设备 |
CN117993468B (zh) * | 2024-04-03 | 2024-06-28 | 杭州海康威视数字技术股份有限公司 | 一种模型训练方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115641613A (zh) | 一种基于聚类和多尺度学习的无监督跨域行人重识别方法 | |
Ren et al. | Meta-learning for semi-supervised few-shot classification | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Jing et al. | Videossl: Semi-supervised learning for video classification | |
US10671853B2 (en) | Machine learning for identification of candidate video insertion object types | |
CN111401281B (zh) | 基于深度聚类和样例学习的无监督行人重识别方法及*** | |
CN112069929B (zh) | 一种无监督行人重识别方法、装置、电子设备及存储介质 | |
CN112396027B (zh) | 基于图卷积神经网络的车辆重识别方法 | |
Murray et al. | A deep architecture for unified aesthetic prediction | |
CN110728294A (zh) | 一种基于迁移学习的跨领域图像分类模型构建方法和装置 | |
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN109753897B (zh) | 基于记忆单元强化-时序动态学习的行为识别方法 | |
CN113111814B (zh) | 基于正则化约束的半监督行人重识别方法及装置 | |
CN114283350B (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN116935447B (zh) | 基于自适应师生结构的无监督域行人重识别方法及*** | |
WO2022062419A1 (zh) | 基于非督导金字塔相似性学习的目标重识别方法及*** | |
CN111967325A (zh) | 一种基于增量优化的无监督跨域行人重识别方法 | |
CN112069884A (zh) | 一种暴力视频分类方法、***和存储介质 | |
Wu et al. | An end-to-end exemplar association for unsupervised person re-identification | |
CN117152459B (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
US20230023164A1 (en) | Systems and methods for rapid development of object detector models | |
CN115471739A (zh) | 基于自监督对比学习的跨域遥感场景分类与检索方法 | |
CN114299362A (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
CN112183464A (zh) | 基于深度神经网络和图卷积网络的视频行人识别方法 | |
CN115761408A (zh) | 一种基于知识蒸馏的联邦域适应方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |