CN117351522A - 基于风格注入与跨视角难样本挖掘的行人重识别方法 - Google Patents
基于风格注入与跨视角难样本挖掘的行人重识别方法 Download PDFInfo
- Publication number
- CN117351522A CN117351522A CN202311660792.0A CN202311660792A CN117351522A CN 117351522 A CN117351522 A CN 117351522A CN 202311660792 A CN202311660792 A CN 202311660792A CN 117351522 A CN117351522 A CN 117351522A
- Authority
- CN
- China
- Prior art keywords
- feature extraction
- style
- features
- sample
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000002347 injection Methods 0.000 title claims abstract description 58
- 239000007924 injection Substances 0.000 title claims abstract description 58
- 238000005065 mining Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000009412 basement excavation Methods 0.000 claims 1
- 230000006978 adaptation Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012733 comparative method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于风格注入与跨视角难样本挖掘的行人重识别方法,属图像检索领域。包括:获取用于行人重识别模型训练数据集;将数据样本输入特征提取网络,对特征提取网络进行预训练,实现特征提取网络对行人特征提取的判别能力;利用预训练后的特征提取网络对特征进行分组,实现单视角下样本的特征提取;利用特征提取网络提取到的单视角样本特征送入风格注入模块,为当前视角下的样本生成其它视角的特征,并将不同风格相同身份的样本进行拉近,实现跨视角身份一致性特征学习;挖掘跨视角的难样本,并将挖掘出的跨视角难样本进行拉近,实现跨视角下的行人身份匹配。本发明能实现远距离场景下的行人检索,实现跨城区场景中同一身份行人搜索任务。
Description
技术领域
本发明涉及基于风格注入与跨视角难样本挖掘的行人重识别方法,属于图像检索技术领域。
背景技术
行人重识别是匹配互不重叠摄像头下的行人是否为同一身份的技术。在现有行人重识别方法中,所涉及到的问题大都是近距离跨相机视角的行人匹配问题。由于近距离内跨相机视角下出现相同身份行人的概率较高,这为降低标签噪声起到了积极作用。然而,现实中可能需要跨城区匹配行人的身份,这就涉及到远距离跨摄像头行人身份匹配的问题。在这种场景下,相机间极有可能不会出现相同身份的行人。如果将已有的行人重识别方法直接部署到该场景下,将会因预测到的伪标签全为标签噪声而失去原有性能。针对这一问题,提出了一种基于风格注入与跨视角难样本挖掘的行人重识别方法。
发明内容
为了解决现有方法的不足,本发明针对跨城区行人重识别面临的挑战,在非成对样本监督下,提出了基于风格注入与跨视角难样本挖掘的行人重识别方法,本发明克服了已有方法对行人判别性特征提取的不准确性,解决了行人身份信息和相机风格信息混叠对性能的影响,能有效识别跨相机同一身份的行人,比现有方法性能更好。
本发明的技术方案是:基于风格注入与跨视角难样本挖掘的行人重识别方法,所述方法的具体步骤如下:
步骤1:获取用于行人重识别模型训练数据集;
步骤2:将数据样本输入特征提取网络中,对特征提取网络进行预训练,实现特征提取网络对行人特征提取的判别能力;
步骤3:利用预训练后的特征提取网络对特征进行分组,实现单视角下样本的特征
提取,得到单视角的特征,表示为;
步骤4:利用特征提取网络提取到的单视角样本特征送入风格注入模块,为当前视角下的样本生成其它视角的特征,即生成风格注入后的特征,并将不同风格相同身份的样本进行拉近,即对风格注入后的特征进行分布对齐,实现跨视角身份一致性特征学习;
步骤5:挖掘跨视角的难样本,并将挖掘出的跨视角难样本进行拉近,实现跨视角下的行人身份匹配。
进一步地,所述步骤1中数据样本图像大小均为256×128大小,首先对采集的数据样本图像进行预处理,预处理的方法具体为,水平翻转、填充、随机裁剪和随机擦除。
进一步地,具体操作如下:
给定输入图像,其中,分别表示高、宽、通道数;首先将图片分
为N 个大小为16×16的局部块P,,表示N个局部特征;每
个局部块的维度为768,此外,增加一个额外的随机初始化的分类头和风格头,将输出的分
类头视为类别特征,风格头视为风格特征;接着,将局部块、分类头和风格头一起送入线性
映射层,将图片映射为向量的形式,线性映射层的输出为,其中,表示位置嵌入, 表示将每个局部块进行线性映射为D维向量,表示类别特征,表示风格
特征;继而将送入特征提取网络进行特征提取和关系挖掘;特征提取网络的输出表示为: ,表示共个transformer 层;接下来,首先对特征
提取网络进行预训练,使用交叉熵损失和三元组损失来优化特征提取网络,使得特征提取
网络具备一定的特征提取能力。
进一步地,所述步骤2中,将数据样本输入特征提取网络进行预训练,通过有监督
的训练使得特征提取网络具备特征提取能力与分类能力,此过程实现如下:;;
其中,为单个样本的交叉熵损失,、分别表示一个批次的多个
样本的交叉熵损失和三元组损失,代表数据集中的第个样本,为特征提取网络,为
行人分类器,为当前第个行人样本的身份标签,为数据集中行人身份类别总
数;同时,和 分别为当前样本的难正样本和难负样本的特征,为阈值。通
过上述公式的约束,和具备了一定的行人信息的特征提取能力。
进一步地,所述步骤3中,单视角下样本的特征提取具体操作如下:
经过了预训练后的特征提取网络,已经具备了初步的特征提取能力和分类能力。
此时,由于数据集中行人的相机标签可以获得,因此,本发明将数据样本按照相机标签进行
分组,分组后的特征表示为,即单视角的特征,并将单视角下的
风格特征存储在风格特征存储器中。
进一步地,所述步骤4具体操作如下:
将步骤3中获得的单视角的特征与当前样本的特征一同送入风格注入模块,利用风格注入模块将当前样本的风格特征进行替换,替换为其
它视角下的风格特征。经过风格注入模块之后,获得了当前身份在不同视角下的风格特征,
将其继续送入后续的特征提取网络,并利用身份一致性约束实现判别性特征的挖掘。
进一步地,所述步骤4中,风格注入模块将不同视角下的风格特征注入到当前样本
中,首先获得第层网络的输出,此过程实现如下:
其中,为第个样本的类别特征,为第个样本的风格特征,为网络第层的输出特征,表示N个局部特征;
利用单视角的特征进行风格注入,定义为:
从而获得风格注入后的特征,将风格注入后的特征与原特征一起
送入后续的特征提取网络进行信息挖掘,对风格注入后的特征进行分布上的对齐与特征一
致性学习,从而实现跨视角身份一致性特征学习。
进一步地,所述步骤4中,对风格注入后的特征进行分布对齐,风格注入后的特征
用表示,具体操作如下;
其中,为KL散度(Kullback-Leibler Divergence)。
进一步地,所述步骤5中,利用特征提取网络得到的特征进行跨相机的难样本挖掘,具体操作如下:
从特征提取网络输出的特征中得到类别特征,并利用所有样本的类别特征进
行相似性度量,通过相似性度量矩阵,挖掘同一身份行人的难正样本和不同身份行人
的难负样本。令,,,为当前样本与其正样本之间的距离,为当前样本与
其难正样本之间的距离,为当前样本与其难负样本之间的距离。接下来,将挖掘出的跨
视角难样本进行拉近,实现跨视角下的行人身份匹配,定义如下:
其中,为阈值,代表随着网络的迭代优化,距离值不断增大,代表随着
网络的迭代优化,距离值不断减小。
本发明的有益效果是:
1、本发明通过设计风格注入模块,为当前样本获得其它视角下的风格特征,通过丰富特征的多样性,提升特征的判别性,克服了已有方法对行人判别性特征提取的不准确性,解决了行人身份信息和相机风格信息混叠对性能的影响。
2、本发明充分挖掘单相机下的行人样本,挖掘对应样本的难样本,并通过约束来增强网络提取特征的能力,解决了跨相机缺少正样本的挑战。
3、实验结果表明,本发明提出的方法能有效识别跨相机同一身份的行人,比现有方法性能更好。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
附图说明
下面将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图;
图1为本发明的流程结构示意图;
图2为本发明的风格注入模块示意图;
图3为本发明的难样本挖掘模块示意图。
具体实施方式
实施例1:如图1-图3所示,基于风格注入与跨视角难样本挖掘的行人重识别方法,所述方法的具体步骤如下:
步骤1:获取用于行人重识别模型训练数据集;数据样本图像大小均为256×128大小,首先对采集的数据样本图像进行预处理,预处理的方法具体为:水平翻转、填充、随机裁剪和随机擦除。
步骤2:将数据样本输入特征提取网络中,对特征提取网络进行预训练,实现特征
提取网络对行人特征提取的判别能力;将数据样本输入特征提取网络进行预训练,通过有
监督的训练使得特征提取网络具备特征提取能力与分类能力,此过程实现如下:; ;
其中,为单个样本的交叉熵损失,、分别表示一个批次的多个
样本的交叉熵损失和三元组损失,代表数据集中的第个样本,为特征提取网络,为
行人分类器,为当前第个行人样本的身份标签,为数据集中行人身份类别总
数;同时,和 分别为当前样本的难正样本和难负样本的特征,为阈值。通
过上述公式的约束,和具备了一定的行人信息的特征提取能力。
所述步骤2中,具体操作如下:
给定输入图像,其中,分别表示高、宽、通道数;首先将图片分
为N 个大小为16×16的局部块P,,表示N个局部特征;每
个局部块的维度为768,此外,增加一个额外的随机初始化的分类头和风格头,将输出的分
类头视为类别特征,风格头视为风格特征;接着,将局部块、分类头和风格头一起送入线性
映射层,将图片映射为向量的形式,线性映射层的输出为,其中,表示位置嵌入, 表示将每个局部块进行线性映射为D维向量,表示类别特征,表示风格
特征;继而将送入特征提取网络进行特征提取和关系挖掘;特征提取网络的输出表示为: ,表示共个transformer 层;接下来,首先对特征
提取网络进行预训练,使用交叉熵损失和三元组损失来优化特征提取网络,使得特征提取
网络具备一定的特征提取能力。
步骤3:利用预训练后的特征提取网络对特征进行分组,实现单视角下样本的特征
提取,得到单视角的特征,表示为;单视角下样本的特征提取具
体操作如下:
经过了预训练后的特征提取网络,已经具备了初步的特征提取能力和分类能力。
此时,由于数据集中行人的相机标签可以获得,因此,本发明将数据样本按照相机标签进行
分组,分组后的特征表示为,即单视角的特征,并将单视角下的
风格特征存储在风格特征存储器中。
步骤4:利用特征提取网络提取到的单视角样本特征送入风格注入模块,为当前视角下的样本生成其它视角的特征,即生成风格注入后的特征,并将不同风格相同身份的样本进行拉近,即对风格注入后的特征进行分布对齐,实现跨视角身份一致性特征学习;
进一步地,所述步骤4具体操作如下:
将步骤3中获得的单视角的特征与当前样本的特征一同送入风格注入模块,利用风格注入模块将当前样本的风格特征进行替换,替换为其
它视角下的风格特征。经过风格注入模块之后,获得了当前身份在不同视角下的风格特征,
将其继续送入后续的特征提取网络,并利用身份一致性约束实现判别性特征的挖掘。
进一步地,所述步骤4中,风格注入模块将不同视角下的风格特征注入到当前样本
中,首先获得第层网络的输出,此过程实现如下:
其中,为第个样本的类别特征,为第个样本的风格特征,为网络第层的输出特征,表示N个局部特征;
利用单视角的特征进行风格注入,定义为:
从而获得风格注入后的特征,将风格注入后的特征与原特征一起
送入后续的特征提取网络进行信息挖掘,对风格注入后的特征进行分布上的对齐与特征一
致性学习,从而实现跨视角身份一致性特征学习。
进一步地,所述步骤4中,对风格注入后的特征进行分布对齐,风格注入后的特征
用表示,具体操作如下;
其中,为KL散度(Kullback-Leibler Divergence)。
步骤5:挖掘跨视角的难样本,并将挖掘出的跨视角难样本进行拉近,实现跨视角下的行人身份匹配。利用特征提取网络得到的特征进行跨相机的难样本挖掘,具体操作如下:
从特征提取网络输出的特征中得到类别特征,并利用所有样本的类别特征进
行相似性度量,通过相似性度量矩阵,挖掘同一身份行人的难正样本和不同身份行人
的难负样本。令,,,为当前样本与其正样本之间的距离,为当前样本与
其难正样本之间的距离,为当前样本与其难负样本之间的距离。接下来,将挖掘出的跨
视角难样本进行拉近,实现跨视角下的行人身份匹配,定义如下:
其中,为阈值,代表随着网络的迭代优化,距离值不断增大,代表随着
网络的迭代优化,距离值不断减小。
为验证本发明的有效性,本发明利用面向跨城区场景下行人重识别而设定的两个
数据集Market-SCT和MSMT-SCT作为目标数据集。这两个数据集是由Market和MSMT17数据集
根据跨城区场景的特点重新设置得到。在Market、CUHK03和MSMT17中,训练集中每个行人图
像都存在跨视角相同身份的行人样本。而在Market-SCT和MSMT17-SCT中,训练集仅有单视
角行人图像样本,跨相机视角不存在相同行人身份的样本。本发明将数据集Market、CUHK03
和MSMT17作为源域数据,Market-SCT,MSMT17-SCT作为目标域。本发明算法是在PyTorch框
架下开发的,所有的实验都在1张NVIDIA RTX 3090 24GB GPUD平台上完成。在训练中,使用
SGD优化器来对模型进行参数优化。在此过程中,Batch size设置为16, 使用动量为0.9,权
重衰减率为,学习率为的SGD优化器来对编码器的参数进行更新。在此过程
中,学习率为,模型共训练300轮。在前10个epoch中,学习率通过预热策略线性调
整。
进一步地,在算法性能的客观评价上,由于测试数据样本并未改变,因此依然利用先前的评价指标 Cumulative Matching Characteristic (CMC)和Mean AveragePrecision (mAP)来对不同方法的实验性能进行客观评价。
进一步地,为验证本发明的有效性以及相对于已有方法优越性,将 Market-SCT作为目标数据集,MSMT17和CUHK03分别作为源域数据。在该实验中,对比方法主要涉及无监督学习(USL)的方法和无监督域自适应 (UDA)的方法。USL的方法主要包括MCNL, Precise-ICS, AGW, SimSiam, STS, ICE, CCFP, CCSFG和PPLR。 UDA方法主要包括MMT, SPCL,Meb-Net, CAC, IDM, Dual-Refine, P2LR, DRDL和LRIMV。
表1本发明方法与现有无监督的方法在Market-SCT的性能比较。
表2 本发明方法与现有无监督域自适应的方法在Market-SCT的性能比较。
对于USL的方法,CCSFG在Market-SCT获得了次优的性能,R1和mAP分别达到了84.8%和68.4%。相比之下,本发明方法在任务Market-SCT上,R1和mAP的精度分别达到了87.8%和69.6%。这表明本发明方法相对于上述的USL方法在远距离跨城区行人重识别上具有更优的识别性能。由于本发明方法隶属于域自适应的识别方法。相对于表中所列的域自适应识别方法,本发明方法同样表现出了更优异的性能。这主要是因为已有方法受到了目标数据成对训练样本缺失的影响,限制了其在Market-SCT性能表现。
进一步地,为进一步证明本发明方法的有效性,在第二组实验中将MSMT-SCT作为目标数据集,Market和CUHK03均作为源域来对模型进行训练。由于MSMT-SCT数据集相比于Market和CUHK03包含更多的样本,因此任务Market→MSMT-SCT和CUHK03→MSMT-SCT更具有挑战性。为验证本发明方法相对于USL方法的优势,本发明方法首先与基于USL的方法进行了实验对比。对比的方法包括MCNL, Precise-ICS, AGW, SimSiam, STS, ICE, CCFP,CCSFG和PPLR,不同方法的实验结果表3所示。由此可以看出,本发明方法优于最新的USL的方法。此外,与域自适应的方法MMT, SPCL, Meb-Net, CAC, IDM, Dual-Refine, P2LR,DRDL和LRIMV相比,本发明方法也表现出了较强的竞争力。如表4所示,本发明方法在任务Market→MSMT-SCT(CUHK03→MSMT-SCT)上分别使R1和mAP的精度达到了54.3%和30.3%(53.1%和28.3%),相对于次优的方法性能提升了16.7%和15.6%(21.5%和14.4%)。这表明本发明方法在小数据跨到大数据集的任务上更具优势。
表3 本发明方法与现有无监督的方法在MSMT-SCT的性能比较。
表 4 本发明方法与无监督域自适应方法在MSMT-SCT的性能比较。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (9)
1.基于风格注入与跨视角难样本挖掘的行人重识别方法,其特征在于:所述方法的具体步骤如下:
步骤1:获取用于行人重识别模型的训练数据集;
步骤2:将数据样本输入特征提取网络中,对特征提取网络进行预训练,实现特征提取网络对行人特征提取的判别能力;
步骤3:利用预训练后的特征提取网络对特征进行分组,实现单视角下样本的特征提取,得到单视角的特征,表示为;
步骤4:利用特征提取网络提取到的单视角样本特征送入风格注入模块,为当前视角下的样本生成其它视角的特征,即生成风格注入后的特征,并将不同风格相同身份的样本进行拉近,即对风格注入后的特征进行分布对齐,实现跨视角身份一致性特征学习;
步骤5:挖掘跨视角的难样本,并将挖掘出的跨视角难样本进行拉近,实现跨视角下的行人身份匹配。
2.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法,其特征在于,所述步骤1中数据样本图像大小均为256×128大小,首先对采集的数据样本图像进行预处理,预处理的方法具体为:水平翻转、填充、随机裁剪和随机擦除。
3.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法,其特征在于,所述步骤2中,具体操作如下:
给定输入图像,其中,/>分别表示高、宽、通道数;首先将图片分为N 个大小为16×16的局部块P,/>,/>表示N个局部特征;每个局部块的维度为768,此外,增加一个额外的随机初始化的分类头和风格头,将输出的分类头视为类别特征,风格头视为风格特征;接着,将局部块、分类头和风格头一起送入线性映射层,将图片映射为向量的形式,线性映射层的输出为,其中,/>表示位置嵌入,表示将每个局部块进行线性映射为D维向量,/>表示类别特征,/>表示风格特征;继而将/>送入特征提取网络进行特征提取和关系挖掘;特征提取网络的输出表示为:,/>表示共/>个transformer 层;接下来,首先对特征提取网络进行预训练,使用交叉熵损失和三元组损失来优化特征提取网络,使得特征提取网络具备一定的特征提取能力。
4.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法,其特征在于,所述步骤2中,将数据样本输入特征提取网络进行预训练,通过有监督的训练使得特征提取网络具备特征提取能力与分类能力,此过程实现如下:
; ;
其中,为单个样本的交叉熵损失,/>、/>分别表示一个批次的多个样本的交叉熵损失和三元组损失,/>代表数据集中的第/>个样本,/>为特征提取网络,/>为行人分类器,/>为当前第/>个行人样本的身份标签,/>为数据集中行人身份类别总数;同时,/>和/> 分别为当前样本/>的难正样本和难负样本的特征,/>为阈值,通过上述公式的约束,/>和/>具备了一定的行人信息的特征提取能力。
5.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法,其特征在于,所述步骤3中,单视角下样本的特征提取具体操作如下:
将数据样本按照相机标签进行分组,分组后的特征表示为,即单视角的特征,并将单视角下的风格特征存储在风格特征存储器中。
6.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法,其特征在于,所述步骤4具体操作如下:
将步骤3中获得的单视角的特征与当前样本的特征/>一同送入风格注入模块,利用风格注入模块将当前样本的风格特征进行替换,替换为其它视角下的风格特征;经过风格注入模块之后,获得了当前身份在不同视角下的风格特征,将其继续送入后续的特征提取网络,并利用身份一致性约束实现判别性特征的挖掘。
7.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法,其特征在于,所述步骤4中,风格注入模块将不同视角下的风格特征注入到当前样本中,首先获得第层网络的输出,此过程实现如下:
;
其中,为第/>个样本的类别特征,/>为第/>个样本的风格特征,/>为网络第/>层的输出特征,/>表示N个局部特征;
利用单视角的特征进行风格注入,定义为:
;
;
;
从而获得风格注入后的特征,将风格注入后的特征与原特征一起送入后续的特征提取网络进行信息挖掘,对风格注入后的特征进行分布上的对齐与特征一致性学习,从而实现跨视角身份一致性特征学习。
8.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法,其特征在于,所述步骤4中,对风格注入后的特征进行分布对齐,风格注入后的特征用表示,具体操作如下;
;
;
;
其中,为KL散度。
9.根据权利要求1所述的基于风格注入与跨视角难样本挖掘的行人重识别方法,其特征在于,所述步骤5中,利用特征提取网络得到的特征进行跨相机的难样本挖掘,具体操作如下:
从特征提取网络输出的特征中得到类别特征,并利用所有样本的类别特征进行相似性度量,通过相似性度量矩阵,挖掘同一身份行人的难正样本/>和不同身份行人的难负样本/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311660792.0A CN117351522A (zh) | 2023-12-06 | 2023-12-06 | 基于风格注入与跨视角难样本挖掘的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311660792.0A CN117351522A (zh) | 2023-12-06 | 2023-12-06 | 基于风格注入与跨视角难样本挖掘的行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117351522A true CN117351522A (zh) | 2024-01-05 |
Family
ID=89367208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311660792.0A Pending CN117351522A (zh) | 2023-12-06 | 2023-12-06 | 基于风格注入与跨视角难样本挖掘的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351522A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666843A (zh) * | 2020-05-25 | 2020-09-15 | 湖北工业大学 | 一种基于全局特征和局部特征拼接的行人重识别方法 |
CN112668544A (zh) * | 2021-01-13 | 2021-04-16 | 昆明理工大学 | 一种基于难样本混淆增强特征鲁棒性的行人重识别方法 |
CN115170836A (zh) * | 2022-07-29 | 2022-10-11 | 深圳大学 | 一种基于浅层纹理提取的跨域重识别方法及相关设备 |
CN115205903A (zh) * | 2022-07-27 | 2022-10-18 | 华中农业大学 | 一种基于身份迁移生成对抗网络的行人重识别方法 |
CN115641613A (zh) * | 2022-11-03 | 2023-01-24 | 西安电子科技大学 | 一种基于聚类和多尺度学习的无监督跨域行人重识别方法 |
CN115690669A (zh) * | 2021-07-29 | 2023-02-03 | 四川大学 | 一种基于特征分离与因果比较损失的跨模态重识别方法 |
CN116524583A (zh) * | 2022-01-21 | 2023-08-01 | 四川大学 | 一种基于逐点特征匹配的跨域行人重识别方法 |
-
2023
- 2023-12-06 CN CN202311660792.0A patent/CN117351522A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666843A (zh) * | 2020-05-25 | 2020-09-15 | 湖北工业大学 | 一种基于全局特征和局部特征拼接的行人重识别方法 |
CN112668544A (zh) * | 2021-01-13 | 2021-04-16 | 昆明理工大学 | 一种基于难样本混淆增强特征鲁棒性的行人重识别方法 |
CN115690669A (zh) * | 2021-07-29 | 2023-02-03 | 四川大学 | 一种基于特征分离与因果比较损失的跨模态重识别方法 |
CN116524583A (zh) * | 2022-01-21 | 2023-08-01 | 四川大学 | 一种基于逐点特征匹配的跨域行人重识别方法 |
CN115205903A (zh) * | 2022-07-27 | 2022-10-18 | 华中农业大学 | 一种基于身份迁移生成对抗网络的行人重识别方法 |
CN115170836A (zh) * | 2022-07-29 | 2022-10-11 | 深圳大学 | 一种基于浅层纹理提取的跨域重识别方法及相关设备 |
CN115641613A (zh) * | 2022-11-03 | 2023-01-24 | 西安电子科技大学 | 一种基于聚类和多尺度学习的无监督跨域行人重识别方法 |
Non-Patent Citations (1)
Title |
---|
LI, HUAFENG等: "Domain-adaptive Person Re-identification without Cross-camera Paired Samples", 《ARXIV PREPRINT ARXIV:2307.06533》, pages 1 - 13 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016687B (zh) | 一种基于互补伪标签的跨域行人重识别方法 | |
CN110728294A (zh) | 一种基于迁移学习的跨领域图像分类模型构建方法和装置 | |
CN111898645A (zh) | 基于注意力机制的可迁移的对抗样本攻击方法 | |
CN112668544B (zh) | 一种基于难样本混淆增强特征鲁棒性的行人重识别方法 | |
CN106649663A (zh) | 一种基于紧凑视频表征的视频拷贝检测方法 | |
CN111027377A (zh) | 一种双流神经网络时序动作定位方法 | |
Vellasques et al. | Fast intelligent watermarking of heterogeneous image streams through mixture modeling of PSO populations | |
CN115631513B (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN105654122A (zh) | 基于核函数匹配的空间金字塔物体识别方法 | |
CN114882537A (zh) | 一种基于神经辐射场的手指新视角图像生成方法 | |
CN110688515A (zh) | 文本图像语义转换方法、装置、计算设备、及存储介质 | |
CN114037886A (zh) | 图像识别方法、装置、电子设备和可读存储介质 | |
CN117351522A (zh) | 基于风格注入与跨视角难样本挖掘的行人重识别方法 | |
CN113128461B (zh) | 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法 | |
CN114972964A (zh) | 一种基于对比学习的域适应物体检测方法及装置 | |
CN115471901A (zh) | 基于生成对抗网络的多姿态人脸正面化方法及*** | |
CN114821651A (zh) | 一种行人重识别方法、***、设备及计算机可读存储介质 | |
CN112016661B (zh) | 一种基于擦除显著性区域的行人重识别方法 | |
CN108898537A (zh) | 一种数字图像隐写方法 | |
CN110750672B (zh) | 基于深度度量学习和结构分布学习损失的图像检索方法 | |
CN113255615A (zh) | 一种自监督学习的行人检索方法及装置 | |
CN117078967B (zh) | 一种有效且轻量的多尺度行人重识别方法 | |
Liu | Vehicle verification using deep learning for connected vehicle sharing systems | |
CN110070110A (zh) | 一种自适应阈值图像匹配方法 | |
CN104657733A (zh) | 一种设备管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |