CN109635634A - 一种基于随机线性插值的行人再识别数据增强方法 - Google Patents
一种基于随机线性插值的行人再识别数据增强方法 Download PDFInfo
- Publication number
- CN109635634A CN109635634A CN201811268388.8A CN201811268388A CN109635634A CN 109635634 A CN109635634 A CN 109635634A CN 201811268388 A CN201811268388 A CN 201811268388A CN 109635634 A CN109635634 A CN 109635634A
- Authority
- CN
- China
- Prior art keywords
- sample
- pedestrian
- training
- linear interpolation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims description 63
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 239000012141 concentrate Substances 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000000528 statistical test Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000003062 neural network model Methods 0.000 description 4
- 238000010206 sensitivity analysis Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于随机线性插值的行人再识别数据增强方法,采用随机线性插值方法用以增加原始行人再识别数据集中的样本数量,并且利用了大量的具有不同遮挡等级的行人图像样本,以获得数据集中更加丰富的行人数据分布信息。然后,通过使用基准的深度学习网络模型对增强后的数据集进行学习,提升了模型的泛化能力,降低行人再识别的Rank‑1匹配的误差。
Description
技术领域
本发明涉及视频监控和数据处理领域,具体涉及一种基于随机线性插值的行人再识别数据增强方法。
背景技术
随着深度学习的快速发展,越来越多的卷积神经网络模型有效地处理图像分类,目标检测等问题计算机视觉任务,但是为了保证大型卷积网络模型对于小规模数据的泛化能力,尤其是当识别不同摄像机视角中的行人,正在面临着数据集较小的挑战,数据增强方法显得十分重要。传统的数据增强方法都是对单一的数据进行增强,包括了随机裁剪,随机翻转和随机擦除等算法,而在行人再识别数据集上,考虑到卷积网络模型需要对具有遮挡和不同灯光背景的数据样本有很好的识别能力,只针对单个样本的数据增强方法略有不足。因此,为了使得卷积神经网络模型对复杂背景样本识别的泛化性提高,基于样本间的数据增强方法应运而生。
数据增强是一种数据预处理方法,它是从原始数据集中生成新的训练样本,被广泛用于增加图像中数据集的大小。而且,数据增加由于具有降低过拟合风险的能力,因此在深度学习中起着关键作用。图像的数据增强分成两种常用的方法:第一种方法侧重于改变图像中像素点的位置分布,如随机旋转,这种方法优点在于能够增加样本在不同方向上的数据,使得神经网络模型能够对于不同角度的样本识别具有鲁棒性;第二种方法侧重于改变图像中像素点的值,如随机擦除,这种方法优点在于对于网络模型来说,像素值的改变意味着能够让神经网络学习到新特征,并且能够更加鲁棒的对一个具有噪声的样本进行学习,能够提高对有噪声样本的识别的泛化性。
在对行人再识别数据集进行训练时,第二种方法效果会更好一些,但是目前比较先进的方法随机擦除仅仅考虑了样本本身的像素值改变,这会使得模型对于数据集中的数据分布的学习具有局限性,进一步提高卷积神经网络模型对于行人再识别数据集中数据分布的学习能力,成为了行人再识别中亟待解决的一个问题。
发明内容
本发明的目的是提供一种基于随机线性插值的行人再识别数据增强方法,以进一步提高行人再识别的准确率。
为了实现上述任务,本发明采用以下技术方案:
一种基于随机线性插值的行人再识别数据增强方法,包括以下步骤:
步骤1,通过监控***捉视角不交叉的不同相机下同一个行人的照片,再将不同行人照片中行人图像分别截取出来,构成该行人的图像数据集;利用不同行人的图像数据集构建行人再识别数据集,并将其划分为训练集和测试集;
步骤2,初始化随机线性插值的插值强度参数,设置训练集中需要被增强的样本比例,将待增强的样本与训练集中的随机一个样本进行插值操作,生成新的样本,然后对待增强的样本进行重新标记;
步骤3,将生成的新的样本和训练集中的样本混合作为输入层,使用卷积神经网络模型进行训练,设定训练代数,当模型的损失函数收敛或者达到训练代数,则进行步骤4,否则更新步骤3;
步骤4,步骤3中训练好的模型获得了不同相机拍摄的照片中行人图像的映射关系,利用训练好的模型对测试集中的行人图像进行匹配预测,得到识别的结果。
进一步地,所述的步骤2具体包括:
步骤2.1,首先通过贝塔分布Beta(α,β)生成随机线性插值的强度μ,这里α=β是贝塔分布的参数;
步骤2.2,将训练集平均划分成k个样本的批训练数据,设定需要被数据增强的样本比例γ,然后利用下式进行插值操作,得到新的样本的特征,从而得到新的样本;
其中,表示批训练数据生成新的样本的特征,xa表示批训练数据中的待增强样本的特征,xt表示批训练数据中任意一个样本的特征,μ表示的是随机线性插值的插值强度,{R,G,B}表示样本的像素特征,共有三个颜色通道:红,绿,蓝。
步骤2.3,利用步骤2.1中的插值强度μ,对批训练数据中的待增强的样本进行重新标记,得到增强样本的双标记,如式2所示:
其中,表示混合了待增强的样本a和批训练数据中任意样本t的标签,同时具备了两个样本的标签信息;ya表示待增强的样本a的标签,yt表示所述任意样本t的标签。
进一步地,所述的基于随机线性插值的行人再识别数据增强方法,还包括:
将测试集的样本放入到步骤3中得到的模型中训练,得到相应的预测向量,设定评估参数p的值,将预测向量中最大的p个值对应的类别和测试集中待测样本的真实类别进行比较,如果待测样本的真实类别存在于预测的p个类别中,则统计预测对的样本数增加1;
统计测试集中总共的预测正确的样本数T,以及总的测试集样本数N,计算 Rank-p准确率:
根据计算出来的Rank-p准确率,使用格点搜索的方法对对所述的卷积神经网络模型的参数μ、γ进行调节,使得最终得到的模型性能达到最好。
进一步地,步骤3所述的用卷积神经网络模型进行训练时,记录每一次训练时的损失函数值,如式3所示:
loss=μ·(ypred-ya)+(1-μ)·(ypred-yt) 式3
其中loss表示损失函数值,ypred表示样本a的预测标签,ya表示样本a的真实标签,yt表示样本t的真实标签。
进一步地,所述的卷积神经网络模型,是指:
所述的卷积神经网络采用改进的ResNet50网络,具体是在ResNet50网络的基础上,移除原有的全连接层,将全连接层替换为线性层,在线性层之后增加一个BatchNormalization层;除此之外,使用Leaky ReLU作为线性层和Batch Normalization层的激活函数,设定Leaky ReLU的负斜率参数为0.01,设定卷积神经网络的dropout的参数为0.5;在训练时,定训练代数参数为60,初始的学习率为0.001,并且网络的初始权重使用了在ImageNet上的训练参数。
进一步地,所述的样本比例γ的取值范围为[0.3,0.5]。
本发明具有以下技术特点:
1.本发明提出了一种基于随机线性插值的数据增强方法来增加行人再识别数据集中的不同遮挡程度的行人图像样本,能得到更加丰富的行人图像数据分布。
2.使用神经网络对于这些具有难度的行人图像样本进行训练,可以使得模型增强对于一些遮挡和背景斑驳的行人图像的泛化能力,同时提高行人再识别的 Rank-1准确率。
附图说明
图1为本发明方法的流程图;
图2为本发明采用改进的ResNet50网络中改进部分的结构示意图;
图3为本发明方法对在不同插值强度参数下生成的新样本;
图4为Market1501数据集上使用本发明方法的Rank-1识别准确率;
图5为DukeMTMC-reID数据集使用本发明方法的Rank-1识别准确率;
图6为Market1501数据集的参数α敏感性分析结果;
图7为DukeMTMC-reID数据集的参数γ敏感性分析结果。
具体实施方式
本发明公开了一种基于随机线性插值的行人再识别数据增强方法,包括以下步骤:
步骤1,通过监控***捉视角不交叉的不同相机下同一个行人的照片,再将不同行人照片中行人图像分别截取出来,构成该行人的图像数据集;利用不同行人的图像数据集构建行人再识别数据集,并将其划分为训练集和测试集。
该步骤中,通过监控***捉视角不交叉的不同相机下同一个行人的照片,则获取到一系列关于同一个行人的照片;再将每一张照片中所述的“同一个行人”采用手工标记边界框的形式截取出来,得到行人图像,则不同的照片截取出的行人图像共同构成该行人的图像数据集。所述的边界框指包含该行人在内的矩形框。
将不同行人的图像数据集构成行人再识别数据集,并将行人再识别数据集划分为训练集和测试集,训练集和测试集中每一个样本(行人图像)的大小为128 ×64像素;将每一张行人图像中的像素特征作为其数据特征空间。
本方法首先要确保视频监控中的相机是不交叉的,这也是保证行人再识别问题的基本要求;其次,我们使用边界框将行人的图像截取出来,这样可以减少背景的像素信息,同时突出行人在整个图像中的占比,保证行人的有效特征信息;将数据集中的所有图像都固定像素大小,方便在之后的网络模型中作为输入进行训练。
步骤2,初始化随机线性插值的插值强度参数,设置训练集中需要被增强的样本比例,将待增强的样本与训练集中的随机一个样本进行插值操作,生成新的样本,然后对待增强的样本进行重新标记。
步骤2.1,首先通过贝塔分布Beta(α,β)生成随机线性插值的强度μ,这里α=β是贝塔分布的参数;
步骤2.2,将训练集平均划分成k个样本的批训练数据,设定需要被数据增强的样本比例γ,一般情况下,样本比例γ的取值范围为[0,1];优选地,经发明人大量的实验验证,当样本比例γ的取值范围为[0.3,0.5]时,增强后的样本构成的数据集会对模型有较好的提升;然后利用下式进行插值操作,得到新的样本的特征,从而得到新的样本;
其中,表示批训练数据生成新的样本的特征,xa表示批训练数据中的待增强(即需要被数据增强)样本的特征,xt表示批训练数据中任意一个样本的特征,μ表示的是随机线性插值的插值强度,{R,G,B}表示样本的像素特征,共有三个颜色通道:红,绿,蓝。
步骤2.3,利用步骤2.1中的插值强度μ,对批训练数据中的待增强的样本进行重新标记,得到增强样本的双标记,如式2所示:
其中,表示混合了待增强的样本a和批训练数据中任意样本t的标签,同时具备了两个样本的标签信息;ya表示待增强的样本a的标签,yt表示所述任意样本t的标签。
该步骤中,使用贝塔分布得到的随机插值强度μ和设定的需要被数据增强的样本比例γ是我们方法需要的两个参数,而依靠这两个参数,就可以实现在训练数据集中不断地增加具有不同遮挡程度的新样本,因此本方法在参数层面上是轻量级的;而与此同时,增加的新样本具有行人再识别数据集中本身特别缺少的几部分要素:遮挡、背景斑驳、模糊,这样能够使得训练得到的模型具有更加好的泛化能力。
步骤3,将生成的新的样本和训练集中的样本混合作为输入层,使用卷积神经网络模型进行训练,设定训练代数,当模型的损失函数收敛或者达到训练代数,则进行步骤4。
本实施例中,将步骤2生成的新的样本以及训练集中的原样本放到卷积神经网络中进行训练。如图2所示,所述的卷积神经网络采用改进的ResNet50网络,具体是在ResNet50网络的基础上,移除原有的全连接层,将全连接层替换为线性层;本实施例中,线性层为1×1的卷积层,在网络中起到降维的作用;在线性层之后增加一个BatchNormalization层,除此之外,使用Leaky ReLU作为所述线性层和Batch Normalization层的激活函数,设定Leaky ReLU的负斜率参数 negative_slope为0.01,设定卷积神经网络的dropout的参数为0.5;在训练时,定训练代数参数为60,初始的学习率为0.001,并且网络的初始权重使用了在 ImageNet上的训练参数,即将网络利用ImageNet数据集进行预训练获得的权重参数。每一次训练时,我们记录下训练的损失函数值,如式3所示。直到训练误差收敛或者到达训练的最大次数时,停止训练,得到训练好的模型。
loss=μ·(ypred-ya)+(1-μ)·(ypred-yt) 式3
其中loss表示损失函数值,ypred表示样本a的预测标签,ya表示样本a的真实标签,yt表示样本t的真实标签。
该步骤通过Batch Normalization层可以减少模型在训练过程中出现过拟合的风险,另外Leaky ReLU也是一个弱化负神经元的比较好的激活函数,相比于 ReLU会激活一些可能会对识别有帮助的负神经元。Dropout的设置可以在一定程度上缓解网络模型参数过大而产生的过拟合情况,设置0.5的比例可以在神经网络训练的过程中,控制50%的神经元关闭。
步骤4,步骤3中训练好的模型获得了不同相机拍摄的照片中行人图像的映射关系,利用训练好的模型对测试集中的行人图像进行匹配预测,得到识别的结果。实际应用时,将行人图像输入模型中即可得到识别结果。
模型准确率的计算:
将测试集的样本放入到步骤3中得到的模型中训练,得到相应的预测向量,设定评估参数p的值,将预测向量中最大的p个值对应的类别和测试集中待测样本的真实类别进行比较,如果待测样本的真实类别存在于预测的p个类别中,则统计预测对的样本数增加1;
统计测试集中总共的预测正确的样本数T,以及总的测试集样本数N,计算 Rank-p准确率:
利用上述方法能够验证步骤3中训练出来的模型的好坏,并且可以比较识别的准确率再对步骤3中的模型参数μ、γ进行更改,使用格点搜索(Grid Search) 的方法对这两个参数进行调节,使得最终得到的模型性能达到最好。
下面将本方法应用在具体的数据集上来证明其更好的数据增强效果。
首先介绍两个标准的行人再识别数据集Market1501和DukeMTMC-reID:
Market1501数据集:Market1501数据集是由清华大学超市前的六台摄像机收集到的数据制作而成。这个数据集包含32668个行人图像,包含1501个行人。每个行人的图像大约为20张照片,然后使用手工制作和可变形零件模型(DPM) 的方法标记了1501个行人的边界框图像数据。将数据集中12936个图像作为训练集,另外使用19732张图像作为测试集。
DukeMTMC-reID数据集:DukeMTMC-reID取自于杜克大学的多目标多相机的追踪数据集DukeMTMC,共包含了1404个行人的36411张图像。702个行人的图像数据作为训练集,其余的图像数据作为测试集。这个数据集的所有图像都由8个摄像机进行行人捕获,然后通过手工制作而成。
(1)表1中所示是两个数据集的具体信息。
表1
(2)评价标准:按照我们的数据增强算法具体实施步骤,完成行人再识别任务。我们用Rank-p准确率(Rank-p Accuracy)作为行人再识别的评估标准,下面简单介绍一下该评估标准。
Rank-p准确率:将所有行人的图片集(gallery)中的图片,按照与待测行人图片的相似度排序,如果在第p个前就匹配正确,则统计识别正确的行人数目增加1,否则不变。当所有的待测行人都完成匹配识别之后,统计所有识别正确的行人数目,记作T;统计所有的待测行人数目,记作N。那么计算Rank-p准确率的式如下:
(3)结果分析:
表2
表2展示了三个神经网络模型使用我们的方法和不使用我们的方法再两个数据集Market1501和DukeMTMC-reID中的Rank-1精确度(Rank-1 Accuracy),从表中看到本发明方法优于其他算法,平均有2%的Rank-1精度提高。使用本发明方法可以有效地提高基准卷积神经网络模型的性能,这也证明了本发明方法是一个通用的数据增强方法。
表3
表3展示了基准模型和两种数据增强方法在两个数据集Market1501和 DukeMTMC-reID中的Rank-p精确度(Rank-p Accuracy),其中基准的模型是使用的ResNet50,从表中我们可以看到我们的方法优于其他算法,相比于随机裁剪的数据增强方法,我们的方法改变了图像数据的像素值,在根本上改变了数据集中的数据分布;相比于随机擦除的数据增强方法,本发明方法增加了一些模糊以及背景融合的样本,也在识别的准确率上有些提升。
图3描述了在两个数据集Market1501和DukeMTMC-reID上不同的插值强度生成的新样本。
图4、图5描述了两个数据集Market1501和DukeMTMC-reID在三个神经网络模型上是否使用本发明方法的Rank-1识别准确率的对比结果。
图6描述了在Market1501数据集上控制参数γ不变,对生成的随机差值强度μ的超参数α敏感性分析的结果;由于我们对每一个需要被增强的样本的插值强度随机,因此无法直接设置插值强度的值,因而我们依靠控制贝塔分布的参数α来随机生成插值强度参数μ。
图7描述了在DukeMTMC-reID数据集上控制参数α不变,对参数γ敏感性分析的结果。
Claims (6)
1.一种基于随机线性插值的行人再识别数据增强方法,其特征在于,包括以下步骤:
步骤1,通过监控***捉视角不交叉的不同相机下同一个行人的照片,再将不同行人照片中行人图像分别截取出来,构成该行人的图像数据集;利用不同行人的图像数据集构建行人再识别数据集,并将其划分为训练集和测试集;
步骤2,初始化随机线性插值的插值强度参数,设置训练集中需要被增强的样本比例,将待增强的样本与训练集中的随机一个样本进行插值操作,生成新的样本,然后对待增强的样本进行重新标记;
步骤3,将生成的新的样本和训练集中的样本混合作为输入层,使用卷积神经网络模型进行训练,设定训练代数,当模型的损失函数收敛或者达到训练代数,则进行步骤4,否则更新步骤3;
步骤4,步骤3中训练好的模型获得了不同相机拍摄的照片中行人图像的映射关系,利用训练好的模型对测试集中的行人图像进行匹配预测,得到识别的结果。
2.如权利要求1所述的基于随机线性插值的行人再识别数据增强方法,其特征在于,所述的步骤2具体包括:
步骤2.1,首先通过贝塔分布Beta(α,β)生成随机线性插值的强度μ,这里α=β是贝塔分布的参数;
步骤2.2,将训练集平均划分成k个样本的批训练数据,设定需要被数据增强的样本比例γ,然后利用下式进行插值操作,得到新的样本的特征,从而得到新的样本;
其中,表示批训练数据生成新的样本的特征,xa表示批训练数据中的待增强样本的特征,xt表示批训练数据中任意一个样本的特征,μ表示的是随机线性插值的插值强度,{R,G,B}表示样本的像素特征,共有三个颜色通道:红,绿,蓝。
步骤2.3,利用步骤2.1中的插值强度μ,对批训练数据中的待增强的样本进行重新标记,得到增强样本的双标记,如式2所示:
其中,表示混合了待增强的样本a和批训练数据中任意样本t的标签,同时具备了两个样本的标签信息;ya表示待增强的样本a的标签,yt表示所述任意样本t的标签。
3.如权利要求1所述的基于随机线性插值的行人再识别数据增强方法,其特征在于,所述的基于随机线性插值的行人再识别数据增强方法,还包括:
将测试集的样本放入到步骤3中得到的模型中训练,得到相应的预测向量,设定评估参数p的值,将预测向量中最大的p个值对应的类别和测试集中待测样本的真实类别进行比较,如果待测样本的真实类别存在于预测的p个类别中,则统计预测对的样本数增加1;
统计测试集中总共的预测正确的样本数T,以及总的测试集样本数N,计算Rank-p准确率:
根据计算出来的Rank-p准确率,使用格点搜索的方法对对所述的卷积神经网络模型的参数μ、γ进行调节,使得最终得到的模型性能达到最好。
4.如权利要求1所述的基于随机线性插值的行人再识别数据增强方法,其特征在于,步骤3所述的用卷积神经网络模型进行训练时,记录每一次训练时的损失函数值,如式3所示:
loss=μ·(ypred-ya)+(1-μ)·(ypred-yt) 式3
其中loss表示损失函数值,ypred表示样本a的预测标签,ya表示样本a的真实标签,yt表示样本t的真实标签。
5.如权利要求1所述的基于随机线性插值的行人再识别数据增强方法,其特征在于,所述的卷积神经网络模型,是指:
所述的卷积神经网络采用改进的ResNet50网络,具体是在ResNet50网络的基础上,移除原有的全连接层,将全连接层替换为线性层,在线性层之后增加一个BatchNormalization层;除此之外,使用Leaky ReLU作为线性层和Batch Normalization层的激活函数,设定Leaky ReLU的负斜率参数为0.01,设定卷积神经网络的dropout的参数为0.5;在训练时,定训练代数参数为60,初始的学习率为0.001,并且网络的初始权重使用了在ImageNet上的训练参数。
6.如权利要求2所述的基于随机线性插值的行人再识别数据增强方法,其特征在于,所述的样本比例γ的取值范围为[0.3,0.5]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811268388.8A CN109635634B (zh) | 2018-10-29 | 2018-10-29 | 一种基于随机线性插值的行人再识别数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811268388.8A CN109635634B (zh) | 2018-10-29 | 2018-10-29 | 一种基于随机线性插值的行人再识别数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635634A true CN109635634A (zh) | 2019-04-16 |
CN109635634B CN109635634B (zh) | 2023-03-31 |
Family
ID=66066756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811268388.8A Active CN109635634B (zh) | 2018-10-29 | 2018-10-29 | 一种基于随机线性插值的行人再识别数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635634B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428023A (zh) * | 2019-05-31 | 2019-11-08 | 武汉大学 | 一种面向深度行人重识别***的反侦察逃逸攻击方法 |
CN110472544A (zh) * | 2019-08-05 | 2019-11-19 | 上海英迈吉东影图像设备有限公司 | 一种物品识别模型的训练方法及*** |
CN111291833A (zh) * | 2020-03-20 | 2020-06-16 | 京东方科技集团股份有限公司 | 应用于监督学习***训练的数据增强方法和数据增强装置 |
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及*** |
CN112147978A (zh) * | 2020-08-25 | 2020-12-29 | 中国运载火箭技术研究院 | 一种采用神经网络的遥测数据处理方法 |
CN113177640A (zh) * | 2021-05-31 | 2021-07-27 | 重庆大学 | 一种离散异步事件数据增强方法 |
CN113361378A (zh) * | 2021-06-02 | 2021-09-07 | 合肥工业大学 | 一种运用适应性数据增强的人体姿态估计方法 |
CN115858846A (zh) * | 2023-02-16 | 2023-03-28 | 云南派动科技有限公司 | 一种基于深度学习的滑雪者图像检索方法和*** |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011076539A (ja) * | 2009-10-01 | 2011-04-14 | Sony Corp | 画像処理装置および画像処理方法 |
CN103824089A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于级联回归的人脸3d姿态识别方法 |
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
WO2016183766A1 (en) * | 2015-05-18 | 2016-11-24 | Xiaogang Wang | Method and apparatus for generating predictive models |
CN107330396A (zh) * | 2017-06-28 | 2017-11-07 | 华中科技大学 | 一种基于多属性和多策略融合学习的行人再识别方法 |
CN108229444A (zh) * | 2018-02-09 | 2018-06-29 | 天津师范大学 | 一种基于整体和局部深度特征融合的行人再识别方法 |
CN108257162A (zh) * | 2016-12-29 | 2018-07-06 | 北京三星通信技术研究有限公司 | 合成脸部表情图像的方法和装置 |
CN108596211A (zh) * | 2018-03-29 | 2018-09-28 | 中山大学 | 一种基于集中学习与深度网络学习的遮挡行人再识别方法 |
US10108850B1 (en) * | 2017-04-24 | 2018-10-23 | Intel Corporation | Recognition, reidentification and security enhancements using autonomous machines |
CN108710831A (zh) * | 2018-04-24 | 2018-10-26 | 华南理工大学 | 一种基于机器视觉的小数据集人脸识别算法 |
-
2018
- 2018-10-29 CN CN201811268388.8A patent/CN109635634B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011076539A (ja) * | 2009-10-01 | 2011-04-14 | Sony Corp | 画像処理装置および画像処理方法 |
CN103824089A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于级联回归的人脸3d姿态识别方法 |
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
WO2016183766A1 (en) * | 2015-05-18 | 2016-11-24 | Xiaogang Wang | Method and apparatus for generating predictive models |
CN108257162A (zh) * | 2016-12-29 | 2018-07-06 | 北京三星通信技术研究有限公司 | 合成脸部表情图像的方法和装置 |
US10108850B1 (en) * | 2017-04-24 | 2018-10-23 | Intel Corporation | Recognition, reidentification and security enhancements using autonomous machines |
CN107330396A (zh) * | 2017-06-28 | 2017-11-07 | 华中科技大学 | 一种基于多属性和多策略融合学习的行人再识别方法 |
CN108229444A (zh) * | 2018-02-09 | 2018-06-29 | 天津师范大学 | 一种基于整体和局部深度特征融合的行人再识别方法 |
CN108596211A (zh) * | 2018-03-29 | 2018-09-28 | 中山大学 | 一种基于集中学习与深度网络学习的遮挡行人再识别方法 |
CN108710831A (zh) * | 2018-04-24 | 2018-10-26 | 华南理工大学 | 一种基于机器视觉的小数据集人脸识别算法 |
Non-Patent Citations (2)
Title |
---|
曹剑: "移动场景动目标识别算法研究", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》 * |
郭强: "基于运动特性的行人检测技术研究", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428023A (zh) * | 2019-05-31 | 2019-11-08 | 武汉大学 | 一种面向深度行人重识别***的反侦察逃逸攻击方法 |
CN110428023B (zh) * | 2019-05-31 | 2021-09-14 | 武汉大学 | 一种面向深度行人重识别***的反侦察逃逸攻击方法 |
CN110472544A (zh) * | 2019-08-05 | 2019-11-19 | 上海英迈吉东影图像设备有限公司 | 一种物品识别模型的训练方法及*** |
CN111291833A (zh) * | 2020-03-20 | 2020-06-16 | 京东方科技集团股份有限公司 | 应用于监督学习***训练的数据增强方法和数据增强装置 |
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及*** |
CN112147978A (zh) * | 2020-08-25 | 2020-12-29 | 中国运载火箭技术研究院 | 一种采用神经网络的遥测数据处理方法 |
CN113177640A (zh) * | 2021-05-31 | 2021-07-27 | 重庆大学 | 一种离散异步事件数据增强方法 |
CN113361378A (zh) * | 2021-06-02 | 2021-09-07 | 合肥工业大学 | 一种运用适应性数据增强的人体姿态估计方法 |
CN115858846A (zh) * | 2023-02-16 | 2023-03-28 | 云南派动科技有限公司 | 一种基于深度学习的滑雪者图像检索方法和*** |
CN115858846B (zh) * | 2023-02-16 | 2023-04-21 | 云南派动科技有限公司 | 一种基于深度学习的滑雪者图像检索方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN109635634B (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635634A (zh) | 一种基于随机线性插值的行人再识别数据增强方法 | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
CN104166841B (zh) | 一种视频监控网络中指定行人或车辆的快速检测识别方法 | |
CN108921051B (zh) | 基于循环神经网络注意力模型的行人属性识别网络及技术 | |
CN105518709B (zh) | 用于识别人脸的方法、***和计算机程序产品 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN105069472B (zh) | 一种基于卷积神经网络自适应的车辆检测方法 | |
CN109711366B (zh) | 一种基于群组信息损失函数的行人重识别方法 | |
CN109522853B (zh) | 面向监控视频的人脸检测与搜索方法 | |
CN107463920A (zh) | 一种消除局部遮挡物影响的人脸识别方法 | |
CN109559302A (zh) | 基于卷积神经网络的管道视频缺陷检测方法 | |
CN106529499A (zh) | 基于傅里叶描述子和步态能量图融合特征的步态识别方法 | |
CN108960047B (zh) | 基于深度二次树的视频监控中人脸去重方法 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN114783003B (zh) | 一种基于局部特征注意力的行人重识别方法和装置 | |
CN109685045A (zh) | 一种运动目标视频跟踪方法及*** | |
CN105741375A (zh) | 一种大视场双目视觉的红外图像考勤方法 | |
CN114067444A (zh) | 基于元伪标签和光照不变特征的人脸欺骗检测方法和*** | |
CN111914761A (zh) | 一种热红外人脸识别的方法及*** | |
CN109492534A (zh) | 一种基于Faster RCNN的跨场景多姿态的行人检测方法 | |
CN102169631A (zh) | 基于流形学习的交通拥堵事件协同检测方法 | |
CN109919246A (zh) | 基于自适应特征聚类和多重损失融合的行人重识别方法 | |
CN111191531A (zh) | 一种快速行人检测方法及*** | |
CN112926652A (zh) | 一种基于深度学习的鱼类细粒度图像识别方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |