CN112418127B - 一种用于视频行人重识别的视频序列编码与解码方法 - Google Patents

一种用于视频行人重识别的视频序列编码与解码方法 Download PDF

Info

Publication number
CN112418127B
CN112418127B CN202011378786.2A CN202011378786A CN112418127B CN 112418127 B CN112418127 B CN 112418127B CN 202011378786 A CN202011378786 A CN 202011378786A CN 112418127 B CN112418127 B CN 112418127B
Authority
CN
China
Prior art keywords
video
feature extraction
generator
extraction module
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011378786.2A
Other languages
English (en)
Other versions
CN112418127A (zh
Inventor
潘啸
罗浩
姜伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011378786.2A priority Critical patent/CN112418127B/zh
Publication of CN112418127A publication Critical patent/CN112418127A/zh
Application granted granted Critical
Publication of CN112418127B publication Critical patent/CN112418127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于视频行人重识别的视频序列编码与解码方法,该方法在训练阶段,通过将标签图片特征与视频特征融合后输入生成器,然后使用标签图片作为重建标签,并以图像重建损失约束生成器生成的关键帧;然后将生成的关键帧送入图像特征提取模块进行视频特征恢复,并通过特征重建损失约束恢复出的视频特征,使其和原视频特征性能一致。在应用阶段,先用HSV‑Top‑K的方法挑选出K帧图片用于生成关键帧,然后将生成的关键帧,存入设备中,以降低存储开销。在需要检索时,用图像特征提取模块对生成的关键帧进行视频特征恢复,恢复出的特征保留了视频特征的性能,用于行人的检索匹配。

Description

一种用于视频行人重识别的视频序列编码与解码方法
技术领域
本发明属于计算机视觉图像检索领域,尤其涉及一种用于视频行人重识别的视频序列编码与解码方法。
背景技术
行人重识别旨在一系列跨摄像头的监控视频中,检索到用户指定的行人;广泛应用于智慧城市,安防监控。
根据不同的输入图片的数量,行人重识别可以分为视频行人重识别和图像行人重识别。相比于使用单帧图像作为输入的图像行人重识别,视频行人重识别使用视频序列作为输入,对环境干扰具有更高的鲁棒性。但是视频行人重识别需要存储大量的视频序列,在实际应用中会导致巨大的存储开销,增加视频行人重识别的应用成本。同时,在应用阶段由于每个视频序列的长度不同,不适合批处理,导致计算开销大。
发明内容
本发明的目的在于针对现有技术的不足,提供一种用于视频行人重识别的视频序列编码与解码方法。
本发明的目的是通过以下技术方案来实现的:一种用于视频行人重识别的视频序列编码与解码方法,包括以下步骤:
(1)搭建神经网络:
(11)搭建视频特征提取模块:
(111)将第一卷积网络最后一次降采样的步长设置为1。
(112)将第一卷积网络后面依次加上时间平均池化模块、第一空间平均池化模块、第一批标准化模块。
(12)搭建生成器:生成器包括多层上采样卷积和一个卷积层,上采样的次数与第一卷积网络降采样的次数相同,所述卷积层的输入和输出特征图大小相同。
(13)搭建图像特征提取模块:
(131)将第二卷积网络最后一次降采样的步长设置为1。
(132)在第二卷积网络后依次接第二空间平均池化模块、第二批标准化模块。
(2)取视频序列中K帧,取K帧之一为标签帧,用于训练步骤一搭建的神经网络;视频特征提取模块的输入为视频序列的K帧,时间平均池化模块的输出为视频特征,视频特征再经过第一空间平均池化模块、第一批标准化模块后输出;生成器的输入为时间平均池化模块输出的视频特征和标签帧在第一卷积网络的输出,输出为关键帧;图像特征提取模块的输入为关键帧,输出为关键帧中的视频特征。
(3)取待识别视频序列中的K帧,指定一个为标签帧,将K帧视频序列输入步骤二训练好的视频特征提取模块和生成器,保存生成器输出的关键帧;在需要检索时,将保存的关键帧输入步骤二训练好的图像特征提取模块恢复关键帧中的视频特征,用于行人检索。
进一步地,所述步骤(2)包括以下子步骤:
(21)从视频序列中随机挑选K张图片输入视频特征提取模块。
(22)在选出的K张图片中任选一帧作为标签帧,并将视频特征与标签帧特征融合后送入生成器进行上采样,输出生成的关键帧,并使用图像重建损失函数Lirec引导关键帧的重建。
(23)将步骤(22)生成的关键帧送入图像特征提取模块。在图像特征提取模块中,批标准化前后的特征分别为fibfr和fiaft。用fibfr计算三元组损失函数Litri,fiaft送入全连接层计算Softmax分类损失Liid
(24)视频特征提取模块中的时间平均池化模块输出的最后一个降采样层的视频特征送入第一空间平均池化模块,输出特征fvbfr;再送入第一批标准化模块后输出特征fvaft。用fvbfr计算三元组损失函数Lvtri,fvaft送入全连接层计算Softmax分类损失函数Lvid
(25)将步骤(23)批标准化后的特征fiaft和步骤(24)视频特征提取模块提取的批标准化之后的视频特征fvaft使用L1损失进行特征重建损失约束,将特征重建损失函数记为Lfrec
(26)对视频特征提取模块和图像特征提取模块同时使用分类损失函数Lvid和三元组损失函数Lvtri进行判别能力的训练,和图像重建损失函数Lirec以及特征重建损失函数Lfrec同步进行。最后根据总的损失函数Lloss=Lvtri+Lvid+Litri+Liid+Lirec+Lfrec训练整个神经网络。
进一步地,所述步骤(22)包括以下子步骤:
(221)将视频序列中随机选出的K张图片送入视频特征提取模块中的第一卷积网络,得到每张图片的视频特征集,
Figure BDA0002807918670000021
其中,
Figure BDA0002807918670000022
表示第i张图片在第一卷积网络的第j个降采样层输出的视频特征,i=1~K,J为第一卷积网络降采样层数。
(222)从K张图片中任意选择一张图片L作为标签帧,标签帧特征为
Figure BDA0002807918670000023
(223)将K张图片的视频特征集Fi送入时间平均池化模块,得到所有降采样层的视频特征
Figure BDA0002807918670000031
(224)将FL与Favg在通道维度进行拼接,然后送入生成器生成关键帧。
(225)对生成的关键帧,以图像L作为标签帧,使用L1损失作为图像重建损失函数Lirec进行图像的重建。
进一步地,所述步骤(224)具体为:生成器共有J层,其中,前J-1层为上采样,最后一层特征图的大小保持不变。将生成器所有层的集合表示为
Figure BDA0002807918670000032
其中p=(J-1)~1顺序对应生成器的第1~(J-1)层,p=0对应生成器的最后一层。生成器每层的输入Ip如下:
Figure BDA0002807918670000033
其中,Gp(Ip)为生成器每一层的输出;G0(I0)为生成器生成的关键帧;[]表示在通道维度的拼接。
进一步地,所述步骤(3)包括以下子步骤:
(31)通过HSV-Top-K的方法,在待识别视频序列中预先挑选出K张图片,然后进行视频特征提取和关键帧生成,并存入设备,包括以下子步骤:
(311)计算视频序列每张图片的HSV直方图特征,然后计算视频序列的特征中心,选取距离特征中心最近的K张图,代替整个视频序列。并任选其中一张作为标签帧。
(312)将挑出的K张图送入步骤二训练好的视频特征提取模块得到视频特征和标签帧特征;再一起送入生成器,生成关键帧。
(313)将生成的关键帧存入设备。
(32)当需要检索时,使用步骤二训练好的图像特征提取模块恢复关键帧中的视频特征,用于视频行人重识别的检索匹配。
进一步地,所述步骤(311)中,所述特征中心为每张图片的HSV直方图特征的平均值。
进一步地,所述步骤(311)中,所述距离指L2欧氏距离。
本发明的有益效果是:
(1)本发明用一张生成的嵌有视频特征的关键帧来代替整个视频序列,降低存储开销的同时保留视频特征的性能。
(2)本发明将每一次降采样后的标签特征与视频特征相融合后送入生成器,保证了生成的关键帧在嵌有视频特征的同时具有高的成像质量。
(3)本发明使用图像特征提取网络从关键帧中恢复视频特征,并使用特征重建损失约束恢复出的视频特征与原视频特征性能保持一致,降低了恢复出的视频特征的性能损失。
(4)在应用阶段,使用HSV-Top-K的方法挑选出最具有代表性的K张图片代替原来的整个视频序列,用于生成关键帧。相比于使用视频序列中的所有帧的方法,使用了更少的图片,更适合批处理,从而降低了计算开销。
附图说明
图1是训练阶段网络整体结构示意图;
图2是应用阶段流程示意图。
具体实施方式
本发明一种用于视频行人重识别的视频序列编码与解码方法,在训练阶段,通过将标签图片特征与视频特征融合后输入生成器,然后使用标签图片作为重建标签,并以图像重建损失约束生成器生成的关键帧。然后将生成的关键帧送入图像特征提取模块进行视频特征恢复,并以特征重建损失约束恢复出的视频特征和原视频特征。在应用阶段,先用HSV-Top-K的方法挑选出K帧图片用于生成关键帧,然后将生成的关键帧,存入设备中,以降低存储开销。在需要检索时,用图像特征提取模块对生成的关键帧进行视频特征恢复,恢复出的特征保留了视频特征的性能,用于行人的检索匹配。具体包括以下步骤:
步骤一、搭建用于训练的神经网络,具体为:
(11)搭建视频特征提取模块,具体为:
(111)将ResNet50最后一次降采样的步长设置为1。
(112)ResNet50后面依次加上时间平均池化模块、空间平均池化模块、批标准化模块作为视频特征提取模块。
(12)搭建由上采样卷积组成的生成器,用作编码器,具体为:由多层上采样卷积和一个输入特征图大小不变的卷积层作为生成器,上采样的次数与ResNet50降采样的次数相同,所述卷积层的输入和输出特征图大小相同。
(13)搭建图像特征提取模块,用作解码器,具体为:
(131)将ResNet50最后一次降采样的步长设置为1。
(132)在ResNet50(可以替换成其他的卷积网络)后接空间平均池化模块、批标准化模块作为图像特征提取模块。
步骤二、如图1所示,训练步骤一搭建的神经网络,训练阶段具体为:
(21)从视频序列中随机挑选K张图片输入视频特征提取模块。
(22)在选出的K张图片中任意选择一帧作为标签帧,并将视频特征与标签帧特征融合后送入生成器进行上采样,输出生成的关键帧,并使用图像重建损失函数引导关键帧的重建;具体为:
(221)将视频序列中随机选出的K张图片送入视频特征提取模块中的ResNet50,得到每张图片的视频特征集,
Figure BDA0002807918670000051
其中,
Figure BDA0002807918670000052
表示第i张图片在
Figure BDA0002807918670000058
的第j个降采样层输出的视频特征,j=1~5。
(222)从K张图片中任意选择一张图片L作为标签帧,第一卷积网络输出的标签帧特征为
Figure BDA0002807918670000053
(223)将K张图片的视频特征集Fi送入时间平均池化模块,得到所有降采样层的视频特征
Figure BDA0002807918670000054
(224)将FL与Favg在通道维度进行拼接,然后送入生成器生成关键帧。生成器共有5层,其中,前4层为上采样,最后一层特征图的大小保持不变。将生成器所有层的集合表示为
Figure BDA0002807918670000055
其中p=4~1顺序对应生成器的第1~4层,p=0对应生成器的最后一层。生成器每层的输入Ip如下:
Figure BDA0002807918670000056
其中,Gp(Ip)为生成器每一层的输出,p=0~4;[]表示在通道维度的拼接。
(225)对生成的关键帧G0(I0),以图像L作为标签,使用L1损失作为图像重建损失函数Lirec进行图像的重建。
(23)将步骤(224)生成的关键帧送入图像特征提取模块。在图像特征提取模块中,批标准化前后的特征分别为fibfr和fiaft。用fibfr计算三元组损失函数Litri,fiaft送入全连接层计算Softmax分类损失Liid
(24)将步骤(223)中时间平均池化模块输出的降采样层的视频特征
Figure BDA0002807918670000057
送入空间平均池化模块,输出特征fvbfr;再送入批标准化模块后输出特征fvaft。用fvbfr计算三元组损失函数Lvtri,fvaft送入全连接层计算Softmax分类损失函数Lvid
(25)将步骤(23)批标准化后的特征fiaft和步骤(24)视频特征提取模块提取的批标准化之后的视频特征fvaft使用L1损失进行特征重建损失约束,将特征重建损失函数记为Lfrec
(26)对视频特征提取模块和图像特征提取模块同时使用分类损失函数Lvid和三元组损失函数Lvtri进行判别能力的训练,和图像重建损失函数Lrec以及特征重建损失函数Lfrec同步进行。最后总的损失函数Lloss=Lvtri+Lvid+Litri+Liid+Lirec+Lfrec
步骤三、如图2所示,应用阶段具体为:
(31)通过HSV-Top-K的方法,在待识别视频序列中预先挑选出K张图片,然后进行视频特征提取和关键帧生成,并存入设备。具体步骤如下:
(311)计算视频序列每张图片的HSV直方图特征,然后计算视频序列的特征中心,选取距离特征中心最近的K张图,代替整个视频序列。并任选其中一张作为标签帧。所述特征中心为每张图片的HSV直方图特征的平均值;所述距离指L2欧氏距离。
(312)将挑出的K张图送入步骤二训练好的视频特征提取模块得到视频特征和标签帧特征;再一起送入生成器,生成关键帧。
(313)将生成的关键帧存入设备。
(32)当需要检索时,使用步骤二训练好的图像特征提取模块恢复关键帧中的视频特征,并使用该恢复出的特征进行视频行人重识别的检索匹配。
以上所述仅是本发明的优选实施方式,应当指出:对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种用于视频行人重识别的视频序列编码与解码方法,其特征在于,包括以下步骤:
(1)搭建神经网络:
(11)搭建视频特征提取模块:
(111)将第一卷积网络最后一次降采样的步长设置为1;
(112)将第一卷积网络后面依次加上时间平均池化模块、第一空间平均池化模块、第一批标准化模块;
(12)搭建生成器:生成器包括多层上采样卷积和一个卷积层,上采样的次数与第一卷积网络降采样的次数相同,所述卷积层的输入和输出特征图大小相同;
(13)搭建图像特征提取模块:
(131)将第二卷积网络最后一次降采样的步长设置为1;
(132)在第二卷积网络后依次接第二空间平均池化模块、第二批标准化模块;
(2)取视频序列中K帧,取K帧之一为标签帧,用于训练步骤(1)搭建的神经网络;视频特征提取模块的输入为视频序列的K帧,时间平均池化模块的输出为视频特征,视频特征再经过第一空间平均池化模块、第一批标准化模块后输出;生成器的输入为时间平均池化模块输出的视频特征和标签帧在第一卷积网络的输出,输出为关键帧;图像特征提取模块的输入为关键帧,输出为关键帧中的视频特征;
(3)取待识别视频序列中的K帧,指定一个为标签帧,将K帧视频序列输入步骤(2)训练好的视频特征提取模块和生成器,保存生成器输出的关键帧;在需要检索时,将保存的关键帧输入步骤(2)训练好的图像特征提取模块恢复关键帧中的视频特征,用于行人检索。
2.如权利要求1所述用于视频行人重识别的视频序列编码与解码方法,其特征在于,所述步骤(2)包括以下子步骤:
(21)从视频序列中随机挑选K张图片输入视频特征提取模块;
(22)在选出的K张图片中任选一帧作为标签帧,并将视频特征与标签帧特征融合后送入生成器进行上采样,输出生成的关键帧,并使用图像重建损失函数Lirec引导关键帧的重建;
(23)将步骤(22)生成的关键帧送入图像特征提取模块;在图像特征提取模块中,批标准化前后的特征分别为fibfr和fiaft;用fibfr计算三元组损失函数Litri,fiaft送入全连接层计算Softmax分类损失Liid
(24)视频特征提取模块中的时间平均池化模块输出的最后一个降采样层的视频特征送入第一空间平均池化模块,输出特征fvbfr;再送入第一批标准化模块后输出特征fvaft;甩fvbfr计算三元组损失函数Lvtri,fvaft送入全连接层计算Softmax分类损失函数Lvid
(25)将步骤(23)批标准化后的特征fiaft和步骤(24)视频特征提取模块提取的批标准化之后的视频特征fvaft使用L1损失进行特征重建损失约束,将特征重建损失函数记为Lfrec
(26)对视频特征提取模块和图像特征提取模块同时使用分类损失函数Lvid和三元组损失函数Lvtri进行判别能力的训练,和图像重建损失函数Lirec以及特征重建损失函数Lfrec同步进行;最后根据总的损失函数Lloss=Lvtri+Lvid+Litri+Liid+Lirec+Lfrec训练整个神经网络。
3.如权利要求2所述用于视频行人重识别的视频序列编码与解码方法,其特征在于,所述步骤(22)包括以下子步骤:
(221)将视频序列中随机选出的K张图片送入视频特征提取模块中的第一卷积网络,得到每张图片的视频特征集,
Figure RE-FDA0003550093270000021
其中,
Figure RE-FDA0003550093270000022
表示第i张图片在第一卷积网络的第j个降采样层输出的视频特征,i=1~K,J为第一卷积网络降采样层数;
(222)从K张图片中任意选择一张图片L作为标签帧,标签帧特征为
Figure RE-FDA0003550093270000023
(223)将K张图片的视频特征集Fi送入时间平均池化模块,得到所有降采样层的视频特征
Figure RE-FDA0003550093270000024
(224)将FL与Favg在通道维度进行拼接,然后送入生成器生成关键帧;
(225)对生成的关键帧,以图像L作为标签帧,使用L1损失作为图像重建损失函数Lirec进行图像的重建。
4.如权利要求3所述用于视频行人重识别的视频序列编码与解码方法,其特征在于,所述步骤(224)具体为:生成器共有J层,其中,前J-1层为上采样,最后一层特征图的大小保持不变;将生成器所有层的集合表示为
Figure RE-FDA0003550093270000025
其中p=(J-1)~1顺序对应生成器的第1~(J-1)层,p=0对应生成器的最后一层;生成器每层的输入Ip如下:
Figure RE-FDA0003550093270000026
其中,Gp(Ip)为生成器每一层的输出;G0(I0)为生成器生成的关键帧;[]表示在通道维度的拼接。
5.如权利要求1所述用于视频行人重识别的视频序列编码与解码方法,其特征在于,所述步骤(3)包括以下子步骤:
(31)通过HSV-Top-K的方法,在待识别视频序列中预先挑选出K张图片,然后进行视频特征提取和关键帧生成,并存入设备,包括以下子步骤:
(311)计算视频序列每张图片的HSV直方图特征,然后计算视频序列的特征中心,选取距离特征中心最近的K张图,代替整个视频序列;并任选其中一张作为标签帧;
(312)将挑出的K张图送入步骤(2) 训练好的视频特征提取模块得到视频特征和标签帧特征;再一起送入生成器,生成关键帧;
(313)将生成的关键帧存入设备;
(32)当需要检索时,使用步骤(2) 训练好的图像特征提取模块恢复关键帧中的视频特征,用于视频行人重识别的检索匹配。
6.如权利要求5所述用于视频行人重识别的视频序列编码与解码方法,其特征在于,所述步骤(311)中,所述特征中心为每张图片的HSV直方图特征的平均值。
7.如权利要求5所述用于视频行人重识别的视频序列编码与解码方法,其特征在于,所述步骤(311)中,所述距离指L2欧氏距离。
CN202011378786.2A 2020-11-30 2020-11-30 一种用于视频行人重识别的视频序列编码与解码方法 Active CN112418127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011378786.2A CN112418127B (zh) 2020-11-30 2020-11-30 一种用于视频行人重识别的视频序列编码与解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011378786.2A CN112418127B (zh) 2020-11-30 2020-11-30 一种用于视频行人重识别的视频序列编码与解码方法

Publications (2)

Publication Number Publication Date
CN112418127A CN112418127A (zh) 2021-02-26
CN112418127B true CN112418127B (zh) 2022-05-03

Family

ID=74828951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011378786.2A Active CN112418127B (zh) 2020-11-30 2020-11-30 一种用于视频行人重识别的视频序列编码与解码方法

Country Status (1)

Country Link
CN (1) CN112418127B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033697B (zh) * 2021-04-15 2022-10-04 浙江大学 一种基于批量归一化层的模型自动评估方法及装置
CN116563895A (zh) * 2023-07-11 2023-08-08 四川大学 基于视频的动物个体识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008804A (zh) * 2018-12-12 2019-07-12 浙江新再灵科技股份有限公司 基于深度学习的电梯监控关键帧获取及检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019212978A1 (de) * 2018-09-20 2020-03-26 Robert Bosch Gmbh Überwachungsvorrichtung zur Personenwiedererkennung und Verfahren

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008804A (zh) * 2018-12-12 2019-07-12 浙江新再灵科技股份有限公司 基于深度学习的电梯监控关键帧获取及检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Video Person Re-identification with Competitive Snippet-similarity Aggregation and Co-attentive Snippet Embedding》;Dapeng Chen等;《 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;全文 *
《视频行人重识别研究进展》;李梦静 等;《南京师大学报(自然科学版)》;20200630;全文 *

Also Published As

Publication number Publication date
CN112418127A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN111062892B (zh) 一种基于复合残差网络和深层监督的单幅图像去雨方法
CN109087258B (zh) 一种基于深度学习的图像去雨方法及装置
CN112418127B (zh) 一种用于视频行人重识别的视频序列编码与解码方法
CN111815509B (zh) 一种图像风格转换及模型训练的方法及装置
CN115311720B (zh) 一种基于Transformer的deepfake生成方法
CN112861691B (zh) 基于部位感知建模的遮挡场景下的行人重识别方法
CN112241939B (zh) 一种基于多尺度和非局部的轻量去雨方法
CN106778571A (zh) 一种基于深度神经网络的数字视频特征提取方法
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN114639042A (zh) 基于改进CenterNet骨干网络的视频目标检测算法
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN116434241A (zh) 基于注意力机制的自然场景图像中文本识别方法及***
CN114255456A (zh) 基于注意力机制特征融合与增强的自然场景文本检测方法和***
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN116797975A (zh) 一种视频分割方法、装置、计算机设备及存储介质
CN116091765A (zh) 一种rgb-t图像语义分割方法和装置
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN117197727B (zh) 一种基于全局时空特征学习的行为检测方法与***
WO2024067732A1 (zh) 神经网络模型的训练方法、车辆视图的生成方法和车辆
CN113793267A (zh) 基于跨维度注意力机制的自监督单遥感图像超分辨率方法
CN117409057A (zh) 全景图深度估计方法、设备及介质
CN115331083B (zh) 基于逐步密集特征融合去雨网络的图像去雨方法及***
CN115909408A (zh) 一种基于Transformer网络的行人重识别方法及装置
Kim et al. Frequency-aware Event-based Video Deblurring for Real-World Motion Blur
CN113222016B (zh) 一种基于高层和低层特征交叉增强的变化检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant