CN108399381B - 行人再识别方法、装置、电子设备和存储介质 - Google Patents

行人再识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN108399381B
CN108399381B CN201810145717.3A CN201810145717A CN108399381B CN 108399381 B CN108399381 B CN 108399381B CN 201810145717 A CN201810145717 A CN 201810145717A CN 108399381 B CN108399381 B CN 108399381B
Authority
CN
China
Prior art keywords
candidate
target
feature vector
target video
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810145717.3A
Other languages
English (en)
Other versions
CN108399381A (zh
Inventor
陈大鹏
李鸿升
肖桐
伊帅
王晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201810145717.3A priority Critical patent/CN108399381B/zh
Publication of CN108399381A publication Critical patent/CN108399381A/zh
Priority to JP2019570048A priority patent/JP6905601B2/ja
Priority to KR1020197038764A priority patent/KR102348002B1/ko
Priority to SG11201913733QA priority patent/SG11201913733QA/en
Priority to PCT/CN2018/116600 priority patent/WO2019153830A1/zh
Priority to US16/726,878 priority patent/US11301687B2/en
Priority to PH12020500050A priority patent/PH12020500050A1/en
Application granted granted Critical
Publication of CN108399381B publication Critical patent/CN108399381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了行人再识别方法、装置、电子设备和存储介质,其中,所述行人再识别方法包括:获取包含目标行人的目标视频和至少一个候选视频;对所述目标视频中的每个目标视频片段和至少一个所述候选视频中的每个候选视频片段分别进行编码;根据编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值;所述相似性分值用于表征所述目标视频片段与所述候选视频片段中的行人特征的相似程度;根据所述相似性分值对至少一个所述候选视频进行行人再识别。本发明实施例提高了编码结果对每个目标视频片段和每个候选视频片段之间的相似性分值计算的准确率,进而可以提高了行人再识别的准确率。

Description

行人再识别方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种行人再识别方法、装置、电子设备和存储介质。
背景技术
行人再识别是智能视频监控***中的一项关键技术,它旨在通过对给定目标视频和候选视频之间的相似性进行度量,进而在大量候选视频中找出与目标视频中包含同一行人的候选视频。
目前的行人再识别方法主要将一段完整的视频进行编码,利用编码结果对整段目标视频和整段候选视频之间的相似性进行度量,行人再识别的效果差。
发明内容
本发明实施例提供了行人再识别技术方案。
根据本发明实施例的第一方面,提供了一种行人再识别方法,包括:获取包含目标行人的目标视频和至少一个候选视频;对所述目标视频中的每个目标视频片段和至少一个所述候选视频中的每个候选视频片段分别进行编码;根据编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值;所述相似性分值用于表征所述目标视频片段与所述候选视频片段中的行人特征的相似程度;根据所述相似性分值对至少一个所述候选视频进行行人再识别。
可选地,对所述目标视频中的每个目标视频片段和至少一个所述候选视频中的每个候选视频片段分别进行编码,包括:获取每个所述目标视频片段中的每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,获取每个所述候选视频片段中的每个候选视频帧的第一候选特征向量和第二候选特征向量;根据所述索引特征向量、所述第一目标特征向量和所述第一候选特征向量生成注意权重向量;根据所述注意权重向量、所述第二目标特征向量和所述第二候选特征向量获得每个所述目标视频片段的编码结果和每个所述候选视频片段的编码结果。
可选地,获取每个所述目标视频片段中的每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,获取每个所述候选视频片段中的每个候选视频帧的第一候选特征向量和第二候选特征向量,包括:分别提取每个所述目标视频帧和每个所述候选视频帧的图像特征向量;根据每个所述目标视频帧的图像特征向量生成每个所述目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,根据每个所述候选视频帧的图像特征向量生成每个所述候选视频帧的第一候选特征向量和第二候选特征向量。
可选地,根据所述索引特征向量、所述第一目标特征向量和所述第一候选特征向量生成注意权重向量,包括:根据所述索引特征向量和所述第一目标特征向量生成每个所述目标视频帧的目标注意权重向量,根据所述索引特征向量和所述第一候选特征向量生成每个所述候选视频帧的候选注意权重向量。
可选地,所述根据所述索引特征向量和所述第一目标特征向量生成每个所述目标视频帧的目标注意权重向量,包括:根据所述索引特征向量、每个所述目标视频帧的所述第一目标特征向量生成每个所述目标视频帧的目标热度图;对所述目标热度图进行归一化处理得到每个所述目标视频帧的目标注意权重向量;和/或,所述根据所述索引特征向量和所述第一候选特征向量生成每个所述候选视频帧的候选注意权重向量,包括:根据所述索引特征向量、每个所述候选视频帧的所述第一候选特征向量生成每个所述候选视频帧的候选热度图;对所述候选热度图进行归一化处理得到每个所述候选视频帧的候选注意权重向量。
可选地,根据所述注意权重向量、所述第二目标特征向量和所述第二候选特征向量获得每个所述目标视频片段的编码结果和每个所述候选视频片段的编码结果,包括:根据每个所述目标视频帧的目标注意权重向量和第二目标特征向量获得每个所述目标视频片段的编码结果,根据每个所述候选视频帧的候选注意权重向量和第二候选特征向量获得每个所述候选视频片段的编码结果。
可选地,根据每个所述目标视频帧的目标注意权重向量和第二目标特征向量获得每个所述目标视频片段的编码结果,包括:将每个所述目标视频帧的目标注意权重向量与各自目标视频帧的第二目标特征向量相乘;将每个所述目标视频帧的相乘结果在时间维度相加,得到每个所述目标视频片段的编码结果;和/或,根据每个所述目标视频帧的候选注意权重向量和第二候选特征向量获得每个所述候选视频片段的编码结果,包括:将每个所述候选视频帧的候选注意权重向量与各自候选视频帧的第二候选特征向量相乘;将每个所述候选视频帧的相乘结果在时间维度相加,得到每个所述候选视频片段的编码结果。
可选地,根据编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值,包括:将每个所述目标视频片段的编码结果与每个所述候选视频片段的编码结果依次进行相减操作;将相减操作的结果在每一个维度上进行平方操作;对平方操作得到的特征向量进行全连接操作得到二维的特征向量;将所述二维的特征向量进行归一化操作,得到每个所述目标视频片段和每个所述候选视频片段之间的相似性分值。
可选地,根据所述相似性分值对至少一个所述候选视频进行行人再识别,包括:针对至少一个所述候选视频中的每个所述候选视频片段,将分值最高的预设比例阈值的所述相似性分值相加,作为每个所述候选视频的相似性分值;将每个所述候选视频的相似性分值按照降序进行排列;将排列在前面的一个或者几个所述候选视频确定为与所述目标视频包含同一目标行人的视频。
根据本发明实施例的第二方面,提供了一种行人再识别装置,包括:获取模块,用于获取包含目标行人的目标视频和至少一个候选视频;编码模块,用于对所述目标视频中的每个目标视频片段和至少一个所述候选视频中的每个候选视频片段分别进行编码;计算模块,用于根据编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值;所述相似性分值用于表征所述目标视频片段与所述候选视频片段中的行人特征的相似程度;识别模块,用于根据所述相似性分值对至少一个所述候选视频进行行人再识别。
可选地,所述编码模块,包括:特征向量获取模块,用于获取每个所述目标视频片段中的每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,获取每个所述候选视频片段中的每个候选视频帧的第一候选特征向量和第二候选特征向量;权重向量生成模块,用于根据所述索引特征向量、所述第一目标特征向量和所述第一候选特征向量生成注意权重向量;编码结果获取模块,用于根据所述注意权重向量、所述第二目标特征向量和所述第二候选特征向量获得每个所述目标视频片段的编码结果和每个所述候选视频片段的编码结果。
可选地,所述特征向量获取模块,用于分别提取每个所述目标视频帧和每个所述候选视频帧的图像特征向量;根据每个所述目标视频帧的图像特征向量生成每个所述目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,根据每个所述候选视频帧的图像特征向量生成每个所述候选视频帧的第一候选特征向量和第二候选特征向量。
可选地,所述权重向量生成模块,用于根据所述索引特征向量和所述第一目标特征向量生成每个所述目标视频帧的目标注意权重向量,根据所述索引特征向量和所述第一候选特征向量生成每个所述候选视频帧的候选注意权重向量。
可选地,所述权重向量生成模块,用于根据所述索引特征向量、每个所述目标视频帧的所述第一目标特征向量生成每个所述目标视频帧的目标热度图;对所述目标热度图进行归一化处理得到每个所述目标视频帧的目标注意权重向量;和/或,根据所述索引特征向量、每个所述候选视频帧的所述第一候选特征向量生成每个所述候选视频帧的候选热度图;对所述候选热度图进行归一化处理得到每个所述候选视频帧的候选注意权重向量。
可选地,所述编码结果获取模块,用于根据每个所述目标视频帧的目标注意权重向量和第二目标特征向量获得每个所述目标视频片段的编码结果,根据每个所述候选视频帧的候选注意权重向量和第二候选特征向量获得每个所述候选视频片段的编码结果。
可选地,所述编码结果获取模块,用于将每个所述目标视频帧的目标注意权重向量与各自目标视频帧的第二目标特征向量相乘;将每个所述目标视频帧的相乘结果在时间维度相加,得到每个所述目标视频片段的编码结果;和/或,将每个所述候选视频帧的候选注意权重向量与各自候选视频帧的第二候选特征向量相乘;将每个所述候选视频帧的相乘结果在时间维度相加,得到每个所述候选视频片段的编码结果。
可选地,所述计算模块,用于将每个所述目标视频片段的编码结果与每个所述候选视频片段的编码结果依次进行相减操作;将相减操作的结果在每一个维度上进行平方操作;对平方操作得到的特征向量进行全连接操作得到二维的特征向量;将所述二维的特征向量进行归一化操作,得到每个所述目标视频片段和每个所述候选视频片段之间的相似性分值。
可选地,所述识别模块,用于针对至少一个所述候选视频中的每个所述候选视频片段,将分值最高的预设比例阈值的所述相似性分值相加,作为每个所述候选视频的相似性分值;将每个所述候选视频的相似性分值按照降序进行排列;将排列在前面的一个或者几个所述候选视频确定为与所述目标视频包含同一目标行人的视频。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器和存储器;所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如第一方面所述的行人再识别方法。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于获取包含目标行人的目标视频和至少一个候选视频的可执行指令;用于对所述目标视频中的每个目标视频片段和至少一个所述候选视频中的每个候选视频片段分别进行编码的可执行指令;用于根据编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值的可执行指令;所述相似性分值用于表征所述目标视频片段与所述候选视频片段中的行人特征的相似程度;用于根据所述相似性分值对至少一个所述候选视频进行行人再识别的可执行指令。
根据本发明实施例的第五方面,提供了一种计算机程序产品,包括:至少一个可执行指令,所述可执行指令被处理器执行时用于实现如第一方面所述的行人再识别方法。
本发明实施例在进行行人再识别时,获取包含目标行人的目标视频和至少一个候选视频,对目标视频中的每个目标视频片段和至少一个候选视频中的每个候选视频片段分别进行编码,根据编码结果计算每个目标视频片段和每个候选视频片段之间的相似性分值;根据相似性分值对至少一个候选视频进行行人再识别。由于视频片段包含的帧数远远少于整段视频包含的帧数,因此,视频片段中的行人表面信息的变化程度远远小于整段视频中的行人表面信息的变化程度。与对整段目标视频和整段候选视频进行编码相比,对每个目标视频片段和每个候选视频片段进行编码,有效减小了行人表面信息的变化,同时利用了不同视频帧内的行人表面信息的多样性和视频帧与视频帧之间动态相关性,提高了行人表面信息的利用率,提高了编码结果对每个目标视频片段和每个候选视频片段之间的相似性分值计算的准确率,进而可以提高了行人再识别的准确率。
附图说明
图1是根据本发明实施例一的行人再识别方法流程图;
图2是根据本发明实施例一的行人再识别方法的计算框架示意图;
图3是根据本发明实施例二的行人再识别方法流程图;
图4是根据本发明实施例二的行人再识别方法中的注意编码机制示意图;
图5是根据本发明实施例三的行人再识别装置的结构框图;
图6是根据本发明实施例四的行人再识别装置的结构框图;
图7是根据本发明实施例五的电子设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
实施例一
参照图1,示出了根据本发明实施例一的行人再识别方法流程图。
本发明实施例的行人再识别方法通过电子设备的处理器调用存储器存储的相关指令执行以下步骤。
步骤S100、获取包含目标行人的目标视频和至少一个候选视频。
本发明实施例中的目标视频可以包含一个或多个目标行人,候选视频中可以包含一个或多个候选行人或者不包含候选行人。本发明实施例中的目标视频和至少一个候选视频可以是来源于视频采集设备的视频图像,还可以来源于其他设备,本发明实施例的目的之一是从至少一个候选视频中得到候选行人与目标行人为同一行人的候选视频。
步骤S102、对目标视频中的每个目标视频片段和至少一个候选视频中的每个候选视频片段分别进行编码。
首先,对目标视频和候选视频进行视频片段切割,生成目标视频中的每个目标视频片段和候选视频中的每个候选视频片段,其中,每个目标视频片段具有固定的时间长度,每个候选视频片段具有固定的时间长度,而且,每个目标视频片段的时间长度与每个候选视频片段的时间长度可以相同也可以不相同。
然后,分别对每个目标视频片段和每个候选视频片段进行编码操作,得到每个目标视频片段的编码结果和每个候选视频片段的编码结果。
步骤S104、根据编码结果计算每个目标视频片段和每个候选视频片段之间的相似性分值。
本发明实施例中,每个目标视频片段的编码结果可以认为是每个目标视频片段中的行人特征向量的一种表现形式,每个候选视频片段的编码结果可以认为是每个候选视频片段中的行人特征向量的一种表现形式。或者,编码结果即行人特征向量。若某个目标视频片段与某个候选视频片段之间的行人特征向量相同或者相近,则表示该目标视频片段与该候选视频片段包含同一目标行人的可能性较高,即该目标视频片段与该候选视频片段之间的相似性分值较高;若某个目标视频片段与某个候选视频片段之间的行人特征向量不相同,则表示该目标视频片段与该候选视频片段包含同一目标行人的可能性较低,即该目标视频片段与该候选视频片段之间的相似性分值较低。
步骤S106、根据相似性分值对至少一个候选视频进行行人再识别。
在得到每个目标视频片段与每个候选视频片段之间的相似性分值之后,可以根据相似性分值获得至少一个候选视频的相似性分值。将相似性分值较高的候选视频确定为包含与目标视频中具有同一目标行人的候选视频。
本发明实施例提出的行人再识别方法可以在如图2所示的计算框架下执行。首先,对视频(包括目标视频和至少一个候选视频)进行切割,生成具有固定长度的视频片段。其中p表示目标视频,g表示至少一个候选视频中的其中一个候选视频,pn是目标视频p中的一个目标视频片段,gk是候选视频g中一个候选视频片段。为了衡量目标视频p和候选视频g中任意两个视频片段的相似性,利用具有协同注意机制的深度网络。该深度网络以目标视频片段pn和候选视频片段gk作为输入项,输出项m(pn,gk)为目标视频片段pn和候选视频片段gk之间的相似性分值。对于目标视频p和候选视频g中的每两个视频片段(目标视频片段和候选视频片段),可以获得若干个视频片段之间的相似性分值。为了对目标视频p和候选视频g之间的相似性进行有效估计,可以利用竞争性机制选择相似性较高的部分相似性分值,通过对这些相似性分值的相加获得对目标视频p和候选视频g之间的相似性的可靠估计c(p,g)。
本发明实施例在进行行人再识别时,获取包含目标行人的目标视频和至少一个候选视频,对目标视频中的每个目标视频片段和至少一个候选视频中的每个候选视频片段分别进行编码,根据编码结果计算每个目标视频片段和每个候选视频片段之间的相似性分值;根据相似性分值对至少一个候选视频进行行人再识别。由于视频片段包含的帧数远远少于整段视频包含的帧数,因此,视频片段中的行人表面信息的变化程度远远小于整段视频中的行人表面信息的变化程度。与对整段目标视频和整段候选视频进行编码相比,对每个目标视频片段和每个候选视频片段进行编码,有效减小了行人表面信息的变化,同时利用了不同视频帧内的行人表面信息的多样性和视频帧与视频帧之间动态相关性,提高了行人表面信息的利用率,提高了编码结果对每个目标视频片段和每个候选视频片段之间的相似性分值计算的准确率,进而可以提高了行人再识别的准确率。
实施例二
参照图3,示出了根据本发明实施例二的行人再识别方法流程图。
需要说明的是,本发明各实施例描述的部分均有所侧重,某实施例未详尽描述的部分可参见本发明其他实施例中的介绍和说明,不再赘述。
步骤S300、获取包含目标行人的目标视频和至少一个候选视频。
步骤S302、对目标视频中的每个目标视频片段和至少一个候选视频中的每个候选视频片段分别进行编码。
可选地,本步骤S302可以包括如下步骤:
步骤S3020、获取每个目标视频片段中的每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个目标视频片段的索引特征向量,获取每个候选视频片段中的每个候选视频帧的第一候选特征向量和第二候选特征向量。
一种可选的实施方式中,可以利用神经网络提取每个目标视频帧和每个候选视频帧的图像特征向量,图像特征向量用于反映视频帧中的图像特征,如行人特征、背景特征等等。针对目标视频帧,根据每个目标视频帧的图像特征向量生成每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个目标视频片段的索引特征向量,索引特征向量包含了目标视频片段的信息,能够有效分辨有用信息与噪声信息。针对候选视频帧,根据每个候选视频帧的图像特征向量生成每个候选视频帧的第一候选特征向量和第二候选特征向量。具体地,可以根据每一帧特征线性变换生成第一目标特征向量(“键”特征向量)和第一候选特征向量(“键”特征向量),可以根据每一帧特征的另一个线性变换生成第二目标特征向量(“值”特征向量)和第二候选特征向量(“值”特征向量),可以利用长短期记忆(LongShort-Term Memory,LSTM)网络和每个目标视频片段的每个目标视频帧的图像特征向量生成每个目标视频片段的索引特征向量,索引特征向量由目标视频片段生成,作用于目标视频片段自身以及所有的候选视频片段。
步骤S3022、根据索引特征向量、第一目标特征向量和第一候选特征向量生成注意权重向量。
本发明实施例中,第一目标特征向量和第一候选特征向量用于生成注意权重向量。一种可选的实施方式中,针对目标视频帧,可以根据索引特征向量和第一目标特征向量生成每个目标视频帧的目标注意权重向量,可选地,根据索引特征向量、每个目标视频帧的第一目标特征向量生成每个目标视频帧的目标热度图,具体地,根据索引特征向量、每个目标视频帧的第一目标特征向量进行内积操作得到每个目标视频帧的目标热度图;在时间维度上利用softmax对目标热度图进行归一化处理得到每个目标视频帧的目标注意权重向量。针对候选视频帧,可以根据索引特征向量和第一候选特征向量生成每个候选视频帧的候选注意权重向量,可选地,根据索引特征向量、每个候选视频帧的第一候选特征向量生成每个候选视频帧的候选热度图,具体地,根据索引特征向量、每个候选视频帧的第一候选特征向量进行内积操作得到每个候选视频帧的候选热度图;在时间维度上利用softmax对候选热度图进行归一化处理得到每个候选视频帧的候选注意权重向量。
注意权重向量用于在编码过程中增强有效的行人特征,是一种具有判别力信息的权重向量,能够减弱噪声信息的影响。
步骤S3024、根据注意权重向量、第二目标特征向量和第二候选特征向量获得每个目标视频片段的编码结果和候选视频片段的编码结果。
本发明实施例中,第二目标特征向量用于反映目标视频片段中的每一帧的图像特征,第二候选特征向量用于反映候选视频片段中的每一帧的图像特征。一种可选的实施方式中,针对目标视频帧,根据每个目标视频帧的目标注意权重向量和第二目标特征向量获得每个目标视频片段的编码结果。具体地,将每个目标视频帧的目标注意权重向量与各自目标视频帧的第二目标特征向量相乘;将每个目标视频帧的相乘结果在时间维度相加,得到每个目标视频片段的编码结果。针对候选视频帧,根据每个候选视频帧的候选注意权重向量和第二候选特征向量获得每个候选视频片段的编码结果。具体地,将每个候选视频帧的候选注意权重向量与各自候选视频帧的第二候选特征向量相乘;将每个候选视频帧的相乘结果在时间维度相加,得到每个候选视频片段的编码结果。
本发明实施例的步骤S302可以通过注意编码机制实现,即通过对视频片段(目标视频片段和候选视频片段)中不同帧特征的提炼而获得视频片段的编码结果,其过程如图4所示。首先对目标视频片段中的每一个目标视频帧和候选视频片段中的每一个候选视频帧提取卷积神经网络特征,根据卷积神经网络特征生成与每一个目标视频帧或每一个候选视频帧对应的“键”特征向量和“值”特征向量,每一个目标视频帧或每一个候选视频帧的“键”特征向量与每个目标视频片段的索引特征向量进行内积操作形成热度图,通过热度图反映目标视频帧或候选视频帧内的每一个特征与全局信息的相关性。将热度图在时间维度上利用softmax进行归一化操作形成注意权重向量,该注意权重向量与每一视频帧的“值”特征向量在每一个维度上对应相乘,并把不同视频帧获得的结果在时间维度进行相加,进而获得每一个视频片段的编码结果。
步骤S304、根据编码结果计算每个目标视频片段和每个候选视频片段之间的相似性分值。
一种可选的实施方式中,将每个目标视频片段的编码结果与每个候选视频片段的编码结果依次进行相减操作、平方操作、全连接操作和归一化操作,得到每个目标视频片段和每个候选视频片段之间的相似性分值。具体地,将每个目标视频片段的编码结果与每个候选视频片段的编码结果依次进行相减操作,然后在每一个图像维度上进行平方操作,图像维度包括但不限于:行人图像维度和背景图像维度,其中,行人图像维度包括头部图像维度、上身图像维度、下身图像维度等;背景图像维度包括建筑图像维度、街道图像维度等。平方操作之后所得到的特征向量经过全连接层获得一个二维的特征向量,最后通过Sigmoid的非线性归一化得到每个目标视频片段和每个候选视频片段之间的相似性分值。
步骤S306、根据相似性分值对至少一个候选视频进行行人再识别。
一种可选的实施方式中,针对至少一个候选视频中的每个候选视频,将大于或等于预设阈值的相似性分值或者分值较高的相似性分值(例如,排列在前20%的相似性分值)相加,作为每个候选视频的相似性分值;将每个候选视频的相似性分值按照降序进行排列;将排列在前面的一个或者几个候选视频确定为与目标视频包含同一目标行人的视频。其中,预设阈值可以根据实际情况进行设置,分值较高为相对而言。
本发明实施例在进行行人再识别时,获取包含目标行人的目标视频和至少一个候选视频,对目标视频中的每个目标视频片段和至少一个候选视频中的每个候选视频片段分别进行编码,根据编码结果计算每个目标视频片段和每个候选视频片段之间的相似性分值;根据相似性分值对至少一个候选视频进行行人再识别。由于视频片段包含的帧数远远少于整段视频包含的帧数,因此,视频片段中的行人表面信息的变化程度远远小于整段视频中的行人表面信息的变化程度。与对整段目标视频和整段候选视频进行编码相比,对每个目标视频片段和每个候选视频片段进行编码,有效减小了行人表面信息的变化,同时利用了不同视频帧内的行人表面信息的多样性和视频帧与视频帧之间动态相关性,提高了行人表面信息的利用率,提高了编码结果对每个目标视频片段和每个候选视频片段之间的相似性分值计算的准确率,进而可以提高了行人再识别的准确率。
本发明实施例中的候选视频的编码结果是由目标视频片段的索引特征向量与候选视频片段的“键”特征向量而得,在编码过程中,利用目标视频片段的索引特征向量作为指导信息,提高了候选视频的编码结果对计算相似性分值的准确性。利用目标视频片段的索引特征向量估计每一个候选视频帧的注意权重向量,减少候选视频中异常候选视频帧对候选视频片段的编码结果的影响,提升了候选视频中行人再识别的针对性。
本发明实施例将目标视频和候选视频进行片段切割,对目标视频片段和候选视频片段进行编码,当候选视频中的行人在部分候选视频帧中被遮挡时,选择相似性分值较高的候选视频片段作为候选视频的有效候选视频片段,忽略相似性分值较低的候选视频片段。
实施例三
参照图5,示出了根据本发明实施例三的行人再识别装置的结构框图。
本发明实施例提供的行人再识别装置包括:获取模块50,用于获取包含目标行人的目标视频和至少一个候选视频;编码模块52,用于对目标视频中的每个目标视频片段和至少一个候选视频中的每个候选视频片段分别进行编码;计算模块54,用于根据编码结果计算每个目标视频片段和每个候选视频片段之间的相似性分值;相似性分值用于表征目标视频片段与候选视频片段中的行人特征的相似程度;识别模块56,用于根据相似性分值对至少一个候选视频进行行人再识别。
本发明实施例的行人再识别装置用于实现上述实施例中相应的行人再识别方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例四
参照图6,示出了根据本发明实施例四的行人再识别装置的结构框图。
本发明实施例提供的行人再识别装置包括:获取模块60,用于获取包含目标行人的目标视频和至少一个候选视频;编码模块62,用于对目标视频中的每个目标视频片段和至少一个候选视频中的每个候选视频片段分别进行编码;计算模块64,用于根据编码结果计算每个目标视频片段和每个候选视频片段之间的相似性分值;相似性分值用于表征目标视频片段与候选视频片段中的行人特征的相似程度;识别模块66,用于根据相似性分值对至少一个候选视频进行行人再识别。
可选地,编码模块62包括:特征向量获取模块620,用于获取每个目标视频片段中的每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个目标视频片段的索引特征向量,获取每个候选视频片段中的每个候选视频帧的第一候选特征向量和第二候选特征向量;权重向量生成模块622,用于根据索引特征向量、第一目标特征向量和第一候选特征向量生成注意权重向量;编码结果获取模块624,用于根据注意权重向量、第二目标特征向量和第二候选特征向量获得每个目标视频片段的编码结果和每个候选视频片段的编码结果。
可选地,特征向量获取模块620,用于分别提取每个目标视频帧和每个候选视频帧的图像特征向量;根据每个目标视频帧的图像特征向量生成每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个目标视频片段的索引特征向量,根据每个候选视频帧的图像特征向量生成每个候选视频帧的第一候选特征向量和第二候选特征向量。
可选地,权重向量生成模块622,用于根据索引特征向量和第一目标特征向量生成每个目标视频帧的目标注意权重向量,根据索引特征向量和第一候选特征向量生成每个候选视频帧的候选注意权重向量。
可选地,权重向量生成模块622,用于根据索引特征向量、每个目标视频帧的第一目标特征向量生成每个目标视频帧的目标热度图;对目标热度图进行归一化处理得到每个目标视频帧的目标注意权重向量;和/或,根据索引特征向量、每个候选视频帧的第一候选特征向量生成每个候选视频帧的候选热度图;对候选热度图进行归一化处理得到每个候选视频帧的候选注意权重向量。
可选地,编码结果获取模块624,用于根据每个目标视频帧的目标注意权重向量和第二目标特征向量获得每个目标视频片段的编码结果,根据每个候选视频帧的候选注意权重向量和第二候选特征向量获得每个候选视频片段的编码结果。
可选地,编码结果获取模块624,用于将每个目标视频帧的目标注意权重向量与各自目标视频帧的第二目标特征向量相乘;将每个目标视频帧的相乘结果在时间维度相加,得到每个目标视频片段的编码结果;和/或,将每个候选视频帧的候选注意权重向量与各自候选视频帧的第二候选特征向量相乘;将每个候选视频帧的相乘结果在时间维度相加,得到每个候选视频片段的编码结果。
可选地,计算模块64,用于将每个目标视频片段的编码结果与每个候选视频片段的编码结果依次进行相减操作;将相减操作的结果在每一个维度上进行平方操作;对平方操作得到的特征向量进行全连接操作得到二维的特征向量;将二维的特征向量进行归一化操作,得到每个目标视频片段和每个候选视频片段之间的相似性分值。
可选地,识别模块66,用于针对至少一个候选视频中的每个候选视频片段,将分值最高的预设比例阈值的相似性分值相加,作为每个候选视频的相似性分值;将每个候选视频的相似性分值按照降序进行排列;将排列在前面的一个或者几个候选视频确定为与目标视频包含同一目标行人的视频。
本发明实施例的行人再识别装置用于实现上述实施例中相应的行人再识别方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例五
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7,其示出了适于用来实现本发明实施例的行人再识别装置的电子设备700的结构示意图:如图7所示,电子设备700可以包括存储器和处理器。具体地,电子设备700包括一个或多个处理器、通信元件等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)701,和/或一个或多个图像处理器(GPU)713等,处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件712和/或通信接口709。其中,通信组件712可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口709包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口709经由诸如因特网的网络执行通信处理。
处理器可与只读存储器702和/或随机访问存储器703中通信以执行可执行指令,通过通信总线704与通信组件712相连、并经通信组件712与其他目标设备通信,从而完成本发明实施例提供的任一项行人再识别方法对应的操作,例如,获取包含目标行人的目标视频和至少一个候选视频;对所述目标视频中的每个目标视频片段和至少一个所述候选视频中的每个候选视频片段分别进行编码;根据编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值;所述相似性分值用于表征所述目标视频片段与所述候选视频片段中的行人特征的相似程度;根据所述相似性分值对至少一个所述候选视频进行行人再识别。
此外,在RAM703中,还可存储有装置操作所需的各种程序和数据。CPU701或GPU713、ROM702以及RAM703通过通信总线704彼此相连。在有RAM703的情况下,ROM702为可选模块。RAM703存储可执行指令,或在运行时向ROM702中写入可执行指令,可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口705也连接至通信总线704。通信组件712可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口709。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
需要说明的,如图7所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
本发明实施例的电子设备可以用于实现上述实施例中相应的行人再识别方法,该电子设备中的各个器件可以用于执行上述方法实施例中的各个步骤,例如,上文中描述的行人再识别方法可以通过电子设备的处理器调用存储器存储的相关指令来实现,为了简洁,在此不再赘述。
实施例六
根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机程序产品。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,获取包含目标行人的目标视频和至少一个候选视频;对所述目标视频中的每个目标视频片段和至少一个所述候选视频中的每个候选视频片段分别进行编码;根据编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值;所述相似性分值用于表征所述目标视频片段与所述候选视频片段中的行人特征的相似程度;根据所述相似性分值对至少一个所述候选视频进行行人再识别。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器执行时,执行本发明实施例的方法中公开的功能。
可能以许多方式来实现本发明的方法和装置、电子设备和存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、电子设备和存储介质。用于方法的步骤的上述顺序仅是为了进行说明,本发明实施例的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。
本发明实施例的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (14)

1.一种行人再识别方法,其特征在于,包括:
获取包含目标行人的目标视频和至少一个候选视频;
获取每个所述目标视频片段中的每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,获取每个所述候选视频片段中的每个候选视频帧的第一候选特征向量和第二候选特征向量;
根据所述索引特征向量和所述第一目标特征向量生成每个所述目标视频帧的目标注意权重向量,根据所述索引特征向量和所述第一候选特征向量生成每个所述候选视频帧的候选注意权重向量;
根据每个所述目标视频帧的目标注意权重向量和第二目标特征向量获得每个所述目标视频片段的编码结果,根据每个所述候选视频帧的候选注意权重向量和第二候选特征向量获得每个所述候选视频片段的编码结果;
根据每个所述候选视频片段的编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值;所述相似性分值用于表征所述目标视频片段与所述候选视频片段中的行人特征的相似程度;
根据所述相似性分值对至少一个所述候选视频进行行人再识别。
2.根据权利要求1所述的方法,其特征在于,获取每个所述目标视频片段中的每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,获取每个所述候选视频片段中的每个候选视频帧的第一候选特征向量和第二候选特征向量,包括:
分别提取每个所述目标视频帧和每个所述候选视频帧的图像特征向量;
根据每个所述目标视频帧的图像特征向量生成每个所述目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,根据每个所述候选视频帧的图像特征向量生成每个所述候选视频帧的第一候选特征向量和第二候选特征向量。
3.根据权利要求1所述的方法,其特征在于,
所述根据所述索引特征向量和所述第一目标特征向量生成每个所述目标视频帧的目标注意权重向量,包括:
根据所述索引特征向量、每个所述目标视频帧的所述第一目标特征向量生成每个所述目标视频帧的目标热度图;
对所述目标热度图进行归一化处理得到每个所述目标视频帧的目标注意权重向量;
和/或,
所述根据所述索引特征向量和所述第一候选特征向量生成每个所述候选视频帧的候选注意权重向量,包括:
根据所述索引特征向量、每个所述候选视频帧的所述第一候选特征向量生成每个所述候选视频帧的候选热度图;
对所述候选热度图进行归一化处理得到每个所述候选视频帧的候选注意权重向量。
4.根据权利要求1所述的方法,其特征在于,根据每个所述目标视频帧的目标注意权重向量和第二目标特征向量获得每个所述目标视频片段的编码结果,包括:
将每个所述目标视频帧的目标注意权重向量与各自目标视频帧的第二目标特征向量相乘;
将每个所述目标视频帧的相乘结果在时间维度相加,得到每个所述目标视频片段的编码结果;
和/或,
根据每个所述目标视频帧的候选注意权重向量和第二候选特征向量获得每个所述候选视频片段的编码结果,包括:
将每个所述候选视频帧的候选注意权重向量与各自候选视频帧的第二候选特征向量相乘;
将每个所述候选视频帧的相乘结果在时间维度相加,得到每个所述候选视频片段的编码结果。
5.根据权利要求1-4中任一项所述的方法,其特征在于,根据每个所述候选视频片段的编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值,包括:
将每个所述目标视频片段的编码结果与每个所述候选视频片段的编码结果依次进行相减操作;
将相减操作的结果在每一个维度上进行平方操作;
对平方操作得到的特征向量进行全连接操作得到二维的特征向量;
将所述二维的特征向量进行归一化操作,得到每个所述目标视频片段和每个所述候选视频片段之间的相似性分值。
6.根据权利要求1-4中任一项所述的方法,其特征在于,根据所述相似性分值对至少一个所述候选视频进行行人再识别,包括:
针对至少一个所述候选视频中的每个所述候选视频片段,将分值最高的预设比例阈值的所述相似性分值相加,作为每个所述候选视频的相似性分值;
将每个所述候选视频的相似性分值按照降序进行排列;
将排列在前面的一个或者几个所述候选视频确定为与所述目标视频包含同一目标行人的视频。
7.一种行人再识别装置,其特征在于,包括:
获取模块,用于获取包含目标行人的目标视频和至少一个候选视频;
编码模块,用于对所述目标视频中的每个目标视频片段和至少一个所述候选视频中的每个候选视频片段分别进行编码;
计算模块,用于根据每个所述候选视频片段的编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值;所述相似性分值用于表征所述目标视频片段与所述候选视频片段中的行人特征的相似程度;
识别模块,用于根据所述相似性分值对至少一个所述候选视频进行行人再识别,
其中,所述编码模块包括:
特征向量获取模块,用于获取每个所述目标视频片段中的每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,获取每个所述候选视频片段中的每个候选视频帧的第一候选特征向量和第二候选特征向量;
权重向量生成模块,用于根据所述索引特征向量和所述第一目标特征向量生成每个所述目标视频帧的目标注意权重向量,根据所述索引特征向量和所述第一候选特征向量生成每个所述候选视频帧的候选注意权重向量;
编码结果获取模块,用于根据每个所述目标视频帧的目标注意权重向量和第二目标特征向量获得每个所述目标视频片段的编码结果,根据每个所述候选视频帧的候选注意权重向量和第二候选特征向量获得每个所述候选视频片段的编码结果。
8.根据权利要求7所述的装置,其特征在于,所述特征向量获取模块,用于分别提取每个所述目标视频帧和每个所述候选视频帧的图像特征向量;根据每个所述目标视频帧的图像特征向量生成每个所述目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,根据每个所述候选视频帧的图像特征向量生成每个所述候选视频帧的第一候选特征向量和第二候选特征向量。
9.根据权利要求7所述的装置,其特征在于,所述权重向量生成模块,用于根据所述索引特征向量、每个所述目标视频帧的所述第一目标特征向量生成每个所述目标视频帧的目标热度图;对所述目标热度图进行归一化处理得到每个所述目标视频帧的目标注意权重向量;和/或,根据所述索引特征向量、每个所述候选视频帧的所述第一候选特征向量生成每个所述候选视频帧的候选热度图;对所述候选热度图进行归一化处理得到每个所述候选视频帧的候选注意权重向量。
10.根据权利要求7所述的装置,其特征在于,所述编码结果获取模块,用于将每个所述目标视频帧的目标注意权重向量与各自目标视频帧的第二目标特征向量相乘;将每个所述目标视频帧的相乘结果在时间维度相加,得到每个所述目标视频片段的编码结果;和/或,将每个所述候选视频帧的候选注意权重向量与各自候选视频帧的第二候选特征向量相乘;将每个所述候选视频帧的相乘结果在时间维度相加,得到每个所述候选视频片段的编码结果。
11.根据权利要求7-10中任一项所述的装置,其特征在于,所述计算模块,用于将每个所述目标视频片段的编码结果与每个所述候选视频片段的编码结果依次进行相减操作;将相减操作的结果在每一个维度上进行平方操作;对平方操作得到的特征向量进行全连接操作得到二维的特征向量;将所述二维的特征向量进行归一化操作,得到每个所述目标视频片段和每个所述候选视频片段之间的相似性分值。
12.根据权利要求7-10中任一项所述的装置,其特征在于,所述识别模块,用于针对至少一个所述候选视频中的每个所述候选视频片段,将分值最高的预设比例阈值的所述相似性分值相加,作为每个所述候选视频的相似性分值;将每个所述候选视频的相似性分值按照降序进行排列;将排列在前面的一个或者几个所述候选视频确定为与所述目标视频包含同一目标行人的视频。
13.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如权利要求1-6任一项所述的行人再识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有:
用于获取包含目标行人的目标视频和至少一个候选视频的可执行指令;
用于获取每个所述目标视频片段中的每个目标视频帧的第一目标特征向量和第二目标特征向量以及每个所述目标视频片段的索引特征向量,获取每个所述候选视频片段中的每个候选视频帧的第一候选特征向量和第二候选特征向量的可执行指令;
用于根据所述索引特征向量和所述第一目标特征向量生成每个所述目标视频帧的目标注意权重向量,根据所述索引特征向量和所述第一候选特征向量生成每个所述候选视频帧的候选注意权重向量的可执行指令;
用于根据每个所述目标视频帧的目标注意权重向量和第二目标特征向量获得每个所述目标视频片段的编码结果,根据每个所述候选视频帧的候选注意权重向量和第二候选特征向量获得每个所述候选视频片段的编码结果的可执行指令;
用于根据每个所述候选视频片段的编码结果计算每个所述目标视频片段和每个所述候选视频片段之间的相似性分值的可执行指令;所述相似性分值用于表征所述目标视频片段与所述候选视频片段中的行人特征的相似程度;
用于根据所述相似性分值对至少一个所述候选视频进行行人再识别的可执行指令。
CN201810145717.3A 2018-02-12 2018-02-12 行人再识别方法、装置、电子设备和存储介质 Active CN108399381B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201810145717.3A CN108399381B (zh) 2018-02-12 2018-02-12 行人再识别方法、装置、电子设备和存储介质
JP2019570048A JP6905601B2 (ja) 2018-02-12 2018-11-21 歩行者再認識方法、装置、電子機器および記憶媒体
KR1020197038764A KR102348002B1 (ko) 2018-02-12 2018-11-21 보행자 재식별 방법, 장치, 전자 기기 및 저장 매체
SG11201913733QA SG11201913733QA (en) 2018-02-12 2018-11-21 Pedestrian re-identification method and apparatus, electronic device, and storage medium
PCT/CN2018/116600 WO2019153830A1 (zh) 2018-02-12 2018-11-21 行人再识别方法、装置、电子设备和存储介质
US16/726,878 US11301687B2 (en) 2018-02-12 2019-12-25 Pedestrian re-identification methods and apparatuses, electronic devices, and storage media
PH12020500050A PH12020500050A1 (en) 2018-02-12 2020-01-06 Pedestrian re-identification method and apparatus, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810145717.3A CN108399381B (zh) 2018-02-12 2018-02-12 行人再识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN108399381A CN108399381A (zh) 2018-08-14
CN108399381B true CN108399381B (zh) 2020-10-30

Family

ID=63096438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810145717.3A Active CN108399381B (zh) 2018-02-12 2018-02-12 行人再识别方法、装置、电子设备和存储介质

Country Status (7)

Country Link
US (1) US11301687B2 (zh)
JP (1) JP6905601B2 (zh)
KR (1) KR102348002B1 (zh)
CN (1) CN108399381B (zh)
PH (1) PH12020500050A1 (zh)
SG (1) SG11201913733QA (zh)
WO (1) WO2019153830A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399381B (zh) 2018-02-12 2020-10-30 北京市商汤科技开发有限公司 行人再识别方法、装置、电子设备和存储介质
JP7229698B2 (ja) * 2018-08-20 2023-02-28 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN111523569B (zh) * 2018-09-04 2023-08-04 创新先进技术有限公司 一种用户身份确定方法、装置及电子设备
CN109543537B (zh) * 2018-10-23 2021-03-23 北京市商汤科技开发有限公司 重识别模型增量训练方法及装置、电子设备和存储介质
CN110083742B (zh) * 2019-04-29 2022-12-06 腾讯科技(深圳)有限公司 一种视频查询方法和装置
CN110175527B (zh) * 2019-04-29 2022-03-25 北京百度网讯科技有限公司 行人再识别方法及装置、计算机设备及可读介质
US11062455B2 (en) * 2019-10-01 2021-07-13 Volvo Car Corporation Data filtering of image stacks and video streams
CN110827312B (zh) * 2019-11-12 2023-04-28 北京深境智能科技有限公司 一种基于协同视觉注意力神经网络的学习方法
CN111339849A (zh) * 2020-02-14 2020-06-26 北京工业大学 一种融合行人属性的行人重识别的方法
CN111339360B (zh) * 2020-02-24 2024-03-26 北京奇艺世纪科技有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN111538861B (zh) * 2020-04-22 2023-08-15 浙江大华技术股份有限公司 基于监控视频进行图像检索的方法、装置、设备及介质
CN111723645B (zh) * 2020-04-24 2023-04-18 浙江大学 用于同相机内有监督场景的多相机高精度行人重识别方法
CN111539341B (zh) * 2020-04-26 2023-09-22 香港中文大学(深圳) 目标定位方法、装置、电子设备和介质
CN112001243A (zh) * 2020-07-17 2020-11-27 广州紫为云科技有限公司 一种行人重识别数据标注方法、装置及设备
CN111897993A (zh) * 2020-07-20 2020-11-06 杭州叙简科技股份有限公司 一种基于行人再识别的高效目标人物轨迹生成方法
CN112069952A (zh) * 2020-08-25 2020-12-11 北京小米松果电子有限公司 视频片段提取方法、视频片段提取装置及存储介质
CN112150514A (zh) * 2020-09-29 2020-12-29 上海眼控科技股份有限公司 视频的行人轨迹追踪方法、装置、设备及存储介质
CN112906483B (zh) * 2021-01-25 2024-01-23 ***股份有限公司 一种目标重识别方法、装置及计算机可读存储介质
CN113221641B (zh) * 2021-04-01 2023-07-07 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN113011395B (zh) * 2021-04-26 2023-09-01 深圳市优必选科技股份有限公司 一种单阶段动态位姿识别方法、装置和终端设备
CN113255598B (zh) * 2021-06-29 2021-09-28 南京视察者智能科技有限公司 一种基于Transformer的行人重识别方法
CN113780066B (zh) * 2021-07-29 2023-07-25 苏州浪潮智能科技有限公司 行人重识别方法、装置、电子设备及可读存储介质
CN115150663B (zh) * 2022-07-01 2023-12-15 北京奇艺世纪科技有限公司 热度曲线的生成方法、装置、电子设备及存储介质
CN117522454B (zh) * 2024-01-05 2024-04-16 北京文安智能技术股份有限公司 一种工作人员识别方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2351230C (en) * 1998-11-20 2010-06-29 James A. Aman Multiple object tracking system
CN103810476A (zh) * 2014-02-20 2014-05-21 中国计量学院 基于小群体信息关联的视频监控网络中行人重识别方法
US20150131858A1 (en) * 2013-11-13 2015-05-14 Fujitsu Limited Tracking device and tracking method
CN105095475A (zh) * 2015-08-12 2015-11-25 武汉大学 基于两级融合的不完整属性标记行人重识别方法与***
CN105354548A (zh) * 2015-10-30 2016-02-24 武汉大学 一种基于ImageNet检索的监控视频行人重识别方法
CN105518744A (zh) * 2015-06-29 2016-04-20 北京旷视科技有限公司 行人再识别方法及设备
CN106022220A (zh) * 2016-05-09 2016-10-12 西安北升信息科技有限公司 一种体育视频中对参赛运动员进行多人脸跟踪的方法
CN107346409A (zh) * 2016-05-05 2017-11-14 华为技术有限公司 行人再识别方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011148562A1 (ja) * 2010-05-26 2011-12-01 パナソニック株式会社 画像情報処理装置
KR20140090795A (ko) * 2013-01-10 2014-07-18 한국전자통신연구원 다중 카메라 환경에서 객체 추적 방법 및 장치
JP2017167970A (ja) * 2016-03-17 2017-09-21 株式会社リコー 画像処理装置、物体認識装置、機器制御システム、画像処理方法およびプログラム
JP6656987B2 (ja) * 2016-03-30 2020-03-04 株式会社エクォス・リサーチ 画像認識装置、移動体装置、及び画像認識プログラム
AU2017372905B2 (en) * 2016-12-05 2022-08-11 Motorola Solutions, Inc. System and method for appearance search
CN108399381B (zh) * 2018-02-12 2020-10-30 北京市商汤科技开发有限公司 行人再识别方法、装置、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2351230C (en) * 1998-11-20 2010-06-29 James A. Aman Multiple object tracking system
US20150131858A1 (en) * 2013-11-13 2015-05-14 Fujitsu Limited Tracking device and tracking method
CN103810476A (zh) * 2014-02-20 2014-05-21 中国计量学院 基于小群体信息关联的视频监控网络中行人重识别方法
CN103810476B (zh) * 2014-02-20 2017-02-01 中国计量学院 基于小群体信息关联的视频监控网络中行人重识别方法
CN105518744A (zh) * 2015-06-29 2016-04-20 北京旷视科技有限公司 行人再识别方法及设备
CN105095475A (zh) * 2015-08-12 2015-11-25 武汉大学 基于两级融合的不完整属性标记行人重识别方法与***
CN105354548A (zh) * 2015-10-30 2016-02-24 武汉大学 一种基于ImageNet检索的监控视频行人重识别方法
CN107346409A (zh) * 2016-05-05 2017-11-14 华为技术有限公司 行人再识别方法和装置
CN106022220A (zh) * 2016-05-09 2016-10-12 西安北升信息科技有限公司 一种体育视频中对参赛运动员进行多人脸跟踪的方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A Discriminatively Learned CNN Embedding for Person Re-identification;Zhedong Zheng 等;《arXiv》;20170203;第2017年卷;第Ⅲ-D部分 *
Convolutional LSTM Networks for Video-based Person Re-identification;Lin Wu 等,;《arXiv》;20160606;第2016年卷;1-15 *
Person Re-Identification by Video Ranking;Taiqing Wang 等;《European Conference on Computer Vision》;20140930;第2014年卷;第3部分 *
Taiqing Wang 等.Person Re-Identification by Video Ranking.《European Conference on Computer Vision》.2014,第2014年卷第3部分. *
基于时空外貌表征的视频行人再识别方法研究;刘侃;《中国优秀硕士学位论文全文数据库》;20170215;第2017年卷(第2期);I138-3135 *
面向智能视频监控的行人目标再识别研究;谢奕;《中国博士学位论文全文数据库》;20171115;第2017年卷(第11期);I136-75 *

Also Published As

Publication number Publication date
CN108399381A (zh) 2018-08-14
KR20200015610A (ko) 2020-02-12
SG11201913733QA (en) 2020-01-30
US11301687B2 (en) 2022-04-12
US20200134321A1 (en) 2020-04-30
WO2019153830A1 (zh) 2019-08-15
JP6905601B2 (ja) 2021-07-21
KR102348002B1 (ko) 2022-01-06
JP2020525901A (ja) 2020-08-27
PH12020500050A1 (en) 2020-11-09

Similar Documents

Publication Publication Date Title
CN108399381B (zh) 行人再识别方法、装置、电子设备和存储介质
CN112016500B (zh) 基于多尺度时间信息融合的群体异常行为识别方法及***
WO2018157735A1 (zh) 目标跟踪方法、***及电子设备
CN107273458B (zh) 深度模型训练方法及装置、图像检索方法及装置
CN110555405B (zh) 目标跟踪方法及装置、存储介质和电子设备
CN113971751A (zh) 训练特征提取模型、检测相似图像的方法和装置
CN104661037B (zh) 压缩图像量化表篡改的检测方法和***
CN112866799A (zh) 一种视频抽帧处理方法、装置、设备及介质
WO2022062344A1 (zh) 压缩视频的显著性目标检测方法、***、设备及存储介质
CN115294332B (zh) 一种图像处理方法、装置、设备和存储介质
CN115063875A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN108615006B (zh) 用于输出信息的方法和装置
CN112364939A (zh) 异常值检测方法、装置、设备及存储介质
CN114429577B (zh) 一种基于高置信标注策略的旗帜检测方法及***及设备
CN112579824A (zh) 视频数据分类方法、装置、电子设备及存储介质
CN114724144B (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN116452812A (zh) 一种伪装物体识别及语义分割方法
CN113837047B (zh) 一种视频质量评估方法、***、计算机设备及存储介质
CN113177483B (zh) 视频目标分割方法、装置、设备以及存储介质
CN114093006A (zh) 活体人脸检测模型的训练方法、装置、设备以及存储介质
CN113033397A (zh) 目标跟踪方法、装置、设备、介质及程序产品
CN113763313A (zh) 文本图像的质量检测方法、装置、介质及电子设备
CN110909688B (zh) 人脸检测小模型优化训练方法、人脸检测方法及计算机***
CN113627341B (zh) 一种视频样例比对的方法、***、设备及存储介质
CN117612215B (zh) 基于视频检索的身份识别方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 1101-1117, floor 11, No. 58, Beisihuan West Road, Haidian District, Beijing 100080

Patentee after: BEIJING SENSETIME TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 100084, room 7, floor 3, building 1, No. 710-712, Zhongguancun East Road, Beijing, Haidian District

Patentee before: BEIJING SENSETIME TECHNOLOGY DEVELOPMENT Co.,Ltd.