CN106971178A - 行人检测和再识别的方法及装置 - Google Patents

行人检测和再识别的方法及装置 Download PDF

Info

Publication number
CN106971178A
CN106971178A CN201710330307.1A CN201710330307A CN106971178A CN 106971178 A CN106971178 A CN 106971178A CN 201710330307 A CN201710330307 A CN 201710330307A CN 106971178 A CN106971178 A CN 106971178A
Authority
CN
China
Prior art keywords
pedestrian
characteristic information
vector
module
subregion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710330307.1A
Other languages
English (en)
Inventor
张弛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Beijing Maigewei Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Beijing Maigewei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd, Beijing Maigewei Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201710330307.1A priority Critical patent/CN106971178A/zh
Publication of CN106971178A publication Critical patent/CN106971178A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种行人检测和再识别的方法及装置,该方法包括:提取原始图像的特征张量;根据所述特征张量,确定至少一个子区域;计算与所述至少一个子区域一一对应的至少一个向量特征;基于所述至少一个向量特征,确定所述原始图像中行人的位置以及提取用于再识别的待识别行人特征信息。由此可见,本发明实施例在进行行人检测的同时,可以给出用于ReID的特征信息。这样不仅能够提高处理的效率,并且能够避免引入额外的误差,保证了处理的精度。

Description

行人检测和再识别的方法及装置
技术领域
本发明涉及图像识别领域,更具体地涉及一种行人检测和再识别的方法及装置。
背景技术
行人检测可以应用于智能驾驶、辅助驾驶和智能监控等相关领域,主要用于检测图像或视频中是否存在行人。行人再识别(re-identification,ReID)也称为行人重识别,可以应用于安防领域、刑侦领域等相关领域,主要用于在一组行人的图像中找到和目标最像的一张图像。在现有的方法中,往往将行人检测和ReID视为两个相互独立的环节。在行人检测环节中,针对每一帧图像找到行人,并通过边框把它们的位置和大小表示出来。然后在ReID环节比较这些行人和目标的相似度,从而达到ReID的目的。然而,由于在以上两个环节中的每一个环节都可能引入额外的误差,因此通过上述独立的两个环节之后容易造成误差的传播扩大,从而导致计算精度低。
发明内容
考虑到上述问题而提出了本发明。本发明提供了一种行人检测和再识别的方法及装置,能够在行人检测的同时确定用于ReID的特征信息,避免引入额外的误差,从而保证计算的精度。
根据本发明的第一方面,提供了一种行人检测和再识别的方法,包括:
提取原始图像的特征张量;
根据所述特征张量,确定至少一个子区域;
计算与所述至少一个子区域一一对应的至少一个向量特征;
基于所述至少一个向量特征,确定所述原始图像中行人的位置以及提取用于再识别的待识别行人特征信息。
示例性地,所述根据所述特征张量,确定至少一个子区域,包括:
根据所述特征张量,构建多个超像素点,每个超像素点表示一个C维向量;
根据所述多个超像素点,确定与所述多个超像素点一一对应的多个区域;
根据所述多个区域确定所述至少一个子区域。
示例性地,所述根据所述多个区域确定所述至少一个子区域,包括:采用非极大值抑制NMS算法,基于所述多个区域确定多个矩形区域;将所述多个矩形区域对应的特征进行综合,得到所述至少一个子区域。
示例性地,所述计算与所述至少一个子区域一一对应的至少一个向量特征,包括:
对于所述至少一个子区域中的每个子区域:
将所述每个子区域中的所有的超像素点对应的向量中各个频道取最大值或平均值,得到与所述每个子区域对应的向量特征。
示例性地,所述基于所述至少一个向量特征,确定所述原始图像中行人的位置以及提取用于再识别的待识别行人特征信息,包括:
基于所述至少一个向量特征,确定所述原始图像中行人的位置,其中,所述位置表示为所述行人在所述原始图像中的坐标;以及
基于所述至少一个向量特征,提取用于再识别的所述待识别行人特征信息。
示例性地,还包括:基于所述至少一个向量特征,判断所述至少一个子区域中的物体是否为行人。
示例性地,还包括:将所述用于再识别的待识别行人特征信息与目标行人特征信息进行比对,以判断所述用于再识别的待识别行人特征信息对应的行人与所述目标行人是否为同一人。
示例性地,所述目标行人特征信息通过以下步骤获得:
提取目标行人图像的特征张量;
根据所述目标行人图像的特征张量,确定目标行人区域;
计算与所述目标行人区域对应的至少一个目标向量特征,基于所述至少一个目标向量特征,获得所述目标行人特征信息。
根据本发明的第二方面,提供了一种行人检测和再识别的装置,包括:
提取模块,用于提取原始图像的特征张量;
第一确定模块,用于根据所述特征张量,确定至少一个子区域;
计算模块,用于计算与所述至少一个子区域一一对应的至少一个向量特征;
第二确定模块,用于基于所述至少一个向量特征,确定所述原始图像中行人的位置以及提取用于再识别的待识别行人特征信息。
示例性地,所述第一确定模块,包括:
构建子模块,用于根据所述特征张量,构建多个超像素点,每个超像素点表示一个C维向量;
第一确定子模块,用于根据所述多个超像素点,确定与所述多个超像素点一一对应的多个区域;
第二确定子模块,用于根据所述多个区域确定所述至少一个子区域。
示例性地,所述第二确定子模块,用于:采用非极大值抑制NMS算法,基于所述多个区域确定多个矩形区域;将所述多个矩形区域对应的特征进行综合,得到所述至少一个子区域。
示例性地,所述计算模块,用于:
对于所述至少一个子区域中的每个子区域:
将所述每个子区域中的所有的超像素点对应的向量中各个频道取最大值或平均值,得到与所述每个子区域对应的向量特征。
示例性地,所述第二确定模块,用于:
基于所述至少一个向量特征,确定所述原始图像中行人的位置,其中,所述位置表示为所述行人在所述原始图像中的坐标;以及
基于所述至少一个向量特征,提取用于再识别的所述待识别行人特征信息。
示例性地,所述第二确定模块,还用于:基于所述至少一个向量特征,判断所述至少一个子区域中的物体是否为行人。
示例性地,还包括判断模块,用于:将所述用于再识别的待识别行人特征信息与目标行人特征信息进行比对,以判断所述用于再识别的待识别行人特征信息对应的行人与所述目标行人是否为同一人。
示例性地,还包括获取模块,用于预先获得所述目标行人特征信息;
其中,所述获取模块包括:
提取子模块,用于提取目标行人图像的特征张量;
确定子模块,用于根据所述目标行人图像的特征张量,确定目标行人区域;
计算子模块,用于计算与所述目标行人区域对应的至少一个目标向量特征;
获取子模块,用于基于所述至少一个目标向量特征,获得所述目标行人特征信息。
第二方面所述的该装置能够用于实现前述第一方面的行人检测和再识别的方法。
根据本发明的第三方面,提供了一种计算机芯片,该计算机芯片包括处理器和存储器。所述存储器存储有指令代码,所述处理器用于执行所述指令代码,且当所述处理器执行指令代码时,能够实现前述第一方面所述的行人检测和再识别的方法。
由此可见,本发明实施例在进行行人检测的同时,可以给出用于ReID的特征信息。这样不仅能够提高处理的效率,并且能够避免引入额外的误差,保证了处理的精度。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明实施例的电子设备的一个示意性框图;
图2是本发明实施例的行人检测和再识别的方法的一个示意性流程图;
图3是本发明实施例的行人检测和再识别的方法的另一个示意性流程图;
图4是本发明实施例的行人检测和再识别的装置的一个示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
本发明实施例可以应用于电子设备,图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或多个非图像传感器114,这些组件通过总线***112和/或其它形式互连。应当注意,图1所示的电子设备10的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以包括CPU 1021和GPU 1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,例如现场可编程门阵列(Field-Programmable GateArray,FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine,ARM)等,并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory,ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。
当注意,图1所示的电子设备10的组件和结构只是示例性的,尽管图1示出的电子设备10包括多个不同的装置,但是根据需要,其中的一些装置可以不是必须的,其中的一些装置的数量可以更多等等,本发明对此不限定。
图2是本发明实施例的行人检测的再识别的方法的一个示意性流程图。图2所示的方法包括:
S101,提取原始图像的特征张量。
作为一例,原始图像可以是实时采集的图像,例如可以是由摄像头采集的视频中的一帧图像或多帧图像,或者,可以是由照相机拍摄到的一张图片。作为另一例,原始图像可以是从特定的源获取的,例如可以从存储器中获取先前采集并存储的图像。
在S101中,可以将原始图像输入到一层或多层卷积神经网络(ConvolutionalNeural Network,CNN),提取该原始图像的特征张量。
可理解,如果该原始图像包括多帧图像,例如,该原始图像为视频,则在S101中,可以将多帧图像中的每一帧输入到一层或多层CNN,从而提取每一帧图像的特征张量。
卷积神经网络(CNN)是一种前馈神经网络,由若干卷积单元组成。每个卷积单元可以响应一部分覆盖范围内的周围单元。每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征。例如,第一层卷积层可能只能提取一些低级的特征,如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。这些特征类似于热力图,对于一张图像(如视频中的一帧),经过卷积神经网络提取的特征张量可以表示为一个三阶张量X。该三阶张量的三个维度分别代表横向(H),纵向(W)和频道(C),其中,频道(C)为根据应用场景的需求进行设定的维度,频道(C)中包含有原始图像的特征,由于不同的使用场景所需要的原始图像特征的种类与精细程度不同,因此经过不同的卷积神经网络所得到的频道(C)并不一定相同,其根据不同的需求进行设定。可选地,作为一例,卷积神经网络根据应用场景的需要进行训练后,对输入的一张图片进行计算,基于输入图片的长度信息、宽度信息及色彩通道信息输出一个三阶张量,三个维度分别代表横向(H),纵向(W)和频道(C),上述每个维度均包含128个数值。也就是说,S101提取所得到的特征张量的维度可以表示为H×W×C。该特征张量中的元素可以表示为X[i][j][k],其中,i=0,1,2,…,H-1,j=0,1,2,…,W-1,k=0,1,2,…,C-1。
示例性地,S101中所使用的卷积神经网络的参数可以是随机初始化得到的,也可以是利用之前已经训练好的网络进行初始化得到的,其中已经训练好的网络如AlexNet、VGG、残差网络(Residential Network,ResNet)等。
本发明实施例中,可以选取这些已经训练好的网络中的某些部分作为S101中所使用的卷积神经网络的一部分;或者,也可以固定这些已经训练好的网络中一部分参数,并对其他的参数进行训练,从而得到S101中所使用的卷积神经网络的参数。
S102,根据所述特征张量,确定至少一个子区域。
示例性地,S102可以包括:根据所述特征张量,构建多个超像素点,每个超像素点表示一个C维向量;根据所述多个超像素点,确定与所述多个超像素点一一对应的多个区域;根据所述多个区域确定所述至少一个子区域。
具体地,可以定义X[i][j]为一个超像素点,可以理解,一个超像素点为一个C维向量。一个超像素点可以对应原始图像上的一片区域。具体地,X[i][j]表示在张量横坐标为i,纵坐标为j的位置上所有频道的数值组成的一个C维向量。可理解,在S102中,可以根据特征张量定义H×W个超像素点。其中,每个超像素点的向量包含了该超像素点对应的区域的特征。也就是说,每个超像素点表示一个区域,多个超像素点与多个区域一一对应。
可选地,作为一例,根据所述多个区域确定所述至少一个子区域,可以包括:采用非极大值抑制(Non-Maximum Suppression,NMS)算法,基于所述多个区域确定所述至少一个子区域。
具体地,通过将每个超像素点的向量输入到一个分类器和回归器,能够得出与输入的超像素点对应的区域中是否存在某个特定大小的物体,以及该物体可能存在的矩形区域。所有的超像素点输入到分类器和回归器之后,能够得到大量可能的物体及对应矩形区域。进一步地,对这些大量的矩形区域,根据分类器的可信度排序,并合并重叠度较高的矩形区域,最后便可以得到至少一个子区域。这里至少一个子区域可以被认为是可能存在感兴趣物体的区域。示例性地,分类器和回归器都可以是1×1的卷积网络。
可选地,作为另一例,根据所述多个区域确定所述至少一个子区域,可以包括:采用非极大值抑制(Non-Maximum Suppression,NMS)算法,基于所述多个区域确定多个矩形区域;将所述多个矩形区域对应的特征进行综合,得到所述至少一个子区域。
具体地,通过将每个超像素点的向量输入到一个分类器和回归器,能够得出与输入的超像素点对应的区域中是否存在某个特定大小的物体,以及该物体可能存在的矩形区域。所有的超像素点输入到分类器和回归器之后,能够得到大量可能的物体及对应矩形区域,其中,经过分类器和回归器后得到的矩形区域与输入的超像素点在原图上的区域并非一一对应,该矩形区域通常大于超像素点在原图上的对应区域,因此得到的矩形区域通常对应于至少一个超像素点。随后,对这些大量的矩形区域,根据分类器的可信度排序,并合并重叠度较高的矩形区域,最后便可以得到多个矩形区域。这里多个矩形区域可以被认为是可能存在感兴趣物体的区域。示例性地,分类器和回归器都可以是1×1的卷积网络。进一步地,把多个矩形区域(即这些存在感兴趣物体的区域)对应的特征进行综合,如把区域划分为若干子区域(例如分成多个网格,例如分成N×M个网格,例如3×6个,或1×1个),从而得到至少一个子区域,通过把区域划分为若干子区域,能够使最终得到的区域对应的向量特征规格一致,便于进行统一操作。
可理解,本发明实施例中,将大量的矩形区域进行合并所采用的策略为NMS,NMS可以通过两个指标来进行合并:可信度和重叠度。示例性地,分类器会给出一个分值(score)来表示当前候选框的可信度,在合并时可以尽量保留可信度较高的候选框。示例性地,重叠度也可以称为重叠面积(Intersection-over Union,IoU),若位置邻近的候选框重叠面积大于一定阈值的话则可以进行合并。
S103,计算与所述至少一个子区域一一对应的至少一个向量特征。
具体地,对于所述至少一个子区域中的每个子区域:将所述每个子区域中的所有的超像素点对应的向量中各个频道取最大值或平均值,得到与所述每个子区域对应的向量特征。
示例性地,可以对每个子区域中对应的每个超像素点所对应的向量中各个频道取最大值或平均值等得到每个子区域对应的向量,将每个子区域对应的向量合并或连接成一个长向量作为得到该区域对应的向量特征。可以理解的是,向量的频道为其相应超像素点对应的c维向量。
S104,基于所述至少一个向量特征,确定所述原始图像中行人的位置以及提取用于再识别的待识别行人特征信息。
S104可以包括:基于所述至少一个向量特征,确定所述原始图像中行人的位置,其中,所述位置表示为所述行人在所述原始图像中的坐标;以及基于所述至少一个向量特征,提取用于再识别的所述待识别行人特征信息,其中,待识别行人特征信息为在原始图像中提取到的每一个行人的行人特征信息,也就是说,在原始图像中提取到的每一个行人的行人特征信息均可定义为待识别行人特征信息。在实际场景中,原始图像中一般包含多个行人,通过本实施例,能够在原始图像中提取多个行人特征信息,并对提取到的多个行人特征信息进行处理。
这样,可以在进行行人检测的同时得到ReID所需要的特征信息,能够提高处理的效率,并且同时能避免引入额外的误差,提高了精度。
示例性地,在S104中,还可以包括:基于所述至少一个向量特征,判断所述至少一个子区域中的物体是否为行人。
具体地,可以将向量特征分别输入到三个不同的分类器/回归器中。第一个用于对物体进行检测,判断该物体是否为行人。第二个用于得到该物体所在的具***置,即得到一个紧密包围该物体的矩形框。第三个用于对该物体提取可用于ReID的特征信息。
示例性地,如图3所示,可以基于向量特征30,并行地确定物体是否为行人32、物体的位置34以及物体的ReID的特征信息36。
其中,可以采用对象分类(Object Classifier)对子区域中的物体进行检测,以判断该物体是否为行人。
其中,可以采用边框回归(Bounding Box Regressor)得到子区域中的物体的位置,如可以为紧密包围该物体的矩形框的坐标。例如,该位置可以包括矩形框的左上角和右下角的坐标值,或者,包括矩形框的左下角和右上角的坐标值,或者,包括矩形框的左下角的坐标值以及矩形框的长、宽值。
其中,可以采用ReID特征回归(ReID Feature Regressor)得到子区域中的物体用于ReID的特征信息。
示例性地,如果在32确定该物体不是行人,那么可以将对应的位置34和对应的ReID的特征信息36剔除。
示例性地,如果在32确定该物体是行人,那么可以将对应的位置34和对应的ReID的特征信息36保留。此时,可以理解,所得到的位置34为行人的位置,所得到的用于ReID的特征信息36为对行人所提取的特征信息。
可选地,作为一个实施例,在图2所示的方法之后,还可以包括:将所述用于再识别的待识别行人特征信息与目标行人特征信息进行比对,以判断所述用于再识别的待识别行人特征信息对应的行人与所述目标行人是否为同一人。目标行人特征信息通过以下步骤获得:提取目标行人图像的特征张量;根据所述目标行人图像的特征张量确定目标行人区域;计算与所述目标行人区域对应的至少一个目标向量特征,基于所述至少一个目标向量特征,获得所述目标行人特征信息。
其中,目标行人特征信息可以是针对目标图像,采用类似于图2所示的方法所得到的。目标行人特征信息也可以称为已知特征信息。示例性地,可以首先基于目标行人图像确定在上述图像中的目标行人存在的矩形区域,计算与该矩形区域对应的向量特征,并基于该向量特征确定该目标行人的ReID的特征信息,作为目标行人特征信息。具体地,该过程所采用的神经网络与前述图2所示的实施例中所采用的神经网络可以相同。
示例性地,如果用于再识别的待识别行人特征信息与目标行人特征信息之间的点乘的结果大于或等于预设的阈值,则可以确定该用于再识别的待识别行人特征信息所表示的行人与目标行人为同一人。
举例来说,可以将用于再识别的待识别行人特征信息表示为xp,将目标行人特征信息表示为xq,若xp·xq大于或等于预设的阈值,则说明xp所表示的行人与目标行人为同一人。或者,若|xp-xq|大于或等于预设的另一阈值,则说明xp所表示的行人与目标行人为同一人。相应地,可理解,如果xp·xq小于预设的阈值,或者,若|xp-xq|小于预设的另一阈值,则说明xp所表示的行人与目标行人不是同一人。
示例性地,可以找到S104中的特征信息中与目标行人特征信息的相似度最大的那个特征信息,并确定该找到的特征信息所表示的行人与目标行人为同一人。
举例来说,计算所有的用于ReID的特征信息与目标行人特征信息之间的点乘,如果点乘的结果最大的那个用于ReID的特征信息为xp,则确定xp所表示的行人与目标行人为同一人。或者,计算所有的用于ReID的特征信息与目标行人特征信息之间的差值,在计算该差值的模,如果模的结果最大的那个用于ReID的特征信息为xp,则确定xp所表示的行人与目标行人为同一人。
另外,本发明实施例中,在S104中,可以采用预先训练好的神经网络,基于所述至少一个向量特征,提取用于ReID的特征信息。
其中,预先训练好的神经网络的参数可以采用如下的方法训练得到:
(a)给出两个人的图像所对应的矢量:xi和xj,得到以使函数∑(1-1/2Δ(xi,xj))(xi·xj)取最小值的神经网络的参数。
其中,如果这两个人为同一个人,则Δ(xi,xj)=1;如果这两个人为不同的人,则Δ(xi,xj)=0。
(b)给出三个人的图像所对应的矢量:xi、xj和xk,得到以使函数∑(xi·xk-xi·xj)取最小值的神经网络的参数。
其中,xi和xj是同一个人在不同场景下的特征矢量,xk为另一个人的特征矢量。xi和xk为同一个场景下,或xj和xk为同一个场景下。
可见,本发明实施例中,可以通过反向误差传播和梯度下降,end2end地训练整个检测网络和ReID网络。
由此可见,本发明实施例对于一张输入图片,可以采用卷积神经网络(CNN),在检测出图像中所有行人的同时,给出了这些人用于ReID的特征信息。这样不仅能够提高处理的效率,并且能够避免引入额外的误差,保证了处理的精度。
图4是本发明实施例的行人检测和再识别的装置的一个示意性框图。图4所示的装置40包括:提取模块401、第一确定模块402、计算模块403和第二确定模块404。
提取模块401,用于提取原始图像的特征张量;
第一确定模块402,用于根据提取模块401提取的所述特征张量,确定至少一个子区域;
计算模块403,用于计算与第一确定模块402确定的所述至少一个子区域一一对应的至少一个向量特征;
第二确定模块404,用于基于计算模块403得到的所述至少一个向量特征,确定所述原始图像中行人的位置以及提取用于再识别的待识别行人特征信息。
示例性地,第一确定模块402可以包括:构建子模块、第一确定子模块和第二确定子模块。
构建子模块,用于根据所述特征张量,构建多个超像素点,每个超像素点表示一个C维向量;
第一确定子模块,用于根据所述多个超像素点,确定与所述多个超像素点一一对应的多个区域;
第二确定子模块,用于根据所述多个区域确定所述至少一个子区域。
示例性地,所述第二确定子模块可以用于:采用非极大值抑制NMS算法,基于所述多个区域确定多个矩形区域;将所述多个矩形区域对应的特征进行综合,得到所述至少一个子区域。
示例性地,计算模块403可以用于:对于所述至少一个子区域中的每个子区域:
将所述每个子区域中的所有的超像素点对应的向量中各个频道取最大值或平均值,得到与所述每个子区域对应的向量特征。
示例性地,第二确定模块404可以用于:
基于所述至少一个向量特征,确定所述原始图像中行人的位置,其中,所述位置表示为所述行人在所述原始图像中的坐标;以及
基于所述至少一个向量特征,提取用于再识别的所述待识别行人特征信息。
示例性地,第二确定模块404还可以用于:基于所述至少一个向量特征,判断所述至少一个子区域中的物体是否为行人。
示例性地,还可以包括判断模块,用于:将所述用于再识别的待识别行人特征信息与目标行人特征信息进行比对,以判断所述用于再识别的待识别行人特征信息对应的行人与所述目标行人是否为同一人。
示例性地,还可以包括获取模块,用于预先获得所述目标行人特征信息。
示例性地,获取模块可以包括:
提取子模块,用于提取目标行人图像的特征张量;
确定子模块,用于根据所述目标行人图像的特征张量,确定目标行人区域;
计算子模块,用于计算与所述目标行人区域对应的至少一个目标向量特征;
获取子模块,用于基于所述至少一个目标向量特征,获得所述目标行人特征信息。
图4所示的装置40能够用于实现前述图2或图3所示的行人检测和再识别的方法。
另外,本发明实施例还提供了另一种行人检测和再识别的装置,该装置可以包括处理器、存储器及存储在所述存储器上且在所述处理器上运行的计算机程序,处理器执行所述程序时实现前述图2或图3所示方法的步骤。
另外,本发明实施例还提供了一种电子设备,该电子设备可以包括图4所示的装置40。该电子设备可以实现前述图2或图3所示的行人检测和再识别的方法。
另外,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述图2或图3所示方法的步骤。例如,该计算机存储介质为计算机可读存储介质。
由此可见,本发明实施例在进行行人检测的同时,可以给出用于ReID的特征信息。这样不仅能够提高处理的效率,并且能够避免引入额外的误差,保证了处理的精度。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种行人检测和再识别的方法,其特征在于,包括:
提取原始图像的特征张量;
根据所述特征张量,确定至少一个子区域;
计算与所述至少一个子区域一一对应的至少一个向量特征;
基于所述至少一个向量特征,确定所述原始图像中行人的位置以及提取用于再识别的待识别行人特征信息。
2.如权利要求1所述的方法,其特征在于,所述根据所述特征张量,确定至少一个子区域,包括:
根据所述特征张量,构建多个超像素点,每个超像素点表示一个C维向量;
根据所述多个超像素点,确定与所述多个超像素点一一对应的多个区域;
根据所述多个区域确定所述至少一个子区域。
3.如权利要求2所述的方法,其特征在于,所述根据所述多个区域确定所述至少一个子区域,包括:
采用非极大值抑制NMS算法,基于所述多个区域确定多个矩形区域;
将所述多个矩形区域对应的特征进行综合,得到所述至少一个子区域。
4.如权利要求3所述的方法,其特征在于,所述计算与所述至少一个子区域一一对应的至少一个向量特征,包括:
对于所述至少一个子区域中的每个子区域:
将所述每个子区域中的所有的超像素点对应的向量中各个频道取最大值或平均值,得到与所述每个子区域对应的向量特征。
5.如权利要求1所述的方法,其特征在于,所述基于所述至少一个向量特征,确定所述原始图像中行人的位置以及提取用于再识别的待识别行人特征信息,包括:
基于所述至少一个向量特征,确定所述原始图像中行人的位置,其中,所述位置表示为所述行人在所述原始图像中的坐标;以及
基于所述至少一个向量特征,提取用于再识别的所述待识别行人特征信息。
6.如权利要求1所述的方法,其特征在于,还包括:
基于所述至少一个向量特征,判断所述至少一个子区域中的物体是否为行人。
7.如权利要求1至6中任一项所述的方法,其特征在于,还包括:
将所述用于再识别的待识别行人特征信息与目标行人特征信息进行比对,以判断所述用于再识别的待识别行人特征信息对应的行人与所述目标行人是否为同一人。
8.如权利要求7所述的方法,其特征在于,所述目标行人特征信息通过以下步骤获得:
提取目标行人图像的特征张量;
根据所述目标行人图像的特征张量,确定目标行人区域;
计算与所述目标行人区域对应的至少一个目标向量特征,基于所述至少一个目标向量特征,获得所述目标行人特征信息。
9.一种行人检测和再识别的装置,其特征在于,包括:
提取模块,用于提取原始图像的特征张量;
第一确定模块,用于根据所述特征张量,确定至少一个子区域;
计算模块,用于计算与所述至少一个子区域一一对应的至少一个向量特征;
第二确定模块,用于基于所述至少一个向量特征,确定所述原始图像中行人的位置以及提取用于再识别的待识别行人特征信息。
10.如权利要求9所述的装置,其特征在于,所述第一确定模块,包括:
构建子模块,用于根据所述特征张量,构建多个超像素点,每个超像素点表示一个C维向量;
第一确定子模块,用于根据所述多个超像素点,确定与所述多个超像素点一一对应的多个区域;
第二确定子模块,用于根据所述多个区域确定所述至少一个子区域。
11.如权利要求10所述的装置,其特征在于,所述第二确定子模块,用于:
采用非极大值抑制NMS算法,基于所述多个区域确定多个矩形区域;
将所述多个矩形区域对应的特征进行综合,得到所述至少一个子区域。
12.如权利要求11所述的装置,其特征在于,所述计算模块,用于:
对于所述至少一个子区域中的每个子区域:
将所述每个子区域中的所有的超像素点对应的向量中各个频道取最大值或平均值,得到与所述每个子区域对应的向量特征。
13.如权利要求9所述的装置,其特征在于,所述第二确定模块,用于:
基于所述至少一个向量特征,确定所述原始图像中行人的位置,其中,所述位置表示为所述行人在所述原始图像中的坐标;以及
基于所述至少一个向量特征,提取用于再识别的所述待识别行人特征信息。
14.如权利要求9所述的装置,其特征在于,所述第二确定模块,还用于:
基于所述至少一个向量特征,判断所述至少一个子区域中的物体是否为行人。
15.如权利要求9至14中任一项所述的装置,其特征在于,还包括判断模块,用于:
将所述用于再识别的待识别行人特征信息与目标行人特征信息进行比对,以判断所述用于再识别的待识别行人特征信息对应的行人与所述目标行人是否为同一人。
16.如权利要求15所述的装置,其特征在于,还包括获取模块,用于预先获得所述目标行人特征信息;
其中,所述获取模块包括:
提取子模块,用于提取目标行人图像的特征张量;
确定子模块,用于根据所述目标行人图像的特征张量,确定目标行人区域;
计算子模块,用于计算与所述目标行人区域对应的至少一个目标向量特征;
获取子模块,用于基于所述至少一个目标向量特征,获得所述目标行人特征信息。
CN201710330307.1A 2017-05-11 2017-05-11 行人检测和再识别的方法及装置 Pending CN106971178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710330307.1A CN106971178A (zh) 2017-05-11 2017-05-11 行人检测和再识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710330307.1A CN106971178A (zh) 2017-05-11 2017-05-11 行人检测和再识别的方法及装置

Publications (1)

Publication Number Publication Date
CN106971178A true CN106971178A (zh) 2017-07-21

Family

ID=59330691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710330307.1A Pending CN106971178A (zh) 2017-05-11 2017-05-11 行人检测和再识别的方法及装置

Country Status (1)

Country Link
CN (1) CN106971178A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062562A (zh) * 2017-12-12 2018-05-22 北京图森未来科技有限公司 一种物体重识别方法及装置
CN108875507A (zh) * 2017-11-22 2018-11-23 北京旷视科技有限公司 行人跟踪方法、设备、***和计算机可读存储介质
CN108875505A (zh) * 2017-11-14 2018-11-23 北京旷视科技有限公司 基于神经网络的行人再识别方法和装置
CN108875500A (zh) * 2017-11-06 2018-11-23 北京旷视科技有限公司 行人再识别方法、装置、***及存储介质
CN109670555A (zh) * 2018-12-27 2019-04-23 吉林大学 基于深度学习的实例级行人检测和行人重识别***
CN109740413A (zh) * 2018-11-14 2019-05-10 平安科技(深圳)有限公司 行人重识别方法、装置、计算机设备及计算机存储介质
CN109977928A (zh) * 2019-04-25 2019-07-05 中国科学院自动化研究所 一种机器人目标行人检索方法
CN109978043A (zh) * 2019-03-19 2019-07-05 新华三技术有限公司 一种目标检测方法及装置
US10552979B2 (en) 2017-09-13 2020-02-04 TuSimple Output of a neural network method for deep odometry assisted by static scene optical flow
CN111091091A (zh) * 2019-12-16 2020-05-01 北京迈格威科技有限公司 目标对象重识别特征的提取方法、装置、设备及存储介质
US10671083B2 (en) 2017-09-13 2020-06-02 Tusimple, Inc. Neural network architecture system for deep odometry assisted by static scene optical flow
WO2020151329A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 基于目标检测的识别框确定方法、装置及终端设备
CN111597847A (zh) * 2019-02-20 2020-08-28 中科院微电子研究所昆山分所 一种二维码识别方法、装置、设备及可读存储介质
US10762635B2 (en) 2017-06-14 2020-09-01 Tusimple, Inc. System and method for actively selecting and labeling images for semantic segmentation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7123745B1 (en) * 1999-11-24 2006-10-17 Koninklijke Philips Electronics N.V. Method and apparatus for detecting moving objects in video conferencing and other applications
CN105160319A (zh) * 2015-08-31 2015-12-16 电子科技大学 一种在监控视频下实现行人再识别的方法
CN105184297A (zh) * 2015-08-24 2015-12-23 西安电子科技大学 基于张量和稀疏自编码器的极化sar图像分类方法
CN106529511A (zh) * 2016-12-13 2017-03-22 北京旷视科技有限公司 图像结构化方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7123745B1 (en) * 1999-11-24 2006-10-17 Koninklijke Philips Electronics N.V. Method and apparatus for detecting moving objects in video conferencing and other applications
CN105184297A (zh) * 2015-08-24 2015-12-23 西安电子科技大学 基于张量和稀疏自编码器的极化sar图像分类方法
CN105160319A (zh) * 2015-08-31 2015-12-16 电子科技大学 一种在监控视频下实现行人再识别的方法
CN106529511A (zh) * 2016-12-13 2017-03-22 北京旷视科技有限公司 图像结构化方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762635B2 (en) 2017-06-14 2020-09-01 Tusimple, Inc. System and method for actively selecting and labeling images for semantic segmentation
US10552979B2 (en) 2017-09-13 2020-02-04 TuSimple Output of a neural network method for deep odometry assisted by static scene optical flow
US10671083B2 (en) 2017-09-13 2020-06-02 Tusimple, Inc. Neural network architecture system for deep odometry assisted by static scene optical flow
CN108875500A (zh) * 2017-11-06 2018-11-23 北京旷视科技有限公司 行人再识别方法、装置、***及存储介质
CN108875500B (zh) * 2017-11-06 2022-01-07 北京旷视科技有限公司 行人再识别方法、装置、***及存储介质
CN108875505A (zh) * 2017-11-14 2018-11-23 北京旷视科技有限公司 基于神经网络的行人再识别方法和装置
CN108875507A (zh) * 2017-11-22 2018-11-23 北京旷视科技有限公司 行人跟踪方法、设备、***和计算机可读存储介质
CN108875507B (zh) * 2017-11-22 2021-07-23 北京旷视科技有限公司 行人跟踪方法、设备、***和计算机可读存储介质
CN108062562A (zh) * 2017-12-12 2018-05-22 北京图森未来科技有限公司 一种物体重识别方法及装置
US11093789B2 (en) 2017-12-12 2021-08-17 Tusimple, Inc. Method and apparatus for object re-identification
CN108062562B (zh) * 2017-12-12 2020-03-10 北京图森未来科技有限公司 一种物体重识别方法及装置
CN109740413A (zh) * 2018-11-14 2019-05-10 平安科技(深圳)有限公司 行人重识别方法、装置、计算机设备及计算机存储介质
CN109670555A (zh) * 2018-12-27 2019-04-23 吉林大学 基于深度学习的实例级行人检测和行人重识别***
CN109670555B (zh) * 2018-12-27 2023-07-07 吉林大学 基于深度学习的实例级行人检测和行人重识别***
WO2020151329A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 基于目标检测的识别框确定方法、装置及终端设备
CN111597847A (zh) * 2019-02-20 2020-08-28 中科院微电子研究所昆山分所 一种二维码识别方法、装置、设备及可读存储介质
CN109978043A (zh) * 2019-03-19 2019-07-05 新华三技术有限公司 一种目标检测方法及装置
CN109977928A (zh) * 2019-04-25 2019-07-05 中国科学院自动化研究所 一种机器人目标行人检索方法
CN111091091A (zh) * 2019-12-16 2020-05-01 北京迈格威科技有限公司 目标对象重识别特征的提取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106971178A (zh) 行人检测和再识别的方法及装置
JP7236545B2 (ja) ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム
CN111738231B (zh) 目标对象检测方法、装置、计算机设备和存储介质
CN112016614B (zh) 光学图像目标检测模型的构建方法、目标检测方法及装置
CN109815843B (zh) 图像处理方法及相关产品
EP3333768A1 (en) Method and apparatus for detecting target
CN109492638A (zh) 文本检测方法、装置及电子设备
CN107944403B (zh) 一种图像中的行人属性检测方法及装置
CN109977978B (zh) 一种多目标检测方法、装置及存储介质
CN108875750B (zh) 物体检测方法、装置和***及存储介质
CN108182695B (zh) 目标跟踪模型训练方法及装置、电子设备和存储介质
CN107808111A (zh) 用于行人检测和姿态估计的方法和装置
CN110689021A (zh) 一种基于深度学习的低可见度环境下实时目标检测方法
CN113591872A (zh) 一种数据处理***、物体检测方法及其装置
CN108446694A (zh) 一种目标检测方法及装置
CN111524145A (zh) 图片智能裁剪方法、***、计算机设备及存储介质
CN112381061B (zh) 一种面部表情识别方法及***
CN110807362A (zh) 一种图像检测方法、装置和计算机可读存储介质
CN108734052A (zh) 文字检测方法、装置和***
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN111814754A (zh) 面向夜间场景的单帧图像行人检测方法和装置
KR20200039043A (ko) 객체 인식 장치 및 그 동작 방법
CN111368634B (zh) 基于神经网络的人头检测方法、***及存储介质
CN112348116A (zh) 利用空间上下文的目标检测方法、装置和计算机设备
CN116052026A (zh) 一种无人机航拍图像目标检测方法、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170721