CN113838092A

CN113838092A - 一种行人跟踪方法及***

Info

Publication number: CN113838092A
Application number: CN202111120669.0A
Authority: CN
Inventors: 朱晓宁; 员娇娇; 李忠义
Original assignee: Jingying Digital Technology Co Ltd
Current assignee: Jingying Digital Technology Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-24

Abstract

本发明公开了一种行人跟踪方法及***，包括：基于待跟踪的目标人物的图像，提取所述目标人物的关键部件；将各个关键部件的原始图像传递给目标跟踪模型，使所述目标跟踪模型对各个关键部件的辅助生物特征进行学习；使用所述目标跟踪模型进行目标跟踪，得到所述目标人物在图像中的坐标。本发明在深度学习技术的基础上，创新性地利用目标人物的关键部件作为辅助生物特征实现了对目标人物进行实时跟踪的功能，解决了因摄像机遮挡等情况造成的无法跟踪的问题。

Description

一种行人跟踪方法及***

技术领域

本发明属于目标检测及跟踪领域，具体涉及一种行人跟踪方法及***。

背景技术

行人跟踪算法是一个重要的研究领域和应用方向，该算法是利用一个视频或图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标运动状态进行预测并标定目标位置的一种技术。随着社会的发展和实际应用的需求，行人跟踪技术在智能视频监控***、智能人机交互、智能交通和刑侦等领域得到了广泛应用。

常用的行人跟踪技术主要包括基于生成式模型的跟踪算法、基于判别模型的方法和基于深度学习的方法。其中，生成式模型主要依靠传统的特征提取方法(LK光流法)对目标进行建模，通过在图像中搜索与目标模型最匹配的区域作为跟踪结果；判别式模型则将跟踪问题看做分类或回归问题，将目标从背景中分离出来，从而实现对目标的跟踪。但这两种方法在实际环境中的复杂背景下效果并不理想。随着深度学习技术的发展，基于深度学习的目标跟踪方法由于其强大的表征能力而成为目标跟踪算法的主流。

传统的基于深度学习的行人目标跟踪技术主要依靠人脸、虹膜等主生物特征对目标进行描述。但是在实际中，由于摄像机视角的限制造成遮挡、数据质量降低、伪造等现象，导致基于面部、虹膜等单一生物特征的目标跟踪***难以实现，从而不能满足实际应用的需求。

发明内容

为克服相关技术中存在的问题，本发明提供一种行人跟踪方法及***。

根据本发明实施例的第一方面，提供一种行人跟踪方法，包括：

基于待跟踪的目标人物的图像，提取所述目标人物的关键部件；

将各个关键部件的原始图像传递给目标跟踪模型，使所述目标跟踪模型对各个关键部件的辅助生物特征进行学习；

使用所述目标跟踪模型进行目标跟踪，得到所述目标人物在图像中的坐标。

进一步，基于待跟踪的目标人物的图像，提取所述目标人物的关键部件，具体包括：

提取目标人物图像中的人体关键点；

对所述人体关键点进行二分图优化，将各个人体关键点分别划分到对应于人体不同关键部件的集合中；

根据各个集合中人体关键点的坐标提取各个关键部件。

进一步，所述待跟踪的目标人物的图像的获取过程，包括：

使用目标检测算法对视频流进行推理分析，对当前视频区域内的所有人物进行检测，得到每一个人物的位置信息；

根据所述位置信息将人物图像发送到人脸识别算法中进行识别，所述人脸识别算法将每一个人物图像的人脸信息与需要识别的目标人物的人脸信息进行对比，从当前视频区域中找到目标人物。

进一步，所述目标检测算法采用改进的SSD算法，具体是将SSD的底层特征conv4_3经过多个串联的空洞卷积，然后将得到的特征图送入到non_local网络中，得到增强之后的conv4_3特征，记作(conv4_3+)，将conv_fc7的特征经过反卷积进行上采样，和(conv4_3+)在通道维度上进行拼接，在经过1*1的卷积，得到最终的增强之后的conv4_3特征，记作(conv4_3++)，将(conv4_3++)作为最终的底层特征进行目标检测。

进一步，该方法还包括：

将目标人物在图像中的坐标转换为相机坐标并发送给摄像头云台，控制所述摄像头云台根据转换得到的所述相机坐标进行转动，使得目标人物始终在摄像头的拍摄区域内，实现对目标人物的实时跟踪。

根据本发明实施例的第二方面，提供一种基于多模态生物特征的行人跟踪***，包括：

姿态估计模块，用于基于待跟踪的目标人物的图像，提取所述目标人物的关键部件；

目标跟踪模块，用于将各个关键部件的原始图像传递给目标跟踪模型，使所述目标跟踪模型对各个关键部件的辅助生物特征进行学习；还用于使用所述目标跟踪模型进行目标跟踪，得到所述目标人物在图像中的坐标。

进一步，所述姿态估计模块，具体包括：

姿态估计单元，用于提取目标人物图像中的人体关键点；

二分图优化单元，用于对所述人体关键点进行二分图优化，将各个人体关键点分别划分到对应于人体不同关键部件的集合中；

关键部件提取单元，用于根据各个集合中人体关键点的坐标提取各个关键部件。

进一步，该***还包括：

目标检测模块，用于使用目标检测算法对视频流进行推理分析，对当前视频区域内的所有人物进行检测，得到每一个人物的位置信息；

人脸识别模块，用于根据所述位置信息将人物图像发送到人脸识别算法中进行识别，所述人脸识别算法将每一个人物图像的人脸信息与需要识别的目标人物的人脸信息进行对比，从当前视频区域中找到目标人物。

进一步，该***还包括：

云台联动模块，用于将目标人物在图像中的坐标转换为相机坐标并发送给摄像头云台，控制所述摄像头云台根据转换得到的所述相机坐标进行转动，使得目标人物始终在摄像头的拍摄区域内，实现对目标人物的实时跟踪。

根据本发明实施例的第三方面，提供一种终端设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明在深度学习技术的基础上，创新性地利用目标人物的关键部件作为辅助生物特征实现了对目标人物进行实时跟踪的功能，解决了因摄像机遮挡等情况造成的无法跟踪的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1为本发明实施例提供的一种行人跟踪***的整体架构图；

图2为本发明实施例提供的行人检测模型原理示意图；

图3为本发明实施例提供的行人识别流程图；

图4为本发明实施例提供的行人跟踪流程图；

图5为本发明实施例提供的人体姿态估计模型原理示意图图；

图6为本发明实施例提供的基于Transformer的多模态生物特征目标跟踪模型原理示意图；

图7为本发明实施例提供的摄像头云台联动模型原理示意图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了构建完整的行人跟踪***，本发明实施例基于深度学习的技术，涉及目标检测技术、人脸识别技术、基于多模态生物特征的行人跟踪技术、摄像头云台联动技术等方面。

该***的整体框架如图1所示。本发明实施例提供的一种行人跟踪***的整体流程是：首先读取摄像头的视频流，然后使用目标检测算法对视频流进行推理分析，对当前视频区域内的所有人物进行检测，可以得到每一个人物的位置信息，然后根据位置信息将这些人物图像发送到人脸识别程序中进行识别，人脸识别算法将每一个人物的人脸信息与需要识别的目标人物的人脸信息进行对比，从当前视频区域中找到目标人物，一旦找到目标人物之后，就可以启动目标跟踪算法对目标人物进行持续跟踪，同时将目标人物的坐标信息发送给摄像头云台，云台会根据目标人物的坐标信息不断地进行上下左右的移动，使得目标人物始终在摄像头的拍摄区域内，从而实现对目标的持续跟踪。在目标跟踪算法对目标人物进行跟踪的过程中，为了避免出现跟丢跟错的情况，人脸识别算法会一直在识别当前区域中的人物，于是通过人脸识别算法和目标跟踪算法的双重识别，可以对目标人物进行持续不断的跟踪，且达到一个较好的跟踪效果。以下针对上述的各个流程进行具体阐述。

在本实施例中，关于上述流程中涉及的对行人的检测方面，可采用现有的算法实现，其中，SSD(Single Shot MultiBox Detector)算法作为经典的一阶目标检测算法，能够在满足实时性的情况下具备较高的检测精度。但在实际的应用中，由于行人的尺度变化非常大，SSD对小目标的检测效果不理想，为了提高对小目标行人的检测效果，本发明实施例中，通过在SSD的底层特征(conv4_3)上加入多个串联的空洞卷积和non_local网络来提高特征的语义信息和感受野，并引入高层特征的上下文信息，能够进一步提升小目标的检测效果。改进后的SSD算法的模型如图2所示，其中，conv4_3先后经过3个空洞卷积，空洞率分别为2、4、6，空洞卷积的数量及空洞率可以根据效果来进行调整。然后将得到的特征图送入到non_local网络中，得到增强之后的conv4_3特征，记作(conv4_3+)。将conv_fc7的特征经过反卷积Dconv进行上采样，和(conv4_3+)在通道维度上进行拼接，在经过1*1的卷积，得到最终的增强之后的conv4_3特征，记作(conv4_3++)。将(conv4_3++)作为最终的底层特征进行目标检测。

进一步，在本实施例中，在得到行人的图像之后，为从中确定需要跟踪的目标人物，在本实施例中，通过人脸匹配的方法来实现目标人物的确定，具体的，利用前述过程得到的行人图像中人脸区域的图像与从人脸数据库中选定的需要跟踪的目标人物的人脸图像进行匹配，从而找到目标行人来进行后续的跟踪。如图3所示，该人脸识别过程是一个分类过程，利用传统的VGG-16网络来提取人脸的特征，然后利用softmax分类器将人脸图像分为数据库中的某个人脸类别，从而得到识别结果。

进一步，在本实施例中，根据人脸信息识别得到目标人物之后，需要对目标人物进行跟踪。但是在实际的应用环境中，由于遮挡、摄像机分辨率低等因素造成只利用人脸信息的跟踪模型经常出现跟丢的情况，限制了***的使用。因此，为了解决上述问题，本实施例在引入人脸等主要生物特征的基础上，进一步引入人体的左上肢、右上肢、左下肢、右下肢等关键部件作为辅助的生物特征，来解决在主要生物特征丢失情况下，利用辅助生物特征来实现目标跟踪的问题。下面对该辅助的生物特征的提取过程进行具体说明。

由于在行人区域不可避免的存在大量的无用背景信息，如果直接在这样的行人区域提取辅助生物特征，会影响辅助生物特征识别的准确率。因此，本实施例中，首先利用姿态估计技术对人体关键点进行提取并对身体轮廓作出描述，从而有利于剔除人体区域以外的背景信息，达到更精准地对辅助生物特征进行识别的目的。本实施例提出的方法通过采用多阶段级联的结构，每个阶段通过分别提取人体关键节点的位置和人体部件之间的关系向量，将该两部分融合作为下一阶段的输入。通过这种多阶段的融合方式，从而得到人体的姿态估计结果。具体的，如图5所示，首先将候选的目标行人图像输入VGG-19网络，得到卷积特征；然后将特征图送入多阶段级联的网络框架中，每个阶段拥有两个卷积神经网络支路，其中一个支路用于获取人体关键节点的位置，另一个支路用于获取描述部件间关系的向量——部件亲和向量；在每个阶段中，将这两个支路与VGG-19得到的特征图进行相加，得到该阶段的输出，将该输出作为下一阶段的输入。最后经过n(n≥2)阶段的级联后，送入PAF(Part Affinity Fields，部分亲和字段)网络进行综合分析，得到人体的关键点位置及其连接关系，生成人体骨架，输出姿态分析的结果。

在得到姿态分析输出之后，为了进一步提取人体的关键部件，本实施例中使用二分图，经过二分图优化，进一步对人体关键点提取结果进行了优化，能够有效避免对非人体部件关键点的误连接，从而得到对人体关键部件的精确分割。具体的，将提取到的人体关键点划分到不同的集合；同时设定连接关系仅存在于不同集合的点之间，而处于同一集合的点之间则不会发生连接。例如，若图像中同时出现了两个点均被认为是某一行人的左下肢节点，那么将不会在这两个关键点之间建立连接。这种机制较好的解决了在目标跟踪过程中，由于人体被部分遮挡或人体附近出现其他干扰区域导致目标丢失的情况。如图5所示，在PAF网络输出的人体骨架的基础上，通过二分图优化算法将各个人体关键点分别划分到对应于人体的左上肢、右上肢、左下肢、右下肢的集合中，通过各个集合中关键点的坐标即可确定各个关键部件对应的标记框，从而实现了对各个关键部件的正确划分。

进一步，在本实施例中，如图4所示，经过上述步骤得到人体的关键部件之后，针对目标人物的跟踪部分，本实施例可采用基于注意力机制的Transformer框架来实现目标跟踪，属于一种纯基于注意力机制的实时端到端的目标跟踪框架(Vision TransformerTracker,ViTT)，具体的，按照不同关键部件的坐标得到对应的部件原始图像，直接将各关键部件原始图像传递给基于Transformer的目标跟踪模型，让模型自动地对各个部件的辅助生物特征进行学习。

如图6所示，基于Transformer的目标跟踪模型的输入是一个序列，而图片是一个三维的，所以先得把图像给转化成序列数据。将关键部件的原始图像映射(patchembedding)为一个D维的向量，接着用位置编辑器(position embedding)填充各个序列的位置信息。在位置编码器的后面是Transformer的Encoder部分，Transformer的Encoder由L(本实施例中将L设为4)个EncoderBlock的叠加，每个EncoderBlock由自注意力机制(self-attention)和多层感知机(FFN)组成。经过Encoder得到目标图像的特征，然后利用该特征进行目标跟踪。

进一步，在本实施例中，如图7所示，在使用目标跟踪算法得到目标在图像中的坐标之后，需要将图像中的坐标转化为摄像机的世界坐标，从而实现摄像机随着目标的转动而转动的功能，实现对目标的实时跟踪。其中，图像坐标与相机坐标之间的转换公式如下：

其中，(x,y)表示的是图像坐标，(Xc,Yc,Zc)表示的是世界坐标，其中系数是通过摄像机的标定过程完成的。这里，首先是通过采集大量的现实世界中的图像完成摄像机的标定过程得到中间的矩阵。这样，在跟踪算法得到目标在图像中的坐标之后，就可以利用上述公式得到其对应的相机坐标。然后将该坐标通过相机的底层协议编码，发送给其摄像机的控制单元，从而将云台转到对应的坐标，实现对目标的实时跟踪。

本发明实施例提供一种与上述的方法实施例相对应的行人跟踪***，该***中的各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

根据前述的方法可以实现为一种计算设备，包括存储器和处理器。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括各种类型的存储单元，例如***内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器上存储有可执行代码，当可执行代码被处理器处理时，可以使处理器执行上文述及的方法中的部分或全部。

上文中已经参考附图详细描述了本发明的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本发明所必须的。另外，可以理解，本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种行人跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于待跟踪的目标人物的图像，提取所述目标人物的关键部件，具体包括：

提取目标人物图像中的人体关键点；

根据各个集合中人体关键点的坐标提取各个关键部件。

3.根据权利要求1所述的方法，其特征在于，所述待跟踪的目标人物的图像的获取过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标检测算法采用改进的SSD算法，具体是将SSD的底层特征conv4_3经过多个串联的空洞卷积，然后将得到的特征图送入到non_local网络中，得到增强之后的conv4_3特征，记作(conv4_3+)，将conv_fc7的特征经过反卷积进行上采样，和(conv4_3+)在通道维度上进行拼接，在经过1*1的卷积，得到最终的增强之后的conv4_3特征，记作(conv4_3++)，将(conv4_3++)作为最终的底层特征进行目标检测。

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种行人跟踪***，其特征在于，包括：

7.根据权利要求6所述的***，其特征在于，所述姿态估计模块，具体包括：

姿态估计单元，用于提取目标人物图像中的人体关键点；

8.根据权利要求6所述的***，其特征在于，还包括：

9.根据权利要求6所述的***，其特征在于，还包括：

10.一种终端设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-5中任一项所述的方法。