CN113780058A

CN113780058A - 用于确定视频中多目标轨迹的方法、装置、***及存储介质

Info

Publication number: CN113780058A
Application number: CN202110839348.XA
Authority: CN
Inventors: 范淼; 胡晨; 周舒畅
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-12-10

Abstract

本发明的实施例提供了一种用于确定视频中多目标轨迹的方法、装置、***及存储介质。方法包括：对当前的视频帧进行目标检测，以获得当前的视频帧中的所有目标的检测框。依据先前的视频帧中的目标的轨迹，预测当前的视频帧中的对应目标的预测框。分别计算检测框和预测框之间的相似度，以获得原始匹配数据。将原始匹配数据输入匹配神经网络，以由匹配神经网络输出检测框和轨迹之间的最终匹配数据。根据最终匹配数据，将检测框存储到相匹配的轨迹。实现了端到端地确定视频中多目标轨迹。不存在迭代的计算过程，提高了计算效率。此外，可以利用GPU进行计算加速，针对视频帧中的所有目标可以并行计算，进一步大大提升确定视频中多目标轨迹的计算速度。

Description

用于确定视频中多目标轨迹的方法、装置、***及存储介质

技术领域

本发明涉及计算机视觉技术领域，更具体地涉及一种用于确定视频中多目标轨迹的方法、装置、***及存储介质。

背景技术

确定视频中的多目标轨迹是计算机视觉领域的一个重要问题，用于确定连续视频画面中的多个目标的轨迹。其本质是将视频前后帧中的同一目标关联起来，并赋予唯一的轨迹。

由于在确定视频中多目标轨迹的过程中，各个目标的轨迹是不断变化的，视频中的目标的数量和种类并不固定。具体地，针对目标的检测结果中，除了先前视频帧中已有目标，还可能会出现新的目标。对于在视频帧中不再出现的目标还需要终止其轨迹。这导致了目标的数量和现存的轨迹的数量都不是固定的。由此，导致准确确定视频中多目标轨迹需要极大的计算量，以及极大的耗时。

现有技术中，一般可以利用深度学习算法来确定视频中的多目标轨迹。首先检测每一帧图像中所有目标可以得到目标检测结果。之后根据检测到的目标的轨迹预测得到对应的目标预测结果。最后将目标检测结果和目标预测结果所依据的轨迹相匹配得到最终的轨迹匹配结果。其中，目标检测和目标预测都可以通过神经网络来实现。但目标与轨迹相匹配的这一步骤大多采用匈牙利算法来实现。

由此导致以下技术问题：用于目标与轨迹匹配的匈牙利算法需要进行多次迭代，且不能用图形处理器(GPU)进行加速。在较大计算量的基础上，这导致了算法的速度较低。

发明内容

考虑到上述问题而提出了本发明。根据本发明的一个方面，提供了一种用于确定视频中多目标轨迹的方法。方法包括：对当前的视频帧进行目标检测，以获得当前的视频帧中的所有目标的检测框。依据先前的视频帧中的目标的轨迹，预测当前的视频帧中的对应目标的预测框。分别计算检测框和预测框之间的相似度，以获得原始匹配数据。将原始匹配数据输入匹配神经网络，以由匹配神经网络输出检测框和轨迹之间的最终匹配数据。根据最终匹配数据，将检测框存储到相匹配的轨迹。

示例性地，对当前的视频帧进行目标检测，以获得当前的视频帧中的所有目标的检测框、依据先前的视频帧中的目标的轨迹，预测当前的视频帧中的对应目标的预测框以及分别计算检测框和预测框之间的相似度，以获得原始匹配数据利用第一神经网络实现。第一神经网络和匹配神经网络互连。第一神经网络输出原始匹配数据至匹配神经网络。

示例性地，方法还包括：利用训练视频和对应的标注数据同时训练第一神经网络和匹配神经网络。其中标注数据包括训练视频中目标的真实轨迹的位置信息。

示例性地，匹配神经网络是全卷积神经网络。

示例性地，分别计算检测框和预测框之间的相似度，以获得原始匹配数据进一步包括：分别计算检测框中的每一个和预测框中的每一个之间的相似度。由相似度构建相似度矩阵。其中相似度矩阵中的第i行、第j列的元素是当前的视频帧中的第i个目标的检测框与依据先前的视频帧中的第j个目标的轨迹预测的预测框之间的相似度。根据相似度矩阵构建原始匹配数据。

示例性地，在根据相似度矩阵构建原始匹配数据之前，分别计算检测框和预测框之间的相似度，以获得原始匹配数据还包括：对于与所有预测框的相似度均为0的检测框，在相似度矩阵中增加一列，并将所增加的列中的与该检测框对应的行的元素置为1，以更新相似度矩阵。

示例性地，在根据相似度矩阵构建原始匹配数据之前，分别计算检测框和预测框之间的相似度，以获得原始匹配数据还包括：对于与所有检测框的相似度均为0的预测框所依据的轨迹，在相似度矩阵中增加一行，并将所增加的行中的与该轨迹对应的列的元素置为1，以更新相似度矩阵。

示例性地，相似度包括多个相似度表征量。由相似度构建相似度矩阵包括：由相似度的对应的相似度表征量组成对应的相似度矩阵。根据相似度矩阵构建原始匹配数据包括：确定每个相似度矩阵为三维张量中的一个通道的数据，以将三维张量作为原始匹配数据。

示例性地，相似度包括以下相似度表征量中的一个或多个：交并比、位置差、框内图像视觉特征相似度。

根据本发明的另一方面，提供一种用于确定视频中多目标轨迹的装置，包括：目标检测模块，用于对当前的视频帧进行目标检测，以获得当前的视频帧中的所有目标的检测框。目标预测模块，用于依据先前的视频帧中的目标的轨迹，预测当前的视频帧中的对应目标的预测框。相似度计算模块，用于分别计算检测框和预测框之间的相似度，以获得原始匹配数据。匹配模块，用于将原始匹配数据输入匹配神经网络，以由匹配神经网络输出检测框和轨迹之间的最终匹配数据。存储模块，用于根据最终匹配数据，将检测框存储到相匹配的轨迹。

根据本发明的又一方面，提供一种用于确定视频中多目标轨迹的***，包括处理器和存储器。其中，存储器中存储有计算机程序指令。计算机程序指令被处理器运行时用于执行如上所述的用于确定视频中多目标轨迹的方法。

根据本发明的再一方面，提供一种存储介质。在存储介质上存储了程序指令。程序指令在运行时用于执行如上所述的用于确定视频中多目标轨迹的方法。

通过利用神经网络实现检测框与轨迹的匹配，将匹配神经网络加入到整个确定视频中多目标轨迹的计算过程中，实现了端到端地确定视频中多目标轨迹。所谓端到端是指从起点到终点依次计算，而不会出现由后续计算影响前面计算的情况。因此，不存在迭代的计算过程，提高了计算效率。此外，可以利用GPU进行计算加速，针对视频帧中的所有目标可以并行计算，进一步大大提升了确定视频中多目标轨迹的计算速度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了确定视频中多目标轨迹的示意图；

图2示出了用于实现根据本发明实施例的用于确定视频中多目标轨迹的方法和装置的示例电子设备的示意性框图；

图3示出了根据本发明一个实施例的用于确定视频中多目标轨迹的方法的示意性流程图；

图4示出了根据本发明一个实施例的用于获得原始匹配数据的方法的示意性流程图；

图5示出了根据本发明一个实施例的用于确定视频中多目标轨迹的装置的示意性框图；以及

图6示出了根据本发明一个实施例的用于确定视频中多目标轨迹的***的示意性框图。

具体实施方式

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用***的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

图1示出了确定视频中多目标轨迹的示意图。参见图1，对每个视频帧进行目标检测获得一个或多个检测框。多个视频帧中同一个目标的检测框构成该目标的轨迹。为了解决现有的确定视频中多目标轨迹的技术中的上文所述的问题，提升其计算速度和效率，本发明实施例提供一种用于确定视频中多目标轨迹的方法。该方法利用神经网络来实现目标检测结果和目标预测结果的匹配。神经网络的整个匹配计算中，后面的计算结果不会影响前面的计算结果，不存在任何迭代计算。神经网络中的计算步骤可以并行处理。由此，有效的提高了计算速度。

首先，参照图2来描述用于实现根据本发明实施例的用于确定视频中多目标轨迹的方法和装置的示例电子设备200。

如图2所示，电子设备200包括一个或多个处理器202、一个或多个存储装置204。可选地，电子设备200还可以包括输入装置206、输出装置208和图像采集装置210，这些组件通过总线***212和/或其它形式的连接机构(未示出)互连。应当注意，图2所示的电子设备200的组件和结构只是示例性的，而非限制性的，根据需要，电子设备也可以具有其他组件和结构。

处理器202可以采用微处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现。处理器202也可以是中央处理单元(CPU)、图形处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制电子设备200中的其它组件以执行期望的功能。

存储装置204可以包括一个或多个计算机程序产品。计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器202可以运行该程序指令，以实现下文所述的本发明实施例中(由处理器实现)的确定视频中多目标轨迹的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

输入装置206可以是用户用来输入指令或图像的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置208可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，输入装置206和输出装置208可以集成在一起，采用同一交互装置(例如触摸屏)实现。

图像采集装置210可以采集图像(包括静态图像和视频帧)，并且将采集的图像存储在存储装置204中以供其它组件使用。图像采集装置210可以是单独的相机、移动终端中的摄像头或抓拍机中的图像传感器。应当理解，图像采集装置210仅是示例，电子设备200可以不包括图像采集装置210。在这种情况下，可以利用其他图像采集装置采集图像，并将所采集的图像发送给电子设备200。

示例性地，用于实现根据本发明实施例的用于确定视频中多目标轨迹的方法和装置的示例电子设备200可以在诸如个人计算机或远程服务器等的设备上实现。

下面将参考图3描述根据本发明实施例的用于确定视频中多目标轨迹的方法。图3示出了根据本发明一个实施例的用于确定视频中多目标轨迹的方法300的示意性流程图。如图3所示，方法300包括以下步骤。

步骤S110，对当前的视频帧进行目标检测，以获得当前的视频帧中的所有目标的检测框。

视频是由一张张连续的视频帧组成的。视频可以是摄像头等图像采集装置210采集到的原始视频，也可以是对原始视频进行预处理之后获得的视频。该预处理操作可以包括为了更清楚的识别目标的所有操作。例如，预处理操作可以包括滤波等去噪操作。

视频帧可以由电子设备200包括的图像采集装置210(例如摄像头)采集并传送到处理器202进行处理。视频帧也可以由客户端设备(诸如包括摄像头的图像采集设备)采集最后发送到电子设备200以由电子设备200的处理器202进行处理。

此外，可以由电子设备200包括的图像采集装置210(例如摄像头)或由客户端设备(诸如包括摄像头的图像采集设备)采集原始视频并传送到处理器202进行预处理，以获取待处理视频，并且接下来仍由处理器202进行后续处理。

目标可以是例如人体、各种动物或车辆等可以对其进行追踪的任何对象。

在本申请中对步骤S110的目标检测的具体方案不做限定，任何现有的或未来的可以实现目标检测的技术方案均在本申请的保护范围之内。对当前的视频帧进行目标检测后可以获得视频帧中的所有目标的检测框。检测框可以是其中只包含一个目标的、且针对该目标的最小外接图形，例如：矩形框、椭圆框等。

步骤S120，依据先前的视频帧中的目标的轨迹，预测当前的视频帧中的对应目标的预测框。

可以理解，视频由连续的视频帧组成。在当前的视频帧出现之前可能存在一个或多个视频帧，可以将其统称为先前的视频帧。其中的目标的轨迹可以表示各个目标在每一视频帧中的位置移动变化过程。因为目标的运动通常是连续的，在已知目标在先前的视频帧中的轨迹的情况下，可以预测该目标在当前的视频帧中的位置，该位置可以用预测框来表示。与检测框类似地，预测框也可以是其中只包含一个目标的、且针对该目标的最小外接图形，例如：矩形框、椭圆框等。

示例性地，步骤S120可以用任何现有的或未来的可以实现视频中的目标预测的技术实现。例如，可以基于线性移动计算来预测视频帧中的目标的位置。在相邻的视频帧中，假设目标是线性运动的，基于先前的视频帧中的目标的轨迹，即可计算当前的视频帧中的该目标的预测框。

步骤S130，分别计算目标的检测框和预测框之间的相似度，以获得原始匹配数据。

示例性地，检测框和预测框之间的相似度可以用于表示当前的视频帧中的检测框和当前的视频帧中的预测框中的目标的相似程度。该相似度可以用检测框和预测框的重叠区域的面积、二者的交并比、二者的位置差、框内图像的视觉特征相似度等表示。相似度可以是0-1之间的任意数值。示例性地，可以针对步骤S110所获得的所有检测框和步骤S120所获得的所有预测框两两地计算相似度。由此，对于每一个检测框，可以分别获得其和所有预测框的相似度；换个角度来说，对于每一个预测框，也分别获得了其和所有检测框的相似度。替代地，也可以根据预设规则，只计算部分检测框和部分预测框之间的相似度。当相似度的数值越大时，检测框和预测框中的目标为同一个目标的概率可能越大。根据计算出的视频帧中所有检测框和预测框之间的相似度可以获得原始匹配数据。原始匹配数据可以表示当前视频帧中的所有目标的检测框与目标的轨迹之间的关系。

步骤S140，将原始匹配数据输入匹配神经网络，以由匹配神经网络输出检测框和轨迹之间的最终匹配数据。

匹配神经网络是用于根据原始匹配数据将当前的视频帧中的检测框与先前的视频帧中的目标轨迹进行匹配的神经网络。匹配神经网络输出的最终匹配数据中表示当前的视频帧中的检测框与哪条轨迹相匹配，即二者都属于同一个目标。最终匹配数据包括表示检测框和轨迹之间的匹配度的数据，其可以是0或1。示例性地，当某个检测框和某个轨迹相匹配时，二者对应的匹配度为1，当某个检测框和某个轨迹不匹配时，二者对应的匹配度为0。可以理解，针对一个检测框仅能得到一个与之相匹配的轨迹。换言之，对于一个检测框而言，只有与之匹配的轨迹才输出1，其余轨迹均输出0。

示例性地，匹配神经网络可以是任何深度学习神经网络，例如全卷积神经网络(FCN)等。全卷积神经网络具有良好的深度学习能力，而且能够利用GPU实现并行计算。利用全卷积神经网络实现匹配神经网络，有效地提升了检测框与预测框的匹配速度，从而提升目标轨迹确定速度。

步骤S150，根据最终匹配数据，将检测框存储到相匹配的轨迹。例如，当匹配度为1时表示所对应的检测框和轨迹相匹配，则可以将该检测框存储到该轨迹。由此，确定了当前的视频帧中的目标的轨迹。

示例性地，上述步骤S110、步骤S120和步骤S130可以利用第一神经网络实现。第一神经网络也可以是卷积神经网络等，对此不做限定。根据上述可知，可以将视频输入第一神经网络，第一神经网络可以输出原始匹配数据。可以理解，第一神经网络也可以分为多个子网络，例如用于执行步骤S110目标检测的神经网络、用于执行步骤S120目标预测的神经网络等。由于前文已经对其具体过程进行详细描述，在此不再赘述。第一神经网络和匹配神经网络互连。第一神经网络可以输出原始匹配数据至匹配神经网络，以由匹配神经网络根据原始匹配数据计算检测框和轨迹之间的最终匹配数据。

在此，第一神经网络与匹配神经网络构成一个端到端的、更大规模的神经网络。将确定视频中多目标轨迹问题整体上利用该神经网络端到端地实现，充分发挥了神经网络的强大计算能力，可以快速获得较准确的目标轨迹。

视频中背景与目标之间、不同目标之间可能存在交互，目标的检测结果可能不准确，出现检测结果与视频不对齐的情况。例如，多个检测框对应同一个目标，或者一个检测框覆盖多个目标等。目标的检测结果的不准确性又将进一步影响轨迹的准确性。示例性地，方法还包括：利用训练视频和对应的标注数据同时训练第一神经网络和匹配神经网络。训练视频可以包括多个视频帧，针对每个视频帧对应有着标注数据，该标注数据包括所有目标的真实轨迹的位置信息。目标的真实轨迹可以由人工或机器进行标注获得。在此，将第一神经网络和匹配神经网络二者作为一个整体进行训练。可以利用损失函数来对该整个神经网络进行训练。损失函数的函数值可以表示经由匹配神经网络进行匹配所获得的轨迹相对于真实标注的轨迹的偏差。在训练过程中，基于损失函数的函数值不仅可以修正匹配神经网络，通过损失函数的前传还可以同时修正第一神经网络。通过上述过程，可以让第一神经网络补充漏检的检测框，去掉冗余的检测框等，实现对第一神经网络的训练。

通过上述训练过程实现了对用于确定视频中多目标轨迹的端到端的神经网络的整体训练，同时修正了其中第一神经网络的目标检测不准确，例如重识别问题，以及匹配神经网络的匹配精度问题。由此，减小了神经网络模型可能会产生的误差，进而提升了视频中多目标轨迹的准确性。

图4示出了根据本发明一个实施例的用于获得原始匹配数据的方法的示意性流程图。如图4所示，步骤S130进一步包括以下步骤。

步骤S131，分别计算检测框中的每一个和预测框中的每一个之间的相似度。

根据前文所述，可以两两计算当前视频帧中所有检测框和所有预测框之间的相似度。相似度可以是0-1之间的任意数值。当相似度的数值越大时，检测框和预测框中的目标为同一目标的可能性越大。

示例性地，相似度可以包括以下相似度表征量中的一个或多个：交并比、位置差、框内图像视觉特征相似度等。交并比可以表示当前视频帧中的检测框和预测框的面积重叠率。面积重叠率越大可以表示两个框中的目标之间的距离越近，两个框中的目标为同一目标的概率越大。位置差可以表示当前视频帧中的检测框和预测框的位置坐标偏差。位置坐标偏差越小可以表示两个框中的目标之间的距离越近，两个框中的目标为同一目标的概率越大。框内图像视觉特征相似度可以表示当前视频帧中的检测框和预测框中的目标的视觉特征相似度。视觉特征相似度越大可以表示两个框中的目标的外观越相似，则表示两个目标为同一目标的概率越大。该视觉特征例如，色彩特征、纹理特征等等。

根据上述三个相似度表征量可以以较小的计算代价获得更准确的相似度，由此可以为匹配神经网络提供更准确的输入数据，进而提高了所确定的目标的轨迹的准确性。

步骤S132，由相似度构建相似度矩阵。示例性地，相似度矩阵的行数可以等于当前视频帧中的所有检测框的个数。相似度矩阵的列数可以等于当前视频帧中的所有预测框的个数。其中相似度矩阵中的第i行、第j列的元素可以是当前的视频帧中的第i个目标的检测框与依据先前的视频帧中的第j个目标的轨迹预测的预测框之间的相似度。

在一个示例中，在当前视频帧中包含3个检测框，同时包含3个预测框。由此可以构建一个3行3列的相似度矩阵，其中包含9个元素用于表示将检测框和预测框两两计算获得的相似度。例如该矩阵可以是

如上所述，相似度可以用检测框和预测框的重叠区域的面积、二者的交并比、二者的位置差、框内图像的视觉特征相似度等表示。以相似度是检测框和预测框的交并比为例，对上述矩阵进行说明。交并比可以表示当前视频帧中的检测框和预测框的面积重叠率。当面积重叠率越大时，可以表示检测框和预测框中的目标为同一目标的可能性越大。参见上述矩阵的前两行，其中，第一行中的0.8与0.6和第二行中的0.6与0.9在数值上相差不大。这种现象可能是由于第一行和第二行分别对应的检测框中的目标距离较近，出现了重叠现象造成的。在第一行中，第一列对应的预测框与检测框之间的重叠率大于第二列对应的预测框与检测框之间的重叠率。因此，第一列对应的预测框中的目标与检测框中的目标为同一目标的可能性更大。同理，在第二行中，第二列对应的预测框中的目标与检测框中的目标为同一目标的可能性更大。在矩阵中，0表示检测框和预测框之间没有任何重叠，即可以表示二者中的目标为同一目标的可能性几乎为0。

步骤S133，根据相似度矩阵构建原始匹配数据。以相似度矩阵为基础构建原始匹配数据，以表示当前的视频帧中的检测框与目标的轨迹之间的关系。示例性地，可以直接由相似度矩阵构建原始匹配数据。在上述示例中，相似度矩阵

即可以作为原始匹配数据。替代地，可以对相似度矩阵进行进一步的处理，以获得原始匹配数据。

可以将所获得的原始匹配数据输入匹配神经网络，以由匹配神经网络对检测框和轨迹进行匹配，从而输出最终匹配数据。在上述原始匹配数据为

的示例中，最终匹配数据可能是

即第一个目标的检测框、第二个目标的检测框、第三个目标的检测框分别与第一个目标的轨迹、第二个目标的轨迹和第三个目标的轨迹相匹配。

利用相似度矩阵构建原始匹配数据，便于数据管理，同时为后续计算过程减小计算量。

示例性地，相似度包括多个相似度表征量，例如，可以包括如上所述的检测框和预测框中重叠区域的面积、二者的交并比、二者的位置差、框内图像的视觉特征相似度等。根据不同的相似度表征量可以构建不同的相似度矩阵，即相似度的对应的相似度表征量组成对应的相似度矩阵。例如，对于交并比，可以由所有的检测框和预测框两两之间的交并比构建关于交并比的相似度矩阵。对于位置差，可以由所有的检测框和预测框两两之间的位置差构建关于位置差的相似度矩阵。这些相似度矩阵的维度是相同的，也就是行数和列数是相同的。

根据相似度矩阵构建原始匹配数据可以包括：确定每个相似度矩阵为三维张量中的一个通道的数据，以将三维张量作为原始匹配数据。其中，由于相似度矩阵可以是一个或多个，所以三维张量的通道数是相应变化的。每个相似度矩阵均为其中一个通道的数据。所有相似度矩阵可以共同构建原始匹配数据。

由此，原始匹配数据中可以包括不同相似度表征量的相似度矩阵，在进行检测框与轨迹之间的匹配时，有更详尽的信息参考，保障了确定多目标轨迹的准确度。

示例性地，在根据相似度矩阵构建原始匹配数据之前，步骤S130还包括：步骤S134，对于与所有预测框的相似度均为0的检测框，在相似度矩阵中增加一列，并将所增加的列中的与该检测框对应的行的元素置为1，以更新相似度矩阵。

具体地，当某个检测框与所有的预测框之间的相似度为0时，可以表示该检测框中的目标在先前的视频帧中从未出现过，可能是当前的视频帧中新出现的目标。由此，先前的视频帧中不存在其轨迹，也就不会产生根据该轨迹而预测的预测框。示例性地，相似度矩阵例如是

该相似度矩阵中，第三个目标的检测框与任何一个预测框的相似度均为0。可以在相似度矩阵中增加一列，并将该列中的与该检测框对应的行的元素置为1。由此更新该相似度矩阵。对于上述相似度矩阵，更新后的相似度矩阵可以是

将更新后的相似度矩阵作为输入，经由匹配神经网络可以为该检测框建立一条新轨迹。可以理解，根据该相似度矩阵获得的最终匹配结果，可能存在一条轨迹消亡了或者存在漏检的检测框，即当前的视频帧中不存在与之匹配的检测框。

由此，可以确定新出现的目标的轨迹，即当前的视频帧中所有目标均有其对应的轨迹。保证了确定视频中多目标轨迹任务的完成准确度。

示例性地，在根据相似度矩阵构建原始匹配数据之前，步骤S130还包括：步骤S135，对于与所有检测框的相似度均为0的预测框所依据的轨迹，在相似度矩阵中增加一行，并将所增加的行中的与该轨迹对应的列的元素置为1，以更新相似度矩阵。

与步骤S134类似地，当预测框与所有检测框之间的相似度均为0时，可以表示该预测框所依据的轨迹与所有检测框均不匹配。与这条轨迹相匹配的目标已经离开当前的视频帧所对应的区域或者发生了检测框的漏检。示例性地，相似度矩阵例如是

可以在相似度矩阵中增加一行，并将该行中的与该轨迹对应的列的元素置为1，以为该轨迹匹配一个检测框。由此更新该相似度矩阵。对于上述相似度矩阵，更新后的相似度矩阵可以是

将更新后的相似度矩阵作为输入，经由匹配神经网络计算，从而获得与该轨迹匹配的检测框。可以将该轨迹认为是消亡轨迹，该轨迹所对应的目标已经离开当前的视频帧所对应的区域。可以理解，根据该相似度矩阵获得的最终匹配结果，可能存在一个检测框目前没有轨迹与之匹配。

由此，可以确定离开了当前的视频帧所对应的区域的目标的轨迹，也可以修正目标检测的漏检问题，保证了目标的轨迹的准确性。

可以理解，步骤S134和步骤S135是在执行确定视频中多目标轨迹任务过程中可能出现的两种结果，没有先后顺序。这两种结果可能会同时出现、均不出现或只出现一个。

根据本发明另一方面，提供一种用于确定视频中多目标轨迹的装置。图5示出了根据本发明一个实施例的用于确定视频中多目标轨迹的装置500的示意性框图。

如图5所示，装置500包括目标检测模块510、目标预测模块520、相似度计算模块530、匹配模块540和存储模块550。所述各个模块可分别执行上文中所述的用于确定视频中多目标轨迹的方法的各个步骤/功能。以下仅对该装置500的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

目标检测模块510用于对当前的视频帧进行目标检测，以获得当前的视频帧中的所有目标的检测框。目标检测模块510可以由图2所示的电子设备中的处理器202运行存储装置204中存储的程序指令来实现。

目标预测模块520用于依据先前的视频帧中的目标的轨迹，预测当前的视频帧中的对应目标的预测框。目标预测模块520可以由图2所示的电子设备中的处理器202运行存储装置204中存储的程序指令来实现。

相似度计算模块530用于分别计算所述检测框和预测框之间的相似度，以获得原始匹配数据。相似度计算模块530可以由图2所示的电子设备中的处理器202运行存储装置204中存储的程序指令来实现。

匹配模块540用于将原始匹配数据输入匹配神经网络，以由匹配神经网络输出检测框和轨迹之间的最终匹配数据。匹配模块540可以由图2所示的电子设备中的处理器202运行存储装置204中存储的程序指令来实现。

存储模块550用于根据最终匹配数据，将检测框存储到相匹配的轨迹。存储模块550可以由图2所示的电子设备中的处理器202运行存储装置204中存储的程序指令来实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现该装置500。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

根据本发明的又一方面，提供了一种用于确定视频中多目标轨迹的***。图6示出了根据本发明一个实施例的用于确定视频中多目标轨迹的***600的示意性框图。如图6所示，***600包括输入装置610、存储器620、处理器630。

输入装置610用于接收用户输入的指令以及采集或获取图像。输入装置610可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。

存储器620存储有用于实现根据本发明实施例的用于确定视频中多目标轨迹的方法中的相应步骤的计算机程序指令。

处理器630用于运行所述存储器620中存储的计算机程序指令，以执行根据本发明实施例的用于确定视频中多目标轨迹的方法的相应步骤，并且用于实现根据本发明实施例的用于确定视频中多目标轨迹的装置中的目标检测模块510、目标预测模块520、相似度计算模块530、匹配模块540和存储模块550。

根据本发明再一方面，还提供了一种存储介质。在存储介质上存储了程序指令，在程序指令被计算机或处理器运行时使得计算机或处理器执行本发明实施例的用于确定视频中多目标轨迹的方法的相应步骤，并且用于实现根据本发明实施例的用于确定视频中多目标轨迹的装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于确定视频中多目标轨迹的装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于确定视频中多目标轨迹的方法，其中，所述方法包括：

对当前的视频帧进行目标检测，以获得所述当前的视频帧中的所有目标的检测框；

依据先前的视频帧中的目标的轨迹，预测所述当前的视频帧中的对应目标的预测框；

分别计算所述检测框和预测框之间的相似度，以获得原始匹配数据；

将所述原始匹配数据输入匹配神经网络，以由所述匹配神经网络输出所述检测框和所述轨迹之间的最终匹配数据；以及

根据所述最终匹配数据，将所述检测框存储到相匹配的轨迹。

2.如权利要求1所述的方法，其中，所述对当前的视频帧进行目标检测，以获得所述当前的视频帧中的所有目标的检测框、所述依据先前的视频帧中的目标的轨迹，预测所述当前的视频帧中的对应目标的预测框以及所述分别计算所述检测框和预测框之间的相似度，以获得原始匹配数据均利用第一神经网络实现，所述第一神经网络和所述匹配神经网络互连，所述第一神经网络输出所述原始匹配数据至所述匹配神经网络。

3.如权利要求2所述的方法，其中，所述方法还包括：利用训练视频和对应的标注数据同时训练所述第一神经网络和所述匹配神经网络，其中所述标注数据包括所述训练视频中目标的真实轨迹的位置信息。

4.如权利要求1至3任一项所述的方法，其中，所述匹配神经网络是全卷积神经网络。

5.如权利要求1至3任一项所述的方法，其中，所述分别计算所述检测框和预测框之间的相似度，以获得原始匹配数据进一步包括：

分别计算所述检测框中的每一个和所述预测框中的每一个之间的相似度；

由所述相似度构建相似度矩阵，其中所述相似度矩阵中的第i行、第j列的元素是所述当前的视频帧中的第i个目标的检测框与依据先前的视频帧中的第j个目标的轨迹预测的预测框之间的相似度；

根据所述相似度矩阵构建所述原始匹配数据。

6.如权利要求5所述的方法，其中，在所述根据所述相似度矩阵构建所述原始匹配数据之前，所述分别计算所述检测框和预测框之间的相似度，以获得原始匹配数据还包括：

对于与所有预测框的相似度均为0的检测框，在所述相似度矩阵中增加一列，并将所增加的列中的与该检测框对应的行的元素置为1，以更新所述相似度矩阵。

7.如权利要求5所述的方法，其中，在所述根据所述相似度矩阵构建所述原始匹配数据之前，所述分别计算所述检测框和预测框之间的相似度，以获得原始匹配数据还包括：

对于与所有检测框的相似度均为0的预测框所依据的轨迹，在所述相似度矩阵中增加一行，并将所增加的行中的与该轨迹对应的列的元素置为1，以更新所述相似度矩阵。

8.如权利要求5所述的方法，其中，所述相似度包括多个相似度表征量，

所述由所述相似度构建相似度矩阵包括：

由所述相似度的对应的相似度表征量组成对应的相似度矩阵；

所述根据所述相似度矩阵构建所述原始匹配数据包括：

确定每个相似度矩阵为三维张量中的一个通道的数据，以将所述三维张量作为所述原始匹配数据。

9.如权利要求5所述的方法，其中，所述相似度包括以下相似度表征量中的一个或多个：交并比、位置差、框内图像视觉特征相似度。

10.一种用于确定视频中多目标轨迹的装置，包括：

目标检测模块，用于对当前的视频帧进行目标检测，以获得所述当前的视频帧中的所有目标的检测框；

目标预测模块，用于依据先前的视频帧中的目标的轨迹，预测所述当前的视频帧中的对应目标的预测框；

相似度计算模块，用于分别计算所述检测框和预测框之间的相似度，以获得原始匹配数据；

匹配模块，用于将所述原始匹配数据输入匹配神经网络，以由所述匹配神经网络输出所述检测框和所述轨迹之间的最终匹配数据；以及

存储模块，用于根据所述最终匹配数据，将所述检测框存储到相匹配的轨迹。

11.一种用于确定视频中多目标轨迹的***，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至9任一项所述的用于确定视频中多目标轨迹的方法。

12.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至9任一项所述的用于确定视频中多目标轨迹的方法。