CN112614156A

CN112614156A - 一种多目标跟踪网络模型的训练方法、装置及相关设备

Info

Publication number: CN112614156A
Application number: CN202011488458.8A
Authority: CN
Inventors: 任玉蒙; 闫潇宁; 陈晓艳
Original assignee: Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Technology Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-06

Abstract

本发明涉及目标跟踪技术领域，提供一种多目标跟踪网络模型的训练方法、装置及相关设备，所述方法包括：构建训练数据集；构建初始跟踪网络模型，所述初始跟踪网络模型包括多目标检测算法与多目标跟踪算法，所述多目标检测算法包括预设特征提取网络及注意力机制方法；基于所述训练数据集对所述初始跟踪网络模型进行训练，通过所述多目标检测算法对所述训练数据集中的所述视频数据进行多目标检测；通过所述预设特征提取网络及所述注意力机制方法将多目标物体进行视频帧跟踪，并对相邻的所述视频帧进行匹配测试，以输出多目标跟踪网络模型。本发明能够降低参数量、提高目标检测速度，同时可以缩减用于支撑计算量的硬件装备以及运算过程的时间成本。

Description

一种多目标跟踪网络模型的训练方法、装置及相关设备

技术领域

本发明涉及目标跟踪技术领域，尤其涉及一种多目标跟踪网络模型的训练方法、装置及相关设备。

背景技术

随着智慧城市的发展和智能监控的广泛应用，行人车辆目标跟踪在用于智能视频监控、辅助侦查、自动驾驶以及无人超市等众多领域有着十分重要的作用。然而，随着基于卷积神经网络的目标跟踪方法，通过不断提高卷积神经网络的层数来解决行人车辆目标跟踪成为了主流方向，这种方式对于提高目标跟踪的跟踪精度有着一定的提升，但是相反的它带来了巨大计算量，给硬件设备带来了巨大的压力。可见，现有技术中，对于行人车辆的识别存在计算量大、硬件设备压力大的问题。

发明内容

本发明实施例提供一种多目标跟踪网络模型的训练方法，能够保证目标检测精度的同时，降低参数量，并且提高目标检测速度。

第一方面，本发明实施例提供一种多目标跟踪网络模型的训练方法，包括以下步骤：

构建训练数据集，所述训练数据集包括视频数据；

构建初始跟踪网络模型，所述初始跟踪网络模型包括多目标检测算法与多目标跟踪算法，所述多目标检测算法包括预设特征提取网络及注意力机制方法；

基于所述训练数据集对所述初始跟踪网络模型进行训练，通过所述多目标检测算法对所述训练数据集中的所述视频数据进行多目标检测；

通过所述预设特征提取网络及所述注意力机制方法将所述多目标检测算法检测到的多目标物体进行视频帧跟踪，并对相邻的所述视频帧进行匹配测试，以输出多目标跟踪网络模型。

可选的，所述预设特征提取网络包括MobilenetV3特征提取网络，所述通过所述预设特征提取网络及所述注意力机制方法将所述多目标检测算法检测到的多目标物体进行视频帧跟踪的步骤包括：

在所述注意力机制方法监控下，通过所述MobilenetV3特征提取网络对检测到的多目标物体进行特征信息提取，基于所述特征信息进行实时跟踪，所述特征信息包括多种类型特征信息。

可选的，所述基于所述训练数据集对所述初始跟踪网络模型进行训练，通过所述多目标检测算法对所述训练数据集中的所述视频数据进行多目标检测的步骤包括：

将所述训练数据集进行数据集处理，所述数据集处理包括数据分类，以得到多组不同类型的子数据集；

基于所述子数据集分别对所述初始跟踪网络模型进行训练，通过所述初始跟踪网络模型中的所述多目标检测算法对从所述子数据集中输出的视频数据进行多目标检测。

可选的，所述对相邻的所述视频帧进行匹配测试的步骤包括:

通过预设局部数据关联算法对所述多目标物体的每一帧所述视频帧进行跟踪，并通过标注框对跟踪到的所述多目标物体的坐标进行标注，得到标注框坐标；

将所述标注框坐标进行相邻帧间的局部数据关联，以输出最优跟踪匹配的多目标物体数跟踪数据；

通过预设滤波算法对所述多目标物体跟踪数据进行滤波，以输出所述多目标跟踪网络模型。

第二方面，本发明实施例提供一种多目标跟踪识别方法，包括以下步骤：

获取待识别视频数据；

将所述待识别视频数据输入到任一实施例中所述的一种多目标跟踪模型中进行多目标跟踪识别；

输出多目标识别结果，根据所述多目标输出结果判断所述待检测数据中是否存在所述目标数据。

第三方面，本发明实施例提供一种多目标跟踪网络模型的训练装置，包括：

第一构建模块，用于构建训练数据集，所述训练数据集包括视频数据；

第二构建模块，用于构建初始跟踪网络模型，所述初始跟踪网络模型包括多目标检测算法与多目标跟踪算法，所述多目标检测算法包括预设特征提取网络及注意力机制方法；

目标检测模块，用于基于所述训练数据集对所述初始跟踪网络模型进行训练，通过所述多目标检测算法对所述训练数据集中的所述视频数据进行多目标检测；

跟踪识别模块，用于通过所述预设特征提取网络及所述注意力机制方法将所述多目标检测算法检测到的多目标物体进行视频帧跟踪，并对相邻的所述视频帧进行匹配测试，以输出多目标跟踪网络模型。

第四方面，本发明实施例还提供一种多目标跟踪识别装置，包括：

获取模块，用于获取待识别视频数据；

检测识别模块，用于将所述待识别视频数据输入到任一实施例中所述的一种多目标跟踪模型中进行多目标跟踪识别；

输出模块，用于输出多目标识别结果，根据所述多目标输出结果判断所述待检测数据中是否存在所述目标数据。

第五方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述实施例提供的多目标跟踪网络模型的训练方法中的步骤。

第六方面，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述实施例提供的多目标跟踪网络模型的训练方法中的步骤。

本发明实施例中，构建训练数据集，所述训练数据集包括视频数据；构建初始跟踪网络模型，所述初始跟踪网络模型包括多目标检测算法与多目标跟踪算法，所述多目标检测算法包括预设特征提取网络及注意力机制方法；基于所述训练数据集对所述初始跟踪网络模型进行训练，通过所述多目标检测算法对所述训练数据集中的所述视频数据进行多目标检测；通过所述预设特征提取网络及所述注意力机制方法将所述多目标检测算法检测到的多目标物体进行视频帧跟踪，并对相邻的所述视频帧进行匹配测试，以输出多目标跟踪网络模型。本发明将通过提供预设特征提取网络(MobilenetV3特征提取网络)，并添加注意力机制方法来保证预设特征提取网络对特征信息提取能力；且通过预设特征提取网络将所述多目标检测算法检测到的多目标物体进行视频帧跟踪，对相邻的视频帧进行匹配测试，可以保证对多个目标的跟踪准确性；这样，通过多次训练后输出的多目标跟踪网络模型可以在保证目标检测精度的同时降低参数量，并且提高目标检测速度，同时可以缩减用于支撑计算量的硬件装备以及运算过程中的时间成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多目标跟踪网络模型的训练方法的流程图；

图2是本发明实施例提供的另一种多目标跟踪网络模型的训练方法的流程图；

图2a是本发明实施例提供的另一种多目标跟踪网络模型的训练方法的流程图；

图3是本发明实施例提供的一种多目标跟踪识别方法的流程图；

图4是本发明实施例提供的一种多目标跟踪网络模型的训练装置的结构示意图；

图5是本发明实施例提供的另一种多目标跟踪网络模型的训练装置的结构示意图；

图6是本发明实施例提供的另一种多目标跟踪网络模型的训练装置的结构示意图；

图7是本发明实施例提供的一种多目标跟踪识别装置的结构示意图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，图1是本发明实施例提供的一种多目标跟踪网络模型的训练方法的流程图，该多目标跟踪网络模型的训练方法包括以下步骤：

101、构建训练数据集，训练数据集包括视频数据。

在本实施例中，上述多目标跟踪网络模型的训练方法可以运用在需要对车辆、行人跟踪识别的各种监控***中。当然，除了对车辆、行人进行跟踪识别以外，还可以是对动物等进行跟踪识别。可以通过图像采集设备采集视频数据，上述的图像采集设备可以是摄像头，或者是配置有摄像头的相机等等可以实现图像采集的电子设备。上述训练数据集中的视频数据可以是通过摄像头录制街道、车站等位置得到的视频数据。且上述多目标跟踪网络模型的训练方法运行于其上的电子设备可以通过有线连接方式或者无线连接方式获取训练数据集中的视频数据，以及用于训练过程中的数据传输等。

需要知道的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi(Wireless-Fidelity)连接、蓝牙连接、WiMAX(Worldwide Interoperability for Microwave Access)连接、Zigbee(低功耗局域网协议，又称紫峰协议)连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

其中，上述的数据训练集可以是由摄像头采集到的大量的视频数据组成的数据集。上述的视频数据中可以包括有行人、车辆等图像数据，且视频数据可以是一段时间内采集到的数据。视频由一帧一帧的图像组成，因此可以采取视频帧抽取的方式实现图像数据抓取。更具体的，采集到的视频数据中可以包括不同类型的行人和/或车辆，例如：包括女生、男生、老人、小孩、小轿车、客车、货车、摩托车等等。因此，可以识别视频帧中的行人和/或车辆等目标，对行人和或车辆等目标进行标记区分。

102、构建初始跟踪网络模型，初始跟踪网络模型包括多目标检测算法与多目标跟踪算法，多目标检测算法包括预设特征提取网络及注意力机制方法。

其中，初始跟踪网络模型是还未经过训练的模型，构建初始跟踪网络模型，可以先搭建初始跟踪网络模型的架构，将上述的多目标检测算法与多目标跟踪算法添加到架构中，以形成完整的初始跟踪网络模型，之后再将构建的训练数据集输入到初始跟踪网络模型对模型进行多次训练，以实现模型优化。

上述的多目标检测算法可以实现对多个目标同时进行检测并提取多个目标的特征信息。对多个目标同时进行检测可以包括对多个同类型目标进行检测，也可以是对多个不同类型的目标进行检测，且对检测到的行人和/或车辆还可以进行标记，例如：对视频数据中的多个行人进行检测，或对视频数据中的行人和车辆等多类型的目标进行检测。多目标检测算法在本实施例中不限制唯一算法，只要能够实现多目标检测，均适用于本发明实施例中。上述的多目标跟踪算法可以实现对多个行人和/或车辆进行跟踪，实时掌握行人和/或车辆当前的状态变化，通过多目标检测算法以及多目标跟踪算法对初始跟踪网络模型进行不断的优化训练，可以增强模型的识别能力。

具体的，在多目标检测算法中，包括有预设特征提取网络及注意力机制方法。其中，预设特征提取网络可以是MobilenetV3特征提取网络。MobilenetV3具有特征提取的精度高、计算量小，同时还没有增加时间消耗的特点。此外，增加了注意力机制方法，当MobilenetV3特征提取网络在对检测到的行人和/或车辆进行特征信息提取时，可以保证MobilenetV3特征提取网络对目标的特征信息进行提取的能力。

103、基于训练数据集对初始跟踪网络模型进行训练，通过多目标检测算法对训练数据集中的视频数据进行多目标检测。

其中，将构建的训练数据集按照一定的顺序输入到初始跟踪网络模型进行训练，通过多目标检测算法多输入的训练数据集中的视频数据进行实时多目标检测，例如：视频数据为在车站出站口采集的数据，则通过多目标检测算法可以对车站出站口的行人进行实时检测，识别检测经过出站口的各种年龄段的行人，还可以根据属性对同类行人进行属性(长发、短发等)区分。

104、通过预设特征提取网络及注意力机制方法将多目标检测算法检测到的多目标物体进行视频帧跟踪，并对相邻的视频帧进行匹配测试，以输出多目标跟踪网络模型。

其中，在注意力机制方法的监控下，可以通过MobilenetV3特征提取网络基于多个行人和/或车辆的特征信息对多个行人和/或车辆进行识别跟踪，然后对跟踪识别过程中同一目标相邻的视频帧进行匹配测试，其中，特征信息包括多种类型特征信息。若是检测到行人，则可以包括穿着、配饰、人脸、人体等；若是检测到车辆，则可以包括车型、车牌、颜色、行驶路线等等。上述匹配测试可以包括计算相似度值和/或计算相邻帧之间的局部数据的关联性。在训练数据集中包括有大量的视频数据，通过大量的视频数据对初始跟踪网络模型进行多次循环训练，在前一次的训练结果上不断的优化模型，最后可以输出上述的多目标跟踪网络模型。

可选的，上述的多目标跟踪网络模型可以部署在摄像头板端，以实现算法落地，对实时采集到的视频数据中的行人和/或车辆等目标进行快速且准确的识别。

本发明实施例中，通过构建训练数据集，训练数据集包括视频数据；构建初始跟踪网络模型，初始跟踪网络模型包括多目标检测算法与多目标跟踪算法，多目标检测算法包括预设特征提取网络及注意力机制方法；基于训练数据集对初始跟踪网络模型进行训练，通过多目标检测算法对训练数据集中的视频数据进行多目标检测；通过预设特征提取网络及注意力机制方法将多目标检测算法检测到的多目标物体进行视频帧跟踪，并对相邻的视频帧进行匹配测试，以输出多目标跟踪网络模型。本发明实施例通过提供MobilenetV3特征提取网络，减小了参数量。并添加注意力机制方法，可以保证MobilenetV3特征提取网络对特征信息提取能力。且通过MobilenetV3特征提取网络将多目标检测算法检测到的多目标物体进行视频帧跟踪，对相邻的视频帧进行匹配测试，可以保证对多个目标的跟踪准确性。这样，通过多次训练后输出的多目标跟踪网络模型落地部署后，在保证目标检测精度的同时能降低参数量，并且提高目标检测速度，同时可以缩减用于支撑计算量的硬件装备以及运算过程中的时间成本。

如图2所示，图2是本发明实施例提供的另一种多目标跟踪网络模型的训练方法的流程图，具体包括以下步骤：

201、构建训练数据集，训练数据集包括视频数据。

202、构建初始跟踪网络模型，初始跟踪网络模型包括多目标检测算法与多目标跟踪算法，多目标检测算法包括预设特征提取网络及注意力机制方法。

203、将训练数据集进行数据集处理，数据集处理包括数据分类，以得到多组不同类型的子数据集。

其中，结合图2a所示，图2a为本发明实施例提供的另一种多目标跟踪网络模型的训练方法的流程图。上述进行数据集处理可以是对视频数据中的行人和/或车辆进行标记根据不同类型进行分类，可以将同种类型的行人和/或车辆分为一类，这样便会得到多个类型的子数据集，便于根据子数据集训练时更***化，提高对同一类目标的识别效率。其中，对不同类型的目标进行标记时，可以通过不同形状的标记符号进行标记，在分类时可以直接根据标记符号的不同进行划分。且可以将多个子数据集中，将其不同的类划分为训练集、验证集以及测试集，可以实现在训练集上训练模型，在验证集上评估模型，在测试集上最后测试一次，使得最终训练出的多目标跟踪网络模型具有更强的识别能力。

204、基于子数据集分别对初始跟踪网络模型进行训练，通过初始跟踪网络模型中的多目标检测算法对从子数据集中输出的视频数据进行多目标检测。

其中，子数据集中的数据为视频数据，将分类好的视频数据对初始跟踪网络模型分别进行多次的训练、检验、测试等过程，对视频数据中的多个行人和/或车辆进行识别，检验识别是否准确，测试输出是否正确等。

205、通过预设特征提取网络及注意力机制方法将多目标检测算法检测到的多目标物体进行视频帧跟踪，通过预设局部数据关联算法对多目标物体的每一帧视频帧进行跟踪，并通过标注框对跟踪到的多目标物体的坐标进行标注，得到标注框坐标。

其中，预设局部数据关联算法可以是多目标跟踪算法中的匈牙利算法。其匈牙利算法是部图匹配最常见的算法，该算法的核心为寻找增广路径，用增广路径求二分图最大匹配的算法。在本实施例中，通过匈牙利算法可以同时对多个行人和/或车辆的每一帧视频帧进行实时跟踪，并通过标注框对检测到的多个行人和/或车辆进行实时标注，得到标注框坐标。因进行实时检测，标注框坐标随着行人和/或车辆在视频中的位置变化而变化。上述标注框的形状可以是矩形，也可以是圆形等形状。

206、将标注框坐标进行相邻帧间的局部数据关联，以输出最优跟踪匹配的多目标物体数跟踪数据。

其中，局部数据可以包括标注框坐标，可以通过匈牙利算法实时标注得到的标注框坐标作为行人和/或车辆的坐标，对同一目标的相邻帧之间的坐标数据进行数据关联，输出最优跟踪匹配的多目标物体数跟踪数据。对每一个行人和/或车辆实现最大程度的匹配，有利于提高对每一个行人和/或车辆进行实时跟踪识别的精度。

207、通过预设滤波算法对多目标物体跟踪数据进行滤波，以输出多目标跟踪网络模型。

其中，预设相似度算法可以是卡尔曼滤波算法(Kalman filtering)。卡尔曼滤波的一个典型实例是从一组有限、包含噪声的，对物***置的观察序列(可能有偏差)预测出物体的位置的坐标及速度。例如，对于摄像头、雷达等而言，通常会使用卡尔曼滤波进行目标跟踪。但目标的位置、速度、加速度的测量值往往在任何时候都有噪声，通过上述卡尔曼滤波可以利用行人和/或车辆跟踪数据(多目标物体跟踪数据)的实时动态信息，设法去掉噪声的影响，以更准确地估计实时跟踪的行人和/或车辆对应的位置信息。当然，该位置估计可以是对当前行人和/或车辆的位置信息的估计(滤波)，也可以是对于将来行人和/或车辆的位置信息的估计(预测)，也可以是对行人和/或车辆的位置信息的估计(插值或平滑)。通过上述方式进行不断训练之后，便可以输出最优的多目标跟踪网络模型，将该模型部署在摄像头板端，便可以实现更高精度的目标跟踪。

在本发明实施例中，由于通过提供MobilenetV3特征提取网络，减小了参数量；并添加注意力机制方法，可以保证MobilenetV3特征提取网络对特征信息提取能力。此外，且通过MobilenetV3特征提取网络将多目标检测算法检测到的多目标物体进行视频帧跟踪，通过匈牙利算法进行相邻帧间的局部数据关联，对每一个行人和/或车辆实现最大程度的匹配，有利于提高对每一个行人和/或车辆进行实时跟踪识别的精度。且增加卡尔曼滤波算法，通过上述卡尔曼滤波利用行人和/或车辆跟踪数据(多目标物体跟踪数据)的实时动态信息，设法去掉噪声的影响，更准确地估计实时跟踪的行人和/或车辆对应的位置信息。这样，通过多次训练后输出的多目标跟踪网络模型落地部署后，在保证目标检测精度的同时能降低参数量，并且提高目标检测速度，同时可以缩减用于支撑计算量的硬件装备以及运算过程中的时间成本。

如图3所示，图3是本发明实施例提供的一种多目标跟踪识别方法的流程图，具体包括以下步骤：

301、获取待识别视频数据，待识别视频数据包括目标数据与待检测数据。

其中，上述的待识别视频数据可以包括通过摄像头实时采集到的行人和/或车辆数据，也可以预先存储并直接输入的视频数据。在待识别视频数据中还可以包括其他障碍数据，如路边的指示牌、绿化道等等。上述目标数据可以是上层指定的需要跟踪的行人和/或车辆数据，待检测数据可以是通过摄像头实时采集到的行人和/或车辆的视频数据。

302、将待识别视频数据输入到上述任一实施例中的一种多目标跟踪模型中进行多目标跟踪识别。

其中，多目标跟踪模型为已经训练好的最优模型，并且可以将多目标跟踪模型部署在摄像头板端，当获取目标数据与待检测数据后，便可以通过多目标跟踪模型对待检测数据中的行人和/或车辆进行检测及跟踪识别，实时与目标数据中的行人和/或车辆进行匹配计算，判断目标数据与待检测数据中的行人和/或车辆是否为同一行人和/或车辆。其中，匹配计算包括相似度计算，可以根据提取到的行人和/或车辆的特征信息进行相似度匹配，最后整合同一行人和/或同一车辆的多类型的特征信息的相似度值进行均值计算；当然，还可以对识别准确性高的特征信息匹配更高的权值，这样可以实现更精准的判断，例如：瞳孔。

303、输出多目标识别结果，根据多目标输出结果判断待检测数据中是否存在目标数据。

其中，经过相似度值计算后，输出多目标识别结果，根据多目标输出结果判断待检测数据中是否存在目标数据，多目标识别结果包括相似度值。这样，便可以根据相似度值的大小确定待检测数据中是否有目标数据，也即是检测摄像头采集到的视频数据中的行人和/或车辆是否存在一致或者相似的情况。当本实施例提供的一种多目标跟踪识别方法运用在智能视频监控、辅助侦查、自动驾驶以及无人超市等众多领域中时，可以加快识别的准确率以及速度。

在本发明实施例中，提供的一种多目标跟踪识别方法可以运用上述任一实施例中的多目标跟踪网络模型。本发明实施例提供的多目标跟踪网络模型中通过提供MobilenetV3特征提取网络，减小了参数量。并添加注意力机制方法，可以保证MobilenetV3特征提取网络对特征信息提取能力。且通过MobilenetV3特征提取网络将多目标检测算法检测到的多目标物体进行视频帧跟踪，对相邻的视频帧进行匹配测试，可以保证对多个目标的跟踪准确性。这样，通过多次训练后输出的多目标跟踪网络模型落地部署后，在保证目标检测精度的同时能降低参数量，并且提高目标检测速度，同时可以缩减用于支撑计算量的硬件装备以及运算过程中的时间成本。因此，上述一种多目标跟踪识别方法同样可以实现上述所产生的技术效果，为避免重复，在此不再赘述。

如图4所示，图4是本发明实施例提供的一种多目标跟踪网络模型的训练装置的结构示意图，上述多目标跟踪网络模型的训练装置400包括：

第一构建模块401，用于构建训练数据集，训练数据集包括视频数据；

第二构建模块402，用于构建初始跟踪网络模型，初始跟踪网络模型包括多目标检测算法与多目标跟踪算法，多目标检测算法包括预设特征提取网络及注意力机制方法；

目标检测模块403，用于基于训练数据集对初始跟踪网络模型进行训练，通过多目标检测算法对训练数据集中的视频数据进行多目标检测；

跟踪识别模块404，用于通过预设特征提取网络及注意力机制方法将多目标检测算法检测到的多目标物体进行视频帧跟踪，并对相邻的视频帧进行匹配测试，以输出多目标跟踪网络模型。

可选的，预设特征提取网络包括MobilenetV3特征提取网络，跟踪识别模块404还用于在注意力机制方法监控下，通过MobilenetV3特征提取网络对检测到的多目标物体进行特征信息提取，基于特征信息进行实时跟踪，特征信息包括多种类型特征信息。

可选的，如图5所示，图5是本发明实施例提供的另一种多目标跟踪网络模型的训练装置的结构示意图，目标检测模块403包括：

分类单元4031，用于将训练数据集进行数据集处理，数据集处理包括数据分类，以得到多组不同类型的子数据集；

检查单元4032，用于基于子数据集分别对初始跟踪网络模型进行训练，通过初始跟踪网络模型中的多目标检测算法对从子数据集中输出的视频数据进行多目标检测。

可选的，如图6所示，图6是本发明实施例提供的另一种多目标跟踪网络模型的训练装置的结构示意图，跟踪识别模块404包括：

标注单元4041，用于通过预设局部数据关联算法对多目标物体的每一帧视频帧进行跟踪，并通过标注框对跟踪到的多目标物体的坐标进行标注；

数据关联单元4042，用于将标注框坐标进行相邻帧间的局部数据关联，以输出最优跟踪匹配的多目标物体数跟踪数据；

滤波单元4043，用于通过预设滤波算法对多目标物体跟踪数据进行滤波，以输出多目标跟踪网络模型。

本发明实施例提供的一种多目标跟踪网络模型的训练装置能够实现一种多目标跟踪网络模型的训练方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

可选的，如图7所示，图7是本发明实施例提供的一种多目标跟踪识别装置的结构示意图，一种多目标跟踪识别装置700包括：

获取模块701，用于获取待识别视频数据；

检测识别模块702，用于将待识别视频数据输入到任一实施例中的一种多目标跟踪模型中进行多目标跟踪识别；

输出模块703，用于输出多目标识别结果，根据多目标输出结果判断待检测数据中是否存在目标数据。

本发明实施例提供的一种多目标跟踪识别装置能够实现一种多目标跟踪识别方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

如图8所示，图8是本发明实施例提供的一种电子设备的结构示意图，该电子设备800包括：处理器801、存储器802、网络接口803及存储在存储器802上并可在处理器801上运行的计算机程序，处理器801执行计算机程序时实现实施例提供的多目标跟踪网络模型的训练方法中的步骤。

具体的，处理器801用于执行以下步骤：

构建训练数据集，训练数据集包括视频数据；

构建初始跟踪网络模型，初始跟踪网络模型包括多目标检测算法与多目标跟踪算法，多目标检测算法包括预设特征提取网络及注意力机制方法；

基于训练数据集对初始跟踪网络模型进行训练，通过多目标检测算法对训练数据集中的视频数据进行多目标检测；

通过预设特征提取网络及注意力机制方法将多目标检测算法检测到的多目标物体进行视频帧跟踪，并对相邻的视频帧进行匹配测试，以输出多目标跟踪网络模型。

可选的，预设特征提取网络包括MobilenetV3特征提取网络，处理器801执行的通过预设特征提取网络及注意力机制方法将多目标检测算法检测到的多目标物体进行视频帧跟踪的步骤包括：

在注意力机制方法监控下，通过MobilenetV3特征提取网络对检测到的多目标物体进行特征信息提取，基于特征信息进行实时跟踪，特征信息包括多种类型特征信息。

可选的，处理器801执行的基于训练数据集对初始跟踪网络模型进行训练，通过多目标检测算法对训练数据集中的视频数据进行多目标检测的步骤包括：

将训练数据集进行数据集处理，数据集处理包括数据分类，以得到多组不同类型的子数据集；

基于子数据集分别对初始跟踪网络模型进行训练，通过初始跟踪网络模型中的多目标检测算法对从子数据集中输出的视频数据进行多目标检测。

可选的，处理器801执行的对相邻的视频帧进行匹配测试的步骤包括:

通过预设局部数据关联算法对多目标物体的每一帧视频帧进行跟踪，并通过标注框对跟踪到的多目标物体的坐标进行标注，得到标注框坐标；

将标注框坐标进行相邻帧间的局部数据关联，以输出最优跟踪匹配的多目标物体数跟踪数据；

通过预设滤波算法对多目标物体跟踪数据进行滤波，以输出多目标跟踪网络模型。

本发明实施例提供的电子设备800能够实现多目标跟踪网络模型的训练方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

需要指出的是，图中仅示出了具有组件的801-803，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的电子设备800是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

上述的电子设备800包括但不限于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子设备可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器802至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器802可以是电子设备800的内部存储单元，例如该电子设备800的硬盘或内存。在另一些实施例中，存储器802也可以是电子设备800的外部存储设备，例如该电子设备800上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器802还可以既包括电子设备800的内部存储单元也包括其外部存储设备。本实施例中，存储器802通常用于存储安装于电子设备800的操作***和各类应用软件，例如：多目标跟踪网络模型的训练方法的程序代码等。此外，存储器802还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器801在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器801通常用于控制电子设备800的总体操作。本实施例中，处理器801用于运行存储器802中存储的程序代码或者处理数据，例如运行多目标跟踪网络模型的训练方法的程序代码。

网络接口803可包括无线网络接口或有线网络接口，该网络接口803通常用于在电子设备与其他电子设备之间建立通信连接。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器801执行时实现实施例提供的多目标跟踪网络模型的训练方法中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现实施例多目标跟踪网络模型的训练方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(RandomAccess Memory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种多目标跟踪模型的训练方法，其特征在于，包括以下步骤：

构建训练数据集，所述训练数据集包括视频数据；

2.如权利要求1所述的多目标跟踪网络模型的训练方法，其特征在于，所述预设特征提取网络包括MobilenetV3特征提取网络，所述通过所述预设特征提取网络及所述注意力机制方法将所述多目标检测算法检测到的多目标物体进行视频帧跟踪的步骤包括：

3.如权利要求1所述的多目标跟踪网络模型的训练方法，其特征在于，所述基于所述训练数据集对所述初始跟踪网络模型进行训练，通过所述多目标检测算法对所述训练数据集中的所述视频数据进行多目标检测的步骤包括：

4.如权利要求1所述的多目标跟踪网络模型的训练方法，其特征在于，所述对相邻的所述视频帧进行匹配测试的步骤包括:

5.一种多目标跟踪识别方法，其特征在于，包括以下步骤：

获取待识别视频数据；

将所述待识别视频数据输入到上述任一项权利要求1-4所述的一种多目标跟踪模型中进行多目标跟踪识别；

6.一种多目标跟踪网络模型的训练装置，其特征在于，装置包括：

7.如权利要求6所述的多目标跟踪网络模型的训练装置，其特征在于，所述跟踪识别模块还用于在所述注意力机制方法监控下，通过所述MobilenetV3特征提取网络对检测到的多目标物体进行特征信息提取，基于所述特征信息进行实时跟踪，所述特征信息包括多种类型特征信息。

8.一种多目标跟踪识别装置，其特征在于，包括：

获取模块，用于获取待识别视频数据；

检测识别模块，用于将所述待识别视频数据输入到上述任一项权利要求1-4所述的一种多目标跟踪模型中进行多目标跟踪识别；

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的多目标跟踪网络模型的训练方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的多目标跟踪网络模型的训练方法中的步骤。