CN107492113B

CN107492113B - 一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法

Info

Publication number: CN107492113B
Application number: CN201710402241.2A
Authority: CN
Inventors: 魏文戈
Original assignee: Nanjing Walker Intelligent Traffic Technology Co Ltd
Current assignee: Nanjing Walker Intelligent Traffic Technology Co Ltd
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2019-11-05
Anticipated expiration: 2037-06-01
Also published as: CN107492113A

Abstract

本发明涉及一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法,训练运动目标位置预测模型需要首先在单个固定场景下收集视频，对视频进行多目标跟踪,而后生成每个目标的时序坐标序列，筛选出单个目标类的时序坐标序列集合，将真实轨迹序列集合输入网络模型,将输出与真实数据进行反复比对，可得到每种单类目标的位置预测模型，在实际视频中使用每个目标类对应的单目标类位置预测模型预测未来位置或轨迹。实际应用中，使用场景和训练场景需相同或相近。综上本发明利用深度学习方法为在视频图像中预测运动目标位置和轨迹提供一种新方法,运动目标可以包括行人、机动车、非机动车等。

Description

一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法

技术领域

本发明涉及深度学习和图像分析领域,特别涉及一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法。

背景技术

视频图像中的运动目标位置预测是指在视频图像中通过各个运动目标已有的运动轨迹,对它们在未来指定时刻的位置坐标进行预测。

视频图像中的运动目标轨迹预测是指在视频图像中通过各个运动目标已有的运动轨迹,对它们各自未来的轨迹进行预测。固定场景下的运动目标的轨迹预测或位置预测可以应用于一些室外场景例如十字路口的交通监控和管制,也可以应用于一些室内场景例如车站的客流疏导,***出视频图像中的车流人流分布,可以预测出可能发生的情况,从而方便有关人员提前做好对应措施,若是发现实际的人流或车流轨迹(或位置)与先前预测的轨迹偏差过大,那说明这块区域可能发生了一些异常情况，有关人员可以立即关注。

中国发明专利说明书CN 105913454 A中公开了一种视频图像中运动目标的像素坐标轨迹预测方法,该方法根据从视频图像中获取运动目标的历史像素轨迹信息,提出了一种基于像机成像原理的分式模型拟合轨迹公式，结合历史轨迹建立超定方程组可以求得该分式模型系数，从而确定在实际空间中匀速直线运动目标在视频图像中像素坐标与时间之间的关系，最终准确预测未来时刻目标的像素坐标。

目前，对于视频图像中运动目标轨迹预测和运动目标位置预测的可用于实用的研究成果并不多，但从实际来说，类似于行人、非机动车和机动车这样的运动目标的运动状态都具有一定的继承性和连续性，即未来的状态总是基于当前的已知轨迹，而且每种运动目标具有不同的运动特征，例如速度、转弯半径等，使用深度学习方法学习不同运动目标的真实运动轨迹从而预测不同种类的运动目标的轨迹或位置的方法可行。

发明内容

本发明要解决的技术问题是：提供一种视频图像中运动目标位置预测模型训练方法，并提供一种基于一种视频图像中运动目标位置预测模型训练方法训练得到的位置预测模型预测运动目标指定时间后的位置坐标，并提供一种基于一种视频图像中运动目标位置预测模型训练方法训练得到的位置预测模型预测运动目标在视频图像中未来的运动轨迹，运动目标可以包括行人、机动车、非机动车等。

为解决上述技术问题，本发明采取以下技术方案：

本发明提供一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法，其中，所述一种视频图像中运动目标位置预测模型训练方法，包括以下步骤：

步骤1，在单个固定场景下，收集一定数量的视频图像，并在每一张图像上，通过多目标跟踪，自动标注出每个运动目标中心点的位置以及生成每个运动目标的身份信息；

步骤2，按采样频率f帧/秒，抽取每帧图像中每个带有身份信息的运动目标的坐标，对应每个不同身份信息的运动目标生成一条各自的时序坐标序列，由此组成时序坐标序列集合；

步骤3，根据实际需要检测的目标种类，从步骤2生成的时序坐标序列集合中筛选出符合条件的目标类，并且剔出长度小于时序神经网络模型输入数据长度L的序列，由此组成该目标类的时序坐标序列集合；

其中，所述时序神经网络模型是训练所使用的网络模型，是指可以处理时序数据的网络模型，包括单层或多层RNN神经网络或单层或多层RNN神经网络的变形，RNN网络的变形包括LSTM、GRU等，所述网络模型优选为LSTM网络模型，进一步优选为多层LSTM网络模型。

步骤4，生成神经网络模型的输入轨迹列表X和实际比对值列表Y：从步骤3生成的时序坐标序列集合中的某一条序列中依次抽取i～i+L-1位共L个连续时序坐标数据存入X列表，其中，设该条序列长度为L_n，则1≤i≤L_n-L-k+1，需要预测运动目标n秒后的位置，则k＝f*n，k≥1且为整数，同时抽取第i+L-1+k位数据存入Y列表，直到该条时序坐标序列抽取完毕，按照相同的方法逐条抽取时序坐标序列集合，直到时序坐标序列集合中的每条序列抽取完毕；

步骤5，将列表X作为神经网络模型输入，列表Y作为实际值，并根据目标所属类别，使用深度学习方法，将预测位置与实际位置进行反复比对，调整该目标类运动位置预测模型的参数，最终训练出该目标类的位置预测模型。

步骤6，重复步骤3～5可训练得到不同的目标类位置预测模型，若只需要检测一种目标，则不需要执行该步骤。

当上述方法中所述步骤4中所述k＝1，该运动目标位置预测模型训练方法训练得到的模型能用于预测运动目标连续位置,即运动目标轨迹，该运动目标位置预测模型也可以称为运动目标轨迹预测模型。

本发明还提供一种视频图像中运动目标位置预测方法,基于上述所述的视频图像中运动目标位置预测的方法,所述运动目标位置预测方法包括以下步骤:

(1)在与训练场景相同或相似的场景下，按与训练模型时相同的采样频率f帧/秒，读取一帧视频数据，通过多目标跟踪，得到该帧视频数据中每个运动目标中心点的位置以及生成每个运动目标的身份信息；

(2)对应不同身份信息的运动目标对应生成各自的时序坐标序列，若运动目标的时序坐标序列已经存在，则不需要再次生成,将该帧得到的位置信息添加到所对应的时序坐标序列中；

(3)当某个运动目标对应的时序坐标序列的长度大于训练所用网络的输入数据长度L，根据预测目标的种类，向上述一种视频图像中运动目标位置预测模型训练方法训练得到的对应的目标类位置预测模型输入最新的L位时序坐标序列，模型输出结果为目标在n秒后的位置坐标；

(4)重复步骤3可得到视频中其他运动目标的轨迹。

其中，所述步骤3中n与上述一种视频图像中运动目标位置预测模型训练方法所述步骤4中的n是同一数值。

本发明还提供一种视频图像中运动目标轨迹预测方法,基于上述所述的视频图像中运动目标位置预测的方法中k＝1情况,得到的预测模型又名为运动目标轨迹预测模型，将上述一种视频图像中运动目标位置预测方法中步骤3和4替换为以下步骤3和4：

(3)当某个运动目标对应的时序坐标序列的长度大于训练所用神经网络的输入数据长度L，根据预测目标的种类，向上述一种视频图像中运动目标位置预测模型训练方法训练得到的对应的目标类轨迹预测模型输入最新的L位时序坐标序列，模型输出结果为目标在下一时刻的坐标，将预测出的坐标添加到该目标的时序坐标序列中，再次向轨迹预测模型输入最新的L位时序坐标序列，模型输出结果为目标在下一时刻的坐标，如此循环，可得到该目标在连续多时刻的位置坐标预测，即得到该目标的轨迹预测，其中每个时刻为1/f秒；

(4)重复步骤3可得到视频中其他运动目标的轨迹。

本发明通过在固定场景下采集视频，将固定长度的已知真实运动轨迹输入网络模型，将网络输出的预测值与真实值反复比对，不断调整出最优的单目标类运动轨迹预测参数模型和单目标类运动位置预测参数模型，在实际视频中使用每个目标类对应的单目标类运动轨迹预测参数模型预测轨迹和/或使用每个目标类对应的单目标运动位置预测参数模型预测某时刻后运动目标的位置坐标，本发明使用深度学习方法为在视频图像中预测运动目标位置和轨迹提供了一种新方法，运动目标可以包括行人、机动车、非机动车等。

附图说明

图1是本发明实施例提供的一种视频图像中运动目标轨迹预测模型训练方法与运动目标位置预测模型训练方法流程图。

图2是本发明实施例提供的训练运动目标轨迹模型与训练运动目标位置模型中使用的Dict1、Dict2与单目标类时序坐标序列集合示例图。

图3是本发明实施例提供的一种视频图像中运动目标轨迹预测方法流程图。

图4是本发明实施例提供的一种视频图像中运动目标位置预测方法流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

由于下述具体实施例中都涉及多目标跟踪,为方便理解,首先描述多目标跟踪技术:

多目标跟踪，即Multiple Object Tracking(MOT),也称为Multiple TargetTracking(MTT)，其主要任务是在给定一组图像序列中，找到该图像序列中运动的目标，并将不同帧中的运动目标一一对应,最后给出不同目标的运动轨迹，这些运动目标可以是任意的，例如行人、车辆、运动员、各种动物等。现有的目标跟踪算法分成两大类，第一类主要关注效果的提升，比如MDNet(Multi-Domain Network)，TCNN，另一类则比较关注跟踪速度，比如Staple，GOTURN。

由于本发明的创新点不在于多目标跟踪方法,所以本发明中多目标跟踪方法的选择基于实际多目标跟踪技术、硬件技术的发展，本发明现阶段采用的多目标跟踪方法可以为以上四种中的一种。

图1为本发明实施例提供的一种视频图像中运动目标轨迹预测模型训练方法流程图，参照图1，该模型训练方法主要包括如下步骤:

1)在单个固定场景下，收集一定数量的视频图像，并在每一张图像上，通过多目标跟踪，自动标注出每个运动目标中心点的位置以及生成每个运动目标的身份信息；

其中，所述固定场景包括室内或室外场景，所述在单个固定场景下是指训练模型所采用的视频图像是在一个固定的场景下收集的，视频图像拍摄的时间，例如白天黑夜，不作限定；所述运动目标包括行人、机动车、非机动车。所述身份信息是指标识出每个目标个体的ID，包括该目标的种类以及编号，例如Walker_1，其中"walker"指行人，"1"指该行人的编号。

下述步骤2～3用于生成视频图像中每个运动目标的时序坐标序列，需要说明的是，其中各项操作的顺序和/或操作方法可以被重新安排。参照图2的示意图可以更好理解Dict1、Dict2和单目标类时序坐标序列集合。

2)按一定采样频率选取视频帧，按照所在的帧号，抽取每帧图像中每个带有身份信息的运动目标的坐标，生成Dict1，其中，键值key为帧号，每个键值对应的数据value为该帧中每个运动目标的身份信息及此刻的位置坐标；

其中，所述采样频率可以根据实际情况选择,例如实际视频为25帧每秒,一般一秒钟视频图像变化并不大,可以每秒只取一帧图像，此时所述采样频率为1帧/秒，为了便于理解，本发明所有实施例中采样频率指定为1帧/秒；其中，若步骤1中的多目标跟踪图像来源于单个视频，该步骤所述帧号即为该图像在视频中的帧号，若图像来源于多个视频，该步骤所述帧号可以为该图像在视频中的帧号加时间戳，主要目的是为了防止后续抽取到的每个运动目标的轨迹混乱，当然所述时间戳可以为其它标识。

3)抽取Dict1的数据，生成Dict2，其中，key为每一个带有身份信息的目标，每个key对应的value为该个目标的时序坐标序列；

其中，所述目标的时序坐标序列是指该目标按照帧号顺序排列的坐标序列，时序是指按照时间先后的顺序。

4)根据实际需要检测的目标种类，分别从Dict2中根据身份信息筛选出符合条件的目标类，并且剔出长度小于时序神经网络模型输入数据长度L的序列，由此组成该目标类的时序坐标序列集合；

其中，所述时序神经网络模型是指可以用来分析时序数据的神经网络模型，包括单层或多层RNN(recurrent neural network)神经网络或单层或多层RNN神经网络的变形，RNN网络的变形包括LSTM、GRU等，由于LSTM网络模型训练效果优于RNN模型和RNN模型其它变形，故优选为LSTM网络模型，由于多层LSTM网络模型的训练效果优于单层，故进一步优选为多层LSTM网络模型；所述网络模型输入数据长度L，L可以为15、18、20或22等，根据训练出来的模型的检测效果，选择最优的L值。

5)生成多层LSTM网络的输入列表X和实际比对值列表Y：从步骤4生成序列集合中的某一条序列中依次抽取i～i+L-1位共L个连续时序坐标数据存入X列表，其中，设该条序列长度为L_n，则1≤i≤L_n-L-k+1，并抽取第i+L个数据存入Y列表，直到该条序列抽取完毕，按照相同的方法逐条抽取序列集合；

其中，对单条序列抽取过程在一个具体例子中，假设某条时序坐标序列的长度为23，网络模型输入长度为20，那么依次抽取1～20位、2～21位和3～22位存入X列表，抽取第21位、22位和23位存入Y列表。

6)将列表X作为多层LSTM网络输入，列表Y作为实际值，并根据目标所属类别，使用深度学习方法，将预测位置与实际位置进行反复比对，调整该目标类运动轨迹预测模型的参数，最终训练出该目标类的轨迹预测模型。

其中，所述目标类的轨迹预测模型有时不能一次训练至最佳，重复步骤1～6可增加新的视频图像来优化模型性能，所述目标类的轨迹预测模型在训练时的采样频率是指步骤2中的所述采样频率。

7)重复步骤4～6可训练得到不同的目标类轨迹预测模型，若只需要检测一种目标，那么不需要执行该步骤。

图3为本发明实施例提供的一种视频图像中运动目标轨迹预测方法流程图，参照图3，该轨迹预测方法主要包括如下步骤：

1)在与训练场景相同或相似的场景下，按训练轨迹预测模型时相同的采样频率实时读取摄像头视频数据，通过多目标跟踪，得到该帧图像中每个运动目标中心点的位置以及生成每个运动目标的身份信息；

其中，所述相似场景是指与采集训练视频数据的场景相似，具体表现在两个场景下运动目标的移动规律相似；其中，所述采样频率与训练预测模型时的采样频率相同，所述采样频率在本实施例中为1帧/秒。

2)对应不同身份信息的运动目标对应生成各自的时序坐标序列(若运动目标的时序坐标序列已经存在，则不需要再次生成)，将该帧得到的位置信息添加到所对应的时序坐标序列中；

3)当某个运动目标对应的时序坐标序列的长度大于训练所用网络的输入数据长度L，则可以根据要预测轨迹的目标种类，对应向训练得出的该目标类的轨迹模型输入最新的L位时序坐标序列，预测该目标在下一时刻图像中的坐标，将预测出的坐标作为预测下一帧坐标的一部分输入，即首先将预测出的坐标添加到该目标所对应的时序坐标序列中，然后将最新的L位时序坐标序列输入轨迹预测模型来预测该目标在下一时刻图像中的坐标，如此循环，可得到该目标在连续时刻的坐标预测，即得到该目标的轨迹预测；

其中，所述下一时刻与轨迹预测模型训练时的采样频率相关，本实施例中采样频率为1帧/秒，那么下一时刻为1秒后，设采样频率为f，下一时刻对应为1/f秒后，每个时刻对应为1/f秒。

图1为本发明实施例提供的一种视频图像中运动目标位置预测模型训练方法流程图，参照图1，该模型训练方法主要包括如下步骤：

需要说明的是：步骤1～4与上述实施例--一种视频图像中运动目标轨迹预测模型训练方法相同。

其中，本实施例中采样频率指定为1帧/秒。

4)根据实际需要检测的目标种类，分别从Dict2中根据身份信息筛选出符合条件的目标类，并且剔出长度小于多层LSTM网络模型输入数据长度L的序列，由此组成该目标类的时序坐标序列集合；

5)生成多层LSTM网络的输入列表X和实际比对值列表Y：从步骤4生成序列集合中的一条序列中依次抽取i～i+L-1(1≤i≤L_n-L-k+1)位共L个连续时序坐标数据存入X列表，其中设该条序列长度为L_n，并抽取第i+L-1+k个数据存入Y列表，直到该条序列抽取完毕，按照相同的方法逐条抽取序列集合；

其中，所述k为要预测时刻与输入时序中最后一个时刻间隔的时刻数，定义采样频率为f帧/秒，则每个时刻对应为1/f秒，Y列表中某数据与对应的X列表中的序列的最后时刻间隔k/f秒，本实施例中采样频率为1帧/秒，则每个时刻为1秒，若k取数值40，则Y列表中某数据与对应的X列表中的序列的最后时刻间隔40秒，k的选取直接影响训练得到的位置预测模型的预测结果，表现为位置预测模型预测k/f秒后运动目标在图像中的坐标，上述实施例——一种视频图像中运动目标轨迹预测模型训练方法实际上是k＝1的情况。所述k的最终取值根据实际场景的复杂度、采样频率、视频画面的覆盖范围、实际训练出来的预测模型的效果、用户需求等因素来决定，一般来说，若只考虑实际场景的复杂度这个因素，对于简单的场景，k可以取值100～200，对于复杂场景，k可以取值30～100。

其中，对单条序列抽取过程在一个具体例子中，假设某条时序坐标序列的长度为64，网络模型输入长度为20，k为40，那么依次抽取1～20位、2～21位、3～22位、4～23和5～24存入X列表，抽取第60位、61位、62位、63位和64位存入Y列表。

6)将列表X作为多层LSTM网络输入，列表Y作为实际值，并根据目标所属类别，使用深度学习方法，将预测位置与实际位置进行反复比对，调整该目标类位置预测模型的参数，最终训练出该目标类的位置预测模型。

其中，所述目标类的位置预测模型有时不能一次训练至最佳，重复步骤1～6可增加新的视频图像来优化模型性能。

7)重复步骤4～6可训练得到不同的目标类位置预测模型，若只需要检测一种目标，那么不需要执行该步骤。

图4为本发明实施例提供的一种视频图像中运动目标位置预测方法流程图，参照图4，该位置预测方法主要包括如下步骤：

需要说明的是：步骤1～2与上述实施例--一种视频图像中运动目标轨迹预测方法相同。

3)当某个运动目标对应的时序坐标序列的长度大于训练所用网络的输入数据长度L，则可以根据要预测位置的目标种类，对应向训练得出的该目标类的位置预测模型输入L位时序坐标序列，预测k个时刻后该目标在图像中的坐标。

其中，所述k为要预测时刻与输入时序中最后一个时刻间隔的时刻数，设采样频率为f，每个时刻对应为1/f秒，即位置预测模型可以预测k/f秒后，运动目标在图像中的位置。

本发明通过在固定场景下采集视频，将固定长度的已知真实运动轨迹输入网络模型，将网络输出的预测值与真实值反复比对，不断调整出最优的单目标类运动轨迹预测参数模型和单目标类运动位置预测参数模型，在实际视频中使用每个目标类对应的单目标类运动轨迹预测参数模型预测轨迹和/或使用每个目标类对应的单目标运动位置预测参数模型预测某时刻后运动目标的位置坐标。本发明在实际应用时，实际使用场景和训练场景需相同或相近，针对不同的使用场景事先收集视频加以训练，可以得到较好的预测效果。综上本发明为在视频图像中预测运动目标轨迹和预测运动目标位置提供一种新方法，该方法可以预测图像中每个被检测出来的运动目标，运动目标可以包括行人、机动车、非机动车等。

Claims

1.一种视频图像中运动目标位置预测模型训练方法，其特征在于：包括以下步骤：

步骤4，生成时序神经网络模型的输入轨迹列表X和实际比对值列表Y：从步骤3生成的时序坐标序列集合中的某一条时序坐标序列中依次抽取i～i+L-1位共L个连续时序坐标数据存入X列表，所述L为网络模型输入数据长度，所述i为时序坐标序列中的数据的排序号，其中,设该条时序坐标序列长度为L_n,则i的取值范围为：1≤i≤L_n-L-k+1,需要预测运动目标n秒后的位置，则k＝f*n，k≥1且为整数,同时抽取第i+L-1+k位数据存入Y列表，直到该条时序坐标序列抽取完毕，按照相同的方法逐条抽取时序坐标序列集合，直到时序坐标序列集合中的每条序列抽取完毕；

步骤5，将列表X作为时序神经网络模型输入，列表Y作为实际值，并根据目标所属类别，使用深度学习方法，将预测位置与实际位置进行反复比对，调整该目标类运动位置预测模型的参数，最终训练出该目标类的位置预测模型；

步骤6，重复步骤3～5能够训练得到不同的目标类位置预测模型，若只需要检测一种目标，则不需要执行该步骤。

2.根据权利要求1所述的一种视频图像中运动目标位置预测模型训练方法，其特征在于，所述时序神经网络模型为单层或多层RNN网络模型、单层或多层RNN网络模型的变形。

3.根据权利要求1所述的一种视频图像中运动目标位置预测模型训练方法，其特征在于，所述时序神经网络模型为多层LSTM网络模型。

4.根据权利要求1、2或3所述的一种视频图像中运动目标位置预测模型训练方法，其特征在于，当权利要求1、2或3所述的一种视频图像中运动目标位置预测模型训练方法中所述步骤4中所述k＝1，该运动目标位置预测模型训练方法训练得到的模型能够用于预测运动目标轨迹。

5.一种视频图像中运动目标位置预测方法，其特征在于，基于权利要求1-3任一项所述的一种视频图像中运动目标位置预测模型训练方法，所述视频图像中运动目标位置预测方法包括以下步骤：

步骤1，在与训练场景相同或相似的场景下，按与训练模型时相同的采样频率f帧/秒，读取一帧视频数据，通过多目标跟踪，得到该帧视频数据中每个运动目标中心点的位置以及生成每个运动目标的身份信息；

步骤2，对应不同身份信息的运动目标对应生成各自的时序坐标序列，若运动目标的时序坐标序列已经存在，则不需要再次生成,将该帧得到的位置信息添加到所对应的时序坐标序列中；

步骤3，当某个运动目标对应的时序坐标序列的长度大于训练所用网络的输入数据长度L，根据预测目标的种类，向权利要求1-3任一项运动目标轨迹训练方法训练得到的对应的目标类位置预测模型输入最新的L位时序坐标序列，模型输出结果为目标在n秒后的位置坐标；

步骤4，重复步骤3能够得到视频中其他运动目标的位置。

6.一种视频图像中运动目标轨迹预测方法，其特征在于，基于权利要求4所述的一种视频图像中运动目标位置预测模型训练方法训练得到的运动目标位置预测模型，将权利要求5所述的一种视频图像中运动目标位置预测方法中所述步骤3-4替换为以下步骤3和4：

步骤3，当某个运动目标对应的时序坐标序列的长度大于训练所用网络的输入数据长度L，根据预测目标的种类，向权利要求4所述方法训练得到的对应的目标类位置预测模型输入最新的L位时序坐标序列，模型输出结果为目标在下一时刻的坐标，将预测出的坐标添加到该目标的时序坐标序列中，再次向位置预测模型输入最新的L位时序坐标序列，模型输出结果为目标在下一时刻的坐标，如此循环，可得到该目标在连续多时刻的位置坐标预测，即得到该目标的轨迹预测，其中每个时刻为1/f秒；

步骤4，重复步骤3能够得到视频中其他运动目标的轨迹。