CN112614150A

CN112614150A - 基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质

Info

Publication number: CN112614150A
Application number: CN202011511434.XA
Authority: CN
Inventors: 郑伟诗; 陈柏高
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-06

Abstract

本发明公开了一种基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质，所述方法包括：选用两个基于神经网络的行人跟踪模型，使用有标签训练数据对其进行有监督训练；伪标签预测并进行离线插值优化；采用交互式半监督方法进行学习；最终预测和输出。本发明采用离线插值优化方法，利用了完整的视频信息，对行人轨迹断开的部分进行了插值修正，使得行人轨迹断开情况较少，受行人遮挡的影响较少。本发明还提出了一种利用双模型针对测试数据进行半监督自学习的方法，使得模型能逐步熟悉测试数据，在多轮迭代之后性能获得较大提升，面对模型未见过的场景，也能保持良好的表现。

Description

基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质

技术领域

本发明属于计算机视觉领域技术领域，具体涉及一种基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质。

背景技术

行人跟踪技术是以人为中心的视频分析技术的核心部分，是很多重要的下游应用的技术前提，如行人搜索、行为识别、事件分析等。一般来说，行人跟踪主要包含两个部分，第一个是对单帧图像进行行人检测，即对画面中的所有行人进行定位，输出每个行人的边界框；第二个部分是对同一个行人在连续相邻帧中的所有边界框进行数据关联，也就是使用行人重识别技术(Person Re-ID，person re-identification)，形成属于该特定行人的轨迹。

基于这两个部分的不同实现方法，现时的行人跟踪技术主要分为两派，一种是“两步走”方法，即先对画面进行行人检测，再提取行人局部图像特征进行Re-ID，另一种则是“一次性”方法，即使用多任务学习结构，使网络同时完成图像行人检测与Re-ID特征提取任务以获得更快的推理速度。

目前现存的行人跟踪技术检测的行人轨迹经常断开，经常出现中间数帧没有被检测出来的情况，这是因为真实场景中环境十分复杂，行人遮挡现象严重，行人往往只有半身、头部或腿部可见，加上行人检测技术本身对于光照、姿态变化的敏感性，而且目前现存的行人跟踪技术大多数没有针对真实复杂的场景中行人遮挡的现象进行优化，十分依赖行人检测部分提供的边界框结果，几乎均为在线型跟踪技术，即仅利用当前帧或过去帧的信息对行人进行检测与跟踪，输出当前帧结果，并没有利用后续视频信息对结果进行修正。

同时，几乎所有的行人跟踪技术，都是使用基础的迁移学习方法，先使用大量的数据集对模型进行预训练，然后对部分已标记的测试数据或真实工业数据进行简单的迁移学习，再对未标记的真实数据进行实际的业务预测，但是行人跟踪模型训练使用的数据与模型未见过的真实场景的业务数据之间往往存在着较大差异(如光照、背景、角度、行人特点等)，若使用简单的迁移学习，往往会导致性能表现不佳。几乎现存的所有行人跟踪技术都没有考虑到上述的“数据集适应”的问题，出现“在训练集上表现良好，但在测试集上表现较差”的情况。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质。

为了达到上述目的，本发明采用以下技术方案：

本发明提供了一种基于双模型交互式半监督学习的离线行人跟踪方法，包括下述步骤：

S1、选用两个基于神经网络的行人跟踪模型，使用有标签训练数据对其进行有监督训练，直至模型能基本拟合训练数据，得到在训练数据集上预测表现良好初始模型权重F_T1和F_T2；

S2、令迭代模型F_S1＝F_T1，F_S2＝F_T2；

S3、使用所述迭代模型F_S1和F_S2对无标签测试数据直接进行预测，同时使用离线插值优化方法对结果进行优化，得到所述迭代模型F_S1和F_S2的输出结果，即伪标签1和伪标签2；所述离线插值优化方法用于拼接断开的行人轨迹并使中间帧丢失的行人轨迹边界框得到恢复；

S4、采用交互式半监督方法进行学习：使用所述迭代模型F_S1输出的伪标签1作为无标签测试数据的训练标签，得到伪标记数据1，将所述伪标记数据1和有标签训练数据混合到一起，作为所述迭代模型F_S2的训练数据，对其进行再次训练；同理，反过来将所述迭代模型F_S2输出的伪标签2与无标签测试数据结合得到伪标记数据2，将所述伪标记数据2与有标签训练数据混合作为迭代模型F_S1的训练数据并对其训练；对所述F_S1和F_S2进行循环迭代训练；

S5、使用所述迭代后的模型F_S1和F_S2对无标签测试数据进行预测，即得最终的输出结果。

作为优选的技术方案，步骤S3中，所述离线插值优化方法的步骤为：

(1)判断有效轨迹，将有效的行人轨迹保留并参与插值优化过程；

(2)判断每个有效的行人轨迹的断开连接处前后帧数间隔长度是否满足插值优化条件，并进行插值优化过程。

作为优选的技术方案，步骤S3中，所述离线插值优化方法中，判断有效轨迹的具体为：

对于行人轨迹，当其轨迹总帧数N大于设定的轨迹最少帧数阈值N_min，且该轨迹中满足“置信度高于最低置信阈值thr_conf”的帧数

N_t＝|{conf_t|conf_t＞thr_conf,t＝1,2,3,...,N}|

大于最少合格帧数阈值N_val时，才会被认为是有效轨迹，否则会被直接忽略。

作为优选的技术方案，步骤S3中，所述离线插值优化方法中，插值优化条件具体为：

对于所述每个有效的行人轨迹的断开连接处，定义断开连接处前一段连续帧的最后一帧帧号为f_t，断开连接处后一段连续帧的第一帧帧号为f_t+1，判断丢失的帧数(f_t+1-f_t)是否满足下式：

1＜(f_t+1-f_t)＜δ_max，

其中δ_max为设定的最大间隔长度，若满足上式，则认为此断开连接处满足插值优化条件，可进行插值；若不满足上式，则认为此断开连接处不满足插值优化条件，不进行插值。

作为优选的技术方案，步骤S3中，所述离线插值优化方法中，插值优化过程用于补充断开连接处丢失的行人边框坐标，对于每一帧f，f_t＜f＜f_t+1，其对应的行人边界框b的计算公式如下：

其中，b＝[x^min,y^min,x^max,y^max]，x^min,y^min,x^max,y^max分别为行人边界框在x、y坐标轴上的最小值和最大值；b_t+1为断开连接处后一段连续帧的第一帧所对应的行人边界框；b_t为断开连接处前一段连续帧的最后一帧所对应的行人边界框；

所述离线插值优化过程主要用于提高F_S1和F_S2的输出质量以及半监督学习过程的鲁棒性。

作为优选的技术方案，步骤S4中，所述对F_S1和F_S2进行循环迭代训练指重复多次利用F_S1和F_S2的输出结果互相指导对方的学习训练过程，令模型能各取所长互相提升。

作为优选的技术方案，步骤S5中，所述最终的输出结果可采用双模型中的其中一个结果作为最终预测。

本发明还提供了一种基于双模型交互式半监督学习的离线行人跟踪***，包括模型预训练模块、伪标签预测模块、交互式半监督学习模块与最终预测和输出模块；

所述模型预训练模块利用有标签训练数据对选用的两个基于神经网络的行人跟踪模型进行有监督训练，直至模型能基本拟合训练数据，得到在训练数据集上预测表现良好初始模型权重F_T1、F_T2，以及迭代模型F_S1、F_S2；

所述伪标签预测模块利用迭代模型F_S1和F_S2对无标签测试数据进行预测并使用离线插值优化方法进行优化，得到所述迭代模型F_S1和F_S2的输出结果，即伪标签1和伪标签2；

所述交互式半监督学习模块用于执行交互式半监督学习方法，具体为：使用所述迭代模型F_S1输出的伪标签1作为无标签测试数据的训练标签，得到伪标记数据1，将所述伪标记数据1和有标签训练数据混合到一起，作为所述迭代模型F_S2的训练数据，对其进行再次训练；同理，反过来将所述迭代模型F_S2输出的伪标签2与无标签测试数据结合得到伪标记数据2，将其再与所述有标签训练数据混合作为迭代模型F_S1的训练数据并对其训练；对所述F_S1和F_S2进行循环迭代训练；

最终预测和输出模块：使用所述迭代后的模型F_S1和F_S2对无标签测试数据进行预测，得到最终的输出结果。

本发明还提供了一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现所述的基于双模型交互式半监督学习的离线行人跟踪方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用了离线插值优化方法，对丢失边界框的帧进行了插值补充的优化处理，解决了现有技术普遍为在线型，仅依赖当前帧和过去帧的信息，无法利用后续信息对轨迹进行修正的问题，从而达到了行人轨迹断开情况较少，受行人遮挡的影响较少的技术效果。

(2)本发明采用半监督学习方法，对未见过的场景数据进行了多轮的半监督学习，对场景模式进行了部分的掌握，解决了现有技术使用简单的迁移学习，最终预测时始终是面对着陌生的场景进行预测，效果一般都不太稳定，测试时性能会下降较多的问题，从而达到了面对模型未见过的场景，也能保持良好的表现，输出更好的结果的技术效果。

附图说明

图1是本发明实施例提供的一种基于双模型交互式半监督学习的离线行人跟踪方法的流程图；

图2是本发明实施例所述基于双模型交互式半监督学习的离线行人跟踪***的结构示意图；

图3是本发明实施例所述存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1所示，本发明提供的一种基于双模型交互式半监督学习的离线行人跟踪方法，包括以下训练过程：

S1、选用两个性能较好的基于神经网络的行人跟踪模型，使用有标签训练数据对其进行有监督训练，直至模型能基本拟合训练数据，得到在训练数据集上预测表现良好初始模型权重F_T1和F_T2；

S2、令迭代模型F_S1＝F_T1，F_S2＝F_T2；

S4、交互式半监督学习方法：使用所述迭代模型F_S1输出的伪标签1作为无标签测试数据的训练标签，得到伪标记数据1，将所述伪标记数据1和有标签训练数据混合到一起，作为所述迭代模型F_S2的训练数据，对其进行再次训练；同理，反过来将所述迭代模型F_S2输出的伪标签2与无标签测试数据结合得到伪标记数据2，将所述伪标记数据2与有标签训练数据混合作为迭代模型F_S1的训练数据并对其训练；重复3-4次所述F_S1和F_S2的输出结果互相指导对方的学习训练过程，进行循环迭代训练，以提高F_S1和F_S2的输出质量以及半监督学习过程的鲁棒性；

S5、使用所述迭代后的模型F_S1和F_S2对无标签测试数据进行预测，最终的输出结果可采用双模型中的其中一个结果作为最终预测，或采用两个模型的结果继续融合后的结果作为最终预测。

步骤S3所述的离线插值优化方法，可以将断开的行人轨迹拼接起来，中间帧丢失的边界框可以得到恢复，这能改善由于行人遮挡或是检测算法不稳定带来的轨迹断开现象，同时，也将在交互式半监督学习的训练方法中发挥重要的作用，有效提高半监督学习方法的鲁棒性。离线插值优化方法具体步骤为：

(1)判断有效轨迹。对于行人轨迹，当其轨迹总帧数N大于设定的轨迹最少帧数阈值N_min，且该轨迹中满足“置信度高于最低置信阈值thr_conf”的帧数

N_t＝|{conf_t|conf_t＞thr_conf,t＝1,2,3,...,N}|

大于最少合格帧数阈值N_val时，才会被认为是有效轨迹，否则会被直接忽略；其中，轨迹最少帧数阈值N_min一般设置为视频的帧率，若视频为每秒30帧，则N_min＝30；最少合格帧数阈值N_val一般设置为5；

(2)将有效的行人轨迹保留并参与插值优化过程；

(3)判断每个有效的行人轨迹的断开连接处前后帧数间隔长度是否满足插值优化条件。对于所述每个有效的行人轨迹的断开连接处，定义断开连接处前一段连续帧的最后一帧帧号为f_t，断开连接处后一段连续帧的第一帧帧号为f_t+1，判断丢失的帧数(f_t+1-f_t)是否满足下式：

1＜(f_t+1-f_t)＜δ_max，

其中δ_max为设定的最大间隔长度，一般设置为N_min/3，即当视频帧率为30时，δ_max＝10；

若满足上式，则认为此断开连接处满足插值优化条件，可进行插值；若不满足上式，则认为此断开连接处不满足插值优化条件，不进行插值；

(4)插值优化过程。对于满足所述插值优化条件的断开连接处，插值优化过程会补充其丢失的行人边框坐标，对于每一帧f(f_t＜f＜f_t+1)，其对应的行人边界框b的计算公式如下：

其中，b＝[x^min,y^min,x^max,y^max]，x^min,y^min,x^max,y^max分别为行人边界框在x、y坐标轴上的最小值和最大值；b_t+1为断开连接处后一段连续帧的第一帧所对应的行人边界框；b_t为断开连接处前一段连续帧的最后一帧所对应的行人边界框。

通过步骤S1，我们得到了两个稍微可靠的原始模型，其初次对无标签数据输出的伪标签是有一定的参考价值的，同时，两个模型必定在不同的视频上表现各有优劣，通过互相指导的方式，可以让模型更好地学习到对方的优点，且由于训练数据的加入，模型不会容易“学坏”，最后，由于两个迭代模型的输出结果都使用了插帧优化技术，可以保证其性能往越来越好的方向发展，提高了半监督学习的鲁棒性。经过数轮迭代之后，两个模型都将对比原始模型有较大的提升。

进一步地，本发明的双模型交互式半监督学习方法还可扩展为多模型半监督学习方法：在所述方法的第一个步骤训练初始模型时，可采用三个甚至多个各有优劣的行人跟踪模型用于初始化；后续的交互式半监督学习指导训练过程可随机对多个模型输出的伪标签进行分配。

如图2所示，本实施例还提供了一种基于双模型交互式半监督学习的离线行人跟踪***，包括模型预训练模块、伪标签预测模块、交互式半监督学习模块和最终预测和输出模块；

在此需要说明的是，上述实施例提供的***仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，该***是应用于上述实施例的基于双模型交互式半监督学习的离线行人跟踪方法。

如图3所示，本实施例还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现基于双模型交互式半监督学习的离线行人跟踪方法，具体为：

选用两个性能较好的基于神经网络的行人跟踪模型，使用有标签训练数据对其进行有监督训练，直至模型能基本拟合训练数据，得到在训练数据集上预测表现良好初始模型权重F_T1和F_T2；

令迭代模型F_SI＝F_T1，F_S2＝F_T2；

使用所述迭代模型F_S1和F_S2对无标签测试数据直接进行预测，同时使用离线插值优化方法对结果进行优化，得到所述迭代模型F_S1和F_S2的输出结果，即伪标签1和伪标签2；所述离线插值优化方法用于拼接断开的行人轨迹并使中间帧丢失的行人轨迹边界框得到恢复；

采用交互式半监督方法进行学习：使用所述迭代模型F_S1输出的伪标签1作为无标签测试数据的训练标签，得到伪标记数据1，将所述伪标记数据1和有标签训练数据混合到一起，作为所述迭代模型F_S2的训练数据，对其进行再次训练；同理，反过来将所述迭代模型F_S2输出的伪标签2与无标签测试数据结合得到伪标记数据2，将所述伪标记数据2与有标签训练数据混合作为迭代模型F_S1的训练数据并对其训练；对所述F_S1和F_S2进行循环迭代训练；

使用所述迭代后的模型F_S1和F_S2对无标签测试数据进行预测，即得最终的输出结果。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于双模型交互式半监督学习的离线行人跟踪方法，其特征在于，包括下述步骤：

选用两个基于神经网络的行人跟踪模型，使用有标签训练数据对其进行有监督训练，直至模型能基本拟合训练数据，得到在训练数据集上预测表现良好初始模型权重F_T1和F_T2；

令迭代模型F_S1＝F_T1，F_S2＝F_T2；

2.根据权利要求1所述的一种基于双模型交互式半监督学习的离线行人跟踪方法，其特征在于，所述离线插值优化方法的步骤为：

判断有效轨迹，将有效的行人轨迹保留并参与插值优化过程；

判断每个有效的行人轨迹的断开连接处前后帧数间隔长度是否满足插值优化条件，并进行插值优化过程。

3.根据权利要求1或2所述的一种基于双模型交互式半监督学习的离线行人跟踪方法，其特征在于，所述离线插值优化方法中，判断有效轨迹的具体为：

N_t＝|{conf_t|conf_t＞thrr_conf，t＝1，2，3，...，N}|

4.根据权利要求1或2所述的一种基于双模型交互式半监督学习的离线行人跟踪方法，其特征在于，所述离线插值优化方法中，插值优化条件具体为：

1＜(f_t+1-f_t)＜δ_max，

5.根据权利要求1或2所述的一种基于双模型交互式半监督学习的离线行人跟踪方法，其特征在于，所述离线插值优化方法中，插值优化过程用于补充断开连接处丢失的行人边框坐标，对于每一帧f，f_t＜f＜f_t+1，其对应的行人边界框b的计算公式如下：

其中，b＝[x^min，y^min，x^max，y^max]，x^min，y^min，x^max，y^max分别为行人边界框在x、y坐标轴上的最小值和最大值；b_t+1为断开连接处后一段连续帧的第一帧所对应的行人边界框；b_t为断开连接处前一段连续帧的最后一帧所对应的行人边界框；

所述离线插值优化过程用于提高F_S1和F_S2的输出质量以及半监督学习过程的鲁棒性。

6.根据权利要求1所述的一种基于双模型交互式半监督学习的离线行人跟踪方法，其特征在于，所述对F_S1和F_S2进行循环迭代训练指重复多次利用F_S1和F_S2的输出结果互相指导对方的学习训练过程，令模型能各取所长互相提升。

7.根据权利要求1所述的一种基于双模型交互式半监督学习的离线行人跟踪方法，其特征在于，所述最终的输出结果采用双模型中的其中一个结果作为最终预测。

8.一种基于双模型交互式半监督学习的离线行人跟踪***，其特征在于，应用于权利要求1-7中任一项所述的基于双模型交互式半监督学习的离线行人跟踪方法，包括模型预训练模块、伪标签预测模块、交互式半监督学习模块和最终预测和输出模块；

9.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的基于双模型交互式半监督学习的离线行人跟踪方法。