CN112614150A - 基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质 - Google Patents

基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质 Download PDF

Info

Publication number
CN112614150A
CN112614150A CN202011511434.XA CN202011511434A CN112614150A CN 112614150 A CN112614150 A CN 112614150A CN 202011511434 A CN202011511434 A CN 202011511434A CN 112614150 A CN112614150 A CN 112614150A
Authority
CN
China
Prior art keywords
pedestrian
model
training
label
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011511434.XA
Other languages
English (en)
Inventor
郑伟诗
陈柏高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011511434.XA priority Critical patent/CN112614150A/zh
Publication of CN112614150A publication Critical patent/CN112614150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质,所述方法包括:选用两个基于神经网络的行人跟踪模型,使用有标签训练数据对其进行有监督训练;伪标签预测并进行离线插值优化;采用交互式半监督方法进行学习;最终预测和输出。本发明采用离线插值优化方法,利用了完整的视频信息,对行人轨迹断开的部分进行了插值修正,使得行人轨迹断开情况较少,受行人遮挡的影响较少。本发明还提出了一种利用双模型针对测试数据进行半监督自学习的方法,使得模型能逐步熟悉测试数据,在多轮迭代之后性能获得较大提升,面对模型未见过的场景,也能保持良好的表现。

Description

基于双模型交互式半监督学习的离线行人跟踪方法、***及 存储介质
技术领域
本发明属于计算机视觉领域技术领域,具体涉及一种基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质。
背景技术
行人跟踪技术是以人为中心的视频分析技术的核心部分,是很多重要的下游应用的技术前提,如行人搜索、行为识别、事件分析等。一般来说,行人跟踪主要包含两个部分,第一个是对单帧图像进行行人检测,即对画面中的所有行人进行定位,输出每个行人的边界框;第二个部分是对同一个行人在连续相邻帧中的所有边界框进行数据关联,也就是使用行人重识别技术(Person Re-ID,person re-identification),形成属于该特定行人的轨迹。
基于这两个部分的不同实现方法,现时的行人跟踪技术主要分为两派,一种是“两步走”方法,即先对画面进行行人检测,再提取行人局部图像特征进行Re-ID,另一种则是“一次性”方法,即使用多任务学习结构,使网络同时完成图像行人检测与Re-ID特征提取任务以获得更快的推理速度。
目前现存的行人跟踪技术检测的行人轨迹经常断开,经常出现中间数帧没有被检测出来的情况,这是因为真实场景中环境十分复杂,行人遮挡现象严重,行人往往只有半身、头部或腿部可见,加上行人检测技术本身对于光照、姿态变化的敏感性,而且目前现存的行人跟踪技术大多数没有针对真实复杂的场景中行人遮挡的现象进行优化,十分依赖行人检测部分提供的边界框结果,几乎均为在线型跟踪技术,即仅利用当前帧或过去帧的信息对行人进行检测与跟踪,输出当前帧结果,并没有利用后续视频信息对结果进行修正。
同时,几乎所有的行人跟踪技术,都是使用基础的迁移学习方法,先使用大量的数据集对模型进行预训练,然后对部分已标记的测试数据或真实工业数据进行简单的迁移学习,再对未标记的真实数据进行实际的业务预测,但是行人跟踪模型训练使用的数据与模型未见过的真实场景的业务数据之间往往存在着较大差异(如光照、背景、角度、行人特点等),若使用简单的迁移学习,往往会导致性能表现不佳。几乎现存的所有行人跟踪技术都没有考虑到上述的“数据集适应”的问题,出现“在训练集上表现良好,但在测试集上表现较差”的情况。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质。
为了达到上述目的,本发明采用以下技术方案:
本发明提供了一种基于双模型交互式半监督学习的离线行人跟踪方法,包括下述步骤:
S1、选用两个基于神经网络的行人跟踪模型,使用有标签训练数据对其进行有监督训练,直至模型能基本拟合训练数据,得到在训练数据集上预测表现良好初始模型权重FT1和FT2
S2、令迭代模型FS1=FT1,FS2=FT2
S3、使用所述迭代模型FS1和FS2对无标签测试数据直接进行预测,同时使用离线插值优化方法对结果进行优化,得到所述迭代模型FS1和FS2的输出结果,即伪标签1和伪标签2;所述离线插值优化方法用于拼接断开的行人轨迹并使中间帧丢失的行人轨迹边界框得到恢复;
S4、采用交互式半监督方法进行学习:使用所述迭代模型FS1输出的伪标签1作为无标签测试数据的训练标签,得到伪标记数据1,将所述伪标记数据1和有标签训练数据混合到一起,作为所述迭代模型FS2的训练数据,对其进行再次训练;同理,反过来将所述迭代模型FS2输出的伪标签2与无标签测试数据结合得到伪标记数据2,将所述伪标记数据2与有标签训练数据混合作为迭代模型FS1的训练数据并对其训练;对所述FS1和FS2进行循环迭代训练;
S5、使用所述迭代后的模型FS1和FS2对无标签测试数据进行预测,即得最终的输出结果。
作为优选的技术方案,步骤S3中,所述离线插值优化方法的步骤为:
(1)判断有效轨迹,将有效的行人轨迹保留并参与插值优化过程;
(2)判断每个有效的行人轨迹的断开连接处前后帧数间隔长度是否满足插值优化条件,并进行插值优化过程。
作为优选的技术方案,步骤S3中,所述离线插值优化方法中,判断有效轨迹的具体为:
对于行人轨迹,当其轨迹总帧数N大于设定的轨迹最少帧数阈值Nmin,且该轨迹中满足“置信度高于最低置信阈值thrconf”的帧数
Nt=|{conft|conft>thrconf,t=1,2,3,...,N}|
大于最少合格帧数阈值Nval时,才会被认为是有效轨迹,否则会被直接忽略。
作为优选的技术方案,步骤S3中,所述离线插值优化方法中,插值优化条件具体为:
对于所述每个有效的行人轨迹的断开连接处,定义断开连接处前一段连续帧的最后一帧帧号为ft,断开连接处后一段连续帧的第一帧帧号为ft+1,判断丢失的帧数(ft+1-ft)是否满足下式:
1<(ft+1-ft)<δmax
其中δmax为设定的最大间隔长度,若满足上式,则认为此断开连接处满足插值优化条件,可进行插值;若不满足上式,则认为此断开连接处不满足插值优化条件,不进行插值。
作为优选的技术方案,步骤S3中,所述离线插值优化方法中,插值优化过程用于补充断开连接处丢失的行人边框坐标,对于每一帧f,ft<f<ft+1,其对应的行人边界框b的计算公式如下:
Figure BDA0002846510470000041
其中,b=[xmin,ymin,xmax,ymax],xmin,ymin,xmax,ymax分别为行人边界框在x、y坐标轴上的最小值和最大值;bt+1为断开连接处后一段连续帧的第一帧所对应的行人边界框;bt为断开连接处前一段连续帧的最后一帧所对应的行人边界框;
所述离线插值优化过程主要用于提高FS1和FS2的输出质量以及半监督学习过程的鲁棒性。
作为优选的技术方案,步骤S4中,所述对FS1和FS2进行循环迭代训练指重复多次利用FS1和FS2的输出结果互相指导对方的学习训练过程,令模型能各取所长互相提升。
作为优选的技术方案,步骤S5中,所述最终的输出结果可采用双模型中的其中一个结果作为最终预测。
本发明还提供了一种基于双模型交互式半监督学习的离线行人跟踪***,包括模型预训练模块、伪标签预测模块、交互式半监督学习模块与最终预测和输出模块;
所述模型预训练模块利用有标签训练数据对选用的两个基于神经网络的行人跟踪模型进行有监督训练,直至模型能基本拟合训练数据,得到在训练数据集上预测表现良好初始模型权重FT1、FT2,以及迭代模型FS1、FS2
所述伪标签预测模块利用迭代模型FS1和FS2对无标签测试数据进行预测并使用离线插值优化方法进行优化,得到所述迭代模型FS1和FS2的输出结果,即伪标签1和伪标签2;
所述交互式半监督学习模块用于执行交互式半监督学习方法,具体为:使用所述迭代模型FS1输出的伪标签1作为无标签测试数据的训练标签,得到伪标记数据1,将所述伪标记数据1和有标签训练数据混合到一起,作为所述迭代模型FS2的训练数据,对其进行再次训练;同理,反过来将所述迭代模型FS2输出的伪标签2与无标签测试数据结合得到伪标记数据2,将其再与所述有标签训练数据混合作为迭代模型FS1的训练数据并对其训练;对所述FS1和FS2进行循环迭代训练;
最终预测和输出模块:使用所述迭代后的模型FS1和FS2对无标签测试数据进行预测,得到最终的输出结果。
本发明还提供了一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现所述的基于双模型交互式半监督学习的离线行人跟踪方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明采用了离线插值优化方法,对丢失边界框的帧进行了插值补充的优化处理,解决了现有技术普遍为在线型,仅依赖当前帧和过去帧的信息,无法利用后续信息对轨迹进行修正的问题,从而达到了行人轨迹断开情况较少,受行人遮挡的影响较少的技术效果。
(2)本发明采用半监督学习方法,对未见过的场景数据进行了多轮的半监督学习,对场景模式进行了部分的掌握,解决了现有技术使用简单的迁移学习,最终预测时始终是面对着陌生的场景进行预测,效果一般都不太稳定,测试时性能会下降较多的问题,从而达到了面对模型未见过的场景,也能保持良好的表现,输出更好的结果的技术效果。
附图说明
图1是本发明实施例提供的一种基于双模型交互式半监督学习的离线行人跟踪方法的流程图;
图2是本发明实施例所述基于双模型交互式半监督学习的离线行人跟踪***的结构示意图;
图3是本发明实施例所述存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本发明提供的一种基于双模型交互式半监督学习的离线行人跟踪方法,包括以下训练过程:
S1、选用两个性能较好的基于神经网络的行人跟踪模型,使用有标签训练数据对其进行有监督训练,直至模型能基本拟合训练数据,得到在训练数据集上预测表现良好初始模型权重FT1和FT2
S2、令迭代模型FS1=FT1,FS2=FT2
S3、使用所述迭代模型FS1和FS2对无标签测试数据直接进行预测,同时使用离线插值优化方法对结果进行优化,得到所述迭代模型FS1和FS2的输出结果,即伪标签1和伪标签2;所述离线插值优化方法用于拼接断开的行人轨迹并使中间帧丢失的行人轨迹边界框得到恢复;
S4、交互式半监督学习方法:使用所述迭代模型FS1输出的伪标签1作为无标签测试数据的训练标签,得到伪标记数据1,将所述伪标记数据1和有标签训练数据混合到一起,作为所述迭代模型FS2的训练数据,对其进行再次训练;同理,反过来将所述迭代模型FS2输出的伪标签2与无标签测试数据结合得到伪标记数据2,将所述伪标记数据2与有标签训练数据混合作为迭代模型FS1的训练数据并对其训练;重复3-4次所述FS1和FS2的输出结果互相指导对方的学习训练过程,进行循环迭代训练,以提高FS1和FS2的输出质量以及半监督学习过程的鲁棒性;
S5、使用所述迭代后的模型FS1和FS2对无标签测试数据进行预测,最终的输出结果可采用双模型中的其中一个结果作为最终预测,或采用两个模型的结果继续融合后的结果作为最终预测。
步骤S3所述的离线插值优化方法,可以将断开的行人轨迹拼接起来,中间帧丢失的边界框可以得到恢复,这能改善由于行人遮挡或是检测算法不稳定带来的轨迹断开现象,同时,也将在交互式半监督学习的训练方法中发挥重要的作用,有效提高半监督学习方法的鲁棒性。离线插值优化方法具体步骤为:
(1)判断有效轨迹。对于行人轨迹,当其轨迹总帧数N大于设定的轨迹最少帧数阈值Nmin,且该轨迹中满足“置信度高于最低置信阈值thrconf”的帧数
Nt=|{conft|conft>thrconf,t=1,2,3,...,N}|
大于最少合格帧数阈值Nval时,才会被认为是有效轨迹,否则会被直接忽略;其中,轨迹最少帧数阈值Nmin一般设置为视频的帧率,若视频为每秒30帧,则Nmin=30;最少合格帧数阈值Nval一般设置为5;
(2)将有效的行人轨迹保留并参与插值优化过程;
(3)判断每个有效的行人轨迹的断开连接处前后帧数间隔长度是否满足插值优化条件。对于所述每个有效的行人轨迹的断开连接处,定义断开连接处前一段连续帧的最后一帧帧号为ft,断开连接处后一段连续帧的第一帧帧号为ft+1,判断丢失的帧数(ft+1-ft)是否满足下式:
1<(ft+1-ft)<δmax
其中δmax为设定的最大间隔长度,一般设置为Nmin/3,即当视频帧率为30时,δmax=10;
若满足上式,则认为此断开连接处满足插值优化条件,可进行插值;若不满足上式,则认为此断开连接处不满足插值优化条件,不进行插值;
(4)插值优化过程。对于满足所述插值优化条件的断开连接处,插值优化过程会补充其丢失的行人边框坐标,对于每一帧f(ft<f<ft+1),其对应的行人边界框b的计算公式如下:
Figure BDA0002846510470000081
其中,b=[xmin,ymin,xmax,ymax],xmin,ymin,xmax,ymax分别为行人边界框在x、y坐标轴上的最小值和最大值;bt+1为断开连接处后一段连续帧的第一帧所对应的行人边界框;bt为断开连接处前一段连续帧的最后一帧所对应的行人边界框。
通过步骤S1,我们得到了两个稍微可靠的原始模型,其初次对无标签数据输出的伪标签是有一定的参考价值的,同时,两个模型必定在不同的视频上表现各有优劣,通过互相指导的方式,可以让模型更好地学习到对方的优点,且由于训练数据的加入,模型不会容易“学坏”,最后,由于两个迭代模型的输出结果都使用了插帧优化技术,可以保证其性能往越来越好的方向发展,提高了半监督学习的鲁棒性。经过数轮迭代之后,两个模型都将对比原始模型有较大的提升。
进一步地,本发明的双模型交互式半监督学习方法还可扩展为多模型半监督学习方法:在所述方法的第一个步骤训练初始模型时,可采用三个甚至多个各有优劣的行人跟踪模型用于初始化;后续的交互式半监督学习指导训练过程可随机对多个模型输出的伪标签进行分配。
如图2所示,本实施例还提供了一种基于双模型交互式半监督学习的离线行人跟踪***,包括模型预训练模块、伪标签预测模块、交互式半监督学习模块和最终预测和输出模块;
所述模型预训练模块利用有标签训练数据对选用的两个基于神经网络的行人跟踪模型进行有监督训练,直至模型能基本拟合训练数据,得到在训练数据集上预测表现良好初始模型权重FT1、FT2,以及迭代模型FS1、FS2
所述伪标签预测模块利用迭代模型FS1和FS2对无标签测试数据进行预测并使用离线插值优化方法进行优化,得到所述迭代模型FS1和FS2的输出结果,即伪标签1和伪标签2;
所述交互式半监督学习模块用于执行交互式半监督学习方法,具体为:使用所述迭代模型FS1输出的伪标签1作为无标签测试数据的训练标签,得到伪标记数据1,将所述伪标记数据1和有标签训练数据混合到一起,作为所述迭代模型FS2的训练数据,对其进行再次训练;同理,反过来将所述迭代模型FS2输出的伪标签2与无标签测试数据结合得到伪标记数据2,将其再与所述有标签训练数据混合作为迭代模型FS1的训练数据并对其训练;对所述FS1和FS2进行循环迭代训练;
最终预测和输出模块:使用所述迭代后的模型FS1和FS2对无标签测试数据进行预测,得到最终的输出结果。
在此需要说明的是,上述实施例提供的***仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,该***是应用于上述实施例的基于双模型交互式半监督学习的离线行人跟踪方法。
如图3所示,本实施例还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现基于双模型交互式半监督学习的离线行人跟踪方法,具体为:
选用两个性能较好的基于神经网络的行人跟踪模型,使用有标签训练数据对其进行有监督训练,直至模型能基本拟合训练数据,得到在训练数据集上预测表现良好初始模型权重FT1和FT2
令迭代模型FSI=FT1,FS2=FT2
使用所述迭代模型FS1和FS2对无标签测试数据直接进行预测,同时使用离线插值优化方法对结果进行优化,得到所述迭代模型FS1和FS2的输出结果,即伪标签1和伪标签2;所述离线插值优化方法用于拼接断开的行人轨迹并使中间帧丢失的行人轨迹边界框得到恢复;
采用交互式半监督方法进行学习:使用所述迭代模型FS1输出的伪标签1作为无标签测试数据的训练标签,得到伪标记数据1,将所述伪标记数据1和有标签训练数据混合到一起,作为所述迭代模型FS2的训练数据,对其进行再次训练;同理,反过来将所述迭代模型FS2输出的伪标签2与无标签测试数据结合得到伪标记数据2,将所述伪标记数据2与有标签训练数据混合作为迭代模型FS1的训练数据并对其训练;对所述FS1和FS2进行循环迭代训练;
使用所述迭代后的模型FS1和FS2对无标签测试数据进行预测,即得最终的输出结果。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于双模型交互式半监督学习的离线行人跟踪方法,其特征在于,包括下述步骤:
选用两个基于神经网络的行人跟踪模型,使用有标签训练数据对其进行有监督训练,直至模型能基本拟合训练数据,得到在训练数据集上预测表现良好初始模型权重FT1和FT2
令迭代模型FS1=FT1,FS2=FT2
使用所述迭代模型FS1和FS2对无标签测试数据直接进行预测,同时使用离线插值优化方法对结果进行优化,得到所述迭代模型FS1和FS2的输出结果,即伪标签1和伪标签2;所述离线插值优化方法用于拼接断开的行人轨迹并使中间帧丢失的行人轨迹边界框得到恢复;
采用交互式半监督方法进行学习:使用所述迭代模型FS1输出的伪标签1作为无标签测试数据的训练标签,得到伪标记数据1,将所述伪标记数据1和有标签训练数据混合到一起,作为所述迭代模型FS2的训练数据,对其进行再次训练;同理,反过来将所述迭代模型FS2输出的伪标签2与无标签测试数据结合得到伪标记数据2,将所述伪标记数据2与有标签训练数据混合作为迭代模型FS1的训练数据并对其训练;对所述FS1和FS2进行循环迭代训练;
使用所述迭代后的模型FS1和FS2对无标签测试数据进行预测,即得最终的输出结果。
2.根据权利要求1所述的一种基于双模型交互式半监督学习的离线行人跟踪方法,其特征在于,所述离线插值优化方法的步骤为:
判断有效轨迹,将有效的行人轨迹保留并参与插值优化过程;
判断每个有效的行人轨迹的断开连接处前后帧数间隔长度是否满足插值优化条件,并进行插值优化过程。
3.根据权利要求1或2所述的一种基于双模型交互式半监督学习的离线行人跟踪方法,其特征在于,所述离线插值优化方法中,判断有效轨迹的具体为:
对于行人轨迹,当其轨迹总帧数N大于设定的轨迹最少帧数阈值Nmin,且该轨迹中满足“置信度高于最低置信阈值thrconf”的帧数
Nt=|{conft|conft>thrrconf,t=1,2,3,...,N}|
大于最少合格帧数阈值Nval时,才会被认为是有效轨迹,否则会被直接忽略。
4.根据权利要求1或2所述的一种基于双模型交互式半监督学习的离线行人跟踪方法,其特征在于,所述离线插值优化方法中,插值优化条件具体为:
对于所述每个有效的行人轨迹的断开连接处,定义断开连接处前一段连续帧的最后一帧帧号为ft,断开连接处后一段连续帧的第一帧帧号为ft+1,判断丢失的帧数(ft+1-ft)是否满足下式:
1<(ft+1-ft)<δmax
其中δmax为设定的最大间隔长度,若满足上式,则认为此断开连接处满足插值优化条件,可进行插值;若不满足上式,则认为此断开连接处不满足插值优化条件,不进行插值。
5.根据权利要求1或2所述的一种基于双模型交互式半监督学习的离线行人跟踪方法,其特征在于,所述离线插值优化方法中,插值优化过程用于补充断开连接处丢失的行人边框坐标,对于每一帧f,ft<f<ft+1,其对应的行人边界框b的计算公式如下:
Figure FDA0002846510460000021
其中,b=[xmin,ymin,xmax,ymax],xmin,ymin,xmax,ymax分别为行人边界框在x、y坐标轴上的最小值和最大值;bt+1为断开连接处后一段连续帧的第一帧所对应的行人边界框;bt为断开连接处前一段连续帧的最后一帧所对应的行人边界框;
所述离线插值优化过程用于提高FS1和FS2的输出质量以及半监督学习过程的鲁棒性。
6.根据权利要求1所述的一种基于双模型交互式半监督学习的离线行人跟踪方法,其特征在于,所述对FS1和FS2进行循环迭代训练指重复多次利用FS1和FS2的输出结果互相指导对方的学习训练过程,令模型能各取所长互相提升。
7.根据权利要求1所述的一种基于双模型交互式半监督学习的离线行人跟踪方法,其特征在于,所述最终的输出结果采用双模型中的其中一个结果作为最终预测。
8.一种基于双模型交互式半监督学习的离线行人跟踪***,其特征在于,应用于权利要求1-7中任一项所述的基于双模型交互式半监督学习的离线行人跟踪方法,包括模型预训练模块、伪标签预测模块、交互式半监督学习模块和最终预测和输出模块;
所述模型预训练模块利用有标签训练数据对选用的两个基于神经网络的行人跟踪模型进行有监督训练,直至模型能基本拟合训练数据,得到在训练数据集上预测表现良好初始模型权重FT1、FT2,以及迭代模型FS1、FS2
所述伪标签预测模块利用迭代模型FS1和FS2对无标签测试数据进行预测并使用离线插值优化方法进行优化,得到所述迭代模型FS1和FS2的输出结果,即伪标签1和伪标签2;
所述交互式半监督学习模块用于执行交互式半监督学习方法,具体为:使用所述迭代模型FS1输出的伪标签1作为无标签测试数据的训练标签,得到伪标记数据1,将所述伪标记数据1和有标签训练数据混合到一起,作为所述迭代模型FS2的训练数据,对其进行再次训练;同理,反过来将所述迭代模型FS2输出的伪标签2与无标签测试数据结合得到伪标记数据2,将其再与所述有标签训练数据混合作为迭代模型FS1的训练数据并对其训练;对所述FS1和FS2进行循环迭代训练;
最终预测和输出模块:使用所述迭代后的模型FS1和FS2对无标签测试数据进行预测,得到最终的输出结果。
9.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于双模型交互式半监督学习的离线行人跟踪方法。
CN202011511434.XA 2020-12-18 2020-12-18 基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质 Pending CN112614150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011511434.XA CN112614150A (zh) 2020-12-18 2020-12-18 基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011511434.XA CN112614150A (zh) 2020-12-18 2020-12-18 基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质

Publications (1)

Publication Number Publication Date
CN112614150A true CN112614150A (zh) 2021-04-06

Family

ID=75243630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011511434.XA Pending CN112614150A (zh) 2020-12-18 2020-12-18 基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN112614150A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630367A (zh) * 2023-07-25 2023-08-22 苏州浪潮智能科技有限公司 目标跟踪方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027421A (zh) * 2019-11-26 2020-04-17 西安宏规电子科技有限公司 一种基于图的直推式半监督行人再识别方法
WO2020232909A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020232909A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质
CN111027421A (zh) * 2019-11-26 2020-04-17 西安宏规电子科技有限公司 一种基于图的直推式半监督行人再识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANCONG WU ET AL.: "Transductive Multi-Object Tracking in Complex Events by Interactive Self-Training", 《PROCEEDINGS OR THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630367A (zh) * 2023-07-25 2023-08-22 苏州浪潮智能科技有限公司 目标跟踪方法、装置、电子设备及存储介质
CN116630367B (zh) * 2023-07-25 2023-11-03 苏州浪潮智能科技有限公司 目标跟踪方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
Nam et al. Modeling and propagating cnns in a tree structure for visual tracking
WO2023056889A1 (zh) 模型训练和场景识别方法、装置、设备及介质
CN109426805B (zh) 用于对象检测的方法、设备和计算机程序产品
Yeo et al. Superpixel-based tracking-by-segmentation using markov chains
CN110147702B (zh) 一种实时视频的目标检测与识别方法和***
Badrinarayanan et al. Semi-supervised video segmentation using tree structured graphical models
Zhao et al. Unsupervised monocular depth estimation in highly complex environments
CN110909741A (zh) 一种基于背景分割的车辆再识别方法
CN111881731A (zh) 基于人体骨架的行为识别方法、***、装置及介质
CN112801019B (zh) 基于合成数据消除无监督车辆再识别偏差的方法及***
CN111898566B (zh) 姿态估计方法、装置、电子设备和存储介质
Yoon et al. A novel online action detection framework from untrimmed video streams
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、***及存储介质
CN114694261A (zh) 一种基于多级监督图卷积的视频三维人体姿态估计方法及***
CN113393496A (zh) 一种基于时空注意力机制的目标跟踪方法
CN112614150A (zh) 基于双模型交互式半监督学习的离线行人跟踪方法、***及存储介质
Lu et al. Label-efficient video object segmentation with motion clues
Liu et al. A deep Q-learning network based active object detection model with a novel training algorithm for service robots
Gao et al. A joint local–global search mechanism for long-term tracking with dynamic memory network
CN112199994B (zh) 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
He et al. CPSPNet: Crowd counting via semantic segmentation framework
CN113989920A (zh) 一种基于深度学习的运动员行为质量评估方法
Yang et al. Adaptive fusion of RGBD data for two-stream FCN-based level set tracking
Chen et al. Movement Evaluation Algorithm‐Based Form Tracking Technology and Optimal Control of Limbs for Dancers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210406

WD01 Invention patent application deemed withdrawn after publication