CN113065422A

CN113065422A - 视频目标检测模型的训练、视频目标检测方法及装置

Info

Publication number: CN113065422A
Application number: CN202110294961.8A
Authority: CN
Inventors: 范琦; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-07-02

Abstract

本公开关于一种视频目标检测模型的训练、视频目标检测方法及装置。该视频目标检测模型的训练方法包括：获取训练样本视频、所述训练样本视频的支撑图片以及真实的目标检测结果；分别从所述训练样本视频和所述训练样本视频的支撑图片获取所述训练样本视频的目标物体特征和支撑图片特征；将目标物体特征与支撑图片特征进行匹配，获得匹配结果；基于匹配结果和真实的目标检测结果确定所述视频目标检测模型的第一损失；基于确定的第一损失对所述视频目标检测模型进行训练。根据本公开的视频目标检测模型的训练方法及装置，可提高视频目标检测效果，简化检测流程，节省检测时间。

Description

视频目标检测模型的训练、视频目标检测方法及装置

技术领域

本公开涉及视频技术领域。更具体地，本公开涉及一种视频目标检测模型的训练方法及装置、一种目标检测方法及装置。

背景技术

随着用户对图片处理要求的不断提升，目标检测技术的应用也愈加广泛。尤其在流媒体爆发式发展的现代，视频目标检测的应用场景越来越多。与图片中的目标检测不同，由于其特有的抖动，失焦，光照变化和遮挡等问题，视频目标检测对算法提出了更高的要求。用户需要使用大量高质量的目标检测训练样本对模型进行训练，然后将这个模型用于目标检测任务中。但是在实际的应用场景中，高质量的目标检测训练样本需要大量的人力物力去标注，往往无法快速获得，所以无法将检测模型快速部署到新样本的检测中。而视频数据尤其难以标注，因为每个视频都有大量图片需要标注。而小样本目标检测方法可以很好地解决这一问题，但是现有的小样本目标检测模型都是针对图片的算法，并没有专门用于解决视频小样本目标检测的算法，而视频数据的独特性极大限制了这些图片算法的应用。

发明内容

本公开的示例性实施例在于提供一种视频目标检测模型的训练方法及装置、一种目标检测方法及装置，以至少解决相关技术中的视频目标检测的问题，也可不解决任何上述问题。

根据本公开的示例性实施例，提供一种视频目标检测模型的训练方法，包括：获取训练样本视频、所述训练样本视频的支撑图片以及真实的目标检测结果；分别从所述训练样本视频和所述训练样本视频的支撑图片获取所述训练样本视频的目标物体特征和支撑图片特征；将目标物体特征与支撑图片特征进行匹配，获得匹配结果；基于匹配结果和真实的目标检测结果确定所述视频目标检测模型的第一损失；基于确定的第一损失对所述视频目标检测模型进行训练。

可选地，从所述训练样本视频获取所述训练样本视频的目标物体特征的步骤可包括：生成所述训练样本视频中的物体的视频管道，其中，视频管道中包含在所述训练样本视频的至少一帧中的同一个物体；截取视频管道内的特征作为所述训练样本视频的目标物体特征。

可选地，生成所述训练样本视频中的物体的视频管道的步骤可包括：对所述训练样本视频进行特征提取，获得所述训练样本视频的特征；基于所述训练样本视频的特征生成所述训练样本视频中的每个物体的视频管道。

可选地，基于所述训练样本视频的特征生成所述训练样本视频中的每个物体的视频管道的步骤可包括：基于所述训练样本视频的特征对所述训练样本视频中的每个物体进行跟踪，获得每个物体在每一帧的定位；基于每个物体在每一帧的定位生成所述训练样本视频中的每个物体的视频管道。

可选地，基于每个物体在每一帧的定位生成所述训练样本视频中的每个物体的视频管道的步骤可包括：基于每个物体在每一帧的定位形成每个物体在整个所述训练样本视频中的轨迹管道作为视频管道。

可选地，从所述训练样本视频的支撑图片获取支撑图片特征的步骤可包括：对所述训练样本视频的支撑图片进行特征提取，其中，所述训练样本视频的支撑图片的数量大于等于1张；对提取的特征进行特征区域截取；对截取的特征进行取均值操作，获得支撑图片特征。

可选地，所述训练方法还可包括：基于支撑图片特征对训练样本支撑图片进行分类；基于分类结果和所述训练样本视频的支撑图片的真实类别确定所述视频目标检测模型的第二损失，其中，基于确定的第一损失对所述视频目标检测模型进行训练的步骤包括：基于确定的第一损失和第二损失对所述视频目标检测模型的参数进行调整。

可选地，从所述训练样本视频获取所述训练样本视频的目标物体特征的步骤可包括：生成所述训练样本视频中的物体的视频管道；截取视频管道内的特征作为视频管道特征；从训练样本获取时序对齐特征；将视频管道特征与时序对齐特征进行融合，将融合后的特征作为所述训练样本视频的目标物体特征。

可选地，从训练样本获取时序对齐特征的步骤可包括：对所述训练样本视频中出现同一个物体的不同帧图像进行特征提取；从提取出的特征中截取目标物体区域内的特征；对所述不同帧图像的目标物体区域内的特征求取均值，获得时序对齐特征。

可选地，第一损失可包括匹配损失和位置损失中的至少一个。

根据本公开的示例性实施例，提供一种视频目标检测方法，包括：获取待检测视频；获取所述待检测视频的支撑图片特征，并从所述待检测视频获取所述待检测视频的目标物体特征；将目标物体特征与支撑图片特征进行匹配，获得所述待检测视频中的目标。

可选地，从所述待检测视频获取所述待检测视频的目标物体特征的步骤可包括：生成所述待检测视频中的物体的视频管道，其中，视频管道中包含在所述待检测视频的至少一帧中的同一个物体；截取视频管道内的特征作为所述待检测视频的目标物体特征。

可选地，生成所述待检测视频中的物体的视频管道的步骤可包括：对所述待检测视频进行特征提取，获得所述待检测视频的特征；基于所述待检测视频的特征生成所述待检测视频中的每个物体的视频管道。

可选地，基于所述待检测视频的特征生成所述待检测视频中的每个物体的视频管道的步骤可包括：基于所述待检测视频的特征对所述待检测视频中的每个物体进行跟踪，获得每个物体在每一帧的定位；基于每个物体在每一帧的定位生成所述待检测视频中的每个物体的视频管道。

可选地，基于每个物体在每一帧的定位生成所述待检测视频中的每个物体的视频管道的步骤可包括：基于每个物体在每一帧的定位形成每个物体在整个所述待检测视频中的轨迹管道作为视频管道。

根据本公开的示例性实施例，提供一种视频目标检测模型的训练装置，包括：训练数据获取单元，被配置为获取训练样本视频、所述训练样本视频的支撑图片以及真实的目标检测结果；特征获取单元，被配置为分别从所述训练样本视频和所述训练样本视频的支撑图片获取所述训练样本视频的目标物体特征和支撑图片特征；特征匹配单元，被配置为将目标物体特征与支撑图片特征进行匹配，获得匹配结果；第一损失确定单元，被配置为基于匹配结果和真实的目标检测结果确定所述视频目标检测模型的第一损失；和模型训练单元，被配置为基于确定的第一损失对所述视频目标检测模型进行训练。

可选地，特征获取单元可被配置为：生成所述训练样本视频中的物体的视频管道，其中，视频管道中包含所述训练样本视频的至少一帧中的同一个物体；截取视频管道内的特征作为所述训练样本视频的目标物体特征。

可选地，特征获取单元可被配置为：对所述训练样本视频进行特征提取，获得所述训练样本视频的特征；基于所述训练样本视频的特征生成所述训练样本视频中的每个物体的视频管道。

可选地，特征获取单元可被配置为：基于所述训练样本视频的特征对所述训练样本视频中的每个物体进行跟踪，获得每个物体在每一帧的定位；基于每个物体在每一帧的定位生成所述训练样本视频中的每个物体的视频管道。

可选地，特征获取单元可被配置为：基于每个物体在每一帧的定位形成每个物体在整个所述训练样本视频中的轨迹管道作为视频管道。

可选地，特征获取单元可被配置为：对所述训练样本视频的支撑图片进行特征提取，其中，所述训练样本视频的支撑图片的数量大于等于1张；对提取的特征进行特征区域截取；对截取的特征进行取均值操作，获得支撑图片特征。

可选地，所述训练装置还可包括：支撑图片分类单元，被配置为基于支撑图片特征对训练样本支撑图片进行分类；以及第二损失确定单元，被配置为基于分类结果和所述训练样本视频的支撑图片的真实类别确定所述视频目标检测模型的第二损失，其中，模型训练单元被配置为：基于确定的第一损失和第二损失对所述视频目标检测模型的参数进行调整。

可选地，特征获取单元可被配置为：生成所述训练样本视频中的物体的视频管道；截取视频管道内的特征作为视频管道特征；从训练样本获取时序对齐特征；将视频管道特征与时序对齐特征进行融合，将融合后的特征作为所述训练样本视频的目标物体特征。

可选地，特征获取单元可被配置为：对所述训练样本视频中出现同一个物体的不同帧图像进行特征提取；从提取出的特征中截取目标物体区域内的特征；对所述不同帧图像的目标物体区域内的特征求取均值，获得时序对齐特征。

根据本公开的示例性实施例，提供一种视频目标检测装置，包括：视频获取单元，被配置为获取待检测视频；特征获取单元，被配置为获取所述待检测视频的支撑图片特征，并从所述待检测视频获取所述待检测视频的目标物体特征；和特征匹配单元，被配置为将目标物体特征与支撑图片特征进行匹配，获得视频获取单元所述待检测视频中的目标。

可选地，特征获取单元可被配置为：生成所述待检测视频中的物体的视频管道，其中，视频管道中包含在所述待检测视频的至少一帧中的同一个物体；截取视频管道内的特征作为所述待检测视频的目标物体特征。

可选地，特征获取单元可被配置为：对所述待检测视频进行特征提取，获得所述待检测视频的特征；基于所述待检测视频的特征生成所述待检测视频中的每个物体的视频管道。

可选地，特征获取单元可被配置为：基于所述待检测视频的特征对所述待检测视频中的每个物体进行跟踪，获得每个物体在每一帧的定位；基于每个物体在每一帧的定位生成所述待检测视频中的每个物体的视频管道。

可选地，特征获取单元可被配置为：基于每个物体在每一帧的定位形成每个物体在整个所述待检测视频中的轨迹管道作为视频管道。

根据本公开的示例性实施例，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现根据本公开的示例性实施例的视频目标检测方法。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行根据本公开的示例性实施例的视频目标检测模型的训练方法或视频目标检测方法。

根据本公开的示例性实施例，提供一种计算机程序产品，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的视频目标检测模型的训练方法或视频目标检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

提升小样本目标检测模型在视频数据中的检测效果，提升模型性能，使得模型能够有效应用于不同视频业务场景中；

依赖少量的支撑图片就能对新类别进行目标检测，无需大量的训练样本，大大节省了标注时间和成本，并简化了模型部署和新类别的检测流程。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开的示例性实施例的视频目标检测模型的训练和应用的整体***示意图。

图2示出根据本公开的一个示例性实施例的视频目标检测模型的训练方法的流程图。

图3示出根据本公开的另一示例性实施例的视频目标检测模型的训练方法的流程图。

图4示出根据本公开的一个示例性实施例的视频目标检测方法的流程图。

图5示出根据本公开的另一示例性实施例的视频目标检测方法的流程图。

图6示出根据本公开的一个示例性实施例的视频目标检测模型的训练装置的框图。

图7示出根据本公开的另一示例性实施例的视频目标检测模型的训练装置的框图。

图8示出根据本公开的一个示例性实施例的视频目标检测装置的框图。

图9示出根据本公开的另一示例性实施例的视频目标检测装置的框图。

图10是根据本公开的示例性实施例的电子设备1000的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在相关技术中，使用一种包含目标样本、正样本和负样本的训练三元组对小样本检测网络进行训练，并且提出了基于注意力机制的区域提议网络(RPN)来生成可能包含目标物体的检测框，然后使用一个多关系匹配网络对这些检测框进行评分，筛选出包含目标物体的矩形框并作为检测结果。这项技术方案训练得到的小样本检测木星只依赖少量的模板图片即可对相应的新类别进行检测，无需大量的训练样本，大大节省了标注时间和成本。然而，上述相关技术是一项针对图片目标检测的技术，而视频中存在的抖动、失焦、光照变化和遮挡等问题使得无法在视频检测中得到令人满意的检测结果。这项技术只单独对每张图片进行检测，并没有利用到视频连续帧中的时序联系和信息，因此在视频小样本目标检测任务中的效果比较差。

下面，将参照图1至图6具体描述根据本公开的示例性实施例的视频目标检测模型的训练方法及装置、视频目标检测方法及装置。

参照图1，视频目标检测模型可包括时序特征对齐模块、支撑图片分类模块、视频管道生成模块、匹配模块以及多个骨干网络。视频目标检测模型的输入可以是视频，输出可以是检测出的视频中的目标。骨干网络用于提取特征，可以是例如，但不限于ResNet50、ResNet101、ResNet200、ResNeXt101、ResNeSt101、ResNet18、MobileNet、SqueezeNet等网络。如图1所示，时序特征对齐模块可随机选取视频中同一个物体的不同帧作为输入，并使用骨干网络提取特征，然后使用矩形框将目标物体区域内的特征截取出来，然后对截取出来的特征求取均值，最后与视频管道生成模块中的特征进行融合，作为目标物体的特征。视频管道生成模块用于生成视频管道，可以是多目标跟踪网络，可以是例如，但不限于CTracker。匹配模块可以是基于视频管道特征的匹配模块，例如，但不限于多关系匹配模块、基于卷积的匹配模块、基于余弦距离的匹配模块和基于点积的匹配模块等。与FSOD中基于图片的匹配模块不同，本公开中的匹配模块基于多帧图片特征，其输入的目标物体特征为多帧融合特征。此外，本公开中的匹配模块可使用标签平滑技术来减少过拟合，提升泛化能力。支撑图片在使用骨干网络提取特征并进行特征区域截取和求均值之后，使用支撑图片分类模块进行处理。支撑图片分类模块可由一个全局均值池化，一个输入为2048维并且输出为512维的全连接层，和一个输入为512维并且输出为300维(在训练集中需要有300类)的全连接层组成。输出的300维向量使用交叉熵损失函数进行监督训练。

视频目标检测模型在应用前需要进行训练。在本公开的示例性实施例中，用于训练的视频也被称为训练样本视频。可基于训练样本视频和训练样本视频的真实的目标检测结果对视频目标检测模型进行训练。在获得训练后的视频目标检测模型后，可输入待检测视频，获得待检测视频中的目标。

在训练过程中，对于输入视频的中的多帧连续图片，首先随机选取例如，但不限于两帧图片对骨干网络和视频管道生成模块进行训练(这里的视频管道生成模块可以使用现有的多目标跟踪算法，例如，但不限于CTracker)。然后对视频管道内的特征进行截取(可使用例如，但不限于RoIAlign技术，来源于Mask R-CNN)并取均值得到(1xCxHxW)大小的特征图作为这个视频管道的特征(一个视频管道中包含在多帧中的同一个物体)。然后将此特征与时序特征对齐模块的特征进行融合，得到目标物体的特征。与此同时，多张支撑图片也经过骨干网络和区域截取及取均值操作得到支撑特征。目标物体特征与支撑特征一同输入到匹配模块中进行匹配，并使用匹配和位置损失对网络进行训练(损失函数可以为关于交叉熵损失的函数和关于平滑L1损失的函数)。除此之外，在本公开中，还引入了支撑图片分类模块对支撑图片进行分类，并使用交叉熵损失函数对其进行监督。

在训练过程中，可采用在ImageNet数据集和MS COCO数据集上预训练的ResNet50的参数，新添加的层采用方差为0.01，均值为0的高斯分布进行初始化。例如，可采用基于SGD(Stochastic Gradient Descent)的梯度下降法求解神经网络模型的卷积模板参数w和偏置参数b，在每次迭代过程中，计算预测结果误差并反向传播到卷积神经网络模型，计算梯度并更新卷积神经网络模型的参数。例如，训练的学习率为0.002，共训练45000轮，在第30000和第40000轮时分别将学习率下降十倍。

在测试过程中，使用骨干网络提取输入视频的特征，并使用视频管道生成模块生成每个物体的视频管道，并对这些视频管道内的特征进行区域截取和求取均值，最后与支撑图片特征同时输入到匹配模块中得到这些视频管道的匹配得分。这些带有匹配得分的视频管道作为最终的检测结果。

根据本公开的示例性实施例的视频目标检测模型，可通过引入特征对齐模块来增强训练和测试特征的一致性，并以此利用视频相邻帧的时序联系和信息，提高在视频中的小样本目标检测性能，从而解决现有小样本目标检测模型在视频数据上性能较差的问题；并且只依赖少量的支撑图片就能对新类别进行目标检测，无需大量的训练样本，大大节省了标注时间和成本，并简化了模型部署和新类别的检测流程。

参照图2，在步骤S201，获取训练样本视频、所述训练样本视频的支撑图片以及真实的目标检测结果。

可以将预先通过人工检测方法或者其他方法对训练样本视频进行检测得到的检测结果作为真实的目标检测结果。支撑图片包括了视频的大部分特征或者全部特征。

在步骤S202，分别从所述训练样本视频和所述训练样本视频的支撑图片获取所述训练样本视频的目标物体特征和支撑图片特征。这样，只依赖少量的支撑图片就能对新类别进行目标检测，无需大量的训练样本，大大节省了标注时间和成本，并简化了模型部署和新类别的检测流程。

在本公开的示例性实施例中，在从所述训练样本视频获取所述训练样本视频的目标物体特征时，可首先生成所述训练样本视频中的物体的视频管道，然后截取视频管道内的特征作为所述训练样本视频的目标物体特征，从而提高目标物体特征的准确性。这里，一个视频管道中包含在训练样本视频的至少一帧(例如，但不限于视频的全部帧)中的同一个物体。

在本公开的示例性实施例中，在生成所述训练样本视频中的每个物体的视频管道时，可首先对所述训练样本视频进行特征提取，获得所述训练样本视频的特征，然后基于所述训练样本视频的特征生成所述训练样本视频中的每个物体的视频管道。

在本公开的示例性实施例中，在基于所述训练样本视频的特征生成所述训练样本视频中的每个物体的视频管道时，可首先基于所述训练样本视频的特征对所述训练样本视频中的每个物体进行跟踪，获得每个物体在每一帧的定位，然后基于每个物体在每一帧的定位生成所述训练样本视频中的每个物体的视频管道。

在本公开的示例性实施例中，在基于每个物体在每一帧的定位生成所述训练样本视频中的每个物体的视频管道时，可基于每个物体在每一帧的定位形成每个物体在整个所述训练样本视频中的轨迹管道作为视频管道。

在本公开的示例性实施例中，在从所述训练样本视频的支撑图片获取支撑图片特征时，可首先对所述训练样本视频的支撑图片进行特征提取，并对提取的特征进行特征区域截取，然后对截取的特征进行取均值操作，获得支撑图片特征。这里，训练样本视频的支撑图片的数量大于等于1张。

在本公开的示例性实施例中，在从所述训练样本视频获取所述训练样本视频的目标物体特征时，可首先生成所述训练样本视频中的物体的视频管道，并截取视频管道内的特征作为视频管道特征，然后从训练样本获取时序对齐特征，最后将视频管道特征与时序对齐特征进行融合，并将融合后的特征作为所述训练样本视频的目标物体特征。这样，通过时序对齐特征增强训练和测试特征的一致性，并以此利用视频相邻帧的时序联系和信息，从而提高在视频中的小样本目标检测性能。

在本公开的示例性实施例中，在从训练样本获取时序对齐特征时，可首先对所述训练样本视频中出现同一个物体的不同帧图像进行特征提取，并从提取出的特征中截取目标物体区域内的特征，然后对所述不同帧图像的目标物体区域内的特征求取均值，获得时序对齐特征。

在步骤S203，将目标物体特征与支撑图片特征进行匹配，获得匹配结果。这里，在匹配过程中，可使用标签平滑技术来减少过拟合，提升泛化能力。

在步骤S204，基于匹配结果和真实的目标检测结果确定所述视频目标检测模型的第一损失。

在本公开的示例性实施例中，第一损失可包括匹配损失和位置损失中的至少一个。

在步骤S205，基于确定的第一损失对所述视频目标检测模型进行训练。

根据本公开的示例性实施例的视频目标检测方法，通过引入特征对齐模块来增强训练和测试特征的一致性，并以此利用视频相邻帧的时序联系和信息，提高在视频中的小样本目标检测性能，从而可解决现有小样本目标检测模型在视频数据上性能较差的问题；并且只依赖少量的支撑图片就能对新类别进行目标检测，无需大量的训练样本，大大节省了标注时间和成本，并简化了模型部署和新类别的检测流程。

参照图3，在步骤S301，获取训练样本视频、所述训练样本视频的支撑图片以及真实的目标检测结果。

可以将预先对训练样本视频进行检测得到的检测结果作为真实的目标检测结果。支撑图片包括了视频的部分特征或者全部特征。

在步骤S302，分别从所述训练样本视频和所述训练样本视频的支撑图片获取所述训练样本视频的目标物体特征和支撑图片特征。这样，只依赖少量的支撑图片就能对新类别进行目标检测，无需大量的训练样本，大大节省了标注时间和成本，并简化了模型部署和新类别的检测流程。

在本公开的示例性实施例中，在从所述训练样本视频获取所述训练样本视频的目标物体特征时，可首先生成所述训练样本视频中的物体的视频管道，然后截取视频管道内的特征作为所述训练样本视频的目标物体特征。

在步骤S303，将目标物体特征与支撑图片特征进行匹配，获得匹配结果。

在步骤S304，基于匹配结果和真实的目标检测结果确定所述视频目标检测模型的第一损失。

在步骤S305，基于支撑图片特征对训练样本支撑图片进行分类。

在步骤S306，基于分类结果和所述训练样本视频的支撑图片的真实类别确定所述视频目标检测模型的第二损失。

在步骤S307，基于确定的第一损失和第二损失对所述视频目标检测模型的参数进行调整。在视频目标检测模型训练完成后，可将视频目标检测模型投入实际的应用场景进行使用。可通过运行视频目标检测模型，从待测视频中检测目标。

参照图4，在步骤S401，获取待检测视频。

在步骤S402，获取待检测视频的支撑图片特征，并从待检测视频获取待检测视频的目标物体特征。具体来说，在步骤S401获取到(或者确定了、接收到)待检测视频之后，可以在步骤S402确定与待检测视频相应的支撑图片特征，并且可以并从待检测视频获取待检测视频的目标物体特征。

在本公开的示例性实施例中，在从待检测视频获取待检测视频的目标物体特征时，可首先生成待检测视频中的物体的视频管道，然后截取视频管道内的特征作为待检测视频的目标物体特征，从而以视频管道的形式表示视频中的物体及特征。这里，视频管道中包含在待检测视频的至少一帧(例如，但不限于视频的全部帧)中的同一个物体。

在本公开的示例性实施例中，在生成待检测视频中的物体的视频管道时，可首先对待检测视频进行特征提取，获得待检测视频的特征，然后基于待检测视频的特征生成待检测视频中的每个物体的视频管道，从而提高视频管道的准确性。

在本公开的示例性实施例中，在基于待检测视频的特征生成待检测视频中的每个物体的视频管道时，可首先基于待检测视频的特征对待检测视频中的每个物体进行跟踪，获得每个物体在每一帧的定位，然后基于每个物体在每一帧的定位生成待检测视频中的每个物体的视频管道，从而提高视频管道的准确性。

在本公开的示例性实施例中，在基于每个物体在每一帧的定位生成待检测视频中的每个物体的视频管道时，可首先基于每个物体在每一帧的定位形成每个物体在整个待检测视频中的轨迹管道作为视频管道，从而提高视频管道的准确性。

在步骤S403，将目标物体特征与支撑图片特征进行匹配，获得待检测视频中的目标。具体来说，例如，可将目标物体特征与支撑图片特征进行匹配得到每个目标物体特征相对于支撑图片特征的相似性得分，根据相似性得分确定待检测视频中的目标。例如，如果物体的目标物体特征相似性得分超过阈值，则是待检测视频中的目标。

参照图5，在步骤S501，获取待检测视频。

在步骤S502，利用使用根据本公开的训练方法(如参照图2或图3所描述的训练方法)训练好的视频目标检测模型，基于所述待检测视频的支撑图片特征，检测所述待检测视频中的目标。

在训练好的视频目标检测模型中，使用骨干网络提取输入视频的特征，并使用视频管道生成模块生成每个物体的视频管道，并对这些视频管道内的特征进行区域截取和求取均值，最后获取待检测视频的支撑图片特征，并将求取均值后的特征与支撑图片特征同时输入到匹配模块中得到这些视频管道的匹配得分。这些带有匹配得分的视频管道作为最终的检测结果。骨干网络用于提取特征，可以是例如，但不限于ResNet50、ResNet101、ResNet200、ResNeXt101、ResNeSt101、ResNet18、MobileNet、SqueezeNet等网络。视频管道生成模块用于生成视频管道，可以是多目标跟踪网络，可以是例如，但不限于CTracker。匹配模块可以是基于视频管道特征的匹配模块，例如，但不限于多关系匹配模块、基于卷积的匹配模块、基于余弦距离的匹配模块和基于点积的匹配模块等。以上已经结合图1至图5对根据本公开的示例性实施例的视频目标检测模型的训练方法、视频目标检测方法进行了描述。在下文中，将参照图6-9对根据本公开的示例性实施例的视频目标检测模型的训练装置、视频目标检测装置及其单元进行描述。

参照图6，视频目标检测模型的训练装置包括训练数据获取单元61、特征获取单元62、特征匹配单元63、第一损失确定单元64和模型训练单元65。

训练数据获取单元61被配置为获取训练样本视频、所述训练样本视频的支撑图片以及真实的目标检测结果。

特征获取单元62被配置为分别从所述训练样本视频和所述训练样本视频的支撑图片获取所述训练样本视频的目标物体特征和支撑图片特征。

在本公开的示例性实施例中，特征获取单元62可被配置为：生成所述训练样本视频中的物体的视频管道；截取视频管道内的特征作为所述训练样本视频的目标物体特征。

在本公开的示例性实施例中，特征获取单元62可被配置为：对所述训练样本视频进行特征提取，获得所述训练样本视频的特征；基于所述训练样本视频的特征生成所述训练样本视频中的每个物体的视频管道。

在本公开的示例性实施例中，特征获取单元62可被配置为：基于所述训练样本视频的特征对所述训练样本视频中的每个物体进行跟踪，获得每个物体在每一帧的定位；基于每个物体在每一帧的定位生成所述训练样本视频中的每个物体的视频管道。

在本公开的示例性实施例中，特征获取单元62可被配置为：基于每个物体在每一帧的定位形成每个物体在整个所述训练样本视频中的轨迹管道作为视频管道。

在本公开的示例性实施例中，特征获取单元62可被配置为：对所述训练样本视频的支撑图片进行特征提取，其中，所述训练样本视频的支撑图片的数量大于等于1张；对提取的特征进行特征区域截取；对截取的特征进行取均值操作，获得支撑图片特征。

在本公开的示例性实施例中，特征获取单元62可被配置为：生成所述训练样本视频中的物体的视频管道；截取视频管道内的特征作为视频管道特征；从训练样本获取时序对齐特征；将视频管道特征与时序对齐特征进行融合，将融合后的特征作为所述训练样本视频的目标物体特征。

在本公开的示例性实施例中，特征获取单元62可被配置为：对所述训练样本视频中出现同一个物体的不同帧图像进行特征提取；从提取出的特征中截取目标物体区域内的特征；对所述不同帧图像的目标物体区域内的特征求取均值，获得时序对齐特征。

特征匹配单元63被配置为将目标物体特征与支撑图片特征进行匹配，获得匹配结果。

第一损失确定单元64被配置为基于匹配结果和真实的目标检测结果确定所述视频目标检测模型的第一损失。

模型训练单元65被配置为基于确定的第一损失对所述视频目标检测模型进行训练。

参照图7，视频目标检测模型的训练装置包括训练数据获取单元71、特征获取单元72、特征匹配单元73、第一损失确定单元74、支撑图片分类单元75、第二损失确定单元76和模型训练单元77。

训练数据获取单元71被配置为获取训练样本视频、所述训练样本视频的支撑图片以及真实的目标检测结果。

特征获取单元72被配置为分别从所述训练样本视频和所述训练样本视频的支撑图片获取所述训练样本视频的目标物体特征和支撑图片特征。

在本公开的示例性实施例中，特征获取单元72可被配置为：生成所述训练样本视频中的物体的视频管道，其中，视频管道中包含所述训练样本视频的至少一帧中的同一个物体；截取视频管道内的特征作为所述训练样本视频的目标物体特征。

在本公开的示例性实施例中，特征获取单元72可被配置为：对所述训练样本视频进行特征提取，获得所述训练样本视频的特征；基于所述训练样本视频的特征生成所述训练样本视频中的每个物体的视频管道。

在本公开的示例性实施例中，特征获取单元72可被配置为：基于所述训练样本视频的特征对所述训练样本视频中的每个物体进行跟踪，获得每个物体在每一帧的定位；基于每个物体在每一帧的定位生成所述训练样本视频中的每个物体的视频管道。

在本公开的示例性实施例中，特征获取单元72可被配置为：基于每个物体在每一帧的定位形成每个物体在整个所述训练样本视频中的轨迹管道作为视频管道。

在本公开的示例性实施例中，特征获取单元72可被配置为：对所述训练样本视频的支撑图片进行特征提取；对提取的特征进行特征区域截取；对截取的特征进行取均值操作，获得支撑图片特征。这里，所述训练样本视频的支撑图片的数量大于等于1张。

在本公开的示例性实施例中，特征获取单元72可被配置为：生成所述训练样本视频中的物体的视频管道；截取视频管道内的特征作为视频管道特征；从训练样本获取时序对齐特征；将视频管道特征与时序对齐特征进行融合，将融合后的特征作为所述训练样本视频的目标物体特征。

在本公开的示例性实施例中，特征获取单元72可被配置为：对所述训练样本视频中出现同一个物体的不同帧图像进行特征提取；从提取出的特征中截取目标物体区域内的特征；对所述不同帧图像的目标物体区域内的特征求取均值，获得时序对齐特征。

特征匹配单元73被配置为将目标物体特征与支撑图片特征进行匹配，获得匹配结果。

第一损失确定单元74被配置为基于匹配结果和真实的目标检测结果确定所述视频目标检测模型的第一损失。

支撑图片分类单元75被配置为基于支撑图片特征对训练样本支撑图片进行分类。

第二损失确定单元76被配置为基于分类结果和所述训练样本视频的支撑图片的真实类别确定所述视频目标检测模型的第二损失。

模型训练单元77被配置为基于确定的第一损失和第二损失对所述视频目标检测模型的参数进行调整。

参照图8，视频目标检测装置包括视频获取单元81、特征获取单元82和特征匹配单元83。

视频获取单元81被配置为获取待检测视频。

特征获取单元82被配置为获取所述待检测视频的支撑图片特征，并从所述待检测视频获取所述待检测视频的目标物体特征。

在本公开的示例性实施例中，特征获取单元82可被配置为：生成所述待检测视频中的物体的视频管道，其中，视频管道中包含在所述待检测视频的至少一帧中的同一个物体；截取视频管道内的特征作为所述待检测视频的目标物体特征。

在本公开的示例性实施例中，特征获取单元82可被配置为：对所述待检测视频进行特征提取，获得所述待检测视频的特征；基于所述待检测视频的特征生成所述待检测视频中的每个物体的视频管道。

在本公开的示例性实施例中，特征获取单元82可被配置为：基于所述待检测视频的特征对所述待检测视频中的每个物体进行跟踪，获得每个物体在每一帧的定位；基于每个物体在每一帧的定位生成所述待检测视频中的每个物体的视频管道。

在本公开的示例性实施例中，特征获取单元82可被配置为：基于每个物体在每一帧的定位形成每个物体在整个所述待检测视频中的轨迹管道作为视频管道。

特征匹配单元83被配置为将目标物体特征与支撑图片特征进行匹配，获得所述待检测视频中的目标。

参照图9，视频目标检测装置包括视频获取单元91和目标检测单元92。

视频获取单元91被配置为获取待检测视频。

目标检测单元92被配置为利用使用根据本公开的训练方法(如参照图2或图3所描述的训练方法)训练好的视频目标检测模型，基于所述待检测视频的支撑图片特征，检测所述待检测视频中的目标。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上已经结合图6至图9对根据本公开的示例性实施例的视频目标检测模型的训练装置、视频目标检测装置进行了描述。接下来，结合图10对根据本公开的示例性实施例的电子设备进行描述。

图10是根据本公开的示例性实施例的电子设备1000的框图。

参照图10，电子设备1000包括至少一个存储器1001和至少一个处理器1002，所述至少一个存储器1001中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器1002执行时，执行根据本公开的示例性实施例的视频目标检测的方法。

例如，电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备1000中，处理器1002可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器1002可运行存储在存储器1001中的指令或代码，其中，存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器1001可与处理器1002集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1001可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1002能够读取存储在存储器中的文件。

此外，电子设备1000还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备1000的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还提供一种包括指令的计算机可读存储介质，例如包括指令的存储器1001，上述指令可由装置1000的处理器1002执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的视频目标检测的方法。

以上已参照图1至图10描述了根据本公开的示例性实施例的视频目标检测模型的训练方法及装置、视频目标检测方法及装置。然而，应该理解的是：图6至图9中所示的视频目标检测模型的训练、视频目标检测装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图10中所示的电子设备并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

根据本公开的视频目标检测模型的训练方法及装置，可用于提升小样本目标检测模型在视频数据中的检测效果，提升模型性能，使得模型能够有效应用于不同视频业务场景中，如视频目标检测数据标注(尤其适用于新类别新样本的冷启动和标注)。

此外，根据本公开的视频目标检测方法及装置，只需要用户提供少量支撑图片，就能在视频中检测出具有相同类别的所有物体，大大节省了标注时间和成本，并简化了模型部署和新类别的检测流程，从而提升了用户体验。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频目标检测模型的训练方法，其特征在于，包括：

获取训练样本视频、所述训练样本视频的支撑图片以及真实的目标检测结果；

分别从所述训练样本视频和所述训练样本视频的支撑图片获取所述训练样本视频的目标物体特征和支撑图片特征；

将目标物体特征与支撑图片特征进行匹配，获得匹配结果；

基于匹配结果和真实的目标检测结果确定所述视频目标检测模型的第一损失；

基于确定的第一损失对所述视频目标检测模型进行训练。

2.根据权利要求1所述的训练方法，其特征在于，从所述训练样本视频获取所述训练样本视频的目标物体特征的步骤包括：

生成所述训练样本视频中的物体的视频管道，其中，视频管道中包含在所述训练样本视频的至少一帧中的同一个物体；

截取视频管道内的特征作为所述训练样本视频的目标物体特征。

3.根据权利要求2所述的训练方法，其特征在于，生成所述训练样本视频中的物体的视频管道的步骤包括：

对所述训练样本视频进行特征提取，获得所述训练样本视频的特征；

基于所述训练样本视频的特征生成所述训练样本视频中的每个物体的视频管道。

4.根据权利要求3所述的训练方法，其特征在于，基于所述训练样本视频的特征生成所述训练样本视频中的每个物体的视频管道的步骤包括：

基于所述训练样本视频的特征对所述训练样本视频中的每个物体进行跟踪，获得每个物体在每一帧的定位；

基于每个物体在每一帧的定位生成所述训练样本视频中的每个物体的视频管道。

5.根据权利要求4所述的训练方法，其特征在于，基于每个物体在每一帧的定位生成所述训练样本视频中的每个物体的视频管道的步骤包括：

基于每个物体在每一帧的定位形成每个物体在整个所述训练样本视频中的轨迹管道作为视频管道。

6.一种视频目标检测方法，其特征在于，包括：

获取待检测视频；

获取所述待检测视频的支撑图片特征，并从所述待检测视频获取所述待检测视频的目标物体特征；

将目标物体特征与支撑图片特征进行匹配，获得所述待检测视频中的目标。

7.一种视频目标检测模型的训练装置，其特征在于，包括：

训练数据获取单元，被配置为获取训练样本视频、所述训练样本视频的支撑图片以及真实的目标检测结果；

特征获取单元，被配置为分别从所述训练样本视频和所述训练样本视频的支撑图片获取所述训练样本视频的目标物体特征和支撑图片特征；

特征匹配单元，被配置为将目标物体特征与支撑图片特征进行匹配，获得匹配结果；

第一损失确定单元，被配置为基于匹配结果和真实的目标检测结果确定所述视频目标检测模型的第一损失；和

模型训练单元，被配置为基于确定的第一损失对所述视频目标检测模型进行训练。

8.一种视频目标检测装置，其特征在于，包括：

视频获取单元，被配置为获取待检测视频；

特征获取单元，被配置为获取所述待检测视频的支撑图片特征，并从所述待检测视频获取所述待检测视频的目标物体特征；和

特征匹配单元，被配置为将目标物体特征与支撑图片特征进行匹配，获得所述待检测视频中的目标。

9.一种电子设备/服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行如权利要求1至6中任一项所述的方法。