CN112949352A

CN112949352A - 视频检测模型的训练方法及装置、存储介质与电子设备

Info

Publication number: CN112949352A
Application number: CN201911256542.4A
Authority: CN
Inventors: 蒋正锴; 王国利; 张骞
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-06-11
Anticipated expiration: 2039-12-10
Also published as: CN112949352B

Abstract

公开了一种视频检测模型的训练方法及装置、存储介质与电子设备。其方法包括：确定多个训练视频中的关键帧与非关键帧之间的预设关系；基于所述关键帧与非关键帧之间的预设关系，从所述多个训练视频中采集数条训练样本；根据所述数条训练样本，训练所述视频检测模型。本发明的技术方案，通过采用上述方式训练而成的视频检测模型，能够对视频中的各帧图像进行更加准确地识别，能够有效地提高视频检测的精度。

Description

视频检测模型的训练方法及装置、存储介质与电子设备

技术领域

本发明涉及人工智能技术领域，具体涉及一种视频检测模型的训练方法及装置、存储介质与电子设备。

背景技术

视频检测是一项重要的应用技术，在自动驾驶、安防等有着重要的应用前景。如何做到既快又准的监测是视频检测的研究目标。

现有技术的视频检测方案中，主要是利用光流在做不同帧之间的特征对齐的思想，实现对视频中的物体进行跟踪和标注。具体地，现有的视频检测方案通过训练一种检测网络模块和光流网络模块一起的端到端的视频检测模型。使用时，向该视频检测模型输入检测到的视频，该视频检测模型可以输出从该视频中每一帧检测到的物体的信息及其对应的标签。

但是，采用该视频检测模型训练的光流网络模块不再是传统意义的光流，不仅会影响视频检测的速度，而且光流网络往往不够准确，造成视频检测的精度较低。

发明内容

为了解决上述技术问题，提出了本申请的视频检测模型的训练方法及装置、存储介质与电子设备。

根据本申请的一个方面，提供了一种视频检测模型的训练方法，包括：

确定多个训练视频中的关键帧与非关键帧之间的预设关系；

基于所述关键帧与非关键帧之间的预设关系，从所述多个训练视频中采集数条训练样本；

根据所述数条训练样本，训练所述视频检测模型。

根据本申请的另一个方面，提供了一种视频检测模型的训练装置，包括：

确定模块，用于确定多个训练视频中的关键帧与非关键帧之间的预设关系；

采集模块，用于基于所述关键帧与非关键帧之间的预设关系，从所述多个训练视频中采集数条训练样本；

训练模块，用于根据所述数条训练样本，训练所述视频检测模型。

根据本申请的另一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的方法。

根据本申请的另一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述任一所述的方法。

本申请实施例提供的视频检测模型的训练方法，通过采用确定多个训练视频中的关键帧与非关键帧之间的预设关系；基于所述关键帧与非关键帧之间的预设关系，从所述多个训练视频中采集数条训练样本；根据所述数条训练样本，训练所述视频检测模型，通过上述方案训练的视频检测模型，能够对视频中的各帧图像进行更加准确地识别，能够有效地提高视频检测的精度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为本发明的视频检测模型的训练方法实施例一的流程图。

图2为本实施例的视频检测模型的结构示意图。

图3为本发明的视频检测模型的训练方法实施例二的流程图。

图4为本实施例的视频检测方法实施例的流程图。

图5为本发明的视频检测模型的训练装置实施例一的结构图。

图6为本发明的视频检测模型的训练装置实施例二的结构图。

图7为本发明的视频检测装置实施例的结构图。

图8图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

本申请的视频检测方案，采用一种新型的视频检测模型来实现，该视频检测模型中可以包括端到端训练的运动先验学习模块和检测网络模块，由于采用了运动先验学习模块，可以有针对性地学习到不同帧的时空特征，从而更加准确地进行视频检测。本申请的视频检测方案，可以应用在自动驾驶、安防等领域中，用于实现对视频的各帧图像中的物体进行标注，例如，本申请的技术方案中，具体地可以标注检测到的各帧图像中的物体的包绕框(bounding-box)，可以理解其为物体所在区域的边框信息，同时还需要标注预测的各种图像中的物体的标签信息如Lable，这样，可以基于视频检测的结果，对视频中的物体进行跟踪、分析等操作。

示例性***

本申请的视频检测模型的训练方案可以部署在一视频检测模型的训练装置中，该视频检测模型的训练装置可以为一实体的电子设备如大型计算机中，或者也可以采用软件集成的应用。使用时，可以在该视频检测模型的训练装置中对视频检测模型进行训练，以获取检测精度较高的视频检测模型。然后在应用时，可以将该视频检测模型部署在具体的使用场景中。例如，在自动驾驶领域中，可以将该视频检测模型设置在无人驾驶车辆中，实现对无人驾驶车辆拍摄到的视频中的物体进行检测。在安防领域中，该视频检测模型可以设置在安防***中，以对摄像头拍摄到监控视频进行检测。同理，在其他领域中，也可以部署有本申请训练好的视频检测模型，实现对采集到的视频进行检测，以满足对应场景的应用。

示例性方法

图1为本发明的视频检测模型的训练方法实施例一的流程图。如图1所示，本实施例的视频检测模型的训练方法，具体可以包括如下步骤：

S101、确定多个训练视频中的关键帧与非关键帧之间的预设关系。

本实施例的视频检测模型的训练装置，在训练之前，需要确定关键帧与非关键帧的预设关系。例如，按照预设帧间隔数的关系来设定该预设关键，例如，可以设置视频中第0帧为关键帧，预设帧间隔数为5，则每隔5帧设定为关键帧，则0、5、10、15...是关键帧，其余为非关键帧。

S102、基于关键帧与非关键帧之间的预设关系，从多个训练视频中采集数条训练样本。

本实施例的训练样本的选择要基于关键帧和非关键帧的预设关系，选择一些关键帧以及一些非关键帧，一起组成训练样本。

需要说明的是，为了覆盖视频中各种可能的情况，本实施例采集的数条训练样本中可以包括视频中所有可能的两个关键帧和一个非关键帧的情况。

例如，可以基于预设关系，从多个训练视频中抽取数组具有先后顺序排列的两个关键帧图像以及位于两个关键帧图像之后的一个非关键帧图像；然后再获取非关键帧图像中标注的目标物体的区域信息和该目标物体对应的标签信息。由此可知，每一条训练样本中包括两个关键帧图像和一个非关键帧图像，且两个关键帧图像的时序在前，非关键帧图像的时序在后。由于本实施例的训练为有监督的训练，因此在每条训练样本中，还包括非关键帧的图像数据中标注的训练物体的区域信息和对应的标签信息，以便于后续计算检测损失。因此在训练样本中，还需要确定非关键帧图像中标注的目标物体的区域信息和对应的标签即Label，这部分信息可以由工作人员人工标注，采集训练样本时直接获取就行。其中区域信息可以为在非关键帧图像中标注的用于将目标物体围起来的框，该框可以为长方形、正方形、圆形或者其他任意规则或者非规则的形状，也就是说，能够将目标物体框起来的任意形状即可。如果非关键帧图像中包括有多个目标物体，每个目标物体都具有对应的区域信息，对应地需要采用多个框分别将对应的目标物体框起来，这样的话，一个非关键帧图像中必然包括有多个框。为了实现视频检测模型应用时在运动中对物体进行跟踪，本实施例中，还需要为每个目标物体的区符合域信息打上标签，也就是说，标签用于唯一标识该框中的目标物体。例如，标签可以采用文字、数字以及字母中的至少一种符号来表示。

S103、根据数条训练样本，训练视频检测模型。

本实施例中，从多个训练视频中采集数条训练样本时，具体可以从每一个训练视频中可以采集一个、两个或者多个训练样本。本实施例中，采集的训练样本的数量可以达到百万级以上，训练样本的数量越多，训练的视频检测模型越准确。

图2为本实施例的视频检测模型的结构示意图。如图2所示，本实施例的视频检测模型包括运动先验学习模块和检测网络模块两部分，运动先验学习模块用于结合连续帧中的运动知识，基于视频中不同帧的特征信息，获取要预测的当前帧的特征信息，检测网络模块用于基于当前帧的特征信息，检测物体的信息和对应的标签。运动先验学习模块和检测网络模块均采用卷积神经网络来建模，以实现各自功能。在训练时，视频检测模型中的运动先验学习模块和检测网络模块一起进行端到端的训练。

图3为本发明的视频检测模型的训练方法实施例二的流程图。如图3所示，本实施例，详细介绍上述图1所示实施例中S103根据数条训练样本，训练视频检测模型的训练过程，如图3所示，本实施例的视频检测模型的训练方法，具体可以包括如下步骤：

S201、从数条训练样本中选择一条训练样本，将对应的训练样本中的两个关键帧的图像数据和非关键帧的图像数据输入至运动先验学习模块中。

需要说明的是，在训练之前，需要先对运动先验学习模块和检测网络模块中的参数进行随机初始化。然后再按照本实施例的训练方式，训练这些参数。

S202、获取运动先验学习模块根据两个关键帧的图像数据进行特征融合，得到非关键帧的特征信息。

本实施例中训练时，可以每次选择一条训练样本进行训练，具体地，先将该训练样本输入至运动先验学习模块中，以让该运动先验学习模块学习两个关键帧到非关键帧的特征的融合。对应地，可以获取到运动先验学习模块根据两个关键帧的图像数据进行特征融合，得到非关键帧的特征信息。

另外，需要说明的是，由于本实施例的训练样本中的两个关键帧和非关键帧的都是根据之前的预设关系来获取的，这种预设关系包含了两个关键帧之间的偏移量，以及非关键帧与各关键帧之间的偏移量。这些偏移量可以基于相应的帧图像获取，或者也可以基于预设关系预先标注，在训练时，运动先验学习模块可以获取到偏移量，例如，运动先验学习模块可以基于第一个关键帧的图像数据、两个关键帧之间的偏移量，学习第二个关键帧的特征信息，并基于第二个关键帧的图像数据对学习到的第二关键帧的特征信息进行校正。通过该功能的学习，可以使得运动先验学习模块可以学习到跟踪关键帧到关键帧的图像。而且还可以基于第一个关键帧的图像数据、第二个关键帧的图像数据、以及获取的非关键帧分别与两个关键帧的偏移量，根据两个关键帧的图像数据进行特征融合，得到非关键帧的特征信息。而且由于是根据之前的两个关键帧的图像数据进行融合得到其后的非关键帧的特征信息，可以充分保证该非关键帧的特征信息的准确性。通过该功能的学习，可以使得运动先验学习模块可以学习根据之前的两个关键帧的图像，跟踪其后的一个非关键帧的图像。

S203、将融合得到的非关键帧的特征信息输入至检测网络模块中。

S204、获取检测网络模块预测的非关键帧的图像数据中的训练物体的区域信息和标签信息。

即将运动先验学习模块融合得到的非关键帧的特征信息输入至检测网络模块中，这样，检测网络模块可以基于输入的非关键帧的特征信息，预测该非关键帧的图像数据中的训练物体的区域信息和标签信息，并输出。

S205、根据预测的训练物体的区域信息和标签信息、以及标注的训练物体的区域信息和对应的标签信息，计算检测损失。

由于之前样本数据中包括该非关键帧的图像数据中标注的训练物体的区域信息和对应的标签信息，然后基于预测的训练物体的区域信息和标签信息、以及样本数据中标注的训练物体的区域信息和对应的标签信息，计算检测损失。

S206、判断检测损失是否收敛；若未收敛，执行步骤S207；否则，执行步骤S208。

S207、采用梯度下降法对运动先验学习模块和检测网络模块中的参数进行调整；返回步骤S201选择下一条训练样本，继续开始进行训练。

S208、判断是否在连续预设轮数的训练中始终收敛，若是，确定运动先验学习模块和检测网络模块中的参数，确定运动先验学习模块和检测网络模块，进而确定视频检测模型；否则返回步骤S201选择下一条训练样本，继续开始进行训练。

本实施例中，采用一条训练样本第一次对视频检测模型训练时，由于第一次计算出来检测损失，此时无法确定检测损失是否收敛，统一认为是不收敛的，直接选择下一条训练样本，继续按照上述步骤开始训练即可。而对于非首次的训练，之前已经计算过检测损失，可以结合之前的检测结果，来判断检测损失收敛。为了避免微小波动影响训练结果，本实施例中，可以设置检测损失的值在连续预设轮数如100次、80次或者其他次数的训练中，始终保持最小值，不再继续在趋于0的方向上继续缩小，此时可以认为检测损失收敛。此时取最后一次调整后的运动先验学习模块和检测网络模块中的参数，为训练好的运动先验学习模块和检测网络模块中的参数，从而确定运动先验学习模块和检测网络模块，进而确定视频检测模型。

本实施例的训练为端到端的收敛，在检测损失不收敛时，每次需要同时调整运动先验学习模块和检测网络模块中的参数。

本实施例的训练中，若采集的训练样本足够多，采用一轮训练可能就能够实现检测损失收敛，而若采集的训练样本不是足够多的时候，可能需要采用数条训练样本进行两轮或者多轮的训练，才能够实现检测损失收敛。

本实施例的视频检测模型的训练方法，通过采用上述方案对视频检测模型中的运动先验学习模块和检测网络模块进行训练，使得运动先验学习模块可以学习到基于两个关键帧，进行特征融合，实现对其后的任意非关键帧的特征预测，以便于更加准确地对视频中各帧图像进行检测。通过采用本实施例的技术方案，能够使得训练的视频检测模型对视频进行更加准确地检测，进而能够有效地提高视频检测的精度。

而且，本实施例的视频检测模型采用运动先验学习模块，与现有的光流网络模块相比，参数更少，进而能够进一步加快视频检测模型的训练速度，提高训练后的视频检测模型的精度。

再者，本实施例的视频检测模型在训练时为一种端到端的训练方式，得到的是一种端到端的视频检测模型，即该视频检测模型中包括的运动先验学习模块和检测网络模块是一起训练的。在使用时，每一个模块不会单独输出结果，整个视频检测模型根据输入只输出一个最终的结果，即一个问题采用一个步骤便可以解决。端到端的实现方式，不会引入累计误差，进而能够进一步有效地提高视频检测的精度。

图4为本实施例的视频检测方法实施例的流程图。如图4所示，本实施例的视频检测方法，具体可以包括如下步骤：

S301、获取待检测的视频。

S302、根据视频和预先训练的视频检测模型，获取从视频的各帧图像中检测到的物体的区域信息和对应的标签；其中视频检测模型基于检测网络模块和运动先验学习模块进行端到端的训练而成。

本实施例的视频检测模型的训练方法具体可以为上述实施例训练的视频检测模型的使用方法。

本实施例中待检测的视频可以为无人驾驶车辆、安防等领域中需要检测的视频。本实施例中的视频检测模型基于检测网络模块和运动先验学习模块进行端到端的训练而成。该运动先验学习模块能够学习到不同帧之间的特征融合，进而可以基于每帧图像之前的关键帧的图像，对当前帧的图像进行更加准确地识别。这样，可以避免视频中由于物体运动速度过快，导致物体图像不够清晰时，仍然能够被准确识别。

使用时，直接将该待检测的视频输入至预先训练的视频检测模型中，该视频检测模型中的运动先验学习模块和检测网络模块，便可以实现对该视频中每帧图像中的物体进行识别，并输出该帧图像中物体的区域信息和对应的标签。其中物体的区域信息可以为该物体的包绕框(bounding-box)，该物体的标签可以为该物体的一个唯一标识，具体可以采用数字、字母、特殊符号以及汉字等中任意一种，或者至少两种组合来标识。

本实施例的视频检测模型的训练方法，通过采用基于检测网络模块和运动先验学习模块进行端到端的训练而成的视频检测模型，能够对视频中的各帧图像进行更加准确地识别，能够有效地提高视频检测的精度。

示例性装置

图5为本发明提供的视频检测模型的训练装置实施例一的结构图。如图5所示，本实施例的视频检测模型的训练装置，包括：

确定模块11，用于确定多个训练视频中的关键帧与非关键帧之间的预设关系；

采集模块12，用于基于关键帧与非关键帧之间的预设关系，从多个训练视频中采集数条训练样本；

训练模块13，用于根据数条训练样本，训练视频检测模型。

本实施例的视频检测模型的训练装置，通过采用上述模块实现视频检测模型的训练的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图6为本发明提供的视频检测模型的训练装置实施例二的结构图。如图6所示，本实施例的视频检测模型的训练装置，在上述图5所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

如图6所示，本实施例的采集模块12，包括：

图像获取单元121，用于基于确定模块11确定预设关系，从多个训练视频中抽取数组具有先后顺序排列的两个关键帧图像以及位于两个关键帧图像之后的一个非关键帧图像；

物体信息获取单元122用于获取非关键帧图像中标注的目标物体的区域信息和该目标物体对应的标签信息。

进一步可选地，本实施例的训练模块13，具体包括：

输入单元131用于对于各条训练样本，将对应的训练样本中的两个关键帧的图像数据和非关键帧的图像数据输入至视频检测模型中的运动先验学习模块；

获取单元132用于获取运动先验学习模块根据两个关键帧的图像数据进行特征融合，得到非关键帧的特征信息；

输入单元131还用于将融合得到的非关键帧的特征信息输入至视频检测模型中的检测网络模块；

获取单元132还用于获取检测网络模块预测的非关键帧的图像数据中的训练物体的区域信息和标签信息；

计算单元133用于根据预测的训练物体的区域信息和标签信息、以及标注的训练物体的区域信息和对应的标签信息，计算检测损失；

调整单元134用于基于检测损失，调整视频检测模型的参数。

进一步可选地，本实施例的训练模块13，还包括判断单元135和确定单元136：

判断单元135用于判断计算单元133计算的检测损失是否收敛；

调整模块134若判断单元135判断并确定检测损失未收敛，采用梯度下降法对运动先验学习模块和检测网络模块中的参数进行调整；

确定单元136用于在确定检测损失收敛时，确定运动先验学习模块和检测网络模块中的参数，确定运动先验学习模块和检测网络模块，进而确定视频检测模型。

进一步可选地，本实施例的训练模块13，还包括：

初始化单元137用于对运动先验学习模块和检测网络模块中的参数进行随机初始化。

对应地，上述训练模块13中的各单元的处理，均是基于初始化单元137后的操作进行。

图7为本发明的视频检测装置实施例的结构图。如图7所示，本实施例的视频检测装置，具体可以包括：

获取模块21用于获取待检测的视频；

检测模块22用于根据获取模块21获取的视频和预先训练的视频检测模型，获取从视频的各帧图像中检测到的物体的区域信息和对应的标签；其中视频检测模型基于检测网络模块和运动先验学习模块进行端到端的训练而成。

本实施例的视频检测装置，通过采用上述模块实现视频检测的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

示例性电子设备

图8图示了根据本申请实施例的电子设备的框图。

如图8所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的视频检测模型的训练方法、视频检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，该输入装置113可以是上述的摄像头或麦克风、麦克风阵列等，用于捕捉图像或声源的输入信号。在该电子设备是单机设备时，该输入装置123可以是通信网络连接器，用于从神经网络处理器接收所采集的输入信号。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的输出电压、输出电流信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的视频检测模型的训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的视频检测模型的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频检测模型的训练方法，包括：

确定多个训练视频中的关键帧与非关键帧之间的预设关系；

根据所述数条训练样本，训练所述视频检测模型。

2.根据权利要求1所述的方法，其特征在于，基于所述关键帧与非关键帧之间的预设关系，从所述多个训练视频中采集数条训练样本包括：

基于所述预设关系，从所述多个训练视频中抽取数组具有先后顺序排列的两个关键帧图像以及位于所述两个关键帧图像之后的一个非关键帧图像；

获取所述非关键帧图像中标注的目标物体的区域信息和该目标物体对应的标签信息。

3.根据权利要求1所述的方法，其中，根据数条所述训练样本，训练所述视频检测模型，包括：

对于各条所述训练样本，将对应的所述训练样本中的所述两个关键帧的图像数据和所述非关键帧的图像数据输入至视频检测模型中的运动先验学习模块；

获取所述运动先验学习模块根据所述两个关键帧的图像数据进行特征融合，得到所述非关键帧的特征信息；

将融合得到的所述非关键帧的特征信息输入至所述视频检测模型中的检测网络模块；

获取所述检测网络模块预测的所述非关键帧的图像数据中的所述训练物体的区域信息和所述标签信息；

根据预测的所述训练物体的区域信息和所述标签信息、以及标注的所述训练物体的区域信息和对应的所述标签信息，计算检测损失；

基于所述检测损失，调整所述视频检测模型的参数。

4.根据权利要求3所述的方法，其中，基于所述检测损失，调整所述视频检测模型的参数，包括：

判断所述检测损失是否收敛；

若未收敛，采用梯度下降法对所述运动先验学习模块和所述检测网络模块中的参数进行调整；

在确定所述检测损失收敛时，确定所述运动先验学习模块和所述检测网络模块中的参数，确定所述运动先验学习模块和所述检测网络模块，进而确定所述视频检测模型。

5.根据权利要求4所述的方法，其特征在于，对于各条所述训练样本，将对应的所述训练样本中的所述两个关键帧的图像数据和所述非关键帧的图像数据输入至所述运动先验学习模块中之前，所述方法还包括：

对所述运动先验学习模块和所述检测网络模块中的参数进行随机初始化。

6.一种视频检测模型的训练装置，包括：

7.根据权利要求6所述的装置，其特征在于，所述采集模块，包括：

图像获取单元，用于基于所述预设关系，从所述多个训练视频中抽取数组具有先后顺序排列的两个关键帧图像以及位于所述两个关键帧图像之后的一个非关键帧图像；

物体信息获取单元，用于获取所述非关键帧图像中标注的目标物体的区域信息和该目标物体对应的标签信息。

8.根据权利要求6所述的装置，其中，所述训练模块，包括：

输入单元，用于对于各条所述训练样本，将对应的所述训练样本中的所述两个关键帧的图像数据和所述非关键帧的图像数据输入至所述视频检测模型中的运动先验学习模块；

获取单元，用于获取所述运动先验学习模块根据所述两个关键帧的图像数据进行特征融合，得到所述非关键帧的特征信息；

所述输入单元，还用于将融合得到的所述非关键帧的特征信息输入至所述视频检测模型中的检测网络模块；

所述获取单元，还用于获取所述检测网络模块预测的所述非关键帧的图像数据中的所述训练物体的区域信息和所述标签信息；

计算单元，用于根据预测的所述训练物体的区域信息和所述标签信息、以及标注的所述训练物体的区域信息和对应的所述标签信息，计算检测损失；

调整单元，用于基于所述检测损失，调整所述视频检测模型的参数。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一所述的视频检测模型的训练方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-5任一所述的视频检测模型的训练方法。