CN113051430B

CN113051430B - 模型训练方法、装置、电子设备、介质及产品

Info

Publication number: CN113051430B
Application number: CN202110324886.5A
Authority: CN
Inventors: 朱文涛; 李江东; 吕廷迅; 班鑫
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2024-03-26
Anticipated expiration: 2041-03-26
Also published as: CN113051430A

Abstract

本公开提供了视频分析模型训练方法、装置、设备、介质及产品，在训练机器学习模型的过程中，是将样本视频的图像集合作为输入，而不是将整个样本视频作为输入。样本视频的图像集合包含第二视频图像以及从样本视频中抽取得到的第一视频图像。第二视频图像为设定图像，由于样本视频的图像集合包含的图像数目小于样本视频包含的所有图像的数目，所以训练机器学习模型的速度较快。由于第二视频图像可能与样本视频无关，所以需要确定掩膜参数，掩膜参数用于记录图像集合中有效图像的位置以及无效图像的位置，将图像集合和掩膜参数作为输入机器学习模型，以使得机器学习模型基于第一视频图像得到样本视频的分析结果。使得训练的机器学习模型更加准确。

Description

模型训练方法、装置、电子设备、介质及产品

技术领域

本公开涉及人工智能技术领域，尤其涉及视频分析模型训练方法、装置、设备、介质及产品。

背景技术

视频类客户端能够向用户推荐用户感兴趣的视频，或者，能够向用户展示视频的分类标签(例如综艺节目、电影、动漫等分类标签)，以便于用户能够基于视频的分类标签查找到相应的视频。

相关技术中，用户感兴趣的视频或视频的分类标签均是基于视频的视频内容信息确定的，视频的视频内容信息的获取方法可以是将视频输入机器学习模型，以得到机器学习模型输出的视频内容信息。机器学习模型是通过将多个视频作为输入训练得到的。

相关技术中训练机器学习模型的速度较慢。

发明内容

本公开提供一种视频分析模型训练方法、装置、设备、介质及产品，以至少解决相关技术中训练机器学习模型的速度较慢的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频分析模型训练方法，包括：

从样本视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第一视频图像；

确定所述样本视频对应的图像集合，所述图像集合包括所述第一视频图像以及第一数目个第二视频图像，所述第二视频图像为设定图像，所述第一视频图像的数目与所述第一数目之和为预设数目，样本视频集合中不同样本视频分别对应的图像集合包含的图像的数目均为所述预设数目；

基于所述图像集合，确定掩膜参数，所述掩膜参数用于记录所述图像集合中有效图像的位置以及无效图像的位置，所述第一视频图像为有效图像，所述第二视频图像为无效图像；

将所述图像集合以及所述掩膜参数作为机器学习模型的输入，将所述样本视频对应的人工标注分类标签作为训练目标，训练得到视频分析模型。

结合第一方面，在第一种可能实现方式中，所述基于所述图像集合，确定掩膜参数步骤包括：

确定所述第一视频图像位于所述图像集合中的第一位置；

确定所述第二视频图像位于所述图像集合中的第二位置；

基于所述第一位置以及所述第二位置，确定所述掩膜参数，所述掩膜参数中位于所述第一位置对应的位置处的元素为第一字符，位于所述第二位置对应的位置处的元素为第二字符；其中，第一字符表征位于所述图像集合的所述第一位置的图像为有效图像，所述第二字符表征位于所述图像集合的所述第二位置的图像为无效图像。

结合第一方面，在第二种可能实现方式中，所述从样本视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第一视频图像步骤包括：

接收来自存储设备的样本视频，所述样本视频为所述存储设备压缩编码后的视频；

从所述样本视频包含的多个关键帧中获得目标关键帧；

获取抽样间隔；

从所述样本视频包含的所述目标关键帧对应的非关键帧中，每隔所述抽样间隔抽取一个非关键帧，以得到至少一个非关键帧，所述非关键帧是基于所述目标关键帧压缩的；

解码所述目标关键帧以及所述至少一个非关键帧，以得到所述第一视频图像。

结合第一方面，在第三种可能实现方式中，提供一种所述获取抽样间隔步骤包括：

基于所述样本视频的帧率以及每秒处理图像数，计算得到所述抽样间隔；或，

获取预先设置的所述抽样间隔。

结合第一方面，在第四种可能实现方式中，提供一种所述将所述样本视频对应的所述图像集合以及所述掩膜参数作为机器学习模型的输入，将所述样本视频对应的人工标注分类标签作为训练目标，训练得到视频分析模型步骤包括：

将所述图像集合以及所述掩膜参数输入至机器学习模型；

所述机器学习模型执行以下步骤：

获得所述图像集合对应的特征信息集合，所述特征信息集合包括所述第一视频图像对应的特征信息以及所述第二视频图像对应的特征信息；

基于所述掩膜参数从所述特征信息集合中筛选出所述第一视频图像对应的特征信息；

基于所述第一视频图像对应的特征信息，确定分类标签，所述机器学习模型用于输出所述第一视频图像对应的特征信息或所述分类标签；

基于所述分类标签与所述人工标注分类标签的比较结果，训练所述机器学习模型，以得到所述视频分析模型。

结合第一方面，在第五种可能实现方式中，提供一种所述获得所述图像集合对应的特征信息集合步骤包括：

获得所述图像集合中各图像分别对应的帧内特征信息；

基于所述图像集合中各图像分别对应的帧内特征信息，获得所述特征信息集合，所述第一视频图像对应的特征信息包括多个所述第一视频图像之间的帧间特征信息，所述第二视频图像对应的特征信息包括多个所述第二视频图像之间的帧间特征信息，和/或，所述第二视频图像与所述第一视频图像之间的帧间特征信息。

结合第一方面，在第六种可能实现方式中，提供一种所述特征信息集合中有效图像的特征信息的位置与所述图像集合中有效图像的位置相同，所述基于所述掩膜参数从所述特征信息集合中筛选出所述第一视频图像对应的特征信息步骤包括：

确定所述掩膜参数表征的有效图像的特征信息在所述特征信息集合中的第三位置；

获得所述特征信息集合中所述第三位置处的特征信息，以得到所述第一视频图像对应的特征信息。

结合第一方面，在第七种可能实现方式中，提供一种所述视频分析模型训练方法还包括：

从待测视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第三视频图像；

将所述第三视频图像输入至所述视频分析模型，通过所述视频分析模型获得所述待测视频对应的分析结果，所述分析结果包括所述第三视频图像的特征信息或所述待测视频的分类标签。

结合第一方面，在第八种可能实现方式中，提供一种确定掩膜参数步骤之后，还包括：

将所述样本视频对应的所述图像集合以及所述掩膜参数存储至数据库；

在所述将所述图像集合以及所述掩膜参数作为机器学习模型的输入，将所述样本视频对应的人工标注分类标签作为训练目标，训练得到所述视频分析模型步骤之前还包括：

从所述数据库中获得所述样本视频对应的所述图像集合以及所述掩膜参数。

根据本公开实施例的第二方面，提供一种视频分析模型训练装置，包括：

第第一获取模块，被配置为从样本视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第一视频图像；

第一确定模块，被配置为确定所述样本视频对应的图像集合，所述图像集合包括所述第一视频图像以及第一数目个第二视频图像，所述第二视频图像为设定图像，所述第一视频图像的数目与所述第一数目之和为预设数目，样本视频集合中不同样本视频分别对应的图像集合包含的图像的数目均为所述预设数目；

第二确定模块，被配置为基于所述图像集合，确定掩膜参数，所述掩膜参数用于记录所述图像集合中有效图像的位置以及无效图像的位置，所述第一视频图像为有效图像，所述第二视频图像为无效图像；

训练模块，被配置为将所述图像集合以及所述掩膜参数作为机器学习模型的输入，将所述样本视频对应的人工标注分类标签作为训练目标，训练得到视频分析模型。

结合第二方面，在第一种可能实现方式中，所述第二确定模块具体被配置为：

第一确定单元，被配置为确定所述第一视频图像位于所述图像集合中的第一位置；

第二确定单元，被配置为确定所述第二视频图像位于所述图像集合中的第二位置；

第三确定单元，被配置为基于所述第一位置以及所述第二位置，确定所述掩膜参数，所述掩膜参数中位于所述第一位置对应的位置处的元素为第一字符，位于所述第二位置对应的位置处的元素为第二字符；其中，第一字符表征位于所述图像集合的所述第一位置的图像为有效图像，所述第二字符表征位于所述图像集合的所述第二位置的图像为无效图像。

结合第二方面，在第二种可能实现方式中，所述第一获取模块具体被配置为：

接收单元，被配置为接收来自存储设备的样本视频，所述样本视频为所述存储设备压缩编码后的视频；

第一获取单元，被配置为从所述样本视频包含的多个关键帧中获得目标关键帧；

第二获取单元，被配置为获取抽样间隔；

第三获取单元，被配置为从所述样本视频包含的所述目标关键帧对应的非关键帧中，每隔所述抽样间隔抽取一个非关键帧，以得到至少一个非关键帧，所述非关键帧是基于所述目标关键帧压缩的；

解码单元，被配置为解码所述目标关键帧以及所述至少一个非关键帧，以得到所述第一视频图像。

结合第二方面，在第三种可能实现方式中，提供一种所述第二获取单元具体被配置为：

计算子单元，被配置为基于所述样本视频的帧率以及每秒处理图像数，计算得到所述抽样间隔；或，

获取子单元，被配置为获取预先设置的所述抽样间隔。

结合第二方面，在第四种可能实现方式中，提供一种所述训练模块具体被配置为：

输入单元，被配置为将所述图像集合以及所述掩膜参数输入至机器学习模型；

所述机器学习模型包括以下模块：

特征提取模块，被配置为获得所述图像集合对应的特征信息集合，所述特征信息集合包括所述第一视频图像对应的特征信息以及所述第二视频图像对应的特征信息；

有效特征提取模块，被配置为基于所述掩膜参数从所述特征信息集合中筛选出所述第一视频图像对应的特征信息；

标签预测模块，被配置为基于所述第一视频图像对应的特征信息，确定分类标签，所述机器学习模型用于输出所述第一视频图像对应的特征信息或所述分类标签；

训练单元，被配置为基于所述分类标签与所述人工标注分类标签的比较结果，训练所述机器学习模型，以得到所述视频分析模型。

结合第二方面，在第五种可能实现方式中，提供一种所述特征提取模块具体被配置为：

帧内特征提取模块，被配置为获得所述图像集合中各图像分别对应的帧内特征信息；

帧间特征提取模块，被配置为基于所述图像集合中各图像分别对应的帧内特征信息，获得所述特征信息集合，所述第一视频图像对应的特征信息包括多个所述第一视频图像之间的帧间特征信息，所述第二视频图像对应的特征信息包括多个所述第二视频图像之间的帧间特征信息，和/或，所述第二视频图像与所述第一视频图像之间的帧间特征信息。

结合第二方面，在第六种可能实现方式中，提供一种所述特征信息集合中有效图像的特征信息的位置与所述图像集合中有效图像的位置相同，所述有效特征提取模块具体被配置为：

提取位置模块，被配置为确定所述掩膜参数表征的有效图像的特征信息在所述特征信息集合中的第三位置；

提取特征模块，被配置为获得所述特征信息集合中所述第三位置处的特征信息，以得到所述第一视频图像对应的特征信息。

结合第二方面，在第七种可能实现方式中，提供一种还包括：

第二获取模块，被配置为从待测视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第三视频图像；

分析模块，被配置为将所述第三视频图像输入至所述视频分析模型，通过所述视频分析模型获得所述待测视频对应的分析结果，所述分析结果包括所述第三视频图像的特征信息或所述待测视频的分类标签。

结合第二方面，在第八种可能实现方式中，提供一种还包括：

存储模块，被配置为将所述样本视频对应的所述图像集合以及所述掩膜参数存储至数据库；

第三获取模块，被配置为从所述数据库中获得所述样本视频对应的所述图像集合以及所述掩膜参数。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述视频分析模型训练方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的视频分析模型训练方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，可直接加载到计算机的内部存储器，例如上述第三方面所述电子设备包含的存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现如第一方面所述的视频分析模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的视频分析模型训练方法中，可以从样本视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第一视频图像；确定样本视频对应的图像集合，所述图像集合包括第一视频图像以及第一数目个第二视频图像，第二视频图像为设定图像，第一视频图像的数目与第一数目之和为预设数目，样本视频集合中不同样本视频分别对应的图像集合包含的图像的数目均为预设数目；基于图像集合，确定掩膜参数，掩膜参数用于记录图像集合中有效图像的位置以及无效图像的位置，第一视频图像为有效图像，第二视频图像为无效图像；将图像集合以及掩膜参数作为机器学习模型的输入，将样本视频对应的人工标注分类标签作为训练目标，训练得到视频分析模型。由于将图像集合包含的图像数目小于样本视频包含的图像的数目，所以利用样本视频的图像集合训练机器学习模型的速度较快。在训练机器学习模型的过程中，需要同时向机器学习模型输入多个样本视频分别对应的图像集合，因此需要多个样本视频分别对应的图像集合中包含的图像的数目相同，例如，均为预设数目，本公开实施例中，若从样本视频中抽取得到的第一视频图像的数目小于预设数目，需要利用第二视频图像补齐。由于第二视频图像可能与样本视频无关，所以需要将掩膜参数输入机器学习模型，以使得机器学习模型基于第一视频图像得到样本视频的分析结果。使得训练机器学习模型更加准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的本公开实施例应用的硬件的结构图；

图2是根据一示例性实施例示出的一种视频分析模型训练方法的流程图；

图3a是根据一示例性实施例示出的从样本视频中抽取得到目标关键帧的一种实现方式的示意图；

图3b是根据一示例性实施例示出的从样本视频中抽取得到目标关键帧的又一实现方式的示意图；

图4是根据一示例性实施例示出的第一种类型的视频分析模型对应的机器学习模型的结构图；

图5是根据一示例性实施例示出的基于视频分析模型获得待测视频的分析结果的方法的流程图；

图6是根据一示例性实施例示出的一种视频分析模型训练装置框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供了视频分析模型训练方法、装置、设备、介质及产品，在介绍本公开实施例提供的技术方案之前，先介绍本公开实施例应用的网络环境和硬件。

图1是根据一示例性实施例示出的本公开实施例应用的硬件的结构图。本公开实施例应用的硬件包括：第一电子设备11、第二电子设备12、第三电子设备13、至少一个存储设备14。

示例性的，第一电子设备11、第二电子设备12、第三电子设备13中任一电子设备可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如，手机、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视等。

示例性的，第一电子设备11、第二电子设备12、第三电子设备13中任一电子设备可以为一台服务器，也可以是由多台服务器组成的服务器集群，或者，是一个云计算服务中心。

示例性的，第一电子设备11、第二电子设备12、第三电子设备13中任意至少两个电子设备可以为同一电子设备；或者，第一电子设备11、第二电子设备12、第三电子设备13均为独立的电子设备。

示例性的，存储设备14可以为硬盘或数据库或服务器。示例性的，存储设备14可以为CDN(Content Delivery Network，内容分发网络)服务器。

示例性的，存储设备14可以集成于第一电子设备11，或独立于第一电子设备11。

应当注意的是，图1中示出了三个存储设备14，存储设备14的数目可以基于实际情况而定，本公开实施例并不限定存储设备14的数目。图1中以存储设备为服务器、数据库和硬盘为例进行的说明。

示例性的，存储设备14用于存储多个视频。

示例性的，不同存储设备14可以对应不同产品，例如，同一企业有多个产品，例如，应用程序APP1、应用程序APP2、应用程序APP3，不同应用程序对应的存储设备可能不同，例如，应用程序APP1对应存储设备1、应用程序APP2对应存储设备2、应用程序APP3对应存储设备3。

示例性的，不同存储设备中存储的视频可以是其相应的客户端的用户上传的。

不同存储设备14存储的视频的数据格式可能不同，示例性的，视频的数据格式包括但不限于：File Path(文件路径)、File对象、URL(uniform resource locator，统一资源定位***)、Jar(Java ARchive)包、Kafka、gRPC(Google Remote procedure call，Google远程过程调用)

示例性的，不同存储设备14所在的地理位置可能不同。

在一可选实现方式中，第一电子设备11可以从一个或多个存储设备14中分别获得视频，即第一电子设备11可以从存储有不同数据格式的视频的存储设备14中分别读取视频。

示例性的，第一电子设备11可以存储有不同数据格式分别对应的数据读取方式，如图1所示，图1中是以第一电子设备11可以从存储有不同数据格式的视频的存储设备14中分别读取视频为例进行说明的。图1示出的三个存储设备14存储的数据格式分别为数据格式1、数据格式2、数据格式3。那么，第一电子设备从存储有数据格式1的视频的存储设备14中读取视频的方式与数据格式1对应；第一电子设备从存储有数据格式2的视频的存储设备14中读取视频的方式与数据格式2对应；第一电子设备从存储有数据格式3的视频的存储设备14中读取视频的方式与数据格式3对应。

在一可选实现方式中，第一电子设备11可以从不同存储设备14(不同存储设备14存储有相同数据格式的视频)中读取视频。

第一电子设备11对于每一视频，可以从视频包含的多帧视频图像中间隔抽取视频图像，以得到视频图像。

示例性的，第一电子设备11获得的视频可以为样本视频也可以为待测视频。

其中，样本视频是用于训练机器学习模型的，可以利用已经训练完毕的机器学习模型输出待测视频的分析结果。

本公开实施例称从样本视频抽取得到的视频图像为第一视频图像，称从待测视频抽取得到的视频图像为第三视频图像。

示例性的，第一电子设备11还包括缓存消息队列111和数据装载器112中的至少一个。

示例性的，第一电子设备11将多个视频分别对应的多个图像集合存储至缓存消息队列111。视频对应的图像集合包括从该视频中抽取得到的视频图像。一个视频对应一个图像集合。

可以理解的是，随着时间的流失，第一电子设备11处理的视频的数目越来越大，缓存消息队列111存储的图像集合越来越多。

示例性的，数据装载器112用于从第一电子设备11的内存中读取多个视频分别对应的图像集合。

示例性的，数据装载器12将视频对应的图像集合发送至第二电子设备12或第三电子设备13后，第一电子设备11不会存储该视频对应的图像集合。

本公开实施例中，上述多个视频分别对应的多个图像集合可以应用于两个应用场景，应用场景一是训练机器学习模型以得到视频分析模型的应用场景；应用场景二是基于已经训练好的视频分析模型对视频进行线上推理的应用场景。

下面结合不同应用场景进行说明。

应用场景一：训练机器学习模型以得到视频分析模型。

在应用场景一中，第一电子设备获得的视频称为样本视频。

示例性的，第一电子设备可以获得多个样本视频分别对应的人工标注分类标签，并存储至缓存消息队列中。

示例性的，第二电子设备可以从第一电子设备的缓存消息队列中获得多个样本视频分别对应的人工标注分类标签。

示例性的，第二电子设备可以通过第一电子设备的数据装载器获得多个样本视频分别对应人工标注分类标签。

第二电子设备12可以从第一电子设备11中获得多个样本视频分别对应的图像集合，将多个样本视频分别对应的图像集合作为机器学习模型121的输入，将多个样本视频分别对应的人工标注分类标签作为训练目标，训练得到视频分析模型。

示例性的，第一电子设备11将多个样本视频分别对应的图像集合存储至缓存消息队列111中，第二电子设备12可以从缓存消息队列111中获得多个样本视频分别对应的图像集合。

可以理解的是，由于缓存消息队列111已经存储有多个样本视频分别对应的图像集合，所以第二电子设备12在训练机器学习模型的过程中可以直接从缓存消息队列111中获得多个样本视频分别对应的图像集合，即本公开实施例分离了样本数据的提取的过程(获得多个样本视频分别对应的图像集合过程称为样本数据的提取过程)和机器学习模型的训练过程，从而使得在训练机器学习模型的过程中，无需等待样本数据的提取，提高了多个样本视频分别对应的图像集合的读取速度，进而提高了训练机器学习模型的速度。

第二电子设备12可以多次从缓存消息队列111中获得同一样本视频对应的图像集合。第一电子设备11无需多次对同一样本视频进行处理以得到该样本视频对应的图像集合，第一电子设备11需要处理一次样本视频并将得到的样本视频对应的图像集合存储至缓存消息队列111中即可。

示例性的，第一电子设备11将多个样本视频分别对应的图像集合通过数据装载器112实时发送至第二电子设备12，由于第一电子设备11并未存储多个样本视频分别对应的图像集合，所以若第二电子设备12需要同一样本视频对应的图像集合，第一电子设备11需要再次处理该样本视频。

图1中示出了缓存消息队列111以及数据装载器112，但是并不限定第一电子设备同时包括缓存消息队列111以及数据装载器112。示例性的，第一电子设备包括缓存消息队列111以及数据装载器112中至少一个。

可以理解的是，第二电子设备12可能利用GPU(Graphics Processing Unit，图形处理器)训练机器学习模型，由于GPU的内存有限，所以一次能够处理的数据量有限，因此，同时输入至机器学习模型的数据量是有限的，同时输入至机器学习模型的图像集合的数目越大训练得到的视频分析模型越准确。

本公开实施例中，将样本视频对应的图像集合作为机器学习模型的输入，与，将样本视频作为机器学习模型的输入相比，样本视频对应的图像集合包含的图像的数据量小于甚至远远小于该样本视频包含的所有视频图像的数量，因此，本公开实施例中同时输入机器学习模型的样本视频的图像集合的数目较多，使得训练得到的视频分析模型越准确。

下面介绍同时输入机器学习模型的图像集合的数目多少对机器学习模型的训练过程的影响。

可以理解的是，多个样本视频分别对应的人工标注分类标签可能有误，样本视频的人工标注分类标签出现错误的情况可能有以下两种。

第一种情况：人为对样本视频进行标注时，标注的人工标注分类标签错误。

例如，视频A的实际分类标签为动漫分类标签，但是人为将其标注为非动漫分类标签。

第二种情况：一个样本视频可能对应多个实际分类标签，假设视频对应分类标签A、分类标签B，在训练机器学习模型的过程中需要样本视频对应的分类标签A，但是人为在标注时，将该样本视频人工标注成分类标签B。

例如，一个样本视频对应的实际分类标签为动漫分类标签、穿越分类标签，假设，在训练机器学习模型时，需要该样本视频的穿越分类标签，但是人工将其标注成动漫分类标签。

若同时输入至机器学习模型的图像集合的数目较少，若同时输入的图像集合中一个或多个图像集合对应的样本视频的人工标注分类标签有误，具有错误人工标注分类标签的样本视频对机器学习模型的影响较大，可能使得机器学习模型更新后的参数相比训练之前更加不准确，使得机器学习模型的收敛速度较慢。

例如，同时输入至机器学习模型的图像集合的数目为3个，若3个图像集合中两个图像集合对应的样本视频的人工标注分类标签有误，那么，基于这3个图像集合训练机器学习模型后，机器学习模型更新后的参数相比训练之前更加不准确。

可以理解的是，在大量样本视频中，人工标注分类标签有误的样本视频的数量较少，若同时输入至机器学习模型的图像集合的数目较多，例如，为几百个或几千个或几万个图像集合，若少数几个图像集合对应的样本视频的人工标注分类标签有误，不会对机器学习模型中的参数造成很大影响，甚至没有影响，机器学习模型中的参数的鲁棒性较强。

综上，同时输入至机器学习模型的图像集合的数目越多，机器学习模型更新后的参数越准确，机器学习模型收敛速度越快，训练机器学习模型得到视频分析模型输出的分析结果越准确。

应用场景二：基于已经训练好的视频分析模型对视频进行线上推理。

在应用场景二中，将第一电子设备12获得的视频称为待测视频。

第二电子设备12可以将训练好的视频分析模型发送至第三电子设备13。

示例性的，第三电子设备13可以安装有torchserve服务平台。视频分析模型可以加载至torchserve服务平台。

第一电子设备11可以从存储设备13中获得待测视频，并得到待测视频对应的图像集合。

示例性的，第一电子设备11可以将一个或多个待测视频对应的图像集合存储至缓存消息队列111中，以使得第三电子设备13从缓存消息队列111中获得待测视频的图像集合。

示例性的，第一电子设备11可以将待测视频的图像集合通过数据装载器112实时发送至第三电子设备14。

第三电子设备13接收到待测视频对应的图像集合后，将待测视频对应的图像集合输入视频分析模型131，以得到视频分析模型输出的分析结果。

示例性的，待测视频的分析结果，可以为从待测视频中抽取得到的视频图像的特征信息，或，待测视频的分类标签。

示例性的，待测视频的分类标签是基于从待测视频中抽取得到的视频图像的特征信息得到的。

本公开实施例中，将视频对应的图像集合作为视频分析模型的输入，与将待测视频作为视频分析模型的输入相比，由于视频对应的图像集合比视频的数据量少，因此视频分析模型的处理速度较快。

本公开实施例中可以分离从获取待测视频的图像集合过程和线上推理过程(即视频分析模型获得待测视频的分析结果的过程)。示例性的，在执行线上推理过程之前，已经获得了待测视频对应的第三视频图像，在线上推理过程中，直接从第一电子设备中获得该待测视频对应的图像集合即可，无需等待获取待测视频的图像集合的过程，从而提高了待测视频对应的图像集合的读取速度，进而提高了线上推理的速度。

在一可选实现方式中，第三电子设备13将待测视频的分析结果发送至相应的相应设备。

示例性的，该相应设备可以基于多个视频分别对应的分析结果，计算多个视频的相似度(例如余弦相似度、欧几里得距离、皮尔逊相关系数或Tanimoto系数)，以实现客户端为用户推荐其感兴趣的视频的目的。

示例性的，若分析结果为从待测视频中抽取得到的视频图像的特征信息，那么该相应设备可以基于待测视频的分析结果，得到待测视频的分类标签，以实现为用户展示待测视频的分类标签的目的。

在一可选实现方式中，若分析结果为从待测视频中抽取得到的视频图像的特征信息，那么第三电子设备13基于待测视频的分析结果获得待测视频的分类标签。第三电子设备13将待测视频的分类标签发送至相应设备。

示例性的，该相应设备可以基于待测视频的分类标签，实现客户端为用户展示待测视频的分类标签的目的。

本领域技术人员应能理解上述电子设备和存储设备仅为举例，其他现有的或今后可能出现的电子设备或存储设备如可适用于本公开，也应包含在本公开保护范围以内，并在此以引用方式包含于此。

下面结合上述网络环境和硬件对本公开实施例提供的数据获取方法进行说明。

图2是根据一示例性实施例示出的一种视频分析模型训练方法的流程图，如图2所示，该方法可以用于第一电子设备11以及第二电子设备12中，该方法在实施过程中包括以下步骤S21至步骤S24。

在步骤S21中，从样本视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第一视频图像。

在步骤S22中，确定所述样本视频对应的图像集合。

所述图像集合包括所述第一视频图像以及第一数目个第二视频图像，所述第二视频图像为设定图像，所述第一视频图像的数目与所述第一数目之和为预设数目，样本视频集合中不同样本视频分别对应的图像集合包含的图像的数目均为所述预设数目。

示例性的，第一数目可以为0、1、2、3，…任意整数。

在步骤S23中，基于所述图像集合，确定掩膜参数，所述掩膜参数用于记录所述图像集合中有效图像的位置以及无效图像的位置，所述第一视频图像为有效图像，所述第二视频图像为无效图像。

在步骤S24中，将所述图像集合以及所述掩膜参数作为机器学习模型的输入，将所述样本视频对应的人工标注分类标签作为训练目标，训练得到所述视频分析模型。

可以理解的是，为了满足人类视觉的时间敏感度，视频中连续的视频图像的内容非常相似，相似的视频图像能够表达的信息基本相同，本公开实施例中，视频包括多组视频图像，其中，一组视频图像包括视频中连续且画面基本相似的多帧视频图像，将一组视频图像中任一帧视频图像称为非冗余视频图像，其他视频图像称为冗余视频图像。

可以理解的是，视频中多帧非冗余视频图像表达的信息可以代表该视频表达的信息，示例性的，第一视频图像即为视频中非冗余视频图像。

示例性的，第一视频图像的数目可以为一帧或多帧。

对于应用场景一，即训练机器学习模型以得到视频分析模型的应用场景，可以通过第一电子设备11对于样本视频集合中每一样本视频执行步骤S21至步骤S23，以得到多个样本视频分别对应的图像集合和掩膜参数。可以通过第二电子设备12执行步骤S24以训练得到视频分析模型。

示例性的，第一电子设备11和第二电子设备12可以为独立的电子设备，或，第一电子设备11和第二电子设备12可以为同一电子设备。

示例性的，第一电子设备11获得样本视频对应的掩膜参数后，可以将样本视频对应的掩膜参数存储在缓存消息队列中。

示例性的，第二电子设备可以从缓存消息队列中获得多个样本视频分别对应的掩膜参数。

示例性的，数据装载器可以从第一电子设备11的内存中获得样本视频对应的掩膜参数，并发送至第二电子设备。

对于应用场景二，即基于已经训练好的视频分析模型对待测视频进行线上推理的应用场景，可以通过第一电子设备执行步骤S21至步骤S22获得待测视频对应的图像集合。通过第三电子设备执行线上推理过程。

本公开实施例中，获得样本视频的图像集合和待测视频的图像集合的过程相同，下面均以获得样本视频的图像集合的过程为例进行说明，待测视频的图像集合的获取过程可以参见获得样本视频的图像集合的过程，本公开实施例不再赘述。

示例性的，样本视频集合包括多个样本视频，样本视频集合包含的多个样本视频是从一个或多个存储设备14中获得的。

可以理解的是，在训练机器学习模型的过程中，需要同时在机器学习模型中输入多个样本视频分别对应的图像集合。由于同时需要输入多个样本视频分别对应的图像集合，所以需要多个样本视频分别对应的图像集合包含的图像数目相同。

示例性的，样本视频集合中不同样本视频对应的图像集合包含的图像数目均为预设数目。

示例性的，预设数目可以为设定值。

示例性的，预设数目为样本视频集合中各样本视频分别对应的第一视频图像的数目的最大值。假设样本视频集合包括样本视频1、样本视频2以及样本视频3，预设数目＝max{从样本视频1抽取得到的第一视频图像的数目，从样本视频2抽取得到的第一视频图像的数目，从样本视频3抽取得到的第一视频图像的数目}。

可以理解的是，若从样本视频中抽取得到的第一视频图像的数目等于预设数目，则样本视频对应的图像集合不包括第二视频图像；若从样本视频中抽取得到的第一视频图像的数目小于预设数目，则样本视频对应的图像集合第一数目个第二视频图像。

其中，第一数目＝预设数目-从样本视频中抽取得到的第一视频图像的数目。

下面对第二视频图像进行说明。

示例性的，第二视频图像可以为设定图像。

示例性的，不同样本视频对应的图像集合中包含的第二视频图像可以相同；示例性的，不同样本视频对应的图像集合中包含的第二视频图像可以不同。下面举例进行说明获得第二视频图像的过程。

在一可选实现方式中，若从样本视频中抽取得到第一视频图像的总数目小于预设数目，可以通过以下两种方式获得第二视频图像。

第一种方式：复制样本视频中已抽取得到的第一视频图像，以得到第二视频图像。

假设，预设数目为20，从样本视频中抽取得到的第一视频图像的数目为4帧，那么，可以执行4次复制这4帧第一视频图像的操作，以得到16帧第二视频图像。

第二种方式：获得填充有预设设置的第二视频图像。

示例性的，第二视频图像中的像素值均为预设数值，例如0，或，1。

假设，预设数目为20，从样本视频中抽取得到的第一视频图像的数目为4帧，那么，可以得到像素值均为预设数值的16帧第二视频图像。

在一可选实现方式中，不同样本视频分别对应的图像集合包含的视频图像的大小相同，若不同，需要处理成大小相同的视频图像。

可以理解的是，由于样本视频对应的图像集合中可能包括第二视频图像，为了使得机器学习模型基于第一视频图像得到分析结果，而不基于第二视频图像得到分析结果，还需要获得样本视频对应的掩膜参数。

示例性的，掩膜参数的表现形式有多种，本公开实施例提供但不限于以下几种：向量、函数、链表中的任一种。

由于样本视频对应的掩膜参数记录有该样本视频对应的图像集合中有效图像的位置以及无效图像的位置，所以机器学习模型可以基于掩膜参数得到第一视频图像的特征信息，从而基于第一视频图像的特征信息输出分析结果，从而使得训练得到的视频分析模型更加准确。

示例性的，可以基于机器学习模型输出的多个样本视频分别对应的分类标签与多个样本视频分别对应的人工标注分类标签进行比较，以得到损失函数。通过损失函数训练机器学习模型。

示例性的，损失函数可以为交叉墒损失函数、多标签损失函数、triplet marginloss、度量函数(比如precision，recall，F1)中的至少一个。

可以理解的是，在大量样本视频中，人工标注分类标签有误的样本视频的数量较少，若同时输入至机器学习模型的图像集合的数目较多，例如，为几百个或几千个或几万个样本数据，若少数几个样本视频的人工标注分类标签有误，不会对机器学习模型中的参数造成很大影响，甚至没有影响。

在机器学习模型一次能够处理的数据量一定的情况下，由于样本视频的图像集合包含的图像数目小于样本视频包含的图像的总数目，即样本视频的图像集合的数据量小于样本视频的数据量，所以本公开实施例能够向机器学习模型输入更多的图像集合，即提高了机器学习模型的吞吐量，所以训练得到的机器学习模型更加准确。

本公开实施例提供的视频分析模型训练方法中，从样本视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第一视频图像；确定样本视频对应的图像集合，所述图像集合包括第一视频图像以及第一数目个第二视频图像，第二视频图像为设定图像，第一视频图像的数目与第一数目之和为预设数目，样本视频集合中不同样本视频分别对应的图像集合包含的图像的数目均为预设数目；基于图像集合，确定掩膜参数，掩膜参数用于记录图像集合中有效图像的位置以及无效图像的位置，第一视频图像为有效图像，第二视频图像为无效图像；将图像集合以及掩膜参数作为机器学习模型的输入，将样本视频对应的人工标注分类标签作为训练目标，训练得到视频分析模型。由于将图像集合包含的图像数目小于样本视频包含的图像的数目，所以利用样本视频的图像集合训练机器学习模型的速度较快。在训练机器学习模型的过程中，需要同时向机器学习模型输入多个样本视频分别对应的图像集合，因此需要多个样本视频分别对应的图像集合中包含的图像的数目相同，例如，均为预设数目，本公开实施例中，若从样本视频中抽取得到的第一视频图像的数目小于预设数目，需要利用第二视频图像补齐。由于第二视频图像可能与样本视频无关，所以需要将掩膜参数输入机器学习模型，以使得机器学习模型基于第一视频图像得到样本视频的分析结果。使得训练机器学习模型更加准确。

本公开实施例中步骤S21的实现方式有多种，本公开实施例提供但不限于以下三种。

第一种步骤S21的实现方式包括步骤A11至步骤A14。

在步骤A11中，接收来自存储设备的样本视频，所述样本视频为所述存储设备压缩编码后的视频。

示例性的，样本视频可以是第一电子设备11从存储设备14中获得的，存储设备14将样本视频发送至第一电子设备14时，已经将样本视频进行了压缩编码。

在步骤A12中，获取抽样间隔。

示例性的，抽样间隔可以为相邻两个第一视频图像之间间隔的时长，或者，相邻两个第一视频图像之间间隔的视频图像的数目。

在步骤A13中，从样本视频包含的多个关键帧中每隔所述抽样间隔抽取一个关键帧，以得到至少一个目标关键帧。

示例性的，所述样本视频包含的各帧均为关键帧。若样本视频的压缩编码方式为每个视频图像独立编码，即样本视频包含的帧均为关键帧，那么可以采用步骤A13的方式从样本视频中抽取得到至少一个目标关键帧。

示例性的，样本视频包含关键帧以及非关键帧，步骤A13从样本视频包含的多个关键帧中抽取得到目标关键帧。

示例性的，抽取的第一个目标关键帧的位置即抽帧起始位置可以是随机的。示例性的，抽帧起始位置可以是预先设置的，例如，抽帧起始位置为样本视频的第一个关键帧或者第二个关键帧或第三个关键帧。

在步骤A14中，解码所述至少一个目标关键帧，以得到第一视频图像。

本公开实施例中在对样本视频进行解码时，不是对样本视频整体解码，而是从样本视频中每隔抽样间隔抽取一个关键帧，对抽取得到的目标关键帧进行解码，以得到第一视频图像。节省了解码样本视频的时间。

在一可选实现方式中，本公开实施例中可以先对样本视频进行解码，然后对解码后的样本视频执行步骤A12至步骤A13。

为了本领域技术人员更加理解本公开实施例提供的从样本视频中抽取得到目标关键帧的方法，下面举例进行说明。

图3a是根据一示例性实施例示出的从样本视频中抽取得到目标关键帧的一种实现方式的示意图。

图3a中以抽样间隔为相邻两个第一视频图像之间间隔的视频图像的数目为例进行说明，假设抽样间隔为5，样本视频包括20帧关键帧，抽帧起始位置为视频的第一个关键帧。那么，如图3a所示，被黑色箭头指示的关键帧(用填充网状的四边形表示)为抽取得到的目标关键帧。抽取得到的相邻两个目标关键帧之间间隔的关键帧数目为5。

第二种步骤S21的实现方式包括步骤A21至步骤A23。

在步骤A21中，接收来自存储设备的样本视频，所述样本视频为所述存储设备压缩编码后的视频。

在步骤A22中，随机从样本视频包含的多个关键帧中抽取得到至少一个目标关键帧。

由于是随机抽取的，所以不同相邻两个目标关键帧之间间隔的关键帧的数目可能不同，可能相同。

示例性的，所述样本视频包含的各帧均为关键帧。若样本视频的压缩编码方式为每个视频图像独立编码，即样本视频包含的帧均为关键帧，那么可以采用步骤A22的方式从样本视频中随机抽取得到至少一个目标关键帧。

示例性的，样本视频包含关键帧以及非关键帧，步骤A22从样本视频包含的多个关键帧中随机抽取得到目标关键帧。

在步骤A23中，解码所述至少一个目标关键帧，以得到第一视频图像。

本公开实施例中在对样本视频进行解码时，不是对样本视频整体解码，而是从样本视频中随机抽取得到的目标关键帧进行解码，以得到第一视频图像。节省了解码样本视频的时间。

在一可选实现方式中，本公开实施例中可以先对样本视频进行解码，然后对解码后的样本视频执行步骤A22。

为了本领域技术人员更加理解本公开实施例从样本视频中抽取得到目标关键帧的方法，下面举例进行说明。

图3b是根据一示例性实施例示出的从样本视频中抽取得到目标关键帧的又一实现方式的示意图。

假设视频包括20帧关键帧，抽帧起始位置为样本视频的第一个关键帧。那么，如图3b所示，被黑色箭头指示的关键帧(用填充网状的四边形表示)为目标关键帧。

如图3b所示，从样本视频中抽取得到的目标关键帧依次为：目标关键帧31、目标关键帧32、目标关键帧33、目标关键帧34。

目标关键帧31和目标关键帧32之间间隔1个关键帧，目标关键帧32和目标关键帧33之间间隔4个关键帧，目标关键帧33和目标关键帧34之间间隔8个关键帧。

第三种步骤S21的实现方式包括步骤A31至步骤A34。

在步骤A31中，接收来自存储设备的样本视频，所述样本视频为所述存储设备压缩编码后的视频。

在步骤A32中，从所述样本视频包含的多个关键帧中获得目标关键帧。

目标关键帧的数目可以为一个或多个。

示例性的，从样本视频包含的多个关键帧中每隔抽样间隔抽取一个关键帧，以得到目标关键帧。该抽样间隔和步骤A32的抽样间隔可以相同可以不同。

示例性的，从样本视频包含的多个关键帧中随机抽取得到目标关键帧。

示例性的，将样本视频包含的各关键帧均确定为目标关键帧。

示例性的，从样本视频包含的多个关键帧中抽取目标关键帧的起始位置可以是随机的，也可以是预先设置的。

在步骤A32中，获取抽样间隔。

示例性的，抽样间隔可以为相邻两个非关键帧之间间隔的时长，或者，相邻两个非关键帧之间间隔的关键帧和非关键帧的总数目。

在步骤A33中，从所述样本视频包含的所述目标关键帧对应的非关键帧中，每隔所述抽样间隔抽取一个非关键帧，以得到至少一个非关键帧。

所述非关键帧是基于所述目标关键帧压缩的。

下面举例对目标关键帧对应的非关键帧进行说明。

假设一个视频包括视频图像1、视频图像2以及视频图像3，假设，在对视频进行压缩时，确定视频图像1对应关键帧、视频图像2以及视频图像3对应非关键帧。

那么，视频图像1对应的关键帧1是对视频图像1进行帧内压缩编码得到的；视频图像2对应的非关键帧1是基于视频图像2与视频图像1的帧间压缩编码得到的；视频图像3对应的非关键帧2是基于视频图像3与视频图像1的帧间压缩编码得到的。

上述非关键帧1和非关键帧2对应关键帧1。即非关键帧1和非关键帧2是基于关键帧1压缩的。

在步骤A34中，解码所述目标关键帧以及所述至少一个非关键帧，以得到所述第一视频图像。

示例性的，可以将样本视频中一个关键帧与该关键帧对应的非关键帧称为一组帧集合，那么，样本视频可以分为多组帧集合。

示例性的，对于步骤A32获得的每一目标关键帧所属帧集合而言，以所述目标关键帧为起始位置，每隔抽样间隔抽取一帧非关键帧，以得到步骤A33中的至少一帧非关键帧。

本公开实施例中在对样本视频进行解码时，不是对样本视频整体解码，而是从样本视频中抽取得到的目标关键帧以及所述至少一个非关键帧进行解码，以得到第一视频图像。节省了解码样本视频的时间。

在一可选实现方式中，本公开实施例中可以先对样本视频进行解码，然后对解码后的样本视频执行步骤A32至步骤A33。

在一可选实现方式中，第一电子设备可以从不同存储设备中获得不同格式的视频或相同格式的视频，该视频可以是样本视频或待测视频。下面对第一电子设备从存储设备中获得视频的过程进行说明。即从存储设备中获取视频的方法可以包括以下步骤：

步骤一，确定存储设备存储的视频的数据格式。

步骤二，基于所述数据格式，生成视频获取请求。

示例性的，不同数据格式对应的视频获取请求不同。例如，若存储设备为http(Hypertext Transfer Protocol，超文本传输协议)服务器，http服务器存储的视频的数据格式可能为Blobkey或URL(uniform resource locator，统一资源定位***)，那么，视频获取请求的格式为http请求的格式；若存储设备为硬盘，硬盘存储的视频的数据格式可能为File Path，那么，视频获取请求的格式为CPU(Central Processing Unit/Processor)读取指令的格式。

步骤三，向所述存储设备发送所述视频获取请求。

步骤四，接收所述存储设备反馈的视频。

上述视频可以为样本视频，也可以为待测视频。

上述实现方式支持从多种异构数据源中获得视频，多种异构数据源是指存储有不同数据格式的存储设备。

本公开实施例中，针对每一种数据格式，设定指定文件读取方案，即对于每一种数据格式，生成相应格式的视频获取请求，即用相应的方式从存储设备中读取视频。

本公开实施例中，可以从多种异构数据源中获得视频，从而能够得到大量样本视频，基于大量样本视频训练得到的视频分析模型更加准确。

在一可选实现方式中，无论是第一种步骤S21的实现方式还是第三种步骤S21的实现方式中对于每一样本视频，获得抽样间隔的实现方式有多种，本公开实施例提供但不限于以下三种。

第一种获得抽样间隔的实现方式为：基于所述样本视频的帧率以及每秒处理图像数，计算得到所述抽样间隔。

样本视频的帧率是指是以视频图像为单位连续出现在显示器上的频率，即样本视频每秒包含的视频图像的数目。每秒处理图像数是指每秒能够处理的视频图像的数目。

可以理解的是，视频中多帧连续视频图像的内容非常相似，为了满足人类视觉的时间敏感度，每秒处理图像数需要达到一定值，才能使得用户在观看视频时视频更流畅。本公开实施例中，视频包括多组视频图像，其中，一组视频图像包括视频中连续且视频的画面基本相似的多帧视频图像，将一组视频图像中任一帧视频图像称为非冗余视频图像，其他视频图像称为冗余视频图像。一般情况下，上述提及的“一组视频图像”包含视频图像的数目为视频的帧率/每秒处理图像数。

示例性的，抽样间隔＝视频的帧率/每秒处理图像数。此时，可以从视频包含的各组视频图像中分别抽取一个视频图像，从视频中抽取得到的视频图像彼此之间互不冗余，抽取得到的视频图像更能够代表整个视频的内容。

基于第一种实现方式得到的样本视频的图像集合训练机器学习模型，得到的机器学习模型更加准确。基于第一种实现方式得到的待测视频的图像集合通过视频分析模型得到的分析结果更加准确。

示例性的，具有不同帧率的视频的抽样间隔不同。

第二种获得抽样间隔的实现方式为：基于所述样本视频的时长、所述样本视频的帧率以及预设数目，计算得到所述抽样间隔。

不同样本视频分别对应的图像集合包含的图像数目相同且为所述预设数目。

示例性的，可以基于公式：抽样间隔＝视频的时长*视频的帧率/预设数目，得到抽样间隔。其中，视频的时长*视频的帧率即为视频包含的视频图像的总数目。

若不同样本视频分别对应的图像集合包含的图像数目相同，那么，为了能够获得样本视频表达的信息的“全貌”，可以基于上述公式均匀的从样本视频中抽取图像。

示例性的，包含的视频图像的总数目不同的样本视频的抽样间隔不同。对于包含的视频图像的总数目较少的样本视频而言，抽取得到的多帧第一视频图像可能存在冗余视频图像。

第三种获得抽样间隔的实现方式为：获取预先设置的所述抽样间隔。

示例性的，不同视频的抽样间隔相同。

在一可选实现方式中，步骤S23的实现方式有多种，本申请实施例提供但不限于以下方式。

第一种步骤S23的实现方式包括以下步骤B11至步骤B13。

在步骤B11中，确定所述第一视频图像位于所述图像集合中的第一位置。

在步骤B12中，确定所述第二视频图像位于所述图像集合中的第二位置。

在步骤B13中，基于所述第一位置以及所述第二位置，确定所述掩膜参数。

所述掩膜参数中位于所述第一位置对应的位置处的元素为第一字符，位于所述第二位置对应的位置处的元素为第二字符；其中，第一字符表征位于所述图像集合的所述第一位置的图像为有效图像，所述第二字符表征位于所述图像集合的所述第二位置的图像为无效图像。

示例性的，第一字符或第二字符可以为任意数字或字母或特殊符号，第一字符和第二字符不同。

由于字符(第一字符或第二字符)位于掩膜参数中的位置表征了该字符指示的图像(第一视频图像或第二视频图像)在图像集合中的位置，所以掩膜参数中可以不用携带字符与图像的对应关系，使得掩膜参数的数据量较少，提高了机器学习模型的吞吐量。

示例性的，掩膜参数还可以包括字符与图像的对应关系。

示例性的，图像集合的表现形式有多种，本公开实施例提供但不限于：矩阵、函数、链表中的任一种。掩膜参数的表现形式有多种，本公开实施例提供但不限于：矩阵、函数、链表中的任一种。

下面以图像集合为矩阵，掩膜参数为掩膜向量为例对图像集合和掩膜参数之间的关系进行说明。

假设样本视频对应的图像集合包含的第一视频图像的数目为M。第一数目个第二视频图像位于M个第一视频图像之后。M为大于或等于1的正整数。

示例性的，M个第一视频图像在图像集合的顺序为：M个第一视频图像按照在样本视频中出现的位置从早到晚依次排序。

示例性的，M个第一视频图像在图像集合的顺序可以随机排序。

假设预设数目为K，第一数目为N，N+M＝K。样本视频对应的图像集合H的矩阵形式如下：

样本视频对应的图像集合H为K×L的矩阵。其中，L为大于或等于1的正整数。

假设样本视频的图像集合中M个第一视频图像依次为：A₁、A₂、A₃，…，A_M，样本视频的图像集合中N个第二视频图像依次为：A_M+1、A_M+2、…，A_K，其中，矩阵A_i＝[a_i1 a_i2 … a_iL],i＝1,2,...,K。其中，a_ij可以为具体的数值，或者，为向量。其中，j＝1,2，…，L。

从样本视频的图像集合H中，可以确定第一图像位于图像集合H的位置为第一行第一列、第二行第一列、第三行第一列，…，第M行第一列，第二图像位于图像集合的位置为：第M+1行第一列，…，第K行第一列。

基于此可以确定掩膜向量Q。样本视频的图像集合H中第i行第一列对应掩膜向量Q的第一行第i列。

下面以第一字符为1，第二字符为0为例对掩膜向量进行说明。

掩膜向量Q＝[1 1 … 1_1M 0_1(M+1) … 0]，其中，掩膜向量Q中1的下标“1M”表示掩膜向量的第一行第M列，0的下标“1(M+1)”表示掩膜向量的第一行第M+1列。即掩膜向量中第一行第一列至第一行第M列的元素均为1，第一行第M+1列至第一行第K列的元素均为0。

在一可选实现方式中，样本视频的图像集合中N个第二视频图像可以位于M个第一视频图像之前。

在一可选实现方式中，样本视频的图像集合中N个第二视频图像和M个第一视频图像交叉设置，例如，样本视频的图像集合包括：第一视频图像、第二视频图像、第一视频图像、第一视频图像、第二视频图像，…。

下面对步骤S24中训练机器学习模型以得到视频分析模型训练过程进行说明。

训练机器学习模型以得到视频分析模型的方法有多种，本公开实施例提供但不限于以下方式。在训练机器学习模型时，需要输入多个样本视频分别对应的图像集合和掩膜参数。对于每一样本视频对应的图像集合和掩膜参数均执行以下步骤，步骤C11至步骤C15。

在步骤C11中，将样本视频对应的图像集合以及掩膜参数输入至机器学习模型。

所述机器学习模型执行以下步骤C12至步骤C13，或，步骤C12至步骤C14。

在一可选实现方式中，本公开实施例训练得到的视频分析模型的类型包括但不限于以下两种类型。

第一种类型：视频分析模型用于输出视频的分类标签。

第二种类型：视频分析模型用于输出视频的特征信息。

若是需要得到第一种类型的视频分析模型，则机器学习模型需要执行步骤C12至步骤C14；若是需要得到第二种类型的视频分析模型，则机器学习模型需要执行步骤C12至步骤C13。

下面结合机器学习模型的结构对步骤C12至步骤C13，或，步骤C12至步骤C14进行说明。

示例性的，第一种类型的视频分析模型对应的机器学习模型的结构如图4所示，包括：特征提取模块41、有效特征提取模块42以及标签预测模块43。其中，特征提取模块用于执行步骤C12。有效特征提取模块用于执行步骤C13。标签预测模块用于执行步骤C14。第二电子设备用于基于执行步骤C15。

示例性的，第二种类型的视频分析模型对应的机器学习模型包括：特征提取模块以及有效特征提取模块。其中，特征提取模块用于执行步骤C12。有效特征提取模块用于执行步骤C13。第二电子设备用于基于执行步骤C14和步骤C15。

示例性的，第二电子设备具有基于第一视频图像的特征信息获得分类标签的功能。

在步骤C12中，获得所述图像集合对应的特征信息集合，所述特征信息集合包括所述第一视频图像对应的特征信息以及所述第二视频图像对应的特征信息。

在步骤C13中，基于所述掩膜参数从所述特征信息集合中筛选出所述第一视频图像对应的特征信息。

在步骤C14中，基于所述第一视频图像对应的特征信息，确定分类标签。

所述机器学习模型用于输出所述第一视频图像对应的特征信息或所述分类标签。

在步骤C15中，基于所述分类标签与所述人工标注分类标签的比较结果，训练所述机器学习模型，以得到所述视频分析模型。

由于掩膜参数可以从特征信息集合中筛选出第一视频图像对应的特征信息，所以可以去除在样本视频对应的图像集合补充第二视频图像带来的影响。由于是基于第一视频图像对应的特征信息(而不是第二视频图像对应的特征信息)，确定分类标签，所以得到的分类标签更加准确，训练得到的机器学习模型更加准确。

示例性的，训练机器学习模型的过程涉及机器学习中的人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术中至少一种。

示例性的，机器学习模型可以为神经网络模型、逻辑回归模型、线性回归模型、支持向量机(SVM)、Adaboost、XGboost、Transformer-Encoder模型中任一种模型。

示例性的，神经网络模型可以为基于循环神经网络的模型、基于卷积神经网络的模型、基于Transformer-encoder的分类模型中的任一种。

示例性的，机器学习模型可以为基于循环神经网络的模型、基于卷积神经网络的模型以及基于Transformer-encoder的分类模型的深度混合模型。

示例性的，机器学习模型可以为基于注意力的深度模型、基于记忆网络的深度模型、基于深度学习的短文本分类模型中任一种。

基于深度学习的短文本分类模型为循环神经网络(RNN)或卷积神经网络(CNN)或者基于循环神经网络或卷积神经网络的变种。

示例性的，可以在已经预训练好的模型上做一些简单的领域适应性改造，以得到机器学习模型。示例性的，“简单的领域适应性改造”包括但不限于在已经预训练好的模型上，再次利用大规模无监督领域语料进行二次预训练，和/或，通过模型蒸馏的方式对已经预训练好的模型进行模型压缩。

在一可选实现方式中，步骤C12的实现方式有多种，本公开实施例提供但不限于以下方式。

在步骤D11中，获得所述图像集合中各图像分别对应的帧内特征信息。

示例性的，图像对应的帧内特征信息是基于该图像得到的，未考虑相邻图像之间的关系。

示例性的，一帧视频图像的帧内特征信息表征该帧视频图像包含的画面特征。

在步骤D12中，基于所述图像集合中各图像分别对应的帧内特征信息，获得所述特征信息集合。

所述第一视频图像对应的特征信息包括多个所述第一视频图像之间的帧间特征信息，所述第二视频图像对应的特征信息包括多个所述第二视频图像之间的帧间特征信息，和/或，所述第二视频图像与所述第一视频图像之间的帧间特征信息。

示例性的，多个视频图像的帧间特征信息表征多个视频图像之间的区别特征。

在一可选实现方式中，上述特征提取模块可以包括：帧内特征提取模块以及帧间特征提取模块。其中，帧内特征提取模块用于执行步骤D11，帧间特征提取模块用于执行步骤D12。

示例性的，帧内特征提取模块可以为torchvision pretrained模型，torchvisionpretrained模型包括resnets以及ResNeXt。或者，帧内特征提取模块可以为轻量级网络GhostNet，以减小训练机器学习模型的过程中占用的GPU(Graphics Processing Unit，图形处理器)内存。

示例性的，帧间特征提取模块可以为可选双向网络、GRU(Gated Recurrent Unit)网络、LSTM(Long Short-Term Memory，长短期记忆人工神经网络)网络、自注意transformer网络中至少一种。

在一可选实现方式中，步骤D12的实现方式有多种，本公开实施例提供但不限于以下两种。

第一种步骤D12的实现方式包括：基于图像集合中各两两相邻视频图像的帧内特征信息获得帧间特征信息，以得到特征信息集合。

下面结合样本视频的图像集合H对特征信息集合进行说明。

假设样本视频的图像集合样本视频的图像集合中各图像分别对应的帧内特征信息依次为：A₁的帧内特征信息、A₂的帧内特征信息、A₃的帧内特征信息，…，A_M的帧内特征信息、A_M+1的帧内特征信息、A_M+2的帧内特征信息、…，A_K的帧内特征信息。

其中，图像集合中任意两两相邻视频图像是指A_p和A_p+1。其中，p的取值为1至K-1中任一数值。

示例性的，特征信息集合包括：基于A_p的帧内特征信息和A_p+1的帧内特征信息得到的帧间特征信息。

示例性的，为了保留样本视频的“全貌”，特征信息集合还包括图像集合中目标第一视频图像的帧内特征信息。下面以图像集合中第一个第一视频图像为目标第一视频图像为例进行说明。特征信息集合中包含的帧间特征信息为图像集合中其他第一视频图像与目标第一视频图像之间的帧间特征信息。

示例性的，样本视频对应的特征信息集合

第二种步骤D12的实现方式包括：基于图像集合中第一个图像的帧内特征信息至图像集合中第W个图像的帧内特征信息，获得帧间特征信息，W从2到K依次取值。

为了本领域技术人员更加理解第二种步骤D12的实现方式，下面以图像集合包括5个图像为例，对第二种步骤D12的实现方式进行说明。第二种步骤D12的实现方式包括以下步骤E1至步骤E4。

在步骤E1中，基于图像集合中第一个图像的帧内特征信息以及图像集合中第二个图像的帧内特征信息，获得帧间特征信息。

在步骤E2中，基于图像集合中第一个图像的帧内特征信息、第二个图像的帧内特征信息以及第三个图像的帧内特征信息，获得帧间特征信息。

在步骤E3中，基于图像集合中第一个图像的帧内特征信息、第二个图像的帧内特征信息、第三个图像的帧内特征信息以及第四个图像的帧内特征信息，获得帧间特征信息。

在步骤E4中，基于图像集合中第一个图像的帧内特征信息、第二个图像的帧内特征信息、第三个图像的帧内特征信息、第四个图像的帧内特征信息以及第五个图像的帧内特征信息，获得帧间特征信息。

下面结合样本视频的图像集合H对特征信息集合进行说明。

示例性的，为了保留样本视频的“全貌”，特征信息集合还包括图像集合中第一个第一视频图像的帧内特征信息。

示例性的，样本视频对应的特征信息集合S₂的具体内容如下：

示例性的，样本视频的特征信息集合可以包括：各第一视频图像分别对应的帧内特征信息、至少两个第一视频图像之间的帧间特征信息；示例性的，样本视频的特征信息集合包括：图像集合中目标第一视频图像的帧内特征信息、其他第一视频图像至少与目标第一视频图像的帧间特征信息。可以理解的是，可以通过目标第一视频图像的帧内特征信息以及其他第一视频图像至少与目标第一视频图像的帧间特征信息，得到样本图像的“全貌”，所以若本视频的特征信息集合包括：图像集合中目标第一视频图像的帧内特征信息、其他第一视频图像至少与目标第一视频图像的帧间特征信息，那么，样本视频的特征信息集合的数据量较少，且，得到的样本视频的信息量较全，机器学习模型基于该样本视频的特征信息得到分析结果的速度较快且较准确。

在一可选实现方式中，步骤C13的实现方式有多种，本公开实施例提供但不限于以下三种实现方式。

第一种步骤C13的实现方式包括步骤F11至步骤F12。

所述特征信息集合中有效图像的特征信息的位置与所述图像集合中有效图像的位置相同。

在步骤F11中，确定所述掩膜参数表征的有效图像的特征信息在所述特征信息集合中的第三位置。

在步骤F12中，获得所述特征信息集合中所述第三位置处的特征信息，以得到所述第一视频图像对应的特征信息。

仍以上述样本视频的图像集合H为例，基于掩膜参数，例如，掩膜矩阵Q，确定特征信息集合S₁或特征信息集合S₂中有效图像的特征信息位于第一行第一列至第M行第一列。从而步骤F12得到的包含第一视频图像对应的特征信息的有效特征矩阵S_有效的内容如下：

或，/>

第二种步骤C13的实现方式包括：将特征信息集合与掩膜矩阵的乘积确定为所述第一视频图像的特征信息。

仍以样本视频的图像集合H为例进行说明。假设掩膜矩阵为矩阵Q。特征信息集合为S₂。

S_有效＝特征信息集合S₂×Q＝A₁的帧内特征信息×1+A₁和A₂的帧间特征信息×1+,…,+A₁、A₂、A₃、...和A_M的帧间特征信息×1+A₁、A₂、A₃、...、A_M和A_M+1的帧间特征信息×0+,…,+A₁、A₂、A₃、...、A_M、A_M+1、A_M+2、A_M+3、...和A_K的帧间特征信息×0。

第二种步骤C13的实现方式包括：将特征信息集合与掩膜矩阵的乘积与第二数目的比值，确定为所述第一视频图像的特征信息。第二数目是指掩膜矩阵中记录的有效图像的数目。

S_有效＝特征信息集合S₂×Q/第二数目。

在一可选实现方式中，在步骤S23之后，还包括：将所述样本视频对应的所述图像集合以及所述掩膜参数存储至数据库；在步骤S24之前还包括：从所述数据库中获得所述样本视频对应的所述图像集合以及所述掩膜参数。

示例性的，上述数据库可以为图1所示的缓存消息队列或数据装载器。

本公开实施例中，在训练机器学习模型之前就可以对大量样本视频进行处理，以得到多个样本视频分别对应的图像集合和掩膜参数(称此为样本数据的提取)，分离了样本数据的提取的过程和机器学习模型的训练过程，从而使得在训练机器学习模型的过程中，无需等待样本数据的提取，提高了多个样本视频分别对应的图像集合和掩膜参数的读取速度，进而提高了训练机器学习模型的速度。

上述是对训练机器学习模型得到视频分析模型的过程进行说明，下面对使用视频分析模型的过程进行说明。

图5是根据一示例性实施例示出的基于视频分析模型获得待测视频的分析结果的方法的流程图，该方法可以应用于第三电子设备13，该方法在实施过程中可以包括以下步骤S51至步骤S52。

在步骤S51中，从待测视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第三视频图像。

示例性的，从待测视频抽取得到第三视频图像的过程可以参见从样本视频中抽取得到第一视频图像的过程，这里不再赘述。

在步骤S52中，将所述第三视频图像输入至所述视频分析模型，通过所述视频分析模型获得所述待测视频对应的分析结果，所述分析结果包括所述第三视频图像的特征信息或所述待测视频的分类标签。

示例性的，第三视频图像的数目可以为一个或多个。针对第三视频图像的说明可以参见针对第一视频图像的说明，这里不再赘述。

示例性的，训练得到的视频分析模型的类型不同，视频分析模型输出的结果不同。

示例性的，若训练得到的是第一种类型的视频分析模型，那么，视频分析模型可以输出待测视频的分类标签。示例性的，若训练得到的是第二种类型的视频分析模型，那么，视频分析模型可以输出第三视频图像的特征信息。

示例性的，由于视频分析模型已经训练完毕，视频分析模型中的参数均已确定，因此，在使用视频分析模型的过程中，无需不同待测视频对应的图像集合(对于一个待测视频而言，该待测视频需要输入至视频分析模型的所有图像包含于图像集合)包含的图像数目相同，即待测视频对应的图像集合可以由第三视频图像组成。

在上述情况下，可以去除视频分析模型中的有效特征提取模块。使得视频分析模型包括特征提取模块以及标签预测模块，或，使得视频分析模型包括特征提取模块。

示例性的，步骤S51获得的不同待测视频对应的图像集合包含的图像数目可以相同，例如，仍为预设数目。示例性的，步骤S52包括以下步骤G1至步骤G3。

在步骤G1中，确定所述待测视频对应的图像集合，所述待测视频对应图像集合包括所述第三视频图像以及第三数目个第二视频图像，所述第二视频图像为设定图像，所述第三视频图像的数目与所述第三数目之和为预设数目，待测视频集合中不同待测视频分别对应的图像集合包含的图像的数目均为所述预设数目。

示例性的，待测视频集合包含的多个待测视频，是第一电子设备从不同存储设备或相同存储设备中得到的。

针对第二视频图像的说明可以参见前面针对第二视频图像的说明，这里不再赘述。

在步骤G2中，基于所述待测视频对应图像集合，确定掩膜参数，所述掩膜参数用于记录所述待测视频对应图像集合中有效图像的位置以及无效图像的位置，所述第三视频图像为有效图像，所述第二视频图像为无效图像。

待测视频对应的掩膜参数的确定过程与样本视频对应的掩膜参数的确定过程相同，这里不再赘述。

在步骤G3中，将所述待测视频对应的图像集合以及掩膜参数输入至视频分析模型，通过视频分析模型得到所述待测视频的分析结果。

在上述情况下，不需要去除视频分析模型中的有效特征提取模块。即视频分析模型包括特征提取模块、有效特征提取模块以及标签预测模块，或，使得视频分析模型包括特征提取模块以及有效特征提取模块。

本公开实施例中，将待测视频对应的第三视频图像作为视频分析模型的输入，与将待测视频作为视频分析模型的输入相比，由于输入至视频分析模型的数据量较少，因此视频分析模型的处理速度较快，得到待测视频的分析结果的速度较快。

视频分析模型包含的各个模块对待测视频的第三视频图像的处理过程，与，机器学习模型包含的各个模块对样本视频的图像集合的处理过程相同，这里不再赘述。

在一可选实现方式中，在步骤S51之后，还包括：将待测视频对应的第三视频图像存储至数据库；在步骤S52之前还包括：从数据库中获得待测视频对应的第三视频图像。

本公开实施例中可以分离待测视频对应的第三视频图像的抽取过程和线上推理过程(即视频分析模型基于第三视频图像获得分析结果的过程)。示例性的，在执行在线推理过程之前，已经获得了待测视频对应的第三视频图像，在线上推理过程中，直接从数据库中获得该待测视频对应的第三视频图像即可，无需等待从待测视频中抽取得到第三视频图像的过程，从而提高了待测视频对应的第三视频图像的读取速度，进而提高了在线推理的速度。

上述本公开实施例中详细描述了方法，对于本公开实施例中的方法可采用多种形式的装置实现，因此本申请还公开了多种装置，下面给出具体的实施例进行详细说明。

图6是根据一示例性实施例示出的一种视频分析模型训练装置框图。参照图6，该装置包括第一获取模块61、第一确定模块62、第二确定模块63和训练模块64。

第一获取模块61，被配置为从样本视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第一视频图像；

第一确定模块62，被配置为确定所述样本视频对应的图像集合，所述图像集合包括所述第一视频图像以及第一数目个第二视频图像，所述第二视频图像为设定图像，所述第一视频图像的数目与所述第一数目之和为预设数目，样本视频集合中不同样本视频分别对应的图像集合包含的图像的数目均为所述预设数目；

第二确定模块63，被配置为基于所述图像集合，确定掩膜参数，所述掩膜参数用于记录所述图像集合中有效图像的位置以及无效图像的位置，所述第一视频图像为有效图像，所述第二视频图像为无效图像；

训练模块64，被配置为将所述图像集合以及所述掩膜参数作为机器学习模型的输入，将所述样本视频对应的人工标注分类标签作为训练目标，训练得到视频分析模型。

在一可选实现方式中，所述第二确定模块具体被配置为：

在一可选实现方式中，所述第一获取模块具体被配置为：

第二获取单元，被配置为获取抽样间隔；

在一可选实现方式中，所述第二获取单元具体被配置为：

获取子单元，被配置为获取预先设置的所述抽样间隔。

在一可选实现方式中，所述训练模块具体被配置为：

所述机器学习模型包括以下模块：

在一可选实现方式中，所述特征提取模块具体被配置为：

在一可选实现方式中，所述特征信息集合中有效图像的特征信息的位置与所述图像集合中有效图像的位置相同，所述有效特征提取模块具体被配置为：

在一可选实现方式中，还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备的框图。该电子设备可以包括：第一电子设备、第二电子设备以及第三电子设备中至少一个电子设备。

电子设备包括但不限于：处理器701、存储器702、网络接口703、I/O控制器704以及通信总线705。

需要说明的是，本领域技术人员可以理解，图7中示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图7所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对电子设备的各个构成部件进行具体的介绍：

处理器701是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器701可包括一个或多个处理单元；示例性的，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。

处理器701可能是一个中央处理器(Central Processing Unit，CPU)，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器702可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)7021和只读存储器(Read-Only Memory，ROM)7022，也可能还包括大容量存储设备7023，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

其中，上述的存储器702，用于存储上述处理器701可执行指令。上述处理器701具有以下功能：执行上述任一实施例描述的视频分析模型训练方法。

一个有线或无线网络接口703被配置为将电子设备连接到网络。

处理器701、存储器702、网络接口703和I/O控制器704可以通过通信总线705相互连接，该通信总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述电子资源传输方法。

在示例性实施例中，还提供了一种计算机可读存储介质，可直接加载到计算机的内部存储器，例如上述存储器702中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述视频分析模型训练方法任一实施例所示步骤。

在示例性实施例中，还提供一种计算机程序产品，可直接加载到计算机的内部存储器，例如所述电子设备包含的存储器702中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述所述的视频分析模型训练方法任一实施例所示步骤。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频分析模型训练方法，其特征在于，包括：

将所述图像集合以及所述掩膜参数作为机器学习模型的输入，将所述样本视频对应的人工标注分类标签作为训练目标，训练得到所述视频分析模型；

所述基于所述图像集合，确定掩膜参数步骤包括：

确定所述第一视频图像位于所述图像集合中的第一位置；

确定所述第二视频图像位于所述图像集合中的第二位置；

基于所述第一位置以及所述第二位置，确定所述掩膜参数，所述掩膜参数中位于所述第一位置对应的位置处的元素为第一字符，位于所述第二位置对应的位置处的元素为第二字符；其中，第一字符表征位于所述图像集合的所述第一位置的图像为有效图像，所述第二字符表征位于所述图像集合的所述第二位置的图像为无效图像；

所述将所述样本视频对应的所述图像集合以及所述掩膜参数作为机器学习模型的输入，将所述样本视频对应的人工标注分类标签作为训练目标，训练得到视频分析模型步骤包括：

将所述图像集合以及所述掩膜参数输入至机器学习模型；

所述机器学习模型执行以下步骤：

2.根据权利要求1所述视频分析模型训练方法，其特征在于，所述从样本视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第一视频图像步骤包括：

从所述样本视频包含的多个关键帧中获得目标关键帧；

获取抽样间隔；

3.根据权利要求2所述视频分析模型训练方法，其特征在于，所述获取抽样间隔步骤包括：

获取预先设置的所述抽样间隔。

4.根据权利要求1所述视频分析模型训练方法，其特征在于，所述获得所述图像集合对应的特征信息集合步骤包括：

获得所述图像集合中各图像分别对应的帧内特征信息；

5.根据权利要求1所述视频分析模型训练方法，其特征在于，所述特征信息集合中有效图像的特征信息的位置与所述图像集合中有效图像的位置相同，所述基于所述掩膜参数从所述特征信息集合中筛选出所述第一视频图像对应的特征信息步骤包括：

6.根据权利要求1所述视频分析模型训练方法，其特征在于，所述视频分析模型训练方法还包括：

7.根据权利要求1所述视频分析模型训练方法，在所述基于所述图像集合，确定掩膜参数步骤之后，还包括：

8.一种视频分析模型训练装置，其特征在于，包括：

第一获取模块，被配置为从样本视频包含的多帧视频图像中间隔抽取视频图像，以抽取得到第一视频图像；

训练模块，被配置为将所述图像集合以及所述掩膜参数作为机器学习模型的输入，将所述样本视频对应的人工标注分类标签作为训练目标，训练得到视频分析模型；

所述第二确定模块具体被配置为：

第三确定单元，被配置为基于所述第一位置以及所述第二位置，确定所述掩膜参数，所述掩膜参数中位于所述第一位置对应的位置处的元素为第一字符，位于所述第二位置对应的位置处的元素为第二字符；其中，第一字符表征位于所述图像集合的所述第一位置的图像为有效图像，所述第二字符表征位于所述图像集合的所述第二位置的图像为无效图像；

所述训练模块具体被配置为：

所述机器学习模型包括以下模块：

9.根据权利要求8所述视频分析模型训练装置，其特征在于，所述第一获取模块具体被配置为：

第二获取单元，被配置为获取抽样间隔；

10.根据权利要求9所述视频分析模型训练装置，其特征在于，所述第二获取单元具体被配置为：

获取子单元，被配置为获取预先设置的所述抽样间隔。

11.根据权利要求8所述视频分析模型训练装置，其特征在于，所述特征提取模块具体被配置为：

12.根据权利要求8所述视频分析模型训练装置，其特征在于，所述特征信息集合中有效图像的特征信息的位置与所述图像集合中有效图像的位置相同，所述有效特征提取模块具体被配置为：

13.根据权利要求8所述视频分析模型训练装置，其特征在于，还包括：

14.根据权利要求8所述视频分析模型训练装置，其特征在于，还包括：

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述视频分析模型训练方法。

16.一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述视频分析模型训练方法。