CN114170558A

CN114170558A - 用于视频处理的方法、***、设备、介质和产品

Info

Publication number: CN114170558A
Application number: CN202111531860.4A
Authority: CN
Inventors: 吴俊峰; 柏松; 江毅; 张文庆; 卢宾
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-11
Also published as: WO2023109361A1

Abstract

根据本公开的实施例，提供了用于视频处理的方法、***、设备、介质和产品。该方法包括从视频的多个帧分别提取多个特征图；基于多个特征图分别确定视频实例在多个帧中的多个帧级别特征，在每个帧中的帧级别特征表征视频实例在该帧中的特征信息；通过聚合多个帧级别特征来确定视频实例的视频级别特征，视频级别特征表征视频实例跨多个帧的特征信息；以及至少基于视频级别特征来确定在多个帧中针对视频实例的分析结果。通过聚合帧级别特征得到的视频级特征可以用于确定在多个帧中针对该视频实例的更准确的分析结果，确保了视频实例分析的连续性和鲁棒性。

Description

用于视频处理的方法、***、设备、介质和产品

技术领域

本公开的示例实施例总体涉及计算机视觉领域，特别地涉及用于视频处理的方法、***、设备、介质和产品。

背景技术

视频实例(或简称为“实例”)指的是视频中呈现的对象。在视频处理领域，期望执行针对视频实例的各种分析任务。一种示例分析任务包括视频实例分割，指的是给定任意视频，需要其中的视频实例识别出来，并且找到每个视频实例在每一帧上的对应像素部分，以生成该视频实例对应的掩膜(mask)。在视频编辑的应用场景中，这些掩膜后可以将对应的视频实例从每一帧上抠出、擦除、替换前景背景等。其他关于实例的分析任务还包括对视频实例进行分类、在各个帧中的视频实例定位等等。

发明内容

根据本公开的示例实施例，提供了一种视频处理方案。

在本公开的第一方面，提供了一种视频处理方法。该方法包括：从视频的多个帧分别提取多个特征图；基于多个特征图分别确定视频实例在多个帧中的多个帧级别特征，在每个帧中的帧级别特征表征视频实例在该帧中的特征信息；通过聚合多个帧级别特征来确定视频实例的视频级别特征，视频级别特征表征视频实例跨多个帧的特征信息；以及至少基于视频级别特征来确定在多个帧中针对视频实例的分析结果。根据本公开的实施例，通过聚合帧级别特征得到的视频级特征可以用于确定在多个帧中针对该视频实例的更准确的分析结果，确保了视频实例分析的连续性和鲁棒性。

在本公开的第二方面，提供了一种视频处理***。该***包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使***执行以下动作：从视频的多个帧分别提取多个特征图；基于多个特征图分别确定视频实例在多个帧中的多个帧级别特征，在每个帧中的帧级别特征表征视频实例在该帧中的特征信息；通过聚合多个帧级别特征来确定视频实例的视频级别特征，视频级别特征表征视频实例跨多个帧的特征信息；以及至少基于视频级别特征来确定在多个帧中针对视频实例的分析结果。

在本公开的第三方面，提供了一种视频处理装置。该装置包括特征图提取单元，被配置为从视频的多个帧分别提取多个特征图；帧级别特征确定单元，被配置为基于多个特征图分别确定视频实例在多个帧中的多个帧级别特征，在每个帧中的帧级别特征表征视频实例在该帧中的特征信息；特征聚合单元，被配置为通过聚合多个帧级别特征来确定视频实例的视频级别特征，视频级别特征表征视频实例跨多个帧的特征信息；以及分析结果确定单元，被配置为至少基于视频级别特征来确定在多个帧中针对视频实例的分析结果。

在本公开的第四方面，提供了一种计算机可读存储介质。介质上存储有计算机程序，程序被处理器执行时实现第一方面的方法。

在本公开的第五方面，提供了一种计算机可读存储介质。该介质上存储有计算机程序，计算机程序被处理单元执行时实现第一方面的方法。

在本公开的第六方面，提供了一种计算机程序产品。该一种计算机程序产品包括可由处理单元执行的计算机程序，计算机程序包括用于执行第一方面的方法的指令。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2示出了待分析的一些示例视频的多个帧；

图3示出了根据本公开的一些实施例的视频处理模型的框图；

图4示出了根据本公开的一些实施例的视频处理方法的流程图；

图5示出了根据本公开的一些实施例的视频处理装置的框图；以及

图6示出了其中可以实施本公开的一个或多个实施例的计算设备/***的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而增加网络的深度。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代更新参数值，直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在应用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

图1示出了能够实施本公开的多个实现的环境100的框图。在图1的环境100中，期望训练和使用视频处理模型105，以用于执行针对视频的各个帧中的视频实例的分析任务。

环境100包括模型训练***110和模型应用***120。在图1的示例实施例以及下文将会描述的一些示例实施例中，模型训练***110被配置利用训练数据来训练视频处理模型105，以优化视频处理模型105的参数值，从而获得训练后的参数值。训练数据包括多个样本视频112和与各个样本视频112相关联的标注信息114。标注信息114与视频处理模型105预期要执行的分析任务有关。

在训练前，视频处理模型105的参数值可以被初始化，或者可以通过预训练过程而获得经预训练的参数值。经过模型训练***110的训练过程，视频处理模型105的参数值被更新和调整。在训练完成后，视频处理模型105具有训练后的参数值。经训练的视频处理模型105可以由模型应用***120用于执行对应的分析任务。模型应用***120可以利用经训练的视频处理模型105，对待处理的视频130执行分析任务，以输出分析结果140。

在一些实施例中，视频处理模型105被配置为执行视频实例分割任务。期望视频处理模型105被配置为针对每个视频实例，确定在视频的每个帧中的实例分割结果，以指示在每个帧中呈现各个视频实例的像素部分。例如，在图1的示例中，假设要分析的视频130捕获的是滑板运动。期望获得的实例分割结果是每个视频实例(包括滑板运动员和滑板)在每一帧中对应的像素部分。

在一些实施例中，视频处理模型105被配置为执行视频实例分类任务。视频实例分类任务是对视频中出现的所有视频实例进行分类，分类结果可以指示每个视频实例属于某个预定类别的概率。

在一些实施例中，视频处理模型105被配置为执行视频实例定位任务。视频实例定位任务确定视频实例在每一帧中的边界框信息，以指示视频实例在帧中的边界框坐标。

在图1中，模型训练***110和模型应用***120可以是任何具有计算能力的***，例如各种计算设备/***、终端设备、服务器等。终端设备可以是任意类型的移动终端、固定终端或便携式终端，包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。服务器包括但不限于大型机、边缘计算节点、云环境中的计算设备，等等。

应当理解，图1示出的环境中的部件和布置仅是示例，适于用于实现本公开所描述的示例实施例的计算***可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。例如，虽然被示出为是分离的，但模型训练***110和模型应用***120可以集成在相同***或设备。本公开的实施例在此方面不受限制。

在关于视频实例的分析中，某个视频实例在各个帧中的位置、形状、大小和各种外观可能会出现变化，例如可能发生形变、遮挡、运动模糊等问题，这会导致对视频实例的分析困难。图2示出了待分析的一些示例视频的多个帧。视频210呈现水族箱中多条鱼。由于雨的游动，有些鱼会发生运动模糊，或者被其他鱼遮挡。视频220呈现网球运动片段，其中随着网球运动员挥拍、击球等动作，网球拍和网球可能在不同帧中处于不同位置、被运动员遮挡后又出现。在视频230中，随着人手的动作，蜥蜴可能完整出现、部分被遮挡或者严重被遮挡(以至于从单帧中难以识别出该物体)。

在视频实例分割任务中，常见的方案是首先在每一帧上分别执行图片级实例分割，然后将每一帧上的实例分割结果进行前后帧特征匹配，从而得到某个视频实例在整个视频中的连续分割结果。这个方案的显著缺陷是当视频实例形变明显或者出现被遮挡的情况时，前后帧的特征匹配容易出错，从而导致后一帧的视频实例不能被匹配到之前帧的对应视频实例上，这样的匹配错误会随着视频加长而逐渐累计，从而导致物体在整个视频上的视频分割结果不连续。对于视频实例的分类任务和边界框定位任务，存在类似的问题下，导致对视频中的同一视频实例无法获得统一的分类结果和边界框定位结果。

通常，给定一个视频，人类能够识别每个视频实例，并且在整个视频中都能够将每个帧中的对象关联到同一个视频实例，而无论该视频实例在不同帧中的外观和位置发生何种改变。如果某个视频实例在一些帧中被遮挡或具有运动模糊，人类仍然能够通过上下文信息从其他帧中重新识别出该视频实例。换言之，对于视频的不同帧中的同一视频实例，期望能够将该实例总体上关联起来，而不是认为是不同的对象。这有助于在视频分析任务中对相同视频实例的一致性处理。例如，在基于实例分割结果的视频编辑应用中，在整个视频中对同一视频实例确定分割结果，可以确保在每一帧中对该视频实例统一施加抠出、擦除或替换操作。然而，如以上分析的，常规视频处理方案难以保证在整个视频中对视频实例的一致性分析。

根据本公开的实施例，提出了一种改进的视频处理方案。根据该方案，在视频的各个帧中独立执行视频实例的特征捕捉，以确定视频实例在各个帧中的帧级别特征。通过聚合从多个帧确定的帧级别特征来确定该视频实例的视频级别特征。该视频级别特征能够表征对应的视频实例在整个视频中的特征信息。也就是说，该视频级别特征能对某个视频实例在整个视频中的特征信息进行建模。基于该视频级特征，可以确定在多个帧中针对该视频实例的更准确的分析结果，确保了视频实例分析的连续性和鲁棒性。

在本公开的示例实施例中，利用机器学习模型来实现如前所述的视频处理任务。例如，可以如图1的环境100所示，通过训练和应用视频处理模型105来实现本公开所提取的视频处理任务。

图3示出了根据本公开的一些实施例的视频处理模型105的框图。视频处理模型105被配置为执行某个视频实例在各个帧中的帧级别特征确定，通过时域特征聚合来确定该视频实例的视频级别特征，并基于视频级别特征来确定在视频的多个帧中针对该视频实例的分析结果。

视频处理模型105可以基于各种类型的神经网络架构。期望所应用的视频处理模型105的架构能够实现对视频的帧的特征图提取，基于特征图来实现后续的帧级别特征确定。

在图3所示的实施例中，视频处理模型105的架构基于适合计算机视觉任务的Transformer架构，包括特征提取网络310、编码器320和解码器部分(包括一个或多个处理层330)。在本公开的实施例中，如前简述，期望视频处理模型105能够实现对帧级别特征的聚合，以获得视频级别特征。因此，如图3所示，视频处理模型105还包括一个或多个特征聚合层340，每个特征聚合层340与一个处理层330相关联。多个特征聚合层340被配置为执行视频实例的帧级别特征的聚合。在图3中，假设处理层330的数目是N_d，特征聚合层340的数目也是N_d，其中N_d大于等于1。

视频处理模型105还包括用于确定分析结果的模块，以用于确定针对视频的分析任务的分析结果。在图3的示例实施例中，给出了用于确定分析结果的三个模块，包括分割器350、分类器360和边界框***370。应当理解，这三个模块中的一个或多个可以省略，或者还可以存在实现其他分析任务的模块。

视频处理模型105中的各个部分的参数值可以通过训练过程来确定。在下文中，首先描述在模型应用阶段视频处理模型105的工作原理，然后再描述对视频处理模型105的训练。在模型应用阶段，视频处理模型105的运行可以被实现在图1的模型应用***120中。

特征提取网络310和编码器320被配置为从待分析的视频130的多个帧分别提取多个特征图。在一些实施例中，特征提取网络310可以包括适合处理图像的神经网络来实现，例如卷积神经网络(CNN)。编码器320和后续由多个处理层330组成的解码器构成Transformer的网络架构。因此，编码器320可以被配置为在特征提取网络310的结果基础上执行进一步的特征提取。

输入到视频处理模型105的视频可以是任意长度的视频，包括一定数目的帧。假设要处理的视频包括T个帧，每个帧具有3个颜色通道(这取决于用于表示帧的颜色空间)。输入视频可以被表示为

其中该帧具有T个帧，每个帧具有3个颜色通道，并且每个帧的分辨率是H×W(H表示帧的高度，W表示帧的宽度)。

在提取特征图时，特征提取网络310可以对视频130中的每个帧，分别提取该帧的中间特征图。每个帧的中间特征图被提供给编码器。编码器320对帧的中间特征图进一步处理，以确定每个帧的特征图(表示为

)。该特征图可以表征每个帧整体的视觉特征信息。

在一些实施例中，编码器320可以包括卷积层，用于将从特征提取网络310获得的每个中间特征图的通道维度降低到预定维度C，从而获得视频130中的每个帧的新中间特征图，被表示为

维度C可以是预定值，例如256或任何其他值。在一些实施例中，编码器320还可以包括可变形注意力层，用于对中间特征图

执行可变形注意力机制，以输出每个帧的特征图(表示为

)。在一些实施例中，编码器320可以将每个帧的特征图(表示为

)输出为具有预定分辨率，例如与视频130中的各个帧相同的分辨率。

应当理解，以上仅给出了特征提取网络310和编码器320的一些示例实现。特征提取网络310和编码器320还可以基于其他特征提取架构，只要能够实现帧的特征图提取即可。在一些实施例中，特征提取网络310可以合并到编码器320中。本公开的实施例在帧的特征图提取方面不做限制。

在解码器侧，基于多个特征图分别确定给定的视频实例在各个帧中的帧级别特征，以表征该视频实例在帧中的特征信息。帧级别特征从每个帧的特征图中捕获与给定的视频实例相关的特征信息。在多个帧中针对一个视频实例确定的多个帧级别特征被聚合，以生成视频级别特征。在本文中，“特征”指的是多维向量形式的特征信息，也可称为“特征表示”或“嵌入表示”等。

考虑到视频实例在不同帧中的外观和位置可能会发生变化，帧级别特征可以关注到该视频实例在各个帧中呈现的特征信息。因此，每个帧级别特征可以被认为是该视频实例在对应帧上的锚点，用于获取和定位该视频实例在对应帧上的特征信息。然后，通过聚合该视频实例在多个帧上的帧级别特征，可以获得该视频实例在视频级别的全局特征信息，即视频级特征。

在一些实施例中，由于在分析视频时可能不能确定视频中出现的视频实例的准确数目，因此可以设定视频中存在预定数目的视频实例(表示为N)。这些视频实例可以按从1、2、、……N进行索引。对于被索引的每个视频实例，均可以从多个帧中确定该视频实例的帧级别特征，并聚合出最终的视频级别特征。N的值可以设置为较大(例如，90、100、150等等)，以覆盖不同输入视频中可能出现的视频实例的数目。可以理解，如果当前处理的视频中出现的视频实例的数目小于预定数目N，那么针对冗余设置的视频实例，将不会从视频中提取出任何有用的特征信息，在后续分析结果确定也会被忽略。

在一些实施例中，为了增加帧级别和视频级别特征信息的学习深度，利用多个处理层330来执行帧级别特征的提取，并且利用多个特征聚合层340来执行帧级别特征的聚合，即N_d大于1。

下文将参考图3的处理层330和特征聚合层340来描述针对给定视频实例，确定视频级别特征的过程。

在多个处理层330的每个处理层，基于从视频130的多个帧提取的多个特征图

来确定某个视频实例在T个帧中的帧级别特征。在一些实施例中，可以利用空间注意力机制，基于各个帧中的特征图来确定视频实例在各个帧中的帧级别特征。例如，如图3所示，每个处理层330可以包括与T个帧分别对应的T个空间注意力机制模块332-1、……332-t、……332-T(为便于讨论，统称为或单独称为空间注意力机制模块332)。

假设视频中最多有N个视频实例。对于每个视频实例，可以初始化该视频实例的初始视频级别特征，假设表示为

下文从一个视频实例的角度来描述帧级别特征和视频级别特征的确定。在一些实施例中，处理层330和特征聚合层340可以并行执行针对N个视频实例的帧级别特征和视频级别特征的确定。

多个处理层330可以被配置为以迭代方式确定视频实例在各个帧的帧级别特征。在多个处理层330的第一处理层，可以将初始视频级别特征确定为视频实例在每个帧中的初始帧级别特征。在第一处理层330中，每个帧t对应的空间注意力机制模块332被配置为基于初始帧级别特征和从帧t提取的特征图f_t，利用空间注意力机制生成该视频实例在第一处理层330处的中间帧级别特征。这可以被表示为：

其中

表示在第一处理层330处生成的针对帧t的中间帧级别特；DeformAttn()表示空间注意力机制模块332所利用的空间注意力机制。空间注意力机制是在帧的空间域中应用的注意力机制，以将帧的特征图中的空间域信息执行对应的空间变换，从而将特征图中与视频实例相关的关键特征信息提取出来。存在各种空间注意力机制的变形，本公开的实施例在此方面不受限制。

在第一处理层330之后的第l个处理层330，对于每个帧t对应的空间注意力机制模块332被配置为基于在前一处理层(第l-1个处理层330)处生成的中间特征表示

和从帧t提取的特征图f_t，利用空间注意力机制生成视频实例在第l个处理层330处的中间帧级别特征

这被表示为如下：

在每个处理层330中，针对视频130中的T个帧，T个空间注意力机制模块332以类似方式生成，生成针对给定视频实例的T个中间帧级别特征。对于N个视频实例，每个处理层330可以生成N×T个中间帧级别特征。在经过N_d个处理层330后，对于每个视频实例，可以将最后一个处理层330生成的T个中间帧级别特征确定为该视频实例在视频130的T个帧中的T个帧级别特征。N个视频实例在全部T个帧中的帧级别特征可以被表示为

如前所述，视频处理模型105包括与每个处理层330相关联的特征聚合层340。在N_d个特征聚合层中的每个特征聚合层340，可以执行跨多个帧的帧级别特征聚合。特征聚合层340被配置为对每个处理层330处生成的T个中间帧级别特征进行聚合。与处理层330类似，通过N_d个特征聚合层340，可以以迭代方式聚合得到最终的视频级别特征，其中每个特征聚合层340被配置为基于前一特征聚合层340确定的中间视频级别特征，以及从当前特征聚合层340接收到的中间帧级别特征的聚合结果，来确定当前特征聚合层340的中间视频级别特征。

在一些实施例中，特征聚合层340可以通过加权和的方式来执行特征聚合。如图3所示，特征聚合层340包括权重计算层342和聚合模块344。在第l个特征聚合层340中(l的取值范围从1到N_d)，权重计算层342被配置为计算确定在第l个处理层330处生成的中间帧级别特征

的权重。在第l个处理层330处，每个中间帧级别特征

的权重指示在第t个帧中的帧级别特征对该视频实例的视频级别特征的重要程度。

在一些实施例中，权重计算层342可以基于全连(FC)层，其输入是中间帧级别特征

输出是对应的权重。在一些实施例中，权重计算层342的参数值与视频处理模型105的其他部分一起，通过端到端的方式在训练过程中被确定。

每个中间帧级别特征

以及其权重被提供给聚合模块344。在第l个特征聚合层340中的聚合模块344利用所确定的权重对对应的中间帧级别特征

进行加权，并将加权结果叠加到前一特征聚合层340输出的中间视频级别特征

上，得到在第l个特征聚合层340输出的中间视频级别特征

在第l个特征聚合层340的特征聚合操作可以被表示为：

其中

表示经由权重计算层342确定的中间帧级别特征

的权重。

在公式(3)中，对于第一特征聚合层340(即，l＝1)，在对中间帧级别特征

进行加权求和的基础上，可以再叠加初始视频级别特征I_q来生成该特征聚合层对应的中间视频级别特征。根据公式(3)，在最后一个特征聚合层340(即，l＝N_d)，通过对视频实例在T个帧中的最终帧级别特征进行加权聚合得到一个中间视频级别特征，并叠加到前一个特征聚合层340生成的中间视频级别特征，可以确定该视频实例跨T个帧的最终视频级别特征，表示为

对于N个视频实例，每个特征聚合层340可以生成N个中间视频级别特征。在最后一个特征聚合层340，可以生成针对N个视频实例的N个最终视频级别特征。

每个视频实例的帧级别特征可以被用于执行针对视频实例的分析任务。由于视频实例的视频级别特征聚合了各个帧中与该视频实例相关的特征信息，其可以更有效地表征该视频实例跨多个帧的运动和变化，因此能够用于针对视频实例的更准确分析。

在一些实施例中，视频处理模型105中的分类器360被配置为执行针对视频130中视频实例的分类任务。分类器360被配置为基于每个视频实例的视频级别特征

来确定视频实例的实例分类结果，该分类结果指示视频实例属于多个预定类别中的一个预定类别的概率。例如，对于索引为σ(i)的视频实例(i＝1、2、……N)，分类器360可以基于该视频实例对应的帧级别特征，确定该视频实例属于预定类别c_i的概率，表示为

预定类别c_i可以是空集

通过视频级别特征，可以确定在整个视频130中出现过的各个视频实例的分类结果，并可以避免将在某些帧中消失后又在其他帧中重新出现的视频实例归类到不同的实例中。

分类器360可以基于各种模型架构来实现。例如，分类器360可以基于线性投射层，以将视频实例的视频级别特征映射到分类结果。本公开的实施例的范围在分类器的架构方面不受限制，只要能够基于视频级别特征确定视频实例的分类结果即可。

在一些实施例中，视频处理模型105中的分割器350被配置为至少基于视频实例的视频级别特征和从编码器320获得的多个特征图，确定在视频130的多个帧的每个帧中的实例分割结果，实例分割结果指示在每个帧中呈现该视频实例的像素部分。在一些示例中，实例分割结果可以被表示为掩模的形式。掩模的尺寸与视频130中的帧的尺寸相同，并且掩模中的每个像素的值可以指示帧中的对应像素是否属于某个视频实例。

在一些实施例中，视频处理模型105中的边界框***370被配置为在视频130的一个或多个帧中定位某个视频实例。具体地，边界框***370被配置为基于某个视频实例在视频130的一个或多个帧中的帧级别特征BE_t，分别确定该视频实例在对应帧中的边界框信息。边界框信息指示视频实例在对应帧中的边界框坐标，例如边界框的中心坐标、高度、宽度等。对于索引为σ(i)的视频实例(i＝1、2、……N)，边界框***370可以确定出该视频实例在各个帧中的边界框信息，表示为

视频实例的帧级别特征表征的是视频实例在特定帧中的特征信息。因此，可以边界框***370可以根据需要，利用对应的帧级别特征来从视频130的一个、一些或全部T个帧中定位视频实例。在一些情况中，某些帧中可能不存在该视频实例，那么相应的，这些帧对应的帧级别特征可能也并未捕获到关于该视频实例的特征信息。边界框***370将不会从这些帧中定位出该视频实例。

边界框***370可以基于各种模型架构来实现。例如，边界框***370可以基于多层前馈网络(FFN)和线性投射层。本公开的实施例的范围在边界框***的架构方面不受限制，只要能够基于帧级别特征确定视频实例的边界框信息即可。

在一些实施例中，在针对某个视频实例确定实例分割结果时，还可以利用该视频实例在多个帧中的多个帧级别特征BE_t。具体地，视频实例在多个帧中的多个帧级别特征BE_t可以被用于确定视频实例在每个帧中的边界框信息。每个帧中的边界框信息可以与特征图级联，以用于输入到分割器350。

在一些实施例中，分割器350可以包括FFN，用于处理视频级别特征。FFN可以将索引为σ(i)的视频实例的视频级别特征编码成参数w_i。在一些实施例中，对于从编码器320获得的多个特征图，分割器350还可以包括FFN，用于对这些特征图进行进一步处理，以得到特征图序列

其中每个帧对应的特征图

可以被变换到具有更小的分辨率和更少的通道。对于第t个帧，对应特征图

可以与基于该帧的帧级别特征确定的边界框信息

级联，以便提供视频实例在该帧中的位置信息。这有助于促进从该帧中更快速、准确识别出属于该视频实例的像素部分。通过级联边界框信息，可以获得新的特征图序列

分割器350可以包括对分割结果生成层，基于特征图序列

和参数ω_i来预测视频实例在各个帧中的实例分割结果。这可以被表示为：

其中

表示对于第i个视频实例，在第t个帧中确定的实例分割结果(例如，掩模)，MaskHead()表示分割结果生成层，其例如可以基于卷积操作。

虽然以上描述了帧级别特征在确定实例分割结果中的使用，但在一些实施例中，在确定视频实例的实例分割结果时，也可以不考虑帧级别特征，而是仅基于各个帧的特征图和视频级别特征来确定视频实例的实例分割结果。

应当理解，分割器350、分类器360和边界框***370可以根据分析任务的需要而被包括在视频处理模型105中，它们中的一个或多个可以被省略，或者可以包括用于确定其他分析任务的分析结果的模块。

在图3的实例中，针对分割、分类和边界框定位这三个分析任务的分析结果140可以分别指示在视频130的每个帧中，每个视频实例(在该实例中是滑板运动员和滑板)的掩模、用于定位每个视频实例的边界框。分析结果140还可以指示在视频130的各个帧中出现过的这些视频实例的分类结果(例如，用不同的标注方式指示)。

在上文关于视频处理模型105的工作原理的各个实施例中，为实现对应的功能，要通过训练过程来确定视频处理模型105中的以下部分的参数值，包括特征提取网络310、编码器320、解码器中各个处理层330的空间注意力机制模块332、权重计算层342以及执行对应分析任务的分割器350、分类器360和边界框***370。

在一些实施例中，可以通过端到端的训练方式来确定这些部分的参数值。视频处理模型105的训练过程例如可以通过图1的模型训练***110来实现。视频处理模型105的训练数据可以包括模型的输入，即样本视频，以及模型的输出，即在各类视频分析任务中对输入的样本水平的标注信息。

在一些实施例中，标注信息可以包括对样本视频中的各个真实视频实例对应的标注信息。假设y表示某个样本视频的真实视频实例集合，并且

表示视频处理模型105预测出的视频实例集合，其中

表示针对N个预定数目的视频实例的预测结果。假设视频处理模型105包括分割器350、分类器360和边界框***370。真实视频实例集合中的第i个元素可以被表示为y_i＝{c_i，(b_i，1，b_i，2，...，b_i，T)}，其中c_i表示第i个视频实例的真实分类结果(其可以是空集

)，并且b_i，t∈[0，1]⁴是一个向量，其定义第i个视频实例在第t个帧中的真实边界框信息(包括边界框的中心坐标(x和y坐标)、高度和宽度)。

在训练过程中，将样本视频输入到视频处理模型105，视频处理模型105中的各个部分基于当前参数值来处理样本视频，由分割器350、分类器360和边界框***370输出预测结果。视频处理模型105的参数值在初始时被初始化，并在训练过程中迭代地更新。

对于索引为σ(i)的视频实例，可以获得由分类器360输出的预测分类结果

和由边界框***370输出的预测边界框信息

在训练时，可以构建成本函数来确定对视频处理模型105的参数值的更新。成本函数可以基于预测分类结果

和预测边界框信息

各自与真实分类结果和边界框信息之间的匹配误差来构建，这可以被表示为：

其中

表示基于预测边界框信息

与真实边界框信息b_i之间的误差构建的误差函数；

表示基于分类结果和边界框信息之间的误差的总损失函数。

在公式(5)的损失函数

中，没有直接考虑由分割器350输出的实例分割结果与真实实例分割结果之间的误差，因为这样的误差计算量很大。为了更好地将针对样本视频在各个分析任务下的真实分析结果与预测结果进行对齐，可以针对N个视频实例，搜索以具有最低成本的N个元素σ∈S_n的排列，被表示为如下：

在一些实施例中，可以利用Hungarian算法来求解公式(6)中的最优对齐。假设最优对齐是

可以利用针对N个视频实例的所有匹配误差的Hungarian损失来训练视频处理模型105，这可以被表示为：

其中与边界框信息对应的损失函数

可以基于

损失和泛化IoU损失，与实例分割结果对应的损失函数

被定义为Dice和Focal损失的组合。在实现中，可以针对样本视频的每一帧计算与边界框信息和实例分割结果对应的误差，并通过在样本视频的多个帧上进行平均来确定损失函数

和

在训练过程中，可以基于公式(7)的损失函数，通过随机梯度下降或其他变形方式来确定针对视频处理模型105中的各个部分的参数值的更新。参数值的更新可以迭代执行，直到到达训练目标，例如损失函数最小化或者迭代次数达到预定目标。

以上给出了用于以端到端方式训练视频处理模型105的示例实施例。在其他实施例中，还可以通过其他训练算法，构建其他损失函数或成本函数来训练视频处理模型105。本公开的实施例在此方面不受限制。

图4示出了根据本公开的一些实施例的用于视频处理的过程400的流程图。过程400可以被实现在模型应用***120处。

在框410，模型应用***120从视频的多个帧分别提取多个特征图。在框420，模型应用***120基于多个特征图分别确定视频实例在多个帧中的多个帧级别特征，在每个帧中的帧级别特征表征视频实例在该帧中的特征信息。

在一些实施例中，在确定多个帧级别特征时，可以基于多个特征图，利用空间注意力机制来确定视频实例在多个帧中的多个帧级别特征。在一些实施例中，通过相连的多个处理层来迭代确定多个帧级别特征。在确定多个帧级别特征时，可以获得视频实例的初始视频级别特征；在多个处理层中的第一处理层，基于初始视频级别特征和多个特征图，生成视频实例在第一处理层处的多个中间帧级别特征；在多个处理层中第一处理层之后的每个后续处理层，基于在前一处理层生成的多个中间帧级别特征和多个特征图，生成视频实例在该后续处理层处的多个中间帧级别特征；以及将在多个处理层中最后一个处理层处生成的多个中间帧级别特征确定为多个帧级别特征。

在框430，模型应用***120通过聚合多个帧级别特征来确定视频实例的视频级别特征，视频级别特征表征视频实例跨多个帧的特征信息。

在一些实施例中，在确定视频实例的视频级别特征时，可以确定多个帧级别特征的多个权重；以及通过利用多个权重对多个帧级别特征进行加权，来确定视频实例的视频级别特征。

在一些实施例中，通过相连的多个处理层来迭代确定多个帧级别特征。在这样的实施例中，在确定视频实例的视频级别特征时，可以针对在多个处理层中除最后一个处理层之外的每个处理层处，获得在该处理层处生成的视频实例的多个中间帧级别特征；确定多个中间帧级别特征的多个权重；通过利用所确定的权重对多个中间帧级别特征进行加权，来确定在该处理层处的中间视频级别特征；基于针对每个处理层确定的中间视频级别特征，以及对多个帧级别特征进行加权得到的中间视频级别特征，来生成视频实例的视频级别特征。

在一些实施例中，通过将多个帧级别特征分别应用到经训练的权重计算层，来生成多个帧级别特征的多个权重。该权重计算层与视频处理模型一起被训练，视频处理模型被配置为实现多个特征图的提取、多个帧级别特征的确定、视频级别特征的确定以及分析结果的确定。

在框440，模型应用***120至少基于视频级别特征来确定在多个帧中针对视频实例的分析结果。

在一些实施例中，在确定分析结果时，可以至少基于视频实例的视频级别特征和多个特征图，确定在多个帧中的实例分割结果，实例分割结果指示在多个帧的每个帧中呈现视频实例的像素部分。在一些实施例中，在确定在多个帧的每个帧中的实例分割结果时，还可以基于视频实例在多个帧中的多个帧级别特征来分别确定在多个帧的每个帧中的实例分割结果。

在一些实施例中，在确定分析结果时，基于视频实例的视频级别特征来确定视频实例的实例分类结果，分类结果指示视频实例属于多个预定类别中的一个预定类别的概率。

在一些实施例中，模型应用***120还可以基于视频实例在多个帧中至少一个帧中的帧级别特征，分别确定视频实例在至少一个帧中的边界框信息，边界框信息指示视频实例在至少一个帧中的边界框坐标。

在一些实施例中，针对视频确定预定数目的视频实例，针对预定数目的视频实例中的每个视频实例，执行该视频实例在多个帧中的多个帧级别特征的确定、该视频实例的视频级别特征的确定以及在多个帧中针对该视频实例的分析结果。

图5示出了根据本公开的一些实施例的视频处理装置500的框图。装置500可以被实现为或者被包括在模型应用***120中。装置500中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图所示，装置500包括特征图提取单元510，被配置为从视频的多个帧分别提取多个特征图。装置500还包括帧级别特征确定单元520，被配置为基于多个特征图分别确定视频实例在多个帧中的多个帧级别特征，在每个帧中的帧级别特征表征视频实例在该帧中的特征信息。装置500还包括特征聚合单元530，被配置为通过聚合多个帧级别特征来确定视频实例的视频级别特征，视频级别特征表征视频实例跨多个帧的特征信息。装置500还包括分析结果确定单元540，被配置为至少基于视频级别特征来确定在多个帧中针对视频实例的分析结果。

在一些实施例中，帧级别特征确定单元520可以被配置为基于多个特征图，利用空间注意力机制来确定视频实例在多个帧中的多个帧级别特征。

在一些实施例中，通过相连的多个处理层来迭代确定多个帧级别特征。在一些实施例中，帧级别特征确定单元520可以被配置为：获得视频实例的初始视频级别特征；在多个处理层中的第一处理层，基于初始视频级别特征和多个特征图，生成视频实例在第一处理层处的多个中间帧级别特征；在多个处理层中第一处理层之后的每个后续处理层，基于在前一处理层生成的多个中间帧级别特征和多个特征图，生成视频实例在该后续处理层处的多个中间帧级别特征；以及将在多个处理层中最后一个处理层处生成的多个中间帧级别特征确定为多个帧级别特征。

在一些实施例中，特征聚合单元530可以被配置为确定多个帧级别特征的多个权重；以及通过利用多个权重对多个帧级别特征进行加权，来确定视频实例的视频级别特征。

在一些实施例中，通过相连的多个处理层来迭代确定多个帧级别特征。在一些实施例中，特征聚合单元530可以被配置为针对在多个处理层中除最后一个处理层之外的每个处理层处，获得在该处理层处生成的视频实例的多个中间帧级别特征；确定多个中间帧级别特征的多个权重；通过利用所确定的权重对多个中间帧级别特征进行加权，来确定在该处理层处的中间视频级别特征；基于针对每个处理层确定的中间视频级别特征，以及对多个帧级别特征进行加权得到的中间视频级别特征，来生成视频实例的视频级别特征。

在一些实施例中，确定多个帧级别特征的多个权重包括：通过将多个帧级别特征分别应用到经训练的权重计算层，来生成多个帧级别特征的多个权重。权重计算层与视频处理模型一起被训练，视频处理模型被配置为实现多个特征图的提取、多个帧级别特征的确定、视频级别特征的确定以及分析结果的确定。

在一些实施例中，分析结果确定单元包括分割结果确定单元，被配置为：至少基于视频实例的视频级别特征和多个特征图，确定在多个帧中的实例分割结果，实例分割结果指示在多个帧的每个帧中呈现视频实例的像素部分。

在一些实施例中，分析结果确定单元包括分类结果确定单元，被配置为基于视频实例的视频级别特征来确定视频实例的实例分类结果，分类结果指示视频实例属于多个预定类别中的一个预定类别的概率。

在一些实施例中，确定在多个帧的每个帧中的实例分割结果还包括：还基于视频实例在多个帧中的多个帧级别特征来分别确定在多个帧的每个帧中的实例分割结果。

在一些实施例中，装置600还可以包括边界框定位单元，被配置为基于视频实例在多个帧中至少一个帧中的帧级别特征，分别确定视频实例在至少一个帧中的边界框信息，边界框信息指示视频实例在至少一个帧中的边界框坐标。

图6示出了其中可以实施本公开的一个或多个实施例的计算设备/***600的框图。应当理解，图6所示出的计算设备/***600仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图6所示出的计算设备/***600可以用于实现图1的模型训练***110和/或模型应用***120。

如图6所示，计算设备/***600是通用计算设备的形式。计算设备/***600的组件可以包括但不限于一个或多个处理器或处理单元610、存储器620、存储设备630、一个或多个通信单元640、一个或多个输入设备650以及一个或多个输出设备660。处理单元610可以是实际或虚拟处理器并且能够根据存储器620中存储的程序来执行各种处理。在多处理器***中，多个处理单元并行执行计算机可执行指令，以提高计算设备/***600的并行处理能力。

计算设备/***600通常包括多个计算机存储介质。这样的介质可以是计算设备/***600可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器620可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备630可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/***600内被访问。

计算设备/***600可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图6中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器620可以包括计算机程序产品625，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元640实现通过通信介质与其他计算设备进行通信。附加地，计算设备/***600的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备/***600可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备650可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备660可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备/***600还可以根据需要通过通信单元640与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备/***600交互的设备进行通信，或者与使得计算设备/***600与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种视频处理方法，包括：

从视频的多个帧分别提取多个特征图；

基于所述多个特征图分别确定视频实例在所述多个帧中的多个帧级别特征，在每个帧中的帧级别特征表征所述视频实例在该帧中的特征信息；

通过聚合所述多个帧级别特征来确定所述视频实例的视频级别特征，所述视频级别特征表征所述视频实例跨所述多个帧的特征信息；以及

至少基于所述视频级别特征来确定在所述多个帧中针对所述视频实例的分析结果。

2.根据权利要求1所述的方法，其中基于所述多个特征图分别确定视频实例在所述多个帧中的多个帧级别特征包括：

基于所述多个特征图，利用空间注意力机制来确定所述视频实例在所述多个帧中的多个帧级别特征。

3.根据权利要求1所述的方法，其中通过相连的多个处理层来迭代确定所述多个帧级别特征，并且其中基于所述多个特征图分别确定视频实例在所述多个帧中的多个帧级别特征包括：

获得所述视频实例的初始视频级别特征；

在所述多个处理层中的第一处理层，基于所述初始视频级别特征和所述多个特征图，生成所述视频实例在所述第一处理层处的多个中间帧级别特征；

在所述多个处理层中所述第一处理层之后的每个后续处理层，基于在前一处理层生成的多个中间帧级别特征和所述多个特征图，生成所述视频实例在该后续处理层处的多个中间帧级别特征；以及

将在所述多个处理层中最后一个处理层处生成的多个中间帧级别特征确定为所述多个帧级别特征。

4.根据权利要求1所述的方法，其中通过聚合所述多个帧级别特征来确定所述视频实例的视频级别特征包括：

确定所述多个帧级别特征的多个权重；以及

通过利用所述多个权重对所述多个帧级别特征进行加权，来确定所述视频实例的所述视频级别特征。

5.根据权利要求4所述的方法，其中通过相连的多个处理层来迭代确定所述多个帧级别特征，并且其中通过利用所述多个权重对所述多个帧级别特征进行加权来确定所述视频实例的所述视频级别特征包括：

针对在所述多个处理层中除最后一个处理层之外的每个处理层处，

获得在该处理层处生成的所述视频实例的多个中间帧级别特征；

确定所述多个中间帧级别特征的多个权重；

通过利用所确定的权重对所述多个中间帧级别特征进行加权，来确定在该处理层处的中间视频级别特征；

基于针对所述每个处理层确定的中间视频级别特征，以及对所述多个帧级别特征进行加权得到的中间视频级别特征，来生成所述视频实例的所述视频级别特征。

6.根据权利要求4所述的方法，其中确定所述多个帧级别特征的多个权重包括：

通过将所述多个帧级别特征分别应用到经训练的权重计算层，来生成所述多个帧级别特征的所述多个权重，

其中所述权重计算层与视频处理模型一起被训练，所述视频处理模型被配置为实现所述多个特征图的提取、所述多个帧级别特征的确定、所述视频级别特征的确定以及所述分析结果的确定。

7.根据权利要求1所述的方法，其中至少基于所述视频级别特征来确定在所述多个帧中针对所述视频实例的分析结果包括：

至少基于所述视频实例的视频级别特征和所述多个特征图，确定在所述多个帧中的实例分割结果，所述实例分割结果指示在所述多个帧的每个帧中呈现所述视频实例的像素部分。

8.根据权利要求1所述的方法，其中至少基于所述视频级别特征来确定在所述多个帧中针对所述视频实例的分析结果包括：

基于所述视频实例的视频级别特征来确定所述视频实例的实例分类结果，所述分类结果指示所述视频实例属于多个预定类别中的一个预定类别的概率。

9.根据权利要求7所述的方法，其中确定在所述多个帧的每个帧中的实例分割结果还包括：

还基于所述视频实例在所述多个帧中的所述多个帧级别特征来分别确定在所述多个帧的每个帧中的实例分割结果。

10.根据权利要求1所述的方法，还包括：

基于所述视频实例在所述多个帧中至少一个帧中的帧级别特征，分别确定所述视频实例在所述至少一个帧中的边界框信息，所述边界框信息指示所述视频实例在所述至少一个帧中的边界框坐标。

11.根据权利要求1至10中任一项所述的方法，其中针对所述视频确定预定数目的视频实例，针对所述预定数目的视频实例中的每个视频实例，执行该视频实例在所述多个帧中的多个帧级别特征的确定、该视频实例的视频级别特征的确定以及在所述多个帧中针对该视频实例的分析结果。

12.一种视频处理***，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述***执行以下动作：

从视频的多个帧分别提取多个特征图；

13.根据权利要求12所述的***，其中基于所述多个特征图分别确定视频实例在所述多个帧中的多个帧级别特征包括：

14.根据权利要求12所述的***，其中通过相连的多个处理层来迭代确定所述多个帧级别特征，并且其中基于所述多个特征图分别确定视频实例在所述多个帧中的多个帧级别特征包括：

获得所述视频实例的初始视频级别特征；

15.根据权利要求12所述的***，其中通过聚合所述多个帧级别特征来确定所述视频实例的视频级别特征包括：

确定所述多个帧级别特征的多个权重；以及

16.根据权利要求14所述的***，其中通过相连的多个处理层来迭代确定所述多个帧级别特征，并且其中通过利用所述多个权重对所述多个帧级别特征进行加权来确定所述视频实例的所述视频级别特征包括：

确定所述多个中间帧级别特征的多个权重；

17.根据权利要求14所述的***，其中确定所述多个帧级别特征的多个权重包括：

18.根据权利要求12所述的***，其中至少基于所述视频级别特征来确定在所述多个帧中针对所述视频实例的分析结果包括：

19.根据权利要求12所述的***，其中至少基于所述视频级别特征来确定在所述多个帧中针对所述视频实例的分析结果包括：

20.根据权利要求18所述的***，其中确定在所述多个帧的每个帧中的实例分割结果还包括：

21.根据权利要求12所述的***，还包括：

22.根据权利要求12至21中任一项所述的***，其中针对所述视频确定预定数目的视频实例，针对所述预定数目的视频实例中的每个视频实例，执行该视频实例在所述多个帧中的多个帧级别特征的确定、该视频实例的视频级别特征的确定以及在所述多个帧中针对该视频实例的分析结果。

23.一种视频处理装置，包括

特征图提取单元，被配置为从视频的多个帧分别提取多个特征图；

帧级别特征确定单元，被配置为基于所述多个特征图分别确定视频实例在所述多个帧中的多个帧级别特征，在每个帧中的帧级别特征表征所述视频实例在该帧中的特征信息；

特征聚合单元，被配置为通过聚合所述多个帧级别特征来确定所述视频实例的视频级别特征，所述视频级别特征表征所述视频实例跨所述多个帧的特征信息；以及

分析结果确定单元，被配置为至少基于所述视频级别特征来确定在所述多个帧中针对所述视频实例的分析结果。

24.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理单元执行时实现根据权利要求1至11中任一项所述的方法。

25.一种计算机程序产品，所述计算机程序产品包括可由处理单元执行的计算机程序，所述计算机程序包括用于执行权利要求1至11中任一项所述的方法的指令。