CN116597336A

CN116597336A - 视频处理方法、电子设备、存储介质及计算机程序产品

Info

Publication number: CN116597336A
Application number: CN202310317399.5A
Authority: CN
Inventors: 王秋月; 汪天才
Original assignee: Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Current assignee: Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-08-15

Abstract

本申请提供一种视频处理方法、电子设备、存储介质及计算机程序产品。方法包括：获取待处理视频的多个帧序列各自对应的目标图像特征；基于当前帧序列对应的目标图像特征进行目标检测；对初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征；获取与初始目标检测结果中的至少部分位置信息相对应的图像嵌入特征；将第一位置编码特征与图像嵌入特征融合，获得当前查询特征；基于前一帧序列对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征；基于目标图像特征以及目标查询特征进行解码，获得当前帧序列对应的更新查询特征；基于该更新查询特征，确定最终目标检测结果。可以实现对视频时序关系的建模。

Description

视频处理方法、电子设备、存储介质及计算机程序产品

技术领域

本申请涉及视频处理技术领域，更具体地涉及一种视频处理方法、电子设备、存储介质及计算机程序产品。

背景技术

目前在视频处理领域，视频目标检测和视频实例分割等是常用的视频处理技术，下面以视频实例分割为例描述这类视频处理技术所存在的问题。需注意，视频目标检测存在类似的问题，只是视频目标检测主要检测视频中的目标对象，而视频实例分割在检测视频中的目标对象(即实例)的基础上还进一步进行分割。视频实例分割任务往往需要在视频中检测、跟踪并分割出所有实例。所以视频实例分割不仅需要模型具有单帧空间上的实例识别和分割能力，还需要模型能够在视频中联系和持续跟踪实例。

现有技术中的视频实例分割方法主要包括以下方案：利用针对单帧图像的特征提取网络提取视频中每个视频帧的特征，然后对每个视频帧单独进行实例的检测和分割，得到单帧的结果后，通过相邻帧之间的实例匹配算法，获得整个视频上的实例序列。针对单帧图像的特征提取网络适用于单帧图像的特征提取，但是缺乏对帧与帧之间时序关系的建模，因此难以实现对视频实例序列的有效检测和识别(视频目标检测存在类似的问题)。因此，需要一种新的视频处理方案以解决上述技术问题。

发明内容

考虑到上述问题而提出了本申请。本申请提供了一种视频处理方法、电子设备、存储介质及计算机程序产品。

根据本申请一方面，提供了一种视频处理方法，包括：获取待处理视频的多个帧序列各自对应的目标图像特征，多个帧序列中的每个帧序列包括一个或多个视频帧，任一帧序列所对应的目标图像特征包含对应帧序列中的一个或多个视频帧分别对应的目标图像特征；对于待处理视频中的任一当前帧序列，执行以下帧序列处理操作：基于当前帧序列所对应的目标图像特征进行目标检测，获得当前帧序列所对应的初始目标检测结果；对当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征；获取与当前帧序列所对应的初始目标检测结果中的至少部分位置信息相对应的图像嵌入特征；将第一位置编码特征与图像嵌入特征融合，获得当前帧序列所对应的当前查询特征；基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征，其中，当前查询特征、更新查询特征和目标查询特征各自包括与至少一个潜在目标对象一一对应的特征向量；基于当前帧序列所对应的目标图像特征以及目标查询特征进行解码，获得当前帧序列所对应的更新查询特征；基于当前帧序列所对应的更新查询特征，确定当前帧序列所对应的最终目标检测结果；其中，初始目标检测结果包括对应帧序列中的每个视频帧中的目标对象的初始位置信息，最终目标检测结果包括对应帧序列中的每个视频帧中的目标对象的最终位置信息。

示例性地，初始位置信息用于指示目标对象所在的初始检测框的预测位置，最终位置信息用于指示目标对象所在的最终检测框的预测位置，初始目标检测结果还包括与每个初始检测框相对应的置信度，最终目标检测结果还包括与每个最终检测框相对应的置信度，在对当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征之前，帧序列处理操作还包括：选择当前帧序列所对应的初始目标检测结果中置信度大于或等于第一置信度阈值的初始检测框所对应的初始位置信息，作为当前帧序列所对应的初始目标检测结果中的至少部分信息；和/或，在基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征之前，帧序列处理操作还包括：选择前一帧序列所对应的最终目标检测结果中置信度小于第二置信度阈值的最终检测框，将前一帧序列所对应的更新查询特征中的除与特定特征向量以外的特征向量，作为前一帧序列所对应的更新查询特征中的至少部分特征向量，其中，特定特征向量为与所选择的最终检测框相对应的特征向量。

示例性地，在每个帧序列包含多个视频帧的情况下，任意两个相邻帧序列中第一帧序列所包括的视频帧与第二帧序列所包括的视频帧部分相同。

示例性地，获取待处理视频的多个帧序列各自对应的目标图像特征，包括：对于待处理视频中的任一当前帧序列，对当前帧序列中的每个视频帧进行特征提取，获得当前帧序列所对应的初始图像特征，当前帧序列所对应的初始图像特征包括当前帧序列中的一个或多个视频帧分别对应的初始图像特征；将当前帧序列所对应的初始图像特征与待处理视频中的前一帧序列所对应的记忆令牌特征进行融合，获得与当前帧序列相对应的记忆令牌特征；将当前帧序列所对应的初始图像特征和与当前帧序列相对应的记忆令牌特征进行融合，获得与当前帧序列相对应的目标图像特征。

示例性地，将当前帧序列所对应的初始图像特征与待处理视频中的前一帧序列所对应的记忆令牌特征进行融合，获得与当前帧序列相对应的记忆令牌特征，包括：对当前帧序列所对应的初始图像特征进行位置编码，获得第二位置编码特征，第二位置编码特征与当前帧序列所对应的初始图像特征的维度一致；将第二位置编码特征与当前帧序列所对应的初始图像特征进行合并，获得合并特征；将合并特征与前一帧序列所对应的记忆令牌特征进行注意力机制运算，获得与当前帧序列相对应的记忆令牌特征；将当前帧序列所对应的初始图像特征和与当前帧序列相对应的记忆令牌特征进行融合，获得与当前帧序列相对应的目标图像特征，包括：将当前帧序列所对应的初始图像特征和与当前帧序列相对应的记忆令牌特征进行注意力机制运算，获得与当前帧序列相对应的目标图像特征。

示例性地，最终位置信息用于指示目标对象所在的最终检测框的预测位置，在基于当前帧序列所对应的更新查询特征，确定当前帧序列的最终目标检测结果之后，帧序列处理操作还包括：基于当前帧序列的最终目标检测结果，将至少部分最终检测框映射到当前帧序列所对应的目标图像特征，获得至少部分最终检测框各自对应的局部图像特征；将任一最终检测框所对应的局部图像特征作为卷积核，对当前帧序列所对应的目标图像特征进行卷积，获得与该最终检测框相对应的掩膜信息，掩膜信息用于指示对应的最终检测框内所包含的目标对象的掩膜的位置。

示例性地，基于当前帧序列所对应的目标图像特征进行目标检测，获得当前帧序列所对应的初始目标检测结果通过视频处理模型中的目标检测模块实现，基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征通过视频处理模型中的解码模块实现，视频处理模型通过以下方式训练获得：获取与样本视频的多个帧序列一一对应的标注目标检测结果和目标图像特征，标注目标检测结果包括对应帧序列中的每个视频帧中的目标对象的标注位置信息；对于样本视频中的任一当前帧序列，利用视频处理模型执行帧序列处理操作，获得当前帧序列所对应的预测目标检测结果；基于样本视频中的多个帧序列各自对应的预测目标检测结果和标注目标检测结果，计算预测损失；基于预测损失对视频处理模型中的参数进行优化。

根据本申请的另一方面，还提供了一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的视频处理方法。

根据本申请的又一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，其中，所述程序指令在运行时用于执行上述的视频处理方法。

根据本申请的再一方面，还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，其中，所述计算机程序在运行时用于执行上述的视频处理方法。

根据本申请实施例的视频处理方法、电子设备、存储介质和计算机程序产品，基于当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征，进而基于第一位置编码特征获得当前帧序列所对应的当前查询特征。该方法进一步基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征，并基于所生成的目标查询特征进行查询，来获得当前帧序列的最终目标检测结果。该方法可以将先前帧序列的目标检测信息作为先验融入当前帧序列的查询特征，这样可以实现对视频时序关系的建模，有助于实现对视频帧中目标对象的连续搜索和追踪，进而能够有效、准确地检测和识别视频实例序列。此外，该方法还可以通过多个帧序列各自对应的目标图像特征进行目标检测，由此可以保证较为准确的单帧目标对象检测(和实例分割)效果。因此，上述方案允许对视频帧进行较为准确的单帧目标检测(和实例分割)，同时还可以使得获得的最终目标检测结果在时序上具有连续性及一致性，这有助于获得在时空维度中均较为精确的目标对象的位置信息。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本申请实施例的视频处理方法和装置的示例电子设备的示意性框图；

图2示出根据本申请一个实施例的视频处理方法的示意性流程图；

图3示出根据本申请一个实施例的帧序列处理操作的示意图；

图4示出根据本申请一个实施例的视频处理装置的示意性框图；以及

图5示出根据本申请一个实施例的电子设备的示意性框图。

具体实施方式

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用***的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、图像处理、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。

本申请实施例提供了一种视频处理方法、电子设备、存储介质及计算机程序产品。根据本申请实施例的视频处理方法，可以将先前帧序列的目标检测信息作为先验融入当前帧序列的查询特征，这样可以实现对视频时序关系的建模，有助于获得在时空维度中均较为精确的目标对象的位置信息。根据本申请实施例的视频处理技术可以应用于任何涉及视频目标检测的领域。

首先，参照图1来描述用于实现根据本申请实施例的视频处理方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108、以及图像采集装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、微处理器中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置106和所述输出装置108可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像采集装置110可以采集图像，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是单独的相机或移动终端中的摄像头等。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本申请实施例的视频处理方法和装置的示例电子设备可以在诸如个人计算机、终端设备、考勤机、面板机、相机或远程服务器等的设备上实现。其中，终端设备包括但不限于：平板电脑、手机、PDA(Personal DigitalAssistant，个人数字助理)、可触屏一体机、可穿戴设备等。

下面，将参考图2描述根据本申请实施例的视频处理方法。图2示出根据本申请一个实施例的视频处理方法200的示意性流程图。如图2所示，视频处理方法200包括以下步骤S210和S220。

步骤S210，获取待处理视频的多个帧序列各自对应的目标图像特征，多个帧序列中的每个帧序列包括一个或多个视频帧，任一帧序列所对应的目标图像特征包含对应帧序列中的一个或多个视频帧分别对应的目标图像特征。

待处理视频可以来自外部设备，由外部设备传送到电子设备100进行视频处理。此外，待处理视频也可以由电子设备100自身进行采集获得。例如，电子设备100可以利用图像采集装置110(例如独立的摄相头)实时采集待处理视频。图像采集装置110可以将采集到的待处理视频传送到处理器102，由处理器102进行视频处理。

待处理视频中可以包括任意数量的视频帧。在一个实施例中，获取的待处理视频可以包括128帧视频帧。可以将这128帧视频帧划分为任意数量的帧序列，每个帧序列中包括一个或多个视频帧。例如，将128帧视频帧划分为16个帧序列，第一个帧序列Clip0中可以包含第1帧至第8帧视频帧，第二个帧序列Clip1中可以包含第9帧至第16帧视频帧，依此类推，第16个帧序列中Clip15可以包含第121帧至第128帧视频帧。可以理解，当前帧序列的划分方式仅仅是示例性地，不同帧序列中包含视频帧的数量可以相同或不同，本申请对此不做限定。此外，可选地，在每个帧序列包含多个视频帧的情况下，任意两个相邻帧序列中第一帧序列所包括的视频帧与第二帧序列所包括的视频帧可以完全不同或部分相同。

对于每个帧序列，可以获取该帧序列对应的目标图像特征。任一帧序列所对应的目标图像特征包含对应帧序列中的一个或多个视频帧分别对应的目标图像特征。任一视频帧所对应的目标图像特征可以仅为当前视频帧中含有目标对象的区域的特征，也可以为目标对象以及目标对象附近像素区域的特征。例如，可以包括目标对象以及目标对象附近10个像素内的像素区域的特征。当然，目标图像特征也可以包括当前视频帧中全部像素区域的特征。目标对象可以是任意物体，包括但不限于：行人、动物、车辆等。例如，待处理视频可以为道路监控视频，目标对象可以为该视频中驶过的车辆。替代地，目标对象还可以为道路监控视频中的行人。在本申请的实施例中，目标对象可以为一类对象或特定对象。例如，目标对象可以为行人，那么在待处理视频中出现的每一个行人甲、行人乙、行人丙等都属于目标对象。替代地，目标对象还可以为特定对象。例如，在上述目标对象为行人的实施例中，目标对象可以为行人乙。在一个实施例中，目标图像特征可以包括图像的边缘、颜色、空间等信息，其可以通过一个高维的张量来表示。可以采用任意合适的特征提取模型提取获得每个帧序列所对应的目标图像特征。示例性而非限制性地，可以通过转换器模型骨干网络(Transformer Backbone)提取每个帧序列的目标图像特征。可选地，在提取当前帧序列的目标图像特征的过程中，可以通过交叉特征注意力机制与先前帧序列的特征信息(如下文将描述的记忆令牌特征)做交互获得时序信息，以此进一步提升对整个视频时序的认知。

步骤S220，对于待处理视频中的任一当前帧序列，执行帧序列处理操作。帧序列处理操作可以包括以下步骤S221、步骤S222、步骤S223、步骤S224、步骤S225、步骤S226和步骤S227。图3示出了根据本申请实施例的帧序列处理操作的示意图。下面结合图2和图3描述帧序列处理操作的实现方式。

步骤S221，基于当前帧序列所对应的目标图像特征进行目标检测，获得当前帧序列所对应的初始目标检测结果，其中，初始目标检测结果包括对应帧序列中的每个视频帧中的目标对象的初始位置信息。

示例性地，当前帧序列可以是第二个帧序列Clip1，其中包含第9帧至第16帧视频帧。每个视频帧分别对应有自己的目标图像特征。可以利用任何现有或将来可能出现的目标检测模型，基于当前帧序列所对应的目标图像特征进行目标检测，获得当前帧序列对应的初始目标检测结果F₁。示例性地，目标检测模型可以包括但不限于区域卷积神经网络(Region-based Convolutional Neural Network,RCNN)、快速区域卷积神经网络(FasterRCNN)、单点多尺度目标检测器(Single Shot MultiBox Detector,SSD)、单阶经典检测器(You Only Look Once,YOLO)、或多视图3D目标检测的位置嵌入式转换模型(Position embedding transformation formulti-view 3d object detection,PETR)等。初始目标检测结果F₁中可以包含至少一个初始目标检测框(本文称为“初始检测框”)的位置信息。本文描述的每个目标检测框是包含目标对象在内的边界框(bounding box)，其可以可选地是矩形框。当然，目标检测框的形状还可以是其他合适的形状，例如圆形、三角形等。同一目标对象可以对应有一个或多个目标检测框。需注意，每个帧序列所对应的初始目标检测结果可以包括该帧序列中的每个视频帧各自对应的初始目标检测结果。示例性地，每个帧序列所对应的初始目标检测结果所包含的每个目标检测框均可以带有对应标记信息，用于表示其所来源的视频帧，例如可以用视频帧的帧序号作为标记信息。这样，在同一帧序列所对应的初始目标检测结果中，通过各目标检测框的标记信息即可识别其来源于哪个视频帧。可以理解，类似地，对于下文将描述的最终目标检测结果来说，其所包含的每个目标检测框也可以带有与来源视频帧相关的标记信息。

参照图3，可以利用诸如YOLOX网络的目标检测模型，基于第一个帧序列Clip0所对应的目标图像特征F-Clip0进行目标检测，获得该帧序列的初始目标检测结果F₀。图3所示的初始目标检测结果F₀中仅示出了单个视频帧所对应的初始目标检测结果，该单个视频帧所对应的初始目标检测结果包含5个目标对象分别对应的目标检测框的位置信息。假设第一个帧序列Clip0中的8个视频帧各自均对应有5个目标检测框，则第一个帧序列Clip0所对应的初始目标检测结果中可以共包含40个目标检测框的位置信息。示例性地，每个帧序列所对应的初始目标检测结果还可以包括各目标检测框所对应的置信度，置信度可以用于表示对应目标检测框包含目标对象的概率大小。置信度越大，表示对应目标检测框包含目标对象的可能性越大，也就表示该目标检测框越可信。

步骤S222，对当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征。

示例性地，可以使当前帧序列所对应的初始目标检测结果中的全部初始位置信息参与位置编码。示例性地，还可以对当前帧序列所对应的初始目标检测结果中包含的初始位置信息进行筛选，使筛选后的部分初始位置信息参与位置编码。在一个实施例中，对初始位置信息进行筛选可以包括但不限于：排除初始位置信息中置信度不满足要求的目标检测框对应的位置信息(即初始目标检测框对应的初始位置信息)；若多个目标检测框中包含同一目标对象，可以保留其中的任一目标检测框所对应的位置信息。

示例性而非限制性地，位置编码可以包括条件位置编码、可学习的绝对位置编码、正余弦函数编码和相对位置编码等中的任意一种。在一个实施例中，可以利用正余弦函数对当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，以获得其对应的第一位置编码特征。第一位置编码(positional encoding)特征也可以称为第一位置嵌入(positional embedding)特征。第一位置编码特征可以是维度为N₁×C的特征，其包含N₁个长度为C的特征向量。

步骤S223，获取与当前帧序列所对应的初始目标检测结果中的至少部分位置信息相对应的图像嵌入特征。

示例性地，步骤S223可以包括：基于当前帧序列中与初始目标检测结果中的至少部分位置信息相对应的图像信息，确定与初始目标检测结果中的至少部分位置信息相对应的图像嵌入(token embedding)特征。

示例性地，与任一初始检测框的初始位置信息相对应的图像信息(即与初始检测框对应的图像信息)可以基于当前帧序列所对应的目标图像特征获得。如上所述可知，初始目标检测结果中的至少部分位置信息为与初始目标检测结果中的至少部分初始检测框相对应的初始位置信息，对于任一初始检测框来说，可以从当前帧序列所对应的目标图像特征中提取该初始检测框所在位置处的局部图像特征作为该初始检测框所对应的图像信息。例如，可以将任一初始检测框映射到当前帧序列所对应的目标图像特征，例如具体映射到初始检测框的来源视频帧所对应的目标图像特征上，进而获得该初始检测框所在位置处的局部图像特征作为该初始检测框所对应的图像信息。这种情况下，可以将任一初始检测框所对应的局部图像特征展开(flatten)为序列特征的形式，获得图像嵌入特征。图像嵌入特征的维度与第一位置编码特征一致，可以为例如N₁×C大小。

示例性地，与任一初始检测框的初始位置信息相对应的图像信息可以基于当前帧序列获得。例如，对于任一初始检测框来说，可以从其来源视频帧中提取该初始检测框所在位置处的图像块，作为该初始检测框所对应的图像信息。随后，可以对初始检测框所对应的图像信息进行特征提取，获得初始检测框所对应的局部图像特征。随后，可以将任一初始检测框所对应的局部图像特征展开(flatten)为序列特征的形式，获得图像嵌入特征。

步骤S224，将第一位置编码特征与图像嵌入特征融合，获得当前帧序列所对应的当前查询特征。

示例性地，可以将第一位置编码特征与图像嵌入特征逐元素相加，获得当前查询特征(如图3所示的ProposalQ)。示例性地，在位置编码时，可以对各初始检测框的初始位置信息进行归一化处理。随后，可以将归一化后的结果通过线性层映射到与图像嵌入特征同维度，获得第一位置编码特征，以便于将第一位置编码特征与图像嵌入特征逐元素相加。

步骤S225，基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征，其中，当前查询特征、更新查询特征和目标查询特征各自包括与至少一个潜在目标对象一一对应的特征向量。

示例性地，前一帧序列，指的是在时间轴上早于当前帧序列出现(例如早于当前帧序列采集)的前一帧序列。例如，若当前帧序列为第二个帧序列Clip1，则前一帧序列为第一个帧序列Clip0。任一帧序列的出现时间可以采用该帧序列中各视频帧的最早出现时间表示。

为了描述方便，下面将步骤S225中所使用的“前一帧序列所对应的更新查询特征中的至少部分特征向量”称为先验查询特征。示例性地，当前查询(query)特征的维度可以为N₁×C，先验查询特征的维度可以是N₂×C，可以将二者合并以获得维度为N×C的目标查询特征，即N＝N₁+N₂。N₁、N₂、N均可以为任意大于0的整数。当前查询特征包括N₁个长度为C的特征向量，其与N₁个潜在目标对象一一对应。先验查询特征包括N₂个长度为C的特征向量，其与N₂个潜在目标对象一一对应。目标查询特征包括N个长度为C的特征向量，其与N个潜在目标对象一一对应。如图3所示，先验查询特征可以用SeqQ表示，目标查询特征可以用Q表示。

示例性地，对于第一个帧序列(例如Clip0)来说，前一帧序列所对应的更新查询特征可以为初始化查询特征。初始化查询特征可以是预设的，其可以在视频处理模型的训练过程中随视频处理模型的参数一起进行优化。初始化查询特征可以是维度为N₃×C的特征，N₃可以根据需要设定为任意大小。对于第一个帧序列来说，可以将全部初始化查询特征作为先验查询特征，即N₃＝N₂。初始化查询特征是可选的，对于第一个帧序列(例如Clip0)来说，前一帧序列所对应的更新查询特征可以为0(即没有)。从以上描述可以理解，初始化查询特征、当前查询特征、先验查询特征、更新查询特征和目标查询特征的通道数C的大小保持一致。对于除第一个帧序列(例如Clip0)以外的任一帧序列来说，其用于生成目标查询特征的先验查询特征SeqQ可以来自于前一帧序列所对应的更新查询特征。随着帧序列由前向后处理，所对应的更新查询特征可以不断更新，将处理到的各帧序列的特征信息融入其中。由此可以将先前帧序列的特征信息融合到更新查询特征中作为先验，当前帧序列可以至少基于这种包含先验知识的更新查询特征来进行检测，判断当前帧序列中的目标对象的位置。

步骤S226，基于当前帧序列所对应的目标图像特征以及目标查询特征进行解码，获得当前帧序列所对应的更新查询特征。解码可以包括交叉注意力运算。

示例性地，可以利用视频处理模型中的解码模块，对当前帧序列所对应的目标图像特征(例如图3所示的F-Clip0或F-Clip1)以及目标查询特征Q进行解码，以获得当前帧序列所对应的更新查询特征Q'。示例性地，视频处理模型可以是基于转换器(Transformer)结构的视频实例分割模型(Video Instance Segmentation,VIS)中的至少部分网络结构。解码模块可以是任意解码器模块中的至少部分网络结构，上述解码器模块可以是例如可变形的检测解码器(Deformable Dtection Tansformer，Deformable DETR)等。示例性地，解码模块可以包括解码器模块中除头部模块(head)以外的剩余网络结构。本领域技术人员可以理解，头部模块可以包括用于输出目标检测框所对应的位置信息的检测头、用于输出目标检测框所对应的分类信息的分类头、用于输出目标检测框所对应的掩膜信息的分割头等中的一种或多种。解码模块中可以包括一个或多个注意力运算层和一个或多个多层感知机(Multilayer Perceptron,MLP)等。

步骤S226可以视为是一种目标对象信息搜索和追踪的操作，通过注意力运算，可以对每个潜在目标对象进行信息的连续追踪，以预测潜在目标对象是否真正存在并在其存在的情况下进一步预测其准确的位置。

步骤S227，基于当前帧序列所对应的更新查询特征，确定当前帧序列所对应的最终目标检测结果，其中，最终目标检测结果包括对应帧序列中的每个视频帧中的目标对象的最终位置信息。

示例性地，可以将帧序列Clip0所对应的更新查询特征Q'输入后续的头部模块，获得帧序列Clip0所对应的最终目标检测结果R-Clip0。类似地，将帧序列Clip1所对应的更新查询特征Q'输入后续的头部模块，可以获得帧序列Clip1所对应的最终目标检测结果R-Clip1。

根据本申请实施例的视频处理方法，基于当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征，进而基于第一位置编码特征获得当前帧序列所对应的当前查询特征。该方法进一步基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征，并基于所生成的目标查询特征进行查询，来获得当前帧序列的最终目标检测结果。该方法可以将先前帧序列的目标检测信息作为先验融入当前帧序列的查询特征，这样可以实现对视频时序关系的建模，有助于实现对视频帧中目标对象的连续搜索和追踪，进而能够有效、准确地检测和识别视频实例序列。此外，该方法还可以通过多个帧序列各自对应的目标图像特征进行目标检测，由此可以保证较为准确的单帧目标对象检测(和实例分割)效果。因此，上述方案允许对视频帧进行较为准确的单帧目标检测(和实例分割)，同时还可以使得获得的最终目标检测结果在时序上具有连续性及一致性，这有助于获得在时空维度中均较为精确的目标对象的位置信息。

示例性地，根据本申请实施例的视频处理方法可以在具有存储器和处理器的设备、装置或者***中实现。

根据本申请实施例的视频处理方法可以部署在图像采集端处，例如，可以部署在具有图像采集功能的个人终端或服务器端处。

替代地，根据本申请实施例的视频处理方法还可以分布地部署在服务器端(或云端)和个人终端处。例如，可以在客户端获取待处理视频，客户端将获取的待处理视频传送给服务器端(或云端)，由服务器端(或云端)进行视频处理。

示例性地，对于待处理视频中的第一个帧序列，前一帧序列所对应的更新查询特征为初始化查询特征。

在一个实施例中，可以预先生成初始化查询特征Q_pre。初始化查询特征Q_pre可以表示为维度为N₃×C的特征，其中N₃可以为任意大于0的整数。例如初始化查询特征Q_pre的维度可以为300×C。初始化查询特征可以预先存储在用于实现根据本申请实施例的视频处理方法的装置(例如上述电子设备100)的本地存储空间或云端存储空间中。

示例性地，对于任一当前帧序列，前一帧序列所对应的更新查询特征中的至少部分特征向量可以包括前一帧序列所对应的更新查询特征中的与初始化查询特征所对应的特征向量。即，在视频处理过程中，可以始终保留与初始化查询特征所对应的特征向量作为先验查询特征中的至少一部分来参与对当前帧序列的实例查询。

根据上述技术方案，可以结合初始化查询特征获得第一个帧序列所对应的目标查询特征，这样可以在第一个帧序列所对应的目标查询特征中引入额外的先验信息，由于上文描述的各帧序列的目标查询特征的生成原理，可知在后续帧序列中也同样能够引入该额外的先验信息，这有助于更全面、更准确地检测出各视频帧中的目标对象。

示例性地，初始位置信息用于指示目标对象所在的初始检测框的预测位置，最终位置信息用于指示目标对象所在的最终检测框的预测位置，初始目标检测结果还可以包括与每个初始检测框相对应的置信度，最终目标检测结果还可以包括与每个最终检测框相对应的置信度。示例性地，在对当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征之前，帧序列处理操作还可以包括：选择当前帧序列所对应的初始目标检测结果中置信度大于或等于第一置信度阈值的初始检测框所对应的初始位置信息，作为当前帧序列所对应的初始目标检测结果中的至少部分信息；和/或，在基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征之前，帧序列处理操作还包括：选择前一帧序列所对应的最终目标检测结果中置信度小于第二置信度阈值的最终检测框，将前一帧序列所对应的更新查询特征中的除与特定特征向量以外的特征向量，作为前一帧序列所对应的更新查询特征中的至少部分特征向量，其中，特定特征向量为与所选择的最终检测框相对应的特征向量。

如上所述，在一个实施例中，初始目标检测结果中可以包括目标对象所在的初始检测框的初始位置信息，该位置信息用于指示初始检测框的预测位置，初始目标检测结果还可以包括各初始检测框所对应的置信度。最终目标检测结果中可以包括目标对象所在的最终检测框的最终位置信息，该位置信息用于指示最终检测框的预测位置，最终目标检测结果还可以包括各最终检测框所对应的置信度。以初始检测框为例，初始位置信息可以包括初始检测框的以下信息中的一种或多种：一个或多个角点的角点坐标；中心坐标；宽度信息；高度信息。其中，在初始位置信息包括宽度信息和/或高度信息的情况下，初始位置信息可以进一步包括至少一个角点的角点坐标和/或中心坐标。初始检测框的置信度可以用任意数值表示，例如置信度的取值范围可以是0至1之间。如上所述，置信度的数值越接近1可以表示该初始检测框所检测的目标对象越准确。同理地，可以参照理解最终检测框的最终位置信息及其置信度的含义。

可以预先设置初始检测框所对应的第一置信度阈值以及最终检测框所对应的第二置信度阈值。第一置信度阈值和第二置信度阈值可以为0-1之间的任意数值，同时二者可以相同或不同。示例性地，第一置信度阈值可以是0.6，第二置信度阈值可以是0.7。例如，可以选择当前帧序列所对应的初始目标检测结果中置信度大于或等于第一置信度阈值0.6的初始检测框所对应的初始位置信息，作为当前帧序列所对应的初始目标检测结果中的至少部分信息。例如，可以选择前一帧序列所对应的最终目标检测结果中置信度小于第二置信度阈值0.7的最终检测框，从前一帧序列所对应的更新查询特征Q'中排除这些选出的最终检测框所对应的特征向量，将剩余特征向量作为前一帧序列所对应的更新查询特征中的至少部分特征向量，即先验查询特征SeqQ。

在一个示例中，帧序列Clip0所对应的初始目标检测结果包括20个初始检测框，其对应的当前查询特征ProposalQ可以包括20个特征向量(可以称为query)，先验查询特征SeqQ可以为初始化查询特征，其可以包括例如300个query。这样，帧序列Clip0所对应的目标查询特征Q可以包括共320个query。相应地，帧序列Clip0所对应的更新查询特征Q'也可以包括320个query。对于帧序列Clip0所对应的更新查询特征Q'，在其中与当前查询特征ProposalQ相对应的20个特征向量中，排除置信度低于第二置信度阈值的12个最终检测框所对应的12个query，剩余8个query，与初始化查询特征所对应的300个query组成新的308个query。可以将这308个query作为下一个帧序列Clip1所对应的先验查询特征SeqQ。假设帧序列Clip1所对应的初始目标检测结果包括10个初始检测框，即可以获得包括318个query的目标查询特征Q。相应地，帧序列Clip1所对应的更新查询特征Q'也可以包括318个query。对于帧序列Clip1所对应的更新查询特征Q'，在其中与当前查询特征ProposalQ相对应的10个特征向量中，排除置信度低于第二置信度阈值的6个最终检测框所对应的6个query，剩余4个query，与其他308个query组成新的312个query作为帧序列Clip2的先验查询特征SeqQ。以此类推。基于该示例，还可以帮助理解上述“始终保留与初始化查询特征所对应的特征向量作为先验查询特征中的至少一部分来参与对当前帧序列的实例查询”的方案。

根据上述技术方案，通过预先设置的置信度阈值分别对初始目标检测结果和最终目标检测结果中的目标检测框进行筛选，避免置信度低的目标检测框参与当前或下一帧序列的实例查询，可以使获得的最终位置信息更加准确，同时可以有效降低计算量。

在一个实施例中，对于多个帧序列中的任意两个相邻帧序列，例如第二个帧序列Clip1和第三个帧序列Clip2，第二个帧序列Clip1中包含的多个视频帧和第三个帧序列Clip2中包含的多个视频帧可以完全不相同，也可以部分相同。示例性地，第二个帧序列Clip1中可以包含第9帧至第16帧视频帧，第三个帧序列Clip2中可以包含第17帧至第24帧视频帧。在另一个实施例中，第二个帧序列Clip1中可以包含第9帧至第16帧视频帧，第三个帧序列Clip2中可以包含第14帧至第21帧视频帧。即第二个帧序列Clip1与第三个帧序列Clip2在第14帧至第16帧视频帧处重合。

根据上述技术方案，可以对帧序列进行灵活划分，使得相邻帧序列在时间轴上存在一定的重合。这种方案属于一种滑框式的视频处理方案，可以实现滑框式的视频特征提取，有助于使所获得的最终目标检测结果具有较好的时空连续性，有助于提高目标检测的精度。

示例性地，获取待处理视频的多个帧序列各自对应的目标图像特征，可以包括：对于待处理视频中的任一当前帧序列，对当前帧序列中的每个视频帧进行特征提取，获得当前帧序列所对应的初始图像特征，当前帧序列所对应的初始图像特征包括当前帧序列中的一个或多个视频帧分别对应的初始图像特征；将当前帧序列所对应的初始图像特征与待处理视频中的前一帧序列所对应的记忆令牌特征进行融合，获得与当前帧序列相对应的记忆令牌特征；将当前帧序列所对应的初始图像特征和与当前帧序列相对应的记忆令牌特征进行融合，获得与当前帧序列相对应的目标图像特征。

在一个实施例中，视频帧所对应的初始图像特征可以仅为当前帧序列所对应的视频帧中含有目标对象的区域的特征，也可以为目标对象以及目标对象附近像素区域的特征。例如，可以包括目标对象以及目标对象附近10个像素内的像素区域的特征。当然，初始图像特征也可以包括当前帧序列所对应的视频帧中全部像素区域的特征。在一个实施例中，初始图像特征可以包括图像的边缘、颜色、空间等信息，其可以通过一个高维的张量来表示。该初始图像特征可以通过任意特征提取模型，诸如编码器模型等，提取得到。

对于待处理视频来说，可以通过记忆令牌(memory token)特征作为长时记忆存储单元来形成时序记忆，以记忆和存储一系列帧序列中的特征信息，并将先前的记忆与当前帧序列所对应的初始图像特征进行融合，形成新的记忆令牌特征。记忆令牌特征也可以采用高维张量表示。示例性而非限制性地，记忆令牌特征与任一帧序列中任一视频帧所对应的图像特征(包括初始图像特征和/或目标图像特征)的维度可以相同或不同。比较可取的是，记忆令牌特征的维度小于任一视频帧所对应的图像特征的维度。例如，假设初始图像特征可以表示为三维张量，其维度为H₁×W₁×C₁，其中，C₁为通道数，H₁、W₁为每个通道下的特征图(feature map)的高和宽。记忆令牌特征也可以表示为三维张量，其维度为H₂×W₂×C₂，每个维度的含义与初始图像特征类似。比较可取的是，C₁和C₂相等，H₂小于H₁，W₁小于W₂。示例性地，对于第一个帧序列Clip0来说，可以采用初始化记忆令牌特征(可以称为第一初始化记忆令牌特征)作为前一帧序列所对应的记忆令牌特征。示例性地，初始化记忆令牌特征可以根据对于目标对象的位置和/或目标对象的形状等信息的初始感知建立先验模型。然后，根据输入的视频帧自动更新感知，从而获得与各帧序列相对应的记忆令牌特征，使得更新后的记忆令牌特征能够对当前的视频(例如上述待处理视频)负责。

示例性地，当前帧序列所对应的初始图像特征与待处理视频中的前一帧序列所对应的记忆令牌特征的融合方式可以为各个特征的和，也可以将各个特征相乘，还可以通过注意力机制运算、相似性计算等方式实现融合。

根据上述技术方案，通过记忆令牌特征能够存储和传递各帧序列的特征信息，实现对特征信息的长期记忆效果。此外，该方案可以将当前帧序列的初始图像特征与当前帧序列所对应的记忆令牌特征进行融合来获得当前帧序列所对应的目标图像特征，由此获得的目标图像特征也融合有一定的时序特征信息。

示例性地，将当前帧序列所对应的初始图像特征与待处理视频中的前一帧序列所对应的记忆令牌特征进行融合，获得与当前帧序列相对应的记忆令牌特征，可以包括：对当前帧序列所对应的初始图像特征进行位置编码，获得第二位置编码特征，第二位置编码特征与当前帧序列所对应的初始图像特征的维度一致；将第二位置编码特征与当前帧序列所对应的初始图像特征进行合并，获得合并特征；将合并特征与前一帧序列所对应的记忆令牌特征进行注意力机制运算，获得与当前帧序列相对应的记忆令牌特征；将当前帧序列所对应的初始图像特征和与当前帧序列相对应的记忆令牌特征进行融合，获得与当前帧序列相对应的目标图像特征，可以包括：将当前帧序列所对应的初始图像特征和与当前帧序列相对应的记忆令牌特征进行注意力机制运算，获得与当前帧序列相对应的目标图像特征。

在一个实施例中，将当前帧序列所对应的初始图像特征与待处理视频中的前一帧序列所对应的记忆令牌特征进行融合，获得与当前帧序列相对应的记忆令牌特征的步骤可以包括以下步骤。对当前帧序列所对应的初始图像特征进行位置编码，获得第二位置编码特征，该第二位置编码特征与当前帧序列所对应的初始图像特征的维度一致。在获得第二位置编码特征后，将第二位置编码特征与当前帧序列所对应的初始图像特征进行合并，获得合并特征；将合并特征与前一帧序列所对应的记忆令牌特征进行注意力机制运算，获得与当前帧序列相对应的记忆令牌特征。

位置编码是对当前帧序列中的各视频帧中的各区域进行编码。在对任一当前视频帧的初始图像特征进行提取时，可以将当前视频帧拉伸表示成1列d行的张量。对当前视频帧中的各区域进行编码，可以在图像拉伸后标识每个区域的位置。示例性地，对于4×4大小的视频帧，该视频帧拉伸后可以表示成1×16维的张量，其中包含的16个元素可以一一对应地表示视频帧上的16个像素的像素值。对于图像上的16个位置，可以对各个位置进行编码，获得第二位置编码特征，该第二位置编码特征也可以称为第二位置嵌入特征。例如，可以将1×1区域的位置标记为0，将1×2区域的位置标记为1……将4×4区域的位置标记为15。在一个实施例中，位置标号可以连续，如1、2、3、4、5……16。替代地，位置标号也可以不连续，如1、3、4、6、9……23。

示例性地，位置编码的方式可以通过神经网络模型自学习实现。该神经网络模型可以为反向传播(Back Propagation,BP)神经网络、霍普菲尔德(Hopfield)网络、自适应共振理论(AdaptiveResonanceTheory,ART)网络和科霍嫩(Kohonen)网络等。替代地，位置编码的方式可以采用余弦位置编码公式对各区域位置初始化。该方案通过余弦位置编码公式对各区域位置进行编码，编码的值较为稳定，结果较为可靠。

示例性地，第二位置编码特征与初始图像特征进行合并可以为逐元素相加。在一个实施例中，初始图像特征为f_t，该初始图像特征对应的位置为pos1，则合并后获得的合并特征f_t′＝f_t+pos1。将该合并特征f_t′与前一帧序列所对应的记忆令牌特征m_t-1进行注意力机制运算，可以获得与当前帧序列相对应的记忆令牌特征m_t。上述注意力机制运算具体可以为交叉注意力机制运算，下面描述本申请采用的注意力机制运算的示例性实现方式。

例如，可以利用前一帧序列所对应的记忆令牌特征m_t-1的特征信息q₁与当前帧序列所对应的初始图像特征f_t的特征信息k₁和v₁进行注意力机制运算，当前帧序列所对应的记忆令牌特征m_t＝Attn(k₁,q₁,v₁)+q₁。在一个实施例中，k₁＝f_t′，q₁＝m_t-1，v₁＝f_t。可以先将k₁和q₁进行相似度计算，得到相似度矩阵。例如，假设k₁和q₁均为1×16维的张量，则可以得到16×16的相似度矩阵。然后，可以将该相似度矩阵与v₁相乘，最后将相乘的结果与q₁相加，即可得到m_t。

根据上述技术方案，通过将当前帧序列所对应的初始图像特征与前一帧序列所对应的记忆令牌特征相交互，并利用交叉注意力机制，能够高效地且有机构化地对记忆令牌特征进行记忆存储，有助于实现时序记忆。

示例性地，将当前帧序列所对应的初始图像特征和与当前帧序列相对应的记忆令牌特征进行融合，获得与当前帧序列相对应的目标图像特征的步骤可以包括以下步骤。将当前帧序列所对应的初始图像特征和当前帧序列所对应的记忆令牌特征进行注意力机制运算，获得当前帧序列所对应的目标图像特征。

例如，可以利用当前帧序列所对应的记忆令牌特征m_t的特征信息k₂和v₂与当前帧序列所对应的初始图像特征f_t的特征信息q₂进行注意力机制运算，当前帧序列所对应的记忆令牌特征在一个实施例中，q₂＝k₁＝f_t′。k₂＝v₂＝m_t。可以先将k₂和q₂进行相似度计算，得到相似度矩阵。然后，将该相似度矩阵与v₂相乘，最后将相乘的结果与q₂相加，即可得到/>

根据上述技术方案，通过注意力机制匹配初始图像特征与当前帧序列所对应的记忆令牌特征，利用注意力形式交互，能够快速且准确读取局部特征信息。该方案能够利用记忆信息实现当前帧序列的特征增强，同时能够显著提高时序的一致性。

示例性地，最终位置信息用于指示目标对象所在的最终检测框的预测位置，在基于当前帧序列所对应的更新查询特征，确定当前帧序列的最终目标检测结果之后，帧序列处理操作还可以包括：基于当前帧序列的最终目标检测结果，将至少部分最终检测框映射到当前帧序列所对应的目标图像特征，获得至少部分最终检测框各自对应的局部图像特征；将任一最终检测框所对应的局部图像特征作为卷积核，对当前帧序列所对应的目标图像特征进行卷积，获得与该最终检测框相对应的掩膜信息，掩膜信息用于指示对应的最终检测框内所包含的目标对象的掩膜的位置。

在一个实施例中，获得当前帧序列的最终目标检测结果之后，可以将最终目标检测结果中包含的全部或部分最终检测框中各像素的像素位置映射到当前帧序列所对应的目标图像特征上，可以获得最终检测框各自对应的局部图像特征。例如，最终检测框数目是5个，那么可以获得5个最终检测框各自对应局部图像特征。即局部图像特征的数目也是5组。

将这5组局部图像特征中的任意一组局部图像特征作为卷积核，与当前帧序列对应的目标图像特征进行卷积，可以获得与该最终检测框对应的掩膜(mask)信息。该卷积操作可以在上述分割头中实现。掩膜信息可以通过热力图(heat map)呈现。在热力图中，可以将目标对象的掩膜内的各个像素进行突出显示。掩膜信息可以视为对目标对象进行实例分割所获得的实例分割结果。

根据上述技术方案，将任一最终检测框所对应的局部图像特征作为卷积核，对当前帧序列所对应的目标图像特征进行卷积，获得与该最终检测框相对应的掩膜信息。该方法可以实现较为准确的实例分割，可以提高所获得的目标对象的位置的准确性。

示例性地，基于当前帧序列所对应的目标图像特征进行目标检测，获得当前帧序列所对应的初始目标检测结果通过视频处理模型中的目标检测模块实现，基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征通过视频处理模型中的解码模块实现，视频处理模型可以通过以下方式训练获得：获取与样本视频的多个帧序列一一对应的标注目标检测结果和目标图像特征，标注目标检测结果包括对应帧序列中的每个视频帧中的目标对象的标注位置信息；对于样本视频中的任一当前帧序列，利用视频处理模型执行帧序列处理操作，获得当前帧序列所对应的预测目标检测结果；基于样本视频中的多个帧序列各自对应的预测目标检测结果和标注目标检测结果，计算预测损失；基于预测损失对视频处理模型中的参数进行优化。

在一个实施例中，本领域普通技术人员参照前文实施例中关于获取与待处理视频的多个帧序列一一对应的目标图像特征的方式，可以理解这里获取与样本视频的多个帧序列一一对应的目标图像特征的实现方式，为了简洁，在此不再赘述。可以理解，标注目标检测结果中可以包括对应帧序列中的每个视频中的目标对象的标注位置信息。对于样本视频中的任一当前帧序列，可以通过视频处理模型获得当前帧序列的预测目标检测结果。可以理解，样本视频中的当前帧序列所对应的预测目标检测结果为该当前帧序列所对应的最终目标检测结果。该视频处理模型可以与步骤S220中所采用的视频处理模型的网络结构相同但参数可能不一致。对初始的视频处理模型的参数进行训练之后，所获得的即为步骤S220中采用的视频处理模型。可以将样本视频中的多个帧序列各自对应的预测目标检测结果和标注目标检测结果代入第一预设损失函数中进行损失计算，获得第一预测损失。在实施例中，还可以预先获得样本视频中的多个帧序列中每个视频帧的标注掩膜信息。根据前文获取的预测目标检测结果中各目标检测框所对应的位置信息，可以获得各目标检测框对应的预测掩膜信息。预测掩膜信息的确定方式可以参照上文关于待处理视频中当前帧序列的掩膜信息的确定方式加以理解。将标注掩膜信息与预测掩膜信息代入第二预设损失函数后，可以确定第二预测损失。可以将第一预测损失作为视频处理模型的预测损失(可以称为总预测损失)以进行优化，也可以将第二预测损失和第二预测损失结合获得视频处理模型的预测损失以进行优化。示例性而非限制性地，第一预设损失函数可以是均方误差损失函数、平方损失函数等，第二预设损失函数可以是二元交叉熵损失函数(Binary Cross Entropy，BCE)等。利用反向传播和梯度下降算法对初始的视频处理模型中的参数进行优化。参数的优化可以迭代执行直至视频处理模型达到收敛状态。当训练结束后，所获得的视频处理模型即可用于后续的视频处理，该阶段可以称为模型的推理或测试阶段。

此外，示例性地，在训练过程中，还可以在样本视频的任意一个或多个帧序列各自对应的标注目标检测结果中添加噪声，获得基于噪声生成的标注位置信息(即噪声检测框)来进行训练，这样可以提高视频处理模型的收敛效率，以提高该视频处理模型的性能。

根据上述技术方案，通过获得样本视频以及样本视频的多个帧序列一一对应的标注目标检测结果，对视频处理模型进行训练，由此可以优化视频处理模型的参数，进而提高视频处理模型的性能。

示例性地，基于预测损失对视频处理模型中的参数进行优化，可以包括：基于预测损失对视频处理模型中的参数以及初始化查询特征一起进行优化。

在一个实施例中，可以基于上述获得的视频处理模型的预测损失，通过反向传播和梯度下降算法，对视频处理模型中的参数(包括权重和/或偏置等)和初始化查询特征一起进行调整，即进行优化，以使得视频处理模型输出的预测目标检测结果与标注目标检测结果之间的相似度提高。

根据上述技术方案，通过基于预测损失对视频处理模型中的参数以及初始化查询特征一起进行优化，可以进一步提升视频处理模型的性能，以保证获得的最终目标检测结果的准确性。

根据本申请另一方面，提供一种视频处理装置。图4示出了根据本申请一个实施例的视频处理装置400的示意性框图。

如图4所示，根据本申请实施例的视频处理装置400包括获取模块410和处理模块420。处理模块420可以包括检测子模块421、编码子模块422、获取子模块423、融合子模块424、生成子模块425、解码子模块426和确定子模块427。各个模块可分别执行上文中图2描述的视频处理方法的各个步骤。以下仅对该视频处理装置400的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块410用于获取待处理视频的多个帧序列各自对应的目标图像特征，多个帧序列中的每个帧序列包括一个或多个视频帧，任一帧序列所对应的目标图像特征包含对应帧序列中的一个或多个视频帧分别对应的目标图像特征。获取模块410可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

处理模块420用于对于待处理视频中的任一当前帧序列，执行帧序列处理操作。处理模块420可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

具体地，检测子模块421用于基于当前帧序列所对应的目标图像特征进行目标检测，获得当前帧序列所对应的初始目标检测结果，其中，初始目标检测结果包括对应帧序列中的每个视频帧中的目标对象的初始位置信息。

编码子模块422用于对当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征。

获取子模块423用于获取与当前帧序列所对应的初始目标检测结果中的至少部分位置信息相对应的图像嵌入特征。

融合子模块424用于将第一位置编码特征与图像嵌入特征融合，获得当前帧序列所对应的当前查询特征。

生成子模块425用于基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征，其中，当前查询特征、更新查询特征和目标查询特征各自包括与至少一个潜在目标对象一一对应的特征向量。

解码子模块426用于基于当前帧序列所对应的目标图像特征以及目标查询特征进行解码，获得当前帧序列所对应的更新查询特征。

确定子模块427用于基于当前帧序列所对应的更新查询特征，确定当前帧序列所对应的最终目标检测结果，其中，最终目标检测结果包括对应帧序列中的每个视频帧中的目标对象的最终位置信息。

图5示出了根据本申请一个实施例的电子设备500的示意性框图。电子设备500包括存储器510和处理器520。

存储器510存储用于实现根据本申请实施例的视频处理方法中的相应步骤的计算机程序指令。

处理器520用于运行存储器510中存储的计算机程序指令，以执行根据本申请实施例的视频处理方法的相应步骤。

在一个实施例中，计算机程序指令被处理器520运行时用于执行以下步骤：获取待处理视频的多个帧序列各自对应的目标图像特征，多个帧序列中的每个帧序列包括一个或多个视频帧，任一帧序列所对应的目标图像特征包含对应帧序列中的一个或多个视频帧分别对应的目标图像特征；对于待处理视频中的任一当前帧序列，执行以下帧序列处理操作：基于当前帧序列所对应的目标图像特征进行目标检测，获得当前帧序列所对应的初始目标检测结果；对当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征；获取与当前帧序列所对应的初始目标检测结果中的至少部分位置信息相对应的图像嵌入特征；将第一位置编码特征与图像嵌入特征融合，获得当前帧序列所对应的当前查询特征；基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征，其中，当前查询特征、更新查询特征和目标查询特征各自包括与至少一个潜在目标对象一一对应的特征向量；基于当前帧序列所对应的目标图像特征以及目标查询特征进行解码，获得当前帧序列所对应的更新查询特征；基于当前帧序列所对应的更新查询特征，确定当前帧序列所对应的最终目标检测结果；其中，初始目标检测结果包括对应帧序列中的每个视频帧中的目标对象的初始位置信息，最终目标检测结果包括对应帧序列中的每个视频帧中的目标对象的最终位置信息。

示例性地，电子设备500还可以包括图像采集装置530。图像采集装置530用于采集待处理视频。图像采集装置530是可选的，电子设备500也可以不包括图像采集装置530。此时处理器520可以通过其他方式获取待处理视频，例如从外部设备或从存储器510中获取待处理视频。

此外，根据本申请实施例，还提供了一种存储介质，在存储介质上存储了程序指令，在程序指令被计算机或处理器运行时用于执行本申请实施例的视频处理方法的相应步骤，并且用于实现根据本申请实施例的视频处理装置中的相应模块。存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本申请实施例的视频处理装置的各个功能模块，并和/或者可以执行根据本申请实施例的视频处理方法。

在一个实施例中，程序指令在运行时用于执行以下步骤：获取待处理视频的多个帧序列各自对应的目标图像特征，多个帧序列中的每个帧序列包括一个或多个视频帧，任一帧序列所对应的目标图像特征包含对应帧序列中的一个或多个视频帧分别对应的目标图像特征；对于待处理视频中的任一当前帧序列，执行以下帧序列处理操作：基于当前帧序列所对应的目标图像特征进行目标检测，获得当前帧序列所对应的初始目标检测结果；对当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征；获取与当前帧序列所对应的初始目标检测结果中的至少部分位置信息相对应的图像嵌入特征；将第一位置编码特征与图像嵌入特征融合，获得当前帧序列所对应的当前查询特征；基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及当前查询特征，生成目标查询特征，其中，当前查询特征、更新查询特征和目标查询特征各自包括与至少一个潜在目标对象一一对应的特征向量；基于当前帧序列所对应的目标图像特征以及目标查询特征进行解码，获得当前帧序列所对应的更新查询特征；基于当前帧序列所对应的更新查询特征，确定当前帧序列所对应的最终目标检测结果；其中，初始目标检测结果包括对应帧序列中的每个视频帧中的目标对象的初始位置信息，最终目标检测结果包括对应帧序列中的每个视频帧中的目标对象的最终位置信息。

此外，根据本申请实施例，还提供了一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序在运行时用于执行上述视频处理方法200。

根据本申请实施例的电子设备中的各模块可以通过根据本申请实施例的实施视频处理或视频处理的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本申请实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本申请实施例，还提供了一种计算机程序，该计算机程序在运行时用于执行上述视频处理方法200。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的视频处理装置中的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频处理方法，包括：

获取待处理视频的多个帧序列各自对应的目标图像特征，所述多个帧序列中的每个帧序列包括一个或多个视频帧，任一帧序列所对应的目标图像特征包含对应帧序列中的一个或多个视频帧分别对应的目标图像特征；

对于所述待处理视频中的任一当前帧序列，执行以下帧序列处理操作：

基于所述当前帧序列所对应的目标图像特征进行目标检测，获得所述当前帧序列所对应的初始目标检测结果；

对所述当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征；

获取与所述当前帧序列所对应的初始目标检测结果中的至少部分位置信息相对应的图像嵌入特征；

将所述第一位置编码特征与所述图像嵌入特征融合，获得所述当前帧序列所对应的当前查询特征；

基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及所述当前查询特征，生成目标查询特征，其中，所述当前查询特征、所述更新查询特征和所述目标查询特征各自包括与至少一个潜在目标对象一一对应的特征向量；

基于所述当前帧序列所对应的目标图像特征以及所述目标查询特征进行解码，获得所述当前帧序列所对应的更新查询特征；

基于所述当前帧序列所对应的更新查询特征，确定所述当前帧序列所对应的最终目标检测结果；

其中，所述初始目标检测结果包括对应帧序列中的每个视频帧中的目标对象的初始位置信息，所述最终目标检测结果包括对应帧序列中的每个视频帧中的目标对象的最终位置信息。

2.如权利要求1所述的方法，其中，所述初始位置信息用于指示目标对象所在的初始检测框的预测位置，所述最终位置信息用于指示目标对象所在的最终检测框的预测位置，所述初始目标检测结果还包括与每个初始检测框相对应的置信度，所述最终目标检测结果还包括与每个最终检测框相对应的置信度，

在所述对所述当前帧序列所对应的初始目标检测结果中的至少部分位置信息进行位置编码，获得第一位置编码特征之前，所述帧序列处理操作还包括：

选择所述当前帧序列所对应的初始目标检测结果中置信度大于或等于第一置信度阈值的初始检测框所对应的初始位置信息，作为所述当前帧序列所对应的初始目标检测结果中的至少部分信息；和/或，

在所述基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及所述当前查询特征，生成目标查询特征之前，所述帧序列处理操作还包括：

选择所述前一帧序列所对应的最终目标检测结果中置信度小于第二置信度阈值的最终检测框，将所述前一帧序列所对应的更新查询特征中的除与特定特征向量以外的特征向量，作为所述前一帧序列所对应的更新查询特征中的至少部分特征向量，其中，所述特定特征向量为与所选择的最终检测框相对应的特征向量。

3.如权利要求1所述的方法，其中，在每个帧序列包含多个视频帧的情况下，任意两个相邻帧序列中第一帧序列所包括的视频帧与第二帧序列所包括的视频帧部分相同。

4.如权利要求1-3任一项所述的方法，其中，所述获取待处理视频的多个帧序列各自对应的目标图像特征，包括：

对于所述待处理视频中的任一当前帧序列，

对所述当前帧序列中的每个视频帧进行特征提取，获得所述当前帧序列所对应的初始图像特征，所述当前帧序列所对应的初始图像特征包括所述当前帧序列中的一个或多个视频帧分别对应的初始图像特征；

将所述当前帧序列所对应的初始图像特征与所述待处理视频中的前一帧序列所对应的记忆令牌特征进行融合，获得与所述当前帧序列相对应的记忆令牌特征；

将所述当前帧序列所对应的初始图像特征和与所述当前帧序列相对应的记忆令牌特征进行融合，获得与所述当前帧序列相对应的目标图像特征。

5.如权利要求4所述的方法，其中，

所述将所述当前帧序列所对应的初始图像特征与所述待处理视频中的前一帧序列所对应的记忆令牌特征进行融合，获得与所述当前帧序列相对应的记忆令牌特征，包括：

对所述当前帧序列所对应的初始图像特征进行位置编码，获得第二位置编码特征，所述第二位置编码特征与所述当前帧序列所对应的初始图像特征的维度一致；

将所述第二位置编码特征与所述当前帧序列所对应的初始图像特征进行合并，获得合并特征；

将所述合并特征与所述前一帧序列所对应的记忆令牌特征进行注意力机制运算，获得与所述当前帧序列相对应的记忆令牌特征；

所述将所述当前帧序列所对应的初始图像特征和与所述当前帧序列相对应的记忆令牌特征进行融合，获得与所述当前帧序列相对应的目标图像特征，包括：

将所述当前帧序列所对应的初始图像特征和与所述当前帧序列相对应的记忆令牌特征进行注意力机制运算，获得与所述当前帧序列相对应的目标图像特征。

6.如权利要求1-3任一项所述的方法，其中，所述最终位置信息用于指示目标对象所在的最终检测框的预测位置，在所述基于所述当前帧序列所对应的更新查询特征，确定所述当前帧序列的最终目标检测结果之后，所述帧序列处理操作还包括：

基于所述当前帧序列的最终目标检测结果，将至少部分最终检测框映射到所述当前帧序列所对应的目标图像特征，获得所述至少部分最终检测框各自对应的局部图像特征；

将任一最终检测框所对应的局部图像特征作为卷积核，对所述当前帧序列所对应的目标图像特征进行卷积，获得与该最终检测框相对应的掩膜信息，所述掩膜信息用于指示对应的最终检测框内所包含的目标对象的掩膜的位置。

7.如权利要求1-3任一项所述的方法，其中，所述基于所述当前帧序列所对应的目标图像特征进行目标检测，获得所述当前帧序列所对应的初始目标检测结果通过视频处理模型中的目标检测模块实现，所述基于前一帧序列所对应的更新查询特征中的至少部分特征向量以及所述当前查询特征，生成目标查询特征通过所述视频处理模型中的解码模块实现，

所述视频处理模型通过以下方式训练获得：

获取与样本视频的多个帧序列一一对应的标注目标检测结果和目标图像特征，所述标注目标检测结果包括对应帧序列中的每个视频帧中的目标对象的标注位置信息；

对于所述样本视频中的任一当前帧序列，利用所述视频处理模型执行所述帧序列处理操作，获得所述当前帧序列所对应的预测目标检测结果；

基于所述样本视频中的多个帧序列各自对应的所述预测目标检测结果和所述标注目标检测结果，计算预测损失；

基于所述预测损失对所述视频处理模型中的参数进行优化。

8.一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的视频处理方法。

9.一种存储介质，在所述存储介质上存储了程序指令，其中，所述程序指令在运行时用于执行如权利要求1至7任一项所述的视频处理方法。

10.一种计算机程序产品，所述计算机程序产品包括计算机程序，其中，所述计算机程序在运行时用于执行如权利要求1至7任一项所述的视频处理方法。