CN113824989A

CN113824989A - 一种视频处理方法、装置和计算机可读存储介质

Info

Publication number: CN113824989A
Application number: CN202110788685.0A
Authority: CN
Inventors: 顾章轩; 蒋正锴; 彭瑾龙; 王亚彪; 汪铖杰; 李季檩; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-12-21
Anticipated expiration: 2041-07-13
Also published as: CN113824989B

Abstract

本发明实施例公开了一种视频处理方法、装置和计算机可读存储介质；本发明实施例在获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧后，对目标视频帧进行视觉特征提取，得到目标视频帧的图像特征，然后，在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重，然后，在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例，然后，在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪；该方案可以提升视频处理的准确性。

Description

一种视频处理方法、装置和计算机可读存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种视频处理方法、装置和计算机可读存储介质。

背景技术

近年来，随着互联网技术的飞速发展，对视频的处理方式也越来越多。在视频处理中，往往需要进行视频实例分割处理，所谓视频实例分割处理是指从视频序列中分离出对象实例，并进行跟踪。现有的视频处理方法主要是通过在视频帧中识别出可能存在实例的目标区域，在该目标区域内分割出实例，并进行跟踪。

在对现有技术的研究和实践过程中，本发明的发明人发现现有的视频处理方法往往比较依赖于识别出的目标区域，而直接识别出的目标区域往往精度不高，当目标区域的识别存在误差时，就会使得分割出的实例也往往存在误差，因此，导致视频处理的准确性不足。

发明内容

本发明实施例提供一种视频处理方法、装置和计算机可读存储介质，可以提高视频处理的准确性。

一种视频处理方法，包括：

获取待处理视频，并在所述待处理视频中筛选出当前需要处理的目标视频帧；

对所述目标视频帧进行视觉特征提取，得到所述目标视频帧的图像特征；

在所述图像特征中提取出所述目标视频帧中至少一个候选实例的实例特征，并根据所述实例特征，确定所述候选实例对应的实例权重，所述实例权重用于指示所述候选实例在所述目标视频帧中每一像素位置的权重；

在所述图像特征中提取出实例位置特征，并根据所述实例位置特征和实例权重，在所述目标视频帧中对所述候选实例进行分割，以在所述候选实例中筛选出目标实例；

在所述图像特征中提取出所述目标实例的跟踪特征，并根据所述跟踪特征对所述目标实例进行跟踪。

相应的，本发明实施例提供一种视频处理装置，包括：

获取单元，用于获取待处理视频，并在所述待处理视频中筛选出当前需要处理的目标视频帧；

提取单元，用于对所述目标视频帧进行视觉特征提取，得到所述目标视频帧的图像特征；

确定单元，用于在所述图像特征中提取出所述目标视频帧中至少一个候选实例的实例特征，并根据所述实例特征，确定所述候选实例对应的实例权重，所述实例权重用于指示所述候选实例在所述目标视频帧中每一像素位置的权重；

分割单元，用于在所述图像特征中提取出实例位置特征，并根据所述实例位置特征和实例权重，在所述目标视频帧中对所述候选实例进行分割，以在所述候选实例中筛选出目标实例；

跟踪单元，用于在所述图像特征中提取出所述目标实例的跟踪特征，并根据所述跟踪特征对所述目标实例进行跟踪。

可选的，在一些实施例中，所述确定单元，具体可以用于获取所述目标视频帧对应的预设卷积核；将所述实例特征添加至所述预设卷积核，得到所述候选实例对应的目标卷积核；根据所述目标卷积核，确定所述候选实例对应的实例权重。

可选的，在一些实施例中，所述分割单元，具体可以用于采用训练后视频处理模型的实例分割网络在所述图像特征中提取出所述候选实例的掩膜特征；将所述掩膜特征进行融合，并将融合后掩膜特征与预设坐标特征进行拼接，得到所述目标视频帧对应的实例位置特征。

可选的，在一些实施例中，所述分割单元，具体可以用于将所述实例权重作为所述候选实例的卷积参数，并基于所述卷积参数，对所述实例位置特征进行卷积处理，得到所述候选实例在所述目标视频帧中的实例分割值；当所述实例分割值超过预设分割阈值时，将所述候选实例作为所述目标视频帧中真实存在的目标实例。

可选的，在一些实施例中，所述视频处理装置还可以包括训练单元，所述训练单元，具体可以用于获取视频帧样本对，所述视频帧样本对包括目标视频帧样本和与所述目标视频帧样本相邻的参考视频帧样本，所述视频帧样本对包括标注实例的实例帧；采用预设视频处理模型分别预测所述目标视频帧样本和参考视频帧样本的预测实例和所述预测实例对应的样本跟踪特征；根据所述标注实例、预测实例和样本跟踪特征对所述预设视频处理模型进行收敛，得到所述训练后视频处理模型。

可选的，在一些实施例中，所述训练单元，具体可以用于获取所述预测实例对应的位置信息，并根据位置信息，确定所述视频帧样本对的位置损失信息；根据所述标注实例和预测实例，确定所述视频帧样本对的实例损失信息；基于所述样本跟踪特征，确定所述视频帧样本对的跟踪损失信息；将所述位置损失信息、实例损失信息和跟踪损失信息进行融合，并基于融合后损失信息对预设视频处理模型进行收敛，得到所述训练后视频处理模型。

可选的，在一些实施例中，所述训练单元，具体可以用于根据预测目标实例和预测参考实例，确定所述视频帧样本对的卷积核损失信息；基于标注实例和预测实例，确定所述视频帧样本对的分割损失信息；将所述卷积核损失信息和分割损失信息进行融合，得到所述视频帧样本对的实例损失信息。

可选的，在一些实施例中，所述训练单元，具体可以用于根据所述样本跟踪特征，在预测参考实例中筛选出与所述预测目标实例相似的目标预测参考实例；获取所述预测目标实例对应的目标卷积核和所述目标预测参考实例对应的参考卷积核；计算所述目标卷积核与参考卷积核之间的距离，得到卷积核距离；根据所述卷积核距离，确定所述视频帧样本对的卷积核损失信息。

可选的，在一些实施例中，所述训练单元，具体可以用于将所述标注目标实例与预测目标实例进行对比，以得到所述目标视频帧样本的目标分割损失信息；将所述标注参考实例和预测参考实例进行对比，以得到所述参考视频帧样本的参考分割损失信息；将所述目标分割损失信息和参考分割损失信息进行融合，得到所述视频帧样本对的分割损失信息。

可选的，在一些实施例中，所述训练单元，具体可以用于将所述标注目标实例与预测目标实例进行对比，得到初始分割损失信息和预测正确的目标实例的实例数量；将所述初始分割损失信息进行融合，得到融合后分割损失信息；根据所述实例数量，计算所述融合后分割损失信息的均值，得到所述目标视频帧样本的目标分割损失信息。

可选的，在一些实施例中，所述训练单元，具体可以用于将所述目标样本跟踪特征和参考样本跟踪特征进行融合，得到正向跟踪损失信息；将所述目标样本跟踪特征作为参考样本跟踪特征，并将所述参考样本跟踪特征作为目标样本跟踪特征；返回执行所述将所述目标样本跟踪特征和参考样本跟踪特征进行融合的步骤，得到反向跟踪损失信息；将所述正向跟踪损失信息和反向跟踪损失信息进行融合，得到所述视频帧样本对的跟踪损失信息。

可选的，在一些实施例中，所述训练单元，具体可以用于将所述标注参考实例和预测参考实例进行对比；根据对比结果，在所述参考样本跟踪特征中筛选出预测正确的参考实例对应的正样本跟踪特征和预测错误的参考实例对应的负样本跟踪特征；将所述目标样本跟踪特征分别与正样本跟踪特征和负样本跟踪特征进行融合，并计算融合后样本跟踪特征之间的差值，得到正向跟踪损失信息。

可选的，在一些实施例中，所述跟踪单元，具体可以用于获取所述待处理视频对应的跟踪特征集合；分别计算所述跟踪特征与所述跟踪特征集合中的每一候选跟踪特征之间的特征相似度；根据所述特征相似度，对所述跟踪特征集合进行更新，以对所述目标实例进行跟踪。

可选的，在一些实施例中，所述跟踪单元，具体可以用于当所述特征相似度超过预设相似度阈值时，确定所述目标实例与候选跟踪特征对应的实例匹配，并将所述候选跟踪特征替换为所述跟踪特征，以跟踪所述目标实例；当所述特征相似度未超过预设相似度阈值时，将所述跟踪特征添加至所述跟踪特征集合，以跟踪所述目标实例。

此外，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的视频处理方法。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种视频处理方法中的步骤。

本发明实施例在获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧后，对目标视频帧进行视觉特征提取，得到目标视频帧的图像特征，然后，在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重，然后，在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例，然后，在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪；由于该方案可以直接提取出目标视频帧中候选实例的实例特征，从而确定候选实例在目标视频帧中每一像素的实例权重，基于该实例权重和图像特征中提取出的实例位置特征，对候选实例进行分割，从而得到目标实例，无需在目标视频帧中识别出可能存在实例的目标区域，因此，可以提升视频处理的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频处理方法的场景示意图；

图2是本发明实施例提供的视频处理方法的流程示意图；

图3是本发明实施例提供的预设视频处理模型训练的示意图；

图4是本发明实施例提供的视频处理方法与现有视频处理方法的对比示意图；

图5是本发明实施例提供的视频处理方法的另一流程示意图；

图6是本发明实施例提供的视频处理装置的结构示意图；

图7是本发明实施例提供的视频处理装置的另一结构示意图；

图8是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频处理方法、装置和计算机可读存储介质。其中，该视频处理装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，参见图1，以视频处理装置集成在电子设备中为例，电子设备在获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧后，对目标视频帧进行视觉特征提取，得到目标视频帧的图像特征，然后，在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重，然后，在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例，然后，在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪，进而提升视频处理的准确性。

其中，需说明的是，本申请实施例提供的视频处理方法涉及到人工智能领域的计算机视觉技术，即在本申请实施例中，可以利用人工智能的计算机视觉技术在目标视频帧的图像特征中进行实例分割，并提取分割出的目标实例的跟踪特征，基于跟踪特征对目标实例进行跟踪。

所谓人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从视频处理装置的角度进行描述，该视频处理装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC，Personal Computer)、可穿戴设备、虚拟现实设备或其他可以进行视频处理的智能设备等设备。

一种视频处理方法，包括：

获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧，对目标视频帧进行视觉特征提取，得到目标视频帧的图像特征，在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重，该实例权重用于指示候选实例在目标视频帧中每一像素位置的权重，在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例，在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪。

如图2所示，该视频处理方法的具体流程如下：

101、获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧。

其中，目标视频帧为待处理视频中当前需要进行实例分割处理的视频帧。

其中，获取待处理视频的方式可以有多种，比如，可以直接接收用户通过终端上传的待处理视频，或者，直接从网络或者数据库中获取待处理视频，或者，当待处理视频数量较多或者内存较大时，还可以接收终端发送的视频处理请求，该视频处理请求中携带待处理视频的存储地址，根据存储地址，在终端的内存、缓存或者第三方数据库中获取待处理视频。

在获取待处理视频之后，便可以在待处理视频中筛选出当前需要处理的目标视频帧，比如，可以提取出待处理视频的视频帧，得到视频帧集合，根据视频帧在待处理视频中的播放时间，对视频帧集合中的视频帧进行排序，根据排序结果，在视频帧集合中筛选出当前需要处理的目标视频帧。

其中，根据排序结果，在视频帧集合中筛选出当前需要处理的目标视频帧的方式可以有多种，比如，当视频帧集合中还没有视频帧被处理时，就可以将视频帧集合中播放时间最早即待处理视频中的起始视频帧作为当前需要处理的目标视频帧，当视频帧集合中已经存在被处理的视频帧时，就可以在视频帧集合中筛选出已处理视频帧中最晚被处理的视频帧的下一个视频帧作为当前需要处理的目标视频帧，譬如，以视频帧中存在视频帧A、视频帧B、视频帧C和视频帧D，视频帧的排序顺序为A-B-C-D为例，已处理的视频帧为视频帧A和视频帧B，其中，视频帧B为最晚处理的视频帧，则当前需要处理的视频帧为视频帧C。

102、对目标视频帧进行视觉特征提取，得到目标视频帧的图像特征。

其中，图像特征可以为目标视频帧中的图像数据转换的视觉特征。

其中，对目标视频帧进行视觉特征提取的方式可以有多种，具体可以如下：

例如，可以采用训练后视频处理模型的视觉特征提取网络对目标视频帧的图像数据，将图像数据转换为视觉特征，从而得到目标视频帧的图像特征，或者，还可以由其他视觉特征提取网络直接提取目标视频帧中的视觉特征，从而得到目标视频帧的图像特征。

其中，视觉特征提取网络的网络结构可以有多种，比如，可以为残差网络，譬如，可以为ResNet-50(一种残差网络)，VGG16(一种网络结构)、MobileNetV2(一种网络结构)或者，还可以为卷积神经网络、深度神经网络等网络结构。

103、在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重。

其中，实例权重用于指示候选实例在目标视频帧中每一像素位置的权重，所谓候选实例可以理解为在目标视频帧中识别出可能出现的前景区域的实例，但并不一定是真实存在于目标视频帧中实例。所谓实例可以理解为目标视频帧中处于前景的对象，比如，可以包括目标视频帧中的人物、物体、动物等对象。

其中，在图像特征中提取出候选实例的实例特征的方式可以有多种，比如，可以通过训练后视频处理模型的实例特征提取网络在图像特征中提取出目标视频帧中的前景特征。根据前景特征，在目标视频帧识别出中存在的至少一个候选实例，在前景特征中筛选出该候选实例的实例特征，或者，还可以通过训练后视频处理模型的实例特征提取网络在图像特征中提取出目标视频帧的初始实例特征，在初始实例特征中筛选出至少一个候选实例的实例特征。

其中，实例特征提取网络的网络结构可以有多种，比如，可以包括一系列的1*1的卷积层与relu激活函数，或者，还可以为其他网络结构，等等。

在筛选出候选实例的实例特征之后，便可以确定候选实例对应的实例权重，确定实例权重的方式可以有多种，比如，获取目标视频帧对应的预设卷积核，将实例特征添加至预设卷积核，得到候选实例对应的目标卷积核，根据目标卷积核，确定候选实例对应的实例权重。

其中，将实例特征添加至预设卷积核的方式可以有多种，比如，可以采用训练后视频处理模型将候选实例的实例特征隐式编码进预设卷积核，从而生成卷积核特征图(K∈R^H ^×W×D)，其中，H和W分别为卷积核特征图的高度和宽度，D为该卷积核特征图中的通道数，然后，在卷积核特征图中筛选出候选实例对应的目标卷积核。

在卷积核特征图中筛选出候选实例对应的目标卷积核的方式也可以有多种，比如，可以在卷积核特征图中识别出候选实例对应的像素位置，将该像素位置的卷积核作为目标卷积核，或者，还可以获取候选实例在目标视频帧的目标位置，根据目标位置，确定候选实例在卷积核特征图中的像素位置，将像素位置的卷积核作为候选实例的目标卷积核。

在筛选出目标卷积核之后，便可以根据目标卷积核确定候选实例对应的实例权重，确定实例权重的方式可以有多种，比如，可以提取目标卷积核中的权重矩阵，将该权重矩阵作为所述候选实例对应的实例权重。

104、在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例。

其中，实例位置特征可以理解为目标视频帧中具有实例位置信息的特征，该实例位置也中可以通过实例掩膜特征得来。

其中，提取出实例位置特征的方式可以有多种，比如，可以采用训练后视频处理模型的实例分割网络在图像特征中提取出候选实例的掩膜特征，将掩膜特征进行融合，并将融合掩膜特征与预设坐标特征进行拼接，得到目标视频帧对应的实例位置特征。

其中，掩膜特征(mask特征)可以为用选定的图像、图形或物体，对图像特征(特征图)的全部或局部进行遮挡从而得到实例特征信息，提取掩膜特征的方式可以有多种，比如，可以将除了候选实例以外的其他区域全部采用掩膜进行遮挡，对遮挡后的图像特征进行特征提取，从而就可以得到候选实例对应的掩膜特征，或者，还可以为将候选实例的区域采用掩膜进行遮挡，对遮挡后的图像特征进行特征提取，得到候选实例的掩膜特征。提取掩膜特征并进行融合主要可以采用多个卷积层对图像特征进行转换，从而得到通道数为C_f的融合后掩膜特征

在得到融合后掩膜特征之后，便可以将融合后掩膜特征与预设坐标特征进行拼接，其中，预设坐标特征可以为预设通道数的相对坐标轴，将相对坐标轴拼接至融合后掩膜特征中，从而就可以得到融合后掩膜特征中的实例的位置信息，将具有实例位置信息的掩膜特征就可以作为实例位置特征，以预设通道数为2为例，拼接后得到的实例位置特征就可以为

在得到实例位置特征之后，便可以基于实例权重和实例位置特征，在目标视频帧中对候选实例进行分割，分割的方式可以有多种，比如，可以将实例权重作为候选实例的卷积参数，并基于卷积参数，对实例位置特征进行卷积处理，得到候选实例在目标视频帧中的实例分割值，当实例分割值超过预设分割阈值时，将候选实例作为目标视频帧中真实存在的目标实例。

其中，实例分割值可以理解为用于评价候选实例是否为目标视频帧中的真实存在的前景的实例，对候选实例进行分割的过程可以看作通过卷积参数对实例位置特征进行卷积处理，卷积处理的方式可以有多种，比如，采用预设尺寸的多层卷积层通过实例权重，在实例位置特征中分割出候选实例的分割结果，即实例分割值，具体可以参考公式(1)所示：

其中，m_j为实例分割值，

为实例位置特征，

为卷积参数。

在得到候选实例的实例分割值之后，便可以基于实例分割值确定候选实例是否为目标实例，确定的方式可以有多种，比如，获取预设分割阈值，将候选实例的实例分割值与预设分割阈值进行对比，当实例分割值超过预设分割阈值时，就可以将候选实例作为目标视频帧中真实存在的目标实例，也即候选实例为目标视频帧中的前景的实例，反之，就可以确定候选实例为目标视频帧中的背景。

其中，该训练后视频处理装置可以根据实际应用的需求进行设置，另外，需要说明的是，该训练后视频处理装置可以由维护人员预先进行设置，也可以由视频处理装置自行进行训练，即步骤“采用训练后视频处理模型的实例分割网络在图像特征中提取出候选实例的掩膜特征”之前，该视频处理方法还可以包括：

获取视频帧样本对，该视频帧样本对包括目标视频帧样本和与目标视频帧样本相邻的参考视频帧样本，该视频帧样本对包括标注实例的视频帧。采用预设视频处理模型分别预测目标视频帧样本和参考视频帧样本的预测实例和预测实例对应的样本跟踪特征，根据标注实例、预测实例和样本跟踪特征对预设视频处理模型进行收敛，得到训练后视频处理模型，具体可以如下：

S1、获取视频帧样本对。

其中，视频帧样本对包括目标视频帧样本和与目标视频帧样本相邻的参考视频帧样本，所谓相邻可以理解为目标视频帧样本的前一帧或者后一帧对应的视频帧样本。视频帧样本帧包括标注实例的视频帧。

其中，获取视频帧样本对的方式可以有多种，具体可以如下：

例如，可以获取视频样本，在视频样本中提取出视频帧样本，得到视频帧样本集合，并获取视频样本中视频帧的时序信息，基于该时序信息对视频帧样本集合中的视频帧进行排序，根据排序结果，在视频帧样本集合中筛选出处于相邻位置的视频帧样本，从而得到视频帧样本对，在视频帧样本对中选择任一视频帧样本为目标视频帧样本，则另一视频帧样本就可以为参考视频帧样本。

S2、采用预设视频处理模型分别预测目标视频帧样本和参考视频帧样本的预测实例和预测实例对应的样本跟踪特征。

例如，可以采用预设视频处理模型对目标视频帧样本进行视觉特征提取，得到目标图像特征，在目标图像特征中提取出至少一个样本候选实例的样本实例特征，并根据样本实例特征，确定样本候选实例对应的样本实例权重，在图像特征中提取出样本实例位置特征，并根据样本实例位置特征和实例权重，在目标视频帧样本中对样本候选实例进行分割，以在样本候选实例中筛选出预测目标实例，在目标图像特征中提取出预测目标实例的目标样本跟踪特征。采用预设视频处理模型对参考视频帧样本进行视觉特征提取，从而得到预测参考实例和预测参考实例对应的参考样本跟踪，具体可以参见上文，在此就不再一一赘述。

将预测目标实例和预测参考实例作为预测实例，并将目标样本跟踪特征和参考样本跟踪特征作为样本跟踪特征。

S3、根据标注实例、预测实例和样本跟踪特征对预设视频处理模型进行收敛，得到训练后视频处理模型。

例如，可以获取预测实例对应的位置信息，并根据位置信息，确定视频帧样本对的位置损失信息，根据标注实例和预测实例，确定视频帧样本对的实例损失信息，基于样本跟踪特征，确定视频帧样本对的跟踪损失信息，将位置损失信息、实例损失信息和跟踪损失信息进行融合，并基于融合后损失信息对预设视频处理模型进行收敛，得到训练后视频处理模型，具体可以如下：

(1)获取预测实例对应的位置信息，并根据位置信息，确定视频帧样本对的位置损失信息。

例如，可以获取视频帧样本对对应的预设位置信息，在视频帧样本对中识别出预测实例对应的位置信息，将位置信息与预设位置信息进行对比，从而得到视频样本对的位置损失信息。

其中，位置损失信息可以为单阶段目标检测方法FCOS的损失，这里的位置损失信息主要用于调整预设视频处理模型对视频帧中实例特征进行提取时，不需要对视频帧中的全部位置进行提取，而是在可能存在实例的位置进行实例特征提取，从而提升视频处理模型的处理速度，但是需要强调的是，与识别目标区域(检测框)还是存在本质的区别的，因为，视频处理模型无需去识别目标区域，只是在位置损失信息的调整中，可以减少对部分无效区域的实例特征提取，进而提升处理效率。

(2)根据标注实例和预测实例，确定视频帧样本对的实例损失信息。

例如，根据预测目标实例和预测参考实例，确定视频帧样本对的卷积核损失信息，基于标注实例和预测实例，确定视频帧样本对的分割损失信息，将卷积核损失信息和分割损失信息进行融合，得到视频帧样本对的实例损失信息。

其中，卷积核损失信息用于限制目标视频帧样本和参考视频帧样本生成的卷积核的差别，主要是因为同一个实例在不同视频帧生成的卷积核具有时序不变形，确定卷积核损失信息的方式可以有多种，比如，根据样本跟踪特征，在预测参考实例中筛选出与预测目标实例相似的目标预测参考实例，获取预测目标实例对应的目标卷积核和目标预测参考实例对应的参考卷积核，计算目标卷积核与参考卷积核之间的距离，得到卷积核距离，根据卷积核距离，确定视频帧样本对的卷积核损失信息。

其中，筛选出目标预测参考实例的方式可以有多种，比如，可以在样本跟踪特征中筛选出预测目标实例对应的目标样本跟踪特征和预测参考实例对应的参考样本跟踪特征，分别计算目标样本跟踪特征与参考样本跟踪特征之间的特征相似度，当特征相似度超过预设相似度阈值时，确定目标样本跟踪特征对应的预测目标实例和参考样本跟踪特征对应的预测参考实例相似，从而筛选出目标预测参考实例。

在筛选出目标预测参考实例之后，便可以获取目标卷积核和参考卷积核，获取的方式可以有多种，比如，可以获取目标视频帧样本对应的预设目标卷积核和参考视频帧样本对应的预设参考卷积核，将预测目标实例的目标实例特征添加至预测目标卷积核，得到目标卷积核，将目标预测参考实例的参考实例特征添加至预设参考卷积核，得到参考卷积核。

在获取目标卷积核和参考卷积核之后，便可以计算目标卷积核与参考卷积核之间的距离，得到卷积核距离，基于卷积核距离，确定视频帧样本对的卷积核损失信息，确定的方式可以有多种，比如，可以采用基于L2距离的损失函数根据卷积核距离确定卷积核损失信息，如公式(2)所示：

其中，L_temp为卷积核损失信息，P_j为目标视频帧样本中第j个实例所在的位置，

为该实例在参考视频帧样本的位置，K和K^*分别为目标视频帧样本和参考视频帧样本生成的卷积核特征图。

可选的，还可以采用其他方式计算目标卷积核与参考卷积核之间的距离，比如，可以采用L1距离、余弦距离和欧式距离等等。

其中，标注实例包括标注目标实例和标注参考实例，分割损失信息用于指示预设视频处理模型预测实例的准确性，确定分割损失信息的方式可以有多种，比如，可以将标注目标实例与预测目标实例进行对比，以得到目标视频帧样本的目标分割损失信息，将标注参考实例和预测参考实例进行对比，以得到参考视频帧样本的参考分割损失信息，将目标分割损失信息和参考分割损失信息进行融合，得到视频帧样本对的分割损失信息。

其中，得到目标分割损失信息的方式可以有多种，比如，可以将标注目标实例与预测目标实例进行对比，得到初始分割损失信息和预测正确的目标实例的实例数量，将初始分割损失信息进行融合，得到融合后分割损失信息，根据实例数量，计算融合后分割损失信息的均值，得到目标视频帧样本的目标分割损失信息，如公式(3)所示：

其中，N_pos为预测正确的目标实例的实例数量，

为指示函数，

为位置P_j上的目标实例的标注类型(若该位置无实例，则

为0)，

为初始分割损失信息。

将标注参考实例和预测参考实例进行对比，以得到参考视频帧样本的参考分割损失信息的过程可以参见目标分割损失信息的计算过程，在此就不再一一赘述。

在确定目标分割损失信息和参考分割损失信息之后，便可以将目标分割损失信息与参考分割损失信息进行融合，从而得到视频帧样本对的分割损失信息，融合的方式可以有多种，比如，可以获取目标分割损失信息和参考分割损失信息的加权参数，基于该加权参数分别对目标分割损失信息和参考分割损失信息进行加权，并将加权后的目标分割损失信息和加权后的参考分割损失信息进行融合，得到视频帧样本对的分割损失信息。

(3)基于样本跟踪特征，确定视频帧样本对的跟踪损失信息。

其中，样本跟踪特征可以包括预测目标实例的目标样本跟踪特征和预测参考实例的参考样本跟踪特征。

其中，确定跟踪损失信息的方式可以有多种，比如，可以将目标样本跟踪和参考样本跟踪特征进行融合，得到正向跟踪损失信息，将目标样本跟踪特征作为参考样本跟踪特征，并将参考样本跟踪特征作为目标样本跟踪特征，返回执行将目标样本跟踪特征和参考样本跟踪特征进行融合的步骤，得到反向跟踪损失信息，将正向损失信息和反向跟踪损失信息进行融合，得到视频帧样本对的跟踪损失信息。

其中，将将目标样本跟踪和参考样本跟踪特征进行融合，得到正向跟踪损失信息的方式可以有多种，比如，可以将标注参考实例和预测参考实例进行对比，根据对比结果，在参考样本跟踪特征中筛选预测正确的参考实例对应的正样本跟踪特征和预测错误的参考实例对应的负样本跟踪特征，将目标样本跟踪特征分别与正样本跟踪特征和负样本跟踪特征进行融合，并计算融合后样本跟踪特征之间的差值，得到正向跟踪损失信息，如公式(4)所示：

其中，L_c为正向跟踪损失信息，N_pos预测正确的目标实例的实例数量，e_j为目标样本跟踪特征，r⁺为正样本跟踪特征，r^-为负样本跟踪特征，j为同时出现目标视频帧样本和参考视频帧样本中的实例。

其中，反向跟踪损失信息与正向跟踪损失信息最大的区别在于目标视频帧样本和参考视频帧样本不同，因此，反向跟踪损失信息可以参考正向跟踪损失信息的计算过程，再此就不再一一赘述。分别计算正向跟踪损失信息和反向跟踪损失信息可以理解为一个双向学习的过程，使得训练后视频处理模型具有双向思维，所谓双向思维可以理解为同时学习过去到为例与从未来到过去的跟踪。

在得到正向跟踪损失信息和反向跟踪损失信息之后，便可以将正向跟踪损失信息和反向跟踪损失信息进行融合，融合的方式可以有多种，比如，可以计算正向跟踪损失信息和反向跟踪损失信息的均值，从而得到视频帧样本对的跟踪损失信息，如公式(5)所示：

其中，L_track为跟踪损失信息，L_c为正向跟踪损失信息，

为反向跟踪损失信息。

可选的，还可以获取正向跟踪损失信息和反向跟踪损失信息的加权参数，基于该加权参数，分别对正向跟踪损失信息和反向跟踪损失信息进行加权，并将加权后的正向跟踪损失信息和加权后的反向跟踪损失信息进行融合，得到视频帧样本对的跟踪损失信息。

(4)将位置损失信息、实例损失信息和跟踪损失信息进行融合，并基于融合后损失信息对预设视频处理模型进行收敛，得到训练后视频处理模型。

例如，可以获取实例损失信息和跟踪损失信息的加权参数，并基于加权参数分别对实例损失信息和跟踪损失信息进行加权，并将加权后的实例损失信息、跟踪损失信息与位置损失信息进行融合，其中，实例损失信息包括卷积核损失信息和分割损失信息，参考公式(6)所示：

L_overall＝L_fcos+λ_mL_mask+λ_tL_temp+λ_rL_track (6)

其中，L_overall为融合后损失信息，L_fcos为位置损失信息，L_mask为分割损失信息，L_temp为卷积核损失信息，L_track跟踪损失信息，λ_m、λ_t和λ_r分别为加权参数，即平衡训练损失的超参数。

在得到融合后损失信息之后，便可以基于融合后损失信息对预设视频处理模型进行收敛，收敛的方式可以有多种，比如，可以采用梯度下降算法基于融合后损失信息对预设视频处理模型的网络参数进行更新，从而得到训练后视频处理模型，或者，还可以采用其他算法基于融合后损失信息对预设视频处理模型的网络参数进行更新，从而得到训练后视频处理模型。

其中，需要说明的是预设视频处理模型可以包括视觉特征提取网络、实例特征提取网络、实例分割网络和实例跟踪网络。其中，视觉特征提取网络用于将视频帧样本的图像数据转换为视觉特征，实例特征提取网络用于提取实例特征并确定该候选实例的实例权重，实例分割网络用于提取出实例位置特征，实例跟踪网络用于提取目标实例的跟踪特征，在对预设视频处理模型训练的过程中，同时输入目标视频帧样本和与其相邻的参考视频帧样本至预设视频处理模型，得到相应的卷积核、实例位置特征和跟踪向量，然后使用这些卷积核确定实例权重，将实例权重作为卷积参数，在实例位置特征中进行卷积操作，得到目标视频帧样本和参考视频帧样本分割出的实例，根据同一实例在不同帧的跟踪特征，利用相似度计算对不同帧的实例进行跟踪，具体可以如图3所示。

其中，对预设视频处理模型进行训练可以在步骤101-104的任一步骤之前完成。对预设视频处理模型的训练，与现有技术最大的区别在于，现有技术仅仅使用了目标视频帧样本和参考视频帧样本上就有实例的那些正样本作为学习的目标，而忽略了其余没有实例的背景点的信息，因此，为了提高跟踪特征的信息利用率，本方案利用了特征图上没有实例的负样本点作为对比学习的目标参与训练。同时，本方案还额外使用双向对比学习的策略训练实例跟踪网络，取得了更稳定和更精确的跟踪效果。

105、在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪。

例如，可以采用训练后视频处理模型的实例跟踪网络在图像特征中提取出目标实例的跟踪特征，然后，计算目标实例的跟踪特征与其他视频帧中实例的跟踪特征之间的相似度，从而对目标实例进行跟踪。

其中，提取目标实例的跟踪特征的方式可以有多种，比如，可以采用多个卷积层组成的卷积网络作为实例跟踪网络，在图像特征中提取出目标实例的跟踪向量，将该跟踪向量作为跟踪特征。

在提取出跟踪特征之后，便可以基于跟踪特征对目标实例进行跟踪，跟踪的方式可以有多种，比如，可以获取待处理视频对应的跟踪特征集合，分别计算跟踪特征与跟踪特征集合中的每一候选跟踪特征之间的特征相似度，根据特征相似度，对跟踪特征集合进行更新，以对目标实例进行跟踪。

其中，对跟踪特征集合进行更新的方式可以有多种，比如，当特征相似度超过预设相似度阈值时，确定目标实例与候选跟踪特征对应的实例匹配，并将候选跟踪特征替换为跟踪特征，以跟踪目标实例，当特征相似度未超过相似度阈值时，将跟踪特征添加至跟踪特征集合，以跟踪目标实例。

其中，这里的跟踪目标实例可以理解为获取目标实例在待处理视频的视频帧中的最新的跟踪特征。在视频处理的过程中，训练后视频处理模型会维护一个跟踪特征集合，这里的跟踪特征集合可以理解为是一个实例跟踪向量的记忆银行(memory bank)，训练后视频处理模型在待处理视频中将第一帧作为目标视频帧，并分割出第一帧中的所有实例的跟踪特征，将这些跟踪特征对应的跟踪向量存入该记忆银行，然后，将第二帧作为目标视频帧，训练后视频处理模型同时输出第二帧中的实例分割结果和实例的跟踪特征(跟踪向量)，根据新的跟踪向量与记忆银行中的向量的相似度判断新的实例是否与前一帧的实例匹配，若匹配，则更新记忆银行中该实例的跟踪向量，若不匹配，则将其作为一个新的实例，并将它的跟踪向量加入记忆银行。重复上述过程，就可以得到待处理视频最终的视频实例分割结果，该视频实例分割结果可以包含待处理视频中包含的实例、以及该实例对应的最新的跟踪特征(跟踪向量)，根据最新的跟踪特征，可以确定该实例在待处理视频中的运动轨迹。

其中，通过将本方案(VisFCN)对视频实例进行分割处理的速度和精度与现有的视频实例分割算法进行对比，可以发现本方案可以对任意类别的视频实例分割场景中同时获得很高的准确度和速度，在相关视频业务中可以对目标实例进行高精度分割与跟踪，具体可以如图4所示，现有的视频实例分割算法的类型可以包括Two-stage(一种实例分割算法)、3D-conv(一种实例分割算法)、Transformer(一种实例分割算法)和Single-stage(一种实例分割算法)，其中，Two-stage中可以包括MaskTrack R-CNN 19(一种网络结构)和CompFeat 21(一种网络结构)，3D-conv可以包括STEm-Seg 20(一种网络结构)，Transformer可以包括VisTR 21(一种网络结构)，Single-stage可以包括TraDeS 21(一种网络结构)和SipMask 20(一种网络结构)，通过图4进行对比可以发现，本方案中分别采用视觉特征提取网络为ResNet-50(即本方案50)和ResNet-101(即本方案101)对目标视频帧进行视觉特征提取，然后，基于提取出的视觉特征对目标实例进行分割和跟踪，无论从速度还是精度都超过了现有的实例分割算法中的各种网络的实例分割速度和精度。

可选的，在一实施例中，该视频处理装置还包括分割出的目标实例和目标实例的跟踪特征存储至区块链上。

由以上可知，本申请实施例在获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧后，对所述目标视频帧进行视觉特征提取，得到目标视频帧的图像特征，然后，在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重，然后，在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例，然后，在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪；由于该方案可以直接提取出目标视频帧中候选实例的实例特征，从而确定候选实例在目标视频帧中每一像素的实例权重，基于该实例权重和图像特征中提取出的实例位置特征，对候选实例进行分割，从而得到目标实例，无需在目标视频帧中识别出可能存在实例的目标区域，因此，可以提升视频处理的准确性。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该视频处理装置具体集成在电子设备，电子设备为服务器为例进行说明。

(一)服务器对预设视频处理模型进行训练，得到训练后视频处理模型。

C1、服务器获取视频帧样本对。

例如，服务器可以获取视频样本，在视频样本中提取出视频帧样本，得到视频帧样本集合，并获取视频样本中视频帧的时序信息，基于该时序信息对视频帧样本集合中的视频帧进行排序，根据排序结果，在视频帧样本集合中筛选出处于相邻位置的视频帧样本，从而得到视频帧样本对，在视频帧样本对中选择任一视频帧样本为目标视频帧样本，则另一视频帧样本就可以为参考视频帧样本。

C2、服务器采用预设视频处理模型分别预测目标视频帧样本和参考视频帧样本的预测实例和预测实例对应的样本跟踪特征。

例如，服务器可以采用预设视频处理模型对目标视频帧样本进行视觉特征提取，得到目标图像特征，在目标图像特征中提取出至少一个样本候选实例的样本实例特征，并根据样本实例特征，确定样本候选实例对应的样本实例权重，在图像特征中提取出样本实例位置特征，并根据样本实例位置特征和实例权重，在目标视频帧样本中对样本候选实例进行分割，以在样本候选实例中筛选出预测目标实例，在目标图像特征中提取出预测目标实例的目标样本跟踪特征。采用预设视频处理模型对参考视频帧样本进行视觉特征提取，从而得到预测参考实例和预测参考实例对应的参考样本跟踪，提取的过程与目标样本跟踪特征的提取过程相同。

C3、服务器根据标注实例、预测实例和样本跟踪特征对预设视频处理模型进行收敛，得到训练后视频处理模型。

例如，服务器可以获取预测实例对应的位置信息，并根据位置信息，确定视频帧样本对的位置损失信息，根据标注实例和预测实例，确定视频帧样本对的实例损失信息，基于样本跟踪特征，确定视频帧样本对的跟踪损失信息，将位置损失信息、实例损失信息和跟踪损失信息进行融合，并基于融合后损失信息对预设视频处理模型进行收敛，得到训练后视频处理模型，具体可以如下：

(1)服务器获取预测实例对应的位置信息，并根据位置信息，确定视频帧样本对的位置损失信息。

例如，服务器可以获取预测实例对应的位置信息，并获取视频帧样本对对应的预设位置信息，在视频帧样本对中识别出预测实例对应的位置信息，将位置信息与预设位置信息进行对比，从而得到视频样本对的位置损失信息。

(2)服务器根据标注实例和预测实例，确定视频帧样本对的实例损失信息。

例如，服务器可以在样本跟踪特征中筛选出预测目标实例对应的目标样本跟踪特征和预测参考实例对应的参考样本跟踪特征，分别计算目标样本跟踪特征与参考样本跟踪特征之间的特征相似度，当特征相似度超过预设相似度阈值时，确定目标样本跟踪特征对应的预测目标实例和参考样本跟踪特征对应的预测参考实例相似，从而筛选出目标预测参考实例。

服务器获取目标视频帧样本对应的预设目标卷积核和参考视频帧样本对应的预设参考卷积核，将预测目标实例的目标实例特征添加至预测目标卷积核，得到目标卷积核，将目标预测参考实例的参考实例特征添加至预设参考卷积核，得到参考卷积核。在获取目标卷积核和参考卷积核之后，便可以计算目标卷积核与参考卷积核之间的距离，得到卷积核距离，基于卷积核距离，确定视频帧样本对的卷积核损失信息，确定的方式可以有多种，比如，可以采用基于L2距离的损失函数根据卷积核距离确定卷积核损失信息，如公式(2)所示。

服务器可以将标注目标实例与预测目标实例进行对比，得到初始分割损失信息和预测正确的目标实例的实例数量，将初始分割损失信息进行融合，得到融合后分割损失信息，根据实例数量，计算融合后分割损失信息的均值，得到目标视频帧样本的目标分割损失信息，如公式(3)所示。将标注参考实例和预测参考实例进行对比，以得到参考视频帧样本的参考分割损失信息的过程可以参见目标分割损失信息的计算过程，在此就不再一一赘述。

服务器获取目标分割损失信息和参考分割损失信息的加权参数，基于该加权参数分别对目标分割损失信息和参考分割损失信息进行加权，并将加权后的目标分割损失信息和加权后的参考分割损失信息进行融合，得到视频帧样本对的分割损失信息。

(3)服务器基于样本跟踪特征，确定视频帧样本对的跟踪损失信息。

例如，服务器可以将标注参考实例和预测参考实例进行对比，根据对比结果，在参考样本跟踪特征中筛选预测正确的参考实例对应的正样本跟踪特征和预测错误的参考实例对应的负样本跟踪特征，将目标样本跟踪特征分别与正样本跟踪特征和负样本跟踪特征进行融合，并计算融合后样本跟踪特征之间的差值，得到正向跟踪损失信息，如公式(4)所示。返回执行将目标样本跟踪特征和参考样本跟踪特征进行融合的步骤，得到反向跟踪损失信息。

服务器可以计算正向跟踪损失信息和反向跟踪损失信息的均值，从而得到视频帧样本对的跟踪损失信息，如公式(5)所示，或者，获取正向跟踪损失信息和反向跟踪损失信息的加权参数，基于该加权参数，分别对正向跟踪损失信息和反向跟踪损失信息进行加权，并将加权后的正向跟踪损失信息和加权后的反向跟踪损失信息进行融合，得到视频帧样本对的跟踪损失信息。

(4)服务器将位置损失信息、实例损失信息和跟踪损失信息进行融合，并基于融合后损失信息对预设视频处理模型进行收敛，得到训练后视频处理模型。

例如，服务器可以获取实例损失信息和跟踪损失信息的加权参数，并基于加权参数分别对实例损失信息和跟踪损失信息进行加权，并将加权后的实例损失信息、跟踪损失信息与位置损失信息进行融合，其中，实例损失信息包括卷积核损失信息和分割损失信息，参考公式(6)所示。

服务器采用梯度下降算法基于融合后损失信息对预设视频处理模型的网络参数进行更新，从而得到训练后视频处理模型，或者，还可以采用其他算法基于融合后损失信息对预设视频处理模型的网络参数进行更新，从而得到训练后视频处理模型。

(二)采用训练后视频处理模型对待处理视频进行实例分割处理。

其中，训练后视频处理模型可以包括视觉特征提取网络、实例特征提取网络、实例分割网络和实例跟踪网络。

如图5所示，一种视频处理方法，具体流程如下：

201、服务器获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧。

例如，服务器可以直接接收用户通过终端上传的待处理视频，或者，直接从网络或者数据库中获取待处理视频，或者，当待处理视频数量较多或者内存较大时，还可以接收终端发送的视频处理请求，该视频处理请求中携带待处理视频的存储地址，根据存储地址，在终端的内存、缓存或者第三方数据库中获取待处理视频。

服务器在获取待处理视频之后，可以提取出待处理视频的视频帧，得到视频帧集合，根据视频帧在待处理视频中的播放时间，对视频帧集合中的视频帧进行排序，当视频帧集合中还没有视频帧被处理时，就可以将视频帧集合中播放时间最早即待处理视频中的起始视频帧作为当前需要处理的目标视频帧，当视频帧集合中已经存在被处理的视频帧时，就可以在视频帧集合中筛选出已处理视频帧中最晚被处理的视频帧的下一个视频帧作为当前需要处理的目标视频帧。

202、服务器对目标视频帧进行视觉特征提取，得到目标视频帧的图像特征。

例如，服务器可以采用训练后视频处理模型的视觉特征提取网络对目标视频帧的图像数据，将图像数据转换为视觉特征，从而得到目标视频帧的图像特征，或者，还可以由其他视觉特征提取网络直接提取目标视频帧中的视觉特征，从而得到目标视频帧的图像特征。

203、服务器在图像特征中提取出目标视频帧中至少一个候选实例的实例特征。

例如，服务器可以通过训练后视频处理模型的实例特征提取网络在图像特征中提取出目标视频帧中的前景特征。根据前景特征，在目标视频帧识别出中存在的至少一个候选实例，在前景特征中筛选出该候选实例的实例特征，或者，还可以通过训练后视频处理模型的实例特征提取网络在图像特征中提取出目标视频帧的初始实例特征，在初始实例特征中筛选出至少一个候选实例的实例特征。

其中，实例特征提取网络可以包括一系列的1*1的卷积层与relu激活函数。

204、服务器根据实例特征，确定候选实例对应的实例权重。

例如，服务器可以获取目标视频帧对应的预设卷积核，采用训练后视频处理模型将候选实例的实例特征隐式编码进预设卷积核，从而生成卷积核特征图(K∈R^H×W×D)，其中，H和W分别为卷积核特征图的高度和宽度，D为该卷积核特征图中的通道数，然后，在卷积核特征图中筛选出候选实例对应的目标卷积核。在卷积核特征图中识别出候选实例对应的像素位置，将该像素位置的卷积核作为目标卷积核，或者，还可以获取候选实例在目标视频帧的目标位置，根据目标位置，确定候选实例在卷积核特征图中的像素位置，将像素位置的卷积核作为候选实例的目标卷积核。提取目标卷积核中的权重矩阵，将该权重矩阵作为所述候选实例对应的实例权重。

205、服务器在图像特征中提取出实例位置特征。

例如，服务器可以将除了候选实例以外的其他区域全部采用掩膜进行遮挡，采用训练后视频处理模型的实例分割网络对遮挡后的图像特征进行特征提取，从而就可以得到候选实例对应的掩膜特征，或者，还可以为将候选实例的区域采用掩膜进行遮挡，对遮挡后的图像特征进行特征提取，得到候选实例的掩膜特征。提取掩膜特征并进行融合主要可以采用多个卷积层对图像特征进行转换，从而得到通道数为C_f的融合后掩膜特征

服务器将相对坐标轴拼接至融合后掩膜特征中，从而就可以得到融合后掩膜特征中的实例的位置信息，将具有实例位置信息的掩膜特征就可以作为实例位置特征，以预设通道数为2为例，拼接后得到的实例位置特征就可以为

206、根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例。

例如，服务器可以将实例权重作为候选实例的卷积参数，并基于卷积参数，对实例位置特征进行卷积处理，得到候选实例在目标视频帧中的实例分割值，卷积处理的方式可以为采用预设尺寸的多层卷积层通过实例权重，在实例位置特征中分割出候选实例的分割结果，即实例分割值，具体可以参考公式(1)所示。获取预设分割阈值，将候选实例的实例分割值与预设分割阈值进行对比，当实例分割值超过预设分割阈值时，就可以将候选实例作为目标视频帧中真实存在的目标实例，也即候选实例为目标视频帧中的前景的实例，反之，就可以确定候选实例为目标视频帧中的背景。

207、服务器在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪。

例如，服务器可以采用多个卷积层组成的卷积网络作为实例跟踪网络，在图像特征中提取出目标实例的跟踪向量，将该跟踪向量作为跟踪特征。以获取待处理视频对应的跟踪特征集合，分别计算跟踪特征与跟踪特征集合中的每一候选跟踪特征之间的特征相似度，当特征相似度超过预设相似度阈值时，确定目标实例与候选跟踪特征对应的实例匹配，并将候选跟踪特征替换为跟踪特征，以跟踪目标实例，当特征相似度未超过相似度阈值时，将跟踪特征添加至跟踪特征集合，以跟踪目标实例。

服务器返回在待处理视频中筛选出目标视频帧的下一帧作为目标视频帧，在目标视频帧中进行实例分割，并提取出分割出的目标实例的跟踪特征，基于跟踪特征对跟踪特征集合进行更新，重复上述过程，直至待处理视频中的全部视频帧全部进行实例分割之后，得到待处理视频中全部视频帧中的实例和更新后的跟踪特征集合，从而完成待处理视频的处理。

由以上可知，本实施例服务器在获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧后，对所述目标视频帧进行视觉特征提取，得到目标视频帧的图像特征，然后，在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重，然后，在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例，然后，在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪；由于该方案可以直接提取出目标视频帧中候选实例的实例特征，从而确定候选实例在目标视频帧中每一像素的实例权重，基于该实例权重和图像特征中提取出的实例位置特征，对候选实例进行分割，从而得到目标实例，无需在目标视频帧中识别出可能存在实例的目标区域，因此，可以提升视频处理的准确性。

为了更好地实施以上方法，本发明实施例还提供一种视频处理装置，该视频处理装置可以集成在电子设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图6所示，该视频处理装置可以包括获取单元301、提取单元302、确定单元303、分割单元304和跟踪单元305，如下：

(1)获取单元301；

获取单元301，用于获取待处理视频，并在该待处理视频中筛选出当前需要处理的目标视频帧。

例如，获取单元301，具体可以用于直接接收用户通过终端上传的待处理视频，或者，直接从网络或者数据库中获取待处理视频，或者，当待处理视频数量较多或者内存较大时，还可以接收终端发送的视频处理请求，该视频处理请求中携带待处理视频的存储地址，根据存储地址，在终端的内存、缓存或者第三方数据库中获取待处理视频。提取出待处理视频的视频帧，得到视频帧集合，根据视频帧在待处理视频中的播放时间，对视频帧集合中的视频帧进行排序，根据排序结果，在视频帧集合中筛选出当前需要处理的目标视频帧。

(2)提取单元302；

提取单元302，用于对目标视频帧进行视觉特征提取，得到目标视频帧的图像特征。

例如，提取单元302，具体可以用于采用训练后视频处理模型的视觉特征提取网络对目标视频帧的图像数据，将图像数据转换为视觉特征，从而得到目标视频帧的图像特征，或者，还可以由其他视觉特征提取网络直接提取目标视频帧中的视觉特征，从而得到目标视频帧的图像特征。

(3)确定单元303；

确定单元303，用于在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重，该实例权重用于指示候选实例在目标视频帧中每一像素位置的权重。

例如，确定单元303，具体可以用于通过训练后视频处理模型的实例特征提取网络在图像特征中提取出目标视频帧中的前景特征。根据前景特征，在目标视频帧识别出中存在的至少一个候选实例，在前景特征中筛选出该候选实例的实例特征，或者，还可以通过训练后视频处理模型的实例特征提取网络在图像特征中提取出目标视频帧的初始实例特征，在初始实例特征中筛选出至少一个候选实例的实例特征。获取目标视频帧对应的预设卷积核，将实例特征添加至预设卷积核，得到候选实例对应的目标卷积核，根据目标卷积核，确定候选实例对应的实例权重。

(4)分割单元304；

分割单元304，用于在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例。

例如，分割单元304，具体可以用于采用训练后视频处理模型的实例分割网络在图像特征中提取出候选实例的掩膜特征，将掩膜特征进行融合，并将融合掩膜特征与预设坐标特征进行拼接，得到目标视频帧对应的实例位置特征。将实例权重作为候选实例的卷积参数，并基于卷积参数，对实例位置特征进行卷积处理，得到候选实例在目标视频帧中的实例分割值，当实例分割值超过预设分割阈值时，将候选实例作为目标视频帧中真实存在的目标实例。

(5)跟踪单元305；

跟踪单元305，用于在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪。

例如，跟踪单元305，具体可以用于采用多个卷积层组成的卷积网络作为实例跟踪网络，在图像特征中提取出目标实例的跟踪向量，将该跟踪向量作为跟踪特征。获取待处理视频对应的跟踪特征集合，分别计算跟踪特征与跟踪特征集合中的每一候选跟踪特征之间的特征相似度，根据特征相似度，对跟踪特征集合进行更新，以对目标实例进行跟踪。

可选的，视频处理装置还可以包括训练单元306，如图7所示，具体可以如下：

训练单元306，用于对预设视频处理模型进行训练，得到训练后视频处理模型。

例如，训练单元306，具体可以用于获取视频帧样本对，该视频帧样本对包括目标视频帧样本和与目标视频帧样本相邻的参考视频帧样本，该视频帧样本对包括标注实例的视频帧。采用预设视频处理模型分别预测目标视频帧样本和参考视频帧样本的预测实例和预测实例对应的样本跟踪特征，根据标注实例、预测实例和样本跟踪特征对预设视频处理模型进行收敛，得到训练后视频处理模型。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例在获取单元301获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧后，提取单元302对所述目标视频帧进行视觉特征提取，得到目标视频帧的图像特征，然后，确定单元303在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重，然后，分割单元304在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例，然后，跟踪单元305在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪；由于该方案可以直接提取出目标视频帧中候选实例的实例特征，从而确定候选实例在目标视频帧中每一像素的实例权重，基于该实例权重和图像特征中提取出的实例位置特征，对候选实例进行分割，从而得到目标实例，无需在目标视频帧中识别出可能存在实例的目标区域，因此，可以提升视频处理的准确性。

本发明实施例还提供一种电子设备，如图8所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

例如，电子设备直接接收用户通过终端上传的待处理视频，或者，直接从网络或者数据库中获取待处理视频，或者，当待处理视频数量较多或者内存较大时，还可以接收终端发送的视频处理请求，该视频处理请求中携带待处理视频的存储地址，根据存储地址，在终端的内存、缓存或者第三方数据库中获取待处理视频。提取出待处理视频的视频帧，得到视频帧集合，根据视频帧在待处理视频中的播放时间，对视频帧集合中的视频帧进行排序，根据排序结果，在视频帧集合中筛选出当前需要处理的目标视频帧。

采用训练后视频处理模型的视觉特征提取网络对目标视频帧的图像数据，将图像数据转换为视觉特征，从而得到目标视频帧的图像特征，或者，还可以由其他视觉特征提取网络直接提取目标视频帧中的视觉特征，从而得到目标视频帧的图像特征。

通过训练后视频处理模型的实例特征提取网络在图像特征中提取出目标视频帧中的前景特征。根据前景特征，在目标视频帧识别出中存在的至少一个候选实例，在前景特征中筛选出该候选实例的实例特征，或者，还可以通过训练后视频处理模型的实例特征提取网络在图像特征中提取出目标视频帧的初始实例特征，在初始实例特征中筛选出至少一个候选实例的实例特征。获取目标视频帧对应的预设卷积核，将实例特征添加至预设卷积核，得到候选实例对应的目标卷积核，根据目标卷积核，确定候选实例对应的实例权重。

采用训练后视频处理模型的实例分割网络在图像特征中提取出候选实例的掩膜特征，将掩膜特征进行融合，并将融合掩膜特征与预设坐标特征进行拼接，得到目标视频帧对应的实例位置特征。将实例权重作为候选实例的卷积参数，并基于卷积参数，对实例位置特征进行卷积处理，得到候选实例在目标视频帧中的实例分割值，当实例分割值超过预设分割阈值时，将候选实例作为目标视频帧中真实存在的目标实例。

采用多个卷积层组成的卷积网络作为实例跟踪网络，在图像特征中提取出目标实例的跟踪向量，将该跟踪向量作为跟踪特征。获取待处理视频对应的跟踪特征集合，分别计算跟踪特征与跟踪特征集合中的每一候选跟踪特征之间的特征相似度，根据特征相似度，对跟踪特征集合进行更新，以对目标实例进行跟踪。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由以上可知，本发明实施例在获取待处理视频，并在待处理视频中筛选出当前需要处理的目标视频帧后，对所述目标视频帧进行视觉特征提取，得到目标视频帧的图像特征，然后，在图像特征中提取出目标视频帧中至少一个候选实例的实例特征，并根据实例特征，确定候选实例对应的实例权重，然后，在图像特征中提取出实例位置特征，并根据实例位置特征和实例权重，在目标视频帧中对候选实例进行分割，以在候选实例中筛选出目标实例，然后，在图像特征中提取出目标实例的跟踪特征，并根据跟踪特征对目标实例进行跟踪；由于该方案可以直接提取出目标视频帧中候选实例的实例特征，从而确定候选实例在目标视频帧中每一像素的实例权重，基于该实例权重和图像特征中提取出的实例位置特征，对候选实例进行分割，从而得到目标实例，无需在目标视频帧中识别出可能存在实例的目标区域，因此，可以提升视频处理的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种视频处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种视频处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理方面或者视频实例分割方面的各种可选实现方式中提供的方法。

以上对本发明实施例所提供的一种视频处理方法、装置和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的视频处理方法，其特征在于，所述根据所述实例特征，确定所述候选实例对应的实例权重，包括：

获取所述目标视频帧对应的预设卷积核；

将所述实例特征添加至所述预设卷积核，得到所述候选实例对应的目标卷积核；

根据所述目标卷积核，确定所述候选实例对应的实例权重。

3.根据权利要求1所述的视频处理方法，其特征在于，所述在所述图像特征中提取出实例位置特征，包括：

采用训练后视频处理模型的实例分割网络在所述图像特征中提取出所述候选实例的掩膜特征；

将所述掩膜特征进行融合，并将融合后掩膜特征与预设坐标特征进行拼接，得到所述目标视频帧对应的实例位置特征。

4.根据权利要求3所述的视频处理方法，其特征在于，所述根据所述实例位置特征和实例权重，在所述目标视频帧中对所述候选实例进行分割，以在所述候选实例中筛选出目标实例，包括：

将所述实例权重作为所述候选实例的卷积参数，并基于所述卷积参数，对所述实例位置特征进行卷积处理，得到所述候选实例在所述目标视频帧中的实例分割值；

当所述实例分割值超过预设分割阈值时，将所述候选实例作为所述目标视频帧中真实存在的目标实例。

5.根据权利要求3所述的视频处理方法，其特征在于，所述采用训练后视频处理模型的实例分割网络在所述图像特征中提取出所述候选实例的掩膜特征之前，还包括：

获取视频帧样本对，所述视频帧样本对包括目标视频帧样本和与所述目标视频帧样本相邻的参考视频帧样本，所述视频帧样本对包括标注实例的实例帧；

采用预设视频处理模型分别预测所述目标视频帧样本和参考视频帧样本的预测实例和所述预测实例对应的样本跟踪特征；

根据所述标注实例、预测实例和样本跟踪特征对所述预设视频处理模型进行收敛，得到所述训练后视频处理模型。

6.根据权利要求5所述的视频处理方法，其特征在于，所述根据所述标注实例、预测实例和样本跟踪特征对所述预设视频处理模型进行收敛，得到所述训练后视频处理模型，包括：

获取所述预测实例对应的位置信息，并根据位置信息，确定所述视频帧样本对的位置损失信息；

根据所述标注实例和预测实例，确定所述视频帧样本对的实例损失信息；

基于所述样本跟踪特征，确定所述视频帧样本对的跟踪损失信息；

将所述位置损失信息、实例损失信息和跟踪损失信息进行融合，并基于融合后损失信息对预设视频处理模型进行收敛，得到所述训练后视频处理模型。

7.根据权利要求6所述的视频处理方法，其特征在于，所述预测实例包括预测目标实例和预测参考实例，所述根据所述标注实例和预测实例，确定所述视频帧样本对的实例损失信息，包括：

根据预测目标实例和预测参考实例，确定所述视频帧样本对的卷积核损失信息；

基于标注实例和预测实例，确定所述视频帧样本对的分割损失信息；

将所述卷积核损失信息和分割损失信息进行融合，得到所述视频帧样本对的实例损失信息。

8.根据权利要求7所述的视频处理方法，其特征在于，所述根据预测目标实例和预测参考实例，确定所述视频帧样本对的卷积核损失信息，包括：

根据所述样本跟踪特征，在预测参考实例中筛选出与所述预测目标实例相似的目标预测参考实例；

获取所述预测目标实例对应的目标卷积核和所述目标预测参考实例对应的参考卷积核；

计算所述目标卷积核与参考卷积核之间的距离，得到卷积核距离；

根据所述卷积核距离，确定所述视频帧样本对的卷积核损失信息。

9.根据权利要求7所述的视频处理方法，其特征在于，所述标注实例包括标注目标实例和标注参考实例，所述基于标注实例和预测实例，确定所述视频帧样本对的分割损失信息，包括：

将所述标注目标实例与预测目标实例进行对比，以得到所述目标视频帧样本的目标分割损失信息；

将所述标注参考实例和预测参考实例进行对比，以得到所述参考视频帧样本的参考分割损失信息；

将所述目标分割损失信息和参考分割损失信息进行融合，得到所述视频帧样本对的分割损失信息。

10.根据权利要求9所述的视频处理方法，其特征在于，所述将所述标注目标实例与预测目标实例进行对比，以得到所述目标视频帧样本的目标分割损失信息，包括：

将所述标注目标实例与预测目标实例进行对比，得到初始分割损失信息和预测正确的目标实例的实例数量；

将所述初始分割损失信息进行融合，得到融合后分割损失信息；

根据所述实例数量，计算所述融合后分割损失信息的均值，得到所述目标视频帧样本的目标分割损失信息。

11.根据权利要求6所述的视频处理方法，其特征在于，所述样本跟踪特征包括所述预测目标实例的目标样本跟踪特征和所述预测参考实例的参考样本跟踪特征，所述基于所述样本跟踪特征，确定所述视频帧样本对的跟踪损失信息，包括：

将所述目标样本跟踪特征和参考样本跟踪特征进行融合，得到正向跟踪损失信息；

将所述目标样本跟踪特征作为参考样本跟踪特征，并将所述参考样本跟踪特征作为目标样本跟踪特征；

返回执行所述将所述目标样本跟踪特征和参考样本跟踪特征进行融合的步骤，得到反向跟踪损失信息；

将所述正向跟踪损失信息和反向跟踪损失信息进行融合，得到所述视频帧样本对的跟踪损失信息。

12.根据权利要求11所述的视频处理方法，其特征在于，所述将所述目标样本跟踪特征和参考样本跟踪特征进行融合，得到正向跟踪损失信息，包括：

将所述标注参考实例和预测参考实例进行对比；

根据对比结果，在所述参考样本跟踪特征中筛选出预测正确的参考实例对应的正样本跟踪特征和预测错误的参考实例对应的负样本跟踪特征；

将所述目标样本跟踪特征分别与正样本跟踪特征和负样本跟踪特征进行融合，并计算融合后样本跟踪特征之间的差值，得到正向跟踪损失信息。

13.根据权利要求1所述的视频处理方法，其特征在于，所述根据所述跟踪特征对所述目标实例进行跟踪，包括：

获取所述待处理视频对应的跟踪特征集合；

分别计算所述跟踪特征与所述跟踪特征集合中的每一候选跟踪特征之间的特征相似度；

根据所述特征相似度，对所述跟踪特征集合进行更新，以对所述目标实例进行跟踪。

14.根据权利13所述的视频处理方法，其特征在于，所述根据所述特征相似度，对所述跟踪特征集合进行更新，以对所述目标实例进行跟踪，包括：

当所述特征相似度超过预设相似度阈值时，确定所述目标实例与候选跟踪特征对应的实例匹配，并将所述候选跟踪特征替换为所述跟踪特征，以跟踪所述目标实例；

当所述特征相似度未超过预设相似度阈值时，将所述跟踪特征添加至所述跟踪特征集合，以跟踪所述目标实例。

15.一种视频处理装置，其特征在于，包括：

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至14任一项所述的视频处理方法中的步骤。