CN112132030A

CN112132030A - 视频处理方法及装置、存储介质及电子设备

Info

Publication number: CN112132030A
Application number: CN202011008497.3A
Authority: CN
Inventors: 吴红; 欧阳潘义; 向钊豫; 张亦弛
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-25
Anticipated expiration: 2040-09-23
Also published as: CN112132030B

Abstract

本发明提供了一种视频处理方法及装置、存储介质及电子设备，该方法包括：抽取视频中多个帧图；将各个帧图输入第一识别模型获得各个人物的人脸质量信息，确定人脸质量；将各个帧图输入第二识别模型，获得各个人物的人脸特征；对各个人脸特征聚类获得多个聚类簇；确定每个人物的第一识别结果；选取每个聚类簇中的目标人物，并将目标人物的第一识别结果作为聚类簇中所有人物的第二识别结果；对第一识别结果及第二识别结果纠正确定最终识别结果；获取每个人物的人物标签，基于帧图在视频中的位置，在视频中标记每个人物的人物标签，完成视频处理过程。应用该方法，可以精确的识别出每个帧图中的人物，并根据帧图在视频中的位置进行人物标签的标记。

Description

视频处理方法及装置、存储介质及电子设备

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频处理方法及装置、存储介质及电子设备。

背景技术

随着互联网技术的发展，信息安全与内容结构化一直是视频平台重点研究方向之一。随着宽带流媒体技术的发展，网络流媒体势头正劲，不同形式的视频内容很容易在网络上共享与发布，这在一定程度上又加重了视频审核的复杂性和难度，因此通过视频内容结构化的方式，快速获取视频中的内容信息加快对视频审核的进度。

由于人物是作为视频主体信息之一，目前，现有技术中的视频内容结构化的方式只能识别出视频中存在哪些人物，而不能具体确定该人物在视频中出现的具***置。另外，视频中的人物在不同片段中显示的角度和人脸方向不同或者是在某些片段中显示比较模型时，在进行识别的过程中，容易识别错误，导致视频的审核结果不准确。

发明内容

有鉴于此，本发明提供一种视频处理方法，通过该方法，可以精确的识别出每个帧图中的人物，并根据帧图在视频中的位置进行人物标签的标记。

本发明还提供了一种视频处理装置，用以保证上述方法在实际中的实现及应用。

一种视频处理方法，包括：

获取待处理的目标视频，并按照预先设定的抽帧规则，抽取所述目标视频中的多个目标帧图；

将各个所述目标帧图输入预先设置的第一识别模型，获得所述第一识别模型输出的每个所述目标帧图中各个人物的人脸质量信息，并基于每个所述人物的人脸质量信息，确定各个所述目标帧图中每个人物的人脸质量；

将各个所述目标帧图输入预先设置的第二识别模型，获得所述第二识别模型输出的每个所述目标帧图中各个所述人物的人脸特征；

调用预先设置的聚类算法，对各个所述目标帧图中的各个所述人物的人脸特征进行聚类，获得多个聚类簇；

基于预先设置的人物库及每个所述人物的人脸特征，确定所述人物库中与每个所述人物相匹配的目标人脸图片，并将与每个所述人物相似相匹配的目标人脸图片作为该人物的第一识别结果；

基于每个所述人物的人脸质量，选取每个所述聚类簇中满足预先设定的投票规则人物为目标人物，并将每个所述目标人物的第一识别结果作为其所在的聚类簇中所有人物的第二识别结果；

对每个所述人物的第一识别结果及第二识别结果进行纠正，确定每个所述人物的最终识别结果，所述最终识别结果为第一识别结果或第二识别结果；

基于每个所述人物的最终识别结果，获取每个所述人物的人物标签，并基于各个所述目标帧图在所述目标视频中的位置，在所述目标视频中标记每个所述人物的人物标签，完成对所述目标视频的处理过程。

上述的方法，可选的，所述按照预先设定的抽帧规则，抽取所述目标视频中的多个目标帧图，包括：

应用预先设置的数据处理工具，读取所述目标视频的视频时长及帧频，并基于所述目标视频的视频时长及帧频，确定所述目标视频中帧图的数量；

基于所述帧图的数量，确定对所述目标视频进行抽帧的抽帧周期；

将所述目标视频分解成所述帧图的数量对应的各个帧图，并按照所述抽帧周期从各个所述帧图中进行抽帧，确定各个已抽取的帧图为目标帧图。

上述的方法，可选的，所述基于每个所述人物的人脸质量信息，确定各个所述目标帧图中每个人物的人脸质量，包括：

获取各个所述目标帧图中各个人物的人脸质量信息中包含的人脸检测框、人脸分辨度及各个人脸关键点的位置和角度；

基于各个所述目标帧图中各个人物的人脸检测框及各个所述人脸关键点的位置和角度，确定各个所述目标帧图中各个人物的人脸角度；

基于每个所述目标帧图中各个人物的人脸角度和人脸分辨度，确定各个所述目标帧图中每个人物的人脸质量。

上述的方法，可选的，所述基于预先设置的人物库及每个所述人物的人脸特征，确定所述人物库中与每个所述人物相匹配的目标人脸图片，包括：

应用预先设置的索引工具，将每个所述人物的人脸特征转化成特征向量；

通过所述索引工具在所述人物库中，搜索前N个与所述特征向量相似最高的人脸向量，所述人物库中包含多个人脸图片及每个人脸图片对应的人脸向量；所述N为正整数；

基于每个所述人物对应的N个人脸向量，生成每个所述人物对应的图片集合；每个所述图片集合中包含与N个人脸向量一一对应的人脸图片；

应用预先设置的逻辑回归模型，计算每个所述人物与其对应的图片集合中各个人脸图片的相似概率；

对于每个所述人物，将所述人物对应图片集合中相似概率最高的人脸图片确定为与所述人物相匹配的目标人脸图片。

上述的方法，可选的，所述基于每个所述人物的人脸质量，选取每个所述聚类簇中满足预先设定的投票规则人物为目标人物，包括：

确定每个所述聚类簇中各个所述人物的人脸质量的人脸质量等级，并将各个人脸质量等级高于预设的第一阈值的人物设定为高质量人物；

统计每个所述聚类簇中属于同一识别结果的各个第一识别结果的结果数量，并确定每个所述聚类簇中结果数量最多的第一识别结果为最高识别结果；

确定每个聚类簇中最高结果对应的各个高质量人物为待选人物，并在每个聚类簇中选取人脸质量等级最高的待选人物为目标人物。

上述的方法，可选的，所述对每个所述人物的第一识别结果及第二识别结果进行纠正，确定每个所述人物的最终识别结果，包括：

判断每个所述人物的第一识别结果与第二识别结果是否一致；

若存在任意的人物的第一识别结果与第二识别结果一致，则将该人物的第一识别结果作为所述人物的最终识别结果；

若存在任意的人物的第一识别结果与第二识别结果不一致，则基于所述人物的人脸质量，判断所述人物的人脸质量的人脸质量等级是否满足预设的第二阈值；若满足，则将所述人物的第一识别结果作为所述人物的最终识别结果；反之，则将所述人物的第二识别结果作为所述人物的最终识别结果。

上述的方法，可选的，所述基于各个所述目标帧图在所述目标视频中的位置，在所述目标视频中标记每个所述人物的人物标签，完成对所述目标视频的处理过程，包括：

基于每个所述人物的最终识别结果，确定在所述目标视频中各个所述人物所属的视频角色，并基于各个所述目标帧在所述目标视频的位置，确定每个所述视频角色在所述目标视频中显示的各个时间点；

基于每个所述视频角色对应的各个时间点，确定每个所述视频角色在所述目标视频中显示的各个时间区间，并在各个所述时间区间中标记其对应的视频角色的人物标签。

一种视频处理装置，包括：

抽帧单元，用于获取待处理的目标视频，并按照预先设定的抽帧规则，抽取所述目标视频中的多个目标帧图；

第一识别单元，用于将各个所述目标帧图输入预先设置的第一识别模型，获得所述第一识别模型输出的每个所述目标帧图中各个人物的人脸质量信息，并基于每个所述人物的人脸质量信息，确定各个所述目标帧图中每个人物的人脸质量；

第二识别单元，用于将各个所述目标帧图输入预先设置的第二识别模型，获得所述第二识别模型输出的每个所述目标帧图中各个所述人物的人脸特征；

聚类单元，用于调用预先设置的聚类算法，对各个所述目标帧图中的各个所述人物的人脸特征进行聚类，获得多个聚类簇；

匹配单元，用于基于预先设置的人物库及每个所述人物的人脸特征，确定所述人物库中与每个所述人物相匹配的目标人脸图片，并将与每个所述人物相似相匹配的目标人脸图片作为该人物的第一识别结果；

选取单元，用于基于每个所述人物的人脸质量，选取每个所述聚类簇中满足预先设定的投票规则人物为目标人物，并将每个所述目标人物的第一识别结果作为其所在的聚类簇中所有人物的第二识别结果；

纠正单元，用于对每个所述人物的第一识别结果及第二识别结果进行纠正，确定每个所述人物的最终识别结果，所述最终识别结果为第一识别结果或第二识别结果；

标记单元，用于基于每个所述人物的最终识别结果，获取每个所述人物的人物标签，并基于各个所述目标帧图在所述目标视频中的位置，在所述目标视频中标记每个所述人物的人物标签，完成对所述目标视频的处理过程。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的视频处理方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的视频处理方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种视频处理方法，包括：获取目标视频，抽取目标视频中的多个目标帧图；将各个目标帧图输入第一识别模型，获得各个人物的人脸质量信息，并确定每个人物的人脸质量；将各个目标帧图输入第二识别模型，获得各个人物的人脸特征；调用聚类算法对各个人脸特征进行聚类，获得多个聚类簇；基于人物库及每个人脸特征，确定每个人物的第一识别结果；基于每个人物的人脸质量，选取每个聚类簇中满足投票规则人物为目标人物，并将目标人物的第一识别结果作为其所在的聚类簇中所有人物的第二识别结果；对每个人物的第一识别结果及第二识别结果进行纠正，确定每个人物的最终识别结果；获取每个人物的人物标签，并基于各个目标帧图在目标视频中的位置，在目标视频中标记每个人物的人物标签，完成视频处理过程。应用本发明提供的方法，可以精确的识别出每个帧图中的人物，并根据帧图在视频中的位置进行人物标签的标记。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种视频处理方法的方法流程图；

图2为本发明实施例提供的一种视频处理方法的又一方法流程图；

图3为本发明实施例提供的一种视频处理方法的再一方法流程图；

图4为本发明实施例提供的一种视频处理装置的装置结构图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种视频处理方法，所述方法的方法流程图如图1所示，具体包括：

S101：获取待处理的目标视频，并按照预先设定的抽帧规则，抽取所述目标视频中的多个目标帧图；

在本发明实施例中，在需要对目标视频进行处理时，由客户端向***发起任务处理请求，在接收到请求后，获取待处理的目标视频。由于视频由图像与音频组成，在对目标视频进行抽帧前，先分解目标视频的音频与图像，并按照抽帧规则从图像中抽取目标视频的多个目标帧图。

需要说明的是，抽取的各个目标帧图的过程可以是抽取目标视频中所有图像的帧图，也可以按照预先设定的周期抽取帧图，或者是根据各个帧图的排序，按照预先设定的各个序号，抽取目标视频中每个序号对应的帧图。

S102：将各个所述目标帧图输入预先设置的第一识别模型，获得所述第一识别模型输出的每个所述目标帧图中各个人物的人脸质量信息，并基于每个所述人物的人脸质量信息，确定各个所述目标帧图中每个人物的人脸质量；

在本发明实施例中，第一识别模型可以是人脸识别模型。该人脸识别模型使用RetinaFace算法并基于ResNet50模型对各个帧图中的各个人物的进行人脸检测，该第一识别模型在对每个目标帧图各个人物进行人脸检测后，输出每个人物对应的人脸质量信息，人脸质量信息中包含人脸分辨度、人脸检测框和人脸关键点位置和角度。其中，该人脸检测框用于确定人物的人脸在目标帧图中的位置和大小，人脸关键点位置和角度用于确定人脸中如眼睛、嘴巴、鼻子等关键点在目标帧图中的位置以及相对于人脸正脸的角度。其中，人脸质量指的是人物在其对应的目标帧图中显示可识别度，用于衡量人脸在帧图中是否能够准确进行识别。每个人物的人脸质量对应一个人脸质量等级，人脸质量等级的高低具体是通过其对应的人脸质量信息进行衡量，目标帧图中人脸显示为正脸、人脸显示清晰，则人脸质量高，能够基本准确地识别出人脸所属的人物；目标帧图中人脸显示为侧脸、人脸显示模糊，则人脸质量低，只能模糊识别出或者基本不能识别出人脸所属的人物。

可以理解的是，每个目标帧图中的每个人物的人脸不一定都是正脸显示在帧图中，有些人物可能是侧脸进行显示，通过关键点的角度可以确定人脸为正脸还是侧脸，仰视还是俯视等。

S103：将各个所述目标帧图输入预先设置的第二识别模型，获得所述第二识别模型输出的每个所述目标帧图中各个所述人物的人脸特征；

在本发明实施例中，第二识别模型可以是基于ResNet100的ArcFace模型，该第二识别模型基于8.5万id/580万张人脸图像与训练得到，在对模型训练完成后，将目标帧图输入该第二识别模型，从而识别目标帧图中各个人物的人脸特征。其中，该人脸特征是512维人脸特征，512维代表一张人脸的特征纬度。

S104：调用预先设置的聚类算法，对各个所述目标帧图中的各个所述人物的人脸特征进行聚类，获得多个聚类簇；

在本发明实施例中，该聚类算法可以是DBSCAN算法，DBSCAN算法是基于密度空间的聚类算法，它不需要确定聚类的数量，而是基于数据推测聚类的数目，它能够针对任意形状产生聚类。在各个目标帧图中，通过聚类算法对人物的人脸特征进行聚类的过程中，应用欧氏距离以及聚类超参数进行人脸聚类的调整。其中，该聚类超参数根据人脸数量进行调整，人脸数量越多，聚类超参数越小。通过该聚类算法对各个人脸特征进行聚类后，获得多个聚类簇。

其中，聚类簇中包含多个目标帧图中具有一定相似度的各个人物，通过聚类算法将相似的各个人物聚在一起。例如，在各个帧图的各个人脸特征中存在多个帧图中的人物的人脸特征与人物A的人脸特征相似，则将与人物A的人脸特征相似的各个人脸特征聚集在同一个簇中。

S105：基于预先设置的人物库及每个所述人物的人脸特征，确定所述人物库中与每个所述人物相匹配的目标人脸图片，并将与每个所述人物相似相匹配的目标人脸图片作为该人物的第一识别结果；

在本发明实施例中，人物库中存储有多个人物的人脸图片、人脸图片对应的向量以及每个人物对应的相关个人信息等，每个人物的人脸图片等相关信息可以通过网络爬虫等多个渠道进行获取，人物库中的各个人物具体可以包括例如：明星人物、政要人物和敏感人物等人物。该人物库可以按照预定的时间进行实时更新。通过每个目标帧图中的各个人物的人脸特征，确定人物库中与每个人物相匹配的目标人脸图片，每个匹配成功的目标人脸则为其对应的人物的第一识别结果。

需要说明的是，每个目标帧图中不一定存在人物，若目标帧图中没有人物，则无需匹配人物库中的人脸图片，若目标帧图中存在至少一个人物，则每个人物都需要进行匹配人物库中的人脸图片。

还需要说明的是，当存在任意一个目标帧图中的任意一个人物无法匹配人物库中的人脸图片，则将该人物的第一识别结果设定为无。例如，在影视剧中通常会有路人角色，而对于某些路人角色对应的现实中的人物时，人物库可能没有收录该人物的人脸图片等相关信息，从而无法为该路人角色匹配人物库中的人脸图片。

S106：基于每个所述人物的人脸质量，选取每个所述聚类簇中满足预先设定的投票规则人物为目标人物，并将每个所述目标人物的第一识别结果作为其所在的聚类簇中所有人物的第二识别结果；

在本发明实施例中，由于聚类簇中包含多个目标帧图中相似的各个人物，则通过每个人物的人脸质量选取满足投票规则的目标人物。在选取出目标人物后，将该目标人物的第一识别结果作为其所在的聚类簇中各个人物的第二识别结果。

需要说明的是，由于聚类簇中包含多个目标帧图中相似的人物，但是同一个聚类簇中的各个人物在通过人物库匹配目标人脸图片过程中，有可能有些人物所匹配的目标人脸图片与其所在的聚类簇中其他的人物所匹配的目标人脸图片不同，因此，再通过投票规则选取目标人物，该目标人物相匹配的目标人脸图片必须是可信度高的，能够基本确定目标人脸图片为该目标人物的人脸，并且能够准确的代表其所在的聚类簇中的绝大部分人物是同一个人物。

还需要说明的是，每个聚类簇中选取出的满足投票规则的目标人物至少为一个，且同一个聚类簇中的各个目标人物的第一识别结果均相同。

S107：对每个所述人物的第一识别结果及第二识别结果进行纠正，确定每个所述人物的最终识别结果，所述最终识别结果为第一识别结果或第二识别结果；

在本发明实施例中，在确定每个人物的第一识别结果和第二识别结果后，对每个人物的识别结果进行纠正，获得每个人物的最终识别结果。即从每个人物的第一识别结果和第二识别结果中，选取出其中一个识别结果作为该人物的最终识别结果。

可以理解的是，对于同一个聚类簇的各个人物，在进行聚类的过程中，必定是认为各个人物的人物特征之间具有相似度，因此，在通常情况下认为同一个聚类簇中的各个人物是相同一个人，但是在通过人物库匹配目标人脸图片时，同一个聚类簇中的各个人物的目标人脸图片可能存在不相同的情况，即同一个聚类簇中的各个人物的第一识别结果不相同，则需要纠正，确定每个人物具体应该是对应人物库中的哪一个人脸图片。例如，相邻的两个目标帧之间都存在同一个人物，通过提取两个目标帧图中的人物特征，可以将两个帧图中的人物聚类在同一个聚类簇中。由于聚类簇中包含多个帧图中的人物，为了保证确定每个人物具体是人物库中的哪一个人物，则需要将原先相匹配的目标人脸与后面第二识别结果的对应的目标结果进行比对和纠正。

S108：基于每个所述人物的最终识别结果，获取每个所述人物的人物标签，并基于各个所述目标帧图在所述目标视频中的位置，在所述目标视频中标记每个所述人物的人物标签，完成对所述目标视频的处理过程。

在本发明实施例中，在确定每个人物的最终识别结果后，获取每个人物的人物标签。其中，人物标签指的是其对应的人物在目标视频中的人物内容、个人信息等与该人物相关的信息。通过各个人物所属的目标帧图，可以得知相同的人物在目标视频中出现的位置，以根据相同人物在目标视频中出现的位置，在目标视频中标记各个人物的人物标签，完成视频处理的过程。

例如，对于同一个人物A，该人物A在目标视频的0～5分钟中的各个目标帧图中均有显示，则在目标视频的0～5分钟的位置标记该人物A的人物标签。

本发明实施例提供的视频处理方法中，获取待处理的目标视频，并按照抽帧规则从该目标视频中抽取多个目标帧图。由第一识别模型对各个目标帧图进行识别，输出每个帧图中的各个人物，并输出每个人物的人脸质量信息。人脸质量信息中包含其对应的人物的人脸分辨度、人脸检测框和人脸关键点位置和角度等信息，并通过人脸质量信息确定人物的人脸质量。由第二识别模型对各个目标帧图进行识别，输出每个人物的人脸特征，该人脸特征具体可以是512维人脸特征。通过聚类算法对各个人脸特征进行聚类，获得多个聚类簇，每个聚类簇中包含多个人物的人脸特征。基于各个人脸特征与人物库，确定该人物库中与该人物相匹配的目标人脸图片，并将每个人物相匹配的目标人脸图片作为该人物的第一识别结果。基于每个人物的人脸质量，选取每个聚类簇中的满足投票规则的目标人物，并将每个目标人物的第一识别结果作为其所在的聚类簇中所有人物的第二识别结果。通过纠正的方式，对每个人物的第一识别结果和第二识别结果进行纠正，从而确定每个人物的最终识别结果。基于每个人物的最终识别结果获取人物的人物标签，并根据各个目标帧图在目标视频中的位置，在目标视频中标记各个人物的人物标签。

基于上述实施例提供的方法，针对上述实施例内容提供对应的实例，为方便理解，设定目标视频有100帧，每张帧图中有一个人物，本发明具体有以下实施过程：

在目标视频的100帧中每隔5张抽取一帧，一共抽取20个帧图，将20个帧图输入第一识别模型，获得每个帧图中每个人物的人脸质量信息，并通过人脸质量信息确定每个人物的人脸质量。将20个帧图输入第二识别模型，获得每个人物的人脸特征，基于各个人脸特征进行聚类，获得两个聚类簇，其中前10个帧图中的人物聚类在第一个聚类簇，剩下10个帧图聚类在第二个聚类簇，因此初步确定视频中至少包含两个不同的人物。基于各个人物的人脸特征及人物库，匹配每个人物对应的目标人脸图片作为第一识别结果；其中，第一个聚类簇中有六个人物的第一识别结果均为人脸图片A、一个为人脸图片B、剩下三个为人脸图片C；第二聚类簇中有九个人物的第一识别结果均为人脸图片B，另一个为人脸图片D；基于人脸质量选取两个聚类簇中的目标人物，其中，第一个聚类簇中的目标人物为第一识别结果为人脸图片A的人物，则第一聚类簇中所有人物的第二识别结果为人脸图片A；同样，第二个聚类簇中的目标人物为第一识别结果为人脸图片B的人物，则第二聚类簇中所有人物的第二识别结果为人脸图片B。对两个聚类簇中的所有人物的第一识别结果和第二识别结果进行纠正，纠正后原先第一个聚类簇中人脸图片B的人物的最终识别结果变为人脸图片A，原先第二个聚类簇中的人脸图片D的人物的最终识别结果最终变为人脸图片B；则第一个聚类簇中有七个人物的最终识别结果为人脸图片A，三个人物的最终识别结果为人脸图片C，第二个聚类簇中的十个人物的最终识别结果为人脸图片B；基于每个人物的最终识别结果，获取人脸图片A对应的人物标签、人脸图片B对应的人物标签和人脸图片C对应的人物标签，并基于各个目标帧图在目标视频中的位置，在目标视频中标记出各个人物的人物标签。

应用本发明实施例提供的方法，可以精确的识别出每个帧图中的人物，并根据帧图在视频中的位置进行人物标签的标记。

本发明实施例提供的方法中，基于上述S101的内容，在需要对目标视频中的各个人物进行识别前，需要抽取目标视频中的多个目标帧图，其中，所述按照预先设定的抽帧规则，抽取所述目标视频中的多个目标帧图的过程，具体可以包括：

本发明实施例提供的视频处理方法中，应用数据处理工具可以是FFmpeg，该FFmpeg是一套可以用来记录、转换数字音频、视频，并能将视频、音频转化为流的开源计算程序。其中应用该FFmpeg进行元数据处理，即读取待处理的目标视频的视频时长及帧频。并通过该视频时长和帧频确定该目标视频中行帧图的数量。例如，目标视频的视频时长为4秒，帧频为25帧每秒，则该目标视频中的帧图的数量为100帧。在确定目标视频的帧图的数量后，确定该帧图的数量对应的抽帧周期，并将该目标视频分解成多个帧图，按照抽帧周期进行抽帧，获得各个目标帧图。例如，100帧的帧图数量对应的抽帧周期为1/4，则需要抽取25帧的帧图，具体是抽取第1、5、9、13……97帧的帧图，即，每隔四张抽取一张帧图。

需要说明的是，在本发明中，帧频越高，代表每秒的视频中组成的画面就越多、越密集，视频越长表征视频中的帧图也越多，根据视频时长和帧图调整抽帧周期，合理抽取一定数量的帧图进行人脸识别，进一步加快对人脸识别的过程。

本发明实施例提供的方法中，基于上述S102的内容，在获得各个目标帧图后，需要对各个帧图进行人脸识别，以确定每个目标帧图中各个人物的人脸质量信息，以通过人脸质量信息确定每个人物的人脸质量。其中，基于每个所述人物的人脸质量信息，确定各个所述目标帧图中每个人物的人脸质量的过程如图2所示，具体可以包括：

S201：获取各个所述目标帧图中各个人物的人脸质量信息中包含的人脸检测框、人脸分辨度及各个人脸关键点的位置和角度；

在本发明实施例中，人脸质量信息中包含其对应的人物的人脸检测框、人脸分辨度及各个人脸关键点的位置和角度。其中，该人脸检测框用于确定人物的人脸在目标帧图中的位置和大小，人脸关键点位置和角度用于确定人脸中如眼睛、嘴巴、鼻子等关键点在目标帧图中的位置以及相对于人脸正脸的角度；人脸分辨度指的是其对应的人物的人脸在该人脸检测框内对应的辨识度，即是否能够清晰的分辨出人脸的五官，确定五官是否模糊。

需要说明的是，该第一识别模型可以是使用RetinaFace算法的人脸识别模型。

S202：基于各个所述目标帧图中各个人物的人脸检测框及各个所述人脸关键点的位置和角度，确定各个所述目标帧图中各个人物的人脸角度；

在本发明实施例中，人脸角度可以是正脸、左侧侧脸、右侧侧脸、俯视或仰视等对应的各个角度。通过人脸检测框及人脸关键点的位置和角度确定人物的人脸角度。

其中，人脸关键点的位置可以包括人脸中两个眼睛的定点、鼻尖的定点以及左右两边嘴角的定点等。人脸关键点位置的确定具体可以按照场景需求训练该第一识别模型进行识别。

S203：基于每个所述目标帧图中各个人物的人脸角度和人脸分辨度，确定各个所述目标帧图中每个人物的人脸质量。

在本发明实施例中，人脸质量指的是人物在其对应的目标帧图中显示可识别度，用于衡量人脸在帧图中是否能够准确进行识别。每个人物的人脸质量的高低具体是通过其对应的人脸质量信息进行衡量，目标帧图中人脸显示为正脸、人脸显示清晰，则人脸质量高，能够基本准确地识别出人脸所属的人物；目标帧图中人脸显示为侧脸、人脸显示模糊，则人脸质量低，只能模糊识别或者基本不能识别出人脸所属的人物。

本发明实施例提供的视频处理方法中，为识别出目标视频中的各个人物，可以通过抽帧的方式抽取出多个目标帧图，并通过第一识别模型对每个目标帧图中的各个人物的人脸进行识别，输出人脸检测框、人脸分辨度以及人脸关键点的位置和角度，以确定每个目标帧图中各个人物的人脸角度，并通过人脸角度及人脸分辨度确定每个人物的人脸质量。

应用本发明实施例提供的方法，通过第一识别模型，输出人脸质量信息，以确定人脸执行，加快对人脸识别的处理过程。

本发明实施例提供的方法中，基于上述S105的内容，在进行人脸识别的过程中，还需要提取出每个人物的人脸特征，以通过人脸特征与人物库中的各个人脸图片进行匹配。具体的，所述基于预先设置的人物库及每个所述人物的人脸特征，确定所述人物库中与每个所述人物相匹配的目标人脸图片的过程如图3所示，具体可以包括：

S301：应用预先设置的索引工具，将每个所述人物的人脸特征转化成特征向量；

在本发明实施例中，该索引工具可以是Annoy(Approximate Nearest NeighborsOh Yeah)，Annoy是一个开源C++实现的软件库，是一种基于向量搜索相似的向量的一种软件实现。由于第二识别模型识别出的人脸特征是512维人脸特征，根据该索引工具确定512为人脸特征对应的512维的稠密向量，即将每个人物的人脸特征转化成特征向量，通过向量的方式进行搜索相似人脸。

S302：通过所述索引工具在所述人物库中，搜索前N个与所述特征向量相似最高的人脸向量，所述人物库中包含多个人脸图片及每个人脸图片对应的人脸向量；所述N为正整数；

在本发明实施例中，在将人脸特征转换成特征向量后，在人物库中搜索前N个与特征向量相似度最高的人脸向量。其中，N为正整数，具体数量可以根据具体的场景进行设备，此处不做限定。

S303：基于每个所述人物对应的N个人脸向量，生成每个所述人物对应的图片集合；每个所述图片集合中包含与N个人脸向量一一对应的人脸图片；

在本发明实施例中，为方便后续的人脸匹配的过程，需要将每个目标帧图中的每个人物对应的N个人脸向量对应的人脸图片保存到同一个图片集合中。如，目标帧图中有A和B两个人物，则生成两个人物分别对应的两个图片集合，A的N个人脸向量对应的N张人脸图片保存到A对应的图片集合中；B的N个人脸向量对应的N张人脸图片保存到B对应的图片集合中。

S304：应用预先设置的逻辑回归模型，计算每个所述人物与其对应的图片集合中各个人脸图片的相似概率；

在本发明实施例中，该逻辑回归模型具体可以是LR模型，LR(logisticRegression)是一个机器学习模型，用于训练及识别两个人脸是否为同一个人的概率或相似度。

S305：对于每个所述人物，将所述人物对应图片集合中相似概率最高的人脸图片确定为与所述人物相匹配的目标人脸图片。

在本发明实施例中，对于任意一个人物，通过LR模型将该人物对应的图片集合中的各个人脸图片与该人物所在的目标帧图中的人脸进行比对，确定与目标帧图中该人物的人脸相似度最高的人脸图片为目标人脸图片，即初步确定该目标人脸图片与目标帧图中该人物的人脸为同一个人。

本发明实施例提供的视频处理方法，在人物库中收录成千上万个人物的人脸图片、人脸向量等信息，为缩短人脸识别的过程，先通过Annoy模型将每个人物的人脸特征转换成特征向量后，再从人物库中查找相似度最高的N个人脸向量，并通过LR模型将N个人脸向量对应的人脸图片与该人物在其对应的目标帧图中的人脸进行识别和比对，确定N个人脸图片中相似概率最高的目标人脸图片，以确定该目标人脸图片为该人物的第一识别结果。

应用本发明实施例提供的方法，先通过Annoy进行初步的搜索出N个人脸向量，再通过LR模型从N个人脸向量中确定相似概率最高的目标人脸，以提高人脸识别的精确度，缩短人脸识别的过程。

本发明实施例提供的方法中，基于上述S106的内容，在获得每个人物的第一识别结果后，为了进一步保证人脸识别的准确度，根据投票规则确定每个聚类簇中的目标人物，以通过目标人物的第一识别结果确定该目标人物所在的聚类簇中各个人物的第二识别结果。其中，所述基于每个所述人物的人脸质量，选取每个所述聚类簇中满足预先设定的投票规则人物为目标人物，包括：

本发明实施例提供的视频处理方法中，根据人脸质量信息确定人脸质量后，确定每个聚类簇中每个人物的人脸质量的人脸质量等级。对于每个人物，该人物人脸偏转的角度越小人脸分辨度越高，其对应的人脸质量等级就越高，通过第一阈值确定每个聚类簇中的高质量人物。在同一个聚类簇中，会存在某些人物的第一识别结果一致的情况，通过统计每个聚类簇中属于同一个第一识别结果的数量，确定每个聚类簇中数量最多的属于同一个识别结果的第一识别结果为最高识别结果。在确定每个聚类簇中的高质量人物和最高识别结果后，基于最高识别结果和人脸质量，从各个高质量人物中选取出每个聚类簇的目标人物。例如，在某聚类簇中高质量人物A、B、C、D四个人物中分别对应的第一识别结果分别是张三人脸图片、李四人脸图片、李四人脸图片和李四人脸图片，则可以确定该聚类簇中最高识别结果为李四人脸图片，则高质量人物B、C、D为待选人物，在三个待选人物中，若C的人脸质量等级最高，则C为目标人物，并将C的第一识别结果作为该聚类簇中所有人物的第二识别结果，即该聚类簇中所有人物的第二识别结果为李四人脸图片。

需要说明的是，本发明实施例中，任意人物的人脸质量等级越高，在通过该人物的人脸特征确定匹配与该人物概率最高的目标人脸图片时，准确率越高。因此，该聚类簇中可以将最高人脸质量等级对应人物的第一识别结果作为同一个聚类簇中所有人物的第二识别结果，以避免该聚类簇中其他人脸质量等级低的人物在匹配目标人脸图片过程中匹配错误。

本发明实施例提供的方法中，基于上述实施例提供的方法的相关内容，为最终确定每个人物的最终识别结果，需要将每个人物的第一识别结果和第二识别结果进行纠正。其中，所述对每个所述人物的第一识别结果及第二识别结果进行纠正，确定每个所述人物的最终识别结果，包括：

本发明实施例提供的视频编码方法中，对于每个人物，需判断该人物的第一识别结果和第二识别结果是否一致。若一致，则证明该人物所在的聚类簇对应的人物与人脸识别出的人物一致，将第一识别结果作为该人物的最终识别结果。若该第一识别结果与第二识别结果不一致，则需要再次判断该人物的人脸质量等级是否满足第二阈值，即判断该人脸质量等级是否达到第二阈值。若该人物的人脸质量等级满足第二阈值，则该人物的人脸质量能够满足在进行人脸识别过程中准确的识别出目标帧图中的人脸，因此，该人物的第一识别结果为正确的识别结果，即最终识别结果。若该人物的人脸质量等级不满足第二阈值，则该人物的人脸质量可能在进行人脸识别过程中识别出的目标人脸图片为错误，因此，该人物所属的聚类簇中人脸质量等级最高的目标人物的第一识别结果为该人物的最终识别结果。

需要说明的是，本发明实施例中的投票规则指的上述第一识别结果和第二识别结果的判断过程。具体的，该投票规则与聚类簇及人脸质量的人脸质量等级相关，具体根据投票规则进行纠正的内容包括以下几点：

一、投票权：基于人连关键点位判断的人脸质量，过滤掉人脸质量差的人脸投票权。

二、人物标签倒排统计：

2.1、考虑簇内相同的第一识别结果最多的数量；

2.2、相同的第一识别结果预测概率均值满足人脸识别阈值；

2.3、相同的第一识别结果占投票人物标签设定的百分比，例如人物标签占投票人物标签50％以上。

三、投票后得到聚类簇的人物标签，即过滤掉人脸质量差的人脸的投票权后通过第二阈值确定高质量人物的人脸。

四、利用聚类簇相同的第一识别结果，对簇内人脸进行结果纠正：

4.1、尤其是对人脸质量差及识别置信度低的人脸，直接利用簇内目标人物的第一识别结果赋值给人脸质量差的人物作为其最终识别结果；

4.2、人脸质量等级高的第一识别结果保留为最终识别结果。

应用本发明实施例提供的方法，在进行人脸特征聚类的过程中，基本是属于同一个人会聚类到同一个聚类簇中，因此，聚类簇中各个人物的第一识别结果基本都是一致的，但是在聚类过程中，有可能会出现其他人物混入一起聚类，为了避免其他人物的第一识别结果受到聚类簇中各个人物的第一识别结果的影响，需要对聚类簇中的每个人物的第一识别结果和第二识别结果进行纠正，另外，有些人脸质量等级低的人物在匹配人脸图片时，所匹配的人脸图片与其所在的聚类簇绝大部分人物的人脸图片不一致的情况，需要对其第一识别结果进行纠正，避免对该人物识别错误。

本发明实施例提供的方法中，基于上述S108的内容，所述基于各个所述目标帧图在所述目标视频中的位置，在所述目标视频中标记每个所述已识别人物的人物标签，具体可以包括：

基于每个所述已识别人物对应的各个时间点，确定每个所述已识别人物在所述目标视频中显示的各个时间区间，并在各个所述时间区间中标记其对应的视频角色的人物标签。

本发明实施例提供的视频处理方法中，在确定各个人物的最终识别结果后，需要根据各个人物的最终识别结果确定目标视频中每个人物所属的视频角色，例如：第一个目标帧图中人物与第二帧图中的人物属于同一个视频角色，即两个帧图中的人物在视频中代表同一个人。按照每个帧图对应都在该目标视频中的位置，确定每个视频角色出现在该目标视频中的各个时间点。对于连续出现同一个视频角色的各个时间点，可以确定目标视频中出现该视频角色的时间区间，从而在该视频区间中标记该视频角色的人物标签。

需要说明的是，若存在多个帧图中的人物属于同一视频角色，则各个帧图中对应的人物的人物标签均是一致的，因此，各个人物的人物标签则为各个人物对应的视频角色的人物标签。

本发明实施例提供的方法，经过上述处理之后我们将得到视频中的人物、然后我们将人物关联到人物库的知识库中获取该人物的人物标签，然后针对识别出来人物以数组的形式排列出人物在视频中出现开始时间、结束时间形成片段信息，即属于同一个视频角色的各个人物所出现的时间区间。

可选的，对于同一个视频角色，在目标视频中可以存在多个时间区间进行标记，例如：在视频区间0:00至10:00中有出现视频角色A，则在该时间区间标记人物标签，在10:00至20:00没有出现视频角色A则无需标记人物标签，若在20:00到30:00出现该视频角色A，则需要在该时间区间再次进行标记该视频角色A的人物标签。

进一步地，本发明实施例中，通过对各个视频角色进行标记，可以确定每个视频角色在目标视频中占的权重比例。同样的，根据每个视频角色所出现的时间区间，可以应用该时间区间作为该角色在该目标视频中的宣传短片。

基于上述实施例提供的方法，该方法可以应用于广告视频平台对视频内容进行结构化输出的过程，具体的实现上述各个实施例的过程，可以由视频平台的AI调度***将任务分发至视频识别模块，进行包含人脸、OCR、声音识别的视频结构化，并进行结构的输出，在输出完结果后，通过AI调度产生回调请求，请求业务***回调接口告诉业务***任务完成，业务***请求结果接口获取结果。

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

与图1所述的方法相对应，本发明实施例还提供了一种视频处理装置，用于对图1中方法的具体实现，本发明实施例提供的视频处理装置可以应用计算机终端或各种移动设备中，其结构示意图如图4所示，具体包括：

抽帧单元401，用于获取待处理的目标视频，并按照预先设定的抽帧规则，抽取所述目标视频中的多个目标帧图；

第一识别单元402，用于将各个所述目标帧图输入预先设置的第一识别模型，获得所述第一识别模型输出的每个所述目标帧图中各个人物的人脸质量信息，并基于每个所述人物的人脸质量信息，确定各个所述目标帧图中每个人物的人脸质量；

第二识别单元403，用于将各个所述目标帧图输入预先设置的第二识别模型，获得所述第二识别模型输出的每个所述目标帧图中各个所述人物的人脸特征；

聚类单元404，用于调用预先设置的聚类算法，对各个所述目标帧图中的各个所述人物的人脸特征进行聚类，获得多个聚类簇；

匹配单元405，用于基于预先设置的人物库及每个所述人物的人脸特征，确定所述人物库中与每个所述人物相匹配的目标人脸图片，并将与每个所述人物相似相匹配的目标人脸图片作为该人物的第一识别结果；

选取单元406，用于基于每个所述人物的人脸质量，选取每个所述聚类簇中满足预先设定的投票规则人物为目标人物，并将每个所述目标人物的第一识别结果作为其所在的聚类簇中所有人物的第二识别结果；

纠正单元407，用于对每个所述人物的第一识别结果及第二识别结果进行纠正，确定每个所述人物的最终识别结果，所述最终识别结果为第一识别结果或第二识别结果；

标记单元408，用于基于每个所述人物的最终识别结果，获取每个所述人物的人物标签，并基于各个所述目标帧图在所述目标视频中的位置，在所述目标视频中标记每个所述人物的人物标签，完成对所述目标视频的处理过程。

本发明实施例提供的视频处理装置中，获取待处理的目标视频，并按照抽帧规则从该目标视频中抽取多个目标帧图。由第一识别模型对各个目标帧图进行识别，输出每个帧图中的各个人物，并输出每个人物的人脸质量信息。人脸质量信息中包含其对应的人物的人脸分辨度、人脸检测框和人脸关键点位置和角度等信息，并通过人脸质量信息确定人物的人脸质量。由第二识别模型对各个目标帧图进行识别，输出每个人物的人脸脸特征，具体可以是512维人脸特征。通过聚类算法对各个人脸特征进行聚类，获得多个聚类簇，每个聚类簇中包含多个人物的人脸特征。基于各个人脸特征与人物库，确定该人物库中与该人物相匹配的目标人脸图片，并将每个人物相匹配的目标人脸图片作为该人物的第一识别结果。基于每个人物的人脸质量，选取每个聚类簇中的满足投票规则的目标人物，并将每个目标人物的第一识别结果作为其所在的聚类簇中所有人物的第二识别结果。通过纠正的方式，对每个人物的第一识别结果和第二识别结果进行纠正，从而确定每个人物的最终识别结果。基于每个人物的最终识别结果获取人物的人物标签，并根据各个目标帧图在目标视频中的位置，在目标视频中标记各个人物的人物标签。

应用本发明提供的装置，可以精确的识别出每个帧图中的人物，并根据帧图在视频中的位置进行人物标签的标记。

本发明实施例提供的装置中，所述抽帧装置401，包括：

第一确定子单元，用于应用预先设置的数据处理工具，读取所述目标视频的视频时长及帧频，并基于所述目标视频的视频时长及帧频，确定所述目标视频中帧图的数量；

第二确定子单元，用于基于所述帧图的数量，确定对所述目标视频进行抽帧的抽帧周期；

抽帧子单元，用于将所述目标视频分解成所述帧图的数量对应的各个帧图，并按照所述抽帧周期从各个所述帧图中进行抽帧，确定各个已抽取的帧图为目标帧图。

本发明实施例提供的装置中，所述第一识别单元402，包括：

第一获取子单元，用于获取各个所述目标帧图中各个人物的人脸质量信息中包含的人脸检测框、人脸分辨度及各个人脸关键点的位置和角度；

第三确定子单元，用于基于各个所述目标帧图中各个人物的人脸检测框及各个所述人脸关键点的位置和角度，确定各个所述目标帧图中各个人物的人脸角度；

第四确定子单元，用于基于每个所述目标帧图中各个人物的人脸角度和人脸分辨度，确定各个所述目标帧图中每个人物的人脸质量。

本发明实施例提供的装置中，所述匹配单元405，包括：

转化子单元，用于应用预先设置的索引工具，将每个所述人物的人脸特征转化成特征向量；

搜索子单元，用于通过所述索引工具在所述人物库中，搜索前N个与所述特征向量相似最高的人脸向量，所述人物库中包含多个人脸图片及每个人脸图片对应的人脸向量；所述N为正整数；

生成子单元，用于基于每个所述人物对应的N个人脸向量，生成每个所述人物对应的图片集合；每个所述图片集合中包含与N个人脸向量一一对应的人脸图片；

计算子单元，用于应用预先设置的逻辑回归模型，计算每个所述人物与其对应的图片集合中各个人脸图片的相似概率；

第五确定子单元，用于对于每个所述人物，将所述人物对应图片集合中相似概率最高的人脸图片确定为与所述人物相匹配的目标人脸图片。

本发明实施例提供的装置中，所述选取单元406，包括：

设定子单元，用于确定每个所述聚类簇中各个所述人物的人脸质量的人脸质量等级，并将各个人脸质量等级高于预设的第一阈值的人物设定为高质量人物；

统计子单元，用于统计每个所述聚类簇中属于同一识别结果的各个第一识别结果的结果数量，并确定每个所述聚类簇中结果数量最多的第一识别结果为最高识别结果；

选取子单元，用于确定每个聚类簇中最高结果对应的各个高质量人物为待选人物，并在每个聚类簇中选取人脸质量等级最高的待选人物为目标人物。

本发明实施例提供的装置中，所述纠正单元407，包括：

判断子单元，用于判断每个所述人物的第一识别结果与第二识别结果是否一致；

第一纠正子单元，用于若存在任意的人物的第一识别结果与第二识别结果一致，则将该人物的第一识别结果作为所述人物的最终识别结果；

第二纠正子单元，用于若存在任意的人物的第一识别结果与第二识别结果不一致，则基于所述人物的人脸质量，判断所述人物的人脸质量的人脸质量等级是否满足预设的第二阈值；若满足，则将所述人物的第一识别结果作为所述人物的最终识别结果；反之，则将所述人物的第二识别结果作为所述人物的最终识别结果。

本发明实施例提供的装置中，所述标记单元408，包括：

第六确定子单元，用于基于每个所述人物的最终识别结果，确定在所述目标视频中各个所述人物所属的视频角色，并基于各个所述目标帧在所述目标视频的位置，确定每个所述视频角色在所述目标视频中显示的各个时间点；

标记子单元，用于基于每个所述视频角色对应的各个时间点，确定每个所述视频角色在所述目标视频中显示的各个时间区间，并在各个所述时间区间中标记其对应的视频角色的人物标签。

以上本发明实施例公开的视频处理装置中各个单元的具体工作过程，可参见本发明上述实施例公开的视频处理方法中的对应内容，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述视频处理方法。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现。

为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预先设定的抽帧规则，抽取所述目标视频中的多个目标帧图，包括：

3.根据权利1所述的方法，其特征在于，所述基于每个所述人物的人脸质量信息，确定各个所述目标帧图中每个人物的人脸质量，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于预先设置的人物库及每个所述人物的人脸特征，确定所述人物库中与每个所述人物相匹配的目标人脸图片，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于每个所述人物的人脸质量，选取每个所述聚类簇中满足预先设定的投票规则人物为目标人物，包括：

6.根据权利要求1所述的方法，其特征在于，所述对每个所述人物的第一识别结果及第二识别结果进行纠正，确定每个所述人物的最终识别结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于各个所述目标帧图在所述目标视频中的位置，在所述目标视频中标记每个所述人物的人物标签，完成对所述目标视频的处理过程，包括：

8.一种视频处理装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的权利要求1～7所述的方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述权利要求1～7所述的方法。