CN114333022B

CN114333022B - 角色特征提取模型的训练方法、角色识别方法及相关设备

Info

Publication number: CN114333022B
Application number: CN202111653899.3A
Authority: CN
Inventors: 毕泊
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2024-05-31
Anticipated expiration: 2041-12-30
Also published as: CN114333022A

Abstract

本发明实施例提供了一种角色特征提取模型的训练方法、角色识别方法及相关设备，角色特征提取模型的训练方法包括：将多个第一样本图像输入至角色特征提取模型中进行第N次角色特征提取，获得第一角色特征信息；基于第一角色特征信息对多个第一样本图像进行聚类处理，获得至少两个第一聚类簇，每一第一聚类簇均包括对应一个角色类别的至少一个第二样本图像；基于第二样本图像对待训练特征提取模型进行迭代训练；基于训练好的待训练特征提取模型更新角色特征提取模型；在目标占比大于或等于预设占比的情况下，更新后的角色特征提取模型用于对多个第一样本图像进行第N+1次角色特征提取。本发明实施例提供的方法可以识别出视频中的图像对应的角色。

Description

角色特征提取模型的训练方法、角色识别方法及相关设备

技术领域

本发明涉及技术领域，特别是涉及一种角色特征提取模型的训练方法、角色识别方法及相关设备。

背景技术

同一个演员在不同的影视剧中通常饰演不同的角色。由同一个演员饰演不同角色时，虽然角色对应的人脸相同，但是不同角色的妆容、配饰、服饰、所处布景等通常不同。

当用户使用不同的视频对影视人物进行识别的时候，通常希望得到该影视人物对应的角色，即得到该影视人物对应的影视剧。但是现有技术在对视频或图像中的人物信息进行分析时，通常只能通过对人脸的识别得到人脸对应的特征数据。由于人脸对应的特征数据较少，因此根据人脸对应的特征数据进行角色聚类得到的聚类结果只能用于确定该影视人物对应的演员，而不能识别出该影视人物对应的角色。

由此可知，现有的角色识别方法只能得到人脸对应的特征数据，再根据人脸对应的特征数据确定影视人物对应的演员。

发明内容

本发明实施例的目的在于提供一种角色特征提取模型的训练方法、角色识别方法及相关设备，以识别出视频中的图像对应的角色。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种角色特征提取模型的训练方法，包括：

将多个第一样本图像输入至角色特征提取模型中进行第N次角色特征提取，获得第一角色特征信息，N为正整数；

基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理，获得至少两个第一聚类簇，每一所述第一聚类簇均包括对应一个角色类别的至少一个第二样本图像；

基于所述第二样本图像对待训练特征提取模型进行迭代训练；

基于训练好的所述待训练特征提取模型更新所述角色特征提取模型；

其中，在目标占比大于或等于预设占比的情况下，更新后的角色特征提取模型用于对多个所述第一样本图像进行第N+1次角色特征提取；所述目标占比为目标聚类簇在所述至少两个第一聚类簇中的占比，所述目标聚类簇包括的第二样本图像的图像质量均大于预设质量。

可选地，所述基于所述第二样本图像对待训练特征提取模型进行迭代训练，包括：

将第二样本图像输入至所述待训练特征提取模型进行特征提取，获得第二角色特征信息；

基于所述第二角色特征信息对所述第二样本图像进行聚类处理，获得至少两个第二聚类簇，每一所述第二聚类簇均包括对应一个所述角色类别的至少一个第三样本图像；

判断损失值是否满足损失收敛条件，所述损失值基于所述第二样本图像和所述第三样本图像确定；

在所述损失值不满足所述损失收敛条件的情况下，基于所述损失值对所述待训练特征提取模型进行参数调整；在所述损失值满足所述损失收敛条件的情况下，将当前训练好的所述待训练特征提取模型确定为所述训练好的所述待训练特征提取模型。

基于目标样本图像对待训练特征提取模型进行迭代训练，所述目标样本图像为所述目标聚类簇包括的第二样本图像。

可选地，所述基于目标样本图像对待训练特征提取模型进行迭代训练，包括：

对目标样本图像进行预设处理得到第四样本图像；

基于所述目标样本图像和所述第四样本图像对待训练特征提取模型进行迭代训练。

可选地，基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理的聚类方法为第一聚类方法；

基于所述第二角色特征信息对所述第二样本图像进行聚类处理的聚类方法为第二聚类方法；

所述第一聚类方法与所述第二聚类方法不同。

可选地，所述基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理，获得至少两个第一聚类簇，包括：

基于所述第一角色特征信息对所述多个第一样本图像执行M次聚类操作，得到第M聚类簇；

在所述第M聚类簇满足预设结束条件的情况下，将所述第M聚类簇确定为第一聚类簇；

其中，第T+1次聚类操作包括：

基于第一子角色特征信息和第二子角色特征信息计算第一子聚类簇和第二子聚类簇之间的相似度，所述第一子角色特征信息为所述第一子聚类簇对应的第一角色特征信息，所述第二子角色特征信息为所述第二子聚类簇对应的第一角色特征信息；所述第一子聚类簇和第二子聚类簇为任意两个第T聚类簇；

在所述第一子聚类簇和所述第二子聚类簇之间的相似度小于预设值的情况下，将所述第一子聚类簇和第二子聚类簇合并为一个第T+1聚类簇；T和M均为大于1的正整数，且T小于或等于M。

可选地，所述角色特征信息包括人脸特征信息和以下至少一项：服饰特征信息、配饰特征信息和背景图像特征信息。

在本发明实施的第二方面，还提供了一种角色识别方法，包括：

将多个待处理图像输入到角色特征提取模型进行角色特征提取，获得目标角色特征信息；

基于所述目标角色特征信息对所述多个待处理图像进行聚类处理，获得至少两个角色聚类簇，每一所述角色聚类簇均包括对应一个角色类别的至少一个角色样本图像；

其中，所述角色特征提取模型利用如第一方面所述的角色特征提取模型的训练方法训练获得。

在本发明实施的第三方面，还提供了一种角色特征提取模型的训练装置，包括：

第一特征提取模块，用于将多个第一样本图像输入至角色特征提取模型中进行第N次角色特征提取，获得第一角色特征信息，N为正整数；

第一聚类处理模块，用于基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理，获得至少两个第一聚类簇，每一所述第一聚类簇均包括对应一个角色类别的至少一个第二样本图像；

迭代训练模块，用于基于所述第二样本图像对待训练特征提取模型进行迭代训练；

更新模块，用于基于训练好的所述待训练特征提取模型更新所述角色特征提取模型；

在本发明实施的第四方面，还提供了一种角色识别装置，包括：

第二特征提取模块，用于将多个待处理图像输入到角色特征提取模型进行角色特征提取，获得目标角色特征信息；

第二聚类处理模块，用于基于所述目标角色特征信息对所述多个待处理图像进行聚类处理，获得至少两个角色聚类簇，每一所述角色聚类簇均包括对应一个角色类别的至少一个角色样本图像；

其中，所述角色特征提取模型利用第一方面所述的角色特征提取模型的训练方法训练获得。

在本发明实施的第五方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放程序；

处理器，用于执行存储器上所存放的程序时，实现如第一方面和第二方面所述的方法步骤。

在本发明实施的第六方面，还提供了一种可读存储介质，其上存储有程序，该程序被处理器执行时实现如第一方面和第二方面所述的方法。

在本发明实施例中，首先将多个第一样本图像输入至角色特征提取模型中进行第N次角色特征提取，获得第一角色特征信息；然后基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理，获得至少两个第一聚类簇。然后基于所述第二样本图像对待训练特征提取模型进行迭代训练；基于训练好的所述待训练特征提取模型更新所述角色特征提取模型。本发明实施例训练得到的所述角色特征提取模型提取的角色特征信息对角色的表征效果较好。因此，基于所述角色特征提取模型提取的角色特征信息进行聚类处理得到的第一聚类簇的聚类效果较好，可以识别出视频中每一图像对应的角色。在每一次训练过程中，可以通过所述角色特征提取模型和聚类处理对所述第一样本图像标记，因此无需提前对输入所述待训练特征提取模型的样本进行标记。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中一种角色特征提取模型的训练方法的流程示意图之一；

图2为本发明实施例中一种角色特征提取模型的训练方法的流程示意图之二；

图3是本发明实施例中一种角色识别方法的流程示意图；

图4是本发明实施例中一种角色特征提取模型的训练装置的结构示意图；

图5是本发明实施例中一种角色识别装置的结构示意图；

图6是本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

如图1和图2所示，本发明实施例提供了一种角色特征提取模型的训练方法。如图1所示，所述角色特征提取模型的训练方法包括：

步骤101，将多个第一样本图像输入至角色特征提取模型中进行第N次角色特征提取，获得第一角色特征信息，N为正整数。

应理解的是，所述第一角色特征信息的具体内容在此不做限定。所述第一角色特征信息用于表征所述多个第一样本图像中的角色特征信息。其中，任何可用于区分不同角色类别的特征均可为所述第一角色特征信息，例如所述多个第一样本图像中的人物相貌特征、人物造型特征、人物服饰特征、人物所处的背景图像特征等。

可选地，在一些实施例中，所述第一角色特征信息包括人脸特征信息和以下至少一项：服饰特征信息、配饰特征信息和背景图像特征信息。在另一些实施例中，所述第一角色特征信息包括以下至少两项：人脸特征信息、服饰特征信息、配饰特征信息和背景图像特征信息。

应理解的是，所述第一样本图像的数量为多个，其中，多个所述第一样本图像的获取方法在此不做限定。例如，在一些实施例中，可以通过选取若干部影视剧，对每一集长视频进行抽帧处理和人体对象检测，得到多个所述第一样本图像。更进一步地，对每一集长视频进行抽帧处理和人体对象检测的方法具体为：使用软件工具对视频文件进行帧解码提取帧图像，将每个帧图像输入预训练人体目标检测模型中，获取源人体目标样本图像位置坐标，然后根据位置坐标对源帧图像进行像素截取得到。

应理解的是，所述第一样本图像的数量为多个，因此，所述第一角色特征信息的数量为多个，多个所述第一角色特征信息与多个所述第一样本图像一一对应。

步骤102，基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理，获得至少两个第一聚类簇，每一所述第一聚类簇均包括对应一个角色类别的至少一个第二样本图像。

应理解的是，基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理的具体方法在此不做限定。

可选地，在一些实施例中，所述步骤102包括：

其中，第T+1次聚类操作包括：

应理解的是，在执行第一次聚类操作的情况下，所述第一子聚类簇和所述第二子聚类簇可以理解为，所述多个第一样本图像中任意两个第一样本图像。在进行第T+1次聚类操作的情况下，所述第一子聚类簇可以理解为在第T次聚类操作中未进行聚类操作的第一样本图像，或在第T次聚类操作中得到的第T聚类簇。

应理解的是，所述预设结束条件在此不做限定。例如，在一些实施例中，所述预设条件数据可以为任意两个第M聚类簇之间的相似度均大于或等于与预设值。

应理解的是，所述相似度的计算方法在此不做限定。例如，在一些实施例中，所述第一子聚类簇和第二子聚类簇之间的相似度也可以理解为所述第一子聚类簇和第二子聚类簇中包含的元素两两之间的距离平方的平均距离d(u，v)，其中，在本实施例中，所述元素可以理解为所述第一样本图像；则所述d(u，v)满足：

其中，所述u可以理解为所述第一子聚类簇的特征，所述u[i]可以理解为所述第一子聚类簇中的第i个第一样本图像的特征，所述v可以理解为所述第二子聚类簇的特征，所述v[j]可以理解为所述第二子聚类簇中的第j个第一样本图像的特征,i和j为正整数，且i的最大值为所述第一子聚类簇中的第一样本图像的总数，j的最大值为所述第二子聚类簇中的第一样本图像的总数。

在本实施例中，基于所述第一角色特征信息，根据多个所述第一样本图像之间的相似度对多个所述第一样本图像进行聚类处理，得到所述第一聚类簇。由于在对多个所述第一样本图像进行聚类处理时使用多个所述第一样本图像之间的相似度作为聚类的依据，因此可以将高度相似的所述第一样本图像合并至一个所述第一聚类簇中，使得一个视频中连续时间多个第一样本图像对应的同一角色出现在一个聚类簇中。

应理解的是，基于多个所述第一角色特征信息对多个所述第一样本图像进行聚类处理可以理解为，将每一个所述第一样本图像对应的所述第一角色特征信息作为聚类处理的依据，对多个所述第一样本图像进行聚类处理，使得每一个所述第一样本图像均被聚类至任一个所述第一聚类簇中。

应理解的是，每一个所述第一聚类簇均包括对应一个角色类别的至少一个所述第二样本图像可以理解为，处于同一个所述第一聚类簇内的所述第二样本图像对应的角色类别相同，且为该第一聚类簇对应的角色类别。

步骤103，基于所述第二样本图像对待训练特征提取模型进行迭代训练。

应理解的是，基于所述第二样本图像对待训练特征提取模型进行迭代训练的具体方式在此不做限定。在本实施例中，可以认为所述第二样本图像为所述待训练特征提取模型的训练样本。其中，所述第二样本图像可以包括每一个所述第一聚类簇中的第二样本图像，也可以包括部部分所述第一聚类簇中的第二样本图像。

可选地，在一些实施例中，所述步骤103包括：

应理解的是，所述第二角色特征信息的具体内容在此不做限定。所述第二角色特征信息用于表征所述第二样本图像中的角色特征信息。其中，任何可用于区分不同角色类别的特征均可为所述第二角色特征信息，例如所述第二样本图像中的人物相貌特征、人物造型特征、人物服饰特征、人物所处的背景图像特征等。

可选地，在一些实施例中，所述第二角色特征信息包括人脸特征信息和以下至少一项：服饰特征信息、配饰特征信息和背景图像特征信息。在另一些实施例中，所述第二角色特征信息包括以下至少两项：人脸特征信息、服饰特征信息、配饰特征信息和背景图像特征信息。

应理解的是，所述第二样本图像的数量通常为多个，因此，所述第二角色特征信息的数量为多个，多个所述第二角色特征信息与多个所述第二样本图像一一对应。

应理解的是，基于所述第二角色特征信息对所述第二样本图像进行聚类处理可以理解为，将所述第二样本图像对应的所述第二角色特征信息作为聚类处理的依据，对所述第二样本图像进行聚类处理，使得每一个所述第二样本图像均被聚类至任一个所述第二聚类簇中。

应理解的是，每一个所述第二聚类簇均包括对应一个角色类别的至少一个所述第三样本图像可以理解为，处于同一个所述第二聚类簇内的所述第三样本图像对应的角色类别相同，且为该第二聚类簇对应的角色类别。

应理解的是，在一些实施例中，所述第二样本图像包括每一个所述第一聚类簇中的第二样本图像，因此所述第二样本图像的数量与所述第一样本图像的数量相同，即每一个所述第二样本图像可以与一个所述第一样本图像对应。因此，在本实施例中，也可以认为所述第二样本图像为带有标签的所述第一样本图像，所述标签可以理解为所述第二样本图像对应的第一角色类别，或该第二样本图像对应的第一样本图像对应的第一角色类别。

应理解的是，在本实施例中，所述第三样本图像的数量与所述第一样本图像的数量相同，且每一个所述第三样本图像可以与一个所述第一样本图像对应。因此，在本实施例中，也可以认为所述第三样本图像为带有标签的所述第一样本图像，所述标签可以理解为所述第三样本图像对应的第二角色类别，或该第三样本图像对应的第一样本图像对应的第二角色类别。

因此，所述损失值基于所述第二样本图像和所述第三样本图像确定可以理解为，对于一个所述第一样本图像而言，其对应的所述第二样本图像对应有所述第一角色类别，其对应的所述第三样本图像对应有所述第二角色类别，因此根据同一个所述第一样本图像对应的所述第二样本图像对应的第一角色类别和所述第三样本图像对应的第二角色类别可以确定所述损失值。

应理解的是，所述损失值满足损失收敛条件的情况下，可以认为所述待训练特征提取模型的特征提取结果较好，因此可以认为所述待训练特征提取模型训练完成。在具体实现时，所述损失收敛条件在此不做限定。例如，在一些实施例中，所述损失收敛条件为所述损失值小于阈值。在另一些实施例中，所述损失收敛条件为所述迭代训练的次数达到预设值。

可选地，在一些实施例中，所述步骤103包括：

基于所述目标聚类簇包括的第二样本图像对待训练特征提取模型进行迭代训练。

应理解的是，所述目标聚类簇包括的第二样本图像的图像质量均大于预设质量。为了方便理解，可以将图像质量大于所述预设质量的所述第二样本图像称为目标样本图像。所述至少一个第一聚类簇中仅包括所述目标样本图像的聚类簇为所述目标聚类簇。

应理解的是，所述预设质量在此不做限定，所述预设质量可以根据实际情况进行设置。在具体实现时，图像质量指人们对一幅图像视觉感受的主观评价。通常认为图像质量指被测图像(即目标图像)相对于标准图像(即原图像)在人眼视觉***中产生误差的程度。其中，确定所述第二样本图像的图像质量是否大于所述预设质量的方法在此不做限定。例如，在一些实施例中，可以通过将所述第二样本图像可视化，根据用户的输入确定所述目标样本图像。

应理解的是，在本实施例中，所述第三样本图像的数量与所述目标聚类簇包括的目标样本图像的数量相同，且每一个所述第三样本图像可以与所述目标聚类簇包括的目标样本图像中一个目标样本图像对应。在本实施例中，也可以认为所述第三样本图像为带有标签的所述目标聚类簇包括的目标样本图像，所述标签可以理解为所述第三样本图像对应的第二角色类别，或该第三样本图像对应的所述目标聚类簇包括的目标样本图像对应的第二角色类别。

在本发明实施例中，基于所述目标聚类簇包括的第二样本图像对待训练特征提取模型进行迭代训练。通过所述第二样本图像的图像质量对所述第二聚类簇进行筛选，将包含图像质量较低的第二样本图像的所述第二聚类簇剔除，提高了对所述待训练特征提取模型进行训练所使用的训练样本的质量，从而提高了所述待训练特征提取模型的训练效果。

可选地，在一些实施例中，所述基于目标样本图像对待训练特征提取模型进行迭代训练，包括：

对目标样本图像进行预设处理得到第四样本图像；基于所述目标样本图像和所述第四样本图像对待训练特征提取模型进行迭代训练。

应理解的是，对所述目标样本图像进行预设处理的具体方式在此不做限定。例如，在一些实施例中，对所述目标样本图像进行预设处理包括对所述目标样本图像进行颜色变换。在另一些实施例中，对所述目标样本图像进行预设处理还包括对所述目标样本图像进行模糊变换。在另一些实施例中，对所述目标样本图像进行预设处理还包括对所述目标样本图像增加边框效果。在另一些实施例中，对所述目标样本图像进行预设处理还包括对所述目标样本图像进行剪裁。在另一些实施例中，对所述目标样本图像进行预设处理还包括对所述目标样本图像进行滤镜变换。在另一些实施例中，对所述目标样本图像进行预设处理还包括对所述目标样本图像增加各类字幕。

应理解的是，对所述目标样本图像进行预设处理，得到第四样本图像后，对任一所述目标样本图像进行预设处理得到的所述第四样本图像对应的所述角色类别与该目标样本图像相同。

应理解的是，所述目标样本图像的数量通常为多个。在一些实施例中，可以对每一所述目标样本图像均进行预设处理，且对于任一个所述目标样本图像可以进行多种预设处理，得到多个对应的第四样本图像。在另一些实施例中，可以用于对预设数量个所述目标样本图像进行预设处理，其中，所述预设数量可以根据实际需求进行调整。例如，所述预设数量为所述目标样本图像的总数的十分之一。

在本发明实施例中，通过对所述目标样本图像进行预设处理，得到所述第四样本图像。通过上述方法，一方面可以增加对所述待训练特征提取模型进行训练时使用的训练样本的数量，另一方面可以使得所述待训练特征提取模型可以在上述预设处理后依然可以正确识别同一个样本图像，本实施例提供的方法训练得到的角色特征提取模型可以用于对不同滤镜以及编辑风格下的角色的搜索，提高了所述待训练特征提取模型的识别准确度，进而加强了所述角色特征提取模型对于不同***的角色的识别鲁棒性。

步骤104，基于训练好的所述待训练特征提取模型更新所述角色特征提取模型。

应理解的是，在目标占比小于预设占比的情况下，大部分图像质量较差的所述第一样本图像没有与图像质量较好的所述第一样本图像进行聚类，大部分所述第一聚类簇中不包括图像质量较差的所述第二样本图像。因此可以认为所述角色特征提取模型对于所述第一角色特征信息的提取效果较好，进而使得聚类效果较好。此时可以认为所述角色特征提取模型的训练已完成，因此将停止执行后续步骤，并将此时更新后的所述角色特征提取模型确定为训练好的所述角色特征提取模型。

应理解的是，所述预设占比的具体取值在此不做限定。例如，在一些实施例中，所述预设占比的取值范围为4％～10％。更进一步地，在一些实施例中，所述预设占比为5％。

应理解的是，通过所述目标聚类簇在所述至少两个第一聚类簇中的占比，可以衡量所述角色特征提取模型提取的角色特征的质量，从而判断所述角色特征提取模型的训练情况。当然，在具体实现时，可以通过其他方式判断对所述角色特征提取模型的训练情况。

应理解的是，在一些实施例中，基于训练好的所述待训练特征提取模型更新所述角色特征提取模型可以理解为，使用训练好的所述待训练特征提取模型替换所述角色特征提取模型。在另一些实施例中，基于训练好的所述待训练特征提取模型更新所述角色特征提取模型可以理解为，使用训练好的所述待训练特征提取模型的参数更新所述角色特征提取模型的参数。

应理解的是，在基于训练好的所述待训练特征提取模型更新所述角色特征提取模型后，所述角色特征提取模型对于多个所述第一样本图像进行角色特征提取的结果可能会不同，进而导致在本次训练过程中，所述第一样本图像对应的角色类别，与之前的训练过程中得到所述第一样本图像对应的角色类别不同。

在本实施例中，在目标占比大于或等于预设占比的情况下，基于第N-1次训练好的所述待训练特征提取模型更新所述角色特征提取模型。在本实施例中，通过所述目标占比为目标聚类簇在所述至少两个第一聚类簇中的占比，来判断所述角色特征提取模型的训练程度，可以提高判断的便捷性和准确性。

应理解的是，由于进行聚类处理的对象不同，因此，基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理的聚类方法，与基于所述第二角色特征信息对所述第二样本图像进行聚类处理的聚类方法可以相同或不同。在具体实现时，基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理的聚类方法，与基于所述第二角色特征信息对所述第二样本图像进行聚类处理的聚类方法可以均为无监督的聚类方法。

可选地，在一些实施例中，基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理的聚类方法为第一聚类方法；

基于所述第二角色特征信息对所述第二样本图像进行聚类处理的聚类方法为第二聚类方法，所述第一聚类方法与所述第二聚类方法不同。

在本实施例中，基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理的聚类方法为层级聚类方法。基于所述第二角色特征信息对所述第二样本图像进行聚类处理的聚类方法为基于密度的聚类方法。

其中，所述第一子聚类簇的特征在此不做限定。例如，在一些实施例中，所述第一子聚类簇的特征可以理解为所述第一子聚类簇下所有特征的平均值。所述第二子聚类簇的特征在此不做限定。例如，在一些实施例中，所述第二子聚类簇的特征可以理解为所述第二子聚类簇下所有特征的平均值。应理解的是，基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理的过程中，每一次聚类处理都是基于所述第一角色特征信息计算所述多个第一样本图像中任意两个第一样本图像或多个聚类簇中任意两个聚类簇之间的相似度，根据相似度来判断是否要进行聚类簇的合并。

在本实施例中，在第N次将多个第一样本图像输入至角色特征提取模型中进行第N次角色特征提取时，所述第一角色特征信息为确定的。所述层级聚类方法根据任意两个所述第一聚类簇之间的距离来进行聚类，此种聚类方法具有一定的刚性，可以更好地适用于所述第一角色特征信息。

应理解的是，基于所述第二角色特征信息对所述第二样本图像进行聚类处理的聚类方法为基于密度的聚类方法在具体实现时，是先发现密度较高的第二样本图像，然后把相近的高密度的第二样本图像逐步连成一片，进而生成至少一个所述第二聚类簇。其中，任意一个第二样本图像的密度为与该第二样本图像之间的距离小于预设距离的其他第二本图像的数量。每两个第二样本图像之间的距离均可以根据两个第二样本图像对应的第二角色特征信息进行计算。

然而，基于所述第二角色特征信息对所述第二样本图像进行聚类处理的过程中，即在将第二样本图像输入至所述待训练特征提取模型进行特征提取的过程中，需要基于所述第二样本图像对所述待训练特征提取模型进行迭代训练直至所述待训练特征提取模型收敛，每一次对所述待训练特征提取模型进行迭代训练的过程中，所述第二角色特征信息均可能不完全相同。所述基于密度的聚类方法的刚性较小，可以更好地适用于所述第二角色特征信息。

在本实施例中，所述第一聚类方法与所述第二聚类方法不同。由于所述第一角色特征信息的特性和所述第二角色特征信息的特性不同，所述第一聚类方法和所述第二聚类方法根据其对应的角色特性信息的特性进行设置，可以得到更好的聚类效果，从而提高了对所述角色特征提取模型的训练效果。

应理解的是，在将多个第一样本图像输入至角色特征提取模型中进行第N次角色特征提取之前，初始的所述待训练特征提取模型可以为经由预先训练所得到的，也可以为预先建立的。在一些实施例中，初始的所述待训练特征提取模型为经由预先训练所得到的，在具体实现时，可以利用现有的数据集对残差网络模型进行训练得到初始的所述待训练特征提取模型。

应理解的是，在具体实现时，需要循环执行N次所述角色特征提取模型的训练方法。在一次执行所述角色特征提取模型的训练方法的过程中，均需要依次执行所述步骤101、步骤102、步骤103和步骤104，在每一次执行所述步骤103时均需要利用本次执行步骤102获得的所述第二样本图像对所述待训练特征提取模型进行迭代训练直至所述待训练特征提取模型收敛，所述步骤102获得的所述第二样本图像可以理解为所述待训练特征提取模型的训练样本。

应理解的是，对于所述待训练特征提取模型而言，在执行任意一次所述步骤103时，使用固定的训练样本不断更新所述待训练特征提取模型的参数，而每执行一次所述步骤103，均会更新使用的训练样本，使用更新后的训练样本再一次对所述待训练特征提取模型的参数进行更新。

在第N次训练所述角色特征提取模型的过程中，对所述待训练特征提取模型进行了迭代训练直至所述待训练特征提取模型收敛。在第N+1次训练所述角色特征提取模型的过程中，由于所述角色特征提取模型基于第N次训练好的所述待训练特征提取模型进行了更新，因此提高了所述待训练特征提取模型输入的样本图像的质量，提高了所述待训练特征提取模型的训练效果，进而提高了所述角色特征提取模型的训练效果。

下面将以一个具体的实施例为例，对所述角色特征提取模型的训练方法进行说明。如图2所示，图2为本实施例提供的一种角色特征提取模型的训练方法的流程示意图之二。

首先，为了得到初始的所述待训练特征提取模型，需要使用现有的数据集对残差网络模型进行训练。其中，使用的现有的数据集可以为任意的数据集。在本实施例中，使用的现有的数据集为行人数据集Market1051，Market1051共标注有1501个人物身份标识号(Identity document，ID)和32668个训练图像，其中训练集有751人，包含12936张训练图像；测试集有750人，包含19732张训练图像。在本实施例中，使用Market1501训练残差网络模型的具体流程如下：

首先，使用残差网络模型对上述的12936张图像进行特征提取，得到每一张图像对应的特征数据，其中，所述残差网络模型为可以对图像进行图像特征表征的任意一种残差网络模型，例如基于ImageNet训练好的残差网络模型。使用基于密度的聚类方法对所述特征数据进行聚类；以聚类后的人物ID为键，该聚类中心下所有特征平均值为代表特征值存入字典，从而建立人物特征库。通过设置对比损失函数网络对目标进行反向传播，以动量更新的方式更新所述残差网络模型的参数，得到初始的所述待训练特征提取模型，并基于初始的所述待训练特征提取模型更新所述角色特征提取模型。

然后，获取多个第一样本图像。具体地，首先选择样本视频文件，使用软件工具对所述样本视频文件进行帧解码，从而得到帧图像，将多个帧图像输入预训练的人体目标检测模型，获取每一所述帧图像对应的人体目标样本图像位置坐标，然后根据位置坐标对帧图像进行像素截取得到多个所述第一样本图像。在本实施例中，所述样本视频文件可以为多部影视剧，每一部影视剧均包括多集视频，则每一集视频均可以得到多个所述第一样本图像。

然后，将多个第一样本图像输入至角色特征提取模型中进行第N次角色特征提取，获得第一角色特征信息。具体地，将多个所述第一样本图像输入至所述角色特征提取模型进行角色特征提取，得到多个第一角色特征信息。

基于所述第一角色特征信息对所述多个第一样本图像进行第一聚类处理，获得至少两个第一聚类簇，每一所述第一聚类簇均包括对应一个角色类别的至少一个第二样本图像。其中，所述第一聚类处理使用的是层级聚类方法。

对每一个所述第二样本图像的图像质量进行判断，将图像质量大于预设质量的所述第二样本图像确定为目标样本图像，再将仅包括所述目标样本图像的第一聚类簇确定为目标聚类簇。判断所述目标聚类簇在所述第一聚类簇中的目标占比，在所述目标占比大于或等于5％的情况下，将对应的角色类别相同的所述目标聚类簇合并然后执行后续步骤。在所述目标占比小于5％的情况下停止训练。此时，将更新后的所述角色特征提取模型则为训练好的角色特征提取模型。

在本实施例中，所述目标样本图像的数量为多个。在多个所述目标样本图像中随机选择十分之一的所述目标样本图像进行预设处理，得到第四样本图像，并将所述目标样本图像和第四样本图像作为输入的样本图像，输入至所述待训练特征提取模型中，对所述待训练特征提取模型进行迭代训练。

具体地，将所述目标样本图像和第四样本图像输入至所述待训练特征提取模型进行特征提取，得到对应的第二角色特征信息。基于所述第二角色特征信息对所述目标样本图像和第四样本图像进行第二聚类处理，得到多个第二聚类簇，每一个所述第二聚类簇中均包括对应一个所述角色类别的第三样本图像。其中，所述第二聚类处理使用的是基于密度的聚类方法。

由此可知，对于任一个所述第一样本图像而言，经由所述第一聚类处理可以得到对应的第一角色类别，经由所述第二聚类处理可以得到对应的第二角色类别。因此，通过将同一个所述第一样本图像对应的第一角色类别和第二角色类别进行比较可以得到当次训练中所述待训练特征提取模型的损失值，基于所述损失值调整所述待训练特征提取模型的参数，直至所述待训练特征提取模型收敛。此时，使用所述待训练特征提取模型替换所述角色特征提取模型。

在第N+1次训练的过程中，将多个所述第一样本图像输入至更新后的所述角色特征提取模型，得到多个第一聚类簇。对每一个所述第一聚类簇内的所述第二样本图像的图像质量进行判断，确定本次训练中的目标样本图像及目标聚类簇。同时，判断所述目标聚类簇在所述第一聚类簇中的目标占比，在所述目标占比大于或等于5％的情况下，将对应的所述角色类别相同的所述目标聚类簇合并然后执行后续步骤。在所述目标占比小于5％的情况下，停止训练，并将更新后的所述角色特征提取模型确定为训练好的角色特征提取模型。

如图3所示，本发明实施例还提供了一种角色识别方法，包括：

步骤301，将多个待处理图像输入到角色特征提取模型进行角色特征提取，获得目标角色特征信息。

步骤302，基于所述目标角色特征信息对所述多个待处理图像进行聚类处理，获得至少两个角色聚类簇，每一所述角色聚类簇均包括对应一个角色类别的至少一个角色样本图像。

其中，所述角色特征提取模型利用上述的角色特征提取模型的训练方法训练获得。

在具体实现时，为了对视频进行自动分析，需要在不同视频之间进行角色查询和角色搜索。此时，可以利用所述角色特征提取模型对不同视频对应的图像进行角色特征提取，获得目标角色特征信息。再根据所述目标角色特征信息对不同视频对应的图像进行聚类处理，得到不同视频中每一帧图像对应的角色类别。应理解的是，根据上述内容可知，在目标占比大于或等于预设占比的情况下，更新后的角色特征提取模型用于对多个所述第一样本图像进行第N+1次角色特征提取。在目标占比小于所述预设占比的情况下，更新后的所述角色特征提取模型为训练好的角色特征提取模型。所述训练好的角色特征提取模型为所述步骤301中使用的所述角色特征提取模型。

应理解的是，每一个所述待处理图像均位于其中一个所述角色聚类簇中，因此该角色聚类簇对应的角色类别为位于该角色聚类簇中的所有所述待处理图像对应的角色类别。因此，通过上述方法可以识别出每一所述待处理图像对应的角色类别。

在使用所述角色特征提取模型进行角色特征提取的具体实施方式可以参照上述内容，在此不做赘述。基于所述目标角色特征信息对所述多个待处理图像进行聚类处理，获得至少两个角色聚类簇的具体实施方式可以参照上述内容，在此不做赘述。

如图4所示，在一些实施例中，本发明实施例还提供了一种角色特征提取模型的训练装置400，包括：

第一特征提取模块401，用于将多个第一样本图像输入至角色特征提取模型中进行第N次角色特征提取，获得第一角色特征信息，N为正整数；

第一聚类处理模块402，用于基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理，获得至少两个第一聚类簇，每一所述第一聚类簇均包括对应一个角色类别的至少一个第二样本图像；

迭代训练模块403，用于基于所述第二样本图像对待训练特征提取模型进行迭代训练；

更新模块404，用于基于训练好的所述待训练特征提取模型更新所述角色特征提取模型；

可选地，所述迭代训练模块403包括：

特征提取单元，用于将第二样本图像输入至所述待训练特征提取模型进行特征提取，获得第二角色特征信息；

聚类处理单元，用于基于所述第二角色特征信息对所述第二样本图像进行聚类处理，获得至少两个第二聚类簇，每一所述第二聚类簇均包括对应一个所述角色类别的至少一个第三样本图像；

判断单元，用于判断损失值是否满足损失收敛条件，所述损失值基于所述第二样本图像和所述第三样本图像确定；

处理单元，用于在所述损失值不满足所述损失收敛条件的情况下，基于所述损失值对所述待训练特征提取模型进行参数调整；在所述损失值满足所述损失收敛条件的情况下，将当前训练好的所述待训练特征提取模型确定为所述训练好的所述待训练特征提取模型。

可选地，所述迭代训练模块403包括：

第一迭代训练单元，用于基于目标样本图像对待训练特征提取模型进行迭代训练，所述目标样本图像为所述目标聚类簇包括的第二样本图像。

可选地，所述迭代训练模块403包括：

预设处理单元，用于对目标样本图像进行预设处理得到第四样本图像；

第二迭代训练单元，用于基于所述目标样本图像和所述第四样本图像对待训练特征提取模型进行迭代训练。

所述第一聚类方法与所述第二聚类方法不同。

可选地，所述第一聚类处理模块402包括：

聚类操作单元，用于基于所述第一角色特征信息对所述多个第一样本图像执行M次聚类操作，得到第M聚类簇；

第二确定单元，用于在所述第M聚类簇满足预设结束条件的情况下，将所述第M聚类簇确定为第一聚类簇；

其中，第T+1次聚类操作包括：

本申请实施例提供的角色特征提取模型的训练装置400能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。

如图5所示，本发明实施例还提供了一种角色识别装置500，包括：

第二特征提取模块501，用于将多个待处理图像输入到角色特征提取模型进行角色特征提取，获得目标角色特征信息；

第二聚类处理模块502，用于基于所述目标角色特征信息对所述多个待处理图像进行聚类处理，获得至少两个角色聚类簇，每一所述角色聚类簇均包括对应一个角色类别的至少一个角色样本图像；

本申请实施例提供的角色识别装置500能够实现图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

如图6所示，本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

其中，在目标占比大于或等于预设占比的情况下，更新后的角色特征提取模型用于对多个所述第一样本图像进行第N+1次角色特征提取；所述目标占比为目标聚类簇在所述至少两个第一聚类簇中的占比，所述目标聚类簇包括的第二样本图像的图像质量均大于预设质量；

或者，处理器601，用于执行以下操作：

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种可读存储介质，其上存储有程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本发明提供的又一实施例中，还提供了一种包含指令的程序产品，当其被处理器执行时时，实现上述实施例中任一所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种角色特征提取模型的训练方法，其特征在于，包括：

所述基于所述第二样本图像对待训练特征提取模型进行迭代训练，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二样本图像对待训练特征提取模型进行迭代训练，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于目标样本图像对待训练特征提取模型进行迭代训练，包括：

对目标样本图像进行预设处理得到第四样本图像，其中，对所述目标样本图像进行预设处理包括对所述目标样本图像进行颜色变换；

4.根据权利要求1所述的方法，其特征在于，

基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理的聚类方法为第一聚类方法；

所述第一聚类方法与所述第二聚类方法不同。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一角色特征信息对所述多个第一样本图像进行聚类处理，获得至少两个第一聚类簇，包括：

其中，第T+1次聚类操作包括：

6.根据权利要求1所述的方法，其特征在于，所述角色特征信息包括人脸特征信息和以下至少一项：服饰特征信息、配饰特征信息和背景图像特征信息。

7.一种角色识别方法，其特征在于，包括：

其中，所述角色特征提取模型利用如权利要求1至6中任一项所述的角色特征提取模型的训练方法训练获得。

8.一种角色特征提取模型的训练装置，其特征在于，包括：

所述迭代训练模块具体用于：

9.一种角色识别装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

11.一种可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。