CN112418167A

CN112418167A - 图像的聚类方法、装置、设备和存储介质

Info

Publication number: CN112418167A
Application number: CN202011435170.4A
Authority: CN
Inventors: 蔡林; 周古月; 吴泽衡; 徐倩; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-02-26

Abstract

本发明公开了一种图像的聚类方法、装置、设备和存储介质，该方案中，对于待识别处理的所有图像分别进行人体区域的识别处理，然后将人体区域进行一致性的处理，置为同一个颜色的像素，得到多个背景图像。然后通过深度学习的方式分别对每个背景图像进行学习得到对应的特征矩阵，最后基于特征矩阵确定背景图像之间的相似性，然后进行图像聚类，得到多个图像集合。这些图像集合中的图像的背景高度相似，可确认为基本相同的背景，因此这些图像中的用户需要验证是否是团队操作，避免出现团伙导致的安全隐患，提高安全性。

Description

图像的聚类方法、装置、设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像的聚类方法、装置、设备和存储介质。

背景技术

随着技术的发展，在各个行业中都广泛的使用计算机技术，数字技术等，对于银行，证券等金融行业来说，为了保障财务安全，对于用户身份真实性的核验是非常重要的部分。

目前，在金融级别的身份认证中，主要采用身份证OCR识别，或者活体检测，和人脸对比等方式，对用户的身份进行验证。举例来说，可以通过照片比对的方式对用户进行身份核验，简而言之，对比用户的真实场景下的图片与证件照片，将图像中的人脸信息与身份证中的人脸信息进行比对，自动进行身份鉴别。又或者可以在身份验证之后，通过视频的方式指示用户做出不同的面部表情，确认用户是真实存在等，进一步实现用户的身份验证。

然而，目前的这种方式只能对每个用户个体进行验证，在金融场景中，存在多个用户组成的团伙对金融安全造成隐患，并不能对于用户是否属于某个团伙进行识别，存在一定的安全隐患。

发明内容

本发明的主要目的在于提供一种图像的聚类方法、装置、设备和存储介质，以解决现有技术中对用户身份进行进行验证的方式，无法识别是否存在团伙用户带来的安全隐患的问题。

为实现上述目的，本发明提供一种图像的聚类方法，包括：

识别待处理的多个图像中的人体区域，并将每个图像中的人体区域置为相同像素，得到多个背景图像；

通过深度学习方式分别每个背景图像进行特征学习，得到每个背景图像对应的特征矩阵；

基于每个背景图像对应的特征矩阵对所述多个图像进行聚类，得到多个图像集合，其中，每个图像集合中的图像的背景图像的相似度大于预设阈值。

在一种具体实施方式中，所述基于每个背景图像对应的特征矩阵对所述多个图像进行聚类，得到多个图片集合，包括：

对每个背景图像对应的特征矩阵进行归一化处理，得到处理后的特征矩阵；

根据每个背景图像处理后的特征矩阵，采用DBSCAN算法进行聚类，得到多个背景图像集合，每个背景图像集合中的多个背景图像之间的相似度大于所述预设阈值；

根据所述多个背景图像集合，获取所述多个图像集合。

在一种具体实施方式中，所述识别待处理的多个图像中的人体区域之后，所述方法还包括：

分别提取每个图像中的人体区域，并将提取到的多个人体区域进行存储；

相应的，所述根据所述多个背景图像集合，获取所述多个图像集合，包括：

针对每个背景图像集合，根据所述背景图像集合中的每个背景图像对应的人体区域，对所述背景图像进行补充，得到所述背景图像集合对应的图像集合。

在一种具体实施方式中，所述将每个图像中的人体区域置为相同像素，得到多个背景图像之后，所述方法还包括：

建立每个背景图像与所属图像之间的映射关系；

针对每个背景图像集合，根据所述背景图像集合中的背景图像以及所述映射关系，获取每个背景图像的所属图像，得到所述背景图像集合对应的图像集合。

在一种具体实施方式中，所述通过深度学习方式分别每个背景图像进行特征学习，得到每个背景图像对应的特征矩阵，包括：

根据预训练的resnet50模型对每个背景图像进行特征学习，得到对应的特征矩阵。

在一种具体实施方式中，所述识别待处理的多个图像中的人体区域，并将每个图像中的人体区域置为相同像素，得到多个背景图像，包括：

根据语义分割技术对所述多个图像分别进行识别处理，识别出每个图像中的人体区域；

将每个图像中的人体区域置为黑色，得到所述多个背景图像。

在一种具体实施方式中，所述将每个图像中的人体区域剔除或者置为黑色，得到所述多个背景图像之前，所述方法还包括：

对每个图像中的人体区域的轮廓进行平滑处理。

在一种具体实施方式中，所述识别待处理的多个图像中的人体区域之前，所述方法还包括：

从用于存储身份核验数据的数据库中获取所述多个图像，所述多个图像为不同用户上传的用于身份核验的照片。

本发明还提供一种图像的聚类装置，包括：

图像识别模块，用于识别待处理的多个图像中的人体区域，并将每个图像中的人体区域置为相同像素，得到多个背景图像；

特征提取模块，用于通过深度学习方式分别每个背景图像进行特征学习，得到每个背景图像对应的特征矩阵；

聚类模块，用于基于每个背景图像对应的特征矩阵对所述多个图像进行聚类，得到多个图像集合，其中，每个图像集合中的图像的背景图像的相似度大于预设阈值。

本发明还提供一种电子设备，所述电子设备包括：

存储器、处理器以及交互接口；

所述存储器存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现第一方面任一项提供的图像的聚类方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项提供的图像的聚类方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行实现第一方面任一项提供的图像的聚类方法的步骤。

本发明中，对于待识别处理的所有图像分别进行人体区域的识别处理，然后将人体区域进行一致性的处理，置为同一个颜色的像素，得到多个背景图像。然后通过深度学习的方式分别对每个背景图像进行学习得到对应的特征矩阵，最后基于特征矩阵确定背景图像之间的相似性，然后进行图像聚类，得到多个图像集合。这些图像集合中的图像的背景高度相似，可确认为基本相同的背景，因此这些图像中的用户需要验证是否是团队操作，避免出现团伙导致的安全隐患，提高安全性。

附图说明

图1为本发明提供的一种图像的聚类方法的应用场景示意图；

图2为本发明提供的图像的聚类方法实施例一的流程示意图；

图3为本发明提供的图像的聚类方法实施例二的流程示意图；

图4为本发明提供的图像的聚类装置实施例一的结构示意图；

图5为本发明提供的电子设备实施例一的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

目前，在金融级别的身份认证中，需要对用户进行身份验证并需要对身份信息的真实性进行核验，需要对比用户在真实场景下的图像与证件照片中是否一致，对身份进行鉴别。但是对于银行的贷款业务，保险业务等存在以团伙形式进行诈骗的情况。现有的方式多以身份证光学字符识别(Optical Character Recognition，OCR)/活体检测和人脸对比等技术手段进行身份核验，但是这些技术都仅能对个人进行身份识别，无法有效判断个人行为是否为团伙行为，无法有效避免团伙欺诈事件的发生，增加了金融业务的风险性，可能造成极为惨重的损失。

针对上述存在的问题，本发明提供一种图像的聚类方法，能够对用户的图像进行聚类，确定出可能存在团队行为的图像集合，以便后续能够继续进行详细的审核判断，提高安全性。本方案的主要构思是考虑到如果是团伙行为的话，会存在大量的用户在同一时间，同一位置进行大量的照片拍摄，为防止这一类事件的发生，可以在采用图像核验身份的过程中，对用户实际照片的背景进行识别，发现其中极为相似的背景，做进一步分析判断，达到避免团伙欺诈的目的。

下面通过具体的实施方式对该图像的聚类方法进行详细说明。

图1为本发明提供的一种图像的聚类方法的应用场景示意图，如图1所示，该图像的聚类方案主要应用在金融服务或者其他需要判断是否出现大量需要核验真实场景照片的背景是一样的场景等，可以在专用于进行图像分析处理的电子设备上，也可以在任一场景中具备图像处理功能的电子设备上执行。例如，该电子设备可以是银行保险等金融行业的服务器或者计算机设备。

在实现该图像的聚类方法的过程中，待处理的多个图像可以从本地存储的图像直接获取，也可以从云端或者数据库中进行获取。举例来说，在银行等金融***中，电子设备可以从金融***的云服务端(云端)或者银行等金融***的数据库中获取到待处理的图像，然后在电子设备中按照本发明提供的技术方案进行聚类之后，将其发送给工作人员的终端设备进行展示。如果确实存在多个图像的背景高度相似，则工作人员可以根据实际的图像和用户的身份信息进一步进行判断，避免团队操作没有被识别到的问题。

图2为本发明提供的图像的聚类方法实施例一的流程示意图，如图2所示，该图像的聚类方法包括以下步骤：

S101：识别待处理的多个图像中的人体区域，并将每个图像中的人体区域置为相同像素，得到多个背景图像。

在本步骤中，该方案中对于图像的聚类主要是为了将背景高度相似的图像聚合在同一个集合里，以便后续工作人员能够根据集合中的图像进行更进一步的验证。首先，电子设备获取到的多个待分析处理的图像均属于真实拍摄的包括用户的面部以及部分身体的图像，即这些图像中包括了人体区域。本方案的核心思路是基于图像中的背景进行的聚类，因此，首先需要从每个图像中识别出人体区域。

具体的实现中，电子设备可以对每个图像采用语义分割技术进行识别处理，从而得到的每个图像中的人体区域。在确定出人体区域之后，为了能够更精确的对比图像的背景之间的区别，需要将每个图像中的人体区域进行处理，即处理成相同像素，以得到背景图像。例如，置为相同颜色的像素，例如人体区域全部处理成白色或者其他颜色，总体上是将每个图像的人体区域处理成一样的像素即可。

可选的，在一种的具体实现方式中，可以将每个图像中的人体区域置为黑色，从而得到多个背景图像。

可选的，在另一种实现中，也可以将每个图像中的人体区域直接进行剔除，处理为空，也就是在图像中的人体区域部分是空的，从而得到多个背景图像。

可选的，这些图像可以是直接导入电子设备的，也可以是电子设备从数据提供方获取到的，例如，从存储身份核验数据的数据库或者金融***的服务器中获取到的，对此本方案不做限制。本方案中涉及到的多个图像为不同的用于上传的用于身份核验的照片，也就是说是真实场景中用户拍摄的照片。

在本步骤的一种具体实施方式中，所述将每个图像中的人体区域剔除或者置为黑色，得到所述多个背景图像之前，所述方法还包括：对每个图像中的人体区域的轮廓进行平滑处理，以便能够将人体区域完全勾勒。具体的，可以通过图像膨胀的方式进行平滑处理。

其含义是，背景识别不是直接识别出图片中的背景，而是以语义分割技术为基础，先识别出人体，再消除人体部分保留背景部分得到背景图像。首先，输入一张用户图片，通过BiSeNet语义分割模型识别出人体的部分，保存人体部分的相关信息，补充后续作为风险判断模型的依据。由于人体某些部分如头发等比较难以完全勾勒出来，因此需要对识别出的人体区域的轮廓进行平滑处理，可以通过人物图像膨胀的方式尽量将人体部分包含到人体框中，将修改后的人体框中像素点全部置为黑色，其他的即为图像背景，相当于生成一张新的图片作为背景图像。

S102：通过深度学习方式分别每个背景图像进行特征学习，得到每个背景图像对应的特征矩阵。

在本步骤中，在得到的每个图像对应的背景图像之后，需要对背景图像进行比对，常规的方式是将背景图像的像素进行对比，或者像素的特征进行比对，确定背景图像是否相似。然而由于图像大小，人***置等均有一定的不同，直接对比背景图像的可靠性较低，因此本方案提出了一种通过深度学习方式得到每个背景图像的特征矩阵的方式。

具体的，该步骤的主要含义是提取背景中的特征。背景特征提取是以深度学习技术为基础，将背景抽象为深度学习特征。特征表示可以调用预训练的resnet50模型(该模型已基于超过一百万个图像进行训练，可以将图像分为1000个对象类别，如键盘、鼠标、铅笔和多种动物等，因此，该模型已基于大量图像学习了丰富的特征表示)，将背景图像通过深度学习的方式转换为复杂的特征矩阵。这些特征用于表示背景图像中实际存在的物体，在后续进行背景图像的相似性对比时能够更进一步的提高精确度。

S103：基于每个背景图像对应的特征矩阵对多个图像进行聚类，得到多个图像集合，其中，每个图像集合中的图像的背景图像的相似度大于预设阈值。

在本步骤中，在按照上述步骤得到了每个图像的背景图像的特征矩阵之后，可根据每个背景图像的特征矩阵，计算任两个背景图像之间的相似度，如果其相似度满足预设条件，则可以将两个背景图像聚类在一起，以此类推可以将所有的背景图像进行聚类，得到多个背景图像集合，其中每个背景图像集合中的背景图像之间相似度达到预设条件。在该方案的具体实现中，可以通过设置一定的相似度的阈值，例如：90％，或者95％，或者98％等等，具体的阈值可以根据实际情况进行调整。以90％为例，如果存在两个背景图像之间的相似度大于90％，那么则将这两个图像聚类在同一个背景图像集合中。

在得到背景图像集合之后，则可以根据每个背景图像集合，得到多个图像集合，这些图像集合中的背景图像相似度大于预设阈值。

本实施例提供的图像的聚类方法，对于待识别处理的所有图像分别进行人体区域的识别处理，然后将人体区域进行一致性的处理，置为同一个颜色的像素，得到多个背景图像。然后通过深度学习的方式分别对每个背景图像进行学习得到对应的特征矩阵，最后基于特征矩阵确定背景图像之间的相似性，然后进行图像聚类，得到多个图像集合。这些图像集合中的图像的背景高度相似，可确认为基本相同的背景，因此这些图像中的用户需要验证是否是团队操作，避免出现团伙而未能进行识别导致的安全隐患，提高安全性。

图3为本发明提供的图像的聚类方法实施例二的流程示意图，如图3所示，在上述实施例一的基础上，其中步骤S103中基于每个背景图像对应的特征矩阵对所述多个图像进行聚类，得到多个图片集合的具体实现步骤如下：

S1031：对每个背景图像对应的特征矩阵进行归一化处理，得到处理后的特征矩阵。

S1032：根据每个背景图像处理后的特征矩阵，采用DBSCAN算法进行聚类，得到多个背景图像集合，每个背景图像集合中的多个背景图像之间的相似度大于所述预设阈值。

在上述两个步骤中，背景图像的聚类是对背景图像中的特征进行聚类，因此，首先需要对背景图像的特征矩阵进行归一化处理，以作为基于密度的噪声应用空间聚类(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)算法的输入。DBSCAN是一种基于密度的聚类算法，这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。通过将紧密相连的样本划为一类，这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别，则可以得到了最终的所有聚类结果。然后，可以设定不同的密度阈值，提取出不同相似程度的背景图片。

在本发明的技术方案中，则可以将背景图像的特征矩阵输入DBSCAN计算两个背景图像之间的相似度，当相似度大于预设阈值，则可以将该两个背景图像聚类在一个集合中，以此类推可以得到的本方案中的背景图像集合。

S1033：根据多个背景图像集合，获取多个图像集合。

在本步骤中，在得到背景图像集合之后，则可以根据每个背景图像集合，得到多个图像集合，这些图像集合中的背景图像相似度大于预设阈值。

在该方案的具体实现中，至少可以通过以下集中方式得到图像集合：

第一种方式，在前述步骤对图像中的人体区域识别时候，分别提取每个图像中的人体区域，并将提取到的多个人体区域进行存储。也就是说对每个图像中的人体区域均一一对应的进行了存储，那么则在获取到多个背景图像集合之后，针对每个背景图像集合，根据所述背景图像集合中的每个背景图像对应的人体区域，对所述背景图像进行补充，得到所述背景图像集合对应的图像集合。其含义是，根据存储的人体区域和背景图像之间的关系，将人体区域部分补充至对应的背景图像中，从而得到完整的图像，进一步可以得到图像集合。

第二种方式，在前述步骤对图像中的人体区域进行识别并剔除或者置为同一个颜色的像素之后，电子设备还建立并存储了每个背景图像与所属图像之间的映射关系。那么在获取到多个背景图像集合之后，针对每个背景图像集合，根据所述背景图像集合中的背景图像以及所述映射关系，获取每个背景图像的所属图像，得到所述背景图像集合对应的图像集合。其含义是，根据每个背景图像集合中的背景图像以及该映射关系，可以确定出对应的原图像，从而可以得到图像集合。

在依据本方案进行聚类之后，可以得到多个图片集合，图片集合中的图像的背景相似度较高，后续可以结合用户的其他信息以及用户的人体特征等信息，综合判断是否为团伙行为，辅助金融行业等进行反欺诈判断。

综上所述，本发明提供的图像的聚类方法，基于图像的背景，以用户上传的身份核对照片为基础，对人脸以外的背景信息进行处理，综合数据库所有的图片，聚类处理所有背景，找出相同或者相似的背景，辨别是否有大量的用户是在同一背景下拍摄照片，进一步结合其他信息判断是否有团伙欺诈的可能。有效识别团伙行为，保证金融服务安全。

图4为本发明提供的图像的聚类装置实施例一的结构示意图，如图4所示，该图像的聚类装置10，包括：

图像识别模块11，用于识别待处理的多个图像中的人体区域，并将每个图像中的人体区域置为相同像素，得到多个背景图像；

特征提取模块12，用于通过深度学习方式分别每个背景图像进行特征学习，得到每个背景图像对应的特征矩阵；

聚类模块13，用于基于每个背景图像对应的特征矩阵对所述多个图像进行聚类，得到多个图像集合，其中，每个图像集合中的图像的背景图像的相似度大于预设阈值。

本实施例提供的图像的聚类装置，用于执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，通过基于背景图像的相似度对用于身份认证的图像进行聚类得到多个图像集合，图像集合中的图像的背景高度相似，可确认为基本相同的背景，因此这些图像中的用户需要验证是否是团队操作，避免出现团伙导致的安全隐患，提高安全性。

在该图像的聚类装置的实施例二中，所述聚类模块13具体用于：

根据所述多个背景图像集合，获取所述多个图像集合。

可选的，所述图像识别模块11还用于：

相应的，所述聚类模块13具体用于：

可选的，所述图像识别模块11还用于：

建立每个背景图像与所属图像之间的映射关系；

相应的，所述聚类模块13具体用于：

在上述任一实施例的基础上，所述特征提取模块12具体用于：

可选的，所述图像识别模块11具体用于：

可选的，所述将每个图像中的人体区域剔除或者置为黑色，得到所述多个背景图像之前，所述图像识别模块11还用于：

对每个图像中的人体区域的轮廓进行平滑处理。

可选的，所述识别待处理的多个图像中的人体区域之前，所述图像识别模块11还用于：

上述任一实施例提供的图像的聚类装置，用于执行前述任一方法实施例中的图像的聚类方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

图5为本发明提供的电子设备实施例一的结构示意图，如图5所示，该电子设备20包括：处理器21、存储器22、及交互接口23，

在所述存储器22上存储有可在所述处理器21上运行的计算机程序，所述计算机程序被所述处理器21执行时实现前述任一方法实施例中技术方案。

电子设备20的交互接口23用于与用户或者其他设备进行通信和数据交互。具体实现中，该交互接口23可包括网络接口或者显示装置等，对此本方案不做限制。

该电子设备20的上述各个器件之间可以通过总线24连接。

存储器22可以是单独的存储单元，也可以是集成在处理器21中的存储单元。处理器21的数量为一个或者多个。

在上述在电子设备的实现中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互，也就是存储器和处理器可以通过接口连接，也可以集成在一起。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。进一步地，上述存储器内的软件程序以及模块还可包括操作***，其可包括各种用于管理***任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、图像处理器等，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任一方法实施例提供的图像的聚类方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行实现前述任一方法实施例提供的图像的聚类方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图像的聚类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于每个背景图像对应的特征矩阵对所述多个图像进行聚类，得到多个图片集合，包括：

根据每个背景图像处理后的特征矩阵，采用基于密度的噪声应用空间聚类DBSCAN算法进行聚类，得到多个背景图像集合，每个背景图像集合中的多个背景图像之间的相似度大于所述预设阈值；

根据所述多个背景图像集合，获取所述多个图像集合。

3.根据权利要求2所述的方法，其特征在于，所述识别待处理的多个图像中的人体区域之后，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述将每个图像中的人体区域置为相同像素，得到多个背景图像之后，所述方法还包括：

建立每个背景图像与所属图像之间的映射关系；

5.根据权利要求1所述的方法，其特征在于，所述通过深度学习方式分别每个背景图像进行特征学习，得到每个背景图像对应的特征矩阵，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述识别待处理的多个图像中的人体区域，并将每个图像中的人体区域置为相同像素，得到多个背景图像，包括：

7.根据权利要求6所述的方法，其特征在于，所述将每个图像中的人体区域剔除或者置为黑色，得到所述多个背景图像之前，所述方法还包括：

对每个图像中的人体区域的轮廓进行平滑处理。

8.根据权利要求6所述的方法，其特征在于，所述识别待处理的多个图像中的人体区域之前，所述方法还包括：

9.一种图像的聚类装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

处理器、存储器以及交互接口；

所述存储器存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8任一项所述的图像的聚类方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的图像的聚类方法的步骤。

12.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行实现权利要求1至8任一项所述的图像的聚类方法的步骤。