WO2019137185A1

WO2019137185A1 - 一种图片筛选方法及装置、存储介质、计算机设备

Info

Publication number: WO2019137185A1
Application number: PCT/CN2018/122841
Authority: WO
Inventors: 刁梁; 陈昕; 周华; 朱欤
Original assignee: 美的集团股份有限公司
Priority date: 2018-01-09
Filing date: 2018-12-21
Publication date: 2019-07-18
Also published as: CN108228844A; CN108228844B

Abstract

一种图片筛选方法及装置、存储介质、计算机设备，所述方法包括：获取第一图片集合（201）；提取所述第一图片集合中的各个图片的特征向量（202）；基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中（203）；确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离（204）；基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合（205）。

Description

一种图片筛选方法及装置、存储介质、计算机设备

相关申请的交叉引用

本申请基于申请号为201810017485.3、申请日为2018年01月09日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及图片处理技术，尤其涉及一种图片筛选方法及装置、存储介质、计算机设备。

背景技术

随着人工智能以及大数据技术的快速发展，越来越多的产品开始向智能化发展，较之非智能化产品，智能化产品多有功能更加强大，用户体验更加舒适等特点。数据是智能化产品及其应用的基础，因此，挖掘出准确的数据对于智能化产品及其应用而言，具有重要的意义。

图片是大数据技术中的一类重要数据类型，然而，由于互联网上的图片数量巨大且种类繁多，因此用户从互联网上爬取需要的图片时，往往会爬到一些垃圾图片，严重影响了人工智能的应用，基于此，如何识别出这些垃圾图片是亟待解决的问题。

申请内容

为解决上述技术问题，本申请实施例提供了一种图片筛选方法及装置、存储介质、计算机设备。

本申请实施例提供的图片筛选方法，包括：

获取第一图片集合；

提取所述第一图片集合中的各个图片的特征向量；

基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中；

确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离；

基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合。

本申请实施例中，所述基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中，包括：

对所述第一图片集合中的各个图片的特征向量进行聚类，并基于聚类结果分组所述第一图片集合中的各个图片至分组中。

本申请实施例中，所述对所述第一图片集合中的各个图片的特征向量进行聚类，并基于聚类结果分组所述第一图片集合中的各个图片至分组中，包括：

设置聚类中心数量；

聚类所述第一图片集合中的各个图片的特征向量；

分组第一图片集合中的各个图片至分组中，其中组的数量与聚类中心的数量相同。

本申请实施例中，所述确定各组图片对应的聚类中心，包括：

基于所述聚类结果，确定各组图片对应的聚类中心。

本申请实施例中，所述方法还包括：

基于所述各组图片对应的聚类中心，计算所述参考中心。

本申请实施例中，所述基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合，包括：

将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片，从所述第一图片集合中删除，得到第二图片集合。

由大到小排序所述各组图片对应的聚类中心与参考中心的距离，并确定出距离最大的M组图片，M为正整数；

从所述第一图片集合中删除所述M组图片，得到第二图片集合。

本申请实施例提供的图片筛选装置，包括：

获取单元，配置为获取第一图片集合；

提取单元，配置为提取所述第一图片集合中的各个图片的特征向量；

分组单元，配置为基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中；

距离确定单元，配置为确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离；

筛选单元，配置为基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合。

本申请实施例中，所述分组单元，配置为对所述第一图片集合中的各个图片的特征向量进行聚类，并基于聚类结果分组所述第一图片集合中的各个图片至分组中。

本申请实施例中，所述分组单元包括：

设置子单元，配置为设置聚类中心数量；

聚类子单元，配置为聚类所述第一图片集合中的各个图片的特征向量；

划分子单元，配置为分组第一图片集合中的各个图片至分组中，其中组的数量与聚类中心的数量相同。

本申请实施例中，所述分组单元，还配置为基于所述聚类结果，确定各组图片对应的聚类中心。

本申请实施例中，所述装置还包括：

参考中心计算单元，配置为基于所述各组图片对应的聚类中心，计算所述参考中心。

本申请实施例中，所述筛选单元，配置为将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片，从所述第一图片集合中删除，得到第二图片集合。

本申请实施例中，所述筛选单元，配置为由大到小排序所述各组图片对应的聚类中心与参考中心的距离，并确定出距离最大的M组图片，M为正整数；从所述第一图片集合中删除所述M组图片，得到第二图片集合。

本申请实施例提供的存储介质，其上存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述的图片筛选方法。

本申请实施例提供的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令，所述处理器执行所述计算机可执行指令时实现上述的图片筛选方法。

本申请实施例的技术方案中，获取第一图片集合；提取所述第一图片集合中的各个图片的特征向量；基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中；确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离；基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合。采用本申请实施例的技术方案，首先，利用计算机视觉技术对爬取到的第一图片集合进行处理，得到第一图片集合中的各个图片的特征向量，然后，利用聚类算法对特征向量进行聚类处理，从而实现对第一图片集合中的各个图片进行分组，最后，自动清理第一图片集合中的垃圾图片，从而实现了图片的自动清洗，为人工智能的应用提供了精确的图片数据来源。

附图说明

图1为本申请实施例中进行信息交互的各方硬件实体的示意图；

图2为本申请实施例的图片筛选方法的流程示意图一；

图3为本申请实施例的图片筛选方法的流程示意图二；

图4为本申请实施例的图片筛选方法的流程示意图三；

图5为本申请实施例的图片筛选方法的流程示意图四；

图6为本申请实施例的图片筛选装置的结构组成示意图一；

图7为本申请实施例的图片筛选装置的结构组成示意图二；

图8为本申请实施例的计算机设备的结构组成示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

图1为本申请实施例中进行信息交互的各方硬件实体的示意图，图1中包括：图片筛选装置、服务器1-服务器n，其中，图片筛选装置通过有线网络或者无线网络与服务器进行信息交互。一个示例中，图片筛选装置设置于终端中，终端的类型例如是手机、台式机、PC机、一体机等类型；终端至少提供如下两种功能：1)为用户提供用户界面(UI，Interface)；2)从服务器1-服务器n爬取图片并执行图片筛选的处理过程。另一个示例中，图片筛选装置设置于服务器中，该服务器提供如下功能：从服务器1-服务器n爬取图片并执行图片筛选的处理过程；此外，该服务器可以与面向用户的客户端进行信息交互，以接收用户的请求实现爬取图片并执行图片筛选的处理过程，还可以向用户的客户端发送图片筛选结果等数据，而客户端负责为用户提供UI。

上述图1的例子只是实现本申请实施例的一个***架构实例，本申请实施例并不限于上述图1所述的***结构，基于该***架构，提出本申请各个实施例。

图2为本申请实施例的图片筛选方法的流程示意图一，如图2所示，所述图片筛选方法包括以下步骤：

步骤201：获取第一图片集合。

本申请实施例中，获取第一图片集合的方式可以但不局限于是以下方式：获取用户输入的关键字(也可以是关键词)，根据关键字从各种类型的网站(也可以是数据库)上爬取与关键字相匹配的图片。例如：关键字为“空调”，从各种类型的网站上爬取与“空调”相匹配的图片，这里，与关“空调”相匹配的图片可以是图片上具有空调图案的图片，也可以是图片上具有空调文字的图片。在一实施方式中，网站的类型可以由用户自行设置，例如用户可以设置商业类型的网站、教育类型的网站、娱乐类型的网站等等，这样，就可以根据网站的类型针对性的爬取与关键字相匹配的图片。在另一实施方式中，网站的类型不做限制，具有访问权限的网站均可以实现图片的爬取。

上述方案中，第一图片集合是与关键字相匹配的一类图片的总和，第一图片集合中包括多个与关键字相匹配的图片，然而，第一图片集合中会概率性的存在一些垃圾图片，有需要将这些垃圾图片从第一图片集合中删除。例如：第一图片集合中包括图片1、图片2、图片3、图片4，图片5，其中，图片1和图片5是垃圾图片，需要从第一图片集合中删除，本申请实施例通过以下步骤来实现垃圾图片的删除过程。

步骤202：提取所述第一图片集合中的各个图片的特征向量。

本申请实施例中，利用计算机视觉技术提取第一图片集合中的各个图片的特征向量。这里，计算机视觉技术是一种利用计算机代替人眼对图片进行识别以及处理的技术。

进一步，本申请实施例使用深度学习(DL，Deep Learning)技术来提取第一图片集合中的各个图片的特征向量。这里，深度学习技术可以从大数据中自动学习特征向量的表示。卷积神经网络(CNN，Convolutional Neural Network)作为深度学习在图像领域的一个应用，其局部权值共享的特殊结构在图像处理方面有着独特的优越性，而且布局更加接近于实际的生物神经网络。

在图像处理中，将图片表示为像素的向量，比如一个1000×1000的图片，可以表示为一个1000000的向量。将图片的向量数据输入到深度学习模型中，经过一系列的处理(如滤波、卷积、加权、加偏置等)，就可以得到该图片的特征向量。

例如：图片1的特征向量为P1，图片2的特征向量为P2，图片3的特征向量为P3，图片4的特征向量为P4，图片5的特征向量为P5。

步骤203：基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中。

本申请实施例中，图片的特征向量表征了该图片的特征，如果两个图片的特征向量之间的距离越近，则代表这两个图片的相似度越高，如果两个图片的特征向量之间的距离越远，则代表这两个图片的相似度越低。

假设有两个特征向量：X，Y，其中，X，Y都包含N维特征，具体地，X＝(x1,x2,x3,……..,xn)，Y＝(y1,y2,y3,……..,yn)，计算X和Y的距离可以但不局限于通过以下方法：

方法一：计算X和Y的欧几里得距离。

具体地，X和Y的欧几里得距离为

方法二：计算X和Y的曼哈顿距离。

具体地，X和Y的曼哈顿距离为

方法三：计算X和Y的明可夫斯基距离。

具体地，X和Y的明可夫斯基距离为

方法四：计算X和Y的余弦相似度。

具体地，X和Y的余弦相似度为

本申请实施例基于以上方法中的任意一种可以对第一图片集合中的各个图片的特征向量进行聚类，并基于聚类结果分组所述第一图片集合中的各个图片至分组中。

以K-均值聚类法(K-meas)为例，在K-均值聚类法中，以空间中的若干个点(如N个点)为中心进行聚类，对最靠近他们的对象归类。应用于本申请实施例中，聚类的对象为特征向量，聚类的过程大致包括：

1)初始化过程：设置聚类中心的个数为N。

选择(或人为指定)N个特征向量，作为聚类中心。

2)聚类所述第一图片集合中的各个图片的特征向量。

2.1)按就近原则将其他特征向量向聚类中心凝聚，得到N个分类。

2.2)计算出各个分类的中心位置。

2.3)用2.2)计算出的中心位置，作为新的聚类中心，循环执行2.1)-2.3)，直到聚类中心的位置收敛为止。

可见，基于聚类结果，可确定出各组图片对应的聚类中心。

3)分组第一图片集合中的各个图片至分组中，其中组的数量与聚类中心的数量相同。

例如：设置聚类中心的个数为20，对各个图片的特征向量进行聚类处理后，根据聚类结果将所有的图片划分为20个组，并得到20个聚类中心。

步骤204：确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离。

本申请实施例中，每组图片的聚类中心代表了该组整体的特征，基于各组图片对应的聚类中心，可以计算得到参考中心O。

例如：共有10组图片，这10组图片对应的聚类中心分别为：O1、O2、O3、O4、O5、O6、O7、O8、O9、O10，参考中心O为这10个聚类中心的平均值。值得注意的是，一个组的聚类中心可以是该组中所包括的特征向量的平均值。例如：一个组中包括如下特征向量：P1、P2、P3，则该组的聚类中心为(P1+P2+P3)/3。

本申请实施例中，确定出各组图片对应的聚类中心后，计算所述各组图片对应的聚类中心与参考中心的距离。

例如：共有10个聚类中心，分别为：O1、O2、O3、O4、O5、O6、O7、O8、O9、O10，这10个聚类中心距离参考中心O的距离均可以通过但不局限于步骤203中的四种距离计算方法来计算。

步骤205：基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合。

本申请实施例中，预设条件的作用是限定将距离参考中心较远的一组或多组图片从第一集合中删除，这里，满足预设条件一组或多组图片也可以称为垃圾图片，这些垃圾图片的特征向量相对于其他图片的特征向量而言，距离较远，因而相似度较低，将这些垃圾图片从第一图片集合中删除后，可以得到类型较为统一的第二图片集合。本申请实施例的技术方案通过计算机自动化流程实现了图片的筛选过程，极大降低了人工清理成本。

图3为本申请实施例的图片筛选方法的流程示意图二，如图3所示，所述图片筛选方法包括以下步骤：

步骤301：获取第一图片集合。

步骤302：提取所述第一图片集合中的各个图片的特征向量。

进一步，本申请实施例使用DL技术来提取第一图片集合中的各个图片的特征向量。这里，深度学习技术可以从大数据中自动学习特征向量的表示。CNN作为深度学习在图像领域的一个应用，其局部权值共享的特殊结构在图像处理方面有着独特的优越性，而且布局更加接近于实际的生物神经网络。

步骤303：基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中。

本申请实施例对第一图片集合中的各个图片的特征向量进行聚类，并基于聚类结果分组所述第一图片集合中的各个图片至分组中。

1)初始化过程：设置聚类中心的个数为N。

选择(或人为指定)N个特征向量，作为聚类中心。

2)聚类所述第一图片集合中的各个图片的特征向量。

2.2)计算出各个分类的中心位置。

可见，基于聚类结果，可确定出各组图片对应的聚类中心。

步骤304：确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离。

步骤305：将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片，从所述第一图片集合中删除，得到第二图片集合。

本申请实施例中，如果聚类中心相对于所述参考中心的距离越大，则代表该聚类中心对应的一组图片为垃圾的图片的概率越大；反之，如果聚类中心相对于所述参考中心的距离越小，则代表该聚类中心对应的一组图片为垃圾的图片的概率越小。

本申请实施例中，设置一个阈值，如果某个聚类中心相对于所述参考中心的距离大于等于该阈值，则代表该聚类中心对应的一组图片为垃圾图片，将该组图片从第一图片集合中删除，可以得到类型较为统一的第二图片集合。本申请实施例的技术方案通过计算机自动化流程实现了图片的筛选过程，极大降低了人工清理成本。

图4为本申请实施例的图片筛选方法的流程示意图三，如图4所示，所述图片筛选方法包括以下步骤：

步骤401：获取第一图片集合。

步骤402：提取所述第一图片集合中的各个图片的特征向量。

步骤403：基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中。

1)初始化过程：设置聚类中心的个数为N。

选择(或人为指定)N个特征向量，作为聚类中心。

2)聚类所述第一图片集合中的各个图片的特征向量。

2.2)计算出各个分类的中心位置。

可见，基于聚类结果，可确定出各组图片对应的聚类中心。

步骤404：确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离。

步骤405：由大到小排序所述各组图片对应的聚类中心与参考中心的距离，并确定出距离最大的M组图片，M为正整数；从所述第一图片集合中删除所述M组图片，得到第二图片集合。

本申请实施例中，将各组图片的聚类中心与参考中心的距离按照由大至小进行排序，从第一图片集合中删除距离最大的M组图片，可以得到类型较为统一的第二图片集合。例如：有5组图片，对应的聚类中心分别为：O1、O2、O3、O4、O5，其中，这5个聚类中心与参考中心的距离分别为：S1、S2、S3、S4、S5，按照由大至小排序为：S2、S4、S3、S4、S1，假如需要删除2组图片，那么会将O2和O4对应的两组图片从第一图片集合中删除。本申请实施例的技术方案通过计算机自动化流程实现了图片的筛选过程，极大降低了人工清理成本。

图5为本申请实施例的图片筛选方法的流程示意图四，如图5所示，所述图片筛选方法包括以下步骤：

步骤501：获取关键字并爬取与该关键字匹配的图片，形成第一图片集合。

步骤502：提取所述第一图片集合中的各个图片的特征向量。

步骤503：设置聚类中心的个数为N。

步骤504：对各个图片的特征向量进行聚类，并基于聚类结果将各个图片划分为N组。

步骤505：基于聚类结果确定各组图片对应的聚类中心，并基于各个聚类中心计算参考中心。

步骤506：计算每个聚类中心与参考中心的距离。

步骤507：对每个聚类中心与参考中心的距离由大至小进行排序。

步骤508：将距离较远的M个聚类中心对应的M组图片从第一图片集合中删除，得到第二图片集合。

图6为本申请实施例的图片筛选装置的结构组成示意图一，如图6所示，所述图片筛选装置包括：

获取单元601，配置为获取第一图片集合；

提取单元602，配置为提取所述第一图片集合中的各个图片的特征向量；

分组单元603，配置为基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中；

距离确定单元604，配置为确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离；

筛选单元605，配置为基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合。

本领域技术人员应当理解，图6所示的图片筛选装置中的各单元的实现功能可参照前述图片筛选方法的相关描述而理解。图6所示的图片筛选装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

图7为本申请实施例的图片筛选装置的结构组成示意图二，如图7所示，所述图片筛选装置包括：

获取单元701，配置为获取第一图片集合；

提取单元702，配置为提取所述第一图片集合中的各个图片的特征向量；

分组单元703，配置为基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中；

距离确定单元704，配置为确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离；

筛选单元705，配置为基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合。

在一实施方式中，所述分组单元703，配置为对所述第一图片集合中的各个图片的特征向量进行聚类，并基于聚类结果分组所述第一图片集合中的各个图片至分组中。

在一实施方式中，所述分组单元703包括：

设置子单元7031，配置为设置聚类中心数量；

聚类子单元7032，配置为聚类所述第一图片集合中的各个图片的特征向量；

划分子单元7033，配置为分组第一图片集合中的各个图片至分组中，其中组的数量与聚类中心的数量相同。

在一实施方式中，所述分组单元703，还配置为基于所述聚类结果，确定各组图片对应的聚类中心。

在一实施方式中，所述装置还包括：

参考中心计算单元706，配置为基于所述各组图片对应的聚类中心，计算所述参考中心。

在一实施方式中，所述筛选单元705，配置为将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片，从所述第一图片集合中删除，得到第二图片集合。

在另一实施方式中，所述筛选单元705，配置为由大到小排序所述各组图片对应的聚类中心与参考中心的距离，并确定出距离最大的M组图片，M为正整数；从所述第一图片集合中删除所述M组图片，得到第二图片集合。

本领域技术人员应当理解，图7所示的图片筛选装置中的各单元的实现功能可参照前述图片筛选方法的相关描述而理解。图7所示的图片筛选装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本申请实施例上述装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例还提供一种存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本申请实施例的上述图片筛选方法。

图8为本申请实施例的计算机设备的结构组成示意图，如图8所示，所述计算机设备包括存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机可执行指令，所述处理器802执行所述计算机可执行指令时实现如下方法步骤：

获取第一图片集合；

提取所述第一图片集合中的各个图片的特征向量；

以上涉及计算机设备的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

一种图片筛选方法，所述方法包括：

获取第一图片集合；

提取所述第一图片集合中的各个图片的特征向量；

基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中；

确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离；

基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合。
根据权利要求1所述的图片筛选方法，其中，所述基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中，包括：

对所述第一图片集合中的各个图片的特征向量进行聚类，并基于聚类结果分组所述第一图片集合中的各个图片至分组中。
根据权利要求2所述的图片筛选方法，其中，所述对所述第一图片集合中的各个图片的特征向量进行聚类，并基于聚类结果分组所述第一图片集合中的各个图片至分组中，包括：

设置聚类中心数量；

聚类所述第一图片集合中的各个图片的特征向量；

分组第一图片集合中的各个图片至分组中，其中组的数量与聚类中心的数量相同。
根据权利要求2或3所述的图片筛选方法，其中，所述确定各组图片对应的聚类中心，包括：

基于所述聚类结果，确定各组图片对应的聚类中心。
根据权利要求4所述的图片筛选方法，其中，所述方法还包括：

基于所述各组图片对应的聚类中心，计算所述参考中心。
根据权利要求1所述的图片筛选方法，其中，所述基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合，包括：

将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片，从所述第一图片集合中删除，得到第二图片集合。
根据权利要求1所述的图片筛选方法，其中，所述基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合，包括：

由大到小排序所述各组图片对应的聚类中心与参考中心的距离，并确定出距离最大的M组图片，M为正整数；

从所述第一图片集合中删除所述M组图片，得到第二图片集合。
一种图片筛选装置，所述装置包括：

获取单元，配置为获取第一图片集合；

提取单元，配置为提取所述第一图片集合中的各个图片的特征向量；

分组单元，配置为基于所述第一图片集合中的各个图片的特征向量，分组所述第一图片集合中的各个图片至分组中；

距离确定单元，配置为确定各组图片对应的聚类中心，并确定所述各组图片对应的聚类中心与参考中心的距离；

筛选单元，配置为基于所述各组图片对应的聚类中心与参考中心的距离，从所述第一图片集合中删除满足预设条件的一组或多组图片，得到第二图片集合。
根据权利要求8所述的图片筛选装置，其中，所述分组单元，配置为对所述第一图片集合中的各个图片的特征向量进行聚类，并基于聚类结果分组所述第一图片集合中的各个图片至分组中。
根据权利要求9所述的图片筛选装置，其中，所述分组单元包括：

设置子单元，配置为设置聚类中心数量；

聚类子单元，配置为聚类所述第一图片集合中的各个图片的特征向量；

划分子单元，配置为分组第一图片集合中的各个图片至分组中，其中组的数量与聚类中心的数量相同。
根据权利要求9或10所述的图片筛选装置，其中，所述分组单元，还配置为基于所述聚类结果，确定各组图片对应的聚类中心。
根据权利要求11所述的图片筛选装置，其中，所述装置还包括：

参考中心计算单元，配置为基于所述各组图片对应的聚类中心，计算所述参考中心。
根据权利要求8所述的图片筛选装置，其中，所述筛选单元，配置为将聚类中心相对于所述参考中心的距离大于等于预设阈值的一组或多组图片，从所述第一图片集合中删除，得到第二图片集合。
根据权利要求8所述的图片筛选装置，其中，所述筛选单元，配置为由大到小排序所述各组图片对应的聚类中心与参考中心的距离，并确定出距离最大的M组图片，M为正整数；从所述第一图片集合中删除所述M组图片，得到第二图片集合。
一种存储介质，其上存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令，所述处理器执行所述计算机可执行指令时实现权利要求1-7任一项所述的方法步骤。