CN110942081B

CN110942081B - 图像处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN110942081B
Application number: CN201811120898.0A
Authority: CN
Inventors: 张修宝; 王艳; 沈海峰
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2023-08-18
Anticipated expiration: 2038-09-25
Also published as: CN110942081A

Abstract

本发明实施例提供一种图像处理方法、装置、电子设备及可读存储介质，属于图像处理领域。该方法包括：获取第一类图像集；提取每张所述第一类图像的特征向量；对所述第一类图像集中提取出的所有所述特征向量进行两两相似度计算获得每两个特征向量之间的偏差值；并根据所述特征向量之间的偏差值对所述第一类图像集进行清洗。本方案中，通过获取每张第一类图像的特征向量，然后基于特征向量对两两图像进行两两相似度计算，获得每两个特征向量之间的偏差值，以根据特征向量之间的偏差值对第一类图像集进行清洗，从而可以将第一类图像集中不满足相似度要求的图像剔除，从而避免了这些图像数据的干扰，达到较好的图像清洗的效果。

Description

图像处理方法、装置、电子设备及可读存储介质

技术领域

本发明涉及图像处理领域，具体而言，涉及一种图像处理方法、装置、电子设备及可读存储介质。

背景技术

随着科学技术的发展，深度学习神经网络极大地促进了图像识别技术的发展，使得图像识别技术有了非常广泛的应用。但是神经网络非常依赖于数据，数据量足够并且值得信赖的数据集是神经网络取得好效果的前提。而为了对神经网络进行训练，需先获得大量的样本数据，目前公开的图像数据集大多是网络上收集的图片，质量参差不齐，有些图片可能非常模糊，图像中的特征不明显，有些图片可能被误认，这对于网络的训练十分不利，以致造成训练结果不理想，最后导致对图像进行识别时识别结果不准确的问题。而目前大多采用人工对图像进行清洗的方式，但是在数据量巨大的情况下，显然费时费力，且清洗的结果也不理想。

发明内容

本发明实施例的目的在于提供一种图像处理方法、装置、电子设备及可读存储介质。

第一方面，本发明实施例提供了一种图像处理方法，所述方法包括：

获取第一类图像集，所述第一类图像集包括多张第一类图像；

提取每张所述第一类图像的特征向量；

对所述第一类图像集中提取出的所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值；并

根据所述特征向量之间的偏差值对所述第一类图像集进行清洗。

进一步地，根据所述特征向量之间的偏差值对所述第一类图像集进行清洗，包括：

针对每个特征向量，统计与其偏差值小于等于第一阈值的特征向量的个数；

确定所述个数最大的特征向量为所述第一类图像集的第一基准特征向量；

根据所述第一基准特征向量对所述第一类图像集进行清洗。

进一步地，根据所述第一基准特征向量对所述第一类图像集进行清洗，包括：

确定所述第一类图像集的所有图像的特征向量中与所述第一基准特征向量的偏差值大于所述第一阈值的特征向量，将确定出的特征向量对应的图像从所述第一类图像集中剔除。

确定所述第一类图像集的所有图像的特征向量中，既不与所述第一基准特征向量直接相似也不与所述第一基准特征向量间接相似的特征向量，将确定出的所述特征向量对应的图像从所述第一类图像集中剔除；

其中，与所述第一基准特征向量直接相似指：与所述第一基准特征向量的偏差值小于等于所述第一阈值；与所述第一基准特征向量间接相似指：与所述第一基准特征向量直接相似或间接相似的特征向量的偏差值小于等于所述第一阈值。

若存在两个特征向量的偏差值小于等于第二阈值，则将两个特征向量中的一个对应的图像从所述第一类图像集中剔除，所述第二阈值小于所述第一阈值。

进一步地，根据所述特征向量之间的偏差值对所述第一类图像集进行清洗之后，所述方法还包括：

将所述第一基准特征向量与第二类图像集的第二基准特征向量进行相似度计算，获得第一基准特征向量与所述第二基准特征向量之间的偏差值；

若所述第一基准特征向量与所述第二基准特征向量的偏差值小于第三阈值，则将所述第一类图像集与所述第二类图像集合并为同一图像集。

计算所述第一类图像集的特征向量的第一向量均值、获取的第二类图像集的特征向量的第二向量均值，以及所述第一向量均值与所述第二向量均值之间的偏差值；

若所述第一向量均值与所述第二向量均值的偏差值小于第四阈值，则将所述第一类图像集与所述第二类图像集合并为同一图像集。

进一步地，对所述第一类图像集中提取出的所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值，包括：

计算每两个特征向量的欧式距离或者夹角余弦值，获得每两个特征向量之间的欧式距离或者夹角余弦值，所述欧式距离或者所述夹角余弦值为所述偏差值。

进一步地，获取第一类图像集，所述第一类图像集包括多张第一类图像之前，所述方法还包括：

获取属于第一类图像集的多张图像；

选取出所述多张图像中具有人脸的图像作为多张原始图像；

对所述多张原始图像中的人脸区域进行标准化处理，获得所述多张第一类图像。

进一步地，对所述多张原始图像中的人脸区域进行标准化处理，包括：

若原始图像中包括多个人脸图像，则提取所述原始图像中面积最大的人脸，对所述面积最大的人脸进行标准化处理。

第二方面，本发明实施例提供了一种图像处理装置，所述装置包括：

图像获取模块，用于获取第一类图像集，所述第一类图像集包括多张第一类图像；

特征向量提取模块，用于提取每张所述第一类图像的特征向量；

相似度计算模块，用于对所述第一类图像集中提取出的所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值；

清洗模块，用于根据所述特征向量之间的偏差值对所述第一类图像集进行清洗。

进一步地，所述清洗模块，具体用于针对每个特征向量，统计与其偏差值小于等于第一阈值的特征向量的个数；确定所述个数最大的特征向量为所述第一类图像集的第一基准特征向量；根据所述第一基准特征向量对所述第一类图像集进行清洗。

进一步地，所述清洗模块，还用于确定所述第一类图像集的所有图像的特征向量中与所述第一基准特征向量的偏差值大于所述第一阈值的特征向量，将确定出的特征向量对应的图像从所述第一类图像集中剔除。

进一步地，所述清洗模块，还用于确定所述第一类图像集的所有图像的特征向量中，既不与所述第一基准特征向量直接相似也不与所述第一基准特征向量间接相似的特征向量，将确定出的所述特征向量对应的图像从所述第一类图像集中剔除；

进一步地，所述清洗模块，还用于若存在两个特征向量的偏差值小于等于第二阈值，则将两个特征向量中的一个对应的图像从所述第一类图像集中剔除，所述第二阈值小于所述第一阈值。

进一步地，所述装置还包括：

第一类间清洗模块，用于将所述第一基准特征向量与第二类图像集的第二基准特征向量进行相似度计算，获得第一基准特征向量与所述第二基准特征向量之间的偏差值；若所述第一基准特征向量与所述第二基准特征向量的偏差值小于第三阈值，则将所述第一类图像集与所述第二类图像集合并为同一图像集。

进一步地，所述装置还包括：

第二类间清洗模块，用于计算所述第一类图像集的特征向量的第一向量均值、获取的第二类图像集的特征向量的第二向量均值，以及所述第一向量均值与所述第二向量均值之间的偏差值；若所述第一向量均值与所述第二向量均值的偏差值小于第四阈值，则将所述第一类图像集与所述第二类图像集合并为同一图像集。

进一步地，所述相似度计算模块，具体用于计算每两个特征向量的欧式距离或者夹角余弦值，获得每两个特征向量之间的欧式距离或者夹角余弦值，所述欧式距离或者所述夹角余弦值为所述偏差值。

进一步地，所述装置还包括：

图像处理模块，用于获取属于第一类图像集的多张图像；选取出所述多张图像中具有人脸的图像作为多张原始图像；对所述多张原始图像中的人脸区域进行标准化处理，获得所述多张第一类图像。

进一步地，所述图像处理模块，还用于若原始图像中包括多个人脸图像，则提取所述原始图像中面积最大的人脸，对所述面积最大的人脸进行标准化处理。

第三方面，本发明实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本发明实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本发明实施例提供一种图像处理方法、装置、电子设备及可读存储介质，该方法首先获取第一类图像集，所述第一类图像集包括多张第一类图像，然后提取每张所述第一类图像的特征向量，再对所述第一类图像集中提取出的所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值；并根据所述特征向量之间的偏差值对所述第一类图像集进行清洗。本方案中，通过获取每张第一类图像的特征向量，然后基于特征向量对两两图像进行两两相似度计算，获得每两个特征向量之间的偏差值，以根据特征向量之间的偏差值对第一类图像集进行清洗，从而可以将第一类图像集中不满足相似度要求的图像剔除，从而避免了这些图像数据的干扰，达到较好的图像清洗的效果。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种图像处理方法的流程图；

图2为本发明实施例提供的一种图像处理方法中步骤S130的子步骤流程图；

图3为本发明实施例提供的一种对两个类图像集之间的图像进行筛选的步骤流程示意图；

图4为本发明实施例提供的另一种对两个类图像集之间的图像进行筛选的步骤流程示意图；

图5为本发明实施例提供的一种图像处理装置的结构框图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1为本发明实施例提供的一种图像处理方法的流程图，所述方法包括如下步骤：

步骤S110：获取第一类图像集，所述第一类图像集包括多张第一类图像。

步骤S120：提取每张所述第一类图像的特征向量。

在对图像识别过程中，为了对图像进行准确识别，需要先获得一些清晰且有效的图像，然后对这些图像输入神经网络模型进行训练，从而使得在通过该神经网络模型对图像识别时识别结果更加准确。

在具体的实施例中，为了获得神经网络模型训练的样本数据，则还需先获取属于第一类图像集的多张图像，该多张图像可以是人脸图像，也可以是身体轮廓图像，还可以是颜色特征图像等。

其中，从图像中提取的特征向量可以是对每张第一类图像的人脸数据进行特征提取然后获得的特征向量，特征向量代表这张第一类图像中人脸的特征。

当然，该特征向量还可以是提取图像中的其他特征获得的向量，例如颜色特征向量、纹理特征向量、身体轮廓特征向量等。

其中，第一类图像集可以是在获取了大量的图像后对图像进行特定分类后获得的，例如将一个用户的图像归为一类图像集，即一个类的图像代表一个用户的图像，以此可以获得多个类的图像集，所以该第一类图像集中的多张图像为一个用户的图像。但是在选取某个用户的图像时，某个类的图像集中可能混入了其他用户的图像，或者某个用户的图像在两个类图像集中，或者不同的图像类被划分为同一个类，或者其他不符合要求的图像，例如混入了不清晰图像等，所以还需对这些图像进行筛选。

作为一种可选的实施方式，由于图像识别通常都是通过人脸识别，为了后续对图像进行准确识别，则还需先获取属于第一类图像集的多张图像，然后选取出所述多张图像中具有人脸的图像作为多张原始图像，再对所述多张原始图像中的人脸区域进行标准化，获得所述多张第一类图像。

其中，首先可以从第一类图像集中筛选出人脸图像，即从多张图像中剔除不是人脸的图像，例如风景图像等，但是由于选取出的具有人脸的原始图像中可能人脸的占图像的比例大小不一致，例如，第一张原始图像中的人脸占据的区域很大，第二原始图像中人脸占据的区域很小，所以为了避免在训练时样本不一致导致训练结果不理想，则将多张原始图像中的人脸区域大小进行标准化处理，或者，若一张原始图像中包括有多个人脸图像，则提取所述原始图像中面积最大的人脸，对所述面积最大的人脸进行标准化处理，即对图像进行归一化处理，也就是获得具有相同形式的多张第一类图像，其标准化处理过程可以为：

首先确定需要的图像中的人脸大小，比如100*100，然后根据人脸大小以及人脸五官的位置关系，确定一个五官模板，再将检测到的人脸的五官通过变换矩阵变换到所确定的五官模板上。

所以，使得进行标准化处理后的每张原始图像中的人脸区域大小一致，即使得多张第一类图像中的每张图像的人脸区域大小一致。

需要说明的是，为了对进行图像识别，还可以从多张图像中筛选出具有其他识别特征的图像，例如，具有颜色或者身体轮廓等的图像，本发明实施例以具有人脸的图像进行说明，但是具有其他特征的图像也可以通过本发明实施例提供的方案进行图像清晰，因此，筛选出具有除人脸之外的其他特征的图像，然后进行后续的处理，也在本发明的保护范围之内。

可选地，在上述获得的多张第一类图像均为具有人脸的图像，则对每张第一类图像进行特征向量提取的方式可以为：将每张第一类图像输入至人脸识别模型中，该人脸识别模型可以为现有技术中的各种模型，如sphereface模型、arcface模型等，在人脸识别模型中，可以对每张第一类图像的人脸数据进行特征提取，以获得特征向量，特征向量代表这张第一类图像中人脸的特征。

步骤S130：对所述第一类图像集中提取出的所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值。

本实施例中，在获取到所有第一类图像中每张第一类图像各自的特征向量后，将这些特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值，具体方式可以为：计算每两个特征向量的欧式距离或者夹角余弦值，获得每两个特征向量之间的欧式距离或者夹角余弦值，所述欧式距离或者所述夹角余弦值为所述偏差值。

其中，通过计算每两个特征向量的欧式距离进行相似度计算的过程为：例如，对于两张第一类图像，其中一张第一类图像的特征向量为A＝(1,2,3,4,5)，另一张第一类图像的特征向量为B＝(2,3,5,6,7)，则特征向量A和特征向量B的欧式距离为对于其他的特征向量也可以通过上述方法计算出两个特征向量的欧式距离，然后以此计算出每两个特征向量的欧式距离，然后通过两个特征向量的欧式距离进行后续的相似度对比，该欧式距离可以作为这两个特征向量的偏差值，如特征向量A和特征向量B之间的偏差值为3.74。

通过计算每两个特征向量的夹角余弦值进行相似度计算的过程为：例如，对于两张第一类图像，其中一张第一类图像的特征向量为A＝(1,2,3,4,5)，另一张第一类图像的特征向量为B＝(2,3,5,6,7)，则特征向量A与特征向量B的夹角余弦值为所以，可以通过该计算方法获得每两个特征向量之间的夹角余弦值，然后通过两个特征向量的夹角余弦值进行后续的相似度对比，该夹角余弦值可以作为这两个特征向量之间的偏差值，如特征向量A和特征向量B之间的偏差值为0.997。

其中，若两个特征向量之间的欧式距离或者夹角余弦值越小，则表征这两个特征向量对应的两张第一类图像之间的相似度越高。

步骤S140：根据所述特征向量之间的偏差值对所述第一类图像集进行清洗。

其中，上述的欧式距离或夹角余弦值可以作为两个特征向量之间的偏差值。若两个特征向量之间的欧式距离或夹角余弦值越小，表明这两个特征向量对应的两张第一类图像越相似，所以，可以根据每两个特征向量之间的偏差值对第一类图像集进行清洗，如将相似度不高的图像剔除。

其中，判断两张图像是否相似的方式可以为：若两张图像对应的两个特征向量的欧式距离小于或等于第一预设阈值，或者其两个特征向量的夹角余弦值小于或等于第二预设阈值，则这两张图像为相似图像，若两张图像对应的两个特征向量的欧式距离大于第一预设阈值，或者其两个特征向量的夹角余弦值大于第二预设阈值，则这两张图像为不相似图像。

另外，作为一种可选的实施方式，请参照图2，根据特征向量之间的偏差值对第一类图像集进行清洗的方式还可以为：步骤S131：针对每个特征向量，统计与其偏差值小于等于第一阈值的特征向量的个数，步骤S132：确定所述个数最大的特征向量为所述第一类图像集的第一基准特征向量，步骤S133：根据所述第一基准特征向量对所述第一类图像集进行清洗。

其中，通过上述计算出的每两个特征向量的欧式距离或者夹角余弦值来对特征向量进行统计，例如，若利用欧式距离来进行相似度计算，针对每个特征向量，统计与该特征向量的欧式距离小于等于第一阈值的特征向量的个数，假如目前有四个特征向量A、B、C、D，对于特征向量A，分别计算特征向量A与特征向量B、特征向量A与特征向量C、特征向量A与特征向量D之间的欧式距离，如若特征向量A与特征向量B的欧式距离为2，特征向量A与特征向量C的欧式距离为3，特征向量A与特征向量D的欧式距离为4，若第一阈值为5，则与特征向量A的欧式距离小于5的特征向量的个数为3。对于特征向量B，也按照上述方式获得其他特征向量与特征向量B的欧式距离，然后统计出与特征向量B的欧式距离小于等于第一阈值的特征向量的个数，例如个数为2，然后对于特征向量C和D，也按照上述方法进行统计，若统计出与特征向量C的欧式距离小于等于第一阈值的特征向量的个数为1，与特征向量D的欧式距离小于等于第一阈值的特征向量的个数为0，则确定个数最大的特征向量A为第一基准特征向量。

当然，利用夹角余弦值进行相似度计算，获得第一基准特征向量的方式和上述一致，为了描述的简洁，在此不做过多说明。

其中，利用欧式距离或者夹角余弦值进行相似度计算时，第一阈值的取值可以不一致，例如利用欧式距离进行相似度计算时，第一阈值可设置为5，在利用夹角余弦值进行相似度计算时，第一阈值可以为0.5，对于第一阈值具体的值可以根据需求自行设定，本发明实施例对此不做特别限制。

作为一种实施方式，根据所述第一基准特征向量对所述第一类图像集进行清洗的方式可以为：确定所述第一类图像集的所有图像的特征向量中与所述第一基准特征向量的偏差值大于所述第一阈值的特征向量，将确定出的特征向量对应的图像从所述第一类图像集中剔除。

可以理解地，例如，对于上述获得的第一基准特征向量A，若特征向量E与第一基准特征向量A的欧式距离大于第一阈值，如特征向量E与第一基准特征向量A的欧式距离为6，第一阈值为5，则表明特征向量E对应的图像与第一基准特征向量A对应的图像的相似度不高，则可将特征向量E对应的图像从第一类图像集中剔除。

当然，与第一基准特征向量的偏差值大于所述第一阈值的特征向量还可以理解为：计算某个特征向量与第一基准特征向量的夹角余弦值，若该特征向量与第一基准特征向量的夹角余弦值大于第一阈值时，则表明该特征向量与第一基准特征向量的偏差值大于所述第一阈值。

可以理解地，获得的第一基准特征向量由于是个数最多的特征向量，所述该第一基准特征向量对应的图像的数量最多，则该图像是第一类图像集中与其他图像具有最大的相似度的图像，则可将该图像及与该图像的相似度大的图像保留，将与该图像的相似度小的图像剔除。

另外，作为一种实施方式，根据所述第一基准特征向量对所述第一类图像集进行清洗的方式还可以为：确定所述第一类图像集的所有图像的特征向量中，既不与所述第一基准向量直接相似也不与所述第一基准特征向量间接相似的特征向量，将确定出的所述特征向量对应的图像从所述第一类图像集中剔除。

可以理解的，例如，第一基准特征向量为A，与特征向量A相似的特征向量为B、D，即特征向量B、D与特征向量A的偏差值小于第一阈值；与特征向量B相似的特征向量为C；与特征向量C相似的特征向量为B；与特征向量D相似的特征向量为B；与特征向量E相似的特征向量为F；则与特征向量A直接相似的特征向量是B和D，因为特征向量B与特征向量C相似，所以特征向量A与特征向量D间接相似，而特征向量E与特征向量F既不与特征向量A直接相似也不间接相似。所以，可将特征向量E和特征向量F对应的两张图像从第一类图像集中剔除。

另外，为了对存在有重复的图像进行筛选，在进行上述两个特征向量进行相似度计算过程中，若存在两个特征向量的偏差值小于等于第二阈值，在将两个特征向量中的其中一个对应的图像从所述第一类图像集中剔除。

例如，若特征向量A和特征向量B的欧式距离为1，即特征向量A和特征向量B之间的偏差值为1，若第二阈值为2，则表明该特征向量A和特征向量B的偏差值小于等于第二阈值，即特征向量A对应的图像与特征向量B对应的图像很可能是重复的图像，则可将特征向量A对应的图像从第一类图像集中剔除，或者将特征向量B对应的图像从第一类图像集中剔除。

需要说明的是，若判断两张图像为重复的图像，则其相似度肯定很高，所以第二阈值的值可以设置得相对第一阈值小，例如，若是两张重复的图像，则这两张照片对应的特征向量之间的欧式距离很小，如欧式距离为0.2，此时若该欧式距离小于等于第二阈值0.3，表示这两个特征向量的偏差值小于第二阈值；若这两张照片只是相似，则这两张照片对应的特征向量之间的欧式距离比较大，如欧式距离为3，此时若该欧式距离小于等于第一阈值为5，表示这两个特征向量的偏差值小于等于第一阈值5，在此种情况下第二阈值小于第一阈值。

当然，还可通过计算两个特征向量之间的夹角余弦值来判断两张特征向量之间的偏差值是否小于等于第二阈值，为了描述的简洁，在此不再过多赘述。

作为另一种实施方式，若某个用户的图像被分类到不同的类图像集中，如同一个用户的图像分为了两个类图像集，则为了对该用户的图像进行筛选，还可判断这两个类图像集中的图像是否是相似图像，即是否为同一个用户的图像，则对于第二类图像集，可按照上述方法计算出第二类图像集的第二基准特征向量，在此不再过多赘述。

请参照图3，对于两个类图像集之间的图像进行筛选的方式可以包括如下步骤：步骤S150a：将所述第一基准特征向量与第二类图像集的第二基准特征向量进行相似度计算，获得第一基准特征向量与所述第二基准特征向量之间的偏差值，步骤S160a：若所述第一基准特征向量与所述第二基准特征向量的偏差值小于第三阈值，则将所述第一类图像集与所述第二图像集合并为同一图像集。

例如，第一基准特征向量为A1，第二基准特征向量为A2，则可计算A1与A2之间的欧式距离或者夹角余弦值来进行相似度计算，如A1与A2之间的欧式距离小于第三阈值时，表示该两个类图像集中的图像具有很大的相似性，属于同一个用户的图像，则将这两个类图像集进行合并。

另外，作为一种实施方式，请参照图4，对于两个类图像集之间的图像进行筛选的方式还可以包括如下步骤：步骤S150b：计算所述第一类图像集的特征向量的第一向量均值、获取的第二类图像集的特征向量的第二向量均值，以及所述第一向量均值与所述第二向量均值之间的偏差值；步骤S160b：若所述第一向量均值与所述第二向量均值的偏差值小于第四阈值，则将所述第一类图像集与所述第二类图像集合并为同一图像集。

例如，对于第一类图像集中的特征向量A＝(1,2,3)、特征向量B＝(3,5,6)、特征向量C＝(7,8,9)，通过公式(A+B+C)/3算出这三个特征向量的第一向量均值为(1+3+7，2+5+8，3+6+9)/3＝(3.7，5，6)，对于第二类图像中的特征向量D＝(2,4,8)和特征向量E＝(5,9,11)，通过上述公式计算出这两个特征向量的第二向量均值为(3.5,6.5,9.5)，若第四阈值为4，,若计算出第一向量均值与第二向量均值的偏差值(如欧式距离)为3.8，则第一向量均值与第二向量均值之间的偏差值小于第四阈值，则表示第一类图像集与第二类图像集相似，则将两个类图像集合并。

作为一种可选的实施方式，对于图像的清洗，可以先对两个图像集各自进行集合内清洗，然后，进行图像集的类间清洗，即判断两类图像集是否相似，相似度较大时，将这两个类图像集进行合并。合并之后，还可以再次对合并后的图像集进行集合内清洗，包括上述的剔除集合内重复的图像以及筛选出不相似的图像等清洗方式。

作为另一种可选的实施方式，对于图像的清洗，还可以是先对两个图像集进行类间清洗，然后再进行类内清洗，即在判断这两个图像集相似度较大时，将这两个类图像集进行合并，然后对合并后的图像集进行类内的清洗，例如，先获得两个图像集，如第一类图像集和第二类图像集，再计算第一类图像集的特征向量的第一向量均值以及第二类图像集的特征向量的第二向量均值，然后在计算所述第一向量均值与所述第二向量均值之间的偏差值，若所述第一向量均值与所述第二向量均值的偏差值小于预设阈值，则将所述第一类图像集与所述第二类图像集合并为同一图像集，然后可再对这同一图像集进行类内清洗，如上述的包括上述的剔除集合内重复的图像以及筛选出不相似的图像等清洗方式。该方案中，可以先进行类间清洗，再进行类内清洗，不仅可将不满足相似度要求的图像剔除，避免这些图像数据的干扰，还可减少清洗的工作量。

请参照图5，图5为本发明实施例提供的一种图像处理装置200的结构框图，所述装置包括：

图像获取模块210，用于获取第一类图像集，所述第一类图像集包括多张第一类图像；

特征向量提取模块220，用于提取每张所述第一类图像的特征向量；

相似度计算模块230，用于对所述第一类图像集中提取出的所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值；

清洗模块240，用于根据所述特征向量之间的偏差值对所述第一类图像集进行清洗。

进一步地，所述清洗模块240，具体用于针对每个特征向量，统计与其偏差值小于等于第一阈值的特征向量的个数；确定所述个数最大的特征向量为所述第一类图像集的第一基准特征向量；根据所述第一基准特征向量对所述第一类图像集进行清洗。

进一步地，所述清洗模块240，还用于确定所述第一类图像集的所有图像的特征向量中与所述第一基准特征向量的偏差值大于所述第一阈值的特征向量，将确定出的特征向量对应的图像从所述第一类图像集中剔除。

进一步地，所述清洗模块240，还用于确定所述第一类图像集的所有图像的特征向量中，既不与所述第一基准特征向量直接相似也不与所述第一基准特征向量间接相似的特征向量，将确定出的所述特征向量对应的图像从所述第一类图像集中剔除；

进一步地，所述清洗模块240，还用于若存在两个特征向量的偏差值小于等于第二阈值，则将两个特征向量中的一个对应的图像从所述第一类图像集中剔除，所述第二阈值大于所述第一阈值。

进一步地，所述装置还包括：

进一步地，所述相似度计算模块230，具体用于计算每两个特征向量的欧式距离或者夹角余弦值，获得每两个特征向量之间的欧式距离或者夹角余弦值，所述欧式距离或者所述夹角余弦值为所述偏差值。

进一步地，所述装置还包括：

请参照图6，图6为本申请实施例提供的一种电子设备的一种结构示意图，所述电子设备可以包括：至少一个处理器110，例如CPU，至少一个通信接口120，至少一个存储器130和至少一个通信总线140。其中，通信总线140用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器110执行时，电子设备执行上述图1所示方法过程。

本申请实施例提供一种可读取存储介质，所述计算机程序被处理器执行时，执行如图1所示方法实施例中电子设备所执行的方法过程。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上所述，本发明实施例提供一种图像处理方法、装置、电子设备及可读存储介质，该方法首先获取第一类图像集，所述第一类图像集包括多张第一类图像，然后提取每张所述第一类图像的特征向量，再对所述第一类图像集中提取出的所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值；并根据所述特征向量之间的偏差值对所述第一类图像集进行清洗。本方案中，通过获取每张第一类图像的特征向量，然后基于特征向量对两两图像进行两两相似度计算，获得每两个特征向量之间的偏差值，以根据特征向量之间的偏差值对第一类图像集进行清洗，从而可以将第一类图像集中不满足相似度要求的图像剔除，从而避免了这些图像数据的干扰，达到较好的图像清洗的效果。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取第一类图像集和第二类图像集，所述第一类图像集包括多张第一类图像；

若所述第一类图像集和所述第二类图像集的相似度满足预设条件，则将所述第一类图像集与所述第二类图像集合并为同一图像集；

提取合并后的图像集中每张图像的特征向量；

对所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值；所述偏差值用于表征每两个特征向量之间的相似度；并

根据所述特征向量之间的偏差值对所述合并后的图像集进行清洗，以剔除集合内重复的图像，并筛选出不相似的图像。

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征向量之间的偏差值对所述合并后的图像集进行清洗，包括：

确定所述个数最大的特征向量为所述合并后的图像集的基准特征向量；

根据所述基准特征向量对所述合并后的图像集进行清洗。

3.根据权利要求2所述的方法，其特征在于，根据所述基准特征向量对所述合并后的图像集进行清洗，包括：

确定所述合并后的图像集的所有图像的特征向量中与所述基准特征向量的偏差值大于所述第一阈值的特征向量，将确定出的特征向量对应的图像从所述合并后的图像集中剔除。

4.根据权利要求2所述的方法，其特征在于，根据所述基准特征向量对所述合并后的图像集进行清洗，包括：

确定所述合并后的图像集的所有图像的特征向量中，既不与所述基准特征向量直接相似也不与所述基准特征向量间接相似的特征向量，将确定出的所述特征向量对应的图像从所述合并后的图像集中剔除；

其中，与所述基准特征向量直接相似指：与所述基准特征向量的偏差值小于等于所述第一阈值；与所述基准特征向量间接相似指：与所述基准特征向量直接相似或间接相似的特征向量的偏差值小于等于所述第一阈值。

5.根据权利要求2至4任一项所述的方法，其特征在于，根据所述特征向量之间的偏差值对所述合并后的图像集进行清洗，还包括：

若存在两个特征向量的偏差值小于等于第二阈值，则将两个特征向量中的一个对应的图像从所述合并后的图像集中剔除，所述第二阈值小于所述第一阈值。

6.根据权利要求1所述的方法，其特征在于，所述若所述第一类图像集和所述第二类图像集的相似度满足预设条件，则将所述第一类图像集与所述第二类图像集合并为同一图像集，包括：

将所述第一类图像集的第一基准特征向量与第二类图像集的第二基准特征向量进行相似度计算，获得第一基准特征向量与所述第二基准特征向量之间的偏差值；

7.根据权利要求1所述的方法，其特征在于，所述若所述第一类图像集和所述第二类图像集的相似度满足预设条件，则将所述第一类图像集与所述第二类图像集合并为同一图像集，包括：

8.根据权利要求1-4任一项所述的方法，其特征在于，对所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值，包括：

计算每两个特征向量的欧式距离或者夹角余弦值，获得每两个特征向量之间的欧式距离或者夹角余弦值，所述偏差值为所述欧式距离或者所述夹角余弦值。

9.根据权利要求1-4任一项所述的方法，其特征在于，获取第一类图像集之前，所述方法还包括：

获取属于第一类图像集的多张图像；

选取出所述多张图像中具有人脸的图像作为多张原始图像；

10.根据权利要求9所述的方法，其特征在于，对所述多张原始图像中的人脸区域进行标准化处理，包括：

11.一种图像处理装置，其特征在于，所述装置包括：

图像获取模块，用于获取第一类图像集和第二类图像集，所述第一类图像集包括多张第一类图像；

类间清洗模块，用于若所述第一类图像集和所述第二类图像集的相似度满足预设条件，则将所述第一类图像集与所述第二类图像集合并为同一图像集；

特征向量提取模块，用于提取合并后的图像集中每张图像的特征向量；

相似度计算模块，用于对所有所述特征向量进行两两相似度计算，获得每两个特征向量之间的偏差值；所述偏差值用于表征每两个特征向量之间的相似度；

清洗模块，用于根据所述特征向量之间的偏差值对所述合并后的图像集进行清洗，以剔除集合内重复的图像，并筛选出不相似的图像。

12.根据权利要求11所述的装置，其特征在于，所述清洗模块，具体用于针对每个特征向量，统计与其偏差值小于等于第一阈值的特征向量的个数；确定所述个数最大的特征向量为所述合并后的图像集的基准特征向量；根据所述基准特征向量对所述合并后的图像集进行清洗。

13.根据权利要求12所述的装置，其特征在于，所述清洗模块，还用于确定所述合并后的图像集的所有图像的特征向量中与所述基准特征向量的偏差值大于所述第一阈值的特征向量，将确定出的特征向量对应的图像从所述合并后的图像集中剔除。

14.根据权利要求12所述的装置，其特征在于，所述清洗模块，还用于确定所述合并后的图像集的所有图像的特征向量中，既不与所述基准特征向量直接相似也不与所述基准特征向量间接相似的特征向量，将确定出的所述特征向量对应的图像从所述合并后的图像集中剔除；

15.根据权利要求12-14任一项所述的装置，其特征在于，所述清洗模块，还用于若存在两个特征向量的偏差值小于等于第二阈值，则将两个特征向量中的一个对应的图像从所述合并后的图像集中剔除，所述第二阈值小于所述第一阈值。

16.根据权利要求11所述的装置，其特征在于，所述类间清洗模块具体用于：

将所述第一类图像集的第一基准特征向量与第二类图像集的第二基准特征向量进行相似度计算，获得第一基准特征向量与所述第二基准特征向量之间的偏差值；若所述第一基准特征向量与所述第二基准特征向量的偏差值小于第三阈值，则将所述第一类图像集与所述第二类图像集合并为同一图像集。

17.根据权利要求11所述的装置，其特征在于，所述类间清洗模块具体用于：

计算所述第一类图像集的特征向量的第一向量均值、获取的第二类图像集的特征向量的第二向量均值，以及所述第一向量均值与所述第二向量均值之间的偏差值；若所述第一向量均值与所述第二向量均值的偏差值小于第四阈值，则将所述第一类图像集与所述第二类图像集合并为同一图像集。

18.根据权利要求11-14任一项所述的装置，其特征在于，所述相似度计算模块，具体用于计算每两个特征向量的欧式距离或者夹角余弦值，获得每两个特征向量之间的欧式距离或者夹角余弦值，所述偏差值为所述欧式距离或者所述夹角余弦值。

19.根据权利要求11-14任一项所述的装置，其特征在于，所述装置还包括：

20.根据权利要求19所述的装置，其特征在于，所述图像处理模块，还用于若原始图像中包括多个人脸图像，则提取所述原始图像中面积最大的人脸，对所述面积最大的人脸进行标准化处理。

21.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-10任一所述方法中的步骤。

22.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-10任一所述方法中的步骤。