CN110147851B

CN110147851B - 图像筛选方法、装置、计算机设备及存储介质

Info

Publication number: CN110147851B
Application number: CN201910457186.6A
Authority: CN
Inventors: 张志伟; 闫瑞; 杨德兴
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2022-04-01
Anticipated expiration: 2039-05-29
Also published as: CN110147851A

Abstract

本公开关于一种图像筛选方法、装置、计算机设备及存储介质，属于机器学习技术领域。本公开能够从用户点击行为层面对多个第一图像进行初步筛选，由于用户点击行为通常与人眼视觉的特征具有相关性，因此筛选得到的第二图像可以表示人眼视觉层面的筛选结果，进一步地，从计算机视觉层面对多个第二图像进行进一步筛选，不增加人力成本的基础上大大提升了机器在进行图像筛选的智能性，增加了筛选出的第三图像的种类，丰富了第三图像的多样性。

Description

图像筛选方法、装置、计算机设备及存储介质

技术领域

本公开涉及机器学习技术领域，尤其涉及一种图像筛选方法、装置、计算机设备及存储介质。

背景技术

相关技术中，深度学习在自然语言处理、文本翻译等领域得到广泛应用，由于深度学习模型的准确度依赖于训练数据的多样性，当训练数据的种类越多时，深度学习模型的泛化能力就越好。

以用于图像分类模型为例，在筛选图像分类模型的训练图像时，通常会从计算机视觉的角度，对噪声图像库中海量的噪声图像进行筛选，以获取多个难以分辨(也即是图像分类模型难以进行分类)的“困难样本”，例如，该困难样本可以是背景复杂的图像、物体较小的图像等，由技术人员对该多个困难样本进行人工标注，得到多个标注图像，在从多个标注图像中筛选得到该图像分类模型的多个训练图像。

在上述过程中，在对噪声图像库进行筛选时，仅能够筛选出计算机视觉角度上难以分辨的困难样本，而由于人眼视觉角度的困难样本与计算机视觉角度的困难样本不尽相同，也即是机器在筛选图像时智能性差，使得上述过程筛选得到的困难样本的种类不够丰富，也就使得训练图像的多样性不够高，而由于投入更多的人力来筛选困难样本以提升训练图像多样性会大大增加图像筛选的人力成本，因此，如何在不投入额外人力成本的基础上提升机器筛选图像的智能性成为一个亟需解决的问题。

发明内容

本公开提供一种图像筛选方法、装置、计算机设备及存储介质，以至少解决相关技术中机器在图像筛选时智能性差，导致筛选得到的图像种类不够丰富、图像多样性不高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像筛选方法，包括：

根据多个第一图像的用户点击数据，获取所述多个第一图像的点击行为特征；

根据所述多个第一图像的点击行为特征，从所述多个第一图像中筛选得到多个第二图像，所述多个第二图像的点击行为特征符合第一目标条件；

根据所述多个第二图像的图像特征，从所述多个第二图像中筛选得到至少一个第三图像，所述至少一个第三图像的图像特征符合第二目标条件。

在一种可能实施方式中，所述根据多个第一图像的用户点击数据，获取所述多个第一图像的点击行为特征包括：

根据所述多个第一图像的用户点击数据，对行为分析模型进行迭代训练；

当所述行为分析模型的损失函数值小于第一目标阈值或迭代次数到达目标次数时，得到所述多个第一图像的点击行为特征。

在一种可能实施方式中，所述根据所述多个第一图像的用户点击数据，对行为分析模型进行迭代训练包括：

在每次迭代过程中，将所述多个第一图像的用户点击数据输入所述行为分析模型，通过所述行为分析模型提取所述多个第一图像的点击行为特征，基于所述多个第一图像的点击行为特征获取所述行为分析模型的损失函数值。

在一种可能实施方式中，所述将所述多个第一图像的用户点击数据输入所述行为分析模型，通过所述行为分析模型提取所述多个第一图像的点击行为特征，基于所述多个第一图像的点击行为特征获取所述行为分析模型的损失函数值包括：

将所述多个第一图像的用户点击数据输入所述行为分析模型的宽度部分，通过所述行为分析模型的宽度部分，对所述多个第一图像的用户点击数据进行线性处理，得到所述多个第一图像的宽度特征；

将所述多个第一图像的用户点击数据输入所述行为分析模型的深度部分，通过所述行为分析模型的深度部分，对所述多个第一图像的用户点击数据进行嵌入处理，得到所述多个第一图像的点击行为特征，对所述多个第一图像的点击行为特征进行卷积处理，得到所述多个第一图像的深度特征；

根据所述多个第一图像的宽度特征和所述多个第一图像的深度特征，获取所述行为分析模型的损失函数值。

在一种可能实施方式中，所述根据所述多个第一图像的点击行为特征，从所述多个第一图像中筛选得到多个第二图像包括：

根据所述多个第一图像的点击行为特征，对所述多个第一图像进行聚类处理，得到多个聚类集合，每个聚类集合中包括至少一个第一图像；

对每个聚类集合，获取所述聚类集合中至少一个第一图像到所述聚类集合的聚类中心的平均距离；

将平均距离大于或等于第二目标阈值的至少一个聚类集合确定为所述多个第二图像。

在一种可能实施方式中，所述根据所述多个第二图像的图像特征，从所述多个第二图像中筛选得到至少一个第三图像包括：

将所述多个第二图像输入分类模型，通过所述分类模型提取所述多个第二图像的图像特征，基于所述多个第二图像的图像特征，获取所述多个第二图像的类别标签；

根据所述多个第二图像的类别标签对所述多个第二图像进行筛选，得到所述至少一个第三图像。

在一种可能实施方式中，所述根据所述多个第二图像的类别标签对所述多个第二图像进行筛选，得到所述至少一个第三图像包括：

按照所述多个第二图像所属的至少一个聚类集合，获取所述至少一个聚类集合对应的至少一个类别标签所占的标签比例；

当所述至少一个聚类集合中存在标签比例大于或等于第三目标阈值的至少一个目标聚类集合时，将所述至少一个目标聚类集合确定为所述至少一个第三图像。

在一种可能实施方式中，所述方法还包括：

对每个第三图像，将所述第三图像所属的聚类集合中最大标签比例对应的类别标签确定为所述第三图像的类别标签。

根据本公开实施例的第二方面，提供一种图像筛选装置，包括：

获取单元，被配置为执行根据多个第一图像的用户点击数据，获取所述多个第一图像的点击行为特征；

第一筛选单元，被配置为执行根据所述多个第一图像的点击行为特征，从所述多个第一图像中筛选得到多个第二图像，所述多个第二图像的点击行为特征符合第一目标条件；

第二筛选单元，被配置为执行根据所述多个第二图像的图像特征，从所述多个第二图像中筛选得到至少一个第三图像，所述至少一个第三图像的图像特征符合第二目标条件。

在一种可能实施方式中，所述获取单元包括：

训练子单元，被配置为执行根据所述多个第一图像的用户点击数据，对行为分析模型进行迭代训练；

得到子单元，被配置为执行当所述行为分析模型的损失函数值小于第一目标阈值或迭代次数到达目标次数时，得到所述多个第一图像的点击行为特征。

在一种可能实施方式中，所述训练子单元被配置为执行：

在一种可能实施方式中，所述第一筛选单元被配置为执行：

在一种可能实施方式中，所述第二筛选单元包括：

获取子单元，被配置为执行将所述多个第二图像输入分类模型，通过所述分类模型提取所述多个第二图像的图像特征，基于所述多个第二图像的图像特征，获取所述多个第二图像的类别标签；

筛选子单元，被配置为执行根据所述多个第二图像的类别标签对所述多个第二图像进行筛选，得到所述至少一个第三图像。

在一种可能实施方式中，所述筛选子单元被配置为执行：

在一种可能实施方式中，所述装置还包括：

根据本公开实施例的第三方面，提供一种计算机设备，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行：

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时，使得计算机设备能够执行一种图像筛选方法，所述方法包括：

根据本公开实施例的第五方面，提供一种计算机程序产品，包括一条或多条指令，所述一条或多条指令可以由计算机设备的一个或多个处理器执行，使得计算机设备能够执行一种图像筛选方法，所述方法包括：

本公开的实施例提供的技术方案至少带来以下有益效果：

通过多个第一图像的用户点击数据，获取该多个第一图像的点击行为特征，根据该多个第一图像的点击行为特征，从该多个第一图像中筛选得到多个第二图像，该多个第二图像的点击行为特征符合第一目标条件，从而能够从用户点击行为层面对多个第一图像进行初步筛选，由于用户点击行为通常与人眼视觉的特征具有相关性，因此筛选得到的第二图像可以表示人眼视觉层面的筛选结果，根据该多个第二图像的图像特征，从该多个第二图像中筛选得到至少一个第三图像，该至少一个第三图像的图像特征符合第二目标条件，能够在计算机视觉层面对多个第二图像进行进一步筛选，分别在点击行为层面和计算机视觉层面实现自动地图像筛选，从而在不增加人力成本的基础上大大提升了机器在进行图像筛选的智能性，增加了筛选出的第三图像的种类，丰富了第三图像的多样性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像筛选方法的流程图。

图2是根据一示例性实施例示出的一种图像筛选方法的流程图。

图3是根据一示例性实施例示出的一种行为分析模型的示意图。

图4是根据一示例性实施例示出的一种图像筛选装置的逻辑结构框图。

图5是根据一示例性实施例示出的一种计算机设备的逻辑结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种图像筛选方法的流程图，如图1所示，图像筛选方法用于计算机设备中，下面以计算机设备为服务器为例进行说明，该图像筛选方法包括以下步骤：

在步骤101中，服务器根据多个第一图像的用户点击数据，获取该多个第一图像的点击行为特征。

在步骤102中，服务器根据该多个第一图像的点击行为特征，从该多个第一图像中筛选得到多个第二图像，该多个第二图像的点击行为特征符合第一目标条件。

在步骤103中，服务器根据该多个第二图像的图像特征，从该多个第二图像中筛选得到至少一个第三图像，该至少一个第三图像的图像特征符合第二目标条件。

本公开实施例提供的方法，通过多个第一图像的用户点击数据，获取该多个第一图像的点击行为特征，根据该多个第一图像的点击行为特征，从该多个第一图像中筛选得到多个第二图像，该多个第二图像的点击行为特征符合第一目标条件，从而能够从用户点击行为层面对多个第一图像进行初步筛选，由于用户点击行为通常与人眼视觉的特征具有相关性，因此筛选得到的第二图像可以表示人眼视觉层面的筛选结果，根据该多个第二图像的图像特征，从该多个第二图像中筛选得到至少一个第三图像，该至少一个第三图像的图像特征符合第二目标条件，能够在计算机视觉层面对多个第二图像进行进一步筛选，分别在点击行为层面和计算机视觉层面实现自动地图像筛选，从而在不增加人力成本的基础上大大提升了机器在进行图像筛选的智能性，增加了筛选出的第三图像的种类，丰富了第三图像的多样性。

在一种可能实施方式中，根据多个第一图像的用户点击数据，获取该多个第一图像的点击行为特征包括：

根据该多个第一图像的用户点击数据，对行为分析模型进行迭代训练；

当该行为分析模型的损失函数值小于第一目标阈值或迭代次数到达目标次数时，得到该多个第一图像的点击行为特征。

在一种可能实施方式中，根据该多个第一图像的用户点击数据，对行为分析模型进行迭代训练包括：

在每次迭代过程中，将该多个第一图像的用户点击数据输入该行为分析模型，通过该行为分析模型提取该多个第一图像的点击行为特征，基于该多个第一图像的点击行为特征获取该行为分析模型的损失函数值。

在一种可能实施方式中，将该多个第一图像的用户点击数据输入该行为分析模型，通过该行为分析模型提取该多个第一图像的点击行为特征，基于该多个第一图像的点击行为特征获取该行为分析模型的损失函数值包括：

将该多个第一图像的用户点击数据输入该行为分析模型的宽度部分，通过该行为分析模型的宽度部分，对该多个第一图像的用户点击数据进行线性处理，得到该多个第一图像的宽度特征；

将该多个第一图像的用户点击数据输入该行为分析模型的深度部分，通过该行为分析模型的深度部分，对该多个第一图像的用户点击数据进行嵌入处理，得到该多个第一图像的点击行为特征，对该多个第一图像的点击行为特征进行卷积处理，得到该多个第一图像的深度特征；

根据该多个第一图像的宽度特征和该多个第一图像的深度特征，获取该行为分析模型的损失函数值。

在一种可能实施方式中，根据该多个第一图像的点击行为特征，从该多个第一图像中筛选得到多个第二图像包括：

根据该多个第一图像的点击行为特征，对该多个第一图像进行聚类处理，得到多个聚类集合，每个聚类集合中包括至少一个第一图像；

对每个聚类集合，获取该聚类集合中至少一个第一图像到该聚类集合的聚类中心的平均距离；

将平均距离大于或等于第二目标阈值的至少一个聚类集合确定为该多个第二图像。

在一种可能实施方式中，根据该多个第二图像的图像特征，从该多个第二图像中筛选得到至少一个第三图像包括：

将该多个第二图像输入分类模型，通过该分类模型提取该多个第二图像的图像特征，基于该多个第二图像的图像特征，获取该多个第二图像的类别标签；

根据该多个第二图像的类别标签对该多个第二图像进行筛选，得到该至少一个第三图像。

在一种可能实施方式中，根据该多个第二图像的类别标签对该多个第二图像进行筛选，得到该至少一个第三图像包括：

按照该多个第二图像所属的至少一个聚类集合，获取该至少一个聚类集合对应的至少一个类别标签所占的标签比例；

当该至少一个聚类集合中存在标签比例大于或等于第三目标阈值的至少一个目标聚类集合时，将该至少一个目标聚类集合确定为该至少一个第三图像。

在一种可能实施方式中，该方法还包括：

对每个第三图像，将该第三图像所属的聚类集合中最大标签比例对应的类别标签确定为该第三图像的类别标签。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是根据一示例性实施例示出的一种图像筛选方法的流程图，如图2所示，图像筛选方法用于计算机设备中，下面以计算机设备为服务器为例进行说明，该图像筛选方法包括以下步骤：

在步骤201中，服务器根据多个第一图像的用户点击数据，对行为分析模型进行迭代训练。

其中，该服务器可以任一能够提供图像筛选服务的计算机设备，该第一图像可以是任一图像，例如该第一图像可以是人像、动物图像、植物图像、卡通图像、生物医学图像等，该第一图像可以是存储在本地数据库中的图像，也可以是从云端下载的图像，本公开实施例不对该第一图像的内容和获取方式进行具体限定。

其中，该用户点击数据用于表示与用户对图像的点击行为具有关联关系的数据，例如，该用户点击数据可以包括用户数据或者点击数据中的至少一项，例如该用户数据可以为用户年龄、用户性别、用户所在地域、用户职业等，例如该点击数据可以为点击日期、点击时间、曝光时长等，本公开实施例不对该用户点击数据的内容进行具体限定。

在一些实施例中，该行为分析模型用于分析图像的点击行为，该行为分析模型可以是任一CTR(click-through rate，点击率)预估模型，例如，该CTR预估模型可以是LR(logistics regression，逻辑回归)模型，GBDT(gradient boost decision tree，梯度提升决策树)模型，FM(factorization machine，因子分解机)模型，FFM(field-awarefactorization machine，场感知分解机)模型，或者WDL(wide and deep learning)模型等。

在上述步骤201中，服务器可以在每次迭代过程中，将多个第一图像的用户点击数据输入行为分析模型，通过该行为分析模型提取该多个第一图像的点击行为特征，基于该多个第一图像的点击行为特征获取该行为分析模型的损失函数值，当损失函数值小于第一目标阈值或迭代次数达到目标次数时，执行下述步骤202，得到对用户点击数据的表达能力更准确的点击行为特征。

在上述过程中，服务器在对行为分析模型进行训练的过程中，不但可以训练得到一个行为分析模型，而且可以训练得到各个第一图像的点击行为特征，一方面，服务器可以将得到的行为分析模型可以投入到下游的用户点击行为分析任务中，以预测图像的点击率，另一方面，服务器基于得到的多个第一图像的点击行为特征，可以对第一图像进行筛选，在下述步骤203-205中进行详述。

下面将以该行为分析模型为WDL模型为例，对WDL模型的任一次迭代过程进行说明，图3是根据一示例性实施例示出的一种行为分析模型的示意图，参见图3，该WDL模型包括一个宽度部分和一个深度部分，服务器可以迭代执行下述步骤2011-2013：

2011、服务器将多个第一图像的用户点击数据输入行为分析模型的宽度部分，通过该行为分析模型的宽度部分，对该多个第一图像的用户点击数据进行线性处理，得到该多个第一图像的宽度特征。

可选地，该宽度部分用于对用户点击数据进行广义线性处理，例如，该宽度部分可以是一个LR模型。

在上述步骤2011中，对任一第一图像而言，服务器可以对该第一图像的用户点击数据进行编码处理，从而得到该用户点击数据的至少一个独热(one-hot)编码，将该至少一个独热编码输入该行为分析模型的宽度部分，方便了在该宽度部分进行线性组合，加快了获取第一图像的宽度特征的速度。

在一些实施例中，当该宽度部分为LR模型时，在该LR模型中可以包括第一权重矩阵和偏置项(bias)，从而在上述步骤2011中，对任一第一图像而言，服务器能够基于该第一权重矩阵，对该第一图像的用户点击数据所对应的至少一个独热编码进行加权处理，对加权处理后的各个独热编码以及偏置项进行求和，得到该第一图像的宽度特征，其中，该第一权重矩阵的权项个数大于或等于独热编码的个数。

在一些实施例中，该LR模型中可以包括第二权重矩阵和偏置项，对任一第一图像而言，从而服务器可以获取该第一图像的用户点击数据所对应的至少一个独热编码在两两之间的至少一个交叉向量，从而基于该第二权重矩阵，对该至少一个独热编码和该至少一个交叉向量进行加权处理，对加权处理后的各个独热编码、各个交叉向量以及偏置项进行求和，得到该第一图像的宽度特征。其中，一个交叉向量用于表示任一个独热编码与另一个独热编码之间的乘积，该第二权重矩阵的权项个数大于或等于独热编码的个数与交叉向量的个数相加后所得到的数值。

2012、服务器将多个第一图像的用户点击数据输入该行为分析模型的深度部分，通过该行为分析模型的深度部分，对该多个第一图像的用户点击数据进行嵌入处理，得到该多个第一图像的点击行为特征，对该多个第一图像的点击行为特征进行卷积处理，得到该多个第一图像的深度特征。

可选地，该深度部分用于对用户点击数据进行嵌入处理和卷积处理，例如，该深度部分可以是一个DNN(deep neural network，深度神经网络)。在一些实施例中，DNN中可以包括输入层、嵌入(embedding)层、至少一个隐藏层和输出层，层与层之间采用串行连接的方式，其中，该嵌入层用于对用户点击数据进行嵌入处理。

在上述步骤2012中，对任一第一图像而言，服务器可以将输入层中第一图像的用户点击数据输入到嵌入层，通过嵌入层对该用户点击数据进行嵌入处理，能够将较为稀疏(也即是离散)的用户点击数据映射到低维空间，得到第一图像的嵌入向量，将该第一图像的嵌入向量确定为该第一图像的点击行为特征，从而将该第一图像的嵌入向量输入至少一个隐藏层，通过该至少一个隐藏层对该至少一个嵌入向量进行卷积处理，输出该用户的深度特征。

2013、服务器根据多个第一图像的宽度特征和多个第一图像的深度特征，获取该行为分析模型的损失函数值。

在上述过程中，对任一第一图像而言，服务器可以对该第一图像的宽度特征和该第一图像的深度特征进行融合处理，得到该第一图像的联合特征，进而根据该第一图像的联合特征，可以获取该第一图像的预估点击率，该预估点击率用于表示WDL模型预测出的该第一图像的点击率，在一轮迭代训练中，服务器可以将多个第一图像中所有第一图像的预估点击率与实际点击率之间的均方误差(mean-square error，MSE)获取为本次迭代过程的损失函数值，当该损失函数值大于或等于第一目标阈值时，服务器基于反向传播算法，对WDL模型的参数进行调整，服务器基于调整参数后的WDL模型，重复执行上述步骤2011-2013，直到损失函数值小于第一目标阈值或迭代次数到达目标次数时，执行下述步骤202。

在一些实施例中，服务器在对第一图像的宽度特征和第一图像的深度特征进行融合处理时，可以通过全连接(full connected，FC)层对该第一图像的宽度特征和该第一图像的深度特征进行级联，得到该第一图像的联合特征。

在上述步骤2011-2013中，服务器提供了当行为分析模型为WDL模型时的训练方式，在WDL模型中既能够通过宽度部分提升行为分析模型的记忆能力，又能够通过深度部分提升行为分析模型的泛化能力，使得行为分析模型能够更加准确地预估图像的点击率，也就使得训练得到的第一图像的点击行为特征能够更好地反映用户点击数据的特征。

在步骤202中，当该行为分析模型的损失函数值小于第一目标阈值或迭代次数到达目标次数时，服务器得到该多个第一图像的点击行为特征。

其中，该第一目标阈值为大于或等于0且小于或等于1的任一数值，该目标次数为大于0的任一整数。

在上述步骤201-202中，服务器根据多个第一图像的用户点击数据，获取该多个第一图像的点击行为特征，在一些实施例中，服务器可以将WDL模型的深度部分的嵌入层中多个第一图像的嵌入向量获取为该多个第一图像的点击行为特征，由于该多个第一图像的点击行为特征能够表示多个第一图像的用户点击数据的特征，而用户点击行为又通常与人眼视觉的特征具有相关性，因此服务器可以通过从用户点击行为的角度来进行图像筛选，实现从人眼视觉层面来进行图像筛选。

在上述过程中，假设该多个第一图像在本地是以一个噪声数据库的形式存储的，那么可以用DB_noise来表示该多个第一图像，假设该行为分析模型用model_embedding来表示，则当基于该多个第一图像，对该行为分析模型训练完毕时，可以得到每一个第一图像基于用户点击数据得到的embedding(嵌入)向量，对第i个第一图像而言，该第i个第一图像的embedding向量即为该第i个图像的点击行为特征featureⁱ，其中，i为任一大于0且小于或等于第一图像的数量的整数。

在步骤203中，服务器根据该多个第一图像的点击行为特征，对该多个第一图像进行聚类处理，得到多个聚类集合，每个聚类集合中包括至少一个第一图像。

在上述过程中，服务器可以基于K-Means(K均值)算法，通过该多个第一图像的点击行为特征之间的距离，对该多个第一图像进行聚类处理，其中，该距离可以是欧氏距离，也可以是曼哈顿距离等。

在一些实施例中，服务器可以先获取该多个聚类集合的个数为目标数量(通常由技术人员进行设置)，在特征空间中将该目标数量个的点击行为特征分别作为该多个聚类集合的初始聚类中心，其中，一个点击行为特征对应于一个聚类集合的初始聚类中心，服务器对于特征空间中的多个第一图像的点击行为特征，获取每一个第一图像的点击行为特征与该多个聚类集合的初始聚类中心之间的距离，将该第一图像分配至距离最近的初始聚类中心所对应的聚类集合，可选地，当每个聚类集合中增加了第一图像时，可以将该聚类集合中各个第一图像的点击行为特征的平均值作为该聚类集合的第一聚类中心，基于该聚类集合的第一聚类中心，获取该多个聚类集合的目标函数值，当该目标函数值不符合收敛条件时，重复执行获取各个第一图像的点击行为特征与多个聚类集合的聚类中心之间的距离，为第一图像分配聚类集合，更新聚类集合的聚类中心，获取损失函数值的步骤，直到该目标函数值符合收敛条件时，完成聚类处理，得到多个聚类集合以及该多个聚类集合的聚类中心。

可选地，该目标函数值可以是多个聚类集合内的至少一个第一图像的点击行为特征与该多个聚类集合的聚类中心之间的差值的平方和。可选地，该收敛条件可以是该目标函数值小于第四目标阈值，该第四目标阈值可以是大于或等于0的任一数值。

在步骤204中，服务器对每个聚类集合，获取该聚类集合中至少一个第一图像到该聚类集合的聚类中心的平均距离。

在上述过程中，服务器可以对每个聚类集合，获取该聚类集合中每个第一图像到该聚类集合的聚类中心的余弦距离，将与多个第一图像对应的多个余弦距离之间的平均值确定为该平均距离，由于余弦距离能够表示第一图像与聚类中心之间的余弦相似度，从而对于余弦距离的平均值越大的聚类集合，意味着该聚类集合中各个第一图像与聚类中心之间的相似度越高，也就代表着聚类处理的效果越好，从而可以基于平均距离来进行图像筛选。

在步骤205中，服务器将平均距离大于或等于第二目标阈值的至少一个聚类集合确定为多个第二图像。

其中，该第二目标阈值为任一大于或等于0的数值，例如，第二目标阈值可以是0.8。

在上述步骤203-205中，服务器根据该多个第一图像的点击行为特征，从该多个第一图像中筛选得到多个第二图像，该多个第二图像的点击行为特征符合第一目标条件，从而能够从用户点击行为的角度来进行图像筛选，使得筛选得到的至少一个聚类集合中的各个第一图像在特征空间中具有较大平均距离，也即是各个第一图像之间的相似度较高，也就意味着该至少一个聚类集合中第一图像的聚拢效果较好。

基于上述示例，假设聚类集合的个数(也即是目标数量)用N_ori表示(取值范围与目标数量相同)，服务器在对DB_noise中每一个第一图像进行K-Means聚类处理时，获取N_ori个聚类中心，对于第k个聚类中心而言可以用center_k表示，其中k为任一大于或等于1且小于或等于N_ori的整数，那么当第i个第一图像的点击行为特征featureⁱ与第k个聚类中心center_k的距离最近时，将该第i个第一图像分配至第k个聚类中心所对应的第k个聚类集合，此时属于第k个聚类集合的第i个第一图像的点击行为特征可以表示为

进一步地对于第k个聚类集合而言，获取该第k个聚类集合中每一个第一图像到第k个聚类中心center_k之间的平均距离dis_k，dis_k具体可以使用下述公式进行表达：

其中，M为第k个聚类集合中第一图像的数量，M为任一大于0的整数。

基于上述公式，如果dis_k<θ，则删除该第k个聚类集合中的M个第一图像，反之，如果dis_k≥θ，则将该第k个聚类集合中的M个第一图像确定为M个第二图像，其中θ表示第二目标阈值，例如θ＝0.8，对每一个聚类集合都可以类推执行上述步骤，从而服务器能够对所有的第一图像进行初步筛选，将dis_k≥θ的至少一个聚类集合获取为多个第二图像，每个第二图像都对应于一个聚类集合，此时可以将该至少一个聚类集合存储为过渡数据库的形式，该至少一个聚类集合可以表示为DB_semi。

在步骤206中，服务器将该多个第二图像输入分类模型，通过该分类模型提取该多个第二图像的图像特征，基于该多个第二图像的图像特征，获取该多个第二图像的类别标签。

其中，该分类模型用于进行图像分类，可选地，为了减少分类模型的训练时长和计算量，该分类模型的预测准确率不需要太高，例如当该分类模型的预测准确率大于或等于70％时即可投入使用，例如，该分类模型可以是CNN(convolutional neural networks，卷积神经网络)，TCN(temporal convolutional networks，时间卷积网络)，VGG(visualgeometry group，视觉几何组)网络，或者残差注意力网络(residual attentionnetworks)等。

下面以该分类模型为CNN为例进行说明，在CNN中包括输入层、至少一个卷积层和输出层，服务器将该多个第二图像输入CNN，通过CNN的输入层对该多个第二图像进行解码，将解码后的多个第二图像输入该至少一个卷积层，通过该至少一个卷积层对该多个第二图像进行卷积处理，得到该多个第二图像的图像特征(也即是特征图，feature map)，服务器在输出层对该多个第二图像的图像特征进行指数归一化(softmax)处理，得到该多个第二图像中每个第二图像属于多个类别标签的多个预测概率，将预测概率最大的类别标签确定为该第二图像的类别标签。

在一些实施例中，上述CNN的各个卷积层之间还可以引入至少一个池化层，该池化层用于压缩上一卷积层输出的特征图，从而减小该特征图的尺寸。在一些实施例中，该至少一个卷积层之间可以采用残差连接，该残差连接也即是：对于每个卷积层来说，可以将该卷积层之间的卷积层所输出的任一特征图与当前卷积层所输出的对应的特征图叠加后得到残差块(residual block)，将该残差块作为输入下一卷积层的一个特征图，从而可以解决CNN的退化问题，例如，可以每间隔一个卷积层进行一次残差连接，也可以每间隔两个卷积层进行一次残差连接等，本公开实施例不对残差连接中间隔的卷积层数量进行具体限定。

在步骤207中，服务器按照该多个第二图像所属的至少一个聚类集合，获取该至少一个聚类集合对应的至少一个类别标签所占的标签比例。

在上述过程中，服务器对于至少一个聚类集合中的任一聚类集合而言，在上述步骤206中服务器获取该聚类集合中至少一个第二图像对应的至少一个类别标签，将任一个类别标签的个数与该聚类集合中所有类别标签的个数的比例获取为该类别标签的标签比例，从而能够得到每个聚类集合中类别标签的分布情况，有利于服务器基于标签比例对第二图像进行进一步图像筛选。

在步骤208中，当该至少一个聚类集合中存在标签比例大于或等于第三目标阈值的至少一个目标聚类集合时，服务器将该至少一个目标聚类集合确定为至少一个第三图像。

其中，该第三目标阈值为任一大于或等于0且小于或等于1的数值，例如，该第三目标阈值可以是0.3。

在一些实施例中，服务器可以先确定该至少一个聚类集合中每一个聚类集合所对应的最大标签比例，当该最大标签比例大于或等于该第三目标阈值时，该聚类集合为目标聚类集合，服务器将该目标聚类集合中的至少一个第二图像确定为至少一个第三图像。

在上述步骤207-208中，服务器根据多个第二图像的类别标签对该多个第二图像进行筛选，得到至少一个第三图像，从而不仅可以对多个第二图像进行进一步数据筛选，便于筛选出更有训练价值的第三图像，而且还能够通过执行下述步骤209，为筛选得到的至少一个第三图像添加类别标签(也即是标注信息)，也就节约了人工标注的成本。

基于上述示例，假设用model_clf表示分类模型，通过model_clf预测过渡数据库DB_semi的至少一个聚类集合中每一个第二图像的类别标签，第k个聚类集合中第i个第二图像的标签可以用

表示，服务器将第k个聚类集合中

的个数与第k个聚类集合中所有类别标签的个数的比值获取为该类别标签的标签比例

例如，假设在第k个聚类集合中包括100个第二图像，分类模型对该100个第二图像进行预测后，有75个第二图像的类别标签预测为“哈士奇”，有25个第二图像的类别标签预测为“爱斯基摩犬”，也即是：

假设用σ表示第三目标阈值，且σ＝0.3，此时获取第k个聚类集合的最大标签比例为

由于

因此将该第k个聚类集合中的100个第二图像确定为100个第三图像，当然，如果当一个聚类集合的最大标签比例

时，服务器删除该聚类集合中的所有第二图像。

在上述步骤206-208中，服务器根据多个第二图像的图像特征，从该多个第二图像中筛选得到至少一个第三图像，该至少一个第三图像的图像特征符合第二目标条件，从而服务器能够在基于用户点击行为层面(对应于人眼视觉层面)对多个第一图像进行筛选，得到多个第二图像的基础上，继续通过分类模型，从计算机视觉层面对多个第二图像进行进一步地筛选，筛选出类别标签的聚拢效果较好的至少一个第三图像。

在步骤209中，服务器对每个第三图像，将该第三图像所属的聚类集合中最大标签比例对应的类别标签确定为该第三图像的类别标签。

在上述步骤209中，服务器对每一个目标聚类集合而言，将该目标聚类集合中最大标签比例对应的类别标签确定为该目标聚类集合中至少一个第三图像的类别标签，从而能够在图像筛选完成时，得到携带类别标签的第三图像，这些第三图像无需再次经过人工标注，从而能够大大节约人工标注的成本。

基于上述示例，当服务器将第k个聚类集合中的100个第二图像确定为100个第三图像之后，获取第k个聚类集合中的最大标签比例

为0.75，进而将第k个聚类集合中100个第三图像的类别标签都获取为最大标签比例所对应的“哈士奇”类别标签，对每一个聚类集合重复执行上述过程，可以得到携带类别标签的至少一个第三图像。

进一步地，服务器根据多个第一图像的用户点击数据，对行为分析模型进行迭代训练，当行为分析模型的损失函数值小于第一目标阈值或迭代次数到达目标次数时，得到多个第一图像的点击行为特征，从而训练行为分析模型时，不但可以训练得到一个行为分析模型，而且可以训练得到各个第一图像的点击行为特征，一方面，服务器可以将得到的行为分析模型可以投入到下游的用户点击行为分析任务中，以预测图像的点击率，另一方面，服务器基于得到的多个第一图像的点击行为特征，可以对第一图像进行筛选。

进一步地，将多个第一图像的用户点击数据输入行为分析模型，通过行为分析模型提取多个第一图像的点击行为特征，基于多个第一图像的点击行为特征可以获取损失函数值，从而能够通过迭代执行上述步骤，得到对用户点击数据的表达能力更准确的点击行为特征。

进一步地，当行为分析模型为WDL模型时，服务器分别将多个第一图像的用户点击数据输入行为分析模型的宽度部分和深度部分，在宽度部分中对用户点击数据进行线性处理，在深度部分中对用户点击数据进行嵌入处理和卷积处理，在WDL模型中既能够通过宽度部分提升行为分析模型的记忆能力，又能够通过深度部分提升行为分析模型的泛化能力，使得行为分析模型能够更加准确地预估图像的点击率，也就使得训练得到的第一图像的点击行为特征能够更好地反映用户点击数据的特征。

进一步地，根据多个第一图像的点击行为特征进行聚类处理，得到多个聚类集合，将平均距离大于或等于第二目标阈值的至少一个聚类集合确定为多个第二图像，从而能够从用户点击行为的角度来进行图像筛选，使得筛选得到的至少一个聚类集合中的各个第一图像在特征空间中具有较大的平均距离，也即是各个第一图像之间的相似度较高，也就意味着该至少一个聚类集合中第一图像的聚拢效果较好。

进一步地，将多个第二图像输入分类模型，提取多个第二图像的图像特征，基于多个第二图像的图像特征获取多个第二图像的类别标签，根据多个第二图像的类别标签筛选得到至少一个第三图像，从而能够在基于用户点击行为层面对多个第一图像进行筛选，得到多个第二图像的基础上，继续从计算机视觉层面对多个第二图像进行进一步地筛选，筛选出类别标签的聚拢效果较好的至少一个第三图像。

进一步地，获取至少一个聚类集合中各个类别标签所占的标签比例，当存在标签比例大于或等于第三目标阈值的目标聚类集合时，将该目标聚类集合确定为至少一个第三图像，从而不仅可以对多个第二图像进行进一步数据筛选，便于筛选出更有训练价值的第三图像，而且服务器通过将第三图像所属的聚类集合中最大标签比例对应的类别标签确定为该第三图像的类别标签，从而能够在图像筛选完成时，得到携带类别标签的第三图像，这些第三图像无需再次经过人工标注，从而能够大大节约人工标注的成本。

图4是根据一示例性实施例示出的一种图像筛选装置的逻辑结构框图。参照图4，该装置包括获取单元401，第一筛选单元402和第二筛选单元403，下面进行详述：

获取单元401，被配置为执行根据多个第一图像的用户点击数据，获取该多个第一图像的点击行为特征；

第一筛选单元402，被配置为执行根据该多个第一图像的点击行为特征，从该多个第一图像中筛选得到多个第二图像，该多个第二图像的点击行为特征符合第一目标条件；

第二筛选单元403，被配置为执行根据该多个第二图像的图像特征，从该多个第二图像中筛选得到至少一个第三图像，该至少一个第三图像的图像特征符合第二目标条件。

本公开实施例提供的装置，通过多个第一图像的用户点击数据，获取该多个第一图像的点击行为特征，根据该多个第一图像的点击行为特征，从该多个第一图像中筛选得到多个第二图像，该多个第二图像的点击行为特征符合第一目标条件，从而能够从用户点击行为层面对多个第一图像进行初步筛选，由于用户点击行为通常与人眼视觉的特征具有相关性，因此筛选得到的第二图像可以表示人眼视觉层面的筛选结果，根据该多个第二图像的图像特征，从该多个第二图像中筛选得到至少一个第三图像，该至少一个第三图像的图像特征符合第二目标条件，能够在计算机视觉层面对多个第二图像进行进一步筛选，分别在点击行为层面和计算机视觉层面实现自动地图像筛选，从而在不增加人力成本的基础上大大提升了机器在进行图像筛选的智能性，增加了筛选出的第三图像的种类，丰富了第三图像的多样性。

在一种可能实施方式中，基于图4的装置组成，该获取单元401包括：

训练子单元，被配置为执行根据该多个第一图像的用户点击数据，对行为分析模型进行迭代训练；

得到子单元，被配置为执行当该行为分析模型的损失函数值小于第一目标阈值或迭代次数到达目标次数时，得到该多个第一图像的点击行为特征。

在一种可能实施方式中，该训练子单元被配置为执行：

在一种可能实施方式中，该第一筛选单元402被配置为执行：

在一种可能实施方式中，基于图4的装置组成，该第二筛选单元403包括：

获取子单元，被配置为执行将该多个第二图像输入分类模型，通过该分类模型提取该多个第二图像的图像特征，基于该多个第二图像的图像特征，获取该多个第二图像的类别标签；

筛选子单元，被配置为执行根据该多个第二图像的类别标签对该多个第二图像进行筛选，得到该至少一个第三图像。

在一种可能实施方式中，该筛选子单元被配置为执行：

在一种可能实施方式中，基于图4的装置组成，该装置还包括：

关于上述实施例中的图像筛选装置，其中各个单元执行操作的具体方式已经在有关该图像筛选方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种计算机设备的逻辑结构框图，该计算机设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501和一个或一个以上的存储器502，其中，该存储器502中存储有至少一条指令，该至少一条指令由该处理器501加载并执行以实现上述各个图像筛选方法实施例提供的图像筛选方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由计算机设备的处理器执行以完成上述图像筛选方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由计算机设备的处理器执行，以完成上述动画显示方法实施例中的动画显示方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像筛选方法，其特征在于，包括：

根据多个第一图像的用户点击数据，获取所述多个第一图像的点击行为特征，其中，所述用户点击数据用于表示与用户对图像的点击行为具有关联关系的数据，所述点击行为特征包括点击率；

按照所述多个第二图像所属的至少一个聚类集合，获取所述至少一个聚类集合对应的至少一个类别标签所占的标签比例，所述标签比例是指任一个聚类集合对应的各个类别标签的个数，与所述任一个聚类集合对应的所有类别标签的个数的比值；

确定所述至少一个聚类集合中每一个聚类集合对应的最大标签比例，当所述最大标签比例大于或等于第三目标阈值时，将所述聚类集合作为目标聚类集合，并将所述目标聚类集合中所包括的第二图像确定为第三图像。

2.根据权利要求1所述的图像筛选方法，其特征在于，所述根据多个第一图像的用户点击数据，获取所述多个第一图像的点击行为特征包括：

3.根据权利要求2所述的图像筛选方法，其特征在于，所述根据所述多个第一图像的用户点击数据，对行为分析模型进行迭代训练包括：

4.根据权利要求3所述的图像筛选方法，其特征在于，所述将所述多个第一图像的用户点击数据输入所述行为分析模型，通过所述行为分析模型提取所述多个第一图像的点击行为特征，基于所述多个第一图像的点击行为特征获取所述行为分析模型的损失函数值包括：

5.根据权利要求1所述的图像筛选方法，其特征在于，所述根据所述多个第一图像的点击行为特征，从所述多个第一图像中筛选得到多个第二图像包括：

6.根据权利要求1所述的图像筛选方法，其特征在于，所述方法还包括：

7.一种图像筛选装置，其特征在于，包括：

获取单元，被配置为执行根据多个第一图像的用户点击数据，获取所述多个第一图像的点击行为特征，其中，所述用户点击数据用于表示与用户对图像的点击行为具有关联关系的数据，所述点击行为特征包括点击率；

第二筛选单元，被配置为将所述多个第二图像输入分类模型，通过所述分类模型提取所述多个第二图像的图像特征，基于所述多个第二图像的图像特征，获取所述多个第二图像的类别标签；按照所述多个第二图像所属的至少一个聚类集合，获取所述至少一个聚类集合对应的至少一个类别标签所占的标签比例，所述标签比例是指任一个聚类集合对应的各个类别标签的个数，与所述任一个聚类集合对应的所有类别标签的个数的比值；确定所述至少一个聚类集合中每一个聚类集合对应的最大标签比例，当所述最大标签比例大于或等于第三目标阈值时，将所述聚类集合作为目标聚类集合，并将所述目标聚类集合中所包括的第二图像确定为第三图像。

8.根据权利要求7所述的图像筛选装置，其特征在于，所述获取单元包括：

9.根据权利要求8所述的图像筛选装置，其特征在于，所述训练子单元被配置为执行：

10.根据权利要求9所述的图像筛选装置，其特征在于，所述训练子单元被配置为执行：

11.根据权利要求7所述的图像筛选装置，其特征在于，所述第一筛选单元被配置为执行：

12.根据权利要求7所述的图像筛选装置，其特征在于，所述装置还包括用于执行以下步骤的模块：

13.一种计算机设备，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求1至权利要求6中任一项所述的图像筛选方法。

14.一种存储介质，其特征在于，当所述存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时，使得计算机设备能够执行如权利要求1至权利要求6中任一项所述的图像筛选方法。