CN108959304B

CN108959304B - 一种标签预测方法及装置

Info

Publication number: CN108959304B
Application number: CN201710363676.0A
Authority: CN
Inventors: 魏溪含
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2022-03-25
Anticipated expiration: 2037-05-22
Also published as: CN108959304A

Abstract

本申请实施例公开了一种标签预测方法及装置。所述方法包括：获取至少一个图像数据集，所述图像数据集中的图像属于同一类别；在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测，生成各个图像的至少一个预测标签；分别统计每个预测标签出现的次数，获取所述次数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签。利用本申请各个实施例，可以提高标签预测的准确程度和合并效率。

Description

一种标签预测方法及装置

技术领域

本申请涉及信息处理技术领域，特别涉及一种标签预测方法及装置。

背景技术

近年来，随着科学技术的迅速发展，人们对于智能化生活产生越来越多的需求。“以图搜图”、“以图搜文字”对用户来说也许并不陌生，在很多网络购物平台、搜索平台等都可以根据用户输入的图片搜索得到与输入图片属于同一类的或者相似的图片，甚至还可以匹配出图片中展示的内容。在一些示例中，如根据用户输入的猫咪图片搜索得到与输入猫咪图片相似的图片，或者得到图片中猫咪的品种等信息。

为了保证用户在平台上能够搜索到与输入图片相关的图片或者文字，往往需要能够提供“以图搜图”、“以图搜文字”等服务的平台具有海量的图片数据资源。在构建图片数据资源的过程中，往往需要给图片打上标签，该标签可以表征该图片在数据资源中的所属类别，以便更好地管理图片资源，所述标签诸如“英短”、“栀子花”、“键盘”等。对于服务平台来说，当然希望每一个标签下的图片数量越多越好，因此，相关服务平台需要从其他图片数据资源中搜集图片，并扩充至自己的图片数据资源中。在扩充过程中，其他图片数据资源中的图片也包括标签信息，但是不同平台上图片标签的设置规则不尽相同。例如，国外数据平台上图片的标签语言和目标语言不相同，利用翻译软件将标签语言翻译成目标语言，可以发现会出现一词多义、词义不明等现象。上述现象导致某些图片标签无法合并至平台上现有图片数据资源中。例如，在Google open image中包含标签为“comics”的多个图片，若目标语言为中文，将“comics”翻译成中文，则可以包括“漫画”、“漫画书”、“漫画人物”等多种表达方式。若现有图片数据平台中均包含“漫画”、“漫画书”、“漫画人物”这三个标签，则在现有技术中会出现不确定将“comics”合并至哪一个标签的问题。

为了解决上述问题，现有技术中往往通过人工观察的方式来判断图片标签能否与现有标签进行合并。如可以打开Google open image中包含标签为“comics”的多个图片，人工查看“comics”是属于“漫画”，还是“漫画书”、“漫画人物”。上述人工观察的方式工作量较大，工作效率较低。

因此，现有技术中亟需一种更加准确、智能化的图像标签合并方式。

发明内容

本申请实施例的目的在于提供一种标签预测方法及装置，可以提高提高标签预测的准确程度和合并效率。

本申请实施例提供的一种标签预测方法及装置具体是这样实现的：

一种标签预测方法，包括：

获取至少一个图像数据集，所述图像数据集中的图像属于同一类别；

在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测，生成各个图像的至少一个预测标签；

分别统计每个预测标签出现的次数，获取所述次数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签。

一种标签预测方法，包括：

分别统计所述预测标签所对应图像的个数，当所述个数满足预设条件时，设置所述图像所属的图像数据集的标签为所述预测标签。

一种标签预测方法，包括：

获取属于同一类别的多个图像；

使用预测模型对所述多个图像进行标签预测，为每个图像生成至少一个预测标签；

统计单个预测标签的出现次数，将所述出现次数满足预设条件的预测标签作为所述多个图像的推荐标签。

一种标签预测装置，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取属于同一类别的多个图像；

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现以下步骤：

本申请提供的标签预测方法及装置，可以将具有相同类别的图像数据集合并至初始图像数据源中，在数据合并过程中，首先对图像数据集中的图像进行标签预测，且预测得到的预测标签属于初始图像数据源中的标签范围。再根据各个预测标签的个数，决定是否合并相应的图像数据集。与现有技术中根据图像标签的字面意思判断数据集是否合并，本实施例中，利用与现有技术中相反的方向考虑，从标签对应的图像着手，相当于先判断图像是否属于同一类别，再合并图像数据集对应的标签。利用上述方式，可以提高图像数据合并的准确程度，另外，利用设置标签的方式进行数据合并，可以实现大规模图像数据的迅速迁移，提高大规模数据的合并效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的应用场景示意图；

图2是本申请提供的应用场景示意图；

图3是本申请提供的标签预测方法的一种实施例的方法流程示意图；

图4是本申请提供的将新图像数据源与初始图像数据源进行合并的示例示意图；

图5是本申请提供的BP网络拓扑结构示意图；

图6是本申请提供的应用场景示意图；

图7是本申请提供的应用场景示意图；

图8是本申请提供的标签预测方法的另一种实施例的方法流程示意图；

图9是本申请提供的标签预测方法的另一种实施例的方法流程示意图；

图10是本申请提供的标签预测装置的一种实施例的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

目前，很多搜索引擎不仅可以输入文字、声音，还可以输入图像等信息。搜索引擎的发展与用户的需求具有紧密的联系，以前，当用户看到或者听到某个陌生的词汇时，希望可以通过搜索引擎了解该词汇的信息，后来，当用户听到一首动听的音乐时，希望通过搜索引擎获取音乐的相关信息。上述两种用户需求均已实现，如今，用户希望在搜索引擎中能够搜索到关于看到的任意画面的相关信息。在一些典型的场景中，用户被一副海报上的雪山美景所吸引，但并不知道在什么地方，于是用户拍摄了海报上展示的雪山美景的照片，并将照片输入至支持图片搜索的搜索引擎，希望能够通过搜索引擎搜索到该雪山美景的地点。如果该雪山美景其实是位于瑞士的一个小镇，但是由于用户所使用搜索引擎的后台数据库中并没有该瑞士小镇的雪山图像资源，因此，该搜索引擎很可能无法获取到雪山美景的地点，甚至可能错误地输出该雪山美景位于新疆天山等热门景区的信息。类似的情况还有很多，由于搜索引擎后台图像资源的不足，很容易导致搜索引擎识别不出用户输入图像的相关信息，甚至识别出错误的信息。错误的信息对用户起着消极的引导作用，对整个搜索引擎的服务质量来说，会受到用户消极的评价，甚至产生用户信任危机。

为了解决上述问题，图像搜索引擎的后台数据库中需要不断地进行图像资源的扩充。如上所述，在图像资源扩充过程中，会出现图像标签表达方式不统一的问题，导致其他平台上的图像数据资源无法准确地合并至搜索引擎的图像数据资源中。现有技术中通过人工观察的方式判断不同表达方式的图像标签是否意义相同，但是该方式需要消耗较多的成本，且效率较低，跟不上图像资源更新的速度。

基于类似于上文所述的实际技术需求，本申请提供的标签预测方式，可以对搜索引擎中已有的图像资源进行深度学***台上的图像数据输入至该模型之后，可以预测得到图像数据所对应的标签。根据预测得到的标签所对应的图像的个数，可以确定是否合并图像的两个标签，也就是合并两个平台上的图像资源。

本申请实施例提供的技术方案可以应用于多种平台，下面对该技术方案的几种应用平台进行简单的介绍。

一种简单的应用平台如提供图像搜索的图像搜索服务平台。在该服务平台上，用户可以在该服务平台所提供的搜索引擎中输入任意图像，该图像搜索服务平台可以根据用户输入的图像匹配出与输入图像相似的图像或者所述输入图像的相关信息。例如，对于上述技术环境中的示例，用户将拍摄的海报上雪山美景的照片输入至搜索引擎中，所述搜索引擎则可以立即匹配出该照片的相关信息。如图1所示，所述相关信息可以以标签的形式示出，对于图1所示的雪景照片，所述搜索引擎可以输出以下标签：“瑞士”、“雪山”、“阿尔卑斯山”、“铁力士峰”、“冬季”、“天空”等。当然，所述相关信息还可以以语句等形式展示，本申请在此不做限制。利用本申请的技术方案，可以快速、准确地将海量图像资源扩充至搜索引擎的后台数据库中，保证用户在输入图像进行搜索的情况下，都能准确地搜索到输入图像的相关信息。

另外一个应用场景如用户照片管理。随着云技术的迅速发展，在云端所产生的数据量与日俱增，而用户的个人照片是其中重要的组成部分。不管是在用户的客户端设备还是在云端，现有技术中均有针对个人相册的管理方式，但是管理方式均比较简单，如按照时间、人物、地点等比较宏观、粗糙的分类方式进行管理。利用本申请所提供的技术方案，可以对已有的场景类图像进行深度学习，生成场景类标签与各个标签下的图像之间的关系模型。基于上述关系模型，可以对用户的图片、照片进行场景分类。图2是本申请提供的按照场景分类对用户相册进行管理的用户界面示意图。如图2所示，利用本申请的技术方案，可以将用户的照片分成室内、户外、漫画等若干个大类别，在各个大类别下还可以分成若干个子类别，如室内场景还可以分成居所、办公室、咖啡厅、商场等多个场景，同样地，户外场景还可以分成登山、大海、园林等多个场景。基于场景的分类，给用户搜索照片提供极大的方便，例如，用户需要搜索一张前两年在海边游玩的照片，但是具体的时间已经忘记。如果按照现有的相册管理方式，用户需要打开很久之前的相册，浏览许久才能找到照片，对用户来说，操作极为不便。如果按照图2所示的按照场景对个人相册进行管理，用户只需记得大致的场景，如“大海”，即可以迅速找到对应的照片，搜索效率大大提高。

需要说明的是，上述场景的分类方式不限于上述举例，还可以直接以各个子类作为主类别，类别之间可以随意组合，本申请在此不做限制。

本申请的技术方案还可以应用于趣味识图、安防等应用场景，对于应用场景的设置，本申请在此不做限制。综上，上述应用场景的实现基于本申请提供的技术方案，即将海量图像数据资源快速、准确地合并至已有的数据资源中，使得已有图像数据资源更加丰富，为提供各种图像类服务垒实数据基础。

下面结合附图3对本申请所述的标签预测方法进行说明。图3是本申请提供的标签预测方法的一种实施例的方法流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的标签预测过程中，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

具体的本申请提供的标签预测方法的一种实施例如图3所示，所述方法可以包括：

S31：获取至少一个图像数据集，所述图像数据集中的图像属于同一类别。

本实施例中，所述至少一个图像数据集可以作为图像数据源，所述图像数据集中的图像属于同一类别。所述图像不仅可以包括照片、图片等静态图像，还可以包括Gif等动态图像。在一些实施例中，所述图像数据集可以源于Google open image数据库、MIT场景数据、Imagenet数据等图像数据库，所述图像数据库中所包含的图像均具有图像标签。所述图像标签可以用于描述对应图像的关键特征，具体形式可以包括至少一个短语、词汇等，在图像数据中，可以利用所述图像标签访问与之对应的图像。

本实施例中，由于所述图像数据集中的图像属于同一类别，则所述图像数据集中的图像可以至少具有一个相同的图像标签。所述图像标签例如“英短”、“栀子花”、“键盘”等。当然，在其他实施例中，所述图像数据集中的图像可以不具有图像标签，但是可以确定所述图像属于同一个类别。例如，根据一组照片的源信息，可以确定该组照片是在同一地点的连续时间段内拍摄同一个目标(如模特、日出等)，则可以确定该组照片为具有相同类别的图像。因此，本实施例中，不仅可以通过图像标签信息，还可以其他标识信息确定图像数据集中的图像是否属于相同类别，本申请在此不做限制。

需要说明的是，所述图像数据集不限于来源于上述公开的大型数据库，当然也可以包括其他用户个人建立的图像数据资源等。如在获取用户同意的情况下，获取到用户的个人相册，且该相册中包含用户个人建立的分类照片集等。对于图像数据集的来源，本申请在此不做限制。

S32：在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测，生成各个图像的至少一个预测标签。

本申请实施例中，可以将所述至少一个图像数据集合并至现有的初始图像数据源中，所述初始图像数据源可以具有预设的图像标签范围，即所述初始图像数据源中可以包括若干个确定的标签，而所述图像数据集，作为新的图像数据源与初始图像数据源之间的合并即为：从所述预设的图像标签范围中选取与所述图像数据集中的图像相匹配的图像标签。图4是本申请提供的将新图像数据源(即所述至少一个图像数据集)与初始图像数据源进行合并的示例示意图，如图4所示，在初始图像数据源中，可以包括“天空”、“大海”、“商场”、“酒吧”等若干个标签下的图像数据集，在新图像数据源中，可以包括“アニメ”、“购物”、“海滩”、“Pubs”等标签下的图像数据集，可以发现，新图像数据源中的图像标签可以是多种语言的表达方式，从字面意思上来看，“购物”与“商场”、“大海”与“海滩”、“酒吧”与“Pubs”有可能属于同一个类别，即两个图像数据集的标签可以进行合并，但是存在很多不确定的因素。例如，“购物”对应的图像数据集可以是超市购物场景，而“商场”对应的图像数据集可以是衣服、鞋帽、首饰等商场购物场景，将两个图像数据集进行合并显然是不合适的。因此，简单地根据标签的字面意思进行标签的合并，容易产生误差。

本实施例中，所述初始图像数据源为预先建立而成，在建立过程中，可以预先确定需要的图像标签，在图像标签的选择上，可以根据实际的业务需求进行设置。例如，针对按照场景分类对用户相册进行分类的业务需求，则可以设置场景类标签，如“办公室”、“居所”、“商场”、“电影院”、“咖啡厅”、“婚礼”、“游船”等标签。设置完成相应的图像标签之后，可以填充各个图像标签下的图像，具体地，可以通过搜索引擎搜索与预设图像标签相关的图像，再对搜索到的图像进行清洗、筛选，使得图像与图像标签相匹配。最后，再给匹配完成的图像打上对应的图像标签，即生成所述初始图像数据源。

本实施例中，在构建完成所述初始图像数据源之后，可以对所述初始图像数据源进行深度学习，以获取图像标签与图像之间的关系模型。具体学习方式可以包括：

SS1：获取多个已知图像标签的图像样本。

SS2：对所述多个已知图像标签的图像样本进行深度学习处理，得到图像标签与图像之间的关系模型。

本实施例中，可以从所述初始图像数据源中获取多个已知图像标签的图像样本，并对所述多个图像样本进行深度学习，得到图像标签与图像之间的关系模型。在一些实施例中，可以利用卷积神经网络算法对所述多个图像样本进行学习。具体地，在利用卷积神经网络算法进行深度学习过程中，可以设置图像标签与图像之间的初始关系模型，所述关系模型以图像样本作为输入数据，以所述图像样本的图像标签作为输出数据。所述关系模型中设置有训练参数，所述深度学习的过程即为优化所述训练参数的过程。本实施例中，可以从现有的图像数据源中获取大量已知图像标签的图像样本，通过不断地将图像样本以及所述图像样本的图像标签输入至所述关系模型中，可以不断地优化所述训练参数，提高所述关系模型的输出准确性，直至所述关系模型满足预设要求。所述预设要求例如可以包括最大化预设目标函数，模型精度不小于某阈值等。当然，在其他实施例中，可以采用自动编码算法、稀疏自动编码算法、限制波尔兹曼机算法、深信度网络算法对所述多个图像样本进行学习，本申请对于深度学习的方式不做限制。

下面非限制性地以卷积神经网络算法对图像样本进行深度学习的示例进行说明。深度学习的过程就主要是为了训练参数θ，设置深度学习的目标函数为L(θ,D)，当最大化目标函数L(θ,D)时，参数θ即为最优参数，当θ为最优参数时，可以得到图像标签与图像之间的关系模型。所述目标函数L(θ,D)的表达式可以包括：

其中，L(θ,D)表示原始图像数据源D在含有参数θ的模型上的似然函数；θ为神经网络需要学习的训练参数；D表示初始图像数据源；i表示初始图像数据源中的第i张图像；x⁽ⁱ⁾表示第i张图像的样本表示形式，如像素灰度值矩阵；y⁽ⁱ⁾表示第i张图片的图像标签；Y表示初始图像数据源对应的整个标签集合；P(Y＝y⁽ⁱ⁾|x⁽ⁱ⁾,θ)表示条件概率，即在现有参数θ的情况下输入初始图像数据源中的图像样本x⁽ⁱ⁾，预测出该图像样本x⁽ⁱ⁾所对应的图像标签y⁽ⁱ⁾的概率。

本实施例中，可以利用误差反向传播(Error Back Propagation,BP)算法对训练参数θ进行学习。BP算法可以基于Delta学习规则，使用梯度搜索技术，实现网络的实际输出与期望输出的均方差最小化。神经网络学习的过程可以理解为边向后传播边修正权的过程，BP网络拓扑结构如图5所示。BP算法实质是求取误差函数的最小值问题，该算法可以采用非线性规划中的最速下降方法，按误差函数的负梯度方向修改权系数。

为了说明BP算法，首先定义误差函数E。取期望输出和实际输出之差的平方和为误差函数，则有：

其中，t_k是单元k对于训练样本x⁽ⁱ⁾的目标值，本实施例中的所述目标值即为表示训练样本x⁽ⁱ⁾对应的图像标签y⁽ⁱ⁾，o_k表示给定训练样本x⁽ⁱ⁾时单元k的输出值。

后续地，可以使用梯度下降法等方式对误差函数E进行计算，并按照误差函数的负梯度方向修改图5所示的网络拓扑结构的权系数。

利用类似于上述方法的深度学习得到图像标签与图像的关系模型(即训练参数θ)之后，可以利用所述关系模型对所述图像数据集中的图像进行标签预测。将任意图像输入至所述关系模型中后，可以计算得到所述图像所对应的图像标签。因此，在本申请的一个实施例中，所述在预设的标签范围内分别对所述多个图像进行标签预测可以包括：

利用所述关系模型分别对所述图像数据集中的图像进行标签预测，生成各个图像的至少一个预测标签，其中，所述预测标签包含于所述图像样本的图像标签。

本实施例中，可以利用所述关系模型分别对所述图像进行标签预测，生成所述多个图像的预测标签。所述预测标签可以为一个或者多个，如一个图像为黑夜中的烟火，那么预测标签可以包括黑夜和烟火两个图像标签，且这两个图像标签均包含于参与深度学习的图像样本的图像标签中。

在本申请的另一个实施例中，若图像数据集中的图像数据量较大时，可以对所述图像数据集进行采样之后再进行标签预测。基于此，所述在预设的图像标签范围内分别对所述多个图像进行标签预测可以包括：

SS-1：按照预设规则对所述多个图像进行采样。

SS-2：在预设的图像标签范围内分别对采样后的图像进行标签预测。

本实施例中，可以按照预设规则对所述多个图像进行采样，所述预设规则例如可以包括当所述多个图像的个数大于某一阈值。如已知同属于标签“攀岩”的图像有2000幅，如果对这2000幅图像均做标签预测，则势必计算量较大，既然已知这2000幅图像同属于图像标签“攀岩”，则可以对该2000幅图像进行随机采样，如采样其中的80幅图像进行标签预测，则可以大大减少标签预测工作量，提高标签预测的效率。

在本申请的另一个实施例中，还可以分别计算各个预测标签所对应的置信度，并根据所述置信度选择是否统计该图像。基于此，所述在预设的图像标签范围内分别对所述多个图像进行标签预测可以包括：

SSS1：在预设的图像标签范围内分别对所述多个图像进行标签预测，生成各个图像的至少一个预测标签；

SSS2：分别计算所述预测标签的置信度。

本实施例中，不仅可以对各个图像进行标签预测，还可以分别计算出各个预测标签所对应的置信度，所述置信度可以用于表征所述预测标签与所述图像之间的匹配程度，当所述预测标签与所述图像越匹配时，所述置信度值越高。如图6所示，输入图像为悉尼歌剧院的烟花夜景，利用本申请提供的关系模型，可以预测得到“烟花”、“夜景”、“悉尼歌剧院”、“湖水”、“游船”等多个预测标签，但是各个预测标签所对应的置信度不相同，如“夜景”的置信度为97，为置信度最高值，“游船”的置信度为63，为置信度最低值。利用各个预测标签所对应的置信度，可以确定后续当统计该预测标签所对应图像的个数时，选择是否包含该图像。

S33：分别统计每个预测标签出现的次数，获取所述次数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签。

本实施例中，可以分别统计所述预测标签的个数，当所述个数满足预设条件时，可以获取所述个数满足预设条件的预测标签所对应的图像，并设置所述图像所对应的图像数据集的标签为所述预设标签。在本申请的一个实施例中，所述预设条件例如可以包括下述中的至少一种：

所述次数大于第一阈值；

所述次数占所有预测标签出现总次数的比例大于第二阈值；

所述次数在预测标签出现次数按照从多到少的排序中至少位于第三阈值位之前。

本实施例中，可以在所述预测标签的个数满足上述条件时，将所述图像数据集合并至所述预测标签所对应的初始图像数据集中。第一种预设条件例如可以包括所述预设标签的个数大于第一阈值，举例说明，如对同属于标签“攀岩”的2000幅图像进行标签预测，若预测得到其中有1800副图像的预测标签为“攀登”，即预测标签“攀登”的个数为1800。若设置所述第一阈值为1750，由于1800>1750，可以将标签为“攀岩”的图像数据集与初始图像数据源中标签为“攀登”的图像数据集进行合并。对于第二种预设条件，所述预测标签的个数占预测标签总个数的比例大于第二阈值。若从标签“攀岩”对应的2000幅图像中预测得到其中的1800幅图像的预测标签为“攀登”，若假设每幅图像只有一个标签，则预测标签“攀岩”占整个预测标签总数的1800/2000＝90％，若设置所述第二阈值为85％，则可以将标签“攀登”所对应的图像数据集与“攀岩”所对应的图像数据集进行合并。对于第三种预设条件，所述个数在预测标签个数按照从多到少的排序中至少位于第三阈值位之前。若对多个类别的图像集进行标签预测，并得到多个预测标签，此后，可以对各个预测标签按照个数多少进行排序，如按照从多到少的顺序进行排序，若设置所述第三阈值为6，则可以将排序在前6位的预测标签所对应的图像数据集进行合并处理。

在本申请的一个实施例中，所述获取所述个数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签可以包括：

SSS_1：获取所述次数满足预设条件的预测标签所对应的图像；

SSS_2：从所述图像中筛选出数量不少于第四阈值的属于相同类别图像数据集的图像；

SSS_3：设置筛选得到的图像所属的图像数据集的标签为所述预测标签。

本实施例中，若对不同类别的图像数据集中的图像进行标签预测，且每幅图像可以包括多个预测标签，则有可能出现不同类别的图像数据集中的图像具有相同预测标签的情况。例如，图像数据集A的类别属于游船，其中图像1的预测标签包括“游船”、“烟花”、“夜景”，而图像数据集B的类别属于湖水，其中的图像2的预测标签包括“湖水”、“天鹅”、“游船”。若在对预测标签“游船”进行个数统计时，发现“游船”对应的图像绝大部分来源于图像数据集A，当然也包含图像数据集B中的图像2。若此时预测标签“游船”的个数满足预设条件，则可以设置图像数据集A的标签为“游船”，且需要排除图像数据集B中的图像2。为了使得一些不同类别的图像数据集中极少部分的图像落入预测标签中，则可以从所述图像中筛选出数量不少于第四阈值的属于相同类别图像数据集的图像，并设置筛选得到的图像所属的图像数据集的标签为所述预测标签，使得标签的设置更加准确、可靠。

对于上述具有置信度的预测标签，在本申请的一个实施例中，所述分别统计所述预测标签所对应图像的个数可以包括：

SS-A：判断所述预测标签的置信度是否大于预设阈值；

SS-B：若判断结果为是，则确定所述预测标签参与次数统计。

本实施例中，可以判断所述预测标签的置信度是否大于预设阈值，当所述置信度大于阈值时，统计所述预测标签的个数。具体地，例如可以设置当所述预测标签的置信度大于80％时，才统计所述图像所对应的预测标签。如对于图6所示的图像，只统计“烟花”、“夜景”、“湖水”这三个预测标签，而不统计“悉尼歌剧院”、“游船”这两个预测标签。

需要说明的是，两个图像数据集的合并方式可以包括将待合并的图像数据集的标签更新为预测标签，所述预测标签即为入库标签。图7是本申请中将新数据源Goole图像库_01中原始标签为“Basset Hound”的图像数据集合并至预测标签为“巴吉度犬”的图像数据集中的示意图。通过更新标签的方式进行图像数据集的合并，可以实现大规模图像数据的迅速迁移，提高数据合并效率。

本申请提供的标签预测方法，可以将具有相同类别的图像数据集合并至初始图像数据源中，在数据合并过程中，首先对图像数据集中的图像进行标签预测，且预测得到的预测标签属于初始图像数据源中的标签范围。再根据各个预测标签的个数，决定是否合并相应的图像数据集。与现有技术中根据图像标签的字面意思判断数据集是否合并，本实施例中，利用与现有技术中相反的方向考虑，从标签对应的图像着手，相当于先判断图像是否属于同一类别，再合并图像数据集对应的标签。利用上述方式，可以提高图像数据合并的准确程度，另外，利用设置标签的方式进行数据合并，可以实现大规模图像数据的迅速迁移，提高大规模数据的合并效率。

本申请还提出标签预测方法的另一种实施例，如图8所示，所述方法可以包括：

S81：获取至少一个图像数据集，所述图像数据集中的图像属于同一类别；

S82：在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测，生成各个图像的至少一个预测标签；

S83：分别统计所述预测标签所对应图像的个数，当所述个数满足预设条件时，设置所述图像所属的图像数据集的标签为所述预测标签。

本实施例中，S81、S82的具体实施方式可以参考S31、S32，在此不再赘述。在本实施例中，还可以对所述预测标签所对应的图像的个数进行统计，这样，在对图像的个数进行统计之后，可以直接设置所述图像所述的图像数据集的标签。

本申请还提出标签预测方法的另一种实施例，如图9所示，所述方法可以包括：

S91：获取属于同一类别的多个图像；

S92：使用预测模型对所述多个图像进行标签预测，为每个图像生成至少一个预测标签；

S93：统计单个预测标签的出现次数，将所述出现次数满足预设条件的预测标签作为所述多个图像的推荐标签。

图10是本申请提供的标签预测装置的一种实施例的模块结构示意图，如图10所示，所述装置包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时可以实现：

本申请提供的标签预测装置，可以将具有相同类别的图像数据集合并至初始图像数据源中，在数据合并过程中，首先对图像数据集中的图像进行标签预测，且预测得到的预测标签属于初始图像数据源中的标签范围。再根据各个预测标签的个数，决定是否合并相应的图像数据集。与现有技术中根据图像标签的字面意思判断数据集是否合并，本实施例中，利用与现有技术中相反的方向考虑，从标签对应的图像着手，相当于先判断图像是否属于同一类别，再合并图像数据集对应的标签。利用上述方式，可以提高图像数据合并的准确程度，另外，利用设置标签的方式进行数据合并，可以实现大规模图像数据的迅速迁移，提高大规模数据的合并效率。

可选的，在本申请的一个实施例中，所述处理器在实现步骤在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测之前，还可以实现：

获取多个已知图像标签的图像样本；

对所述多个已知图像标签的图像样本进行深度学习处理，得到图像标签与图像之间的关系模型。

可选的，在本申请的一个实施例中，所述处理器在实现步骤对所述多个已知图像标签的图像样本进行深度学习处理时包括：

设置图像与图像标签的关系模型，所述关系模型中设置有训练参数；

将所述图像样本作为所述关系模型的输入数据，所述图像样本的图像标签作为所述关系模型的输出数据，调整所述训练参数，直至所述关系模型达到预设要求。

可选的，在本申请的一个实施例中，所述处理器在实现步骤在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测时可以包括：

可选的，在本申请的一个实施例中，所述图像数据集中的图像可以至少具有一个相同的图像标签。

按照预设规则对所述图像数据集中的图像进行采样；

在预设的图像标签范围内分别对采样后的图像进行标签预测。

分别计算所述预测标签的置信度。

可选的，在本申请的一个实施例中，所述处理器在实现步骤分别统计所述预测标签所对应图像的个数时可以包括：

判断所述预测标签的置信度是否大于预设阈值；

若判断结果为是，则确定所述预测标签参与次数统计。

可选的，在本申请的一个实施例中，所述预设条件可以包括下述中的至少一种：

所述次数大于第一阈值；

所述次数占所有预测标签出现总次数的比例大于第二阈值；

可选的，在本申请的一个实施例中，所述处理器在实现步骤获取所述次数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签时可以包括：

获取所述次数满足预设条件的预测标签所对应的图像；

从所述图像中筛选出数量不少于第四阈值的属于相同类别图像数据集的图像；

设置筛选得到的图像所属的图像数据集的标签为所述预测标签。

本申请另一方面还提供标签预测装置的另一种实施例，所述装置可以包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时可以实现：

获取属于同一类别的多个图像；

本申请另一方面还提出一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时可以实现以下步骤：

统计所述预测标签的个数，获取所述个数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签。

所述计算机可读存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

尽管本申请内容中提到实施例中的深度学习方法、标签预测、数据统计等之类的数据学习、处理描述，但是，本申请并不局限于必须是完全符合行业编程语言设计标准或实施例所描述的数据展示、处理的情况。某些页面设计语言或实施例描述的基础上略加修改后的实施方案也可以实行上述实施例相同、等同或相近、或变形后可预料的实施效果。当然，即使不采用上数据处理的方式，只要符合本申请上述各实施例的数据学习、处理描述，仍然可以实现相同的申请，在此不再赘述。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种标签预测方法，其特征在于，包括：

分别统计每个预测标签出现的次数，获取所述次数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签；以便根据图像数据集的预测标签，将图像数据集合并至初始图像数据源中与预测标签相对应的初始图像数据集，其中，所述初始图像数据源包括多个图像标签下的初始图像数据集，所述预设的图像标签范围包括所述初始图像数据源中各个初始图像数据集的图像标签。

2.根据权利要求1所述的方法，其特征在于，在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测之前，所述方法还包括：

获取多个已知图像标签的图像样本；

3.根据权利要求2所述的方法，其特征在于，所述对所述多个已知图像标签的图像样本进行深度学习处理包括：

4.根据权利要求2或3所述的方法，其特征在于，所述在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测包括：

5.根据权利要求1所述的方法，其特征在于，所述图像数据集中的图像至少具有一个相同的图像标签。

6.根据权利要求1所述的方法，其特征在于，所述在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测包括：

按照预设规则对所述图像数据集中的图像进行采样；

7.根据权利要求1所述的方法，其特征在于，所述在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测包括：

分别计算所述预测标签的置信度。

8.根据权利要求7所述的方法，其特征在于，所述分别统计每个预测标签出现的次数包括：

判断所述预测标签的置信度是否大于预设阈值；

若判断结果为是，则确定所述预测标签参与次数统计。

9.根据权利要求1所述的方法，其特征在于，所述预设条件包括下述中的至少一种：

所述次数大于第一阈值；

所述次数占所有预测标签出现总次数的比例大于第二阈值；

10.根据权利要求1所述的方法，其特征在于，所述获取所述次数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签包括：

获取所述次数满足预设条件的预测标签所对应的图像；

11.一种标签预测方法，其特征在于，包括：

分别统计所述预测标签所对应图像的个数，当所述个数满足预设条件时，获取所述个数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签；以便根据图像数据集的预测标签，将图像数据集合并至初始图像数据源中与预测标签相对应的初始图像数据集，其中，所述初始图像数据源包括多个图像标签下的初始图像数据集，所述预设的图像标签范围包括所述初始图像数据源中各个初始图像数据集的图像标签；

其中，所述图像数据集中的图像至少具有一个相同的图像标签；所述在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测包括：按照预设规则对所述图像数据集中的图像进行采样；在预设的图像标签范围内分别对采样后的图像进行标签预测。

12.一种标签预测方法，其特征在于，包括：

获取属于同一类别的多个图像；

统计单个预测标签的出现次数，将所述出现次数满足预设条件的预测标签作为所述多个图像的推荐标签；以便根据所述多个图像的推荐标签，将所述多个图像合并至初始图像数据源中与推荐标签相对应的初始图像数据集，其中，所述初始图像数据源包括多个图像标签下的初始图像数据集，所述预设的图像标签范围包括所述初始图像数据源中各个初始图像数据集的图像标签。

13.一种标签预测装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

14.根据权利要求13所述的装置，其特征在于，所述处理器在实现步骤在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测之前，还实现：

获取多个已知图像标签的图像样本；

15.根据权利要求14所述的装置，其特征在于，所述处理器在实现步骤对所述多个已知图像标签的图像样本进行深度学习处理时包括：

16.根据权利要求14或15所述的装置，其特征在于，所述处理器在实现步骤在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测时包括：

17.根据权利要求13所述的装置，其特征在于，所述图像数据集中的图像至少具有一个相同的图像标签。

18.根据权利要求13所述的装置，其特征在于，所述处理器在实现步骤在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测时包括：

按照预设规则对所述图像数据集中的图像进行采样；

19.根据权利要求13所述的装置，其特征在于，所述处理器在实现步骤在预设的图像标签范围内分别对所述图像数据集中的图像进行标签预测时包括：

分别计算所述预测标签的置信度。

20.根据权利要求19所述的装置，其特征在于，所述处理器在实现步骤分别统计每个预测标签出现的次数时包括：

判断所述预测标签的置信度是否大于预设阈值；

若判断结果为是，则确定所述预测标签参与次数统计。

21.根据权利要求13所述的装置，其特征在于，所述预设条件包括下述中的至少一种：

所述次数大于第一阈值；

所述次数占所有预测标签出现总次数的比例大于第二阈值；

22.根据权利要求13所述的装置，其特征在于，所述处理器在实现步骤获取所述次数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签时包括：

获取所述次数满足预设条件的预测标签所对应的图像；

23.一种标签预测装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

分别统计每个预测标签出现的次数，获取所述次数满足预设条件的预测标签所对应的图像，设置所述图像所属的图像数据集的标签为所述预测标签；以便根据图像数据集的预测标签，将图像数据集合并至初始图像数据源中与预测标签相对应的初始图像数据集，其中，所述初始图像数据源包括多个图像标签下的初始图像数据集，所述预设的图像标签范围包括所述初始图像数据源中各个初始图像数据集的图像标签；

24.一种标签预测装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取属于同一类别的多个图像；

25.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现以下步骤：