CN110458233B

CN110458233B - 混合粒度物体识别模型训练及识别方法、装置及存储介质

Info

Publication number: CN110458233B
Application number: CN201910743898.4A
Authority: CN
Inventors: 郭卉; 袁豪磊; 黄飞跃
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2024-02-13
Anticipated expiration: 2039-08-13
Also published as: CN110458233A

Abstract

本申请涉及互联网技术领域，公开了一种混合粒度物体识别模型训练及识别方法、装置及存储介质。所述混合粒度物体识别模型训练方法包括：获取样本图像，确定各样本图像的类别标签，所述类别标签包括细粒度类别和粗粒度类别；基于所述样本图像和所述样本图像的类别标签对初始深度学习模型进行图像的类别识别训练，得到预训练模型；以拉大细粒度类别之间的特征差异为目标对所述预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型。本申请能够实现在同一个网络结构中进行粗粒度类别识别和细粒度类别识别，提升细粒度类别识别的准确性。

Description

混合粒度物体识别模型训练及识别方法、装置及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种混合粒度物体识别模型训练及识别方法、装置及存储介质。

背景技术

在实现物体识别的产品中，经常遇到的任务是既有粗粒度也有细粒度的识别。譬如当今人们喜欢养猫、狗、鸟等一类宠物，人们关注具体某种动物的细分类，因为不同细分类的动物具有差异较大的习性偏好、聪明程度，如狗类下的边境牧羊犬、贵宾犬、哈士奇等。这就需要用户首先知道动物属于哪一细分类，但是不熟悉宠物细分类的不乏其人，故在此类宠物识别中，不仅需要区分粗粒度类别(猫、狗、鸟等)，也需要识别每个粗粒度下的细分类别。当前在混合细粒度识别任务上，一般采用细粒度的分类模型进行识别。这种不区分粗细粒度的暴力识别方法容易对细粒度物体所在的粗粒度类别识别不足(如把猫识别成狗的某一细粒度种类)，而另外采用细粒度分类方法对目标特征进行细粒度计算的方法容易造成在某些种类细粒度识别较差的结果。

发明内容

本申请实施例提供了一种混合粒度物体识别模型训练及识别方法、装置及存储介质，可以提高粗粒度类别间的区分性，达到更好的细粒度识别效果。

一方面，本申请实施例提供了一种混合粒度物体识别模型训练方法，该方法包括：

获取样本图像，确定各样本图像的类别标签，所述类别标签包括细粒度类别和粗粒度类别；

基于所述样本图像和所述样本图像的类别标签对初始深度学习模型进行图像的类别识别训练，得到预训练模型；

以拉大细粒度类别之间的特征差异为目标对所述预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型。

另一方面提供了一种混合粒度物体识别方法，所述方法包括：

获取待识别图像；

将所述待识别图像输入混合粒度物体识别模型进行类别识别处理，得到所述待识别图像属于各粗粒度类别的概率和属于所述粗粒度类别下各细粒度类别的概率；

基于所述粗粒度类别的概率和所述细粒度类别的概率确定所述待识别图像的类别识别结果；

其中，所述混合粒度物体识别模型是基于样本图像和对应的类别标签进行机器学习训练获得预训练模型，并对所述预训练模型的细粒度分支分类模块以拉大细粒度类别之间的特征差异为目标进行调整得到的。

另一方面提供了一种混合粒度物体识别模型的训练装置，所述装置包括：

样本图像获取模块，用于获取样本图像，确定各样本图像的类别标签，所述类别标签包括细粒度类别和粗粒度类别；

模型训练模块，用于基于所述样本图像和所述样本图像的类别标签对初始深度学习模型进行图像的类别识别训练，得到预训练模型；

模型调整模块，用于以拉大细粒度类别之间的特征差异为目标对所述预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型。

其中，所述样本图像获取模块包括：

图像采集单元，用于采集图像；

细粒度类别标注单元，用于标注所述图像所属的细粒度类别；

聚类处理单元，用于根据所述图像的细粒度类别和所述细粒度类别的特征对所述图像进行聚类处理，得到多个图像集合，每个所述图像集合中各图像所属粗粒度类别相同；

目标粗粒度类别确定单元，用于根据所述图像集合中各图像所属细粒度类别的分布，确定混合粒度物体识别模型学习的目标粗粒度类别；

样本图像确定单元，用于将与所述目标粗粒度类别对应的图像集合中的所有图像作为样本图像，并为各样本图像添加类别标签，所述类别标签包括细粒度类别和粗粒度类别。

所述模型训练模块可以用于：将所述样本图像和所述样本图像的类别标签输入卷积神经网络模型；对所述样本图像进行前向计算，得到所述样本图像属于粗粒度类别的预测概率和属于所述粗粒度类别下细粒度类别的预测概率；基于所述粗粒度类别的预测概率和所述细粒度类别的预测概率确定所述样本图像的类别预测结果；将所述类别预测结果与所述类别标签进行对比，计算得到粗粒度损失值和细粒度损失值；计算所述粗粒度损失值和细粒度损失值的加权和作为整体损失值；将所述整体损失值反向传播到卷积神经网络模型中，通过随机梯度下降法调整卷积神经网络模型的权重参数；将所述样本图像和所述样本图像的类别标签输入更新权重参数后的卷积神经网络模型，重复上述调整权重参数步骤至当前调整权重参数步骤的执行次数达到预设次数；将当前调整权重参数后的卷积神经网络模型作为所述预训练模型。

所述模型调整模块可以用于：对所述预训练模型进行前向计算，得到同一粗粒度类别下各样本图像的细粒度类别特征；细粒度分支分类损失值获取单元，用于根据各样本图像的细粒度类别特征和同一粗粒度类别下其他样本图像的细粒度类别特征计算得到细粒度分支分类损失值；确定各样本图像对应的正样本图像和负样本图像，根据所述样本图像、所述正样本图像和所述负样本图像计算得到三元组损失度量；所述正样本图像为与所述样本图像属同一细粒度类别的样本图像，所述负样本图像为与所述样本图像属同一粗粒度类别、不同细粒度类别的样本图像；根据所述细粒度分支分类损失值和三元组损失度量计算得到总损失值；根据所述总损失值调整所述细粒度分支分类模块的参数，得到混合粒度物体识别模型。

另一方面提供了一种混合粒度物体识别装置，所述装置包括：

待识别图像获取模块，用于获取待识别图像；

类别识别处理模块，用于将所述待识别图像输入混合粒度物体识别模型进行类别识别处理，得到所述待识别图像属于各粗粒度类别的概率和属于所述粗粒度类别下各细粒度类别的概率；

类别识别结果确定模块，用于基于所述粗粒度类别的概率和所述细粒度类别的概率确定所述待识别图像的类别识别结果；

其中，所述混合粒度物体识别模型是基于样本图像和对应的类别标签进行机器学习训练获得预训练模型，并对所述预训练模型的细粒度分支分类模块以拉大细粒度类别之间的特征差异为目标进行调整而得到的。

所述类别识别结果确定模块可以用于：将所述待识别图像属于的各粗粒度类别中概率最大的一类粗粒度类别确定为目标粗粒度类别；对所述目标粗粒度类别下各细粒度类别按照概率大小进行排序，选择排序在前的预设个数的细粒度类别作为所述待识别图像的类别识别结果。

另一方面提供了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或该指令集由处理器加载并执行以实现如上述的混合粒度物体识别模型的训练方法或混合粒度物体识别方法。

另一方面提供了一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或该指令集由处理器加载并执行以实现如上述的混合粒度物体识别模型的训练方法或混合粒度物体识别方法。

本申请实施例提供的混合粒度物体识别模型训练及识别方法、装置及存储介质，具有如下技术效果：

在混合粒度物体识别模型训练阶段，既对样本图像的粗粒度类别学习也对其细粒度类别进行学习，能够实现在同一个网络结构中进行粗粒度类别识别和细粒度类别识别；此外，对预训练模型的细粒度分支分类模块进行调整，拉大细粒度类别之间的差距，让细粒度类别特征在其所属的细粒度类别间具有区分能力，提升混合粒度识别中细粒度类别识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是现有技术HyperFace的框架示意图；

图2是现有技术CTF的框架示意图；

图3是现有技术LSFG的框架示意图；

图4是本申请实施例提供的一种应用环境的示意图；

图5是本申请实施例提供的一种混合粒度物体识别模型的框架图；

图6是本申请实施例提供的一种物体识别的应用场景示意图；

图7是本申请实施例提供的一种混合粒度物体识别模型训练方法的流程示意图；

图8是本申请实施例提供的一种预训练模型训练方法的流程示意图；

图9是本申请实施例提供的一种对预训练模型的细粒度分支分类模块进行调整的方法的流程示意图；

图10是本申请实施例提供的混合粒度物体识别模型的跨层连接层的示意图；

图11是本申请实施例提供的混合粒度物体识别模型的应用场景示意图；

图12是本申请实施例提供的混合粒度物体识别方法的流程示意图；

图13是本申请实施例提供的混合粒度物体识别方法的处理流程图；

图14是本申请实施例提供的混合粒度物体识别方法的一种应用场景；

图15是本申请实施例提供的混合粒度物体识别模型的训练装置的结构示意图；

图16是本申请实施例提供的混合粒度物体识别装置的结构示意图；

图17是本申请实施例提供的一种混合粒度物体识别方法的服务器的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本发明实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明实施例，并不用于限定本发明实施例。首先，对本发明实施例涉及到的现有技术及相关概念进行描述：

粗粒度物体识别:类别级别的识别，不考虑对象的特定实例，仅考虑对象的类别(如人、狗、猫、鸟等)进行的识别并给出对象所属类别。一个典型的例子是大型通用物体识别开源数据集imagenet中的识别任务，识别出某个物体是1000个类别中的哪一个。

细粒度物体识别：实例级别的识别，即需要辨别目标属于哪个细分类别，如识别是当前的物体是吉娃娃、萨摩耶还是金毛、博美(狗的品种)等。

混合细粒度识别：在需要识别的目标中，有2个或以上类别级的实例级别识别，如对于藏獒、德国牧羊犬、边境牧羊犬、秋田犬、柴犬、波斯猫、布偶猫、英国短毛猫、苏格兰折耳猫、喜鹊、八哥、麻雀、大山雀、白头翁、黄雀、画眉的识别，就属于混合细粒度识别，其为跨越3大种类——狗、猫、鸟的混合细粒度识别。

imagenet：大型通用物体识别开源数据集。

imagenet预训练模型：基于imagenet训练一个深度学习网络模型，得到该模型的参数权重即为imagenet预训练模型。

RNN：结构递归神经网络是一类用结构递归的方式构建的网络模型。

feature map:样本图像和滤波器进行卷积后得到的特征图。feature map可以和滤波器进行卷积生成新的feature map。

Triplet-loss：机器学习中一种识别模型的度量方法，对某个输入样本，先获取其和与之同类别的某个样本间的特征距离(即正样本距离)，及其和不同类别的某样本特征距离(即负样本距离)，计算负样本距离与正样本距离之间的差异作为对输入样本的误差值。

为了便于说明本发明实施例中的方法的优势，在本发明实施例的技术方案详述伊始，首先对现有技术的相关内容进行详述：

目前与本方案比较接近的有三个技术：HyperFace(ADeep Multi-task LearningFramework for Face Detection,Landmark Localization,Pose Estimation,and GenderRecognition)、CTF(Coarse-to-fine:A RNN-based hierarchical attention model forvehicle re-identification)和LSFG(Embedding Label Structures for Fine-GrainedFeature Representation)。三者都是基于深度学习的技术。

如图1所示，HyperFace使用一个multitask框架在主体网络(conv1到fc6)中对输入样本图像学习与识别相关的特征，主体的输出特征通过多分支结构(两层全连层)分别实现是否检测出、关键点定位、点是否可见、姿势估计、性别识别等功能。

如图2所示，CTF主体网络产生主体特征feature map，对feature map进行二分支处理，分别以识别粗粒度和细粒度类别为目标。其中粗粒度的识别分支主要采用RNN结构提取特征最后通过全连层分类；细粒度分支主要对粗粒度的RNN特征进行根据主体featuremap和粗粒度RNN特征同时激活后续模块学习到主体feature map中不同通道特征的重要性，而后根据重要性差异和粗粒度RNN特征二次RNN学习细粒度特征，从而可以通过全连层进行细粒度分类。

如图3所示，LSFG方法在传统的分类深度网络的分类损失函数中加入triplet-loss以使得相同类别的特征相近，而不同类别特征差异变大。其中正负样本是从粗粒度类别中获得，如对于车辆识别，正样本为同一目标类别的样本，而负样本为同一车型中不同目标类别的样本。

然而，Hyperface方法无法较准确地区分同一粗粒度内的多个细粒度类别。该方法以一种端到端的方式把多任务目标并列学习直接用在混合细粒度识别中，存在如下缺陷：以人脸为学习素材的多任务设计与多任务的识别目标位置或者特征等信息有关联，而混合粒度识别的目标在形态、重点特征部位可以是不一样的，会造成识别效果不佳；粗细粒度对特征的需求是不一样，把粗粒度与细粒度两个相关的任务同等对待容易出现识别能力难以提升的问题；该网络结构无法利用现用的imagenet预训练模型，故需要大量数据预训练该模型才能获得足够的识别能力。

CTF方法无法较准确地区分同一粗粒度内多个细粒度类别间的差异。具体来说，该方法对粗细粒度识别进行分级，利用粗粒度特征与主体特征进行细粒度识别，该方法在每个粗粒度内的多个细粒度类别间区分度不高，对同一粗粒度内相似的细粒度类别不能得到较好的识别结果。另外，其还具有两个缺陷：粗粒度的RNN特征既作用在细粒度注意力模块的输入又作用在该模块的输出，容易造成该注意力模块学习能力不足，从而无法更好发挥注意力模块能力；粗粒度与细粒度分支网络深度相当，容易造成某一粒度的特征学习不足以致某个任务识别效果较差。

LSFG方法无法有效地区分粗粒度内的差异，若有某些细粒度类别属于不同的粗粒度时，识别效果不佳。LSFG的缺陷具体在于无法解决粗粒度间的细粒度类别有相似的问题，由于其模型仅对同一粗粒度间的细粒度类别进行区分，未对粗粒度间的区分性进行学习，故经过模型学习后粗粒度类别内部会存在细粒度间识别不准确的问题。

由上述可知，现有技术在混合粒度物体识别中存在对细粒度物体所在的粗粒度类别识别不足以及对粗粒度内部的细粒度识别效果差的缺陷。

有鉴于此，本发明提供一种混合粒度物体识别方案，旨在通过对识别模型的学习流程进行创新设计，在现有基础模型结构上，提升物体类别识别的效果，实现如下效果：

1)使粗粒度识别任务与细粒度识别任务在同一个网络结构中进行。实现粗粒度与细粒度对模型参数的更新进行动态变化，使两个任务识别效果均达到较佳性能。

2)实现粗粒度类别的学习，以保证粗粒度间的可区分性。

3)实现细粒度类别间的区分性学习，以保证对相似的细粒度类别间的准确识别。

请参阅图4，图4是本申请实施例提供的一种应用环境的示意图，包括服务器101和终端设备102，其中，服务器101可以是混合粒度物体识别模型，为下游的终端设备102提供物体类别识别服务的服务器。

具体的，服务器101可以根据图像的细粒度类别对图像进行聚类处理获得图像集合，以及根据图像集合中各图像所属细粒度类别的分布确定作为初始深度学习模型训练样本的样本图像。服务器101可以根据样本图像和样本图像的类别标签对初始深度学习模型进行训练，并对训练得到的预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型。服务器101接收终端设备102发送的待识别图像，使用混合粒度物体识别模型对待识别图像进行识别，以获得待识别图像属于该模型已有粗粒度类别的概率和已有细粒度类别的概率，并基于该粗粒度类别的概率和细粒度类别的概率进行数据处理，确定该待识别图像的类别识别结果。

本申请实施例中，执行主体可以是图4所示的服务器，还可以是一个服务器平台，该平台中可以包括多个服务器，比如，第一服务器可以对图像进行聚类处理，以及根据聚类处理结果确定作为初始深度学习模型训练样本的样本图像，随后将样本图像发送给第二服务器。

第二服务器可以根据样本图像和样本图像的类别标签对初始深度学习模型进行训练，并对训练得到的预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型。

第三服务器接收到终端设备102发送的待识别图像，并将该待识别图像发送至第二服务器，第二服务器对待识别图像进行类别识别，以获得待识别图像属于各粗粒度类别的概率和属于各细粒度类别的概率，并将所述粗粒度类别的概率和细粒度类别的概率发送给第三服务器。

第三服务器可以根据所述粗粒度类别的概率和细粒度类别的概率进行数据处理，确定该待识别图像的类别识别结果，并将类别识别结果发送给终端设备102。

本申请实施例中，服务器101和终端设备102可以通过无线链路连接。

本申请实施例中，第一服务器，第二服务器和第三服务器之间可以通过无线链路连接，还可以通过有线链路连接。通信链路类型的选择可以根据实际的应用情况和应用环境而定。可选的，第一服务器，第二服务器和第三服务器可以被设置在同一个空间内。

本申请实施例中，终端设备102可以是移动手机，平板电脑，台式电脑，笔记本电脑以及可穿戴设备等等。

图5是本申请实施例提供的一种混合粒度物体识别模型的框架图，本申请设计了如图5所示的模型框架，用以实现对混合粒度物体类别的识别。请参见图5，该混合粒度物体识别模型框架包括训练图像输入模块510、主体特征模块520、粗粒度特征模块530、粗粒度识别模块540、细粒度特征模块550和细粒度识别模块560，其中，粗粒度特征模块530和粗粒度识别模块540构成粗粒度分支分类模块，细粒度特征模块550和细粒度识别模块560构成细粒度分支分类模块。训练图像输入模块510接收待识别图像；主体特征模块520对输入识别模型的待识别图像中的关键物体部位进行识别以获得图像特征，并将所述图像特征分别传输至粗粒度分支分类模块和细粒度分支分类模块；粗粒度分支分类模块的粗粒度识别模块将所述图像特征与粗粒度特征模块中各粗粒度类别对应的特征进行比对，计算所述图像特征与粗粒度类别对应特征的相似度，将所述相似度作为所述待识别图像属于粗粒度类别的概率；细粒度分支分类模块的细粒度识别模块将所述图像特征与细粒度特征模块中各细粒度类别对应的特征进行比对，计算所述图像特征与细粒度类别对应特征的相似度，将所述相似度作为所述待识别图像属于细粒度类别的概率。需要说明的是，可以使用不同的网络结构作为主体特征模块、粗粒度特征模块、细粒度特征模块、粗粒度识别模块以及细粒度识别模块，粗粒度特征模块与细粒度特征模块间可以为无连接状态，也可以采用任意深度学习连接技术建立粗粒度特征模块与细粒度特征模块之间的连接。

本申请实施例提供的混合粒度物体识别模型框架包括粗粒度分支分类模块和细粒度分支分类模块，可以实现在同一网络结构中识别粗粒度类别和细粒度类别。该混合粒度物体识别模型框架可用于执行常见的识别任务，如宠物种类识别、场景识别等。宠物种类识别需要在混合多种大类的宠物细粒度识别下，对大分类作为粗粒度类别，如猫、狗、蛇、龟、鸟、鱼等，对各种大分类下的细分类作为细粒度类别；场景识别中，如对于位置场景识别任务，存在易混淆场景，如对于一个湖，有可能是热带雨林、公园、自然河道、沼泽，即可以把相互易混淆场景归纳为粗粒度类别，具体场景作为细粒度类别，由此，可以提高同一粗粒度内特征的相似性、并增强细粒度间的差异性，提高混合细粒度物体识别能力。图6是本申请实施例提供的一种物体识别的应用场景示意图，将混合粒度物体识别模型用于执行如图6所示的宠物种类识别任务，在模型学习了猫、狗、鸟三大属的特征，以及哈士奇、秋田犬、柴犬、波斯猫、布偶猫、英国短毛猫、画眉鸟、八哥等种类的特征后，当向所述混合粒度物体识别模型输入哈士奇的图像时，可以准确识别出图像中物体所属的粗粒度分类为狗、细粒度分类为哈士奇。

本实施例使用深度学习对混合细粒度识别任务进行识别效果的提升，在不增加标注量情况下，通过多任务学习框架得到性能更佳的混合细粒度物体识别模型，在多任务学习框架中引入粗粒度识别，通过共享部分网络参数可以同时胜任粗粒度和细粒度识别任务。并且，识别框架对细粒度间易混淆问题进行区分性学习，能够有效区分细粒度类别。

以下介绍本申请一种混合粒度物体识别模型训练方法的具体实施例，图7是本申请实施例提供的一种混合粒度物体识别模型训练方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图7所示，该方法可以包括：

S701：获取样本图像，确定各样本图像的类别标签，所述类别标签包括细粒度类别和粗粒度类别。

本申请实施例中，样本图像是从海量图像中筛选出来的，为了利于机器学习，样本图像需要满足：样本图像所属粗粒度类别下存在多个属不同细粒度类别的样本图像，如此，模型才能对同一粗粒度类别下不同细粒度类别的特征进行充分的对比学习，使模型对细粒度特征具有更好的区分能力，提升细粒度类别识别效果。

一种可选的实施例中，所述样本图像可以通过如下方法获取：

S7011、采集图像。

具体的，所述图像应为包含需要识别的类别，如在狗、猫、鸟的混合细粒度识别问题上，采集包含八哥、秋田犬、波斯猫等的图像，具体可以通过人工拍摄、网络搜索等方式获取图像。

S7013、标注所述图像所属的细粒度类别。

对采集的图像标注上细粒度类别。由于后续的粗粒度类别可以直接从细粒度类别标签中通过从属关系获得，故并不需要标注粗粒度类别，不增加标注工作。

S7015、根据所述图像的细粒度类别和所述细粒度类别的特征对所述图像进行聚类处理，得到多个图像集合，每个所述图像集合中各图像所属粗粒度类别相同。

一种可选的实施例中，根据图像的细粒度类别及所述细粒度类别的特征，采用聚类规则把所有图像的细粒度类别聚合成较少的粗粒度类别(即大分类类别)，获得多个图像集合，每个图像集合对应一个粗粒度类别。其中，所述细粒度类别的特征可以是该类别固有的特征，也可以是通过机器学习等手段获取的抽象特征。本实施例中，可以使用任意聚类规则、任意类别特征以生成粗粒度类别。

S7017、根据所述图像集合中各图像所属细粒度类别的分布，确定混合粒度物体识别模型学习的目标粗粒度类别。

根据粗粒度类别以及粗粒度类别下细粒度类别在其中的表现，确定识别模型需要学习的目标粗粒度类别。由于在粗粒度类别中，可能出现不利于机器学习的因素，如细粒度类别过少会导致该粗粒度类别下各细粒度类别之间区分度学习不足，故并非所有粗粒度类别均可以作为目标粗粒度类别，此阶段的任务是设计有效的粗粒度类别。一种可选的实施例中，如果粗粒度类别下细粒度类别的数量达到预设种类数量，可以将该粗粒度类别作为目标粗粒度类别。另一种可选的实施例中，如果粗粒度类别下细粒度类别的数量达到预设种类数量，并且粗粒度类别下各细粒度类别对应的图像达到预设图像数量，可以将该粗粒度类别作为目标粗粒度类别。确定目标粗粒度类别的意义在于使细粒度类别特征在其所属的粗粒度类别空间内更集中，后续模型训练时，能够对细粒度类别特征进行充分学习，使模型对细粒度类别具有更好的区分能力。

S7019、将与所述目标粗粒度类别对应的图像集合中的所有图像作为样本图像，并为各样本图像添加类别标签，所述类别标签包括细粒度类别和粗粒度类别。

S703：基于所述样本图像和所述样本图像的类别标签对初始深度学习模型进行图像的类别识别训练，得到预训练模型。

本实施例采用图5中的模型框架设计模型，以实现对混合粒度物体类别的识别。对于复杂识别任务来说，需要多层网络结构才能对目标特征进行更有效学习，图5中涉及的特征模块均为深度学习神经网络多层结构，多层结构主要为多个堆叠的卷积、归一化、池化、跨层连接等深度学习操作，如含有图10所示的跨层连接层和表1所示的ResNet-101结构表。图5中涉及的识别模块为池化、全连层的组合。

表1

表2是本申请实施例提供的混合粒度物体识别模型的粗粒度识别模块的层结构，其中M_cr为残差结构的层数；表3是本申请实施例提供的混合粒度物体识别模型的粗粒度识别模块结构表，其中假设粗粒度特征模块输出的特征为Nfeat_cr1xNfeat_cr2xNchannel_cr，其中Nchannel_cr表示特征维度，N_cr为粗粒度类别数量。

表2

表3

表4是本申请实施例提供的混合粒度物体识别模型的细粒度识别模块的层结构，其中M_fg为残差结构的层数；表5是本申请实施例提供的混合粒度物体识别模型的细粒度识别模块结构表，其中假设细粒度特征模块输出的特征为Nfeat_fg1xNfeat_fg2xNchannel_fg，其中Nchannel_fg表示特征维度，N_fg为细粒度类别数量。

表4

表5

一种可选的实施例中，所述预训练模型可以通过图8所示的方法步骤训练得到，请参见图8，预训练模型的训练方法包括：

S801:将所述样本图像和所述样本图像的类别标签输入卷积神经网络模型。

本实施例中，初始深度学习模型优选为卷积神经网络模型，以实现通过多层网络结构对目标特征进行有效学习。

S803:对所述样本图像进行前向计算，得到所述样本图像属于粗粒度类别的预测概率和属于所述粗粒度类别下细粒度类别的预测概率。

S805:基于所述粗粒度类别的预测概率和所述细粒度类别的预测概率确定所述样本图像的类别预测结果。

S807:将所述类别预测结果与所述类别标签进行对比，计算得到粗粒度损失值和细粒度损失值。

S809:计算所述粗粒度损失值和细粒度损失值的加权和作为整体损失值。

S811:将所述整体损失值反向传播到卷积神经网络模型中，通过随机梯度下降法调整卷积神经网络模型的权重参数。

S813:将所述样本图像和所述样本图像的类别标签输入更新权重参数后的卷积神经网络模型，重复S803-S811调整权重参数步骤至当前调整权重参数步骤的执行次数达到预设次数；将当前调整权重参数后的卷积神经网络模型作为所述预训练模型。

示例性的，以识别模型学习方法训练卷积神经网络模型得到预训练模型包括：

(1)初始化模型参数：Conv1-Conv5采用在ImageNet数据集上预训练的ResNet101的参数作为卷积神经网络模型的初次输入参数，如表1所示，新添加的层如Conv6_x采用方差为0.01，均值为0的高斯分布进行初始化。此外，还可以使用不同的预训练的类别识别模型的权重来初始化卷积神经网络模型。

(2)模型训练：采用基于SGD(Stochastic Gradient Descent)的梯度下降法求解卷积神经网络模型的卷积模板参数w和偏置参数b，在每次迭代过程中，计算预测结果误差并反向传播到卷积神经网络模型，计算梯度并更新卷积神经网络模型的参数。具体过程为：把卷积神经网络模型的所有参数都设为需要学习状态，训练时神经网络对输入的一图像进行前向计算得到预测概率，预测概率包括该图像属于粗粒度类别的概率和属于细粒度类别的概率，进一步根据预测概率预测图形的类别结果，预测的类别结果包括粗粒度类别和细粒度类别，将预测的类别结果与该图片真实的类别对比计算模型的粗粒度损失值和细粒度损失值，计算粗粒度损失值和细粒度损失值的加权和作为整体损失值，把整体损失值回传到神经网络中，通过随机梯度下降法更新网络权重参数，从而实现一次权重优化，经过多次优化，最终得到表现良好的预训练模型。

S705：以拉大细粒度类别之间的特征差异为目标对所述预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型。

经过上述S703的训练获得的预训练模型已具有识别粗粒度类别和细粒度类别的能力，为了提升对细粒度类别识别的准确性，进一步对预训练模型的细粒度分支分类模块进行微调。图9是本申请实施例提供的一种对预训练模型的细粒度分支分类模块进行调整的方法的流程示意图，请参见图9，该方法包括：

S901：对所述预训练模型进行前向计算，得到同一粗粒度类别下各样本图像的细粒度类别特征。

前向计算即采用前向传播算法(Forwardpropagation)进行计算，对于前向传播来说，不管维度多高，其过程都可以用公式(1)表示：

h^t＝σ(z^t)＝σ(Ux^t*Wh^(t-1)+b) (1)

其中，上标t代表层数，*表示卷积，b表示偏置项bias，σ表示激活函数,x表示样本的输入，h表示模型的隐藏状态，W表示本层结点。

示例性的，假设上一层结点i,j,k,…等一些结点与本层的结点w有连接，可以通过上一层的i,j,k等结点以及对应的连接权值进行加权和运算，最终结果再加上一个偏置项，最后再通过一个非线性函数(即激活函数)，如ReLu，sigmoid等函数，最后得到的结果就是本层结点w的输出。通过这种方法一层层的运算，得到输出层结果。

S903：根据各样本图像的细粒度类别特征和同一粗粒度类别下其他样本图像的细粒度类别特征计算得到细粒度分支分类损失值。

具体的，所述细粒度分支分类损失值可以通过公式(2)所示的细粒度分支的损失函数计算得到。

其中，表示对样本的预测输出，y表示样本的真实标签。

当y＝1时，对数函数是单调递增的，因此L对预测输出值是单调递减函数。即预测输出值越大(靠近1)，损失函数值L越小，预测输出值越小(接近0),损失函数值L越大，符合实际需要；

当y＝0时，L对预测输出值是单调递增函数。即预测输出值越小(接近0)，损失函数值L越小，预测输出值越大(接近1)，损失函数值L越大，同样符合实际需要。

无论真实样本标签y是0还是1，L都表征预测输出与y的差距。由于log函数本身的特性所致，预测输出与y差得越多，L的值越大，即对当前模型的“惩罚”越大，且是非线性增大，类似指数增长的级别，如此，模型会倾向于让预测输出更接近真实样本标签y。

S905：确定各样本图像对应的正样本图像和负样本图像，根据所述样本图像、所述正样本图像和所述负样本图像计算得到三元组损失度量；所述正样本图像为与所述样本图像属同一细粒度类别的样本图像，所述负样本图像为与所述样本图像属同一粗粒度类别、不同细粒度类别的样本图像。

其中，获取样本图像对应的正样本图像和负样本图像，具体做法可以是：对每个样本图像(a)，选择同细粒度类别的另一个样本图像为正样本图像(p)，选择同一粗粒度类别内不同细粒度类别的样本图像为负样本图像(n)，组成(a,p,n)三样本。计算三样本的triplet-loss(三元组损失)度量损失函数，即优化以下公式(3)的目标函数，从而实现以拉大细粒度类别间特征差异。公式(3)中fa指样本图像a在模型前向计算中得到的特征表达，fp指正样本图像p在模型前向计算中得到的特征表达,fn指负样本图像n在模型前向计算中得到的特征表达，dist函数为欧氏距离函数，margin为预设的类别间距。

L_metric＝max(dist(fa,fp)-dist(fa,fn)+margin,0) (3)

S907：根据所述细粒度分支分类损失值和三元组损失度量计算得到总损失值。

具体的，可以通过公式(4)计算得到总损失值。其中，L_metric为三元组损失度量，L_class为细粒度分支分类损失，a用于调节两个损失间的权重。

L＝aL_metric+L_class (4)

S909：根据所述总损失值调整所述细粒度分支分类模块的参数，得到混合粒度物体识别模型。

具体的，S705仅对所述预训练模型的细粒度分支分类模块(即细粒度特征模块和细粒度识别模块)进行调整，其他模块(如主体特征模块、粗粒度特征模块和粗粒度识别模块)的参数在学习过程中不更新。

本实施例在混合粒度物体识别模型训练阶段，既对样本图像的粗粒度类别学习也对其细粒度类别进行学习，能够实现在同一个网络结构中进行粗粒度类别识别和细粒度类别识别；此外，对预训练模型的细粒度分支分类模块进行调整，拉大细粒度类别之间的差距，让细粒度类别特征在其所属的细粒度类别间具有区分能力，提升了混合粒度识别中细粒度类别识别的准确性。

使用上述训练获得的混合粒度物体识别模型可以对新输入的图像进行类别识别。图11是本申请实施例提供的混合粒度物体识别模型的应用场景示意图，请参见图11，利用训练数据对初始深度学习模型进行训练获得混合粒度物体识别模型，当有新的图像需要进行类别识别时，可以将所述图像输入至混合粒度物体识别模型，由混合粒度物体识别模型对图像进行识别处理，输出该图像属于粗粒度类别和细粒度类别的概率，还可以对混合粒度物体识别模型的输出结果进一步分析处理，一种可能处理是在需要输出所述图像最可能属于的前N个细粒度类别时，选择粗粒度类别概率中概率最大的一类作为所述图像所属粗粒度类别，并选择该粗粒度类别下的所有细粒度类别概率中最大的N个类别作为所述图像最可能属于的N个细粒度类别。

通过选择不同的训练数据使混合粒度物体识别模型学习各种物体的类别特征，从而使混合粒度物体识别模型可以应用于任意混合细粒度识别任务，任意粗粒度、细粒度识别任务，任意可从目标类别中分离或聚类出粗粒度类别的识别任务，如宠物混合细粒度识别、场景混合细粒度识别、行人混合细粒度识别、人脸混合细粒度识别、自然动物粗细粒度识别、商品细粒度识别、服装细粒度识别等。

本申请实施例还提供了一种混合粒度物体识别方法，图12是本申请实施例提供的混合粒度物体识别方法的流程示意图，请参见图12，所述方法包括：

S1201：获取待识别图像。

S1203：将所述待识别图像输入混合粒度物体识别模型进行类别识别处理，得到所述待识别图像属于各粗粒度类别的概率和属于所述粗粒度类别下各细粒度类别的概率。

其中，所述混合粒度物体识别模型是基于样本图像和对应的类别标签进行机器学习训练获得预训练模型，并对所述预训练模型的细粒度分支分类模块以拉大细粒度类别之间的特征差异为目标进行调整得到的。所述混合粒度物体识别模型的训练方法请参照上述实施例，本实施例在此不再赘述。

一种可行的实施例中，用于识别图像类别的混合粒度物体识别模型应为预先对该图像所属类别的相关特征进行了学习的模型，例如待识别图像为哈士奇，则预先选择各种狗的图像对混合粒度物体识别模型进行训练，使模型对各种狗的特征进行学习，如此，当向模型输入哈士奇的图像后，能够根据哈士奇的特征识别其粗粒度类别和细粒度类别；又如待识别图像为玩具曼哈顿球，则用于处理识别任务的合粒度物体识别模型应预先对各种玩具及特征进行学习。实际应用中，既可以采用单一物质种类的样本图像对混合粒度物体识别模型进行训练，也可以采用跨物质种类的各种样本图像对混合粒度物体识别模型进行训练，使混合粒度物体识别模型识别物体的范围更大，如采用玩具的图像、湖泊的图像、宠物的图像、生活日用品的图像等对同一混合粒度物体识别模型进行训练，使得混合粒度物体识别模型同时具备跨物质种类识别物体类别的能力，提升混合物体识别模型的处理复杂识别任务的能力。

本实施例中，混合粒度物体识别模型对待识别图像进行类别识别处理包括：

(1)提取待识别图像的主体特征；所述主体特征包括待识别图像中关键部位的特征，例如对于狗，其主体特征包括毛、头、颈、四肢、躯体、尾巴，头部特征进一步包括头型、耳朵、鼻子、眼睛、嘴。

(2)将所述待识别图像的主体特征与混合粒度物体识别模型中存储的各粗粒度类别的特征进行比对，计算所述待识别图像的主体特征与混合粒度物体识别模型中存储的各粗粒度类别的特征的匹配度，将所述匹配度作为所述待识别图像属于粗粒度类别的概率。

(3)将所述待识别图像的主体特征与混合粒度物体识别模型中存储的各细粒度类别的特征进行比对，确定所述待识别图像属于细粒度类别的概率。具体可以通过以下三种方法中任意一种确定所述待识别图像属于细粒度类别的概率。

方法一：将所述待识别图像的主体特征与混合粒度物体识别模型中存储的各细粒度类别的特征进行比对，计算所述待识别图像的主体特征与混合粒度物体识别模型中存储的各细粒度类别的特征的第一匹配度，将所述第一匹配度作为所述待识别图像属于细粒度类别的概率；

方法二：将所述待识别图像属于粗粒度类别的概率从大至小进行排序，选择排序在前的预设个数的粗粒度类别作为候选粗粒度类别，将所述待识别图像的主体特征与所述候选粗粒度类别下各细粒度类别的特征进行比对，计算所述待识别图像的主体特征与所述候选粗粒度类别下各细粒度类别的特征的第二匹配度，将所述第二匹配度作为所述待识别图像属于细粒度类别的概率；

方法三：将所述待识别图像的主体特征与混合粒度物体识别模型中存储的各细粒度类别的特征进行比对，计算所述待识别图像的主体特征与混合粒度物体识别模型中存储的各细粒度类别的特征的第一匹配度；将所述待识别图像属于粗粒度类别的概率从大至小进行排序，选择排序在前的预设个数的粗粒度类别作为候选粗粒度类别，将所述待识别图像的主体特征与所述候选粗粒度类别下各细粒度类别的特征进行比对，计算所述待识别图像的主体特征与所述候选粗粒度类别下各细粒度类别的特征的第二匹配度；将所述第二匹配度与所述第一匹配度的平均值作为所述待识别图像属于细粒度类别的概率。

S1205：基于所述粗粒度类别的概率和所述细粒度类别的概率确定所述待识别图像的类别识别结果。

一个可能的实施例中，可以将所述待识别图像属于的各粗粒度类别中概率最大的一类粗粒度类别确定为目标粗粒度类别；对所述目标粗粒度类别下各细粒度类别按照概率大小进行排序，选择排序在前的预设个数的细粒度类别作为所述待识别图像的类别识别结果。例如，将哈士奇的图像输入混合粒度物体识别模型，得到哈士奇属于狗这一粗粒度类别的概率为99％、属于猫这一粗粒度类别的概率为40％、属于鸟这一粗粒度类别的概率为1％，属于柯基犬这一细粒度类别的概率为10％、属于秋田犬这一细粒度类别的概率为20％、属于吉娃娃这一细粒度类别的概率为5％、属于哈士奇这一细粒度类别的概率为99％....由上述粗粒度类别的概率和细粒度类别的概率，可以确定该图像的类别识别结果为狗-哈士奇。

本实施例的混合粒度物体识别方法可通过客户端和服务器交互实现。图13是本申请实施例提供的混合粒度物体识别方法的处理流程图，请参见图13，用户通过客户端输入需要识别的图像，服务器对输入的图像进行识别处理获得识别结果，并将识别结果返回至客户端，一种可能的实现方式中，服务器可以包括前端A、后端和前端B，其中，前端A接收客户端发送的图像，将所述图像传输至后端以使后端利用混合粒度物体识别模型对图像进行识别处理，后端输出所述图形属于粗粒度类别及细粒度类别的概率至前端B，前端B再根据所述图像属于粗粒度类别及细粒度类别的概率进行后处理，得到对应该图像识别结果，并将所述识别结果反馈给客户端。图14是本申请实施例提供的混合粒度物体识别方法的一种应用场景，图如19所示，用户通过客户端输入柯基犬的图像，待服务器处理后，收到服务器反馈的识别结果，将识别结果展示于客户端。

本实施例混合细粒度物体识别方法能够同时识别物体的粗粒度类别和细粒度类别，提升物体类别识别的准确性。

本申请实施例还提供了一种混合粒度物体识别模型的训练装置。图15是本申请实施例提供的混合粒度物体识别模型的训练装置的结构示意图，请参见图15，所述装置包括：

样本图像获取模块1510，用于获取样本图像，确定各样本图像的类别标签，所述类别标签包括细粒度类别和粗粒度类别；

模型训练模块1520，用于基于所述样本图像和所述样本图像的类别标签对初始深度学习模型进行图像的类别识别训练，得到预训练模型；

模型调整模块1530，用于以拉大细粒度类别之间的特征差异为目标对所述预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型。

在一种可选的实施方式中，所述样本图像获取模块1510可以包括：

图像采集单元2011，用于采集图像；

细粒度类别标注单元2012，用于标注所述图像所属的细粒度类别；

聚类处理单元2013，用于根据所述图像的细粒度类别和所述细粒度类别的特征对所述图像进行聚类处理，得到多个图像集合，每个所述图像集合中各图像所属粗粒度类别相同；

目标粗粒度类别确定单元2014，用于根据所述图像集合中各图像所属细粒度类别的分布，确定混合粒度物体识别模型学习的目标粗粒度类别；

样本图像确定单元2015，用于将与所述目标粗粒度类别对应的图像集合中的所有图像作为样本图像，并为各样本图像添加类别标签，所述类别标签包括细粒度类别和粗粒度类别。

在一种可选的实施方式中，所述模型训练模块1520可以用于：将所述样本图像和所述样本图像的类别标签输入卷积神经网络模型；对所述样本图像进行前向计算，得到所述样本图像属于粗粒度类别的预测概率和属于所述粗粒度类别下细粒度类别的预测概率；基于所述粗粒度类别的预测概率和所述细粒度类别的预测概率确定所述样本图像的类别预测结果；将所述类别预测结果与所述类别标签进行对比，计算得到粗粒度损失值和细粒度损失值；计算所述粗粒度损失值和细粒度损失值的加权和作为整体损失值；将所述整体损失值反向传播到卷积神经网络模型中，通过随机梯度下降法调整卷积神经网络模型的权重参数；将所述样本图像和所述样本图像的类别标签输入更新权重参数后的卷积神经网络模型，重复上述调整权重参数步骤至当前调整权重参数步骤的执行次数达到预设次数；将当前调整权重参数后的卷积神经网络模型作为所述预训练模型。

在一种可选的实施方式中，所述模型调整模块1530可以用于：对所述预训练模型进行前向计算，得到同一粗粒度类别下各样本图像的细粒度类别特征；细粒度分支分类损失值获取单元，用于根据各样本图像的细粒度类别特征和同一粗粒度类别下其他样本图像的细粒度类别特征计算得到细粒度分支分类损失值；确定各样本图像对应的正样本图像和负样本图像，根据所述样本图像、所述正样本图像和所述负样本图像计算得到三元组损失度量；所述正样本图像为与所述样本图像属同一细粒度类别的样本图像，所述负样本图像为与所述样本图像属同一粗粒度类别、不同细粒度类别的样本图像；根据所述细粒度分支分类损失值和三元组损失度量计算得到总损失值；根据所述总损失值调整所述细粒度分支分类模块的参数，得到混合粒度物体识别模型。

本实施例在混合粒度物体识别模型训练阶段，既对样本图像的粗粒度类别学习也对其细粒度类别进行学习，能够实现在同一个网络结构中进行粗粒度类别识别和细粒度类别识别；此外，对预训练模型的细粒度分支分类模块进行调整，拉大细粒度类别之间的差距，让细粒度类别特征在其所属的细粒度类别间具有区分能力，提升混合粒度识别中细粒度类别识别的准确性。

本实施例还提供了一种混合粒度物体识别装置，图16是本申请实施例提供的混合粒度物体识别装置的结构示意图，请参见图16，所述装置包括：

待识别图像获取模块1610，用于获取待识别图像；

类别识别处理模块1620，用于将所述待识别图像输入混合粒度物体识别模型进行类别识别处理，得到所述待识别图像属于各粗粒度类别的概率和属于所述粗粒度类别下各细粒度类别的概率；

类别识别结果确定模块1630，用于基于所述粗粒度类别的概率和所述细粒度类别的概率确定所述待识别图像的类别识别结果；

在一种可选的实施方式中，所述类别识别结果确定模块1630可以用于：将所述待识别图像属于的各粗粒度类别中概率最大的一类粗粒度类别确定为目标粗粒度类别；对所述目标粗粒度类别下各细粒度类别按照概率大小进行排序，选择排序在前的预设个数的细粒度类别作为所述待识别图像的类别识别结果。

本实施例混合细粒度物体识别装置能够同时识别物体的粗粒度类别和细粒度类别，提升物体类别识别的准确性。

本申请实施例中的装置与方法实施例基于同样地申请构思。

本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图17是本申请实施例提供的一种混合粒度物体识别方法的服务器的硬件结构框图。如图17所示，该服务器1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，CPU)1710(处理器1710可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1730，一个或一个以上存储应用程序1723或数据1722的存储介质1720(例如一个或一个以上海量存储设备)。其中，存储器1730和存储介质1720可以是短暂存储或持久存储。存储在存储介质1720的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1710可以设置为与存储介质1720通信，在服务器1700上执行存储介质1720中的一系列指令操作。服务器1700还可以包括一个或一个以上电源1760，一个或一个以上有线或无线网络接口1750，一个或一个以上输入输出接口1740，和/或，一个或一个以上操作***1721，例如Windows ServerTM，Mac OSXTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1700的通信供应商提供的无线网络。在一个实例中，输入输出接口1740包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1740可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图17所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1700还可包括比图17中所示更多或者更少的组件，或者具有与图17所示不同的配置。

本申请的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种混合粒度物体识别方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述混合粒度物体识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种混合粒度物体识别模型训练方法，其特征在于，所述方法包括：

以拉大细粒度类别之间的特征差异为目标对所述预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型；

其中，所述以拉大细粒度类别之间的特征差异为目标对所述预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型，包括：

对所述预训练模型进行前向计算，得到同一粗粒度类别下各样本图像的细粒度类别特征；

根据各样本图像的细粒度类别特征和同一粗粒度类别下其他样本图像的细粒度类别特征计算得到细粒度分支分类损失值；

确定各样本图像对应的正样本图像和负样本图像，根据所述样本图像、所述正样本图像和所述负样本图像计算得到三元组损失度量；所述正样本图像为与所述样本图像属同一细粒度类别的样本图像，所述负样本图像为与所述样本图像属同一粗粒度类别、不同细粒度类别的样本图像；

根据所述细粒度分支分类损失值和三元组损失度量计算得到总损失值；

根据所述总损失值调整所述细粒度分支分类模块的参数，得到混合粒度物体识别模型。

2.根据权利要求1所述的方法，其特征在于，所述获取样本图像，确定各样本图像的类别标签包括：

采集图像；

标注所述图像所属的细粒度类别；

根据所述图像的细粒度类别和所述细粒度类别的特征对所述图像进行聚类处理，得到多个图像集合，每个所述图像集合中各图像所属粗粒度类别相同；

根据所述图像集合中各图像所属细粒度类别的分布，确定混合粒度物体识别模型学习的目标粗粒度类别；

将与所述目标粗粒度类别对应的图像集合中的所有图像作为样本图像，并为各样本图像添加类别标签，所述类别标签包括细粒度类别和粗粒度类别。

3.根据权利要求1所述的方法，其特征在于，所述基于所述样本图像和所述样本图像的类别标签对初始深度学习模型进行图像的类别识别训练，得到预训练模型，包括：

将所述样本图像和所述样本图像的类别标签输入卷积神经网络模型；

对所述样本图像进行前向计算，得到所述样本图像属于粗粒度类别的预测概率和属于所述粗粒度类别下细粒度类别的预测概率；

基于所述粗粒度类别的预测概率和所述细粒度类别的预测概率确定所述样本图像的类别预测结果；

将所述类别预测结果与所述类别标签进行对比，计算得到粗粒度损失值和细粒度损失值；

计算所述粗粒度损失值和细粒度损失值的加权和作为整体损失值；

将所述整体损失值反向传播到卷积神经网络模型中，通过随机梯度下降法调整卷积神经网络模型的权重参数；

将所述样本图像和所述样本图像的类别标签输入更新权重参数后的卷积神经网络模型，重复调整权重参数步骤至当前调整权重参数步骤的执行次数达到预设次数；

将当前调整权重参数后的卷积神经网络模型作为所述预训练模型。

4.一种混合粒度物体识别方法，其特征在于，所述方法包括：

获取待识别图像；

其中，所述混合粒度物体识别模型是基于样本图像和对应的类别标签进行机器学习训练获得预训练模型，并对所述预训练模型的细粒度分支分类模块以拉大细粒度类别之间的特征差异为目标进行调整得到的；

其中，以拉大细粒度类别之间的特征差异为目标调整细粒度分支分类模块的步骤，包括：

根据所述总损失值调整所述细粒度分支分类模块的参数。

5.根据权利要求4所述的方法，其特征在于，所述基于所述粗粒度类别的概率和所述细粒度类别的概率确定所述待识别图像的类别识别结果，包括：

将所述待识别图像属于的各粗粒度类别中概率最大的一类粗粒度类别确定为目标粗粒度类别；

对所述目标粗粒度类别下各细粒度类别按照概率大小进行排序，选择排序在前的预设个数的细粒度类别作为所述待识别图像的类别识别结果。

6.一种混合粒度物体识别模型的训练装置，其特征在于，所述装置包括：

模型调整模块，用于以拉大细粒度类别之间的特征差异为目标对所述预训练模型的细粒度分支分类模块进行调整，得到混合粒度物体识别模型；

其中，所述模型调整模块，具体用于：

7.一种混合粒度物体识别装置，其特征在于，所述装置包括：

待识别图像获取模块，用于获取待识别图像；

其中，所述混合粒度物体识别模型是基于样本图像和对应的类别标签进行机器学习训练获得预训练模型，并对所述预训练模型的细粒度分支分类模块以拉大细粒度类别之间的特征差异为目标进行调整而得到的；

根据所述总损失值调整所述细粒度分支分类模块的参数。

8.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-3任一所述的混合粒度物体识别模型训练方法或权利要求4-5任一所述的混合粒度物体识别方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-3任一所述的混合粒度物体识别模型训练方法或权利要求4-5任一所述的混合粒度物体识别方法。