CN112766389A

CN112766389A - 图像分类方法、图像分类模型的训练方法、装置和设备

Info

Publication number: CN112766389A
Application number: CN202110101459.0A
Authority: CN
Inventors: 朱理; 魏晓明
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-07
Anticipated expiration: 2041-01-26
Also published as: CN112766389B

Abstract

本申请公开了一种图像分类方法、图像分类模型的训练方法、装置和设备，属于计算机技术领域。包括：获取待分类的目标图像和目标图像分类模型，目标图像分类模型通过类别层级树、训练样本和基于最短路径的损失函数训练得到，类别层级树和训练样本用于对初始图像分类模型进行训练，得到第一图像分类模型，基于最短路径的损失函数用于对第一图像分类模型进行更新，得到目标图像分类模型；调用目标图像分类模型对目标图像进行识别，得到目标图像对应的图像类别。该方法得到的目标图像分类模型的分类准确性和分类合理性较高，采用该目标图像分类模型对目标图像进行分类时，得到的目标图像的图像类别更为准确。

Description

图像分类方法、图像分类模型的训练方法、装置和设备

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种图像分类方法、图像分类模型的训练方法、装置和设备。

背景技术

随着计算机技术的飞速发展，电子设备的功能越来越强大，用户可以通过各种渠道获取到各式各样的图像，电子设备中也会存在大量不同类型的图像，因此，亟需一种图像分类方法来进行图像分类。

相关技术中，获取待分类的目标图像，将目标图像输入目标图像分类模型，基于目标图像分类模型对图像进行分类，得到图像对应的类别。其中，目标图像分类模型是由初始图像分类模型训练得到的，训练过程为：基于参考图像和参考图像的一种类别对初始图像分类模型进行训练，进而得到目标图像分类模型。

然而，上述目标图像分类模型的训练过程可能出现图像内容和图像类别不符的参考图像，基于该参考图像进行训练时容易出现过拟合的情况，进而导致在使用该目标图像分类模型进行图像类别的确定时，确定的图像类别的准确性较低。

发明内容

本申请实施例提供了一种图像分类方法、图像分类模型的训练方法、装置和设备，可用于解决相关技术中的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种图像分类方法，所述方法包括：

获取待分类的目标图像和目标图像分类模型，所述目标图像分类模型通过类别层级树、训练样本和基于最短路径的损失函数训练得到，所述类别层级树和所述训练样本用于对初始图像分类模型进行训练，得到第一图像分类模型，所述基于最短路径的损失函数用于对所述第一图像分类模型进行更新，得到所述目标图像分类模型；

调用所述目标图像分类模型对所述目标图像进行识别，得到所述目标图像对应的图像类别。

在一种可能的实现方式中，所述调用所述目标图像分类模型对所述目标图像进行识别，得到所述目标图像对应的图像类别，包括：

调用所述目标图像分类模型对所述目标图像进行识别，得到所述目标图像对应的多个参考类别以及各个参考类别的概率；

将概率满足目标要求的参考类别确定为所述目标图像对应的图像类别。

第二方面，本申请实施例提供了一种图像分类模型的训练方法，所述方法包括：

获取类别层级树和训练样本，所述类别层级树包括多个图像类别以及各个图像类别之间的关联，所述训练样本包括第一图像和所述第一图像的参考类别；

基于所述第一图像的参考类别和所述类别层级树，对所述第一图像进行类别平滑处理，得到所述第一图像属于各个第一类别的概率，所述第一类别为所述类别层级树中包括的任一图像类别；

基于所述第一图像和所述第一图像属于各个第一类别的概率，对初始图像分类模型进行训练，得到第一图像分类模型；

基于所述第一图像、所述第一图像的参考类别和所述第一图像分类模型，通过基于最短路径的损失函数，对所述第一图像分类模型进行更新，得到目标图像分类模型，所述目标图像分类模型用于进行图像分类。

在一种可能的实现方式中，所述基于所述第一图像、所述第一图像的参考类别和所述第一图像分类模型，通过基于最短路径的损失函数，对所述第一图像分类模型进行更新，得到目标图像分类模型，包括：

基于所述第一图像和所述第一图像分类模型，确定所述第一图像的预测类别；

基于所述第一图像的参考类别和所述第一图像的预测类别，通过所述基于最短路径的损失函数，确定目标路径损失值；

基于所述目标路径损失值对所述第一图像分类模型进行更新，得到所述目标图像分类模型。

在一种可能的实现方式中，所述基于所述第一图像的参考类别和所述第一图像的预测类别，通过所述基于最短路径的损失函数，确定目标路径损失值，包括：

基于所述第一图像的参考类别和所述第一图像的预测类别，通过所述基于最短路径的损失函数，按照下述公式确定目标路径损失值loss′：

其中，所述pred为所述第一图像的预测类别，所述gt为所述第一图像的参考类别，所述loss为基于所述第一图像的预测类别和所述第一图像的参考类别得到的原始路径损失值，所述lca为所述第一图像的预测类别和所述第一图像的参考类别共同对应的目标类别，所述root为所述类别层级树的根类别，所述SP_max为所述类别层级树对应的第一路径值，所述SP为所述第一图像的预测类别和所述第一图像的参考类别之间的第二路径值，所述otherwise为其他情况。

在一种可能的实现方式中，所述基于所述第一图像的参考类别和所述类别层级树，对所述第一图像进行类别平滑处理，得到所述第一图像属于各个第一类别的概率，包括：

基于所述第一图像的参考类别和所述类别层级树，按照下述公式对所述第一图像进行类别平滑处理，得到所述第一图像属于各个第一类别的概率P_i：

其中，所述i为第i类别，所述gt为所述第一图像的参考类别，所述α为与所述第一图像的参考类别相关联的类别的赋值比例，所述β为与所述第一图像的参考类别不相关联的类别的赋值比例，所述∈为惩罚值，所述∈的取值为[0.1,0.2]，所述N₁为所述类别层级树中与所述第一图像的参考类别相关联的类别数量，所述N₂为所述类别层级树中与所述第一图像的参考类别不相关联的类别数量。

第三方面，本申请实施例提供了一种图像分类装置，所述装置包括：

获取模块，用于获取待分类的目标图像和目标图像分类模型，所述目标图像分类模型通过类别层级树、训练样本和基于最短路径的损失函数训练得到，所述类别层级树和所述训练样本用于对初始图像分类模型进行训练，得到第一图像分类模型，所述基于最短路径的损失函数用于对所述第一图像分类模型进行更新，得到所述目标图像分类模型；

识别模块，用于调用所述目标图像分类模型对所述目标图像进行识别，得到所述目标图像对应的图像类别。

在一种可能的实现方式中，所述识别模块，用于调用所述目标图像分类模型对所述目标图像进行识别，得到所述目标图像对应的多个参考类别以及各个参考类别的概率；

第四方面，本申请实施例提供了一种图像分类模型的训练装置，所述装置包括：

获取模块，用于获取类别层级树和训练样本，所述类别层级树包括多个图像类别以及各个图像类别之间的关联，所述训练样本包括第一图像和所述第一图像的参考类别；

处理模块，用于基于所述第一图像的参考类别和所述类别层级树，对所述第一图像进行类别平滑处理，得到所述第一图像属于各个第一类别的概率，所述第一类别为所述类别层级树中包括的任一图像类别；

训练模块，用于基于所述第一图像和所述第一图像属于各个第一类别的概率，对初始图像分类模型进行训练，得到第一图像分类模型；

更新模块，用于基于所述第一图像、所述第一图像的参考类别和所述第一图像分类模型，通过基于最短路径的损失函数，对所述第一图像分类模型进行更新，得到目标图像分类模型，所述目标图像分类模型用于进行图像分类。

在一种可能的实现方式中，所述更新模块，用于基于所述第一图像和所述第一图像分类模型，确定所述第一图像的预测类别；

在一种可能的实现方式中，所述更新模块，用于基于所述第一图像的参考类别、所述第一图像的预测类别，通过所述基于最短路径的损失函数，按照下述公式确定目标路径损失值loss′：

在一种可能的实现方式中，所述处理模块，用于基于所述第一图像的参考类别和所述类别层级树，按照下述公式对所述第一图像进行类别平滑处理，得到所述第一图像属于各个第一类别的概率P_i：

第五方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述第一方面或第一方面的任一种可能的实现方式所述的图像分类方法，或者，实现上述第二方面或第二方面的任一种可能的实现方式所述的图像分类模型的训练方法。

第六方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述第一方面或第一方面的任一种可能的实现方式所述的图像分类方法，或者，实现上述第二方面或第二方面的任一种可能的实现方式所述的图像分类模型的训练方法。

第七方面，还提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品中存储有至少一条计算机指令，所述至少一条计算机指令由处理器加载并执行，以实现上述第一方面或第一方面的任一种可能的实现方式所述的图像分类方法，或者，实现上述第二方面或第二方面的任一种可能的实现方式所述的图像分类模型的训练方法。

本申请实施例提供的技术方案至少带来如下有益效果：

本申请实施例提供的技术方案基于类别层级树和训练样本对初始图像分类模型进行训练，得到第一图像分类模型，使得第一图像分类模型的泛化能力较好，且第一图像分类模型能够有效防止训练过拟合的情况；再根据基于最短路径的损失函数对第一图像分类模型进行更新，得到目标图像分类模型，使得目标图像分类模型的分类准确性更好。采用目标图像分类模型确定图像类别时，能够提高确定的图像类别的准确性和合理性。因此，调用该目标图像分类模型来确定目标图像对应的图像类别时，使得确定的目标图像的图像类别更加准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像分类方法、图像分类模型的训练方法的实施环境示意图；

图2是本申请实施例提供的一种图像分类方法的流程图；

图3是本申请实施例提供的一种图像分类模型的训练方法的流程图；

图4是本申请实施例提供的一种类别层级树的示意图；

图5是本申请实施例提供的一种图像分类装置的结构示意图；

图6是本申请实施例提供的一种图像分类模型的训练装置的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种图像分类模型的训练方法、图像分类方法的实施环境示意图，如图1所示，该实施环境包括：电子设备101。

电子设备101可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。电子设备101用于执行本申请实施例提供的图像分类方法、图像分类模型的训练方法。

电子设备101可以泛指多个电子设备中的一个，本实施例仅以电子设备101来举例说明。本领域技术人员可以知晓，上述电子设备101的数量可以更多或更少。比如上述电子设备101可以仅为一个，或者上述电子设备101为几十个或几百个，或者更多数量，本申请实施例对电子设备的数量和设备类型不加以限定。

基于上述实施环境，本申请实施例提供了一种图像分类方法，以图2所示的本申请实施例提供的一种图像分类方法的流程图为例，该方法可由图1中的电子设备101执行。如图2所示，该方法包括下述步骤201至步骤202：

在步骤201中，获取待分类的目标图像和目标图像分类模型。

在本申请示例性实施例中，目标图像分类模型通过类别层级树、训练样本和基于最短路径的损失函数训练得到，类别层级树和训练样本用于对初始图像分类模型进行训练，得到第一图像分类模型，基于最短路径的损失函数用于对第一图像分类模型进行更新，得到目标图像分类模型。

在一种可能的实现方式中，待分类的目标图像为任意类型、任意格式、任意尺寸的图像，本申请实施例对此不加以限定。电子设备中存储有至少一张图像，电子设备可以直接在其存储空间中获取一张图像，将该图像确定为待分类的目标图像。电子设备还可以提供上传图像的入口，由用户基于该上传图像的入口上传一张图像，电子设备将用户上传的图像确定为待分类的目标图像。当然，还可以由其他方式获取待分类的目标图像，本申请实施例对此不加以限定。

在一种可能的实现方式中，电子设备提前对初始图像分类模型进行训练，得到目标图像分类模型，并将得到的目标图像分类模型存储在其存储空间中，该目标图像分类模型用于进行图像分类。当电子设备接收到待分类的目标图像之后，从其存储空间中提取该目标图像分类模型，也即是电子设备获取到目标图像分类模型。该目标图像分类模型的训练过程以图3所示的实施例进行说明，在此不再赘述。

在步骤202中，调用目标图像分类模型对目标图像进行处理，得到目标图像对应的图像类别。

在一种可能的实现方式中，调用目标图像分类模型对目标图像进行处理，得到目标图像对应的图像类别的过程如下：

调用目标图像分类模型对目标图像进行识别，得到目标图像对应的多个参考类别以及各个参考类别的概率；将概率满足目标要求的参考类别确定为目标图像对应的图像类别。

其中，调用目标图像分类模型对目标图像进行识别，得到目标图像对应的多个参考类别以及各个参考类别的概率的过程为：将目标图像输入目标图像分类模型，基于目标图像分类模型对目标图像进行识别，得到目标图像对应的多个参考类别以及各个参考类别的概率。概率满足目标要求的参考类别可以是概率最大的参考类别，也可以是其他参考类别，本申请实施例对此不加以限定。

示例性地，将目标图像输入目标图像分类模型，由目标图像分类模型对目标图像进行识别，得到目标图像对应的多个参考类别以及各个参考类别的概率分别为：第一参考类别，80％，第二参考类别15％，第三参考类别，5％。由于第一参考类别的概率最大，因此将第一参考类别确定为目标图像对应的图像类别。

上述方法基于类别层级树和训练样本对初始图像分类模型进行训练，得到第一图像分类模型，使得第一图像分类模型的泛化能力较好，且第一图像分类模型能够有效防止训练过拟合的情况；再根据基于最短路径的损失函数对第一图像分类模型进行更新，得到目标图像分类模型，使得目标图像分类模型的分类准确性更好。采用目标图像分类模型确定图像类别时，能够提高确定的图像类别的准确性和合理性。因此，调用该目标图像分类模型来确定目标图像对应的图像类别时，使得确定的目标图像的类别更加准确。

本申请实施例提供了一种图像分类模型的训练方法，以图3所示的本申请实施例提供的一种图像分类模型的训练方法的流程图为例，该方法可由图1中的电子设备101执行。如图3所示，该方法包括下述步骤301至步骤304：

在步骤301中，获取类别层级树和训练样本，类别层级树包括多个图像类别以及各个图像类别之间的关联，训练样本包括第一图像和第一图像的参考类别。

在一种可能的实现方式中，电子设备中安装和运行有用于获取资源的应用程序，该应用程序可以获取不同类别的资源，本申请实施例对该应用程序的程序类型不加以限定。该应用程序为不同类别的资源建立有对应的类别层级树。例如，该应用程序可以提供游戏类资源、丽人类资源和教育类资源等类别的资源，分别对该丽人类资源建立有丽人类资源对应的类别层级树，对游戏类资源建立有游戏类资源对应的类别层级树，对教育类资源建立有教育类资源对应的类别层级树。

在一种可能的实现方式中，类别层级树包括多个资源类别以及各个资源类别之间的关联。在类别层级树中，与图像的参考类别相邻的类别(上级类别、同级类别和下级类别)作为与图像的参考类别相关联的类别，与图像的参考类别不相邻的类别作为与图像的参考类别不相关联的类别。

如图4所示为本申请实施例提供的一种类别层级树的示意图，该类别层级树为丽人类资源对应的类别层级树，该类别层级树的根类别为丽人，该类别层级树包括12个类别，分别为：美发、美睫、纹绣、美甲、纹身、美容美体、瑜伽、舞蹈、保健、医美整形、门店环境、宣传图。也即是，该丽人类资源包括的资源有12个类别，分别为美发、美睫、纹绣、美甲、纹身、美容美体、瑜伽、舞蹈、保健、医美整形、门店环境、宣传图资源。资源可以是代金券，如，美发代金券，也可以是其他类型的资源，本申请实施例对此不加以限定。

其中，美发包括：剪发、染发烫发、洗发、接发、植发、发型；剪发又包括：儿童剪发和成人剪发；发型又包括：脏辫、油头和盘发。其他类别所包括的类别如图4所示，在此不再赘述。该类别层级树中还包括各个类别之间的关联关系，如剪发，由于美发为剪发的上级类别，染发烫发、洗发、接发、植发和发型为剪发的同级类别，儿童剪发和成人剪发为剪发的下级类别，因此，将美发、染发烫发、洗发、接发、植发、发型、儿童剪发和成人剪发确定为与剪发相关联的类别。将类别层级树中除美发、染发烫发、洗发、接发、植发、发型、儿童剪发和成人剪发之外的类别确定为与剪发不相关联的类别。

需要说明的是，与其他类别相关联的类别的确定过程与上述与剪发相关联的类别的确定过程一致，与其他类别不相关联的类别的确定过程与上述与剪发不相关联的类别的确定过程一致，在此不再赘述。

在一种可能的实现方式中，训练样本为任意一种图像集，训练样本中包括多个第一图像以及各个第一图像的参考类别，该第一图像的参考类别为用户根据第一图像的图像内容所确定的一个类别，但是该第一图像的参考类别有时候并不一定能够百分百的反应第一图像的内容，也即是第一图像的参考类别有可能为错误的类别。

需要说明的是，训练样本为电子设备中存储的任意一种图像集，或者由电子设备从互联网上获取的任意一种图像集，本申请实施例对此不加以限定。

还需要说明的是，该类别层级树为与训练样本对应的类别层级树，如训练样本中包括的图像为丽人类资源对应的图像，则该类别层级树为丽人类资源对应的类别层级树；又如训练样本中包括的图像为游戏类资源对应的图像，则该类别层级树为游戏类资源对应的类别层级树。

在步骤302中，基于第一图像的参考类别和类别层级树，对第一图像进行类别平滑处理，得到第一图像属于各个第一类别的概率，第一类别为类别层级树中包括的任一图像类别。

在一种可能的实现方式中，基于第一图像的参考类别和类别层级树，对第一图像进行类别平滑处理，得到第一图像属于各个第一类别的概率的过程如下：

基于第一图像的参考类别和类别层级树，按照下述公式(1)对第一图像进行类别平滑处理，得到第一图像属于各个第一类别的概率P_i：

在上述公式(1)中，i为第i类别，gt为第一图像的参考类别，α为与第一图像的参考类别相关联的类别的赋值比例，β为与第一图像的参考类别不相关联的类别的赋值比例，∈为惩罚值，∈的取值为[0.1,0.2]，N₁为类别层级树中与第一图像的参考类别相关联的类别数量，N₂为类别层级树中与第一图像的参考类别不相关联的类别数量。

需要说明的是，与第一图像的参考类别相关联的类别的赋值比例(α的值)大于与第一图像的参考类别不相关联的类别的赋值比例(β的值)，且，与第一图像的参考类别相关联的类别的赋值比例和与第一图像的参考类别不相关联的类别的赋值比例之间的和为1。

还需要说明的是，惩罚值∈的取值、与第一图像的参考类别相关联的类别的赋值比例(α的值)和与第一图像的参考类别不相关联的类别的赋值比例(β的值)均为用户事先确定的。

在一种可能的实现方式中，当第一类别为与第一图像的参考类别一致的类别时，按照上述公式(1)中的第一个公式来确定第一图像属于第一类别的概率；当第一类别为与第一图像的参考类别相关联的类别时，按照上述公式(1)中的第二个公式来确定第一图像属于第一类别的概率；当第一类别为与第一图像的参考类别不相关联的类别时，按照上述公式(1)中的第三个公式来确定第一图像属于第一类别的概率。

基于上述公式(1)对第一图像进行类别平滑处理，可以确定出第一图像属于类别层级树中的每一个类别的概率，从而在基于第一图像以及第一图像属于各个类别的概率，对图像分类模型进行训练时，能够有效避免模型过拟合的情况，从而可以提高图像分类模型的准确性。

示例性地，以第一图像的参考类别为剪发为例，确定类别层级树中与剪发相关联的类别数量为N₁＝8，类别层级树中与剪发不相关联的类别数量N₂＝53。以∈的取值为0.2，与第一图像的参考类别相关联的类别的赋值比例α＝0.7，与第一图像的参考类别不相关联的类别的赋值比例β＝0.3。当第一类别为第一图像的参考类别时，将第一图像属于第一类别的概率确定为0.8；当第一类别为与第一图像的参考类别相关联的类别时，第一图像属于第一类别的概率确定为0.0175；当第一类别为与第一图像的参考类别不相关联的类别时，第一图像属于第一类别的概率确定为0.0011。

在步骤303中，基于第一图像和第一图像属于各个第一类别的概率，对初始图像分类模型进行训练，得到第一图像分类模型。

在一种可能的实现方式中，初始图像分类模型为任意类型的图像分类模型，本申请实施例对此不加以限定。示例性地，初始图像分类模型为残差网络模型(ResidualNetwork，ResNET)，或者为视觉几何组模型(Visual Geometry Group，VGG)。

在一种可能的实现方式中，基于第一图像和第一图像属于各个第一类别的概率，对初始图像分类模型进行训练的过程如下：将第一图像和第一图像属于各个第一类别的概率输入初始图像分类模型，以使第一图像和第一图像属于各个第一类别的概率对初始图像分类模型进行训练，从而得到第一图像分类模型。

第一图像分类模型的训练过程中，由于考虑到第一图像属于各个第一类别的概率，因此可以有效防止第一图像分类模型的训练过拟合的情况，使得第一图像分类模型的分类准确性有所提高。在基于第一图像分类模型确定图像的类别时，先输出图像对应的多个类别以及各个类别的概率，进而将概率满足目标要求的类别(概率最大的类别)确定为图像的类别，以使得图像的类别的确定过程更为准确。

在步骤304中，基于第一图像、第一图像的参考类别和第一图像分类模型，通过基于最短路径的损失函数，对第一图像分类模型进行更新，得到目标图像分类模型。

在一种可能的实现方式中，基于第一图像、第一图像的参考类别和第一图像分类模型，通过基于最短路径的损失函数，对第一图像分类模型进行更新的过程如下：基于第一图像和第一图像分类模型，确定第一图像的预测类别；基于第一图像的参考类别和第一图像的预测类别，通过基于最短路径的损失函数，确定目标路径损失值；基于目标路径损失值对第一图像分类模型进行更新，得到目标图像分类模型。

其中，基于第一图像和第一图像分类模型，确定第一图像的预测类别的过程为：将第一图像输入第一图像分类模型，基于第一图像分类模型的输出结果，得到第一图像对应的多个类别以及各个类别的概率，将概率最大的类别确定为第一图像的预测类别。

示例性地，将第一图像输入第一图像分类模型，基于第一图像分类模型对第一图像进行识别，得到的识别结果为：剪发，概率为80％，染发，概率为10％，烫发，概率为10％。由于剪发的概率最高，因此将剪发确定为第一图像的预测类别。

基于第一图像的参考类别和第一图像的预测类别，通过基于最短路径的损失函数，确定目标路径损失值的过程如下：基于第一图像的参考类别和第一图像的预测类别，通过基于最短路径的损失函数，按照下述公式(2)确定目标路径损失值loss′：

在上述公式(2)中，pred为第一图像的预测类别，gt为第一图像的参考类别，loss为基于第一图像的预测类别和第一图像的参考类别得到的原始路径损失值，lca为第一图像的预测类别和第一图像的参考类别共同对应的目标类别，root为类别层级树的根类别，SP_max为类别层级树对应的第一路径值，SP为第一图像的预测类别和第一图像的参考类别之间的第二路径值，otherwise为其他情况。

在一种可能的实现方式中，当第一图像的参考类别和第一图像的预测类别为相同的类别时，按照上述公式(2)中的第一个公式确定目标路径损失值。

其中，基于第一图像的预测类别和第一图像的参考类别，确定原始路径损失值时，基于交叉熵损失函数确定第一图像的预测类别和第一图像的参考类别之间的原始路径损失值。当然还可以基于其他损失函数确定第一图像的预测类别和第一图像的参考类别之间的原始路径损失值，本申请实施例对此不加以限定。

示例性地，第一图像的参考类别为剪发，基于第一图像分类模型确定的第一图像的预测类别也为剪发，由于第一图像的参考类别和第一图像的预测类别为相同的类别，因此，确定第一图像的参考类别和第一图像的预测类别之间的原始路径损失值为0。进而，按照上述公式(2)中的第一个公式确定第一图像的参考类别和第一图像的预测类别之间的目标路径损失值也为0。

在一种可能的实现方式中，响应于第一图像的参考类别和第一图像的预测类别为不相同的类别，基于交叉熵损失函数计算第一图像的参考类别和第一图像的预测类别之间的损失值，将该损失值确定为原始路径损失值；确定第一图像的参考类别和第一图像的预测类别共同对应的目标类别，该目标类别为第一图像的参考类别和第一图像的预测类别对应的最近公共类别，响应于该第一图像的参考类别和第一图像的预测类别共同对应的目标类别与类别层级树的根类别一致，确定类别层级树的第一路径值，该第一路径值为该类别层级树中的最远路径值，基于原始路径损失值和第一路径值确定目标路径损失值。

示例性地，第一图像的参考类别为剪发，第一图像的预测类别为美睫，基于第一图像的参考类别、第一图像的预测类别和交叉熵损失函数确定原始路径损失值为1。类别层级树的根类别为丽人，第一图像的预测类别和第一图像的参考类别共同对应的目标类别为丽人。由于第一图像的预测类别和第一图像的参考类别共同对应的目标类别与类别层级树的根类别一致，因此，确定类别层级树的第一路径值为4，按照上述公式(2)中的第二个公式确定目标路径损失值为loss′＝loss*log(SP_max)＝1*log4＝0.6。

在一种可能的实现方式中，响应于第一图像的参考类别和第一图像的预测类别为不相同的类别，且第一图像的参考类别和第一图像的预测类别共同对应的目标类别与类别层级树的根类别不一致，则基于交叉熵损失函数计算第一图像的参考类别和第一图像的预测类别之间的损失值，将该损失值确定为原始路径损失值，确定第一图像的参考类别到第一图像的预测类别之间的路径值，将该路径值确定为第二路径值；基于原始路径损失值和第二路径损失值确定目标路径损失值。

示例性地，第一图像的参考类别为剪发，第一图像的预测类别为洗发，基于第一图像的参考类别、第一图像的预测类别和交叉熵损失函数确定原始路径损失值为0.6,。类别层级树的根类别为丽人，第一图像的参考类别和第一图像的预测类别共同对应的目标类别为美发，由于第一图像的参考类别和第一图像的预测类别共同对应的目标类别与类别层级树的根类别不一致，因此，基于第一图像的参考类别和第一图像的预测类别，确定第一图像的参考类别到第一图像的预测类别的第二路径值为4，基于原始路径损失值和第二路径损失值，按照上述公式(2)的第三个公式，确定目标路径损失值为loss′＝loss*log(SP)＝0.6*log4＝0.38。

基于上述过程确定出目标路径损失值之后，将该目标路径损失值输入第一图像分类模型，基于该目标路径损失值对第一图像分类模型中的参数进行更新，从而得到更新后的参数，基于更新后的参数确定目标图像分类模型，该目标图像分类模型用于进行图像分类。

上述方法基于类别层级树对第一图像进行平滑处理，得到第一图像属于各个类别的概率，基于第一图像以及第一图像属于各个类别的概率对初始图像分类模型进行训练，得到第一图像分类模型，由于对第一图像进行了平滑处理，使得得到的第一图像分类模型能够有效防止训练过拟合的情况，进而提高第一图像分类模型的准确性。再根据基于最短路径的损失函数对第一图像分类模型进行更新，得到准确度更高的目标图像分类模型，使得在使用目标图像分类模型进行图像分类时，能够进一步提升目标图像分类模型的准确率和分类结果的合理性。

图5所示为本申请实施例提供的一种图像分类装置的结构示意图，如图5所示，该装置包括：

获取模块501，用于获取待分类的目标图像和目标图像分类模型，该目标图像分类模型通过类别层级树、训练样本和基于最短路径的损失函数训练得到，该类别层级树和该训练样本用于对初始图像分类模型进行训练，得到第一图像分类模型，该基于最短路径的损失函数用于对该第一图像分类模型进行更新，得到该目标图像分类模型；

识别模块502，用于调用该目标图像分类模型对该目标图像进行识别，得到该目标图像对应的图像类别。

在一种可能的实现方式中，该识别模块502，用于调用该目标图像分类模型对该目标图像进行识别，得到该目标图像对应的多个参考类别以及各个参考类别的概率；

将概率满足目标要求的参考类别确定为该目标图像对应的图像类别。

上述装置基于类别层级树和训练样本对初始图像分类模型进行训练，得到第一图像分类模型，使得第一图像分类模型的泛化能力较好，且第一图像分类模型能够有效防止训练过拟合的情况；再根据基于最短路径的损失函数对第一图像分类模型进行更新，得到目标图像分类模型，使得目标图像分类模型的分类准确性更好。采用目标图像分类模型确定图像类别时，能够提高确定的图像类别的准确性和合理性。因此，调用该目标图像分类模型来确定目标图像对应的图像类别时，使得确定的目标图像的类别更加准确。

图6所示为本申请实施例提供的一种图像分类模型的训练装置的结构示意图，如图6所示，该装置包括：

获取模块601，用于获取类别层级树和训练样本，该类别层级树包括多个图像类别以及各个图像类别之间的关联，该训练样本包括第一图像和第一图像的参考类别；

处理模块602，用于基于该第一图像的参考类别和该类别层级树，对该第一图像进行类别平滑处理，得到该第一图像属于各个第一类别的概率，该第一类别为该类别层级树中包括的任一图像类别；

训练模块603，用于基于该第一图像和该第一图像属于各个第一类别的概率，对初始图像分类模型进行训练，得到第一图像分类模型；

更新模块604，用于基于该第一图像、该第一图像的参考类别和该第一图像分类模型，通过基于最短路径的损失函数，对该第一图像分类模型进行更新，得到目标图像分类模型，该目标图像分类模型用于进行图像分类。

在一种可能的实现方式中，该更新模块604，用于基于该第一图像和该第一图像分类模型，确定该第一图像的预测类别；

基于该第一图像的参考类别和该第一图像的预测类别，通过该基于最短路径的损失函数，确定目标路径损失值；

基于该目标路径损失值对该第一图像分类模型进行更新，得到该目标图像分类模型。

在一种可能的实现方式中，该更新模块604，用于基于该第一图像的参考类别、该第一图像的预测类别，通过该基于最短路径的损失函数，按照下述公式确定目标路径损失值loss^′：

其中，该pred为该第一图像的预测类别，该gt为该第一图像的参考类别，该loss为基于该第一图像的预测类别和该第一图像的参考类别得到的原始路径损失值，该lca为该第一图像的预测类别和该第一图像的参考类别共同对应的目标类别，该root为该类别层级树的根类别，该SP_max为该类别层级树对应的第一路径值，该SP为该第一图像的预测类别和该第一图像的参考类别之间的第二路径值，otherwise为其他情况。

在一种可能的实现方式中，该处理模块602，用于基于该第一图像的参考类别和该类别层级树，按照下述公式对该第一图像进行类别平滑处理，得到该第一图像属于各个第一类别的概率P_i：

其中，该i为第i类别，该gt为该第一图像的参考类别，该α为与该第一图像的参考类别相关联的类别的赋值比例，该β为与该第一图像的参考类别不相关联的类别的赋值比例，该∈为惩罚值，该∈的取值为[0.1,0.2]，该N₁为该类别层级树中与该第一图像的参考类别相关联的类别数量，该N₂为该类别层级树中与该第一图像的参考类别不相关联的类别数量。

上述装置基于类别层级树对第一图像进行平滑处理，得到第一图像属于各个类别的概率，基于第一图像以及第一图像属于各个类别的概率对初始图像分类模型进行训练，得到第一图像分类模型，由于对第一图像进行了平滑处理，使得得到的第一图像分类模型能够有效防止训练过拟合的情况，进而提高第一图像分类模型的准确性。再根据基于最短路径的损失函数对第一图像分类模型进行更新，得到准确度更高的目标图像分类模型，使得在使用目标图像分类模型进行图像分类时，能够进一步提升目标图像分类模型的准确率和分类结果的合理性。

应理解的是，上述图5和图6提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与对应的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7示出了本申请一个示例性实施例提供的电子设备700的结构框图。该电子设备700可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的图像分类方法、图像分类模型的训练方法。

在一些实施例中，电子设备700还可选包括有：***设备接口703和至少一个***设备。处理器701、存储器702和***设备接口703之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口703相连。具体地，***设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。

***设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和***设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和***设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置在电子设备700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在电子设备700的不同表面或呈折叠设计；在另一些实施例中，显示屏705可以是柔性显示屏，设置在电子设备700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位电子设备700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源709用于为电子设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以电子设备700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测电子设备700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对电子设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在电子设备700的侧边框和/或显示屏705的下层。当压力传感器713设置在电子设备700的侧边框时，可以检测用户对电子设备700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置在电子设备700的正面、背面或侧面。当电子设备700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在电子设备700的前面板。接近传感器716用于采集用户与电子设备700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对电子设备700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述任一种图像分类方法、图像分类模型的训练方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品中存储有至少一条计算机指令，该至少一条计算机指令由处理器加载并执行，以实现上述任一种图像分类方法、图像分类模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述调用所述目标图像分类模型对所述目标图像进行识别，得到所述目标图像对应的图像类别，包括：

3.一种图像分类模型的训练方法，其特征在于，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一图像、所述第一图像的参考类别和所述第一图像分类模型，通过基于最短路径的损失函数，对所述第一图像分类模型进行更新，得到目标图像分类模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一图像的参考类别和所述第一图像的预测类别，通过所述基于最短路径的损失函数，确定目标路径损失值，包括：

6.根据权利要求3至5任一所述的方法，其特征在于，所述基于所述第一图像的参考类别和所述类别层级树，对所述第一图像进行类别平滑处理，得到所述第一图像属于各个第一类别的概率，包括：

7.一种图像分类装置，其特征在于，所述装置包括：

8.一种图像分类模型的训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1或2所述的图像分类方法，或者，实现如权利要求3至6任一所述的图像分类模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1或2所述的图像分类方法，或者，实现如权利要求3至6任一所述的图像分类模型的训练方法。