CN108875934A

CN108875934A - 一种神经网络的训练方法、装置、***及存储介质

Info

Publication number: CN108875934A
Application number: CN201810525605.0A
Authority: CN
Inventors: 黄鼎; 张�诚; 朱星宇
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-23

Abstract

本发明提供了一种用于图像识别的神经网络的训练方法、装置、***及存储介质以及一种基于神经网络的图像识别方法。该训练方法包括：接收标注了N个图像分类层次的类别标签的样本图像，其中相邻图像分类层次中的下一层次的类别是其上一层次的类别的子类，N为大于1的整数；利用样本图像对神经网络进行训练，其中，基于每个图像分类层次的类别标签，分别计算针对样本图像的分类损失，以作为该图像分类层次的层次损失；根据每个图像分类层次的层次损失计算总损失；利用总损失作为目标函数训练神经网络的参数。本发明的技术方案获得了能够更准确地进行图像识别的神经网络。

Description

一种神经网络的训练方法、装置、***及存储介质

技术领域

本发明涉及图像处理技术领域，更具体地涉及一种用于图像识别的神经网络的训练方法、装置、***及存储介质，此外，还涉及一种基于神经网络的图像识别方法。

背景技术

图像识别是指对图像进行分析处理，以识别该图像中各种对象的技术。其目标为给定一张图像，自动判断该图像中的对象属于何种具体的物体或何种具体的场景。如今，图像识别在智能相机拍照、智能相册管理、图像分类和检索、图像安全监控等方面发挥着非常重要的作用，也因此受到了广泛的关注和研究。

现有的图像识别方法中，将所有目标类别(可以包括前景物体和背景)直接作为神经网络的输出训练神经网络的参数，以得到训练好的神经网络作为图像识别***的分类器。这种神经网络当物体种类和/或场景种类越来越多，对于内容复杂的图像，将无法获得理想的图像识别结果。

为解决上述技术问题，有必要提出一种新的用于图像识别的神经网络的训练技术。

发明内容

考虑到上述问题而提出了本发明。

根据本发明一方面，提供了一种用于图像识别的神经网络的训练方法，包括：

接收标注了N个图像分类层次的类别标签的样本图像，其中相邻图像分类层次中的下一层次的类别是其上一层次的类别的子类，N为大于1的整数；

利用所述样本图像对神经网络进行训练，其中，

基于每个图像分类层次的类别标签，分别计算针对所述样本图像的分类损失，以作为该图像分类层次的层次损失；

根据所述每个图像分类层次的层次损失计算总损失；

利用所述总损失作为目标函数训练所述神经网络的参数。

示例性地，所述基于每个图像分类层次的类别标签，分别计算针对所述样本图像的分类损失，以作为该图像分类层次的层次损失包括：

针对每个图像分类层次，基于该图像分类层次的类别标签和所述神经网络的输出层输出的该图像分类层次的分类结果，计算该图像分类层次的层次损失。

示例性地，所述神经网络包括：M个卷积层和N个全连接层，其中，

所述M个卷积层中的N个分别与所述N个全连接层一一连接并且与所述N个全连接层一一连接的卷积层包括第M卷积层，所述N个全连接层的输出分别与所述N个图像分类层次一一对应，与第M卷积层连接的全连接层的输出对应于第N层次的图像分类，M为大于N的整数。

针对每个图像分类层次，由与该图像分类层次对应的全连接层输出该图像分类层次的分类结果；基于该分类结果和该图像分类层次的类别标签，计算该图像分类层次的层次损失。

示例性地，所述根据所述每个图像分类层次的层次损失计算总损失包括：

根据如下公式计算所述总损失Loss：

其中，Loss_i是第i个图像分类层次的层次损失，W_i是控制第i个图像分类层次的层次损失Loss_i的作用程度的参数，0<i<N+1。

示例性地，所述方法还包括：通过搜索算法确定所述参数W_i。

示例性地，所述方法还包括：接收根据经验值设置的所述参数W_i。

示例性地，所述N个图像分类层次的类别标签包括：

根据类间相似程度进行分类的N个图像分类层次的类别标签；或

根据区分难度的不同进行分类的N个图像分类层次的类别标签。

示例性地，所述图像识别包括图像的场景识别。

根据本发明一方面，提供了一种基于神经网络的图像识别方法，包括：

获取待识别图像；

利用训练好的所述神经网络对所述待识别图像进行图像识别，其中，所述神经网络通前述的训练方法训练得到。

根据本发明另一方面，还提供了一种用于图像识别的神经网络的训练装置，包括：

接收模块，接收标注了N个图像分类层次的类别标签的样本图像，其中相邻图像分类层次中的下一层次的类别是其上一层次的类别的子类，N为大于1的整数；

训练模块，利用所述样本图像对神经网络进行训练，其中，

根据所述每个图像分类层次的层次损失计算总损失；

利用所述总损失作为目标函数训练所述神经网络的参数。

根据本发明又一方面，还提供了一种用于图像识别的神经网络的训练***，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行前述的用于图像识别的神经网络的训练方法。

根据本发明再一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行前述的用于图像识别的神经网络的训练方法。

根据本发明实施例的用于图像识别的神经网络的训练方法、装置、***及存储介质，样本图像标注了多个图像分类层次的类别标签，训练神经网络基于多个层次的分类确定图像识别结果。由此，上述技术方案获得了能够更准确地进行图像识别的神经网络。尤其对于内容复杂的图像的识别，上述技术方案获得的神经网络与现有技术相比能够显著提高图像识别准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了用于实现根据本发明实施例的用于图像识别的神经网络的训练方法和装置的示例电子设备的示意性框图；

图2示出了根据现有技术的用于图像识别的示例分类器的示意图；

图3示出了根据本发明一个实施例的用于图像识别的示例分类器的示意图；

图4示出了根据本发明一个实施例的用于图像识别的神经网络的训练方法的示意性流程图；

图5示出了根据本发明一个实施例的利用样本图像对神经网络进行训练的示意性流程图；

图6示出了根据本发明一个实施例的用于图像识别的神经网络的训练方法的示意性框图；

图7示出了根据本发明另一个实施例的用于图像识别的神经网络的训练方法的示意性框图；

图8示出了根据本发明一个具体实施例的用于图像识别的神经网络的训练方法的示意性框图；

图9示出了根据本发明一个实施例的图像识别方法的示意性流程图；

图10示出了根据本发明一个实施例的用于图像识别的神经网络的训练装置的示意性框图；以及

图11示出了根据本发明一个实施例的用于图像识别的神经网络的训练***的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现根据本发明实施例的用于图像识别的神经网络的训练方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108和数据获取装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)、图形处理器(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述数据获取装置110可以采集图像等各种形式的数据，并且将所采集的数据存储在所述存储装置104中以供其它组件使用。数据获取装置110可以是摄像头等。应当理解，数据获取装置110仅是示例，电子设备100可以不包括数据获取装置110。在这种情况下，可以利用其他数据获取装置获取数据，并将所获取的数据发送给电子设备100。

示例性地，用于实现根据本发明实施例的用于图像识别的神经网络的训练方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

用于图像识别的神经网络的训练采用监督学习方法。为了训练用于图像识别的神经网络，需要提供足够数量的样本图像。每个样本图像标注了对应的类别标签。如用于智能拍照相机中的图像识别的神经网络，可以理解，对该神经网络进行训练的样本图像可以为包括各种常见的拍摄目标的照片。拍摄目标例如不同的自然风景：大海、草地、山川、森林等，以及不同的物体：人、猫、狗、小鸟等。每个作为样本图像的照片有其所属的类别标签，如某样本图像的类别标签为“狗”。

现有技术中，对用于图像识别的神经网络的训练，通常将所有前景物体和背景直接作为神经网络的输出项来训练神经网络的参数。完成参数训练的神经网络可以用作图像识别***的分类器。例如使用类别标签分别为大头自拍、正面人像、猫、狗、大海、草地、日出，蓝天的8类样本图像进行神经网络的参数训练。现有技术中每个样本图像只有一个对应的类别标签，如图2所示。首先，将样本图像输入待训练的神经网络，该神经网络将输出其对应的分类结果。然后，根据该分类结果和样本图像的类别标签调整神经网络的参数，以使得对于每类样本图像都尽可能正确识别。由此，获得经训练的神经网络，即一个8分类的分类器。对于神经网络来说，上述每个类别标签的地位是相同的，其处于同一层次。

根据本发明的实施例，样本图像标注了多个图像分类层次的类别标签。如图3所示，对于上述8类样本图像，可以标注2个图像分类层次的类别标签。第一层为较为宏观的粗分类别标签：{人，动物，自然风景，光线环境}。第二层为更为微观的细分类别标签{大头自拍、正面人像、猫、狗、大海、草地、日出，蓝天}。每个样本图像有两个分类层次的类别标签，例如一个样本图像的标签为：第1图像分类层次的类别标签“动物”和第2图像分类层次的类别标签“狗”。

上述示例是图像识别中利用图像可以从多个层次进行分类的特点，给样本图像标注多个图像分类层次的类别标签的简单示例说明。虽然上述示例中，以2个图像分类层次的类别标签进行说明，但是对于实际应用中的成百上千种类别标签，可以给样本图像标注更多图像分类层次的类别标签。对于N个图像分类层次的类别标签，相邻图像分类层次中的下一层次的类别是其上一层次的类别的子类，N为大于1的整数。可选地，N个图像分类层次的类别标签包括根据类间相似程度分类的类别标签。例如“动物”可以进一步分为：有翅膀的“飞行动物”、有四条腿的“行走动物”以及没有脚的“爬行动物和鱼类”。可选地，N个图像分类层次的类别标签还包括根据区分难度的不同分类的类别标签，例如基于色彩的分类、基于纹理的分类、基于形状的分类等。

下面，将参考图4描述根据本发明实施例的用于图像识别的神经网络的训练方法。图4示出了根据本发明一个实施例的用于图像识别的神经网络的训练方法400的示意性流程图。方法400包括以下步骤：

步骤S410，接收标注了N个图像分类层次的类别标签的样本图像。

在N个图像分类层次的类别标签中，相邻图像分类层次中的下一层次的类别是其上一层次的类别的子类，N为大于1的整数。例如，第2层类别标签是第1层类别标签的子类，第N层类别标签是第N-1层类别标签的子类。第N层类别标签为样本图像的最细分类，对应了图像识别的最终分类结果。可以理解，越高层次的类别标签，对应于更大尺度、更为宏观的分类；而越低层次的类别标签，对应于更小尺度、更为微观的分类。

所接收的每个样本图像都标注了N个类别标签，而且这N个类别标签分别属于N个图像分类层次中的一个。换言之，对于N个图像分类层次中的每一个，都为样本图像标注了一个属于该图像分类层次的类别标签。

步骤S420，利用步骤S410接收的样本图像对神经网络进行训练。图5示出了根据本发明一个实施例的利用样本图像对神经网络进行训练的示意性流程图。步骤S420包括以下步骤：

步骤S421，基于每个图像分类层次的类别标签，分别计算针对所述样本图像的分类损失，以作为该图像分类层次的层次损失。

对于一个样本图像，基于每个图像分类层次的类别标签，分别计算进行该层次分类后的分类损失，以作为该图像分类层次的层次损失。具体地，将样本图像输入神经网络，该神经网络针对每个图像分类层次，提取样本图像的特征。基于针对该分类层次的特征对样本图像进行分类并输出该分类层次的分类结果。如基于第一图像分类层次的类别标签，输出第一图像分类层次的分类结果。如此得到样本图像的、每个图像分类层次的分类结果。针对每个图像分类层次的分类结果体现了当前的神经网络对该图像分类层次的特征的理解。分别根据每个图像分类层次的分类结果与其类别标签，计算该图像分类层次的层次损失。每个图像分类层次的层次损失，代表使用当前的神经网络对样本图像基于该图像分类层次的类别标签分类后的误差，体现了当前的神经网络对该图像分类层次的理解偏差。通过多个图像分类层次的分类处理，神经网络可以学习多个图像分类层次的特征，从而对所要识别的图像有更为立体的综合性的理解能力。

步骤S422，根据步骤S421得到的每个图像分类层次的层次损失计算总损失。对于一个样本图像，通过步骤S421获得其每个图像分类层次的层次损失。综合每个图像分类层次的层次损失得到该样本图像的总损失。该样本图像的总损失代表使用当前的神经网络对其所属的各图像分类层次的分类特征理解的综合结果。总损失越大，说明使用当前的神经网络进行图像识别的准确度越不够，越有待提升；反之，说明使用当前的神经网络进行图像识别的准确度越好。

步骤S423，利用步骤S421得到的总损失作为目标函数训练神经网络的参数。如上所述，一个样本图像的总损失，体现了使用当前的神经网络对该样本图像进行图像识别的准确度。针对样本图像，神经网络经过前向传播计算得到其总损失。根据总损失的值进行反向推导，进行神经网络的相关参数的调整。如此反复，经过足够数量的样本图像的训练，总损失收敛到某特定值或者达到训练次数阈值，从而达成训练目标。经过训练后的神经网络可用作图像识别***的分类器。

上述用于图像识别的神经网络的训练方法，样本图像标注了多个图像分类层次的类别标签，训练神经网络基于多个图像分类层次确定图像识别结果。类别标签例如较为宏观的粗分类别的标签和更为微观的细分类别的标签。由此，该训练方法获得了能够更准确地进行图像识别的神经网络。尤其对于内容复杂的图像的识别，上述技术方案获得的神经网络与现有技术相比能够显著提高图像识别准确度。

示例性地，根据本发明实施例的用于图像识别的神经网络的训练方法可以在具有存储器和处理器的设备、装置或者***中实现。

图6示出了根据本发明一个实施例的用于图像识别的神经网络的训练方法600的示意性框图。如图6所示，对于一个样本图像，针对每个图像分类层次，基于该图像分类层次的类别标签和神经网络的输出层输出的该图像分类层次的分类结果，计算该图像分类层次的层次损失。如基于第1个图像分类层次的类别标签，神经网络的输出层输出第1个图像分类层次的分类结果。根据第1个图像分类层次的分类结果和其类别标签，计算第1个图像分类层次的层次损失，表示为Loss₁。层次损失的计算可以使用平方和损失、交叉熵损失等方法，具体计算方法不影响对本发明的理解，这里不再详细描述。同上，基于第2个图像分类层次的类别标签，神经网络的输出层输出第2个图像分类层次的分类结果，基于该分类结果及其类别标签计算得到第2个图像分类层次的层次损失Loss₂。以此类推，对于标注了N个图像分类层次的类别标签的样本图像，针对每个图像分类层次分别计算，得到N个图像分类层次的层次损失Loss₁、Loss₂、……Loss_N。

根据上述每个图像分类层次的层次损失计算总损失。最后利用总损失作为目标函数训练神经网络的参数。

示例性地，根据如下公式计算所述总损失Loss：

其中，Loss_i是第i个图像分类层次的层次损失，W_i是控制第i个图像分类层次的层次损失Loss_i的作用程度的参数，0<i<N+1。通过参数W_i可以控制神经网络在第i个图像分类层次对图像进行分类操作的误差对最后分类结果的影响程度。

可选地，通过搜索算法确定参数W_i。具体地，对于每个参数W_i，设置搜索起始值、结束值和步长。在起始值和结束值之间的搜索范围内，从起始值开始，每次增加一个步长为参数W_i的取值，使用该取值作为参数W_i进行神经网络的参数训练。经过搜索范围内所有可能的W_i的取值的尝试，选择最优结果的取值作为参数W_i。可以理解，不同参数W_i可以设置不同的搜索起始值、结束值和步长。也可以根据设置了搜索起始值、结束值和步长的参数W_i的取值设置别的参数。例如对于N为3的参数W_i的设置如下：参数W₁的搜索起始值为0.30，结束值为0.60，步长为0.02。分别使用0.30、0.32、0.34、……0.58、0.60为参数W₁的值；W₂＝W₁÷2；W₃＝1.00-W₁-W₂。通过搜索算法选取参数W_i的最优实验数据，其精确度与搜索的步长相关，越小的步长可以得到越精确的结果，但也带来越多的计算量。

可选地，接收根据经验值设置的参数W_i。例如，可以通过所述电子设备100的所述输入装置106接收该参数，所述参数可以由用户预先设置。由此，用户可以根据经验控制各图像分类层次的层次损失在总损失中的作用程度，以获得更满意的图像识别结果。

上述用于图像识别的神经网络的训练方法600，不需要改变神经网络模型的结构，方便应用于不同的神经网络模型。因此通用性很强，适用于训练各种用于图像识别的神经网络模型，从而得到图像识别准确性显著提高的神经网络。

图7示出了根据本发明另一个实施例的用于图像识别的神经网络的训练方法700的示意性框图。如图7所示，方法700中用于图像识别的神经网络包括M个卷积层和N个全连接层，M为大于N的整数。M个卷积层从上至下为第一卷积层、第二卷积层、……第M卷积层。其中M个卷积层中的N个分别与N个全连接层一一连接。与该N个全连接层一一连接的卷积层为第K₁卷积层、第K₂卷积层、……第K_N卷积层，其中，K_N＝M。该N个全连接层的输出分别与N个图像分类层次一一对应，也即第K_i卷积层连接的全连接层的输出与第i个图像分类层次对应。与第M卷积层连接的全连接层的输出对应于第N层次的图像分类。换言之，与第M卷积层连接的全连接层是神经网络的输出层。当利用该神经网络进行图像识别时，与第M卷积层连接的全连接层输出的结果即为最终图像识别结果。

针对每个图像分类层次，由与该图像分类层次对应的全连接层输出该图像分类层次的分类结果。如第i个图像分类层次，与第i个图像分类层次对应的全连接层为与第K_i卷积层连接的全连接层。利用第一卷积层至第K_i卷积层对样本图像计算，以获得样本图像的第i个图像分类层次的特征图。该特征图再经与第K_i卷积层连接的全连接层计算并输出第i个图像分类层次的分类结果。由此，利用上述分层输出的网络结构，针对N个图像分类层次，得到分层输出的分类结果。基于第i个图像分类层次的分类结果和其类别标签，计算该图像分类层次的层次损失Loss_i。根据每个图像分类层次的层次损失计算总损失并根据总损失训练神经网络参数的步骤如前所述，这里不再赘述。

方法700中，针对图像分类层次进行分层输出，从而实现分层训练。使得神经网络浅层的卷积层得到充分训练，更好地提取大尺度、宏观的类别的特征；同时深层的卷积层更好地提取小尺度、微观的类别的特征。不仅能让浅层和深层网络之间更好地分工，还能让网络各部分得到及时的反馈，避免梯度衰减，网络参数训练更为充分。由此，利用该神经网络能够获得更准确的图像识别结果

为了更清晰的理解上述方法700，下面给出根据本发明一个具体实施例的上述方法700的实现过程。图8示出了根据本发明一个具体实施例的用于图像识别的神经网络的训练方法的示意性框图。如图8所示，用于图像识别的神经网络包括16个卷积层和2个全连接层。训练该神经网络的样本图像标注了2个图像分类层次的类别标签。其中，第十四卷积层连接的全连接层对应第1个图像分类层次，输出第1个图像分类层次的分类结果。基于该分类结果和其类别标签，得到第1个图像分类层次的层次损失Loss₁。第十六卷积层连接的全连接层对应第2个图像分类层次，输出第2个图像分类层次的分类结果。基于该分类结果和其类别标签，得到第2个图像分类层次的层次损失Loss₂。根据如下公式计算总损失Loss：

Loss＝W₁×Loss₁+W₂×Loss₂。

W₁为控制第1个图像分类层次的层次损失Loss₁的作用程度的参数，W₂为控制第2个图像分类层次的层次损失Loss₂的作用程度的参数。

可选地，参数W₁、W₂通过搜索算法确定。例如，设置参数W₁的搜索起始值为0.5，结束值为1.0，步长为0.01。在0.5～1.0的范围内，以0.01为步长，分别使用0.50、0.51、0.52、……0.99、1.00为参数W₁的值，参数W₂＝1.00-W₁。基于每一组参数W₁、W₂的取值，进行神经网络的参数训练。选择能够得到最优训练结果的取值作为参数W₁、W₂。

可选地，上述图像识别包括图像的场景识别。场景识别是图像识别技术中的一个重要分支。场景识别的目标为给定一个图像，对其自动判断该图像属于何种具体的场景。一个图像的场景可以包括丰富的多个层次的图像分类信息。在本申请的示例中，提供了用于场景识别的神经网络的训练方法，该神经网络例如图3所示的分类器。如图3所示，训练该分类器利用了标注了2个图像分类层次的类别标签的样本图像。其中第一层为较为宏观的粗分类别标签：{人，动物，自然风景，光线环境}。第二层为更为微观的细分类别标签{大头自拍、正面人像、猫、狗、大海、草地、日出，蓝天}。利用本发明的方法训练的神经网络，能够实现更准确的场景识别。

根据本发明一方面，提供了一种基于神经网络的图像识别方法。图9示出了根据本发明一个实施例的图像识别方法的示意性流程图。

如图9所示，方法900包括如下步骤：

步骤S910，获取待识别图像。

待识别图像可以是任何合适的、需要进行图像识别的图像，例如智能拍照手机拍摄的图像。可以理解，该图像可以是视频中的视频帧。待识别图像可以是摄像头等图像采集装置采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。

步骤S920，利用训练好的神经网络对步骤910获取的待识别图像进行图像识别，其中，所述神经网络通过根据本发明实施例的训练方法训练得到。根据实际应用场景，给样本图像标注N个图像分类层次的类别标签，其中第N个图像分类层次的类别标签为图像识别最终的类别标签。通过上述根据本发明实施例的训练方法，使用该标注了N个图像分类层次的类别标签的样本图像训练神经网络。利用上述训练好的神经网络对待识别图像进行图像识别，第N个图像分类层次的分类结果即为最终图像识别结果。

方法900中用于图像识别的神经网络，显著提高了图像识别准确度。

根据本发明另一方面，还提供了一种用于图像识别的神经网络的训练装置。

图10示出了根据本发明一个实施例的用于图像识别的神经网络的训练装置的示意性框图。

如图10所示，装置1000包括接收模块1010和训练模块1020。所述各个模块可分别执行上文中所述的用于图像识别的神经网络的训练方法的各个步骤/功能。以下仅对该装置1000的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

接收模块1010用于接收标注了N个图像分类层次的类别标签的样本图像。其中相邻图像分类层次中的下一层次的类别是其上一层次的类别的子类，N为大于1的整数。可选地，N个图像分类层次的类别标签可以包括根据类间相似程度进行分类的N个图像分类层次的类别标签；或根据区分难度的不同进行分类的N个图像分类层次的类别标签。接收模块1010可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

训练模块1020用于利用样本图像对神经网络进行训练。训练模块1020可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例，训练模块1020包括层次损失计算单元、总损失计算单元和神经网络参数训练单元。

所述层次损失计算单元用于基于每个图像分类层次的类别标签，分别计算针对样本图像的分类损失，以作为该图像分类层次的层次损失。

示例性地，针对每个图像分类层次，基于该图像分类层次的类别标签和神经网络的输出层输出的该图像分类层次的分类结果，计算该图像分类层次的层次损失。

示例性地，用于图像识别的神经网络包括：M个卷积层和N个全连接层，M为大于N的整数。其中，所述M个卷积层中的N个分别与所述N个全连接层一一连接并且与所述N个全连接层一一连接的卷积层包括第M卷积层。所述N个全连接层的输出分别与所述N个图像分类层次一一对应。与第M卷积层连接的全连接层的输出对应于第N层次的图像分类。

可选地，针对每个图像分类层次，由与该图像分类层次对应的全连接层输出该图像分类层次的分类结果；基于该分类结果和该图像分类层次的类别标签，计算该图像分类层次的层次损失。

可以理解，上述示例给出了所述层次损失计算单元的两种具体实现，这些实现示例仅为示意，而非对本发明的限制。

总损失计算单元用于根据每个图像分类层次的层次损失计算总损失。

可选地，根据如下公式计算总损失Loss：

神经网络参数训练单元用于利用上述总损失作为目标函数训练神经网络的参数。

可选地，通过搜索算法确定所述参数W_i。

可选地，接收根据经验值设置的所述参数W_i。

示例性地，所述图像识别包括图像的场景识别。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图11示出了根据本发明一个实施例的用于图像识别的神经网络的训练***的示意性框图。如图11所示，***1100包括输入装置1110、存储器1120、处理器1130。

所述输入装置1110用于接收用户输入的操作指令以及采集数据。输入装置1110可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。所述图像采集装置可以用于采集样本图像。

所述存储器1120存储用于实现根据本发明实施例的用于图像识别的神经网络的训练方法中的相应步骤的计算机程序指令。可选地，所述存储器1120还可以用于存储样本图像。

所述处理器1130用于运行所述存储器1120中存储的计算机程序指令，以执行根据本发明实施例的用于图像识别的神经网络的训练方法的相应步骤，并且用于实现根据本发明实施例的用于图像识别的神经网络的训练装置中的接收模块1010和训练模块1020。

在一个实施例中，在所述计算机程序指令被所述处理器1130运行时使所述***1100执行以下步骤：

利用所述样本图像对神经网络进行训练，其中，

根据所述每个图像分类层次的层次损失计算总损失；

利用所述总损失作为目标函数训练所述神经网络的参数。

示例性地，所述N个图像分类层次的类别标签包括：根据类间相似程度进行分类的N个图像分类层次的类别标签；或根据区分难度的不同进行分类的N个图像分类层次的类别标签。

在一个实施例中，在所述计算机程序指令被所述处理器1130运行时使所述***1100执行的基于每个图像分类层次的类别标签分别计算针对所述样本图像的分类损失以作为该图像分类层次的层次损失还包括以下步骤：针对每个图像分类层次，基于该图像分类层次的类别标签和所述神经网络的输出层输出的该图像分类层次的分类结果，计算该图像分类层次的层次损失。

在一个实施例中，所述神经网络包括：M个卷积层和N个全连接层。其中，所述M个卷积层中的N个分别与所述N个全连接层一一连接并且与所述N个全连接层一一连接的卷积层包括第M卷积层，所述N个全连接层的输出分别与所述N个图像分类层次一一对应，与第M卷积层连接的全连接层的输出对应于第N层次的图像分类，M为大于N的整数。

在上述实施例中，在所述计算机程序指令被所述处理器1130运行时使所述***1100执行的基于每个图像分类层次的类别标签分别计算针对所述样本图像的分类损失以作为该图像分类层次的层次损失还包括以下步骤：针对每个图像分类层次，由与该图像分类层次对应的全连接层输出该图像分类层次的分类结果；基于该分类结果和该图像分类层次的类别标签，计算该图像分类层次的层次损失。

示例性地，在所述计算机程序指令被所述处理器1130运行时使所述***1100执行的根据所述每个图像分类层次的层次损失计算总损失的步骤中，可以根据如下公式计算所述总损失Loss：

示例性地，在所述计算机程序指令被所述处理器1130运行时使所述***1100通过搜索算法确定所述参数W_i。

示例性地，在所述计算机程序指令被所述处理器1130运行时使所述***1100接收根据经验值设置的所述参数W_i。

示例性地，所述图像识别包括图像的场景识别。

此外，根据本发明再一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的用于图像识别的神经网络的训练方法的相应步骤，并且用于实现根据本发明实施例的用于图像识别的神经网络的训练装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行以下步骤：

利用所述样本图像对神经网络进行训练，其中，

根据所述每个图像分类层次的层次损失计算总损失；

利用所述总损失作为目标函数训练所述神经网络的参数。

在一个实施例中，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的基于每个图像分类层次的类别标签分别计算针对所述样本图像的分类损失以作为该图像分类层次的层次损失还包括以下步骤：针对每个图像分类层次，基于该图像分类层次的类别标签和所述神经网络的输出层输出的该图像分类层次的分类结果，计算该图像分类层次的层次损失。

在上述实施例中，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的基于每个图像分类层次的类别标签分别计算针对所述样本图像的分类损失以作为该图像分类层次的层次损失还包括以下步骤：针对每个图像分类层次，由与该图像分类层次对应的全连接层输出该图像分类层次的分类结果；基于该分类结果和该图像分类层次的类别标签，计算该图像分类层次的层次损失。

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的根据所述每个图像分类层次的层次损失计算总损失的步骤中，可以根据如下公式计算所述总损失Loss：

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器通过搜索算法确定所述参数W_i。

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器接收根据经验值设置的所述参数W_i。

示例性地，所述图像识别包括图像的场景识别。

根据本发明实施例的用于图像识别的神经网络的训练***中的各模块可以通过根据本发明实施例的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的用于图像识别的神经网络的训练方法、装置、***和存储介质，利用图像识别中图像具有多个层次的分类特征的特点，给样本图像标注多个图像分类层次的类别标签，引导神经网络提取各分类层次的分类特征，如较为宏观的粗分类别的分类特征和更为微观的细分类别的分类特征，从而达到更好的图像识别效果。尤其对于内容复杂的图像的识别，无法较好的直接提取分类特征，利用本发明实施例的方法训练的神经网络，可以提取多个层次的分类特征，综合多个层次的分类特征进行分类判断，可以实现较好的图像识别。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于图像识别的神经网络的训练装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于图像识别的神经网络的训练方法，包括：

利用所述样本图像对神经网络进行训练，其中，

根据所述每个图像分类层次的层次损失计算总损失；

利用所述总损失作为目标函数训练所述神经网络的参数。

2.如权利要求1所述的方法，其中，所述基于每个图像分类层次的类别标签，分别计算针对所述样本图像的分类损失，以作为该图像分类层次的层次损失，包括：

3.如权利要求1所述的方法，其中，所述神经网络包括：M个卷积层和N个全连接层，其中，

所述M个卷积层中的N个分别与所述N个全连接层一一连接，并且与所述N个全连接层一一连接的卷积层包括第M卷积层，所述N个全连接层的输出分别与所述N个图像分类层次一一对应，与第M卷积层连接的全连接层的输出对应于第N层次的图像分类，M为大于N的整数。

4.如权利要求3所述的方法，其中，所述基于每个图像分类层次的类别标签，分别计算针对所述样本图像的分类损失，以作为该图像分类层次的层次损失，包括：

5.如权利要求1至4任一项所述的方法，其中，所述根据所述每个图像分类层次的层次损失计算总损失包括：

根据如下公式计算所述总损失Loss：

6.如权利要求5所述的方法，其中，所述方法还包括：

通过搜索算法确定所述参数W_i。

7.如权利要求5所述的方法，其中，所述方法还包括：

接收根据经验值设置的所述参数W_i。

8.如权利要求1至4任一项所述的方法，其中，所述N个图像分类层次的类别标签包括：

9.如权利要求1至4任一项所述的方法，其中，所述图像识别包括图像的场景识别。

10.一种基于神经网络的图像识别方法，包括：

获取待识别图像；

利用训练好的神经网络对所述待识别图像进行图像识别，其中，所述神经网络通过权利要求1至9任一项所述的方法训练得到。

11.一种用于图像识别的神经网络的训练装置，包括：

训练模块，利用所述样本图像对神经网络进行训练，其中，

根据所述每个图像分类层次的层次损失计算总损失；

利用所述总损失作为目标函数训练所述神经网络的参数。

12.一种用于图像识别的神经网络的训练***，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至9任一项所述的用于图像识别的神经网络的训练方法。

13.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至9任一项所述的用于图像识别的神经网络的训练方法。