CN108197669B

CN108197669B - 卷积神经网络的特征训练方法及装置

Info

Publication number: CN108197669B
Application number: CN201810096726.8A
Authority: CN
Inventors: 张默; 刘彬; 孙伯元
Original assignee: Beijing Moshanghua Technology Co ltd
Current assignee: Beijing Moshanghua Technology Co ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2021-04-30
Anticipated expiration: 2038-01-31
Also published as: CN108197669A

Abstract

本申请公开了一种卷积神经网络的特征训练方法及装置。该特征训练方法包括：提取第一特征图片；确定所述第一特征图片的特征图，且根据所述特征图获取第一特征；将所述第一特征作为输入，计算损失函数的损失值；以及根据所述损失值更新卷积神经网络。本申请解决了损失目标函数无法保证类内距离相对更近和类间距离相对更远的技术问题。

Description

卷积神经网络的特征训练方法及装置

技术领域

本申请涉及计算机领域，具体而言，涉及一种卷积神经网络的特征训练方法及装置。

背景技术

卷积神经网络在计算机视觉领域取得了很好的表现，尤其在物体识别，物体检测，物体分割等领域。训练卷积神经网络，使用一层层卷积层和激活层堆叠，可以实现很强的视觉表征能力，其中卷积神经网络结构由两部分组成：卷积网络，目标损失函数。

发明人发现，在卷积神经网络中的有一些损失函数，其缺点在于难以确保类内的距离更近，类间的距离更远。如果保证了这个前提，被训练的网络提出的特征的表征性才能更强。另有一些损失函数，保证类内的距离更近，但是却没有保证类间距离更远，同时还会影响物体识别的准确率，故多在人脸分类领域被广泛使用。还一些损失函数，既保证类内距离更近，又保证类间距离更远，然而问题在于如果训练数据本身存在一些噪声，训练的过程就很难收敛。

针对相关技术中损失目标函数无法保证类内距离相对更近和类间距离相对更远的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种卷积神经网络的特征训练方法，以解决问题。

为了实现上述目的，根据本申请的一个方面，提供了一种卷积神经网络的特征训练方法，包括：提取第一特征图片；确定所述第一特征图片的特征图，且根据所述特征图获取第一特征；将所述所述第一特征作为输入，计算损失函数的损失值；以及根据所述损失值更新卷积神经网络；其中，所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。

进一步地，计算损失函数的损失值包括：配置第一损失函数，其中，所述第一损失函数用于作为Softmax和交叉熵结合的损失函数；配置第二损失函数，其中，所述第二损失函数用于作为角度损失函数。

进一步地，计算损失函数的损失值包括：

其中，

表示y_i对应的权重，N表示输入图片数量；

通过损失函数计算N张输入图片各自对应的所有的概率相加后得到的平均值。

计算损失函数的损失值包括：

其中，

表示y_i对应的权重，N表示输入图片数量，y_i表示每张输入图片对应的类别；

通过损失函数计算N张图片的

的平均值。

进一步地，根据所述损失值更新卷积神经网络后还包括：输入待测试的第二图片；通过所述损失值更新后的卷积神经网络后得到对应的第二特征；将所述所述第二特征作为输入，计算损失函数的损失值；确定所述第二图片对应物体的类别。

进一步地，所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别如下：特征的类内距离；特征的类间距离。

为了实现上述目的，根据本申请的另一方面，提供了一种卷积神经网络的特征训练装置。

根据本申请的卷积神经网络的特征训练装置包括：提取单元，用于提取第一特征图片；确定单元，用于确定所述第一特征图片的特征图，且根据所述特征图获取第一特征；损失函数单元，用于将所述所述第一特征作为输入，计算损失函数的损失值；反向单元，用于根据所述损失值更新卷积神经网络；其中，所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。

进一步地，所述损失函数单元包括：第一损失函数单元和第二损失函数单元，所述第一损失函数单元，用于作为Softmax和交叉熵结合的损失函数；所述第二损失函数单元，用于作为角度损失函数。

进一步地，装置还包括：测试单元，用于输入待测试的第二图片；通过所述损失值更新后的卷积神经网络后得到对应的第二特征；将所述所述第二特征作为输入，计算损失函数的损失值；确定所述第二图片对应物体的类别。

进一步地，所述反向单元还用于，通过损失函数使得更新后的卷积神经网络中训练的特征符合预设：特征的类内距离更近；特征的类间距离更远。

在本申请实施例中，采用卷积神经网络中优化特征训练的方式，通过损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别，达到了训练识别能力更强的目的，从而实现了训练出识别能力更强的特征的技术效果，进而解决了损失目标函数无法保证类内距离相对更近和类间距离相对更远的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的卷积神经网络的特征训练方法示意图；

图2是根据本申请第二实施例的卷积神经网络的特征训练方法示意图；

图3是根据本申请第三实施例的卷积神经网络的特征训练方法示意图；以及

图4是根据本申请优选实施例的卷积神经网络的特征训练装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

到目前为止很多损失函数被提出，最初的Softmax与交叉熵结合的损失函数，它的缺点在于难以确保类内的距离更近，类间的距离更远，如果保证了这个前提，被训练的网络提出的特征的表征性才能更强。

之后Center-Loss被提出，它可以保证类内的距离更近，但是却没有保证类间距离更远，同时Center-Loss还会影响物体识别的准确率，所以它多在人脸分类领域被广泛使用；在之后L-Softmax被提出，它既保证了类内距离更近，有保证了类间距离更远，然而它的问题是如果训练数据本身存在一些噪声，训练的过程就很难收敛。

通过本申请实施例的方法采用卷积神经网络中优化特征训练的方式，通过损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别，达到了训练识别能力更强的目的，从而实现了训练出识别能力更强的特征的技术效果。

本申请实施例中的方法使用的基于角度的损失函数，主要用于基于深度学习卷积神经网络物体识别的训练过程中，其中主要功能体现在：a.训练的特征的表征能力更强，即类内距离更近，类间距离更远；b.在确保a.成立的前提下，保证神经网络训练过程的收敛性。

(4)本方法涉及的目标损失函数，可以用于除了物体识别之外的任务的模型训练，包括物体检测，物体分割等。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S102至步骤S108：

步骤S102，提取第一特征图片；

通过输入N张图片，再对N张图片做归一化预处理，让所有的像素值在[-1,1]之间；然后输入卷积神经网络。

由于卷积神经网络结构包括了多个卷积层，在卷积神经网络中的每个卷积层后面会接一个激活层，每经过一层卷积层，就会得到对应的特征图。

通过上述步骤中的归一化处理后输入卷积神经网络得到对应的特征图。

步骤S104，确定所述第一特征图片的特征图，且根据所述特征图获取第一特征；

确定所述特征图片的特征图是指，根据特征图的通道数、特征图的长和宽，得到特征图片的特征图。

例如，设每张特征图的大小为c*h*w，其中，c为特征图的通道数，h和w为特征图的长和宽，由于输入的是N张图片，即最后可以得到N张特征图。

步骤S106，将所述所述第一特征作为输入，计算损失函数的损失值；

将多张特征图作为输入，经过卷积神经网络中的全连接层，得到维多特征作为输入。

例如，N张特征图作为输入，经过全连接层，得到NxM维特征。即N个特征，对应于N张图片，每个特征M维。

计算损失函数的损失值是指，将NxM维的特征和图片的类别标签作为输入，计算损失函数的损失值。

步骤S108，根据所述损失值更新卷积神经网络；

所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。

特征符合预设的类别可以是，保证同类(类内)特征之间的距离更近，异类(类间)特征之间距离更远。

具体地，计算损失函数的损失值，其中包括两个损失函数，第一损失函数是Softmax和交叉熵结合，第二损失函数是角度损失函数。

从以上的描述中，可以看出，本发明实现了如下技术效果：

在本申请实施例中，采用卷积神经网络中优化特征训练的方式，通过损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别，达到了训练识别能力更强的目的，从而实现了训练出识别能力更强的特征的技术效果，进而解决了损失目标函数无法保证类内距离相对更近和类间距离相对更远的技术问题。在本申请实施例中方法在训练的时候没有引进更多的超参数，减少了人工调参的成本，同时训练的时候没有明显增加显存和内存的使用量。

本申请实施例中在测试的过程中，提取的图片特征，除了可以用于物体识别领域外，还可以用于物体检索等领域。

根据本发明实施例，作为本实施例中的优选，如图2所示，计算损失函数的损失值包括：

步骤S202，配置第一损失函数，

所述第一损失函数用于作为Softmax和交叉熵结合的损失函数；

计算损失函数的损失值包括：

其中，

表示y_i对应的权重，N表示输入图片数量；

损失函数是指

其中，f为获取的第一特征，

为类别i类对应的权重向量，所以

为类别y_i对应的权重向量(在本申请中设M个类别，每张输入图片对应自己特定的一个类别y_i)，y_i作为输入图片对应的真实类别。

通过

与f相乘得到一个分数，而

中的式子，代表f被判断成y_i的该类别上的概率。

步骤S204，配置第二损失函数，

所述第二损失函数用于作为角度损失函数。

计算损失函数的损失值包括：

其中，

通过损失函数计算N张图片的

的平均值。

其中f为获取的第一特征，

代表

与f的角度的余弦值

其范围在[-1,1]之间，越接近1，则

向量与f特征向量之间的角度越小。

上述损失函数LossFunction计算的是N张图片的

的平均值，可以让

与f的角度尽量小。

根据本发明实施例，作为本实施例中的优选，如图3所示，根据所述损失值更新卷积神经网络后还包括：

步骤S302，输入待测试的第二图片；

输入待测试的图片，图片的数量可以是N(N>＝1)，经过已经完成训练的神经网络，得到对应的特征。

步骤S304，通过所述损失值更新后的卷积神经网络后得到对应的第二特征；

由于在步骤S108中计算损失值之后，使用反向传播来更新整个网络的所有参数。所以将待测试的图片输入更新后的卷积神经网络获取对应的特征图。

步骤S306，将所述所述第二特征作为输入，计算损失函数的损失值；

输入通过Softmax和交叉熵结合的损失函数

角度损失函数

计算损失函数的损失值。

步骤S308，确定所述第二图片对应物体的类别。

在测试阶段特征经过Softmax层，得到所有已知类别的概率(概率相加为1)，选取概率最高的作为该图片对应物体的类别。

作为本实施例中的优选，所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别如下：特征的类内距离；特征的类间距离。

所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设时，保特征的类内距离更近，特征的类间距离更远。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述卷积神经网络的特征训练方法的装置，如图4所示，该装置包括：提取单元10，用于提取第一特征图片；确定单元20，用于确定所述第一特征图片的特征图，且根据所述特征图获取第一特征；损失函数单元30，用于将所述所述第一特征作为输入，计算损失函数的损失值；反向单元40，用于根据所述损失值更新卷积神经网络；其中，所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。

本申请实施例的提取单元10中通过输入N张图片，再对N张图片做归一化预处理，让所有的像素值在[-1,1]之间；然后输入卷积神经网络。

本申请实施例的确定单元20中确定所述特征图片的特征图是指，根据特征图的通道数、特征图的长和宽，得到特征图片的特征图。

本申请实施例的损失函数单元30中将多张特征图作为输入，经过卷积神经网络中的全连接层，得到维多特征作为输入。

本申请实施例的反向单元40中所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。

作为本实施例中的优选，所述损失函数单元30包括：第一损失函数单元和第二损失函数单元，所述第一损失函数单元，用于作为Softmax和交叉熵结合的损失函数；所述第二损失函数单元，用于作为角度损失函数。

第一损失函数单元中，计算损失函数的损失值包括：

其中，

表示y_i对应的权重，N表示输入图片数量；

损失函数是指

其中，f为获取的第一特征，

为类别i类对应的权重向量，所以

通过

与f相乘得到一个分数，而

中的式子，代表f被判断成y_i的该类别上的概率。

第二损失函数单元中计算损失函数的损失值包括：

其中，

通过损失函数计算N张图片的

的平均值。

其中f为获取的第一特征，

代表

与f的角度的余弦值

其范围在[-1,1]之间，越接近1，则

向量与f特征向量之间的角度越小。

上述损失函数LossFunction计算的是N张图片的

的平均值，可以让

与f的角度尽量小。

作为本实施例中的优选，还包括：测试单元，用于输入待测试的第二图片；通过所述损失值更新后的卷积神经网络后得到对应的第二特征；将所述所述第二特征作为输入，计算损失函数的损失值；确定所述第二图片对应物体的类别。

本申请实施例的测试单元中输入待测试的图片，图片的数量可以是N(N>＝1)，经过已经完成训练的神经网络，得到对应的特征。

输入通过Softmax和交叉熵结合的损失函数

角度损失函数

计算损失函数的损失值。

用于实施上述卷积神经网络的特征训练方法的装置，训练出识别能力更强的特征，保证特征的类内距离更近，特征的类间距离更远。特征的训练主要通过基于角度优化的损失函数，结合Softmax交叉熵损失函数，相对于传统只使用Softmax交叉熵的方法训练得到的特征，本申请实施例的装置中训练得到的特征在Cifar10和Cifar100等数据集上识别率均有1％的提升，原方法在这两个数据集上训练模型的识别准确率分别为92.5％和69.24％，本申请实施例的装置中的识别准确率为93.7％和72％。

相对于L-Softmax，本申请更容易训练，L-Softmax方法对特征增加了很强的约束，好处是可以训练出识别率更强的特征，但也会面临训练过程很难收敛的问题，本申请在训练过程基本不会发生不收敛的过程，主要因为本方法作为Softmax交叉熵的辅助，不会对特征的约束太强。

具体地，在本申请实施例的装置中按照如下方法执行神经网络的特征训练方法：

主要针对基于深度学习卷积神经网络的物体识别，包括训练阶段和测试阶段，其中本方法主要用于训练阶段，帮助训练识别能力更强的模型；

训练阶段：把整个卷积神经网络作为两个部分，第一部分是提取特征，第二部分是计算特征的损失函数并做优化；

S1输入N张图片，N是批处理中输入图片的数量，对N张图片做归一化预处理，让所有的像素值在[-1,1]之间。

S2通过卷积神经网络结构，卷积神经网络机构有多个卷积层组成，每个卷积层后面会接一个激活层，每经过一层卷积层，就会得到对应的特征图，具体的卷积层数和结构会根据具体的任务而改变，这里只需要最后一层卷积神经网络的输出；

S3得到最后的特征图，这里每张特征图的大小为cxhxw，c为特征图的通道数，h和w为特征图的长和宽，因为输入的是N张图片，所以最后得到N张特征图；

S4N张特征图作为输入，经过全连接层，得到NxM维特征，即N个特征，对应于N张图片，每个特征M维；

S5最后NxM维的特征和图片的类别标签作为输入，计算损失函数的损失值，其中包括两个损失函数，第一损失函数是Softmax和交叉熵结合，第二损失函数是角度损失函数，具体的公式如下：

S6计算损失值之后，使用反向传播来更新整个网络的所有参数；

测试阶段

S1输入待测试的图片，图片的数量是N(N>＝1)，经过已经完成训练的神经网络，得到对应的特征；

S2特征经过Softmax层，得到所有已知类别的概率(概率相加为1)，选取概率最高的作为该图片对应物体的类别。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。