CN109272115A

CN109272115A - 一种神经网络训练方法及装置、设备、介质

Info

Publication number: CN109272115A
Application number: CN201811030416.2A
Authority: CN
Inventors: 高三元; 冯汉平
Original assignee: Wide Bench (beijing) Technology Co Ltd
Current assignee: Wide Bench (beijing) Technology Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-25

Abstract

本申请公开了一种神经网络训练方法及装置、设备、介质。本申请的神经网络训练方法至少包括：获取待训练的神经网络及其多个训练样本；利用多个训练样本和指定的损失函数，对神经网络进行训练；其中，损失函数包含用于对多个训练样本在神经网络的输出向量各维度的损失进行归一化的归一化参数，损失和归一化参数根据调节因子，以及训练样本在其真实所属类别对应的输出向量维度的不同取值区间确定，调节因子用于调节各类别之间的差异程度。本申请的方案通过改进的损失函数，能够在神经网络训练过程中计算损失时，针对相对容易分类的训练样本和相对难分类的训练样本进行区别化处理，有助于更充分地利用相对难分类的训练样本训练神经网络。

Description

一种神经网络训练方法及装置、设备、介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种神经网络训练方法及装置、设备、介质。

背景技术

神经网络是人工智能技术领域不可或缺的模型之一，其通常以样本的特征向量作为输入数据，经过多层神经节点的处理，输出同样是向量形式的分类结果，分类结果中的每个维度可以分别表示一个预定的类别，维度的值则可以表示神经网络判定的该样本属于该维度所表示类别的概率。

神经网络在模型构建后，需要利用大量训练样本进行训练才可能取得较好的分类效果，训练过程是利用损失函数度量分类结果与真实结果之间的差距，作为损失，进而根据损失对神经网络的模型参数进行修正的过程，真实结果用标签向量表示。

在现有技术中，常利用交叉熵(Cross Entropy，CE)的计算公式作为损失函数，这种交叉熵损失函数平等地对待不同类别的样本。

但是，交叉商损失函数会导致样本多的类别容易训练，样本少的类别难以训练，从而给训练出的神经网络的分类效果带来不利影响。

发明内容

本申请实施例提供神经网络训练方法及装置、设备、介质，用以解决现有技术中的如下技术问题：交叉商损失函数会导致样本多的类别容易训练，样本少的类别难以训练，从而给训练出的神经网络的分类效果带来不利影响。

本申请实施例采用下述技术方案：

一种神经网络训练方法，包括：

获取待训练的神经网络及其多个训练样本；

利用所述多个训练样本和指定的损失函数，对所述神经网络进行训练；

其中，所述损失函数包含用于对所述多个训练样本在所述神经网络的输出向量各维度的损失进行归一化的归一化参数，所述损失和所述归一化参数根据调节因子，以及所述训练样本在其真实所属类别对应的输出向量维度的不同取值区间确定，所述调节因子用于调节各类别之间的差异程度。

可选地，所述损失函数还包含所述各类别的权重因子。

可选地，所述调节因子根据所述训练样本在其真实所属类别对应的输出向量维度的值确定；

所述调节因子进一步地用于减少所述多个训练样本中相对容易分类的训练样本在所述神经网络的输出向量维度的相对的损失，所述相对的损失是针对未使用所述调节因子的情况比较确定的。

可选地，所述不同取值区间之间不重叠，根据下限值越小的取值区间确定出的所述损失越小。

可选地，根据下限值最小的取值区间确定出的所述损失为0。

可选地，所述多个训练样本属于同一样本批次；

所述对所述神经网络进行训练，具体包括：

以样本批次为单位，对所述神经网络进行迭代训练。

可选地，所述不同取值区间包括以预定的η分隔出的两个取值区间，η＞0，所述损失函数记作L(y,y')，具体包括：

其中，y表示训练标签向量，y'表示所述神经网络的输出向量，Z表示所述归一化参数，B表示一个样本批次，C表示y'的全部维度，y_ji表示B中的第j个训练样本对应的训练标签向量第i个维度的值，y_ji'表示B中的第j个训练样本在所述神经网络的输出向量第i个维度的值，loss(y_ji,y'_ji)表示B中的第j个训练样本在所述神经网络的输出向量第i个维度的损失，α表示所述权重因子，y'_jc表示B中的第j个训练样本在其真实所属类别对应的输出向量维度的值，(1-y'_jc)^γ表示所述调节因子。

可选地，η设置为0.8到0.9范围内的值。

可选地，γ设置为2或者3。

一种神经网络训练装置，包括：

获取模块，获取待训练的神经网络及其多个训练样本；

训练模块，利用所述多个训练样本和指定的损失函数，对所述神经网络进行训练；

可选地，所述损失函数还包含所述各类别的权重因子。

可选地，根据下限值最小的取值区间确定出的所述损失为0。

可选地，所述多个训练样本属于同一样本批次；

所述训练模块对所述神经网络进行训练，具体包括：

所述训练模块以样本批次为单位，对所述神经网络进行迭代训练。

可选地，η设置为0.8到0.9范围内的值。

可选地，γ设置为2或者3。

一种神经网络训练设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取待训练的神经网络及其多个训练样本；

一种神经网络训练非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取待训练的神经网络及其多个训练样本；

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：提供了改进的损失函数，能够通过包含调节因子的上述归一化参数，以及上述不同取值区间，在计算损失时对相对容易分类的训练样本和相对难分类的训练样本进行区别处理，以便更充分地利用相对难分类的训练样本进行训练，其中，对于样本少的类别，这些样本往往也是相对难分类的，从而，有助于提高训练出的神经网络的分类效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一种有监督学习过程的原理示意图；

图2为本申请的一些实施例提供的一种神经网络训练方法的流程示意图；

图3为本申请的一些实施例提供的对应于图2的一种神经网络训练装置的结构示意图；

图4为本申请的一些实施例提供的对应于图2的一种神经网络训练设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

神经网络训练过程是一种有监督学习过程，图1为一种有监督学习过程的原理示意图。在图1中，x表示样本的特征向量，通过神经网络的输入层输入，在神经网络的隐藏层中进行处理；f(x)表示用于实现该处理过程的非线性处理函数；y'表示处理后通过神经网络的输出层输出的对该样本的分类结果；y表示该分类结果对应的真实结果，真实结果指示了该样本在预定的各类别中，真实属于哪个类别，真实结果比如表示为独热(one-hot)向量，其包含的多个维度与预定的各类别一一对应，维度的值为概率值，取值范围为0到1，则在该样本的真实结果中，该样本真正所属的一个类别对应的维度的值为1，其他各维度的值均为0；在这种情况下，相应地，y与y'的维度也是一一对应的，y的各维度的值之和为1，其中值最高的维度对应的类别表示神经网络判定该样本最有可能所属的类别；loss表示损失，用于度量y与y'之间的差距程度，利用损失函数计算得到。

背景技术中提到目前常利用交叉熵损失函数训练神经网络，将交叉熵损失函数记作CE(y,y')，利用y与y'对应的各维度的交叉熵之和计算整体的损失，具体如下所示：

其中，C表示y'的全部维度(也即，y的全部维度)，y_i表示y的第i个维度的值，y'_i表示y'的第i个维度的值。

针对背景技术中的方案存在的问题，本申请的方案提供了一种新的损失函数，该新的损失函数可以在交叉熵损失函数的基础上改进得到的。当然，交叉熵只是损失计算方式之一，对于目前存在的其他损失函数，比如平方损失函数等，也可以基于本申请的思路改进得到该新的损失函数。下面进行详细说明。

图2为本申请的一些实施例提供的一种神经网络训练方法的流程示意图。在该流程中，从设备角度而言，执行主体可以是一个或者多个计算设备，比如，单个机器学***台等。

图2中的流程可以包括以下步骤：

S202：获取待训练的神经网络及其多个训练样本。

在本申请的一些实施例中，对于获取的每个训练样本，还需要确定该训练样本对应的真实结果，以便进行有监督学习，将训练样本对应的真实结果称为训练标签向量。

S204：利用所述多个训练样本和指定的损失函数，对所述神经网络进行训练；其中，所述损失函数包含用于对所述多个训练样本在所述神经网络的输出向量各维度的损失进行归一化的归一化参数，所述损失和所述归一化参数根据调节因子，以及所述训练样本在其真实所属类别对应的输出向量维度的不同取值区间确定，所述调节因子用于调节各类别之间的差异程度。

在本申请的一些实施例中，对神经网络进行迭代训练，步骤S204可以是其中的一次迭代过程，在每次迭代过程中，使用多个训练样本，计算这多个训练样本整体的损失用于修正神经网络模型。该整体的损失比如可以根据每个训练样本分别在神经网络的输出向量各维度分别的损失计算得到，在这种情况下，步骤S204中的损失具体可以指该分别的损失。

需要说明的是，该分别的损失的粒度是可以根据实际需求调整的，而并不限于对应于单个训练样本在输出向量单个维度，比如，也可以对应于单个训练样本在输出向量两个以上的维度等。

对于交叉熵损失函数而言，其并不包含调节因子，其平等地对待不同类别的样本，而在实际应用中，不同类别样本往往不均匀，导致针对各类别的训练程度可能有较大差异，由此给训练后的分类效果带来不利影响。

在本申请的一些实施例中，可以在交叉熵损失函数的基础上加上调节因子，则能一定程度地解决上一段的问题。假定将交叉熵称为标准的损失，比如可以利用调节因子调节不同样本分别对应的该标准的损失的大小，使其相互之间差距更小，从而相当于降低了不同类别之间的差异程度，则样本相对少的类别可能获得相比调节前更多的训练机会。为了获得更好的效果，调节因子对于不同类别的样本的调节程度可以是差异化地，尤其是对于相对容易分类的样本(往往属于样本多的类别，为了便于描述，将这种类别称为大类别)与相对难分类的样本(往往属于样本少的类别，为了便于描述，将这种类别称为小类别)。

单个样本分类容易与否可以有不止一种具体的度量方式，比如，根据交叉熵的大小度量，或者，根据样本在输出向量中真实所属类别对应的维度的值的大小度量，等等。相应地，调节因子也可以有适应于不同度量方式的多种形式，调节因子具体可以是单个参数，也可以是有多个参数构成的复合项。

在本申请的一些实施例中，除了调节因子，还可以基于步骤S204所属的不同取值区间，进一步地改进损失函数。该不同取值区间也能够反映样本的分类难易程度，并且更加直观，可以据此更粗放地调整标准的损失，以尽量平衡各类别的训练机会，尤其可以给相对难训练的样本更多的训练机会，比如，先对各大类别进行训练，然后依次训练各小类别。

在本申请的一些实施例中，以输出向量单个维度为单位，精细地调整了标准的损失，在计算整体的损失时，还采用了归一化参数对各分别的损失进行了归一化处理，如此有利于平衡不同维度可能带来的误差。归一化参数的形式可以适应于该分别的损失的形式，以便取得更好的归一化效果，尤其可以也相应地包含上述的调节因子，以及按照上述的不同取值区间进行分段计算。

通过图2的方法，提供了改进的损失函数，能够通过包含调节因子的上述归一化参数，以及上述不同取值区间，在计算损失时对相对容易分类的训练样本和相对难分类的训练样本进行区别处理，以便更充分地利用相对难分类的训练样本进行训练，其中，对于小类别，小类别的样本往往也是相对难分类的，从而，有助于提高训练出的神经网络的分类效果。

基于图2的方法，本申请的一些实施例还提供了该方法的一些具体实施方案，以及扩展方案，下面进行说明。

在本申请的一些实施例中，损失函数还可以包含各类别的权重因子，该权重因子通常是单个参数，在针对不同维度计算分别的损失时，该权重因子的取值可以根据维度差异化调节。

在本申请的一些实施例中，调节因子可以根据所述训练样本在其真实所属类别对应的输出向量维度的值确定，在这种情况下，调节因子可以进一步地用于减少上述的多个训练样本中相对容易分类的训练样本在神经网络的输出向量维度的相对的损失，该相对的损失是针对未使用调节因子的情况比较确定的。针对该例，调节因子比如可以包含(1-y'_jc)^γ这样的项，y'_jc表示多个训练样本中的第j个训练样本在其真实所属类别对应的输出向量维度的值，在该项中，具体可以通过参数γ调节各类别之间的差异程度。

在本申请的一些实施例中，步骤S204中的不同取值区间之间可以不重叠，根据下限值越小的取值区间确定出的损失(具体指上述的分别的损失)越小，根据下限值最小的取值区间确定出的损失可以尽量小，优选为0(相当于当前暂时不针对相应的维度进行训练，以待后续争取更多机会训练)。

不同取值区间的数量有两个以上。为了减少计算量，该数量比如是两个。对于样本的分类难易程度，若考虑两级以上的多级分类难易程度，则可以相应地预先指定两个以上的不同取值区间。

在本申请的一些实施例中，神经网络以训练样本批次为单位，进行迭代训练，在这种情况下，步骤S202中的多个训练样本属于同一样本批次。不同样本批次中的训练样本可以部分重复，同一样本批次可以迭代训练多次。

根据上面的说明，更直观地，本申请的一些实施例还提供了步骤S202中的损失函数的一个实例及相关说明。假定上述的不同取值区间包括以预定的参数η分隔出的两个取值区间，η＞0，η可以是一直固定的，也可以在训练过程中按需求动态调节，该损失函数记作L(y,y')，其值也即上述的整体的损失，具体比如包括：

其中，y表示训练标签向量，y'表示所述神经网络的输出向量，Z表示所述归一化参数，B表示一个样本批次，C表示y'的全部维度，y_ji表示B中的第j个训练样本对应的训练标签向量第i个维度的值，y_ji'表示B中的第j个训练样本在所述神经网络的输出向量第i个维度的值，loss(y_ji,y'_ji)表示B中的第j个训练样本在所述神经网络的输出向量第i个维度的损失(也即，上述的分别的损失)，α表示所述权重因子，y'_jc表示B中的第j个训练样本在其真实所属类别对应的输出向量维度的值，(1-y'_jc)^γ表示所述调节因子。

当然，上面的调节因子、归一化参数、不同取值区间都是示例性的，并非唯一的形式。比如，(1-y'_jc)^γ可以通过乘法、指数或者对数等运算进行变形，可以增减其中的参数等，只要能够实现调节因子的积极效果即可。

该例中示例性的损失函数以交叉熵函数为基础，同时加入了调节因子、归一化参数、不同取值区间和权重因子等多项改进。需要说明的是，在实际应用中，也可以只加入其中一部分改进，但是，相应地可能弱化积极效果。

例如，假定只加入不同取值区间这项改进，则为了充分小类别，会倾向于将η设置得较小，比如在0.51到0.6之间，但如此可能导致训练的神经网络对于标签向量的可信度较低，模型鲁棒性不高，容易出现不同类别混淆的情况。

又例如，假定只加入调节因子这项改进，则需要在一个较大的取值范围中搜索α和γ的合适取值，以使其符合训练样本的分布情况，搜索成本较高；不仅如此，当大类别样本数量明显多于小类别样本数量，且样本覆盖较广时，小类别样本训练的机会依旧会偏少，仍难以训练充分。

而上面的公式实例中，至少部分解决了单项改进存在的问题，同时也具有各项改进分别的优点。比如，通过归一化参数，平衡了误差，有利于缩小α和γ的搜索范围；通过不同取值区间，使得即使当大类别样本数量明显多于小类别样本数量，且样本覆盖较广时，仍可能使小类别样本获得较多训练的机会；通过调节因子，使得η能够设置得更大，以便解决训练的神经网络对于标签向量的可信度较低的问题。本申请的方案在实际应用中，一般可以将α设置为1，将η设置为0.8到0.9范围内的值，将γ设置为2或者3。

基于同样的思路，本申请的一些实施例还提供了上述方法对应的装置、设备和非易失性计算机存储介质。

图3为本申请的一些实施例提供的对应于图2的一种神经网络训练装置的结构示意图，该装置包括：

获取模块301，获取待训练的神经网络及其多个训练样本；

训练模块302，利用所述多个训练样本和指定的损失函数，对所述神经网络进行训练；

可选地，所述损失函数还包含所述各类别的权重因子。

可选地，根据下限值最小的取值区间确定出的所述损失为0。

可选地，所述多个训练样本属于同一样本批次；

所述训练模块302对所述神经网络进行训练，具体包括：

所述训练模块302以样本批次为单位，对所述神经网络进行迭代训练。

可选地，η设置为0.8到0.9范围内的值。

可选地，γ设置为2或者3。

图4为本申请的一些实施例提供的对应于图2的一种神经网络训练设备的结构示意图，该设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待训练的神经网络及其多个训练样本；

本申请的一些实施例提供的对应于图1的一种神经网络训练非易失性计算机存储介质，存储有计算机可执行指令，该计算机可执行指令设置为：

获取待训练的神经网络及其多个训练样本；

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备和介质与方法是一一对应的，因此，装置、设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述装置、设备和介质的有益技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种神经网络训练方法，其特征在于，包括：

获取待训练的神经网络及其多个训练样本；

2.如权利要求1所述的方法，其特征在于，所述损失函数还包含所述各类别的权重因子。

3.如权利要求1所述的方法，其特征在于，所述调节因子根据所述训练样本在其真实所属类别对应的输出向量维度的值确定；

4.如权利要求1所述的方法，其特征在于，所述不同取值区间之间不重叠，根据下限值越小的取值区间确定出的所述损失越小。

5.如权利要求4所述的方法，其特征在于，根据下限值最小的取值区间确定出的所述损失为0。

6.如权利要求1所述的方法，其特征在于，所述多个训练样本属于同一样本批次；

所述对所述神经网络进行训练，具体包括：

以样本批次为单位，对所述神经网络进行迭代训练。

7.如权利要求2所述的方法，其特征在于，所述不同取值区间包括以预定的η分隔出的两个取值区间，η＞0，所述损失函数记作L(y,y')，具体包括：

8.一种神经网络训练装置，其特征在于，包括：

获取模块，获取待训练的神经网络及其多个训练样本；

9.一种神经网络训练设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待训练的神经网络及其多个训练样本；

10.一种神经网络训练非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：

获取待训练的神经网络及其多个训练样本；