CN109902722A

CN109902722A - 分类器、神经网络模型训练方法、数据处理设备及介质

Info

Publication number: CN109902722A
Application number: CN201910082386.8A
Authority: CN
Inventors: 蔡东阳; 王涛; 刘倩; 刘洁
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-18

Abstract

本发明公开了分类器、神经网络模型训练方法、数据处理设备及介质。一种分类器包括：加权损失值计算装置，使得从神经网络模型输出的预测置信度经由其而得到该训练样本在各分类类别上的加权损失值；及参数调整装置，所述加权损失值反向输出到该参数调整装置，以使得其基于加权损失值调整该神经网络模型的参数，由此完成该分类器的神经网络模型的训练，其中，该加权损失值计算装置在用来度量训练样本的预测置信度与标注真实值的损失代价的损失函数中，添加加权因子，由此计算得到该训练样本在各分类类别上的加权损失值。通过在损失值计算时添加加权因子，能够调整神经网络模型的参数，优化网络模型，提高分类器的识别精度。

Description

分类器、神经网络模型训练方法、数据处理设备及介质

技术领域

本发明涉及分类技术，尤其涉及分类器、神经网络模型训练方法、数据处理设备及介质。

背景技术

深度学习目前是计算机模式识别领域精度优秀、广泛使用的主流方法。在深度学习模型的应用过程中，首先需要将深度学习模型在大的训练数据集上进行训练，通过自定义的损失函数和反向传播算法(例如作为多次迭代的反向传播算法的梯度下降函数)学习迭代最优的神经网络模型参数，然后在验证集上验证达到指标后，部署到实际应用中进行分类或预测。

深度学习在实际数据训练中，经常会出现由于训练样本的数量不均衡导致分类精度不高的问题。例如，对于物体识别，一些常见类别的样本的数目可能有很多，例如可以有几千到上万个以上，但是，不常见类别的样本由于出现频率低、难于收集，它们的数目则很少，例如可能仅几百个样本甚至更少。由于传统的损失函数(如交叉熵、均方误差等)没有考虑现实情况中这种不同类别的训练样本的数目的差异，会导致深度学习模型的总体分类结果更偏向于样本数更多的类别，尽管已经使损失函数的损失值最小，但对于小样本类别的分类的精度却仍然可能很低。例如，假设一个训练数据集中有两类样本A和B，样本A的数目远远大于样本B，则即便某个待分类物品与样本B属于同类，但经过这个训练数据集训练后的深度学习模型的分类结果可能更大概率为样本A，这就是由于训练样本的数量不均衡导致的分类精度不高的问题。

由此，亟需一种提高分类器的识别精度的解决方案。

发明内容

为了解决以上问题之一，本发明提供了一种分类器、神经网络模型训练方法、数据处理设备及介质，以期克服分类器的识别精度不高的问题，由此提高其识别精度。

根据本发明的一个实施例，提供一种基于神经网络模型的分类器，包括：加权损失值计算装置，被配置用于使得从所述神经网络模型输出的、作为神经网络模型的初步预测结果的、用于表示训练样本属于样本的各分类类别的概率的预测置信度，经由该加权损失值计算装置，得到该训练样本在各分类类别上的加权损失值；以及参数调整装置，由加权损失值计算装置输出的所述加权损失值反向输出到该参数调整装置，以使得所述参数调整装置基于所述加权损失值调整该神经网络模型的参数，由此完成该分类器的神经网络模型的训练，其中，该加权损失值计算装置在用来度量训练样本的所述预测置信度与标注真实值的损失代价的损失函数中，添加加权因子，由此计算得到该训练样本在各分类类别上的加权损失值。

可选地，所述加权因子与以下至少之一有关：

1)训练数据集中各分类类别的训练样本的数目；以及

2)作为所述神经网络模型的初步预测结果的、用于表示训练样本属于样本的各分类类别的概率的预测置信度。

可选地，所述加权因子与训练数据集中各分类类别的训练样本的数目成反比。

可选地，所述加权因子与作为神经网络模型的初步预测结果的、用于表示训练样本属于样本的各分类类别的概率的预测置信度呈单调递减关系。

可选地，所述损失函数包括交叉熵损失函数。

可选地，所述参数调整装置基于所述加权损失值，通过多次迭代的后向传播算法来调整神经网络模型的参数。

根据本发明的一个实施例，提供一种用于分类器的神经网络模型训练方法，包括：将训练样本输入到神经网络模型；神经网络模型输出作为初步预测结果的、用于表示所述训练样本属于样本的各分类类别的概率的预测置信度；通过在用来度量训练样本的所述预测置信度与标注真实值的损失代价的损失函数中添加加权因子，并且利用该添加了加权因子的损失函数，来计算该训练样本在各分类类别上的加权损失值；以及基于该训练样本在各分类类别上的所述加权损失值，调整所述神经网络模型的参数，由此完成神经网络模型的训练。

可选地，所述加权因子与以下至少之一有关：

1)训练数据集中各分类类别的训练样本的数目；以及

可选地，所述损失函数包括交叉熵损失函数。

可选地，基于所述加权损失值，通过多次迭代的后向传播算法来调整神经网络模型的参数。

根据本发明的再一个实施例，提供一种数据处理设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上面描述的方法之一。

根据本发明的又一个实施例，提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行上面描述的方法之一。

本发明通过在损失值计算时添加加权因子，能够调整神经网络模型的参数，优化神经网络模型，从而对于使用神经网络模型进行分类和预测的图像分类、物品识别、图像分割、边缘提取、语音识别等应用而言，能够有效提高识别精度。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的附图标记通常代表相同部件。

图1给出了根据本发明的一个示例性实施例的分类器的示意性框图。

图2给出了根据本发明的一个示例性实施例的神经网络模型训练过程的示意图。

图3给出了根据本发明的一个示例性实施例的神经网络模型训练方法的示意性流程图。

图4给出了根据本发明的一个示例性实施例的数据处理设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。这里需要说明的是，本申请中的数字、序号以及附图标记仅是为了方便描述而出现的，对于本发明的步骤、顺序等等均不构成任何限制，除非在说明书中明确指出了步骤的执行有特定的先后顺序。

神经网络分类模型解决多分类问题最常用的方法是设置n个输出节点，其中n为类别的个数。对于每一个样本，经由神经网络可以得到一个n维数组作为输出结果。数组中的每一个维度(也就是每一个输出节点)对应一个类别的输出结果。在理想情况下，如果一个样本属于类别k，那么这个类别所对应的输出节点的输出值应该为1，而其他节点的输出都为0。在实际应用中，通常输出结果并不能够达到1，而是一个概率数值，比如0.5、0.3等，这种情况通常取概率最大的输出节点对应的那个类别作为这个样本的最终分类结果。

如背景技术中所述，目前存在分类器的分类精度低的问题，例如由于训练样本数目不均衡导致的分类精度低的问题，更具体而言，由于某个或某些类别的样本的数目大，其对应的输出节点的输出概率值可能也会大，导致得到的分类结果偏向于数目大的样本类别，导致可能无法准确识别出数目小的样本的类型。另外，还存在困难样本的识别精度低的问题。

为了解决上述问题之一，本发明提出一种使用基于加权损失函数的神经网络模型的训练方法及相应的分类器。

首先，图1给出了根据本发明的一个示例性实施例的分类器的示意性框图，图2给出了根据本发明的一个示例性实施例的神经网络模型训练过程的示意图。

具体地，如图1所示，根据本发明的一个示例性实施例的基于神经网络模型的分类器100包括加权损失值计算装置110和参数调整装置120。

其中，加权损失值计算装置110可以被配置用于，使得从分类器100的神经网络模型输出的、作为神经网络模型的初步预测结果的、用于表示训练样本属于样本的各分类类别(如图2所示，分类器共有K个输出节点，所以共有K个分类类别)的概率的预测置信度，经由该加权损失值计算装置110，得到该训练样本在各分类类别上的加权损失值(如图2所示)。

然后，由加权损失值计算装置110输出的加权损失值反向输出到参数调整装置120，以使得参数调整装置120基于这些加权损失值来调整该神经网络模型内的各节点的参数，由此完成该分类器的神经网络模型的训练。

其中，上述的加权损失值计算装置110在用来度量训练样本的预测置信度与标注真实值的损失代价的损失函数中，添加加权因子，由此计算得到该训练样本在各分类类别上的加权损失值。

这里，训练样本的“预测置信度”是从神经网络模型输出的对于该训练样本的初步预测结果，用于表示该训练样本属于各分类类别的概率。例如，对于一个3类分类器，其初始的神经网络模型预测一个训练样本属于第1分类类别的概率为0.3，属于第2分类类别的概率为0.5，属于第3分类类别的概率为0.2，则这里的0.3、0.5和0.2分别为该训练样本属于第1类、第2类和第3类的预测置信度。

另一方面，训练样本的“标注真实值”意指，当该训练样本属于某分类类别时，该训练样本在该分类类别上的标注真实值应该为“1”，当该训练样本不属于某分类类别时，该训练样本在该分类类别上的标注真实值应该为“0”。

如图3所示，在步骤S101，将训练样本输入到神经网络模型，然后神经网络模型输出作为初步预测结果的、用于表示该训练样本属于样本的各分类类别的概率的预测置信度(可参考上面所举的例子和图2所示)。

然后，在步骤S110，通过在用来度量训练样本的所述预测置信度与标注真实值的损失代价的损失函数中添加加权因子，并且利用该添加了加权因子的损失函数，来计算该训练样本在各分类类别上的加权损失值。

然后，在步骤S120，基于该训练样本在各分类类别上的加权损失值，调整所述神经网络模型的参数，由此完成神经网络模型的训练(如图2所示)。

这里，可以基于加权损失值，通过多次迭代的后向传播算法(例如梯度下降法等)，来调整神经网络模型的参数。

在上面的示例性实施例中，加权函数可以包括交叉熵函数。

对于一个M类的分类模型，传统的交叉熵损失函数定义为：

其中，p_i(x_k)表示训练样本x_k属于第i类的真实概率(即上述的“标注真实值”)，其取值通常为0或1。例如，如上所述，如果训练样本x_k属于某类，则该概率在该类别的取值为1，否则为0。

式子1)中的q_i(x_k)表示预测训练样本x_k属于第i类的置信度概率(即上述的“预测置信度”)，其就是分类器的与第i类样本对应的输出节点的输出结果。如上所述，M个输出节点可以输出M个置信度概率，用于表示一个样本分别属于这M个类别中的一个类别的概率。如上所述，在分类时，通常取置信度概率最大的那个类别作为分类结果。

在本发明中，上述的加权因子可以与以下至少之一有关：

1)训练数据集中各分类类别的训练样本的数目；以及

假设有一个含有K个训练样本(这里，样本可以记为x_k，其中k＝1,2……,K)的数据集X_K，其中，X_K＝{x₁,x₂,……,x_K}。

对于损失函数，与上述传统的交叉熵函数不同，在本发明中，首先，可以使用与类别i的样本的数目成反比的样本数权重w_i，来调整损失函数的损失值，由此由样本数权重形成的加权损失函数如下。

如上所述，样本数权重w_i与类别i的样本的数目成反比，其可以例如具有如下形式

或者，例如为以下形式

这里，n_i是第i类训练样本的样本数量，N是所有的训练样本的数量，β为大于0的任意实数，优选地，β是正整数(计算较简单)。

如上所述，根据本发明的一个示例性实施例，首先定义一个与类别i的样本的数目成反比的加权因子w_i(可以称为“样本数权重w_i”)，然后根据各类样本的数目大小来反向调整损失值，即增加样本数量少的类别的训练数据的损失值，抑制样本数量多的类别的训练数据的损失值，从而使得神经网络模型在均衡数据上能够获得更好的分类精度。

即，本示例性实施例针对样本数目不平衡导致的分类精度低的问题，提出了使用样本数权重w_i来调节损失值，以为例，当某一类别的样本数很小时，权重w_i的值趋近于1，该类别的损失值结果基本不变；但当某一类别的样本数目很多时，权重w_i的值趋近于0，该类别的损失值都会降低。这样，通过样本数权重，可以大大减少样本数目多的类型的样本的损失贡献，由此能够在一定程度上解决样本数目不平衡导致的分类精度低的问题。

综上可知，通过利用上述的“样本数权重w_i”调节各类样本的损失值，即增加样本数量少的类别的训练数据的损失值，同时抑制样本数量多的类别的训练数据的损失值，使得根据本发明的分类方法能够获得更高的分类精度。

根据本发明的另一个示例性实施例，损失值的权重也可以根据第i类的预测置信度q_i(x_k)来进行调整，此时可以称该权重为置信度权重u_i(该权重u_i与第i类的预测置信度q_i(x_k)有关)，使得对于预测置信度q_i(x_k)不好的样本类别，给予较高的损失值权重，否则，给予较低的权重，由此使得根据本发明的分类方法或分类器能够获得更高的分类精度。

由此，由置信度权重u_i形成的加权损失函数如下。

其中，u_i为上述的置信度权重。

如上所述，置信度权重u_i与第i类的预测置信度q_i(x_k)有关，具体地，例如，置信度权重的大小可以与预测置信度呈单调递减的关系，以便对于其预测置信度q_i(x_k)不好的样本类别，给予较高的损失值权重，否则，给予较低的损失值权重。

因此，例如，置信度权重u_i可以定义如下。

u_i＝(1-q_i(x_k))^α (7)

这里，α为大于0的任意实数，优选地，α是正整数(计算较简单)。

本示例性实施例可以解决困难样本的问题，困难样本指的是网络中难以准确判别的样本。针对这类样本，本发明通过置信度权重u_i来加大其损失函数的贡献。在加权损失值的计算公式中，q_i(x_k)指的是网络预测的置信度。对于某类样本来说，网络预测的置信度q_i(x_k)越高，u_i越小，该样本的损失权重贡献越小，由此能够抑制该样本的权重贡献，解决困难样本难以识别的问题。

通过基于在分类器的输出节点上输出的预测置信度来调整损失值的权重，使得对于预测置信度不好的样本类别，给予较高的损失值权重，否则给予较低的权重，使得根据本发明的分类方法或分类器能够获得更高的分类精度。

根据本发明的再一个示例性实施例，损失值的权重(可以称之为“综合权重h_i”)也可以根据各类样本的数目以及各输出节点输出的预测置信度两者来进行调整。即，本实施例可以看作是上述两个实施例的组合。

具体地，综合权重h_i可以由w_i和u_i两者结合而成。

例如，综合权重h_i可以由下式(8)构成。

h_i＝(w_i)^s(u_i)^t (8)，

这里，s和t均可以为大于0的任意实数，优选地，为正整数。

由此，由综合权重h_i形成的权重函数如下。

通过结合各类样本的数目与分类器的输出节点上输出的预测置信度来调整损失值的权重，使得对于样本数量不均衡以及预测置信度不好的样本类别，给予较高的损失值权重，否则给予较低的权重，使得根据本发明的分类方法或分类器能够获得更高的分类精度。

参见图4，该数据处理设备1包括存储器10和处理器20。

处理器20可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器20可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器20可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器10上存储有可执行代码，当所述可执行代码被所述处理器20执行时，使所述处理器20执行上面描述的数据迁移方法之一。其中，存储器10可以包括各种类型的存储单元，例如***内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器20或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器10可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器10可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图等等显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于神经网络模型的分类器，其特征在于，包括：

加权损失值计算装置，被配置用于使得从所述神经网络模型输出的、作为神经网络模型的初步预测结果的、用于表示训练样本属于样本的各分类类别的概率的预测置信度，经由该加权损失值计算装置，得到该训练样本在各分类类别上的加权损失值；以及

参数调整装置，由加权损失值计算装置输出的所述加权损失值输出到该参数调整装置，以使得所述参数调整装置基于所述加权损失值调整该神经网络模型的参数，由此完成该分类器的神经网络模型的训练；

其中，该加权损失值计算装置在用来度量训练样本的所述预测置信度与标注真实值的损失代价的损失函数中，添加加权因子，由此计算得到该训练样本在各分类类别上的加权损失值。

2.如权利要求1所述的分类器，其特征在于，其中，所述加权因子与以下至少之一有关：

1)训练数据集中各分类类别的训练样本的数目；以及

3.如权利要求2所述的分类器，其特征在于，其中，所述加权因子与训练数据集中各分类类别的训练样本的数目呈反比例关系。

4.如权利要求2所述的分类器，其特征在于，其中，所述加权因子与作为神经网络模型的初步预测结果的、用于表示训练样本属于样本的各分类类别的概率的预测置信度呈单调递减关系。

5.如权利要求1～4中的任何一项所述的分类器，其特征在于，所述损失函数包括交叉熵损失函数。

6.如权利要求1～4中的任何一项所述的分类器，其特征在于，所述参数调整装置基于所述加权损失值，通过多次迭代的后向传播算法来调整神经网络模型的参数。

7.一种用于分类器的神经网络模型训练方法，其特征在于，包括：

将训练样本输入到神经网络模型；

神经网络模型输出作为初步预测结果的、用于表示所述训练样本属于样本的各分类类别的概率的预测置信度；

通过在用来度量训练样本的所述预测置信度与标注真实值的损失代价的损失函数中添加加权因子，并且利用该添加了加权因子的损失函数，来计算该训练样本在各分类类别上的加权损失值；以及

基于该训练样本在各分类类别上的所述加权损失值，调整所述神经网络模型的参数，由此完成神经网络模型的训练。

8.如权利要求7所述的神经网络模型训练方法，其特征在于，其中，所述加权因子与以下至少之一有关：

1)训练数据集中各分类类别的训练样本的数目；以及

9.如权利要求8所述的神经网络模型训练方法，其特征在于，其中，所述加权因子与训练数据集中各分类类别的训练样本的数目成反比。

10.如权利要求8所述的神经网络模型训练方法，其特征在于，其中，所述加权因子与作为神经网络模型的初步预测结果的、用于表示训练样本属于样本的各分类类别的概率的预测置信度呈单调递减关系。

11.如权利要求7～10中的任何一项所述的神经网络模型训练方法，其特征在于，所述损失函数包括交叉熵损失函数。

12.如权利要求7～10中的任何一项所述的神经网络模型训练方法，其特征在于，基于所述加权损失值，通过多次迭代的后向传播算法来调整神经网络模型的参数。

13.一种数据处理设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求7～12中任何一项所述的方法。

14.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行如权利要求7～12中任何一项所述的方法。