CN110070183A

CN110070183A - 一种弱标注数据的神经网络模型训练方法及装置

Info

Publication number: CN110070183A
Application number: CN201910181274.8A
Authority: CN
Inventors: 葛仕明; 李晨钰
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-07-30
Anticipated expiration: 2039-03-11
Also published as: CN110070183B

Abstract

本发明涉及一种弱标注数据的神经网络模型训练方法及装置。该方法的步骤包括：1)通过特征流深度神经网络从输入的特征中学习标签预测，并输出目标标签的预测结果；2)通过标签流深度神经网络从输入的多视角弱标签中学习标签预测，并输出目标标签的预测结果；3)采用广义的交叉熵损失定义标签的一致性，通过联合地训练所述特征流深度神经网络和所述标签流深度神经网络，对目标标签的预测结果进行优化。本发明采用特征与标签两路学习标签预测，通过双流协同统一融合了模型和知识，同时考虑了弱特征和弱标签，创新性地构建了模型协同优化策略，利用彼此的知识交叉验证引导模型优化。

Description

一种弱标注数据的神经网络模型训练方法及装置

技术领域

本发明属于互联网领域，具体而言，涉及一种基于弱监督学习的神经网络模型训练方法和装置。

背景技术

近年来，人工神经网络在机器学习和模式识别领域取得了巨大的成就。人工神经网络的计算模型灵感来自动物的中枢神经***，通常呈现为相互连接的“神经元”，可以依赖于大量的输入和一般的未知近似函数进行估计，具有很强的非线性关系拟合能力。

例如，用于手写体识别的神经网络是由一组可能被输入图像的像素激活的输入神经元来限定。后经过加权，并通过一个函数(由网络的设计者确定的)转化，这些神经元的致动被其他神经元识别然后被传递，重复此过程，直到最后，输出神经元被激活，这决定了哪些字符被读取。

人工神经网络的最大优势是其能够被用作一个任意函数逼近的机制，那是从观测到的数据“学习”。换言之，为了实现预先被确定的功能，大规模的完全标注信息的训练数据对模型的训练起着至关重要的作用。而现实生活中，一方面人工标注的时间和人力成本很高，另一方面，部分问题缺乏足够的先验知识，难以得到准确的分类标签。

针对上述的问题，目前尚未提出有效的解决方案。在弱监督机器学习领域，更具体地，在含噪音标记样本下的学习问题，主要有以下几种方法。

一类方法是基于噪声估计的学***已知，从而通过对分类分布进行损失惩罚设计来实现学习，如通过修改理想情况下的标签损失惩罚函数到带噪音标签情况下的标签损失惩罚函数来实现学习。

第二类方法是知识传递方法，通过将已经学习的模型在一定量的样本上进行传递与修正，获得更好的模型。采用知识传递的方法，可在一个含大量数据的数据集上进行模型训练，得到一个性能较高的模型，然后利用该模型在特定的弱监督数据集上进行模型调整，从而实现模型对特定应用的适应性。

第三类方法是集成学习方法，使用一系列学习器在已有弱监督数据上进行学习，将已有的同类别“弱”模型集成起来，变为“强”模型。通过集成多个学习器，充分利用它们学习到的针对训练数据的知识并将其综合应用，集百家之长，从而在特定条件下能实现更高的准确率，但训练比较复杂而且效率不高。

上述现有技术的缺陷主要是：1.模型复杂度高，训练困难；2.分类器对标注知识利用不足，分类准确度不佳。3.模型安全性差。

发明内容

本发明提供了一种弱标注数据的神经网络模型训练方法和装置，以解决在标签不准确的情形下训练强决策能力的分类网络的技术问题。

本发明的一种弱标注数据的神经网络模型训练方法，包括以下步骤：

1)通过特征流深度神经网络从输入的特征中学习标签预测，并输出目标标签的预测结果；

2)通过标签流深度神经网络从输入的多视角弱标签中学习标签预测，并输出目标标签的预测结果；

3)采用广义的交叉熵损失定义标签的一致性，通过联合地训练所述特征流深度神经网络和所述标签流深度神经网络，对目标标签的预测结果进行优化。

进一步地，所述特征流深度神经网络是一个基于深度神经网络的特征修复与决策模型，其由11个全连接层构成，输出层的激活函数为tanH，其他层的激活函数均为ReLU函数；该模型的目标是输出针对具体业务场景的决策，即解决一个二分类问题；该模型的第1到9层对输入特征进行非线性映射，采用自动编码器的架构，利用信息的冗余性，恢复在降维过程中损失的场景信息；10到11层则基于修复后的特征输出针对具体业务场景的决策，即预测标签。

进一步地，所述标签流深度神经网络是一个基于深度神经网络的标签去噪优化与集成决策模型，其由11个全连接层构成，输出层的激活函数为tanH，其他层的激活函数均为ReLU函数；该模型的目标是输出针对具体业务场景的决策，即解决一个二分类问题；该模型的第1到9层对输入弱标签进行非线性映射，采用自动编码器的架构，将输入弱标签视作含噪声的准确标签，通过重构输入实现去噪声的目的，以隐式学习的方式将原本的弱标签提炼为精简且准确的形式，10到11层的目标则是依据经优化的标签输出具体业务决策，即二分类结果。

进一步地，步骤3)包括：

3.1)构建一个损失函数L，由目标一致性损失项和知识损失项组成：

其中，Φ_f为特征学***衡各项损失的影响。特征流DNN和标签流DNN的参数{W_f，W_t}以及伪目标标签是模型学习的目标，F和T是输入特征和弱标签即训练样本；本发明所述“伪目标标签”是指假设的目标标签，具有目标标签的监督功能。

损失函数L的第一项为目标一致性损失项L₁，用于实现特征学习器和标签学习器的知识融合，通过互相协同来进行伪标签监督情形下模型规整和优化；损失函数L的第二项为知识损失项L₂，用于对伪标签自身分布规律的有效性进行评估，从而更新伪标签，确保特征修复和标签去噪的有效性。

3.2)通过交替迭代优化损失函数L，实现神经网络模型的学习。

进一步地，根据业务部署需求，对训练好的所述特征流深度神经网络和所述标签流深度神经网络的模型进行优化压缩；所述优化压缩包括下列中的至少一种：

a)从模型大小上通过量化、剪枝进行参数数量与精度裁剪，提升模型部署的推理效能；

b)采用模型蒸馏技术设计层数更少的、结构更紧凑的神经网络来实现对复杂模型效果的逼近。

进一步地，所述模型蒸馏技术从训练好的模型中提取归一化前的概率分布向量为软分类标签，作为另一个更轻量级、更低复杂度的模型的学习目标，通过对学生模型的训练，实现知识从教师模型到学生模型的传递。

进一步地，从所述特征流深度神经网络和所述标签流深度神经网络的网络结构或规则引入可解释性机制，以提升模型部署的安全性。

与上面方法对应地，本发明还提供一种弱标注数据的神经网络模型训练装置，其包括：

特征学习器，用于通过特征流深度神经网络从输入的特征中学习标签预测，并输出目标标签的预测结果；

标签学习器，用于通过标签流深度神经网络从输入的多视角弱标签中学习标签预测，并输出目标标签的预测结果；

目标一致性评估器，用于采用广义的交叉熵损失定义标签的一致性，通过联合地训练所述特征流深度神经网络和所述标签流深度神经网络，对目标标签的预测结果进行优化。

进一步地，还包括模型压缩器，用于根据业务部署需求，对训练好的所述特征流深度神经网络和所述标签流深度神经网络的模型进行优化压缩。

与现有技术相比，本发明的积极效果为：

1.采用特征与标签两路学习标签预测，通过双流协同统一融合了模型和知识，同时考虑了弱特征和弱标签，创新性地构建了模型协同优化策略，利用彼此的知识交叉验证引导模型优化。

2.创新性地引入伪目标标签，将无监督问题转化为有监督问题，迭代优化双流分类模型与伪目标标签，提升模型性能。

3.提出以知识蒸馏为核心的模型压缩，降低模型复杂度和计算成本，使之更适于实际部署。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的双流深度神经网络***优化框架。

图2为本发明的特征学习器流程图。

图3为本发明的标签学习器流程图。

图4为本发明的模型压缩流程图。

图5为本发明的一个应用场景示例。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一方面，提供了一种模型的训练方法的方法实施例。本发明的方法流程如图1所示。本发明的方法框架包含特征流和标签流两个深度神经网络(DNN)，即双流深度神经网络，主要由特征学习器、标签学习器、目标一致性评估器和模型压缩器四个模块组成。

一.特征学习器

现实的互联网业务中，一般需要基于多维大数据做出决策，由于应用这些高维度、高稀疏性的元数据直接用于训练显然效率太低，往往利用既有的模型或规则提取特征向量，实现数据的清洗与结构化，再进行后续任务。由于维度压缩程度高，特征向量的表征能力有限。

针对以上不足，本发明构建了一个基于DNN的特征修复与决策模型Φ_f。具体地，模型由11个全连接层构成，输出层的激活函数为tanH，其他层的激活函数均为ReLU函数。用Φ_f(F,W_f)表示模型对输入的F和W_f进行非线性操作得到的输出结果，其中F表示输入特征向量，W_f表示模型Φ_f的参数。该模型的目标是输出针对具体业务场景的决策，即解决一个二分类问题(是否为某事件)。该模型的第1到9层对输入特征进行非线性映射，采用自动编码器的架构，目的是利用信息的冗余性，恢复在降维过程中损失的场景信息，得到表征能力更强的特征，通过神经网络层实现对输入特征的非线性映射；10到11层则基于修复后的特征输出针对具体业务场景的决策，即预测标签，其大小与目标标签相同，对于二类分类问题来说其维度是1，采用独热编码形式表示则是2维。特征学习器的流程如图2所示。

该模型的优点体现在：将修复与识别任务相结合，一方面通过中间层隐特征修复，提高特征的表征能力，为后续的风险决策提供尽可能丰富而准确的有关目标场景的信息；另一方面，有效利用了决策结果对特征的修复提供的知识引导。

二.标签学习器

实际场景中我们往往能够获得弱标签，即与目标问题不直接相关或不够准确的标记信息，弱标签具备对场景数据的一定的辨别或理解能力，但不足以对复杂目标问题做出强决策。基于此，本模块构建了一个基于DNN的标签去噪优化与集成决策模型Φ_t，具体地，模型由11个全连接层构成，输出层的激活函数为tanH，其他层的激活函数均为ReLU函数。用Φ_t(T,W_t)表示模型对输入的T和W_t进行非线性操作得到的输出结果，其中T表示输入弱标签，W_t表示模型Φ_t的参数。该模型的目标是输出针对具体业务场景的决策，即解决一个二分类问题(是否为某事件)。模型的第1到9层对输入弱标签进行非线性映射，采用自动编码器的架构，将输入弱标签视作含噪声的准确标签，以无噪声标签为目标输出，通过重构输入实现去噪声的目的，将原本的弱标签提炼为更精简且准确的形式，10到11层的目标则是依据经优化的标签输出具体业务决策，即二分类结果。该模块的研究实现了标签的优化与再整理。标签学习器的流程如图3所示。

该模块的优点体现在：有效地利用了既有弱标签所蕴含的对场景数据的理解能力，通过知识再整合，用于提升模型在具体业务上的表现，形成了一个通用的模型框架。

三.目标一致性评估器

为了实现特征学习器和标签学习器之间的相互协作，进行针对具体业务场景的训练与优化。本发明提出一种基于目标一致性的优化学习方法，具体步骤为：

首先构建一个评估损失函数L，由目标一致性损失项和知识损失项组成：

其中，Φ_f为特征学***衡各项损失的影响。特征流DNN和标签流DNN的参数{W_f，W_t}以及伪目标标签是模型学习的目标，F和T是输入特征和弱标签即训练样本。

损失函数L的第一项为目标一致性损失项L₁，用于实现特征学习器和标签学习器的知识融合，通过互相协同来进行伪标签监督情形下模型规整和优化。具体地可以表示为以下公式：

其中，n代表样本个数，C代表类别个数。p_ji和q_ji分别为网络Φ_f和Φ_t输出的第j个样本属于第i类的预测概率，是相应的目标概率即伪标签，和分别是网络Φ_f和Φ_t中间层的特征，D表示特征学习器和标签学习器中间层特征之间的距离。

上式由三项组成，第一项和第二项均为广义的交叉熵函数，分别用于评价特征学习器和标签学习器预测结果与伪标签分布的一致性，目的是以伪标签作为监督信号优化两个分类网络。第三项则是特征学习器和标签学习器中间层特征之间的距离，目的是实现两个网络知识的协同，互相引导网络的优化，这里即选用最简单的欧氏距离度量。

损失函数L的第二项为知识损失项L₂，用于对伪标签自身分布规律的有效性进行评估，从而更新伪标签，确保特征修复和标签去噪的有效性。数学表达如下：

其中，n代表样本个数，C代表类别个数。p_ji和q_ji分别为网络Φ_f和Φ_t输出的第j个样本属于第i类的预测概率，是相应的目标概率即伪标签。上式由网络Φ_f和Φ_t的输出与伪标签之间的KL距离(Kullback-Leiber Divergence)组成，同样是评价特征学习器和标签学习器预测结果与伪标签分布的一致性，而此处目的是利用两个网络已学习到的知识优化更新伪标签。

进一步地，交替迭代优化损失函数L，实现模型学习。

该模型的优点体现在：统一融合了模型和知识，同时考虑了弱特征和弱标签，创新性地构建了模型协同优化策略，利用彼此的知识交叉验证引导模型优化，从特征和标签两个层面评估模型能力。

四.模型压缩器

深度学习发展以来已取得了显著的成就，然而，现有的基于深度学习的模型往往具有高复杂度、高计算量，因而在资源受限场景下很难部署和应用。为了实现更好的模型泛化能力和更高效的部署，本发明根据业务部署需求，从两个方面进行模型的优化压缩，流程如图4所示。

1.从模型大小上通过量化、剪枝等手段进行参数数量与精度裁剪，提升模型部署的推理效能。其中裁剪可以使用现有技术实现。

2.采用模型蒸馏技术，设计一个更浅(层数较少)结构更紧凑的网络来实现对复杂模型效果的逼近。具体地，从训练好的模型(教师模型)中提取归一化前的概率分布向量为软分类标签，作为另一个更轻量级、更低复杂度的模型(学生模型)的学习目标。通过对学生模型的训练，实现知识从教师模型到学生模型的传递。

同时，从网络结构、规则等引入可解释性机制，提升模型部署的安全性。例如，利用t-SNE等可视化方法分析网络中间层特征的分布特性。

该模型的优点体现在：一体化地解决模型部署中的推理效能、安全性等问题，有效地降低模型落地应用的风险。

采用本发明的上述技术方案，实现了不完全信息数据下的学习，解决了如下的两个“利用”问题。第一，数据利用问题：在现实开放环境下，相对于完全标注的监督数据，弱监督、带噪音的数据不完全标注数据则很容易获得，尤其是在互联网环境中，该类数据每天均能大量产生，如何利用好这些数据来引导机器学习，获得具备智能稳定的模型是一个需要解决的问题。第二，知识利用问题：现实场景中获得的弱标签数据，尽管不能直接准确对应某一复杂任务而通常存在噪声或者标签错误，但是往往包含了一定的知识如规则等，这些知识以规则或弱模型的形态可以对数据从多视角进行标注，提供了多个带噪声的标签，标签的分布能反映一定的数据知识规律，能对模型学习起到重要的引导作用。

本发明的技术方案以多视角弱标签数据驱动为思想，以双流深度神经网络协同优化为核心，构建多视角弱标签学习方法框架。如图1所示，包含特征流和标签流两个深度神经网络(DNN)，主要由特征学习器、标签学习器、目标一致性评估器和模型压缩器四个模块组成。根据本发明的双流深度神经网络，本发明的一个实施例提供一种一种弱标注数据的神经网络模型训练方法，即一种双流深度神经网络协同优化框架，主要包括以下步骤：

1)初始化1维伪目标标签(例如根据经验对弱标签进行简单的加权平均初始化)。

2)特征流：通过特征流深度神经网络φ_f(F，W_f)，从海量输入特征F中学习标签预测，优化模型参数W_f。其输出是对目标(target)标签的预测，对于二类分类问题来说预测标签的维度是1，采用独热编码形式表示则是2维。

3)标签流：通过标签流深度神经网络Φ_t(T，W_t)，从对应的海量多视角弱标签T中学习出标签的集成，优化模型参数W_t。其输出也是预测标签。具体地，T的维度是d，表示从d个弱模型或规则(例如众包)对目标标签从多个视角进行预测或投票。

4)从一致性分布的角度来进行伪目标标签的优化。理想情况下，我们期望特征流深度神经网络和标签流深度神经网络预测的结果都一样对应于真实的目标标签。利用这点，采用广义的交叉熵损失定义标签的一致性，联合地训练两个深度神经网络。更新得到新的伪目标标签。

5)交替迭代地对{W_f，W_l}和进行优化，直到满足停止条件。

6)根据业务部署需求，从两方面对模型进行优化压缩。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

下面结合图5对本发明在具体场景中的利用进行描述。

当今，互联网金融风险(盗卡、薅羊毛等)层出不穷，急需机器学习手段进行有效的风险控制。近年来使用深度神经网络(DNN)在监督数据上训练模型进行风控，取得了良好效果。但是，这种训练方式在很多实际业务落地中存在困难。在很多特定业务场景中，一方面，数据标注过程所需的人力和时间成本极高；另一方面，风控场景中需要考量的信用度等因素很难量化，很多任务很难获得如真值标签这样的强监督信息，只有若干主观评测的分值，标签信息不准确。如何充分利用不准确的弱监督海量数据实现精准决策，是风控面临的一个巨大挑战。本发明涉及的一种弱标注数据训练方法及装置能够很好地解决这个问题。如图5，风控场景中常常用到多源高维多媒体数据用于构建人物画像，并将其用于风险决策。使用这些元数据作分类显然不现实，计算量大且模型训练效率低，因此一般将其转换为相对低维的特征作为分类网络输入。在部分金融风控场景中，完全准确的标签很难获得，需要极大的时间成本，但是一些不够准确的弱分类标签则容易获得。将已有的弱特征和弱标签分别作为输入，经本发明提出的弱标注数据训练方法与装置即可得到一个与问题相适应的风险控制模型，进而实现风险决策。

本发明的以上技术方案中，未详细描述的部分可以采用现有技术实现。

本发明方案中，特征学习网络和标签学习网络的结构并不仅限于本发明方案中所描述的11层全连接网络，而可以根据具体业务场景设计具体的网络架构(例如，卷积神经网络等)。本发明方案中定义的距离函数均可替换为其他广义距离度量。

Claims

1.一种弱标注数据的神经网络模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述特征流深度神经网络是一个基于深度神经网络的特征修复与决策模型，其由11个全连接层构成，输出层的激活函数为tanH，其他层的激活函数均为ReLU函数；该模型的目标是输出针对具体业务场景的决策，即解决一个二分类问题；该模型的第1到9层对输入特征进行非线性映射，采用自动编码器的架构，利用信息的冗余性，恢复在降维过程中损失的场景信息；10到11层则基于修复后的特征输出针对具体业务场景的决策，即预测标签。

3.根据权利要求1所述的方法，其特征在于，所述标签流深度神经网络是一个基于深度神经网络的标签去噪优化与集成决策模型，其由11个全连接层构成，输出层的激活函数为tanH，其他层的激活函数均为ReLU函数；该模型的目标是输出针对具体业务场景的决策，即解决一个二分类问题；该模型的第1到9层对输入弱标签进行非线性映射，采用自动编码器的架构，将输入弱标签视作含噪声的准确标签，通过重构输入实现去噪声的目的，以隐式学习的方式将原本的弱标签提炼为精简且准确的形式，10到11层的目标则是依据经优化的标签输出具体业务决策，即二分类结果。

4.根据权利要求1所述的方法，其特征在于，步骤3)包括：

其中，Φ_f为特征学***衡各项损失的影响。特征流DNN和标签流DNN的参数{W_f,W_t}以及伪目标标签是模型学习的目标，F和T是输入特征和弱标签即训练样本；

5.根据权利要求4所述的方法，其特征在于，所述目标一致性损失项L₁表示为以下公式：

其中，n代表样本个数，C代表类别个数，p_ji和q_ji分别为网络Φ_f和Φ_t输出的第j个样本属于第i类的预测概率，是相应的目标概率即伪标签，和分别是网络Φ_f和Φ_t中间层的特征，D表示特征学习器和标签学习器中间层特征之间的距离；上式由三项组成，第一项和第二项均为广义的交叉熵函数，分别用于评价特征学习器和标签学习器预测结果与伪标签分布的一致性，目的是以伪标签作为监督信号优化两个分类网络；第三项则是特征学习器和标签学习器中间层特征之间的距离，目的是实现两个网络知识的协同，互相引导网络的优化；

所述知识损失项L₂表示为以下公式：

其中，n代表样本个数，C代表类别个数，p_ji和q_ji分别为网络Φ_f和Φ_t输出的第j个样本属于第i类的预测概率，是相应的目标概率即伪标签；上式由网络Φ_f和Φ_t的输出与伪标签之间的KL距离组成，用于评价特征学习器和标签学习器预测结果与伪标签分布的一致性，目的是利用两个网络已学习到的知识优化更新伪标签。

6.根据权利要求1所述的方法，其特征在于，根据业务部署需求，对训练好的所述特征流深度神经网络和所述标签流深度神经网络的模型进行优化压缩；所述优化压缩包括下列中的至少一种：

7.根据权利要求6所述的方法，其特征在于，所述模型蒸馏技术从训练好的模型中提取归一化前的概率分布向量为软分类标签，作为另一个更轻量级、更低复杂度的模型的学习目标，通过对学生模型的训练，实现知识从教师模型到学生模型的传递。

8.根据权利要求1所述的方法，其特征在于，从所述特征流深度神经网络和所述标签流深度神经网络的网络结构或规则引入可解释性机制，以提升模型部署的安全性。

9.一种弱标注数据的神经网络模型训练装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，还包括模型压缩器，用于根据业务部署需求，对训练好的所述特征流深度神经网络和所述标签流深度神经网络的模型进行优化压缩。