CN109800799A

CN109800799A - 一种适用于无标签不平衡数据流的在线主动学习方法

Info

Publication number: CN109800799A
Application number: CN201910001840.2A
Authority: CN
Inventors: 吴庆耀; 张一帆; 谭明奎
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-12-31
Filing date: 2019-01-02
Publication date: 2019-05-24
Also published as: WO2020140597A1

Abstract

本发明提供了一种适用于无标签不平衡数据流的在线主动学***衡问题，即正类样本数量稀少；根据提出的非对称访问策略，线性分类器针对不平衡数据，动态地决定需要被标注标签的样本；根据提出的非对称更新策略，线性分类器利用错误预测的标注数据更新线性分类器，并利用样本的二阶信息提高学***衡数据流的在线主动学***衡问题，并提升基于流数据的主动学习模型的分类性能。

Description

一种适用于无标签不平衡数据流的在线主动学习方法

技术领域

本发明涉及在线学***衡数据流的在线主动学习方法。

背景技术

近年来，人工智能及相关产业正迅速发展壮大，成为学术界、工业界以及世界各国政府关注的焦点。最近，国务院发布了《新一代人工智能发展规划》，突出了人工智能研究和产业的国家战略地位。在互联网行业，在线学***衡的，即正类数据远远少于负类数据。如何解决样本的类别不平衡问题也是工业应用亟待解决的关键问题。

发明内容

有鉴于此，为解决上述现有技术中的问题，本发明提供了一种适用于无标签不平衡数据流的在线主动学***衡数据提出非对称访问策略，动态地决定需要标注标签的样本；为有效更新模型，该方法进一步提出非对称更新策略，并利用样本的二阶信息高效地更新模型；同时对实际分类应用中所存在的标注数据稀疏、样本不平衡、流数据等问题具有较好的解决能力。

为实现上述目的，本发明的技术方案如下。

一种适用于无标签不平衡数据流的在线主动学习方法，包括以下步骤：

步骤1、无标签数据流时序地输入线性分类器中进行预测，其中数据流的类别具有高度不平衡问题，通常设定正类样本为类别稀少样本；

步骤2、根据提出的非对称访问策略，线性分类器针对无标签不平衡数据，时序地决定需要被标注标签的样本；

步骤3、根据提出的非对称更新策略，线性分类器利用错误预测的标注数据更新线性分类器，并利用样本的二阶信息提高学习效率。

进一步地，所述步骤1中，所述无标签数据流可表示为其中代表样本的特征数量为d，T表示无标签样本的总数。可标注标签的样本预算为B个，标签的类别为y_t∈{-1，+1}，则正类样本y_t＝+1的数量远远少于负类样本y_t＝-1，所述线性分类器的具体使用方法为：

步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值，而Σ表示线性分类器w的方差；

步骤12、所述线性分类器的分类预测表示为其中sign(·)表示当则否则

步骤13、所述线性分类器的预测结果表示为：若则线性分类器分类正确，否则线性分类器的分类错误。

进一步地，所述步骤2中非对称访问策略的步骤如下：

步骤21、基于样本的二阶信息Σ(即线性分类器的方差)，计算线性分类器对当前样本的置信度；

步骤22、基于置信度，计算当前样本的非对称访问参数；

步骤23、基于非对称访问参数，进行伯努利采样，获取其采样值；

步骤24、如果该采样值为1，则判定需要访问该样本的标签；反之，则不需要。

进一步地，所述步骤3中非对称更新策略的步骤如下：

步骤31、获取错误预测的有标签数据；

步骤32、基于错误预测的有标签数据，计算该数据的非对称损失函数值；

步骤33、基于非对称损失函数值和优化策略，更新线性分类器的方差Σ：

其中，γ代表正则化系数；

步骤34：基于非对称损失函数值和优化策略，更新线性分类器的均值μ：

μ_t+1＝μ_t-ηΣ_t+1g_t

其中，η代表线性分类器的学习率，g_t代表非对称损失函数值l_t的梯度，对损失函数求导即可得。

进一步地，通过以下公式计算置信度：

其中，η代表线性分类器的学习率，γ代表正则化系数，ρ_max＝max(1，ρ)，ρ代表正类样本的误分类代价；此外，代表模型对当前样本的信心，代表了模型对当前样本的熟悉程度，从而更好的计算置信度c_t。

基于置信度c_t，通过以下公式计算当前样本的非对称访问参数：

q_t＝|p_t|+c_t

其中，代表线性分类器对当前样本的预测边际，|p_t|，即该预测边际的绝对值，代表了模型对该样本的预测距离分类平面的距离；

基于非对称访问参数q_t，进行伯努利采样，获取采样值；对于不同类别的样本设定不同的采样系数，通过以下表示采样概率：

其中，δ₊为正类预测(即p_t≥0)的采样系数，δ_{_}为负类预测(即p_t＜0)的采样系数；通过该采样概率进行伯努利采样，获取采样值Z_t。

进一步地，通过以下公式计算非对称损失函数值：

其中，ρ代表正类样本的误分类权重；代表指示函数，即满足条件则为1，否则为0。

基于该非对称损失函数值l_t和优化策略，通过步骤3.3和步骤3.4的公式更新线性分类器的方差Σ和均值μ：

与现有技术比较，本发明的一种适用于无标签不平衡数据流的在线主动学习方法具有以下优点和技术效果：

本发明利用样本的二阶信息，提出了新的非对称策略；该非对称策略同时考虑样本的标注和模型的更新，能够更好地解决样本的类别不平衡问题，并提升基于流数据的主动学习模型的分类性能。

附图说明

图1为实施例中一种适用于无标签不平衡数据流的在线主动学习方法的流程示意图。

图2为实施例中非对称访问策略的流程示意图。

图3为实施例中非对称更新策略的流程示意图。

图4为实施例中该在线主动学习方法的验证结果。

具体实施方式

下面将结合附图和具体的实施例对本发明的具体实施作进一步说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，为本实施例的一种适用于无标签不平衡数据流的在线主动学习方法的流程示意图，包括以下步骤：

所述步骤1中，所述无标签数据流可表示为其中代表样本的特征数量为d，T表示无标签样本的总数。可标注标签的样本预算为B个，标签的类别为y_t∈{-1，+1}，则正类样本y_t＝+1的数量远远少于负类样本y_t＝-1，所述线性分类器的具体使用方法为：

如图2所示，为本发明的非对称访问策略的流程示意图，所述步骤2中非对称访问策略的步骤如下：

步骤21、基于样本的二阶信息Σ(即线性分类器的方差)，计算线性分类器对当前样本的置信度：

步骤22、基于置信度c_t，通过以下公式计算当前样本的非对称访问参数：

q_t＝|p_t|+c_t

步骤23、基于非对称访问参数q_t，进行伯努利采样，获取采样值；对于不同类别的样本设定不同的采样系数，通过以下表示采样概率：

其中，δ₊为正类预测(即p_t≥0)的采样系数，δ_-为负类预测(即p_t＜0)的采样系数；通过该采样概率进行伯努利采样，获取采样值Z_t；

步骤24、如果该采样值Z_t为1，则判定需要访问该样本的标签，则消耗预算获取其标签；反之如果Z_t为0，则判定不需要访问其标签。

如图3所示，为本发明的非对称更新策略的流程示意图，所述步骤3中非对称更新策略的步骤如下：

步骤31、获取错误预测的有标签数据

步骤32、基于错误预测的有标签数据，通过以下公式计算非对称损失值：

其中ρ代表正类样本的误分类权重；代表指示函数，即满足条件则为1，否则为0。通过该代价敏感的损失函数，我们可以非对称的更新线性分类器；

步骤33、基于非对称损失函数值l_t和优化策略，通过以下公式更新线性分类器的方差Σ：

其中，γ代表正则化系数；

步骤34、基于非对称损失函数值l_t和优化策略，过以下公式更新线性分类器的均值μ：

μ_t+1＝μ_t-ηΣ_t+1g_t

图4展示了该适用于无标签不平衡数据流的在线主动学习方法在网络安全数据集w8a上取得的性能，该方法在图4中的名字为OA3和OA3_diag，其中OA3_diag是本方法的一个简单变体，不详细描述。其他比较方法，如PAA,OAAL,CSOAL,SOAL为该问题上经典的解决办法，作为所提出方法的实验参照。

w8a数据集是一个经典开源数据集，用于判别网页是否异常。该数据集具有64700个样本，300个特征值。其正常网页数量远远多于异常网页，即属于不平衡数据，其不平衡度为1：32.5。本实例设定异常网页为正类样本(少数类)，正常网页为负类样本(多数类)。

在实验时，所有训练样本时序到来且无标签。所提出的主动学习方法将针对每一时刻到来的网页根据步骤2判断是否需要标注。若需要，则以一定得金钱作为标注代价获取标签，并根据步骤3更新模型。

详细实验结果如图4所示，所提出的适用于无标签不平衡数据流的在线主动学习方法取得了最为优异的性能。

本实施例的一种适用于无标签不平衡数据流的在线主动学***衡数据提出非对称访问策略，动态地决定需要标注标签的样本；为有效更新模型，该方法进一步提出非对称更新策略，并利用样本的二阶信息高效地更新模型；同时对实际分类应用中所存在的标注数据稀疏、样本不平衡、流数据等问题具有较好的解决能力。

Claims

1.一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，包括以下步骤：

步骤1、获取无标签数据流，时序地输入线性分类器中进行预测，其中数据流的类别具有高度不平衡问题，设定正类样本为类别稀少样本；

2.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，所述步骤1中，所述无标签数据流表示为其中代表样本的特征数量为d，T表示无标签样本的总数；可标注标签的样本预算为B个，标签的类别为y_t∈{-1，+1}，则正类样本y_t＝+1的数量远远少于负类样本y_t＝-1，所述线性分类器的具体使用方法为：

步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值，而∑表示线性分类器w的方差；

3.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，所述步骤2中非对称访问策略的步骤如下：

步骤21、基于样本的二阶信息∑即线性分类器的方差，计算线性分类器对当前样本的置信度；

步骤22、基于置信度，计算当前样本的非对称访问参数；

4.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，所述步骤3中非对称更新策略的步骤如下：

步骤31、获取错误预测的有标签数据；

步骤33、基于非对称损失函数值和优化策略，更新线性分类器的方差∑；

步骤34：基于非对称损失函数值和优化策略，更新线性分类器的均值μ。

5.根据权利要求3所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，通过以下公式计算置信度：

其中，η代表线性分类器的学习率，γ代表正则化系数，ρ_max＝max(1，ρ)，ρ代表正类样本的误分类代价；此外，代表模型对当前样本的信心，代表了模型对当前样本的熟悉程度，从而更好的计算置信度c_t；

q_t＝|p_t|+c_t

其中，δ₊为正类预测即p_t≥0的采样系数，δ_-为负类预测即p_t＜0的采样系数；通过该采样概率进行伯努利采样，获取采样值Z_t。

6.根据权利要求4所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，通过以下公式计算非对称损失函数值：

其中ρ代表正类样本的误分类权重；代表指示函数，即满足条件则为1，否则为0。

7.根据权利要求4所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，步骤33所述基于非对称损失函数值l_t和优化策略，通过以下公式更新线性分类器的方差∑：

其中，γ代表正则化系数。

8.根据权利要求4所述的一种适用于无标签不平衡数据流的在线主动学习方法，其特征在于，步骤34所述基于非对称损失函数值l_t和优化策略，通过以下公式更新线性分类器的均值μ：

μ_t+1＝μ_t-η∑_t+1g_t