CN109800799A - 一种适用于无标签不平衡数据流的在线主动学习方法 - Google Patents

一种适用于无标签不平衡数据流的在线主动学习方法 Download PDF

Info

Publication number
CN109800799A
CN109800799A CN201910001840.2A CN201910001840A CN109800799A CN 109800799 A CN109800799 A CN 109800799A CN 201910001840 A CN201910001840 A CN 201910001840A CN 109800799 A CN109800799 A CN 109800799A
Authority
CN
China
Prior art keywords
sample
label
linear classifier
asymmetric
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910001840.2A
Other languages
English (en)
Inventor
吴庆耀
张一帆
谭明奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Publication of CN109800799A publication Critical patent/CN109800799A/zh
Priority to PCT/CN2019/114167 priority Critical patent/WO2020140597A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种适用于无标签不平衡数据流的在线主动学***衡问题,即正类样本数量稀少;根据提出的非对称访问策略,线性分类器针对不平衡数据,动态地决定需要被标注标签的样本;根据提出的非对称更新策略,线性分类器利用错误预测的标注数据更新线性分类器,并利用样本的二阶信息提高学***衡数据流的在线主动学***衡问题,并提升基于流数据的主动学习模型的分类性能。

Description

一种适用于无标签不平衡数据流的在线主动学习方法
技术领域
本发明涉及在线学***衡数据流的在线主动学习方法。
背景技术
近年来,人工智能及相关产业正迅速发展壮大,成为学术界、工业界以及世界各国政府关注的焦点。最近,国务院发布了《新一代人工智能发展规划》,突出了人工智能研究和产业的国家战略地位。在互联网行业,在线学***衡的,即正类数据远远少于负类数据。如何解决样本的类别不平衡问题也是工业应用亟待解决的关键问题。
发明内容
有鉴于此,为解决上述现有技术中的问题,本发明提供了一种适用于无标签不平衡数据流的在线主动学***衡数据提出非对称访问策略,动态地决定需要标注标签的样本;为有效更新模型,该方法进一步提出非对称更新策略,并利用样本的二阶信息高效地更新模型;同时对实际分类应用中所存在的标注数据稀疏、样本不平衡、流数据等问题具有较好的解决能力。
为实现上述目的,本发明的技术方案如下。
一种适用于无标签不平衡数据流的在线主动学习方法,包括以下步骤:
步骤1、无标签数据流时序地输入线性分类器中进行预测,其中数据流的类别具有高度不平衡问题,通常设定正类样本为类别稀少样本;
步骤2、根据提出的非对称访问策略,线性分类器针对无标签不平衡数据,时序地决定需要被标注标签的样本;
步骤3、根据提出的非对称更新策略,线性分类器利用错误预测的标注数据更新线性分类器,并利用样本的二阶信息提高学习效率。
进一步地,所述步骤1中,所述无标签数据流可表示为其中代表样本的特征数量为d,T表示无标签样本的总数。可标注标签的样本预算为B个,标签的类别为yt∈{-1,+1},则正类样本yt=+1的数量远远少于负类样本yt=-1,所述线性分类器的具体使用方法为:
步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值,而Σ表示线性分类器w的方差;
步骤12、所述线性分类器的分类预测表示为其中sign(·)表示当否则
步骤13、所述线性分类器的预测结果表示为:若则线性分类器分类正确,否则线性分类器的分类错误。
进一步地,所述步骤2中非对称访问策略的步骤如下:
步骤21、基于样本的二阶信息Σ(即线性分类器的方差),计算线性分类器对当前样本的置信度;
步骤22、基于置信度,计算当前样本的非对称访问参数;
步骤23、基于非对称访问参数,进行伯努利采样,获取其采样值;
步骤24、如果该采样值为1,则判定需要访问该样本的标签;反之,则不需要。
进一步地,所述步骤3中非对称更新策略的步骤如下:
步骤31、获取错误预测的有标签数据;
步骤32、基于错误预测的有标签数据,计算该数据的非对称损失函数值;
步骤33、基于非对称损失函数值和优化策略,更新线性分类器的方差Σ:
其中,γ代表正则化系数;
步骤34:基于非对称损失函数值和优化策略,更新线性分类器的均值μ:
μt+1=μt-ηΣt+1gt
其中,η代表线性分类器的学习率,gt代表非对称损失函数值lt的梯度,对损失函数求导即可得。
进一步地,通过以下公式计算置信度:
其中,η代表线性分类器的学习率,γ代表正则化系数,ρmax=max(1,ρ),ρ代表正类样本的误分类代价;此外,代表模型对当前样本的信心,代表了模型对当前样本的熟悉程度,从而更好的计算置信度ct
基于置信度ct,通过以下公式计算当前样本的非对称访问参数:
qt=|pt|+ct
其中,代表线性分类器对当前样本的预测边际,|pt|,即该预测边际的绝对值,代表了模型对该样本的预测距离分类平面的距离;
基于非对称访问参数qt,进行伯努利采样,获取采样值;对于不同类别的样本设定不同的采样系数,通过以下表示采样概率:
其中,δ+为正类预测(即pt≥0)的采样系数,δ_为负类预测(即pt<0)的采样系数;通过该采样概率进行伯努利采样,获取采样值Zt
进一步地,通过以下公式计算非对称损失函数值:
其中,ρ代表正类样本的误分类权重;代表指示函数,即满足条件则为1,否则为0。
基于该非对称损失函数值lt和优化策略,通过步骤3.3和步骤3.4的公式更新线性分类器的方差Σ和均值μ:
与现有技术比较,本发明的一种适用于无标签不平衡数据流的在线主动学习方法具有以下优点和技术效果:
本发明利用样本的二阶信息,提出了新的非对称策略;该非对称策略同时考虑样本的标注和模型的更新,能够更好地解决样本的类别不平衡问题,并提升基于流数据的主动学习模型的分类性能。
附图说明
图1为实施例中一种适用于无标签不平衡数据流的在线主动学习方法的流程示意图。
图2为实施例中非对称访问策略的流程示意图。
图3为实施例中非对称更新策略的流程示意图。
图4为实施例中该在线主动学习方法的验证结果。
具体实施方式
下面将结合附图和具体的实施例对本发明的具体实施作进一步说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
如图1所示,为本实施例的一种适用于无标签不平衡数据流的在线主动学习方法的流程示意图,包括以下步骤:
步骤1、无标签数据流时序地输入线性分类器中进行预测,其中数据流的类别具有高度不平衡问题,通常设定正类样本为类别稀少样本;
步骤2、根据提出的非对称访问策略,线性分类器针对无标签不平衡数据,时序地决定需要被标注标签的样本;
步骤3、根据提出的非对称更新策略,线性分类器利用错误预测的标注数据更新线性分类器,并利用样本的二阶信息提高学习效率。
所述步骤1中,所述无标签数据流可表示为其中代表样本的特征数量为d,T表示无标签样本的总数。可标注标签的样本预算为B个,标签的类别为yt∈{-1,+1},则正类样本yt=+1的数量远远少于负类样本yt=-1,所述线性分类器的具体使用方法为:
步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值,而Σ表示线性分类器w的方差;
步骤12、所述线性分类器的分类预测表示为其中sign(·)表示当否则
步骤13、所述线性分类器的预测结果表示为:若则线性分类器分类正确,否则线性分类器的分类错误。
如图2所示,为本发明的非对称访问策略的流程示意图,所述步骤2中非对称访问策略的步骤如下:
步骤21、基于样本的二阶信息Σ(即线性分类器的方差),计算线性分类器对当前样本的置信度:
其中,η代表线性分类器的学习率,γ代表正则化系数,ρmax=max(1,ρ),ρ代表正类样本的误分类代价;此外,代表模型对当前样本的信心,代表了模型对当前样本的熟悉程度,从而更好的计算置信度ct
步骤22、基于置信度ct,通过以下公式计算当前样本的非对称访问参数:
qt=|pt|+ct
其中,代表线性分类器对当前样本的预测边际,|pt|,即该预测边际的绝对值,代表了模型对该样本的预测距离分类平面的距离;
步骤23、基于非对称访问参数qt,进行伯努利采样,获取采样值;对于不同类别的样本设定不同的采样系数,通过以下表示采样概率:
其中,δ+为正类预测(即pt≥0)的采样系数,δ-为负类预测(即pt<0)的采样系数;通过该采样概率进行伯努利采样,获取采样值Zt
步骤24、如果该采样值Zt为1,则判定需要访问该样本的标签,则消耗预算获取其标签;反之如果Zt为0,则判定不需要访问其标签。
如图3所示,为本发明的非对称更新策略的流程示意图,所述步骤3中非对称更新策略的步骤如下:
步骤31、获取错误预测的有标签数据
步骤32、基于错误预测的有标签数据,通过以下公式计算非对称损失值:
其中ρ代表正类样本的误分类权重;代表指示函数,即满足条件则为1,否则为0。通过该代价敏感的损失函数,我们可以非对称的更新线性分类器;
步骤33、基于非对称损失函数值lt和优化策略,通过以下公式更新线性分类器的方差Σ:
其中,γ代表正则化系数;
步骤34、基于非对称损失函数值lt和优化策略,过以下公式更新线性分类器的均值μ:
μt+1=μt-ηΣt+1gt
其中,η代表线性分类器的学习率,gt代表非对称损失函数值lt的梯度,对损失函数求导即可得。
图4展示了该适用于无标签不平衡数据流的在线主动学习方法在网络安全数据集w8a上取得的性能,该方法在图4中的名字为OA3和OA3_diag,其中OA3_diag是本方法的一个简单变体,不详细描述。其他比较方法,如PAA,OAAL,CSOAL,SOAL为该问题上经典的解决办法,作为所提出方法的实验参照。
w8a数据集是一个经典开源数据集,用于判别网页是否异常。该数据集具有64700个样本,300个特征值。其正常网页数量远远多于异常网页,即属于不平衡数据,其不平衡度为1:32.5。本实例设定异常网页为正类样本(少数类),正常网页为负类样本(多数类)。
在实验时,所有训练样本时序到来且无标签。所提出的主动学习方法将针对每一时刻到来的网页根据步骤2判断是否需要标注。若需要,则以一定得金钱作为标注代价获取标签,并根据步骤3更新模型。
详细实验结果如图4所示,所提出的适用于无标签不平衡数据流的在线主动学习方法取得了最为优异的性能。
本实施例的一种适用于无标签不平衡数据流的在线主动学***衡数据提出非对称访问策略,动态地决定需要标注标签的样本;为有效更新模型,该方法进一步提出非对称更新策略,并利用样本的二阶信息高效地更新模型;同时对实际分类应用中所存在的标注数据稀疏、样本不平衡、流数据等问题具有较好的解决能力。

Claims (8)

1.一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,包括以下步骤:
步骤1、获取无标签数据流,时序地输入线性分类器中进行预测,其中数据流的类别具有高度不平衡问题,设定正类样本为类别稀少样本;
步骤2、根据提出的非对称访问策略,线性分类器针对无标签不平衡数据,时序地决定需要被标注标签的样本;
步骤3、根据提出的非对称更新策略,线性分类器利用错误预测的标注数据更新线性分类器,并利用样本的二阶信息提高学习效率。
2.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,所述步骤1中,所述无标签数据流表示为其中代表样本的特征数量为d,T表示无标签样本的总数;可标注标签的样本预算为B个,标签的类别为yt∈{-1,+1},则正类样本yt=+1的数量远远少于负类样本yt=-1,所述线性分类器的具体使用方法为:
步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值,而∑表示线性分类器w的方差;
步骤12、所述线性分类器的分类预测表示为其中sign(·)表示当否则
步骤13、所述线性分类器的预测结果表示为:若则线性分类器分类正确,否则线性分类器的分类错误。
3.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,所述步骤2中非对称访问策略的步骤如下:
步骤21、基于样本的二阶信息∑即线性分类器的方差,计算线性分类器对当前样本的置信度;
步骤22、基于置信度,计算当前样本的非对称访问参数;
步骤23、基于非对称访问参数,进行伯努利采样,获取其采样值;
步骤24、如果该采样值为1,则判定需要访问该样本的标签;反之,则不需要。
4.根据权利要求1所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,所述步骤3中非对称更新策略的步骤如下:
步骤31、获取错误预测的有标签数据;
步骤32、基于错误预测的有标签数据,计算该数据的非对称损失函数值;
步骤33、基于非对称损失函数值和优化策略,更新线性分类器的方差∑;
步骤34:基于非对称损失函数值和优化策略,更新线性分类器的均值μ。
5.根据权利要求3所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,通过以下公式计算置信度:
其中,η代表线性分类器的学习率,γ代表正则化系数,ρmax=max(1,ρ),ρ代表正类样本的误分类代价;此外,代表模型对当前样本的信心,代表了模型对当前样本的熟悉程度,从而更好的计算置信度ct
基于置信度ct,通过以下公式计算当前样本的非对称访问参数:
qt=|pt|+ct
其中,代表线性分类器对当前样本的预测边际,|pt|,即该预测边际的绝对值,代表了模型对该样本的预测距离分类平面的距离;
基于非对称访问参数qt,进行伯努利采样,获取采样值;对于不同类别的样本设定不同的采样系数,通过以下表示采样概率:
其中,δ+为正类预测即pt≥0的采样系数,δ-为负类预测即pt<0的采样系数;通过该采样概率进行伯努利采样,获取采样值Zt
6.根据权利要求4所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,通过以下公式计算非对称损失函数值:
其中ρ代表正类样本的误分类权重;代表指示函数,即满足条件则为1,否则为0。
7.根据权利要求4所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,步骤33所述基于非对称损失函数值lt和优化策略,通过以下公式更新线性分类器的方差∑:
其中,γ代表正则化系数。
8.根据权利要求4所述的一种适用于无标签不平衡数据流的在线主动学习方法,其特征在于,步骤34所述基于非对称损失函数值lt和优化策略,通过以下公式更新线性分类器的均值μ:
μt+1=μt-η∑t+1gt
其中,η代表线性分类器的学习率,gt代表非对称损失函数值lt的梯度,对损失函数求导即可得。
CN201910001840.2A 2018-12-31 2019-01-02 一种适用于无标签不平衡数据流的在线主动学习方法 Pending CN109800799A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/114167 WO2020140597A1 (zh) 2018-12-31 2019-10-29 一种适用于无标签不平衡数据流的在线主动学习方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018116525313 2018-12-31
CN201811652531 2018-12-31

Publications (1)

Publication Number Publication Date
CN109800799A true CN109800799A (zh) 2019-05-24

Family

ID=66558426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910001840.2A Pending CN109800799A (zh) 2018-12-31 2019-01-02 一种适用于无标签不平衡数据流的在线主动学习方法

Country Status (2)

Country Link
CN (1) CN109800799A (zh)
WO (1) WO2020140597A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647117A (zh) * 2019-09-06 2020-01-03 青岛科技大学 一种化工过程故障识别方法及***
WO2020140597A1 (zh) * 2018-12-31 2020-07-09 华南理工大学 一种适用于无标签不平衡数据流的在线主动学习方法
CN111882063A (zh) * 2020-08-03 2020-11-03 清华大学 适应低预算的数据标注请求方法、装置、设备及存储介质
CN113360512A (zh) * 2021-06-21 2021-09-07 特赞(上海)信息科技有限公司 基于用户反馈的模型更新方法、装置及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095423B (zh) * 2021-04-21 2024-05-28 南京大学 一种基于在线反绎学习的流式数据分类方法及其实现装置
CN113537630B (zh) * 2021-08-04 2024-06-14 支付宝(杭州)信息技术有限公司 业务预测模型的训练方法及装置
CN117523685B (zh) * 2023-11-15 2024-07-09 中国矿业大学 基于非对称对比融合的双模态生物特征识别方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150235160A1 (en) * 2014-02-20 2015-08-20 Xerox Corporation Generating gold questions for crowdsourcing
CN106056130A (zh) * 2016-05-18 2016-10-26 天津大学 针对不平衡数据集的组合降采样线性判别分类方法
CN109101993A (zh) * 2018-07-05 2018-12-28 杭州电子科技大学 一种用于在线不平衡流数据的分类方法
CN109800799A (zh) * 2018-12-31 2019-05-24 华南理工大学 一种适用于无标签不平衡数据流的在线主动学习方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020140597A1 (zh) * 2018-12-31 2020-07-09 华南理工大学 一种适用于无标签不平衡数据流的在线主动学习方法
CN110647117A (zh) * 2019-09-06 2020-01-03 青岛科技大学 一种化工过程故障识别方法及***
CN110647117B (zh) * 2019-09-06 2020-12-18 青岛科技大学 一种化工过程故障识别方法及***
CN111882063A (zh) * 2020-08-03 2020-11-03 清华大学 适应低预算的数据标注请求方法、装置、设备及存储介质
CN113360512A (zh) * 2021-06-21 2021-09-07 特赞(上海)信息科技有限公司 基于用户反馈的模型更新方法、装置及存储介质
CN113360512B (zh) * 2021-06-21 2023-10-27 特赞(上海)信息科技有限公司 基于用户反馈的图像处理模型更新方法、装置及存储介质

Also Published As

Publication number Publication date
WO2020140597A1 (zh) 2020-07-09

Similar Documents

Publication Publication Date Title
CN109800799A (zh) 一种适用于无标签不平衡数据流的在线主动学习方法
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
CN112069415B (zh) 一种基于异构属性网络表征学习的兴趣点推荐方法
CN112084790B (zh) 一种基于预训练卷积神经网络的关系抽取方法及***
Bellare et al. Alternating projections for learning with expectation constraints
CN104077352B (zh) 基于能量模型的图像语义标注方法
CN109992668A (zh) 一种基于自注意力的企业舆情分析方法和装置
CN108510559A (zh) 一种基于有监督多视角离散化的多媒体二值编码方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与***
CN103176961B (zh) 一种基于潜在语义分析的迁移学习方法
CN109165673B (zh) 基于度量学习和多示例支持向量机的图像分类方法
CN116644755B (zh) 基于多任务学习的少样本命名实体识别方法、装置及介质
Wei et al. Towards realistic long-tailed semi-supervised learning: Consistency is all you need
CN110110092A (zh) 一种知识图谱构建方法及相关设备
CN107563451A (zh) 一种泵站稳态工况下运行状态识别方法
CN111126576A (zh) 一种深度学习的新型训练策略
CN110059222A (zh) 一种基于协同过滤的视频标签添加方法
CN112115264A (zh) 面向数据分布变化的文本分类模型调整方法
CN108694176A (zh) 文档情感分析的方法、装置、电子设备和可读存储介质
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、***及装置
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN109670162A (zh) 标题的确定方法、装置及终端设备
CN108694165B (zh) 面向产品评论的跨领域对偶情感分析方法
CN108763487A (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524