CN111476363A - 区分化变量去相关的稳定学习方法及装置 - Google Patents

区分化变量去相关的稳定学习方法及装置 Download PDF

Info

Publication number
CN111476363A
CN111476363A CN202010176710.5A CN202010176710A CN111476363A CN 111476363 A CN111476363 A CN 111476363A CN 202010176710 A CN202010176710 A CN 202010176710A CN 111476363 A CN111476363 A CN 111476363A
Authority
CN
China
Prior art keywords
variable
variables
stability
learning
stable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010176710.5A
Other languages
English (en)
Inventor
崔鹏
沈哲言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010176710.5A priority Critical patent/CN111476363A/zh
Publication of CN111476363A publication Critical patent/CN111476363A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种区分化变量去相关的稳定学习方法及装置,涉及机器学习领域,该方法包括:在多环境下采集无标签数据,利用自编码器,通过无标签数据学习变量在跨环境下的变量稳定性;根据变量稳定性,利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性;利用加权样本的线性回归模型,降低模型的偏差。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响;可以无监督地从多环境中学习变量的稳定性;应用加权的线性回归模型,降低模型偏差带来的参数估计误差。

Description

区分化变量去相关的稳定学习方法及装置
技术领域
本发明涉及机器学习技术领域,特别涉及一种区分化变量去相关的稳定学习方法及装置。
背景技术
以机器学习为代表的智能技术在法律、医疗和自动驾驶等高风险领域的应用要求模型具有很强的鲁棒性和稳定性来防止意外发生。而传统的依赖于经验损失最优化的技术容易受到数据分布迁移所带来的影响而不具备很强的稳定性。
新的研究结果中,主要针对存在数据选择性偏差的情况下自变量之间的虚假相关性所带来的挑战,提出针对性的措施,以期改进后的模型能够在变量分布不稳定的测试环境中取得更稳定的预测性能,相关技术中的挑战主要有两个,挑战一:传统的机器学习方法依赖训练和测试数据产生的独立同分布假设,而真实场景下由于数据收集的时间跨度、地缘位置和采集策略容易发生变化,故此假设不容易满足;挑战二:线性回归模型是最常用的分析模型,而真实数据的产生机制可能会有偏差(比如非线性项),这部分模型偏置会被变量间的虚假相关性放大。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种区分化变量去相关的稳定学习方法,该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响;可以无监督地从多环境中学习变量的稳定性;应用加权的线性回归模型,降低模型偏差带来的参数估计误差。
本发明的另一个目的在于提出一种区分化变量去相关的稳定学习装置。
为达到上述目的,本发明一方面实施例提出了一种区分化变量去相关的稳定学习方法,包括:
S1,在多环境下采集无标签数据,利用自编码器,通过所述无标签数据学习变量在跨环境下的变量稳定性;
S2,根据所述变量稳定性,利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性;
S3,利用加权样本的线性回归模型,降低模型的偏差。
本发明实施例的区分化变量去相关的稳定学习方法,通过对多环境下的无标签数据,学习变量稳定性,根据学习的变量稳定性,通过样本加权去除稳定变量与噪声变量之间的相关性,并利用加权样本的线性回归模型,降低模型偏差带来的影响。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响,可以无监督地从多环境中学习变量的稳定性,在应用加权的线性回归模型之后,可以降低模型偏差带来的参数估计误差。
另外,根据本发明上述实施例的区分化变量去相关的稳定学习方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述S1进一步包括:在传统的自编码器结构中加入变量差分层表征变量的稳定性,在多环境下采集所述无标签数据后,在主环境下学习所述自编码器表征,固定表征通过多环境的数据学习变量的稳定性得分,得到所述变量稳定性。
进一步地,在本发明的一个实施例中,所述S2进一步包括:
通过梯度下降优化算法学习一组新的样本权重,使得所述稳定变量和所述噪声变量在加权后的相关性最小化,去除所述稳定变量和所述噪声变量之间的虚假相关。
为达到上述目的,本发明另一方面实施例提出了一种区分化变量去相关的稳定学习装置,包括:
学习变量稳定性模块,用于在多环境下采集无标签数据,利用自编码器,通过所述无标签数据学习变量在跨环境下的变量稳定性;
变量去相关模块,用于根据所述变量稳定性,利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性;
误差去除模块,利用加权样本的线性回归模型,降低模型的偏差。
本发明实施例的区分化变量去相关的稳定学习装置,通过对多环境下的无标签数据,学习变量稳定性,根据学习的变量稳定性,通过样本加权去除稳定变量与噪声变量之间的相关性,并利用加权样本的线性回归模型,降低模型偏差带来的影响。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响,可以无监督地从多环境中学习变量的稳定性,在应用加权的线性回归模型之后,可以降低模型偏差带来的参数估计误差。
另外,根据本发明上述实施例的区分化变量去相关的稳定学习装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述学习变量稳定性模块,具体用于在传统的自编码器结构中加入变量差分层表征变量的稳定性,在多环境下采集所述无标签数据后,在主环境下学习所述自编码器表征,固定表征通过多环境的数据学习变量的稳定性得分,得到所述变量稳定性。
进一步地,在本发明的一个实施例中,所述变量去相关模块,具体用于通过梯度下降优化算法学习一组新的样本权重,使得所述稳定变量和所述噪声变量在加权后的相关性最小化,去除所述稳定变量和所述噪声变量之间的虚假相关。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的区分化变量去相关的稳定学习方法流程图;
图2为根据本发明一个具体实施例的区分化变量去相关的稳定学习方法流程图;
图3为根据本发明一个实施例的区分化变量去相关的稳定学习装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的区分化变量去相关的稳定学习方法及装置。
首先将参照附图描述根据本发明实施例提出的区分化变量去相关的稳定学习方法。
图1为根据本发明一个实施例的区分化变量去相关的稳定学习方法流程图。
如图1所示,该区分化变量去相关的稳定学习方法包括以下步骤:
步骤S1,在多环境下采集无标签数据,利用自编码器,通过无标签数据学习变量在跨环境下的变量稳定性。
进一步地,在本发明的实施例中,S1进一步包括:在传统的自编码器结构中加入变量差分层表征变量的稳定性,在多环境下采集无标签数据后,在主环境下学习自编码器表征,固定表征通过多环境的数据学习变量的稳定性得分,得到变量稳定性。
具体地,在给定了多环境下的无标签数据后,通过自编码器学习变量稳定性。
可以理解的是,可以设置一个学习变量稳定性的自编码模块,通过多环境下的无标签数据学习变量在跨环境下的稳定性。
步骤S2,根据变量稳定性,利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性。
进一步地,在本发明的实施例中,S2进一步包括:
通过梯度下降优化算法学习一组新的样本权重,使得稳定变量和噪声变量在加权后的相关性最小化,去除稳定变量和噪声变量之间的虚假相关。
具体地,在给定了变量的稳定性下之后,能够通过样本加权去除稳定变量与噪声变量之间的相关性。
可以理解的是,去除变量间的相关性对于模型拟合精度的影响,差异化的考虑不同变量之间的相关性,对于存在于稳定变量和噪声变量之间的虚假相关性进行消除。
步骤S3,利用加权样本的线性回归模型,降低模型的偏差。
具体地,应用加权样本的线性回归模型,能够减小模型偏差和数据选择性偏差带来的影响,更加精确地估计模型参数。
如图2所示,展示了本发明的稳定学学习过程,在视觉模式识别的场景中,利用不同环境下采集的无标签数据,利用该方法学习到潜在稳定模式和更加鲁棒的模型。在决策制定***中,利用该方法可以对各个影响因子作更为独立而精确的分析,从而制定相应决策。
根据本发明实施例提出的区分化变量去相关的稳定学习方法,通过对多环境下的无标签数据,学习变量稳定性,根据学习的变量稳定性,通过样本加权去除稳定变量与噪声变量之间的相关性,并利用加权样本的线性回归模型,降低模型偏差带来的影响。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响,可以无监督地从多环境中学习变量的稳定性,在应用加权的线性回归模型之后,可以降低模型偏差带来的参数估计误差。
其次参照附图描述根据本发明实施例提出的区分化变量去相关的稳定学习装置。
图3为根据本发明一个实施例的区分化变量去相关的稳定学习装置结构示意图。
如图3所示,该区分化变量去相关的稳定学习装置包括:学习变量稳定性模块100、变量去相关模块200和误差去除模块300。
学习变量稳定性模块100,用于在多环境下采集无标签数据,利用自编码器,通过无标签数据学习变量在跨环境下的变量稳定性。
变量去相关模块200,用于根据变量稳定性,利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性。
误差去除模块300,利用加权样本的线性回归模型,降低模型的偏差。
进一步地,在本方面的一个实施例中,学习变量稳定性模块,具体用于在传统的自编码器结构中加入变量差分层表征变量的稳定性,在多环境下采集无标签数据后,在主环境下学习自编码器表征,固定表征通过多环境的数据学习变量的稳定性得分,得到变量稳定性。
进一步地,在本方面的一个实施例中,变量去相关模块,具体用于通过梯度下降优化算法学习一组新的样本权重,使得稳定变量和噪声变量在加权后的相关性最小化,去除稳定变量和噪声变量之间的虚假相关。
需要说明的是,前述对区分化变量去相关的稳定学习方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的区分化变量去相关的稳定学习装置,通过对多环境下的无标签数据,学习变量稳定性,根据学习的变量稳定性,通过样本加权去除稳定变量与噪声变量之间的相关性,并利用加权样本的线性回归模型,降低模型偏差带来的影响。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响,可以无监督地从多环境中学习变量的稳定性,在应用加权的线性回归模型之后,可以降低模型偏差带来的参数估计误差。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种区分化变量去相关的稳定学习方法,其特征在于,包括以下步骤:
S1,在多环境下采集无标签数据,利用自编码器,通过所述无标签数据学习变量在跨环境下的变量稳定性;
S2,根据所述变量稳定性,利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性;
S3,利用加权样本的线性回归模型,降低模型的偏差。
2.根据权利要求1所述的区分化变量去相关的稳定学习方法,其特征在于,所述S1进一步包括:在传统的自编码器结构中加入变量差分层表征变量的稳定性,在多环境下采集所述无标签数据后,在主环境下学习所述自编码器表征,固定表征通过多环境的数据学习变量的稳定性得分,得到所述变量稳定性。
3.根据权利要求1所述的区分化变量去相关的稳定学习方法,其特征在于,所述S2进一步包括:
通过梯度下降优化算法学习一组新的样本权重,使得所述稳定变量和所述噪声变量在加权后的相关性最小化,去除所述稳定变量和所述噪声变量之间的虚假相关。
4.一种区分化变量去相关的稳定学习装置,其特征在于,包括:
学习变量稳定性模块,用于在多环境下采集无标签数据,利用自编码器,通过所述无标签数据学习变量在跨环境下的变量稳定性;
变量去相关模块,用于根据所述变量稳定性,利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性;
误差去除模块,利用加权样本的线性回归模型,降低模型的偏差。
5.根据权利要求4所述的区分化变量去相关的稳定学习装置,其特征在于,所述学习变量稳定性模块,具体用于在传统的自编码器结构中加入变量差分层表征变量的稳定性,在多环境下采集所述无标签数据后,在主环境下学习所述自编码器表征,固定表征通过多环境的数据学习变量的稳定性得分,得到所述变量稳定性。
6.根据权利要求4所述的区分化变量去相关的稳定学习装置,其特征在于,所述变量去相关模块,具体用于通过梯度下降优化算法学习一组新的样本权重,使得所述稳定变量和所述噪声变量在加权后的相关性最小化,去除所述稳定变量和所述噪声变量之间的虚假相关。
CN202010176710.5A 2020-03-13 2020-03-13 区分化变量去相关的稳定学习方法及装置 Pending CN111476363A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010176710.5A CN111476363A (zh) 2020-03-13 2020-03-13 区分化变量去相关的稳定学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010176710.5A CN111476363A (zh) 2020-03-13 2020-03-13 区分化变量去相关的稳定学习方法及装置

Publications (1)

Publication Number Publication Date
CN111476363A true CN111476363A (zh) 2020-07-31

Family

ID=71747413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010176710.5A Pending CN111476363A (zh) 2020-03-13 2020-03-13 区分化变量去相关的稳定学习方法及装置

Country Status (1)

Country Link
CN (1) CN111476363A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022088341A (ja) * 2020-12-02 2022-06-14 宏達國際電子股▲ふん▼有限公司 機器学習装置及び方法
CN112085252B (zh) * 2020-08-03 2024-01-05 清华大学 一种关于集合类型决策效果的反事实预测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085252B (zh) * 2020-08-03 2024-01-05 清华大学 一种关于集合类型决策效果的反事实预测方法
JP2022088341A (ja) * 2020-12-02 2022-06-14 宏達國際電子股▲ふん▼有限公司 機器学習装置及び方法
JP7307785B2 (ja) 2020-12-02 2023-07-12 宏達國際電子股▲ふん▼有限公司 機器学習装置及び方法

Similar Documents

Publication Publication Date Title
US11586913B2 (en) Power equipment fault detecting and positioning method of artificial intelligence inference fusion
CN111476363A (zh) 区分化变量去相关的稳定学习方法及装置
CN110704801A (zh) 桥梁集群结构运营安全智能监测与快速检测成套技术
CN109583092A (zh) 一种多层次多模式特征提取的智能机械***故障诊断方法
CN113837000A (zh) 一种基于任务排序元学习的小样本故障诊断方法
CN113011478A (zh) 基于数据融合的污染源识别方法及***
CN110018322B (zh) 一种基于深度学习的转速检测方法及***
CN111174370A (zh) 故障检测方法及装置、存储介质、电子装置
CN109800717A (zh) 基于强化学习的行为识别视频帧采样方法及***
CN114429152A (zh) 基于动态指数对抗性自适应的滚动轴承故障诊断方法
CN114882069A (zh) 基于lstm网络和注意力机制的出租车轨迹异常检测方法
CN110132276B (zh) 一种基于行人运动状态的自适应步长估计方法
CN112598666B (zh) 一种基于卷积神经网络的电缆隧道异常检测方法
CN111126144B (zh) 一种基于机器学习的车辆轨迹异常检测方法
CN111314113B (zh) 物联网节点故障检测方法、装置、存储介质及计算机设备
CN113126489A (zh) 一种基于cnn-gru-binn的重型燃气轮机控制***智能bit设计方法
CN116502696A (zh) 基于联邦学习和模型剪枝的滚动轴承剩余寿命预测方法
CN115407753B (zh) 一种多变量加权集成学习的工业故障诊断方法
CN116353660A (zh) 一种基于bwo-vmd的高速铁路车轮多边形故障检测方法及***
CN114023085B (zh) 一种基于卡口检测数据的交叉口信号配时参数推断方法
CN112508946A (zh) 一种基于对抗神经网络的电缆隧道异常检测方法
Deuschle et al. Robust sensor spike detection method based on dynamic time warping
CN113744318A (zh) 一种rfid无设备人体追踪***的择优标签方法
CN113420387B (zh) 一种压实机械滚动轴承的迁移诊断方法和***
CN110033082A (zh) 一种识别ai设备中深度学习模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200731