CN111476363A

CN111476363A - 区分化变量去相关的稳定学习方法及装置

Info

Publication number: CN111476363A
Application number: CN202010176710.5A
Authority: CN
Inventors: 崔鹏; 沈哲言
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-31

Abstract

本发明公开了一种区分化变量去相关的稳定学习方法及装置，涉及机器学习领域，该方法包括：在多环境下采集无标签数据，利用自编码器，通过无标签数据学习变量在跨环境下的变量稳定性；根据变量稳定性，利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性；利用加权样本的线性回归模型，降低模型的偏差。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响；可以无监督地从多环境中学习变量的稳定性；应用加权的线性回归模型，降低模型偏差带来的参数估计误差。

Description

区分化变量去相关的稳定学习方法及装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种区分化变量去相关的稳定学习方法及装置。

背景技术

以机器学习为代表的智能技术在法律、医疗和自动驾驶等高风险领域的应用要求模型具有很强的鲁棒性和稳定性来防止意外发生。而传统的依赖于经验损失最优化的技术容易受到数据分布迁移所带来的影响而不具备很强的稳定性。

新的研究结果中，主要针对存在数据选择性偏差的情况下自变量之间的虚假相关性所带来的挑战，提出针对性的措施，以期改进后的模型能够在变量分布不稳定的测试环境中取得更稳定的预测性能，相关技术中的挑战主要有两个，挑战一：传统的机器学习方法依赖训练和测试数据产生的独立同分布假设，而真实场景下由于数据收集的时间跨度、地缘位置和采集策略容易发生变化，故此假设不容易满足；挑战二：线性回归模型是最常用的分析模型，而真实数据的产生机制可能会有偏差(比如非线性项)，这部分模型偏置会被变量间的虚假相关性放大。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种区分化变量去相关的稳定学习方法，该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响；可以无监督地从多环境中学习变量的稳定性；应用加权的线性回归模型，降低模型偏差带来的参数估计误差。

本发明的另一个目的在于提出一种区分化变量去相关的稳定学习装置。

为达到上述目的，本发明一方面实施例提出了一种区分化变量去相关的稳定学习方法，包括：

S1，在多环境下采集无标签数据，利用自编码器，通过所述无标签数据学习变量在跨环境下的变量稳定性；

S2，根据所述变量稳定性，利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性；

S3，利用加权样本的线性回归模型，降低模型的偏差。

本发明实施例的区分化变量去相关的稳定学习方法，通过对多环境下的无标签数据，学习变量稳定性，根据学习的变量稳定性，通过样本加权去除稳定变量与噪声变量之间的相关性，并利用加权样本的线性回归模型，降低模型偏差带来的影响。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响，可以无监督地从多环境中学习变量的稳定性，在应用加权的线性回归模型之后，可以降低模型偏差带来的参数估计误差。

另外，根据本发明上述实施例的区分化变量去相关的稳定学习方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述S1进一步包括：在传统的自编码器结构中加入变量差分层表征变量的稳定性，在多环境下采集所述无标签数据后，在主环境下学习所述自编码器表征，固定表征通过多环境的数据学习变量的稳定性得分，得到所述变量稳定性。

进一步地，在本发明的一个实施例中，所述S2进一步包括：

通过梯度下降优化算法学习一组新的样本权重，使得所述稳定变量和所述噪声变量在加权后的相关性最小化，去除所述稳定变量和所述噪声变量之间的虚假相关。

为达到上述目的，本发明另一方面实施例提出了一种区分化变量去相关的稳定学习装置，包括：

学习变量稳定性模块，用于在多环境下采集无标签数据，利用自编码器，通过所述无标签数据学习变量在跨环境下的变量稳定性；

变量去相关模块，用于根据所述变量稳定性，利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性；

误差去除模块，利用加权样本的线性回归模型，降低模型的偏差。

本发明实施例的区分化变量去相关的稳定学习装置，通过对多环境下的无标签数据，学习变量稳定性，根据学习的变量稳定性，通过样本加权去除稳定变量与噪声变量之间的相关性，并利用加权样本的线性回归模型，降低模型偏差带来的影响。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响，可以无监督地从多环境中学习变量的稳定性，在应用加权的线性回归模型之后，可以降低模型偏差带来的参数估计误差。

另外，根据本发明上述实施例的区分化变量去相关的稳定学习装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述学习变量稳定性模块，具体用于在传统的自编码器结构中加入变量差分层表征变量的稳定性，在多环境下采集所述无标签数据后，在主环境下学习所述自编码器表征，固定表征通过多环境的数据学习变量的稳定性得分，得到所述变量稳定性。

进一步地，在本发明的一个实施例中，所述变量去相关模块，具体用于通过梯度下降优化算法学习一组新的样本权重，使得所述稳定变量和所述噪声变量在加权后的相关性最小化，去除所述稳定变量和所述噪声变量之间的虚假相关。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的区分化变量去相关的稳定学习方法流程图；

图2为根据本发明一个具体实施例的区分化变量去相关的稳定学习方法流程图；

图3为根据本发明一个实施例的区分化变量去相关的稳定学习装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的区分化变量去相关的稳定学习方法及装置。

首先将参照附图描述根据本发明实施例提出的区分化变量去相关的稳定学习方法。

图1为根据本发明一个实施例的区分化变量去相关的稳定学习方法流程图。

如图1所示，该区分化变量去相关的稳定学习方法包括以下步骤：

步骤S1，在多环境下采集无标签数据，利用自编码器，通过无标签数据学习变量在跨环境下的变量稳定性。

进一步地，在本发明的实施例中，S1进一步包括：在传统的自编码器结构中加入变量差分层表征变量的稳定性，在多环境下采集无标签数据后，在主环境下学习自编码器表征，固定表征通过多环境的数据学习变量的稳定性得分，得到变量稳定性。

具体地，在给定了多环境下的无标签数据后，通过自编码器学习变量稳定性。

可以理解的是，可以设置一个学习变量稳定性的自编码模块，通过多环境下的无标签数据学习变量在跨环境下的稳定性。

步骤S2，根据变量稳定性，利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性。

进一步地，在本发明的实施例中，S2进一步包括：

通过梯度下降优化算法学习一组新的样本权重，使得稳定变量和噪声变量在加权后的相关性最小化，去除稳定变量和噪声变量之间的虚假相关。

具体地，在给定了变量的稳定性下之后，能够通过样本加权去除稳定变量与噪声变量之间的相关性。

可以理解的是，去除变量间的相关性对于模型拟合精度的影响，差异化的考虑不同变量之间的相关性，对于存在于稳定变量和噪声变量之间的虚假相关性进行消除。

步骤S3，利用加权样本的线性回归模型，降低模型的偏差。

具体地，应用加权样本的线性回归模型，能够减小模型偏差和数据选择性偏差带来的影响，更加精确地估计模型参数。

如图2所示，展示了本发明的稳定学学习过程，在视觉模式识别的场景中，利用不同环境下采集的无标签数据，利用该方法学习到潜在稳定模式和更加鲁棒的模型。在决策制定***中，利用该方法可以对各个影响因子作更为独立而精确的分析，从而制定相应决策。

根据本发明实施例提出的区分化变量去相关的稳定学习方法，通过对多环境下的无标签数据，学习变量稳定性，根据学习的变量稳定性，通过样本加权去除稳定变量与噪声变量之间的相关性，并利用加权样本的线性回归模型，降低模型偏差带来的影响。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响，可以无监督地从多环境中学习变量的稳定性，在应用加权的线性回归模型之后，可以降低模型偏差带来的参数估计误差。

其次参照附图描述根据本发明实施例提出的区分化变量去相关的稳定学习装置。

如图3所示，该区分化变量去相关的稳定学习装置包括：学习变量稳定性模块100、变量去相关模块200和误差去除模块300。

学习变量稳定性模块100，用于在多环境下采集无标签数据，利用自编码器，通过无标签数据学习变量在跨环境下的变量稳定性。

变量去相关模块200，用于根据变量稳定性，利用样本重加权的方法去除稳定变量与噪声变量之间的虚假相关性。

误差去除模块300，利用加权样本的线性回归模型，降低模型的偏差。

进一步地，在本方面的一个实施例中，学习变量稳定性模块，具体用于在传统的自编码器结构中加入变量差分层表征变量的稳定性，在多环境下采集无标签数据后，在主环境下学习自编码器表征，固定表征通过多环境的数据学习变量的稳定性得分，得到变量稳定性。

进一步地，在本方面的一个实施例中，变量去相关模块，具体用于通过梯度下降优化算法学习一组新的样本权重，使得稳定变量和噪声变量在加权后的相关性最小化，去除稳定变量和噪声变量之间的虚假相关。

需要说明的是，前述对区分化变量去相关的稳定学习方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的区分化变量去相关的稳定学习装置，通过对多环境下的无标签数据，学习变量稳定性，根据学习的变量稳定性，通过样本加权去除稳定变量与噪声变量之间的相关性，并利用加权样本的线性回归模型，降低模型偏差带来的影响。该方法在变量去相关性的过程中差异化地考虑了不同变量之间的相关性的影响，可以无监督地从多环境中学习变量的稳定性，在应用加权的线性回归模型之后，可以降低模型偏差带来的参数估计误差。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种区分化变量去相关的稳定学习方法，其特征在于，包括以下步骤：

S3，利用加权样本的线性回归模型，降低模型的偏差。

2.根据权利要求1所述的区分化变量去相关的稳定学习方法，其特征在于，所述S1进一步包括：在传统的自编码器结构中加入变量差分层表征变量的稳定性，在多环境下采集所述无标签数据后，在主环境下学习所述自编码器表征，固定表征通过多环境的数据学习变量的稳定性得分，得到所述变量稳定性。

3.根据权利要求1所述的区分化变量去相关的稳定学习方法，其特征在于，所述S2进一步包括：

4.一种区分化变量去相关的稳定学习装置，其特征在于，包括：

5.根据权利要求4所述的区分化变量去相关的稳定学习装置，其特征在于，所述学习变量稳定性模块，具体用于在传统的自编码器结构中加入变量差分层表征变量的稳定性，在多环境下采集所述无标签数据后，在主环境下学习所述自编码器表征，固定表征通过多环境的数据学习变量的稳定性得分，得到所述变量稳定性。

6.根据权利要求4所述的区分化变量去相关的稳定学习装置，其特征在于，所述变量去相关模块，具体用于通过梯度下降优化算法学习一组新的样本权重，使得所述稳定变量和所述噪声变量在加权后的相关性最小化，去除所述稳定变量和所述噪声变量之间的虚假相关。