CN104537418A

CN104537418A - 一种自底向上的高维数据因果网络学习方法

Info

Publication number: CN104537418A
Application number: CN201410796623.4A
Authority: CN
Inventors: 蔡瑞初; 郝志峰; 陈薇; 温雯; 王丽娟
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2015-04-22

Abstract

本发明公布了一种自底向上的高维数据因果网络学习方法，该方法包括了：因果关系局部结构发现算法，采用局部因果关系学习方法和因果关系强度传播策略学习变量间的局部因果关系强弱关系；全局变量因果排序算法，基于最大无环有向子图模型，在局部结构强弱度量的基础上实现高维变量全局因果关系排序；冗余因果关系剔除策略，基于全局因果序，最终实现高维观察数据上的可靠因果关系发现。

Description

一种自底向上的高维数据因果网络学习方法

技术领域

本发明涉及数据挖掘领域，特别涉及一种自底向上的面向高维观察数据的因果网络学习方法。

背景技术

目前，因果推断已经广泛应用到各个领域当中，典型的应用如生物网络推断、疾病诊断、药物效果分析、致病基因发现、社交网络分析等等。这些领域的应用需求促使了众多因果发现研究工作的进行从而涌现出大量因果推断理论和算法。而因果推断理论、算法及应用的基础则是因果关系模型。经典的因果关系模型包括Donald Rubin提出的Rubin因果关系模型(Rubin Causal Model；RCM)和Judea Pearl提出的因果图模型(Causal Diagram)。Pearl说明了两者的等价性。前者(Rubin因果关系模型)主要基于潜在结果模型和随机化分配机制来考察两个变量间的平均因果作用。而后者(因果图模型)通过使用一个反映多个变量联合概率分布的贝叶斯网络来刻画各变量间的因果关系，更适合表示高维数据上的全局因果结构，在计算机领域获得较为广泛的关注和推广应用，是众多全局结构模型的基础。

根据算法模型基础的不同，主流因果推断算法可分为两类：以Hoyer，Janzing等人提出的不对称性度量方法为代表的局部结构推断方法；以Inductive Causality(IC)类算法为代表的全局结构推断方法。马普学会的Janzing等人从局部因果关系模型出发，提出了基于不对称性度量的因果方向推断方法。代表性工作包括：基于噪声不对称性的ANM(Additive Noise Model)方法和LiNGAM(Linear Non-GAussian Model)方法，基于数据分布不对称性的IGCI(Information Geometry Causal Inference)和综合多种不对称性度量的Post-Nonlinear方法等。这类局部结构学习方法能够区分任意两个变量间的因果方向，包括x→y→z，x←y←z，x←y→z等IC类方法无法判定的因果关系。全局结构推断方面，InductiveCausality给出了基于贝叶斯网络结构学习的全局结构推断框架，但是对其中的核心细节没有刻画，从而引发了大量重要工作。近期研究主要集中在高维情形下的因果推断算法设计，代表性工作包括北京大学耿直教授的递归分解结构学习策略、北京大学宋国杰教授的重合分解策略、最大最小爬山法、申请人的半监督策略等。全局结构模型相对成熟，具有较强的高维因果表达能力。

但是，无论是局部结构推断方法还是全局结构推断方法，由于其模型自身的一些不足，现有的这两类方法在高维数据上都没能有出色的表现。对数据产生机制有较强的假设是现有局部结构模型的主要不足，如ANM只适用于非线性连续数据或者离散数据，LiNGAM模型仅适用于线性非高斯噪声数据，IGCI则一般假设不存在噪声干扰。并且，这些方法也缺乏全局结构表达能力。ANM和IGCI主要用于研究两个变量间的因果关系，较难推广到多变量的高维场景。而LiNGAM模型虽然能够应用到多变量问题，但是在高维问题上存在误发现率不可控等缺陷。至于现有的全局结构推断方法，基于因果图模型的IC类方法虽然具有较强的全局结构表达能力，但是存在发现能力不足的问题。由于对于局部因果机制缺乏有效刻画，该类方法仅能发现V-结构(例如，x→y←z)形式的因果关系，对属于同一因果等价类的因果关系(例如，x→y→z，x←y←z，x←y→z)则无法有效区分。另外，由于IC类方法侧重单个V-结构的稳定性，在高维数据上存在结果可靠性差的问题。

发明内容

为了解决全局结构模型在因果发现上能力较弱以及局部结构模型在高维数据表达能力上不足且依赖于较为严格的数据产生机制假设等问题，本发明建立了一个将全局结构推断方法与局部结构推断方法有效结合的自底向上构建的可行框架。在该框架下全局结构模型和局部结构模型既互补不足，又能充分发挥各自原有的优点，使得本因果网络学习方法具有较强的高维因果结构表达能力，同时兼具更高的因果关系发现的可靠性。

该方法包括三部分：因果关系局部结构发现算法，采用局部因果关系学习方法和因果关系强度传播策略学习变量间的局部因果关系强弱关系；全局变量因果排序算法，基于最大无环有向子图模型，在局部结构强弱度量的基础上实现高维变量全局因果关系排序；冗余因果关系剔除策略，基于全局因果序，最终实现高维观察数据上的可靠因果关系发现。

一些成熟的因果学习方法在低维数据的因果关系推断上有较好的表现，第一部分的局部因果关系学习中应用了这种因果学习方法。由第一部分局部因果关系学习得到的各变量间因果关系强弱度量是第二部分排序的依据。根据第二部分求得的因果变量顺序，第三部分在进行冗余因果关系剔除时，可以有效地减少候选的冗余因果关系的数目。

附图说明

图1为本发明的算法架构图。

具体实施方式

相应于上述方法的三个部分，本发明由三个模块顺序组成：局部因果结构生成模块、基于因果强度度量的全局有向无环图拓扑排序模块和冗余因果关系剔除模块。这三个模块的具体功能和实施步骤详述如下。

1.局部因果结构生成模块

输入：样本集合D，变量集合V，阈值α。

输出：因果关系强度图G(包括刻画第i个变量与第j个变量因果关系v_i→v_j强弱的度量值g_ij和w_ij)。

1)将变量集合V划分为q个等大的不相交集，即V₁、V₂、…、V_q。q建议取值其中m为样本数目，n为变量数目。

2)每两个集合V_i和V_j(允许i和j相等)构成一个子域S_k，共产生q²个子域，即S₁、S₂、…、

3)在每个子域上应用某种因果推断方法，学习局部因果结构，求得构成该子域的两个变量集合V_a和V_b间任意两个变量v_i∈V_a和v_j∈V_b的因果关系v_i→v_j的强弱度量w_ij。

4)初始化因果强度矩阵W的每个元素为w_ij(i为元素对应的行序号，j为相应的列序号)；如果w_ij＜α，则令w_ij＝0。

5)这一步开始应用因果关系强度传播策略，按k从2到n-1取值依次迭代计算W^(k)＝W^(k-1)W，即

w_{ij}^{(k)} = Σ_{h = 1}^{n} w_{ih}^{(k - 1)} w_{hj} .

6)对每一对变量v_i和v_j计算一个用于刻画v_i→v_j因果关系强弱的值g_ij，其表达式为g_ij相比w_ij能够更加分充地体现真实因果关系与虚假因果关系之间的差距。

2.基于因果强度度量的全局有向无环图拓扑排序模块

输入：样本集合D，变量集合V，因果关系强度图G。

输出：因果拓扑序列O。

1)对V中每个变量v_i计算其亏损值d_i，其表达式为d_i＝∑_j≠iw_ij-∑_l≠iw_li。

2)V中的变量根据每一个变量v_i对应的d_i按非升序排序，并对排序后的变量序列依新序从1到n编号，即变量按新序依次记为v₁、v₂、…、v_n。

3)这一步将初始化序列O。首先初化各参数：l＝1，u＝n，S＝V。然后按i从1到n迭代依次做如下处理：①令S＝S-v_i，②如果则使O_l＝v_i，l＝l+1；否则，使O_u＝v_i，u＝u-1。

4)对序列O做局部搜索优化。按i从1到n取值，j从i+1到n取值的顺序，依次做如下处理：考虑交换拓扑序列O中第i个位置的变量O_i和第j个位置的变量O_j，如果交换后拓扑序列对应的有向无环图的各边权值(即W中刻画因果关系强弱的值w_ij)之和更大，即满足

Σ_{k = i + 1}^{j} w_{o_{k} o_{i}} + Σ_{k = i}^{j - 1} w_{o_{j} o_{k}} > Σ_{k = i + 1}^{j} w_{o_{i} o_{k}} + Σ_{k = i}^{j - 1} w_{o_{k} o_{j}},

那么确认交换两者的位置，否则保持原位置不变。

5)完成第4)步的所有迭代，得到因果拓扑序列O。

3.冗余因果关系剔除模块

输入：样本集合D，变量集合V，因果拓扑序列O。

输出：全局因果图C(矩阵表示)。

1)按因果拓扑序列的顺序依次给每个变量重新编号。

2)初始化矩阵C为对角线全0，C_ij＝1(对于所有i＜j)的上三角矩阵。C_ij为1时表示变量v_i是v_j的直接原因变量，即在因果图上存在有向边v_i→v_j。

3)按i从1到n取值，j从i+1到n取值的顺序，依次做如下处理：取两个结点集合S₁＝{v_h|1≤h＜i，C_hi＝1，C_hj＝1}和S₂＝{v_h|i＜h＜j，C_ih＝1，C_hj＝1}，如果变量v_i和v_j至少满足下列三个条件中的任意一个：

①给定集合S₁条件下，v_i和v_j通过独立性检验测试判定为相互独立；

②给定集合S₂条件下，v_i和v_j通过独立性检验测试判定为相互独立；

③给定集合S₁∪S₂条件下，v_i和v_j通过独立性检验测试判定为相互独立。

则设C_ij＝0，即在最终的因果图中从v_i到v_j没有直接相连的有向边，意即变量v_i不是变量v_j的直接原因变量。

4)完成第3)步的所有迭代，得到最终的全局因果图C。

Claims

1.一种自底向上的高维数据因果网络学习方法，其包括：因果关系局部结构发现算法，采用局部因果关系学习方法和因果关系强度传播策略学习变量间的局部因果关系强弱关系；全局变量因果排序算法，基于最大无环有向子图模型，在局部结构强弱度量的基础上实现高维变量全局因果关系排序；冗余因果关系剔除策略，基于全局因果序，最终实现高维观察数据上的可靠因果关系发现。

2.如权利要求1所述的自底向上的高维数据因果网络学习方法，其特征在于建立面向因果关系发现的“局部结构学习-全局变量因果排序-冗余因果关系剔除策略”三阶段因果网络学习方法。

3.如权利要求1所述的因果关系局部结构发现算法，其特征在于对小规模问题上的因果关系进行整合和因果关系传播，其因果关系传播的形式化描述为：其中w_ij为变量i和j之间的因果关系强度，n为变量的数目，k！为k的阶乘。

4.如权利要求1所述的全局变量因果排序算法，其特征在于基于最大无环有向子图模型依据因果关系强度对因果变量进行全局排序。

5.如权利要求1所述的因果关系剔除策略，其特征在于结合因果序进行条件独立性假设检验的条件集删选从而剔除冗余的因果关系。