CN110459266B

CN110459266B - Snp致病因素与疾病关联关系模型建立方法

Info

Publication number: CN110459266B
Application number: CN201910539328.3A
Authority: CN
Inventors: 张军英; 朱皓晨
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2022-04-08
Anticipated expiration: 2039-06-20
Also published as: CN110459266A

Abstract

本发明属于数据处理技术领域，公开了一种SNP致病因素与疾病关联关系模型建立方法，采集当前SNP致病因素对应的样本数据集；依据初始值对样本数据集进行绝对划分；基于机器学习方法的SNP致病因素与疾病关联关系建模；建模结果准确性评价；确定SNP致病因素与疾病的关联关系模型。本发明通过绝对划分的方法，降低了各个SNP致病因素之间的相互影响程度，使建立的每个SNP致病因素与疾病的关联关系模型更准确。本发明操作简单，只需要输入原始的SNP数据和所有的SNP致病因素，即可得到每个SNP致病因素与疾病的较为准确的关联关系模型。

Description

SNP致病因素与疾病关联关系模型建立方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种SNP致病因素与疾病关联关系模型建立方法。

背景技术

目前，最接近的现有技术：

SNP:单核苷酸多态性(SingleNucleotidePolymorphisms)，是指在基因组上由单个核苷酸(A，T，C，G)变异所引起的多态性。越来越多的研究证据表明SNP与疾病有着密切的关系，而这种关联关系正是理解疾病产生原因、进行医疗预防及诊断的基础。深入了解SNP与疾病之间的关联关系能够为理解疾病的致病机理提供可能性，也能够在治疗和战胜复杂疾病的道路上更进一步。

可将SNP与疾病关联关系的研究分为两类：SNP级和SNP因素级。SNP级关联关系研究，是对从基因组数据中找出的与疾病表型关联的SNP子集，建立这些SNP与疾病表型的关联关系模型。SNP因素级关联关系研究，则是通过从基因组数据中找出的与疾病表型相关的所有SNP致病因素，建立其中每一个SNP致病因素与疾病表型的关联关系。前者是建立的是一个SNP子集与疾病表型的关联关系，后者则是针对多个SNP子集中的每一个，建立其与疾病表型的关联关系。目前SNP级研究非常广泛，而SNP因素级研究极其有限。

在SNP级关联关系上目前的做法是：训练一个分类器，分类器的结构和参数就给出了这个SNP子集与疾病表型的关联关系。各类分类器都有在这个问题上的应用，包括多层感知器网络、决策树、支持向量机、随机森林等等。

在SNP因素级关联关系问题上，目前技术非常有限，典型的是通过多层感知器(MLP)来实现。

基于MLP的SNP致病因素与疾病关联关系建模方法，其基本思路是为每一个SNP致病因素分别建立MLP神经网络，步骤如下：

1)建立MLP神经网络，随机初始化网络连接的权值，并设定相关参数；

2)输入样本数据(包括SNP数据及对应类别)；

3)迭代训练网络，直到网络收敛稳定；

4)用SNP致病因素的各种SNP状态组合作为测试数据输入网络，网络的输出即为对应组合分类为有病的后验概率。

SNP致病因素对疾病的影响方式和影响程度不明确。虽然已有的方法能够建立出SNP致病因素与疾病关联关系模型，但其所建立模型的准确性并不能达到预期，因此还需要进一步探索更好的方法和技术。

综上所述，现有技术存在的问题是：

SNP致病因素对疾病的影响方式和影响程度不明确。

解决上述技术问题的难度：

1.现有的方法所建立的模型准确率低；

2.SNP数据具有小样本特性，样本量少使建模难度高、准确率受影响；

3.某种特定疾病下往往其致病因素的个数不仅仅是一个，每个致病因素与疾病表型的关联关系是不同的，且是非确定的。

解决上述技术问题的意义：

越来越多的研究证据表明SNP与疾病有着密切的关系，特别是复杂疾病，常常是多个SNP致病因素引起的，其与每个SNP致病因素的关联关系也是多种多样的，认识这些关联关系正是理解疾病产生原因、进行医疗预防及诊断的基础，深入了解SNP与疾病之间的关联关系能够为我们理解疾病的致病机理提供可能性，也能够让在治疗和战胜复杂疾病的道路上更进一步。

发明内容

针对现有技术存在的问题，本发明提供了一种SNP致病因素与疾病关联关系模型建立方法。

本发明是这样实现的，一种SNP致病因素与疾病关联关系模型建立方法，所述SNP致病因素与疾病关联关系模型建立方法包括：

步骤一，采集当前SNP致病因素对应的样本数据集；

步骤二，依据初始值对样本数据集进行绝对划分；

步骤三，基于机器学习方法的SNP致病因素与疾病关联关系建模；

步骤四，建模结果准确性评价；

步骤五，确定SNP致病因素与疾病的关联关系模型。

进一步，所述SNP致病因素与疾病关联关系模型建立方法具体包括：

输入为当前SNP致病因素对应的样本数据组成的k*X的矩阵；k为致病因素中SNP位点的个数，即致病因素规模，X为样本个数；样本的类别向量1*X维；当前SNP致病因素与疾病的初始化关联关系模型IM；

输出为当前SNP致病因素与疾病的关联关系模型PM；

算法步骤如下：

1)对于输入的k*X的样本数据集，进行t次有放回的随机重采样(bootstrap)，产生t个相同规模的重采样数据集；

2)fori＝1:t

对于重采样数据集T_i，分别通过以下步骤建立当前SNP致病因素其与疾病的初始关联关系模型IM_i：

3)对在当前SNP致病因素上t次建模的结果进行平均，得到当前SNP致病因素与疾病的初始关联关系模型IM；

4)fori＝1:t

对第i个重采样数据集T_i依据IM中的致病概率值，对样本数据集进行划分，得到划分后的数据集H_i；

5)按照公式，对在当前SNP致病因素上t次建模的结果进行平均，得到当前输出的关联关系模型PM；

6)判定当前关联关系模型PM的收敛性，判定规则如下：

对于当前SNP致病因素，若(PM-IM)/3^k≤threshold，即当前关联关系模型PM中各个状态组合上的平均变化值不超过设定阈值threshold(本实验中设定为0.005)，则认为过程收敛，当前关联关系模型PM为最终所求关联关系模型，输出即可；

否则，利用当前PM的值将IM更新，即IM＝PM，转4)；

步骤1)-步骤6)不断重复直到收敛，即获得了该SNP致病因素与疾病的关联关系模型PM；对每个SNP致病因重复步骤1)-步骤6)，获得了每个SNP致病因素与疾病的关联关系模型。

所述2)进一步包括：

通过CART决策树算法训练一个预测模型；

将当前SNP致病因素的3^k种SNP状态组合中的每一个S_j作为测试数据输入模型，分别记录模型的输出P_ij(j＝1,2,...,3^k)；

当前SNP致病因素与疾病的初始化关联关系模型IM_i，其中IM_i＝(P_i1,P_i2,...,P_ij)；

end for。

所述4)进一步包括：

利用第i个划分后的数据集H_i，分别通过以下步骤建立当前SNP致病因素与疾病的关联关系模型PM_i：

通过CART决策树算法训练一个预测模型；

将当前这个k-way的SNP致病因素的3^k种SNP状态组合中的每一个S_j作为测试数据输入模型，分别记录模型的输出P_ij；

得到当前SNP致病因素与疾病的关联关系模型PM_i：PM_i＝(P_i1,P_i1,...,P_ij)；endfor

进一步，所述建模结果准确性评价包括：

通过用均方误差和JS散度对所建立的SNP致病因素与疾病关联关系模型的准确性进行评价，两种评价指标包括：

评价指标1：MSE均方误差，在统计学中，MSE指估计值与真值之差平方的期望值，其定义式为：

其中，对于任一SNP致病因素，N表示SNP状态组合的个数，其值为N＝3^k，k表示当前SNP致病因素中所含的SNP数目；r_i为获得的第i个SNP状态组合下致病概率的估计值；o_i为第i个SNP状态下的致病概率的真实值；MSE的值越小，预测模型准确度越高；

评价指标2：JS散度，JS散度是描述概率分布P和Q分布的相似性的，其定义，其中的KL表示KL散度：

鉴于一个含有k个SNP的SNP致病因素，其与疾病的关联关系模型中包含有3^k个概率，对于两个分别含k个SNP的SNP致病因素与疾病关联关系M1和M2之间的相似程度，用它们之间的JS散度的平均值计算：

其中，P_i表示关联关系模型M1中第i个SNP致病因素组合所对应的概率，Q_i表示关联关系模型M2中第i个SNP致病因素组合所对应的概率。

本发明的另一目的在于提供一种应用所述SNP致病因素与疾病关联关系模型建立方法的SNP致病因素与疾病关联关系模型建立***，所述SNP致病因素与疾病关联关系模型建立***包括：

SNP数据模块，用于采集当前SNP致病因素对应的样本数据集；

绝对划分模块，用于依据初始值对样本数据集进行绝对划分；

关联关系建模模块，用于建立基于机器学习方法的SNP致病因素与疾病关联关系模型；

性能评价模块，用于对建模结果进行准确性评价。

本发明的另一目的在于提供一种应用所述SNP致病因素与疾病关联关系模型建立方法的信息数据处理终端。

综上所述，本发明的优点及积极效果为：

本发明在技术上提出了通过机器学习方法建立多SNP致病因素中每个致病因素与疾病关联关系的方法和技术。在技术上通过绝对划分的方法，降低了各个SNP致病因素之间的相互影响程度，使建立的每个SNP致病因素与疾病的关联关系模型更准确。

本发明操作简单，只需要输入原始的SNP数据和所有的SNP致病因素，即可得到每个SNP致病因素与疾病的较为准确的关联关系模型。

附图说明

图1是本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模***结构示意图。

图中：1、SNP数据模块；2、绝对划分模块；3、关联关系建模模块；4、性能评价模块。

图2是本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模的方法流程图。

图3是本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模的技术路线图。

图4是本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模的流程图。

图5是本发明实施例提供的(98)、(78)与疾病的关联关系模型直方图。

图6是本发明实施例提供的(6093)、(4475)与疾病的关联关系模型直方图。

图7是本发明实施例提供的(8583100)与疾病的关联关系模型直方图。

图8是本发明实施例提供的(972047)与疾病的关联关系模型直方图。

图9是本发明实施例提供的各模型与真实模型的均方误差。

图10是本发明实施例提供的各模型与真实模型的JS散度。

图11是本发明实施例提供的两种算法所得模型与真实模型的均方误差图。

图12是本发明实施例提供的两种算法所得模型与真实模型的JS散度图。

图13是本发明实施例提供的(130199177958)与疾病的关联关系模型直方图。

图14是本发明实施例提供的(66357206952)与疾病的关联关系模型直方图。

图15是本发明实施例提供的(102091180050234964)与疾病的关联关系模型直方图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的目的在于解决SNP致病因素对疾病的影响方式和影响程度不明确的问题。提供了一种SNP致病因素与疾病关联关系模型建立方法与***。

下面结合附图对本发明的技术方案作详细描述。

如图1所示，本发明实施例提供的基于决策树集成的SNP致病因素与疾病关联关系建模***包括：

SNP数据模块1、绝对划分模块2、关联关系建模模块3、性能评价模块4。

SNP数据模块1，用于采集当前SNP致病因素对应的样本数据集；

绝对划分模块2，用于依据初始值对样本数据集进行绝对划分；

关联关系建模模块3，用于建立基于机器学习方法的SNP致病因素与疾病关联关系模型；

性能评价模块4，用于对建模结果进行准确性评价。

如图2到图4所示，本发明实施例提供的SNP致病因素与疾病关联关系模型建立方法包括：

S101：采集当前SNP致病因素对应的样本数据集；

S102：依据初始值对样本数据集进行绝对划分；

S103：基于机器学习方法的SNP致病因素与疾病关联关系建模；

S104：建模结果准确性评价；

S105：确定SNP致病因素与疾病的关联关系模型。

在本发明实施例提供的SNP致病因素与疾病关联关系模型建立方法中：

输入为当前SNP致病因素对应的样本数据组成的k*X的矩阵。k为致病因素中SNP位点的个数，即致病因素规模，X为样本个数；样本的类别向量1*X维；当前SNP致病因素与疾病的初始化关联关系模型IM。

输出为当前SNP致病因素与疾病的关联关系模型PM。

算法步骤如下：

2)fori＝1:t

(1)通过CART决策树算法训练一个预测模型；

(2)将当前SNP致病因素的3^k种SNP状态组合中的每一个S_j作为测试数据输入模型，分别记录模型的输出P_ij(j＝1,2,...,3^k)；

(3)当前SNP致病因素与疾病的初始化关联关系模型IM_i，其中IM_i＝(P_i1,P_i2,...,P_ij)；

end for

3)按照公式(1)，对在当前SNP致病因素上t次建模的结果进行平均，得到当前SNP致病因素与疾病的初始关联关系模型IM。

4)for i＝1:t

(1)对第i个重采样数据集T_i依据IM中的致病概率值，对样本数据集进行划分，得到划分后的数据集H_i；

(2)利用第i个划分后的数据集H_i，分别通过以下步骤建立当前SNP致病因素与疾病的关联关系模型PM_i：

a.通过CART决策树算法训练一个预测模型；

b.将当前这个k-way的SNP致病因素的3^k种SNP状态组合中的每一个S_j作为测试数据输入模型，分别记录模型的输出P_ij；

c.得到当前SNP致病因素与疾病的关联关系模型PM_i：PM_i＝(P_i1,P_i1,...,P_ij)；endfor

5)按照公式(2)，对在当前SNP致病因素上t次建模的结果进行平均，得到当前输出的关联关系模型PM；

6)判定当前关联关系模型PM的收敛性，判定规则如下：

否则，利用当前PM的值将IM更新，即IM＝PM，转4。

上述步骤不断重复直到收敛，即获得了该SNP致病因素与疾病的关联关系模型PM。

对每个SNP致病因都素重复上面的过程，即获得了每个SNP致病因素与疾病的关联关系模型。

进一步，步骤四中建模结果准确性评价包括：

评价指标1：MSE均方误差，在统计学中，MSE指估计值与真值之差平方的期望值，其定义式为

其中，对于任一SNP致病因素，N表示SNP状态组合的个数，其值为N＝3^k，k表示当前SNP致病因素中所含的SNP数目；r_i为通过方法和技术获得的第i个SNP状态组合下致病概率的估计值；o_i为第i个SNP状态下的致病概率的真实值；MSE的值越小，预测模型准确度越高；

评价指标2：JS散度，JS散度是用来描述概率分布P和Q分布的相似性的，其定义如式(4)，其中的KL表示KL散度：

鉴于一个含有k个SNP的SNP致病因素，其与疾病的关联关系模型中包含有3^k个概率，对于两个分别含k个SNP的SNP致病因素与疾病关联关系M1和M2之间的相似程度，用它们之间的JS散度的平均值计算，如公式(5)所示。

下面结合具体实施例对本发明的技术效果作进一步描述。

实施例：

A.Dat100数据集

本组实验数据来自纽约市癌症控制项目。针对这组数据，生物学家在100个SNP、2000个样本的数据Dat100中，同时嵌入了总计7个SNP致病因素，分别为SNP致病因素(98)，(78)，(6093)，(4475)，(8583100)，(972047)，(2581879299)(下面分别用编号为1,2,...,7表示这7个致病因素)，每个致病因素与疾病的概率关联关系均已给出。

用本发明的技术完成了这组数据的每个SNP致病因素与疾病关联关系模型的建立。图5至图8为Dat100数据集中的前六个致病因素通过AD-DTEM方法的建模结果直方图。

本发明还利用在该组实验数据上已知的真实SNP致病因素与疾病关联关系模型，对每个SNP致病因素与疾病的关联关系模型在评价指标MSE和JS散度上进行了准确性评价。为说明绝对划分建模方法AD-DTEM方法的有效性，将其结果与未进行绝对划分的建模方法所得的初始化结果进行比较。图9和图10分别为各个SNP致病因素的初始化关联关系模型和收敛后的关联关系模型的均方误差MSE和JS散度。

从图9和图10可以看到，对Dat100数据集中的每一个SNP致病因素，显然收敛后的关联关系模型都比初始的关联关系模型更加接近真实的关联关系模型。总体看，通过AD-DTEM方法所建立的Dat100数据集中的7个SNP致病因素对应的关联关系模型与真实关联关系模型的平均均方误差值仅仅为0.0172，平均JS散度值仅仅为0.019。其中，第五个SNP致病因素(8583100)经过绝对划分建立的关联关系模型与初始化关联关系模型相比，均方误差值由0.14463下降到了0.0030222，下降了97.9％，JS散度值由0.18263下降到了0.0085029，下降了95.3％。同时，在Dat100数据集的7个SNP致病因素中，第7个SNP致病因素(2581879299)对应的关联关系模型上，均方误差值和JS散度值数值最高，说明在建立的7个关联关系模型中，这个模型的准确度相对来说是最低的。究其原因，这个SNP致病因素中包含5个SNP，总计243个SNP状态，却只有2000个样本，从而出现严重的维数灾难现象。尽管如此，引入了AD-DTEM方法还是使SNP致病因素(2581879299)的准确性更高，更加接近真实的关联关系模型。

为了验证本发明所提出算法的有效性，将AD-DTEM方法与基于MLP的建模方法进行了比较，得到的结果如图11和图12所示。

显然，所建立的模型与真实模型之间的均方误差最多不超过0.12，表明AD-DTEM方法在关联关系模型建立上取得了较好的性能，与已有的基于MLP的建模方法比较，本发明提出的AD-DTEM方法虽然在针对SNP致病因素(98)、(8583100)所建立的与疾病的关联关系模型中准确性略低，但在其余各个SNP致病因素上所建立的模型准确性都明显高于出MLP建模方法，尤其是在SNP致病因素(78)上，其准确性提升相当明显。这一结果验证了本发明所提出的AD-DTEM方法在SNP与疾病关联关系建模问题的准确性和有效性。

经与最大熵方法所给出的SNP致病因素与疾病关联关联建模的性能比较，本发明的性能也明显优于最大熵方法。

B.真实肺癌数据集

真实肺腺癌数据Lung共包含191个疾病样本，99个对照样本，有238304个SNP，其中有5.55％的数据丢失。

采用AD-DTEM技术，对Lung数据集中的6个SNP致病因素(130199177958)，(66357206952)，(102091180050234964)，(48316144695181381)，(7938116763236441)，(4144076592236930)进行SNP致病因素与肺癌关联关系建模，图13至图15给出了其中的前三个致病因素的建模结果。

本发明主要完成多SNP致病因素与疾病关联关系的模型建立，能够准确估计每个SNP致病因素与疾病的关联关系。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种SNP致病因素与疾病关联关系模型建立方法，其特征在于，所述SNP致病因素与疾病关联关系模型建立方法包括：

步骤一，采集当前SNP致病因素对应的样本数据集，所述SNP为单核苷酸多态性；

步骤二，依据初始值对样本数据集进行绝对划分；

步骤四，建模结果准确性评价；

步骤五，确定SNP致病因素与疾病的关联关系模型；

所述SNP致病因素与疾病关联关系模型建立方法具体包括：

输出为当前SNP致病因素与疾病的关联关系模型PM；

算法步骤如下：

1)对于输入的k*X的样本数据集，进行t次有放回的随机重采样bootstrap，产生t个相同规模的重采样数据集；

2)

对于重采样数据集T_i，建立当前SNP致病因素其与疾病的初始关联关系模型IM_i：其中i＝1,2,3…,t；

4)

5)用划分后的数据集，对在当前SNP致病因素上t次建模的结果进行平均，得到当前输出的关联关系模型PM；

6)判定当前关联关系模型PM的收敛性，判定规则如下：

对于当前SNP致病因素，若(PM-IM)/3^k≤threshold，即当前关联关系模型PM中各个状态组合上的平均变化值不超过设定阈值，threshold为0.005，则认为过程收敛，当前关联关系模型PM为最终所求关联关系模型，输出即可；

否则，利用当前PM的值将IM更新，即IM＝PM，转4)；

步骤4)-步骤6)不断重复直到收敛，即获得了该SNP致病因素与疾病的关联关系模型PM；对每个SNP致病因重复步骤1)-步骤6)，获得了每个SNP致病因素与疾病的关联关系模型；

所述2)进一步包括：

通过CART决策树算法训练一个预测模型；

将当前SNP致病因素的3^k种SNP状态组合中的每一个S_j作为测试数据输入模型，分别记录模型的输出P_ij(j＝1,2,...,3^k)；则当前SNP致病因素与疾病的初始化关联关系模型为IM_i＝(P_i1,P_i2,...,P_ij)；

所述4)进一步包括：

用第i个划分后的数据集H_i，分别通过以下步骤建立当前SNP致病因素与疾病的关联关系模型PM_i：通过CART决策树算法训练一个预测模型；将当前这个k-way的SNP致病因素的3^k种SNP状态组合中的每一个S_j作为测试数据输入模型，分别记录模型的输出P_ij；得到当前SNP致病因素与疾病的关联关系模型PM_i：PM_i＝(P_i1,P_i1,...,P_ij)。

2.如权利要求1所述的SNP致病因素与疾病关联关系模型建立方法，其特征在于，所述建模结果准确性评价包括：

3.一种应用权利要求1所述SNP致病因素与疾病关联关系模型建立方法的SNP致病因素与疾病关联关系模型建立***，其特征在于，所述SNP致病因素与疾病关联关系模型建立***包括：

SNP数据模块，用于采集当前SNP致病因素对应的样本数据集；

性能评价模块，用于对建模结果进行准确性评价。

4.一种应用权利要求1～2任意一项所述SNP致病因素与疾病关联关系模型建立方法的信息数据处理终端。