CN108509764A

CN108509764A - 一种基于遗传属性约简的古生物谱系演化分析方法

Info

Publication number: CN108509764A
Application number: CN201810161963.8A
Authority: CN
Inventors: 冯筠; 杜丽媛; 冯宏伟; 刘建妮; 韩健; 王红玉
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2018-02-27
Filing date: 2018-02-27
Publication date: 2018-09-07
Anticipated expiration: 2038-02-27
Also published as: CN108509764B

Abstract

本发明公开了一种基于遗传属性约简的古生物谱系演化分析方法，该方法的基本步骤包括：建立谱系种树；利用遗传属性约简算法构造谱系种树中每个节点的概念样例模板集合，将其作为决策依据，建立概念决策种树；利用物种属性和种树概念样例模板的匹配度，确定含有缺失数据的物种在谱系种树中的位置；通过自举法，数据重采样得到嫁接物种在谱系树中位置的似然值，完成物种嫁接，构建古生物谱系树。本发明相比最大简约法和属性约简构建谱系树的方法，有效的解决了因大量缺失数据造成的概念样例模板失效以及古生物谱系树难以稳定构建的问题，提高了物种谱系分析的准确率和稳定性。

Description

一种基于遗传属性约简的古生物谱系演化分析方法

技术领域

本发明属于生物信息学技术领域，具体涉及一种基于遗传属性的古生物谱系演化分析方法。

背景技术

古生物谱系树的构建是生物信息学重要的组成部分，也是探索生命进化史的主要途径。层次化谱系树细致地展现了物种的演化过程，揭示了物种之间的进化关系和量化差异。早期古生物的谱系分析对生命的起源追溯有着重要的科学意义。

和现生物种研究的基础数据不同，在早期古生物谱系演化分析中，物种数据只能依赖化石的可观察形态数据，但是由于化石发掘现状和可观察数据的受限，得到的物种属性常含有大量的缺失数据，造成谱系树构建困难和不确定性。

针对缺失数据的处理，目前最常用的是最大简约法。最大简约法(MP)对待缺失数据采用所有值填充的方式，随着物种缺失数据比例的增加，填充结果会使可能的谱系树呈指数爆发式的增长，生成谱系树的结构极不稳定，使得谱系树的可信度降低。

针对最大简约法存在的问题，2017年西北大学朱锐提出应用属性约简构建含有缺失数据的谱系树，该方法相比MP在物种平均准确率方面高出10％左右。其中决策点的概念样例模板集合是对含有缺失数据物种进行嫁接的重要依据。决策点中的概念样例模板个数以及每个概念样例模板中属性个数影响着嫁接物种归属判断的准确性和稳定性。但是，该方法在对含有缺失数据的物种进行归属判断时，当对应的属性存在缺失时会使得当前的概念样例模板失效，进而影响物种谱系分析的准确率和稳定性。

发明内容

本发明的目的是提供一种基于遗传属性约简的古生物谱系演化分析方法，通过构建完整的古生物谱系树，以提升谱系分析的准确率和稳定性。

为了实现上述任务，本发明采用以下技术方案：

一种基于遗传属性约简的古生物谱系演化分析方法，包括以下步骤：

步骤一，建立一颗谱系种树；

步骤二，在所述谱系种树中出现分支的位置建立物种节点，并构造所述谱系种树中每个物种节点的概念样例模板集合；将含有概念样例模板集合的节点作为决策点，建立概念决策种树；

步骤三，针对含有缺失数据的物种，从概念决策种树的根决策点出发，通过物种属性与决策点的概念样例模板集合的匹配，对物种进行归属判断；当概念决策种树出现分支时，则判断物种归属于所述分支对应的哪一个子树；归属确定后，从所述物种归属子树的根决策点开始继续进行物种的归属判断；

将含有缺失数据的物种嫁接在最终到达的决策点对应的谱系种树的节点上；

步骤四，以物种属性的完整程度从高到低的顺序进行嫁接，当所有物种都嫁接完成后，则构建完成了一颗完整的古生物谱系树。

进一步地，步骤一种建立谱系种树的方法为，根据古生物学家的先验知识建立，或利用缺失数据比例在5％以下的数据建立。

进一步地，步骤二中所述的概念样例模板集合的构造方法包括：

步骤2.2.1，种群初始化

设染色体大小为物种的属性个数m，染色体中每个基因位点的取值范围为0到m；

步骤2.2.2，设定种群大小为l，种群中每个染色体根据适应度函数F计算每个染色体的适应度函数值；所述的适应度函数F为：

上式中，L表示当前染色体中概念样例模板集合的个数，|C|表示物种的属性个数，n表示概念样例模板集合中的第n个概念样例模板，r_n表示第n个概念样例模板中的属性个数；

步骤2.2.3，根据赌轮盘的方法对染色体进行选择操作；

步骤2.2.4，对种群中的染色体的基因位点进行交叉和变异操作；

步骤2.2.5，以最优保存策略将最优个体复制到下一代群体中，并且保存最优个体；

步骤2.2.6，判断是否连续t代的最优个体适应度函数值不再提高，如果是则输出最优个体；如果否则重复步骤2.2.2到步骤2.2.5，最终得到最优个体；

通过个体的解码生成对应的概念样例模板集合。

进一步地，步骤2.2.1种群初始化过程中，染色体编码的方式为：

染色体编码使用十进制符号串表示，染色体长度由生物谱系树中物种的属性数m决定；染色体中的每一位由1到m的十进制符号表示，初始种群中各个染色体通过均匀分布的随机数生成；

利用属性核对初始种群进行限制，在每个染色体中，将属性核所在的位置上的基因取值为0，属性核是所有属性约简的交集。

进一步地，步骤三中，由于存在缺失数据，在物种嫁接的过程中会使得某系概念样例模板失效，此时则依据该决策点的其他概念样例模板进行物种嫁接。

进一步地，步骤三中，判断物种归属于分支对应的哪一个子树的策略为：

其中，m表示与A子树匹配的概念样例模板个数，n表示与B子树匹配的概念样例模板个数，A子树、B子树为分支对应的两个子树。

进一步地，步骤四还包括：

通过重采样得到含有缺失数据的物种在谱系树中位置的可靠性。

本发明与现有技术相比具有以下技术特点：

1.在生成概念样例模板集合方面，本方法利用遗传属性约简算法，得到概念样例模板集合中属性个数更简，概念样例模板个数更多的概念样例模板集合，充分利用了物种属性及概念样例模板。

2.在构建古生物谱系树方面，通过利用bootstrap得到含有缺失数据的物种在谱系树中位置的可靠性，本方法相比MP和运用属性约简构建谱系树方法，在物种缺失数据比例高于50％时，本方法的谱系分析的准确率明显高于其他两种方法，可以更准确的预测含有缺失数据物种在谱系树中的位置，提高含有缺失数据的物种在谱系分析中的稳定性。

附图说明

图1是本发明中遗传属性约简的算法流程图；

图2是本发明方法中染色体编码方式示意图；

图3是本发明方法中变异操作示意图；

图4是单个决策点的物种嫁接算法流程图；

图5是本发明方法、MP方法以及属性约简算法在构建含有缺失数据的生物谱系树的性能对比图，其中所选数据为陆龟科寄生种的生物形态学数据；

图6是利用本发明方法进行陆龟科寄生种嫁接物种谱系分析的稳定性；

图7是将本发明方法应用于寒武纪叶足动物(Cambrian lobopodians)的谱系演化分析(树图上的实心圆点即为节点位置，方框的位置即为物种的嫁接位置，值代表物种嫁接位置的可靠性)；

图8是本发明方法的流程图。

具体实施方式

如图1至图8所示，本发明公开了一种基于遗传属性约简的古生物谱系演化分析方法，具体包括以下步骤：

步骤一，谱系种树的建立

根据古生物学家的先验知识，或者缺失数据比例在5％以下的的数据，用最大简约法建立一棵谱系种树；由于后期任务的模糊性，初始的概念树立非常重要，这是人类在复杂认知任务中很少出偏差的关键。

步骤二，建立概念决策种树

步骤2.1，根据步骤一得到的谱系种树，在谱系种树中所有出现分支的位置建立物种节点；

步骤2.2，如图1所示，构造所述谱系种树中每个物种节点的概念样例模板集合；本发明提供了一种遗传属性约简算法，用以构造所述的概念样例模板集合，具体步骤如下：

步骤2.2.1，种群初始化

染色体编码使用十进制符号串来表示。染色体长度由生物谱系树中物种的属性数m决定，即染色体的长度等于生物谱系树中物种的属性个数m。染色体中的每一位由0到物种属性个数m的十进制符号表示。设染色体大小为物种的属性个数m，染色体中每个基因位点的取值范围为0到m；初始种群中各个染色体通过均匀分布的随机数生成。其次，利用属性核对初始种群进行限制，在每个染色体中，将属性核所在的位置上的基因取值为0，属性核是所有属性约简的交集；

染色体编码方式如图2所示，设数据集中物种的属性个数m为10，则通过均匀分布的随机数生成0到10之间的整数，其中0表示该属性属于核属性，作为一个概念样例模板，1到10之间的数字表示相对应位点的条件属性作为概念样例模板的属性。位点代表属性的编号，从1到10顺序排序。例如，位点1和位点8对应的编码都为2，表示1号属性和8号属性属于一个概念样例模板，即该概念样例模板中含有8号和9号两个属性。位点2号对应的编码为4，并且其他位点没有相同编码，所以2号属性属于一个概念样例模板，即该概念样例模板中只含有4号属性。以此类推，该决策点的概念样例模板集为{1，8}{2}{3}{4}{5，6}{7}{9}{10}(大括号表示一个概念样例模板，括号内数字为属性编号，即位点号)。通过这种编码方式，使得每个染色体都对应唯一的概念样例模板集合。

步骤2.2.2，适应度决定染色体遗传到下一代群体中的几率，这里通过每个染色体生成的概念样例模板集合计算对应染色体的适应度。

根据属性约简原理，B表示物种所含有的属性子集，C＝{c₁,c₂…,c_r}表示节点所属物种的属性集合，其中c_r表示该节点第r个属性集合。D＝{0,1}表示节点所属物种的类标签。POS_B(D)表示分类属性D对于所属物种属性B的正区域,POS_c(D)表示分类属性D对于所属物种属性C的正区域。当POS_B(D)＝POS_c(D)时，计算的值，并将值计入适应度函数中。当POS_B(D)≠POS_c(D)时，适应度函数F定义如下所示：

设定种群大小为l，种群中每个染色体根据适应度函数F计算每个染色体的适应度函数值。

步骤2.2.3，根据赌轮盘的方式对染色体进行选择操作；

选择操作的目的是从种群中选择适应度较高的个体遗传到下一代，本发明中采用赌轮盘方法和最佳个体保存法。

假设规模为l的种群G＝{X₁,X₂,……,X_l}，染色体X_i∈G的适应度为F(X_i)，则每个染色体被选中的的概率P_i如下所示：

为了保证适应度值大的优个体更好地传给下一代，这里采用最佳个体保存法。最佳个体不参加交叉操作和变异操作，并将本代个体中最差的个体替换掉。在最优个体不止一个的情况下，随机选择一个最优个体替换最差个体。

交叉操作：采用随机单点交叉。对所有选中的染色体，随机两两配对；对每一对相互配对的染色，随机设置某一基因座后的位置为交叉点；对每一对相互配对的个体，以设定的交叉概率P_c，在其交叉点处相互交换两个个体的部分染色体，从而产生两个新的个体。

变异操作：采用基本位变异。如图3所示，对已被选中的每一个染色体，以变异概率P_m指定其变异点，将指定的变异点中的值变为除原值之外，在其取值范围内随机均匀分布的一个值，从而产生一个新的个体。

步骤2.2.5，以最优保存策略将最优个体复制到下一代群体中，并且保存最优个体。所述的最优保存策略采用现有方法，不再赘述。

步骤2.2.6，判断是否连续t代的最优个体适应度函数值不再提高，如果是则终止计算并输出最优个体；如果否则重复步骤2.2.2到步骤2.2.5，最终得到最优个体；通过个体的解码生成对应的概念样例模板集合Reduct_i(i＝1,2……n)。

步骤2.3，由于概念样例模板是用于决策的，因此本步骤中将含有概念样例模板集合的节点作为决策点，建立概念决策种树。

步骤三，确定含有缺失数据的物种在谱系种树中的位置

步骤3.1，针对含有缺失数据的物种，从概念决策种树的根决策点出发，通过物种属性与决策点的概念样例模板集合的匹配，对物种进行归属判断。

由于缺失数据的出现，在物种嫁接的过程中会使得某些概念样例模板失效，则可以依据该决策点的其他概念样例模板进行物种嫁接。每个决策点的物种嫁接算法流程如4所示。

当概念决策种树出现分支时，则判断物种归属于分支对应的哪一个子树(一个分支对应两个子树，为A子树和B子树)，并将所述物种对应地分到子树上。设决策种树的根决策点的概念样例模板共有K个；与A子树匹配的概念样例模板有m个；与B子树匹配的概念样例模板集合有n个，则判断物种归属于分支对应的哪一个子树的策略为：

通过对含有缺失数据物种与决策点中的每个概念样例模板匹配，如对应子树出现相同概念样例模板，则判定属于A子树或者属于B子树，并对概念样例模板进行累加。如果既不属于A子树也不属于B子树，或者因缺失数据而导致无法判断时，m和n不进行累加。在图4中，Q表示有缺失数据的物种对应概念样例模板的属性值集合；R表示A子树所属物种对应概念样例模板的属性值集合；L表示B子树所属物种对应概念样例模板的属性值集合；

步骤3.2，根据步骤3.1判定含有缺失数据的物种归属于A子树或B子树后，从归属子树的根决策点开始继续进行物种归属的判断；停止判断后，物种在种树中的位置搜索结束，最后将有缺失数据的物种嫁接在最终到达的决策点对应的谱系种树的节点上。

步骤四，古生物谱系树的构建

在嫁接的过程中，由于每个物种的缺失数据比例不同，为了谱系树的稳定性，本方案中按照物种属性完整程度从高到底的顺序逐个进行上述过程的嫁接，当所有物种都嫁接完成后，一颗完整的古生物谱系树构建完成。

进一步地，步骤四还包括：

通过重采样得到含有缺失数据的物种在谱系树中位置的可靠性。本方案中，采用bootstrap进行重采样。通过重采样过程，对上述过程得的含有缺失数据的物种在谱系树中的位置进行评估。具体方法是：

对原有的形态学数据进行随机的、可重复的抽样，形成新的大小与原数据相同的抽样信息，按照本发明方法进行重新计算，获得物种在谱系树中分支的可靠性。最后，比较物种在谱系树中某个位置的几率，几率越高说明物种在这个位置的可靠性越高。

为了验证本方法的有效性，本发明选取已发表论文中的生物形态学数据进行了实验验证：

实验选取陆龟科寄生种的生物形态学数据作为实验数据集。为了验证本文的方法，MP方法以及属性约简算法在构建含有缺失数据的生物谱系树的性能，对待嫁接物种的属性进行随机缺失处理。数据缺失比例分别为0％，10％，20％，30％，40％，50％，60％，70％。依次统计在此缺失比例下，三种算法对待嫁接物种谱系分析的准确率以及本文方法的稳定性，如图5，图6所示。

Claims

1.一种基于遗传属性约简的古生物谱系演化分析方法，其特征在于，包括以下步骤：

步骤一，建立一颗谱系种树；

2.如权利要求1所述的基于遗传属性约简的古生物谱系演化分析方法，其特征在于，步骤一种建立谱系种树的方法为，根据古生物学家的先验知识建立，或利用缺失数据比例在5％以下的数据建立。

3.如权利要求1所述的基于遗传属性约简的古生物谱系演化分析方法，其特征在于，步骤二中所述的概念样例模板集合的构造方法包括：

步骤2.2.1，种群初始化

步骤2.2.3，根据赌轮盘的方法对染色体进行选择操作；

通过个体的解码生成对应的概念样例模板集合。

4.如权利要求1所述的基于遗传属性约简的古生物谱系演化分析方法，其特征在于，步骤2.2.1种群初始化过程中，染色体编码的方式为：

5.如权利要求1所述的基于遗传属性约简的古生物谱系演化分析方法，其特征在于，步骤三中，由于存在缺失数据，在物种嫁接的过程中会使得某系概念样例模板失效，此时则依据该决策点的其他概念样例模板进行物种嫁接。

6.如权利要求1所述的基于遗传属性约简的古生物谱系演化分析方法，其特征在于，步骤三中，判断物种归属于分支对应的哪一个子树的策略为：