CN112288027B

CN112288027B - 异构多模态影像遗传学数据特征分析方法

Info

Publication number: CN112288027B
Application number: CN202011223328.1A
Authority: CN
Inventors: 郝小可; 王如雪; 师硕; 阎刚; 肖云佳; 李想; 谭麒豪; 安琦瑾
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-05-03
Anticipated expiration: 2040-11-05
Also published as: CN112288027A

Abstract

本发明异构多模态影像遗传学数据特征分析方法，同时考虑样本数据间的结构关系以及训练过程中样本的“难易程度”，采用样本加权和结构稀疏化对脑影像数据和基因数据进行特征分析。该方法采用自步学习机制，实现训练过程中样本由简单到复杂的自动增长，减小噪声对模型的影响。此外，在自步学习框架下，引入局部保留投影方法，有效保留样本空间下样本点内部固定的邻域结构，同时用L1范数约束投影矩阵作为正则化项，实现特征选择过程。最后利用多核支持向量机对选择后的特征进行融合分类，从而提高对疾病的诊断精度。本发明公开的方法能够有效地进行特征选择和分类。

Description

异构多模态影像遗传学数据特征分析方法

技术领域

本发明的技术方案涉及用于识别图形的方法，具体地说是异构多模态影像遗传学数据特征分析方法。

背景技术

阿尔茨海默病又称为老年痴呆，是一种常见的脑部退行性疾病，表现症状如记忆障碍、推理认知功能障碍、语言和运动障碍等，是当前危害老年人健康的重要疾病之一，病程发展缓慢且不可逆。根据认知模型的发展和功能受损的程度，阿尔茨海默病的发作可分为三个阶段：正常控制，轻度认知功能障碍和阿尔茨海默病。根据阿尔茨海默病的发病机理，尽早地发现和有效的治疗可以延缓疾病发病进程。大量研究表明，阿尔茨海默病与大脑的结构萎缩、新陈代谢改变、病理性淀粉样蛋白沉积有关。其中,常用的相关脑成像包括结构磁共振成像、功能磁共振成像、弥散张量成像和正电子发射断层扫描成像。与此同时,随着遗传学技术的发展,研究者们可以从更精细的分子水平(例如单核苷酸多态性)来寻找神经***疾病和精神疾病相关的遗传标记。

近年来，随着科技能力的不断创新，越来越多的研究倾向于对阿尔茨海默病的早期诊断，由于大脑具有非常复杂的结构和功能，因此从单个大脑中获取数据模态不能提供足够的特征信息以进行诊断。在影像遗传学中，不同模态之间能够提供必要的互补信息，例如，结构磁共振成像提供与脑组织类型有关的信息，而正电子发射断层扫描成像测量葡萄糖脑代谢率。因此融合多模态的数据能够发现单模态中无法发现的信息。近年来，随着神经影像技术和遗传学技术的发展，可以在采集过程中收集多模态数据各种科目检查，为阿尔茨海默病的诊断提供数据来源。

异构多模态影像遗传学数据的维度较高且包含的信息量较大，并不是所有的特征都对检测分析阿尔茨海默病有帮助。因此从脑部影像和基因数据所提供的大量特征中选择出与分类预测任务相关的特征，去掉冗余的或者与分类相关性低的特征是非常重要的研究工作。CN109770932A公开了一种多模态脑部神经影像特征的处理方法，该方法采用样本权重和低秩约束多模态特征选择方法对多模态数据进行特征分析。该方法没有考虑数据本身的“难易程度”，将简单普适的知识和复杂专业化的知识一概而论，在训练过程中将所有数据(包括噪声点或离群点)随机加入训练，不能有效的消除噪声样本对模型的影响。CN111462116A公开了一种基于影像组学特征的多模态参数模型优化融合方法，该方法对高维影像组学特征采用梯度降维得到低维影像组学特征，在降维过程中忽略了数据内部结构信息。

总之，在现有的阿尔茨海默病诊断分类技术中，目前的特征选择方法均存在无法更好地考虑样本之间的关系，容易对阿尔茨海默病诊断分类错误的缺陷，精度有待进一步提高。

发明内容

本发明的技术任务是针对以上不足，提供异构多模态影像遗传学数据特征分析方法，同时考虑样本数据间的结构关系以及训练过程中样本的“难易程度”，采用样本加权和结构稀疏化对脑影像数据和基因数据进行特征分析，将特征权重矩阵作为降维过程中的投影矩阵，采用稀疏化对特征权重矩阵和投影矩阵同时约束。该方法采用自步学习机制，实现训练过程中样本由简单到复杂的自动增长，减小噪声对模型的影响。此外，在自步学习框架下，引入局部保留投影方法，有效保留样本空间下样本点内部固定的邻域结构，同时用L1范数约束投影矩阵作为正则化项，实现特征选择过程。最后利用多核支持向量机对选择后的特征进行融合分类，从而提高对疾病的诊断精度。本发明公开的方法能够有效地进行特征选择和分类。

上文中，“自步学习”的英文为“Self-paced learning”,即SPL,“局部保留投影”的英文为“Locality Preserving Projections”,即LPP，“结构化稀疏”的英文为“StructuredSparsity”，即SS,因此本发明涉及到的异构多模态影像遗传学特征选择方法以下可简称为“SPLPS”。

本发明解决该技术问题所采用的技术方案是：

一种异构多模态影像遗传学数据特征分析方法，该特征分析方法包括以下内容：

获取某类脑疾病样本异构多模态预处理后的数据，包括基因数据和不同模态的影像数据，获得每个样本在每个模态下的数据；

对异构多模态预处理后的数据进行多模态联合特征选择，特征选择目标函数为公式(1)：

公式(1)中，n为样本的个数，M为模态的个数，

表示第i个样本第m个模态对应的特征列向量，给定第m个模态的训练集

d表示特征的维度,yi表示第i个样本对应的类别标签，Y＝[y¹,…,yi,…,yn]^T∈Rn表示n个样本对应的标签向量，wm为第m个模态的权重向量，vm∈Rn为第m个模态自步样本权重向量；λ为约束特征稀疏的正则化参数，μ为约束样本多模态关联的正则化参数；

其中

k^′为辅助参数，k^′>k>0，vi为第i个样本的自步样本权重向量；Km为刻画样本点邻近关系的权值矩阵，权值矩阵中每个元素

表示第m个模态样本之间的邻近关系，采用局部保留投影方式有效的保留样本空间下样本点的邻域结构，当

不为0时，表示第i个样本和第j个样本之间存在k邻近关系，否则表示第i个样本和第j个样本之间不存在k邻近关系，

交替计算变量wm和vm，对上述目标函数进行优化求解；

对获得的解中选出权重非零的权重向量wm所对应的特征，进而确定病变脑区位置和相关病变基因，完成异构多模态影像遗传学数据特征分析。

异构多模态影像遗传学数据特征分析方法，是使用SPLPS的异构多模态影像遗传学特征选择方法进行生物标志物的挖掘，再使用多核支持向量机进行融合分类，具体步骤如下：

第一步，异构多模态影像遗传学数据预处理：

第1.1步，神经影像数据预处理：

对于将预处理的同构多模态影像数据(基于体素的形态测量学处理的磁共振影像,氟脱氧葡萄糖-正电子发射断层扫描影像,F-18荧光淀粉样蛋白-正电子发射断层成像(F-18荧光淀粉样蛋白-正电子发射断层成像能有效显示活体内神经炎性斑块含量.淀粉样蛋白正电子发射断层成像在阿尔茨海默病早期诊断中有一定的应用价值))与同一次访问扫描进行比对，然后，在标准的蒙特利尔神经研究所(MNI)空间中作为2×2×2mm³体素，创建了归一化的灰质密度，根据磁共振影像数据进行映射，并通过统计参数映射SPM软件包将氟脱氧葡萄糖-正电子发射断层扫描和F-18荧光淀粉样蛋白-正电子发射断层扫描配准到相同的空间，然后对116个感兴趣区域进行测量，进一步提取氟脱氧葡萄糖-正电子发射断层扫描葡萄糖代谢率、基于体素的形态测量学处理的磁共振影像的灰度密度以及F-18荧光正电子发射断层扫描淀粉样蛋白成像的淀粉样蛋白沉积特征，在移除小脑后，将每种同构多模态成像的90个感兴趣区域的成像测量值用作特征；

第1.2步，基因数据预处理：

对于将预处理的来自ADNI数据库的基因数据(单核苷酸多态性)，APOE(位于19号染色体上)作为风险基因与神经元的发育，大脑的可塑性以及修复相关，通过ANNOVR注释信息对APOE基因边界±20kbp的单核苷酸多态性进行研究，其中包含了85个单核苷酸多态性基因位点,单核苷酸多态性的值采用最小等位基因的个数0、1、2的加性编码方式；

由此完成异构多模态影像遗传学数据预处理；

第二步，使用SPLPS的异构多模态特征选择方法进行特征分析：

将第一步中得到的每个样本每个模态的数据作为输入，进行多模态的联合特征选择；特征选择目标公式为：

公式(1)中，n为样本的个数，M为模态的个数，

d表示特征的维度,yⁱ表示第i个样本对应的类别标签，Y＝[y¹,…,yⁱ,…,yⁿ]^T∈Rⁿ表示n个样本对应的标签向量，w_m为第m个模态的权重向量，v_m∈Rⁿ为自步样本权重向量，矩阵中每个元素

表示第m个模态样本之间的邻近关系，采用局部保留投影方法有效的保留样本空间下样本点的邻域结构，当

不为0时，表示第i个样本和第j个样本之间存在k邻近关系，否则表示第i个样本和第j个样本之间不存在k邻近关系，用以下公式描述：

公式(2)中，不失一般性,参数σ可取1，K_m为刻画样本点邻近关系的权值矩阵，

λ为约束特征稀疏的正则化参数，μ为约束样本多模态关联的正则化参数，由此完成使用SPLPS的异构多模态特征选择方法进行特征分析；

第三步，优化目标函数、求解w_m和v_m：对第二步中的公式(1)目标函数进行优化，可以采用交替结构变量进行求解，

第3.1步，固定v_m优化w_m：此时的目标函数为：

对公式(3)第一项作如下变换：

则公式(3)第一项可转化为:

对公式(3)第三项，可设

则公式(3)可转化为

公式(5)中，

为第m个模态的超图拉普拉斯矩阵，

此时目标公式转化为：

定义一个矩阵P_m，

为矩阵P_m的对角元素：

为w_m的第i行，也就是第i个样本的第m个模态的权重向量，可得

“2”和“λ”都是系数，将两者合并在一起，将系数“2”纳入系数“λ”中，目标函数转化为：

对公式(9)求导，并令导数为0，可得

第3.2步固定w_m优化v_m：

此时目标函数为：

公式(11)中，

其中

k′为辅助参数，k′>k>0，

公式(11)对vⁱ求导得

公式(12)中，l_im表示损失函数：

其中i表示第i个样本，m表示第m个模态，则通过上式可得vⁱ的解为

由此完成交替计算变量w_m和v_m的求解；

第四步，特征选择：

对目标函数求解选择出对应权重非零的特征；

第五步，多核支持向量机融合：

第5.1步，对每一个模态分别计算出其核矩阵,第m个模态的线性核函数为

第5.2步，在[0,1]范围内利用网格搜索每一个模态的融合系数，并采用十折交叉验证方法找到分类效果最好的融合系数ρ_m；

第5.3步，对多模态核函数进行融合之后，得到

由此可以得到多核支持向量机的对偶形式；

α_i≥0,i＝1,2,…,n (14),公式(14)中，α_i为第i个样本的拉格朗日乘子，由此完成多核支持向量机融合训练；

第六步，分类与预测：

将第五步训练得到的参数α_i代入到下面的公式(15)中，对于一个给定的新的测试样本x⁰，决定样本标签的决策函数定义如公式(15)所示，

公式(15)中，sign()为符号函数，b为偏置，f(x⁰)的值即为新的测试样本x⁰的预测结果；

至此完成使用SPLPS的异构多模态影像遗传学数据特征分析方法进行特征选择，并使用多核支持向量机方法分类进行异构多模态影像遗传学特征的处理。

本发明采用以上技术方案与现有技术相比，本发明的突出的实质性特点和显著进步如下：

(1)本发明方法提出一种有效的异构多模态影像遗传学数据特征分析方法，可以同时考虑样本数据间的结构关系以及训练过程中样本的“难易程度”，即采用样本加权和低秩约束的异构多模态影像遗传学特征选择方法对多模态的数据进行特征选择，首先利用L1范数对特征进行约束，同时采用局部保留投影方法，将特征权重矩阵作为局部保留投影降维过程中的投影矩阵，有效的保留样本空间下样本点的邻域结构，然后采用自步学习的机制，在训练过程中，考虑样本的“难易程度”，实现样本的自动增长。基于样本权重和低秩约束的SPLPS特征选择方法，能够在特征选择的过程中同时考虑样本点邻域结构和样本的差异性(难易程度)，通过考虑样本难易程度(置信度)判断是否加入下一次迭代过程，在迭代过程中首先选择高置信度的“简单”样本，然后逐步加入“困难”样本，通过这种特殊的训练模式和L1正则化项来避免噪声点或离群点对模型的影响，选择出判别性较强的特征，达到更好的分类预测效果。

(2)本发明采用SPLPS方法，相比于其他特征选择方法，通过构造样本点k邻近关系来刻画样本间的高阶关系，充分利用样本之间的这种先验分布知识，充分利用了每个模态数据的内部信息，保留了样本之间原有的邻域关系，有利于选择更具有判别性的特征，提高了分类预测的准确率。

(3)本发明方法在训练过程中考虑到了样本数据之间的“难易程度”，采用自步学习策略实现样本由“简单”到“复杂”的选取过程，可以实现样本的自动增长。

(4)本发明方法不仅采用正则化项来减小噪声点或离群值点对模型的影响，而且加入样本的置信度来消除一些噪声样本提高了模型的鲁棒性。

(5)CN109770932A公开了一种多模态脑部神经影像特征的处理方法，该方法采用样本权重和低秩约束多模态特征选择方法对多模态数据进行特征分析。该方法没有考虑数据本身的“难易程度”，将简单普适的知识和复杂专业化的知识一概而论，在训练过程中将所有数据(包括噪声点或离群点)随机加入训练，不能有效的消除噪声样本对模型的影响。与CN109770932A相比，本发明方法通过考虑样本置信度判断样本是否加入下一次迭代过程，在迭代过程中首先选择高置信度的“简单”样本，然后逐步加入“困难”样本，以样本自增长的训练方式和正则化项来避免噪声点或离群点对模型的影响，使整个算法更具有鲁棒性。

(6)CN111462116A公开了一种基于影像组学特征的多模态参数模型优化融合方法，该方法对高维影像组学特征采用梯度降维得到低维影像组学特征，在降维过程中忽略了数据内部结构信息。与CN111462116A相比，本发明方法通过局部保留投影方法构建空间各样本对之间的远近亲疏关系，并在投影中保持这种关系，可以在降维的同时保留空间中样本的局部邻域关系，提供更加丰富信息。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明方法基于SPLPS方法和多核支持向量机进行多模态影像遗传学数据的处理流程示意图。

具体实施方式

图1所示实施例表明，本发明方法基于SPLPS特征选择方法和多核支持向量机进行异构多模态影像遗传学数据特征分析处理流程是：异构多模态影像遗传学数据预处理→使用SPLPS的异构多模态特征选择方法进行特征分析→目标函数优化、求解w_m和v_m→特征选择→多核支持向量机融合→分类与预测。

实施例

本实施例的异构多模态影像遗传学数据特征分析方法，是使用SPLPS的异构多模态影像遗传学特征选择方法进行生物标志物的挖掘，再使用多核支持向量机进行融合分类，具体步骤如下：

第一步，异构多模态影像遗传学数据预处理：

第1.1步，神经影像数据预处理：

对于将预处理的同构多模态影像数据(基于体素的形态测量学处理的磁共振影像,氟脱氧葡萄糖-正电子发射断层扫描影像,F-18荧光淀粉样蛋白-正电子发射断层成像(F-18荧光淀粉样蛋白-正电子发射断层成像能有效显示活体内神经炎性斑块含量.淀粉样蛋白正电子发射断层成像在阿尔茨海默病早期诊断中有一定的应用价值))与同一次访问扫描进行比对，然后，在标准的蒙特利尔神经研究所(MNI)空间中作为2×2×2mm³体素，我们创建了归一化的灰质密度，根据磁共振影像数据进行映射，并通过统计参数映射SPM软件包将氟脱氧葡萄糖-正电子发射断层扫描和F-18荧光淀粉样蛋白-正电子发射断层扫描配准到相同的空间，然后对116个感兴趣区域进行测量，进一步提取氟脱氧葡萄糖-正电子发射断层扫描葡萄糖代谢率、基于体素的形态测量学处理的磁共振影像的灰度密度以及F-18荧光正电子发射断层扫描淀粉样蛋白成像的淀粉样蛋白沉积特征，在移除小脑后，将每种同构多模态成像的90个感兴趣区域的成像测量值用作特征；

第1.2步，基因数据预处理：

由此完成异构多模态影像遗传学数据预处理；

公式(1)中，n为样本的个数，M为模态的个数，

d表示特征的维度,yⁱ表示第i个样本对应的类别标签，Y＝[y¹,…,yⁱ,…,yⁿ]^T∈Rⁿ表示n个样本对应的标签向量，w_n为第m个模态的权重向量，v_m∈Rⁿ为自步样本权重向量，矩阵中每个元素

不为0时，表示第i个样本和第j个样本之间存在k邻近关系，否则表示第i个样本和第j个样本之间不存在k邻近(k邻近描述特征空间中样本点之间的结构关系，这里的k是一个常数，表示的含义是找出与样本点欧氏距离最近的k个样本点)关系，用以下公式描述：

λ为约束特征稀疏的正则化参数，μ为约束样本多模态关联的正则化参数，由此完成使用SPLPS的异构多模态特征选择方法进行特征分析，

第3.1步，固定v_m优化w_m：此时的目标函数为：

对公式(3)第一项作如下变换：

则公式(3)第一项可转化为:

对公式(3)第三项，可设

则公式(3)可转化为

公式(5)中，

为D_m的第i行第i列,

为第m个模态的超图拉普拉斯矩阵，

此时目标公式转化为：

定义一个矩阵P，

为矩阵P_m的对角元素：

为w_m的第i行，可得

这里“2”和“λ”都是系数，可以将两者合并到一起，将系数“2”纳入系数“λ”中，则目标函数转化为：

对公式(9)求导，并令导数为0，可得

第3.2步固定w_m优化v_m：

此时目标函数为：

公式(11)中，

其中

k′为辅助参数，k′>k>0，

公式(11)对vⁱ求导得

公式(12)中，l为损失函数矩阵，l_im表示损失函数：

由此完成交替计算变量w_m和v_m的求解；在本实例中，M＝4,n＝371,神经影像模态中w_m初始化为一个大小116×1的随机向量，基因模态中w_m初始化为一个大小85×1的随机向量；设置k邻近k＝5，σ＝1；优化后λ＝10^-1，μ＝10；

第四步，特征选择：

对目标函数求解选择出对应权重非零的特征；

第五步，多核支持向量机融合：

第5.3步，对多模态核函数进行融合之后，得到

由此可以得到多核支持向量机的对偶形式；

α_i≥0,i＝1,2,…,n (14),

公式(14)中，α_i为第i个样本的拉格朗日乘子，由此完成多核支持向量机融合训练；

第六步，分类与预测：

本实施例中在构造样本点邻近关系的权值矩阵时，k邻近中k值的选择很重要，k值过小不足以刻画样本点的结构关系，k值过大则刻画的k邻近关系中可能会包含不同的类，对结果造成影响，通过对不同k值进行实验验证，本实施例选择最佳k值为5来有效的保留样本空间下样本点的邻域结构，提高特征挖掘的精度。本实施例中分类精度达到95％以上。

本发明充分分析样本对分类模型的重要性以及平衡样本邻居数与分类模型间的关系，通过自步学习对样本加权(即引入自步样本权重向量v)，在迭代过程中根据置信度对样本进行排序，先选择高置信度的“简单”样本，即损失函数值小的样本，然后逐步加入“困难”样本，选择样本的同时求解样本权重v_m，并通过对局部保持投影中k邻近不同k值进行实验验证，选择最佳k值显著提高特征病变脑区位置和相关病变基因的挖掘精度，提高分类预测的精度。

本发明未述及之处适用于现有技术。

Claims

1.一种异构多模态影像遗传学数据特征分析方法，其特征在于，该特征分析方法包括以下内容：

公式(1)中，n为样本的个数，M为模态的个数，

d表示特征的维度，yⁱ表示第i个样本对应的类别标签，Y＝[y¹，…，yⁱ，…，yⁿ]^T∈Rⁿ表示n个样本对应的标签向量，w_m为第m个模态的权重向量，v_m∈Rⁿ为第m个模态自步样本权重向量；λ为约束特征稀疏的正则化参数，μ为约束样本多模态关联的正则化参数；

其中

为辅助参数，k′＞k＞0，vⁱ为第i个样本的自步样本权重向量；K_m为刻画样本点邻近关系的权值矩阵，权值矩阵中每个元素

交替计算变量w_m和v_m，对上述目标函数进行优化求解；

对获得的解中选出权重非零的权重向量w_m所对应的特征，完成异构多模态影像遗传学数据特征分析。

2.根据权利要求1所述的分析方法，其特征在于，所述多模态影像数据包括基于体素的形态测量学处理的磁共振影像、氟脱氧葡萄糖-正电子发射断层扫描影像、F-18荧光淀粉样蛋白-正电子发射断层成像；所述基因数据包括来自ADNI数据库的基因数据和APOE。

3.根据权利要求1所述的分析方法，其特征在于，用于进行生物标志物的挖掘，获得特征向量，将样本标签以及特征选择后获得的异构多模态特征向量输入到多核支持向量机中，进行分类预测。

4.一种异构多模态影像遗传学数据特征分析方法，其特征在于，使用SPLPS的异构多模态影像遗传学特征选择方法进行生物标志物的挖掘，再使用多核支持向量机进行融合分类，具体步骤是：

第一步，异构多模态影像遗传学数据预处理：

第1.1步，神经影像数据预处理：

对于将预处理的同构多模态影像数据与同一次访问扫描进行比对，所述同构多模态影像数据包括基于体素的形态测量学处理的磁共振影像、氟脱氧葡萄糖-正电子发射断层扫描影像、F-18荧光淀粉样蛋白-正电子发射断层成像；然后，在标准的蒙特利尔神经研究所空间中作为2×2×2mm³体素，创建了归一化的灰质密度，根据磁共振影像数据进行映射，并通过统计参数映射SPM软件包将氟脱氧葡萄糖-正电子发射断层扫描和F-18荧光淀粉样蛋白-正电子发射断层扫描配准到相同的空间，然后对116个感兴趣区域进行测量，进一步提取氟脱氧葡萄糖-正电子发射断层扫描葡萄糖代谢率、基于体素的形态测量学处理的磁共振影像的灰度密度以及F-18荧光正电子发射断层扫描淀粉样蛋白成像的淀粉样蛋白沉积特征，在移除小脑后，将每种同构多模态成像的90个感兴趣区域的成像测量值用作特征；

第1.2步，基因数据预处理：

对于将预处理的来自ADNI数据库的基因数据、APOE作为风险基因与神经元的发育、大脑的可塑性以及修复相关，通过ANNOVR注释信息对APOE基因边界±20kbp的单核苷酸多态性进行研究，其中包含了85个单核苷酸多态性基因位点，单核苷酸多态性的值采用最小等位基因的个数0、1、2的加性编码方式；

由此完成异构多模态影像遗传学数据预处理；

将第一步中得到的每个样本每个模态的数据作为输入，进行多模态的联合特征选择；特征选择目标函数公式为：