CN112288027B - 异构多模态影像遗传学数据特征分析方法 - Google Patents
异构多模态影像遗传学数据特征分析方法 Download PDFInfo
- Publication number
- CN112288027B CN112288027B CN202011223328.1A CN202011223328A CN112288027B CN 112288027 B CN112288027 B CN 112288027B CN 202011223328 A CN202011223328 A CN 202011223328A CN 112288027 B CN112288027 B CN 112288027B
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- modal
- mode
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Biochemistry (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Ecology (AREA)
- Library & Information Science (AREA)
- Physiology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Image Analysis (AREA)
Abstract
本发明异构多模态影像遗传学数据特征分析方法,同时考虑样本数据间的结构关系以及训练过程中样本的“难易程度”,采用样本加权和结构稀疏化对脑影像数据和基因数据进行特征分析。该方法采用自步学习机制,实现训练过程中样本由简单到复杂的自动增长,减小噪声对模型的影响。此外,在自步学习框架下,引入局部保留投影方法,有效保留样本空间下样本点内部固定的邻域结构,同时用L1范数约束投影矩阵作为正则化项,实现特征选择过程。最后利用多核支持向量机对选择后的特征进行融合分类,从而提高对疾病的诊断精度。本发明公开的方法能够有效地进行特征选择和分类。
Description
技术领域
本发明的技术方案涉及用于识别图形的方法,具体地说是异构多模态影像遗传学数据特征分析方法。
背景技术
阿尔茨海默病又称为老年痴呆,是一种常见的脑部退行性疾病,表现症状如记忆障碍、推理认知功能障碍、语言和运动障碍等,是当前危害老年人健康的重要疾病之一,病程发展缓慢且不可逆。根据认知模型的发展和功能受损的程度,阿尔茨海默病的发作可分为三个阶段:正常控制,轻度认知功能障碍和阿尔茨海默病。根据阿尔茨海默病的发病机理,尽早地发现和有效的治疗可以延缓疾病发病进程。大量研究表明,阿尔茨海默病与大脑的结构萎缩、新陈代谢改变、病理性淀粉样蛋白沉积有关。其中,常用的相关脑成像包括结构磁共振成像、功能磁共振成像、弥散张量成像和正电子发射断层扫描成像。与此同时,随着遗传学技术的发展,研究者们可以从更精细的分子水平(例如单核苷酸多态性)来寻找神经***疾病和精神疾病相关的遗传标记。
近年来,随着科技能力的不断创新,越来越多的研究倾向于对阿尔茨海默病的早期诊断,由于大脑具有非常复杂的结构和功能,因此从单个大脑中获取数据模态不能提供足够的特征信息以进行诊断。在影像遗传学中,不同模态之间能够提供必要的互补信息,例如,结构磁共振成像提供与脑组织类型有关的信息,而正电子发射断层扫描成像测量葡萄糖脑代谢率。因此融合多模态的数据能够发现单模态中无法发现的信息。近年来,随着神经影像技术和遗传学技术的发展,可以在采集过程中收集多模态数据各种科目检查,为阿尔茨海默病的诊断提供数据来源。
异构多模态影像遗传学数据的维度较高且包含的信息量较大,并不是所有的特征都对检测分析阿尔茨海默病有帮助。因此从脑部影像和基因数据所提供的大量特征中选择出与分类预测任务相关的特征,去掉冗余的或者与分类相关性低的特征是非常重要的研究工作。CN109770932A公开了一种多模态脑部神经影像特征的处理方法,该方法采用样本权重和低秩约束多模态特征选择方法对多模态数据进行特征分析。该方法没有考虑数据本身的“难易程度”,将简单普适的知识和复杂专业化的知识一概而论,在训练过程中将所有数据(包括噪声点或离群点)随机加入训练,不能有效的消除噪声样本对模型的影响。CN111462116A公开了一种基于影像组学特征的多模态参数模型优化融合方法,该方法对高维影像组学特征采用梯度降维得到低维影像组学特征,在降维过程中忽略了数据内部结构信息。
总之,在现有的阿尔茨海默病诊断分类技术中,目前的特征选择方法均存在无法更好地考虑样本之间的关系,容易对阿尔茨海默病诊断分类错误的缺陷,精度有待进一步提高。
发明内容
本发明的技术任务是针对以上不足,提供异构多模态影像遗传学数据特征分析方法,同时考虑样本数据间的结构关系以及训练过程中样本的“难易程度”,采用样本加权和结构稀疏化对脑影像数据和基因数据进行特征分析,将特征权重矩阵作为降维过程中的投影矩阵,采用稀疏化对特征权重矩阵和投影矩阵同时约束。该方法采用自步学习机制,实现训练过程中样本由简单到复杂的自动增长,减小噪声对模型的影响。此外,在自步学习框架下,引入局部保留投影方法,有效保留样本空间下样本点内部固定的邻域结构,同时用L1范数约束投影矩阵作为正则化项,实现特征选择过程。最后利用多核支持向量机对选择后的特征进行融合分类,从而提高对疾病的诊断精度。本发明公开的方法能够有效地进行特征选择和分类。
上文中,“自步学习”的英文为“Self-paced learning”,即SPL,“局部保留投影”的英文为“Locality Preserving Projections”,即LPP,“结构化稀疏”的英文为“StructuredSparsity”,即SS,因此本发明涉及到的异构多模态影像遗传学特征选择方法以下可简称为“SPLPS”。
本发明解决该技术问题所采用的技术方案是:
一种异构多模态影像遗传学数据特征分析方法,该特征分析方法包括以下内容:
获取某类脑疾病样本异构多模态预处理后的数据,包括基因数据和不同模态的影像数据,获得每个样本在每个模态下的数据;
对异构多模态预处理后的数据进行多模态联合特征选择,特征选择目标函数为公式(1):
公式(1)中,n为样本的个数,M为模态的个数,表示第i个样本第m个模态对应的特征列向量,给定第m个模态的训练集d表示特征的维度,yi表示第i个样本对应的类别标签,Y=[y1,…,yi,…,yn]T∈Rn表示n个样本对应的标签向量,wm为第m个模态的权重向量,vm∈Rn为第m个模态自步样本权重向量;λ为约束特征稀疏的正则化参数,μ为约束样本多模态关联的正则化参数;其中k′为辅助参数,k′>k>0,vi为第i个样本的自步样本权重向量;Km为刻画样本点邻近关系的权值矩阵,权值矩阵中每个元素表示第m个模态样本之间的邻近关系,采用局部保留投影方式有效的保留样本空间下样本点的邻域结构,当不为0时,表示第i个样本和第j个样本之间存在k邻近关系,否则表示第i个样本和第j个样本之间不存在k邻近关系,
交替计算变量wm和vm,对上述目标函数进行优化求解;
对获得的解中选出权重非零的权重向量wm所对应的特征,进而确定病变脑区位置和相关病变基因,完成异构多模态影像遗传学数据特征分析。
异构多模态影像遗传学数据特征分析方法,是使用SPLPS的异构多模态影像遗传学特征选择方法进行生物标志物的挖掘,再使用多核支持向量机进行融合分类,具体步骤如下:
第一步,异构多模态影像遗传学数据预处理:
第1.1步,神经影像数据预处理:
对于将预处理的同构多模态影像数据(基于体素的形态测量学处理的磁共振影像,氟脱氧葡萄糖-正电子发射断层扫描影像,F-18荧光淀粉样蛋白-正电子发射断层成像(F-18荧光淀粉样蛋白-正电子发射断层成像能有效显示活体内神经炎性斑块含量.淀粉样蛋白正电子发射断层成像在阿尔茨海默病早期诊断中有一定的应用价值))与同一次访问扫描进行比对,然后,在标准的蒙特利尔神经研究所(MNI)空间中作为2×2×2mm3体素,创建了归一化的灰质密度,根据磁共振影像数据进行映射,并通过统计参数映射SPM软件包将氟脱氧葡萄糖-正电子发射断层扫描和F-18荧光淀粉样蛋白-正电子发射断层扫描配准到相同的空间,然后对116个感兴趣区域进行测量,进一步提取氟脱氧葡萄糖-正电子发射断层扫描葡萄糖代谢率、基于体素的形态测量学处理的磁共振影像的灰度密度以及F-18荧光正电子发射断层扫描淀粉样蛋白成像的淀粉样蛋白沉积特征,在移除小脑后,将每种同构多模态成像的90个感兴趣区域的成像测量值用作特征;
第1.2步,基因数据预处理:
对于将预处理的来自ADNI数据库的基因数据(单核苷酸多态性),APOE(位于19号染色体上)作为风险基因与神经元的发育,大脑的可塑性以及修复相关,通过ANNOVR注释信息对APOE基因边界±20kbp的单核苷酸多态性进行研究,其中包含了85个单核苷酸多态性基因位点,单核苷酸多态性的值采用最小等位基因的个数0、1、2的加性编码方式;
由此完成异构多模态影像遗传学数据预处理;
第二步,使用SPLPS的异构多模态特征选择方法进行特征分析:
将第一步中得到的每个样本每个模态的数据作为输入,进行多模态的联合特征选择;特征选择目标公式为:
公式(1)中,n为样本的个数,M为模态的个数,表示第i个样本第m个模态对应的特征列向量,给定第m个模态的训练集d表示特征的维度,yi表示第i个样本对应的类别标签,Y=[y1,…,yi,…,yn]T∈Rn表示n个样本对应的标签向量,wm为第m个模态的权重向量,vm∈Rn为自步样本权重向量,矩阵中每个元素表示第m个模态样本之间的邻近关系,采用局部保留投影方法有效的保留样本空间下样本点的邻域结构,当不为0时,表示第i个样本和第j个样本之间存在k邻近关系,否则表示第i个样本和第j个样本之间不存在k邻近关系,用以下公式描述:
公式(2)中,不失一般性,参数σ可取1,Km为刻画样本点邻近关系的权值矩阵, λ为约束特征稀疏的正则化参数,μ为约束样本多模态关联的正则化参数,由此完成使用SPLPS的异构多模态特征选择方法进行特征分析;
第三步,优化目标函数、求解wm和vm:对第二步中的公式(1)目标函数进行优化,可以采用交替结构变量进行求解,
第3.1步,固定vm优化wm:此时的目标函数为:
对公式(3)第一项作如下变换:
则公式(3)第一项可转化为:
对公式(3)第三项,可设
则公式(3)可转化为
此时目标公式转化为:
对公式(9)求导,并令导数为0,可得
第3.2步固定wm优化vm:
此时目标函数为:
公式(11)对vi求导得
由此完成交替计算变量wm和vm的求解;
第四步,特征选择:
对目标函数求解选择出对应权重非零的特征;
第五步,多核支持向量机融合:
第5.2步,在[0,1]范围内利用网格搜索每一个模态的融合系数,并采用十折交叉验证方法找到分类效果最好的融合系数ρm;
αi≥0,i=1,2,…,n (14),公式(14)中,αi为第i个样本的拉格朗日乘子,由此完成多核支持向量机融合训练;
第六步,分类与预测:
将第五步训练得到的参数αi代入到下面的公式(15)中,对于一个给定的新的测试样本x0,决定样本标签的决策函数定义如公式(15)所示,
公式(15)中,sign()为符号函数,b为偏置,f(x0)的值即为新的测试样本x0的预测结果;
至此完成使用SPLPS的异构多模态影像遗传学数据特征分析方法进行特征选择,并使用多核支持向量机方法分类进行异构多模态影像遗传学特征的处理。
本发明采用以上技术方案与现有技术相比,本发明的突出的实质性特点和显著进步如下:
(1)本发明方法提出一种有效的异构多模态影像遗传学数据特征分析方法,可以同时考虑样本数据间的结构关系以及训练过程中样本的“难易程度”,即采用样本加权和低秩约束的异构多模态影像遗传学特征选择方法对多模态的数据进行特征选择,首先利用L1范数对特征进行约束,同时采用局部保留投影方法,将特征权重矩阵作为局部保留投影降维过程中的投影矩阵,有效的保留样本空间下样本点的邻域结构,然后采用自步学习的机制,在训练过程中,考虑样本的“难易程度”,实现样本的自动增长。基于样本权重和低秩约束的SPLPS特征选择方法,能够在特征选择的过程中同时考虑样本点邻域结构和样本的差异性(难易程度),通过考虑样本难易程度(置信度)判断是否加入下一次迭代过程,在迭代过程中首先选择高置信度的“简单”样本,然后逐步加入“困难”样本,通过这种特殊的训练模式和L1正则化项来避免噪声点或离群点对模型的影响,选择出判别性较强的特征,达到更好的分类预测效果。
(2)本发明采用SPLPS方法,相比于其他特征选择方法,通过构造样本点k邻近关系来刻画样本间的高阶关系,充分利用样本之间的这种先验分布知识,充分利用了每个模态数据的内部信息,保留了样本之间原有的邻域关系,有利于选择更具有判别性的特征,提高了分类预测的准确率。
(3)本发明方法在训练过程中考虑到了样本数据之间的“难易程度”,采用自步学习策略实现样本由“简单”到“复杂”的选取过程,可以实现样本的自动增长。
(4)本发明方法不仅采用正则化项来减小噪声点或离群值点对模型的影响,而且加入样本的置信度来消除一些噪声样本提高了模型的鲁棒性。
(5)CN109770932A公开了一种多模态脑部神经影像特征的处理方法,该方法采用样本权重和低秩约束多模态特征选择方法对多模态数据进行特征分析。该方法没有考虑数据本身的“难易程度”,将简单普适的知识和复杂专业化的知识一概而论,在训练过程中将所有数据(包括噪声点或离群点)随机加入训练,不能有效的消除噪声样本对模型的影响。与CN109770932A相比,本发明方法通过考虑样本置信度判断样本是否加入下一次迭代过程,在迭代过程中首先选择高置信度的“简单”样本,然后逐步加入“困难”样本,以样本自增长的训练方式和正则化项来避免噪声点或离群点对模型的影响,使整个算法更具有鲁棒性。
(6)CN111462116A公开了一种基于影像组学特征的多模态参数模型优化融合方法,该方法对高维影像组学特征采用梯度降维得到低维影像组学特征,在降维过程中忽略了数据内部结构信息。与CN111462116A相比,本发明方法通过局部保留投影方法构建空间各样本对之间的远近亲疏关系,并在投影中保持这种关系,可以在降维的同时保留空间中样本的局部邻域关系,提供更加丰富信息。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明方法基于SPLPS方法和多核支持向量机进行多模态影像遗传学数据的处理流程示意图。
具体实施方式
图1所示实施例表明,本发明方法基于SPLPS特征选择方法和多核支持向量机进行异构多模态影像遗传学数据特征分析处理流程是:异构多模态影像遗传学数据预处理→使用SPLPS的异构多模态特征选择方法进行特征分析→目标函数优化、求解wm和vm→特征选择→多核支持向量机融合→分类与预测。
实施例
本实施例的异构多模态影像遗传学数据特征分析方法,是使用SPLPS的异构多模态影像遗传学特征选择方法进行生物标志物的挖掘,再使用多核支持向量机进行融合分类,具体步骤如下:
第一步,异构多模态影像遗传学数据预处理:
第1.1步,神经影像数据预处理:
对于将预处理的同构多模态影像数据(基于体素的形态测量学处理的磁共振影像,氟脱氧葡萄糖-正电子发射断层扫描影像,F-18荧光淀粉样蛋白-正电子发射断层成像(F-18荧光淀粉样蛋白-正电子发射断层成像能有效显示活体内神经炎性斑块含量.淀粉样蛋白正电子发射断层成像在阿尔茨海默病早期诊断中有一定的应用价值))与同一次访问扫描进行比对,然后,在标准的蒙特利尔神经研究所(MNI)空间中作为2×2×2mm3体素,我们创建了归一化的灰质密度,根据磁共振影像数据进行映射,并通过统计参数映射SPM软件包将氟脱氧葡萄糖-正电子发射断层扫描和F-18荧光淀粉样蛋白-正电子发射断层扫描配准到相同的空间,然后对116个感兴趣区域进行测量,进一步提取氟脱氧葡萄糖-正电子发射断层扫描葡萄糖代谢率、基于体素的形态测量学处理的磁共振影像的灰度密度以及F-18荧光正电子发射断层扫描淀粉样蛋白成像的淀粉样蛋白沉积特征,在移除小脑后,将每种同构多模态成像的90个感兴趣区域的成像测量值用作特征;
第1.2步,基因数据预处理:
对于将预处理的来自ADNI数据库的基因数据(单核苷酸多态性),APOE(位于19号染色体上)作为风险基因与神经元的发育,大脑的可塑性以及修复相关,通过ANNOVR注释信息对APOE基因边界±20kbp的单核苷酸多态性进行研究,其中包含了85个单核苷酸多态性基因位点,单核苷酸多态性的值采用最小等位基因的个数0、1、2的加性编码方式;
由此完成异构多模态影像遗传学数据预处理;
第二步,使用SPLPS的异构多模态特征选择方法进行特征分析:
将第一步中得到的每个样本每个模态的数据作为输入,进行多模态的联合特征选择;特征选择目标公式为:
公式(1)中,n为样本的个数,M为模态的个数,表示第i个样本第m个模态对应的特征列向量,给定第m个模态的训练集d表示特征的维度,yi表示第i个样本对应的类别标签,Y=[y1,…,yi,…,yn]T∈Rn表示n个样本对应的标签向量,wn为第m个模态的权重向量,vm∈Rn为自步样本权重向量,矩阵中每个元素表示第m个模态样本之间的邻近关系,采用局部保留投影方法有效的保留样本空间下样本点的邻域结构,当不为0时,表示第i个样本和第j个样本之间存在k邻近关系,否则表示第i个样本和第j个样本之间不存在k邻近(k邻近描述特征空间中样本点之间的结构关系,这里的k是一个常数,表示的含义是找出与样本点欧氏距离最近的k个样本点)关系,用以下公式描述:
公式(2)中,不失一般性,参数σ可取1,Km为刻画样本点邻近关系的权值矩阵, λ为约束特征稀疏的正则化参数,μ为约束样本多模态关联的正则化参数,由此完成使用SPLPS的异构多模态特征选择方法进行特征分析,
第三步,优化目标函数、求解wm和vm:对第二步中的公式(1)目标函数进行优化,可以采用交替结构变量进行求解,
第3.1步,固定vm优化wm:此时的目标函数为:
对公式(3)第一项作如下变换:
则公式(3)第一项可转化为:
对公式(3)第三项,可设
则公式(3)可转化为
此时目标公式转化为:
对公式(9)求导,并令导数为0,可得
第3.2步固定wm优化vm:
此时目标函数为:
公式(11)对vi求导得
由此完成交替计算变量wm和vm的求解;在本实例中,M=4,n=371,神经影像模态中wm初始化为一个大小116×1的随机向量,基因模态中wm初始化为一个大小85×1的随机向量;设置k邻近k=5,σ=1;优化后λ=10-1,μ=10;
第四步,特征选择:
对目标函数求解选择出对应权重非零的特征;
第五步,多核支持向量机融合:
第5.2步,在[0,1]范围内利用网格搜索每一个模态的融合系数,并采用十折交叉验证方法找到分类效果最好的融合系数ρm;
αi≥0,i=1,2,…,n (14),
公式(14)中,αi为第i个样本的拉格朗日乘子,由此完成多核支持向量机融合训练;
第六步,分类与预测:
将第五步训练得到的参数αi代入到下面的公式(15)中,对于一个给定的新的测试样本x0,决定样本标签的决策函数定义如公式(15)所示,
公式(15)中,sign()为符号函数,b为偏置,f(x0)的值即为新的测试样本x0的预测结果;
至此完成使用SPLPS的异构多模态影像遗传学数据特征分析方法进行特征选择,并使用多核支持向量机方法分类进行异构多模态影像遗传学特征的处理。
本实施例中在构造样本点邻近关系的权值矩阵时,k邻近中k值的选择很重要,k值过小不足以刻画样本点的结构关系,k值过大则刻画的k邻近关系中可能会包含不同的类,对结果造成影响,通过对不同k值进行实验验证,本实施例选择最佳k值为5来有效的保留样本空间下样本点的邻域结构,提高特征挖掘的精度。本实施例中分类精度达到95%以上。
本发明充分分析样本对分类模型的重要性以及平衡样本邻居数与分类模型间的关系,通过自步学习对样本加权(即引入自步样本权重向量v),在迭代过程中根据置信度对样本进行排序,先选择高置信度的“简单”样本,即损失函数值小的样本,然后逐步加入“困难”样本,选择样本的同时求解样本权重vm,并通过对局部保持投影中k邻近不同k值进行实验验证,选择最佳k值显著提高特征病变脑区位置和相关病变基因的挖掘精度,提高分类预测的精度。
本发明未述及之处适用于现有技术。
Claims (5)
1.一种异构多模态影像遗传学数据特征分析方法,其特征在于,该特征分析方法包括以下内容:
获取某类脑疾病样本异构多模态预处理后的数据,包括基因数据和不同模态的影像数据,获得每个样本在每个模态下的数据;
对异构多模态预处理后的数据进行多模态联合特征选择,特征选择目标函数为公式(1):
公式(1)中,n为样本的个数,M为模态的个数,表示第i个样本第m个模态对应的特征列向量,给定第m个模态的训练集d表示特征的维度,yi表示第i个样本对应的类别标签,Y=[y1,…,yi,…,yn]T∈Rn表示n个样本对应的标签向量,wm为第m个模态的权重向量,vm∈Rn为第m个模态自步样本权重向量;λ为约束特征稀疏的正则化参数,μ为约束样本多模态关联的正则化参数;其中 为辅助参数,k′>k>0,vi为第i个样本的自步样本权重向量;Km为刻画样本点邻近关系的权值矩阵,权值矩阵中每个元素表示第m个模态样本之间的邻近关系,采用局部保留投影方式有效的保留样本空间下样本点的邻域结构,当不为0时,表示第i个样本和第j个样本之间存在k邻近关系,否则表示第i个样本和第j个样本之间不存在k邻近关系,
交替计算变量wm和vm,对上述目标函数进行优化求解;
对获得的解中选出权重非零的权重向量wm所对应的特征,完成异构多模态影像遗传学数据特征分析。
2.根据权利要求1所述的分析方法,其特征在于,所述多模态影像数据包括基于体素的形态测量学处理的磁共振影像、氟脱氧葡萄糖-正电子发射断层扫描影像、F-18荧光淀粉样蛋白-正电子发射断层成像;所述基因数据包括来自ADNI数据库的基因数据和APOE。
3.根据权利要求1所述的分析方法,其特征在于,用于进行生物标志物的挖掘,获得特征向量,将样本标签以及特征选择后获得的异构多模态特征向量输入到多核支持向量机中,进行分类预测。
4.一种异构多模态影像遗传学数据特征分析方法,其特征在于,使用SPLPS的异构多模态影像遗传学特征选择方法进行生物标志物的挖掘,再使用多核支持向量机进行融合分类,具体步骤是:
第一步,异构多模态影像遗传学数据预处理:
第1.1步,神经影像数据预处理:
对于将预处理的同构多模态影像数据与同一次访问扫描进行比对,所述同构多模态影像数据包括基于体素的形态测量学处理的磁共振影像、氟脱氧葡萄糖-正电子发射断层扫描影像、F-18荧光淀粉样蛋白-正电子发射断层成像;然后,在标准的蒙特利尔神经研究所空间中作为2×2×2mm3体素,创建了归一化的灰质密度,根据磁共振影像数据进行映射,并通过统计参数映射SPM软件包将氟脱氧葡萄糖-正电子发射断层扫描和F-18荧光淀粉样蛋白-正电子发射断层扫描配准到相同的空间,然后对116个感兴趣区域进行测量,进一步提取氟脱氧葡萄糖-正电子发射断层扫描葡萄糖代谢率、基于体素的形态测量学处理的磁共振影像的灰度密度以及F-18荧光正电子发射断层扫描淀粉样蛋白成像的淀粉样蛋白沉积特征,在移除小脑后,将每种同构多模态成像的90个感兴趣区域的成像测量值用作特征;
第1.2步,基因数据预处理:
对于将预处理的来自ADNI数据库的基因数据、APOE作为风险基因与神经元的发育、大脑的可塑性以及修复相关,通过ANNOVR注释信息对APOE基因边界±20kbp的单核苷酸多态性进行研究,其中包含了85个单核苷酸多态性基因位点,单核苷酸多态性的值采用最小等位基因的个数0、1、2的加性编码方式;
由此完成异构多模态影像遗传学数据预处理;
第二步,使用SPLPS的异构多模态特征选择方法进行特征分析:
将第一步中得到的每个样本每个模态的数据作为输入,进行多模态的联合特征选择;特征选择目标函数公式为:
公式(1)中,n为样本的个数,M为模态的个数,表示第i个样本第m个模态对应的特征列向量,给定第m个模态的训练集d表示特征的维度,yi表示第i个样本对应的类别标签,Y=[y1,…,yi,…,yn]T∈Rn表示n个样本对应的标签向量,wm为第m个模态的权重向量,vm∈Rn为自步样本权重向量,λ为约束特征稀疏的正则化参数,μ为约束样本多模态关联的正则化参数; 其中k′为辅助参数,k′>k>0,vi为第i个样本的自步样本权重向量;
权值矩阵中每个元素表示第m个模态样本之间的邻近关系,采用局部保留投影方式有效的保留样本空间下样本点的邻域结构,当不为0时,表示第i个样本和第j个样本之间存在k邻近关系,否则表示第i个样本和第j个样本之间不存在k邻近关系,用以下公式描述:
第三步,优化目标函数、求解wm和vm:对第二步中的公式(1)目标函数进行优化,采用交替结构变量进行求解,
第3.1步,固定vm优化wm:此时的目标函数为:
对公式(3)第一项,定义:
则公式(3)第一项转化为:
对公式(3)第三项,设
则公式(3)第三项转化为
对公式(9)求导,并令导数为0,得
第3.2步固定wm优化vm:
此时目标函数为:
公式(11)对vi求导得
由此完成交替计算变量wm和vm的求解;
第四步,特征选择:
对目标函数求解选择出对应权重非零的特征;
第五步,多核支持向量机融合:
第5.2步,在[0,1]范围内利用网格搜索每一个模态的融合系数,并采用十折交叉验证方法找到分类效果最好的融合系数ρm;
αi≥0,i=1,2,…,n (14),
公式(14)中,αi为第i个样本的拉格朗日乘子,由此完成多核支持向量机融合训练;
第六步,分类与预测:
将第五步训练得到的参数αi代入到下面的公式(15)中,对于一个给定的新的测试样本x0,决定样本标签的决策函数定义如公式(15)所示,
公式(15)中,sign()为符号函数,b为偏置,f(x0)的值即为新的测试样本x0的预测结果;
至此完成使用SPLPS的异构多模态影像遗传学数据特征分析方法进行特征选择,并使用多核支持向量机方法分类进行异构多模态影像遗传学特征的处理。
5.根据权利要求4所述的特征分析方法,其特征在于,k=5,σ=1,M=4;优化后λ=10-1,μ=10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011223328.1A CN112288027B (zh) | 2020-11-05 | 2020-11-05 | 异构多模态影像遗传学数据特征分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011223328.1A CN112288027B (zh) | 2020-11-05 | 2020-11-05 | 异构多模态影像遗传学数据特征分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112288027A CN112288027A (zh) | 2021-01-29 |
CN112288027B true CN112288027B (zh) | 2022-05-03 |
Family
ID=74350529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011223328.1A Active CN112288027B (zh) | 2020-11-05 | 2020-11-05 | 异构多模态影像遗传学数据特征分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112288027B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627490B (zh) * | 2021-07-15 | 2024-05-28 | 上海齐网网络科技有限公司 | 基于多核异构处理器的运维多模态决策方法及*** |
CN113724863B (zh) * | 2021-09-08 | 2022-10-25 | 山东建筑大学 | 一种自闭症谱系障碍的自动判别***、存储介质及设备 |
CN114580497B (zh) * | 2022-01-26 | 2023-07-11 | 南京航空航天大学 | 一种分析基因对多模态脑影像表型影响的方法 |
CN114820460B (zh) * | 2022-04-02 | 2023-09-29 | 南京航空航天大学 | 一种单基因位点与时序脑图像关联分析的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105957047A (zh) * | 2016-05-06 | 2016-09-21 | 中国科学院自动化研究所 | 有监督的多模态脑影像融合方法 |
WO2017190337A1 (zh) * | 2016-05-06 | 2017-11-09 | 中国科学院自动化研究所 | 有监督的多模态脑影像融合方法 |
CN109770932A (zh) * | 2019-02-21 | 2019-05-21 | 河北工业大学 | 多模态脑部神经影像特征的处理方法 |
CN106250914B (zh) * | 2016-07-22 | 2019-07-09 | 华侨大学 | 基于结构稀疏多核学习的多模态数据特征筛选和分类方法 |
CN110009049A (zh) * | 2019-04-10 | 2019-07-12 | 江南大学 | 一种基于自步约束机制的可监督图像分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170249547A1 (en) * | 2016-02-26 | 2017-08-31 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Holistic Extraction of Features from Neural Networks |
-
2020
- 2020-11-05 CN CN202011223328.1A patent/CN112288027B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105957047A (zh) * | 2016-05-06 | 2016-09-21 | 中国科学院自动化研究所 | 有监督的多模态脑影像融合方法 |
WO2017190337A1 (zh) * | 2016-05-06 | 2017-11-09 | 中国科学院自动化研究所 | 有监督的多模态脑影像融合方法 |
CN106250914B (zh) * | 2016-07-22 | 2019-07-09 | 华侨大学 | 基于结构稀疏多核学习的多模态数据特征筛选和分类方法 |
CN109770932A (zh) * | 2019-02-21 | 2019-05-21 | 河北工业大学 | 多模态脑部神经影像特征的处理方法 |
CN110009049A (zh) * | 2019-04-10 | 2019-07-12 | 江南大学 | 一种基于自步约束机制的可监督图像分类方法 |
Non-Patent Citations (2)
Title |
---|
Folded concave penalized learning in identifying multimodal MRI;Hongcheng Liu et al;《Journal of Neuroscience Methods》;20160419;第1-6页 * |
基于超图的多模态特征选择算法及其应用;彭瑶 等;《计算机科学与探索》;20181231;第112-119页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112288027A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112288027B (zh) | 异构多模态影像遗传学数据特征分析方法 | |
CN111488914B (zh) | 一种基于多任务学习的阿尔茨海默症分类及预测*** | |
Dill et al. | Automated methods for hippocampus segmentation: the evolution and a review of the state of the art | |
Weiner et al. | The Alzheimer's Disease Neuroimaging Initiative: a review of papers published since its inception | |
CN109528197B (zh) | 基于脑功能图谱进行精神疾病的个体化预测方法和*** | |
Iqbal et al. | Developing a brain atlas through deep learning | |
CN111063442B (zh) | 基于弱监督多任务矩阵补全的脑疾病进程预测方法及*** | |
CA3125883C (en) | Grading of structures for state determination | |
Rahaman et al. | Multi-modal deep learning of functional and structural neuroimaging and genomic data to predict mental illness | |
CN115393269A (zh) | 一种基于多模态影像数据的可扩展多层级图神经网络模型 | |
Wang et al. | Applications of generative adversarial networks in neuroimaging and clinical neuroscience | |
Platero et al. | Longitudinal neuroimaging hippocampal markers for diagnosing Alzheimer’s disease | |
Singh et al. | Genetic, structural and functional imaging biomarkers for early detection of conversion from MCI to AD | |
Bi et al. | Detecting risk gene and pathogenic brain region in EMCI using a novel GERF algorithm based on brain imaging and genetic data | |
CN114359642A (zh) | 基于一对一目标查询Transformer的多模态医学图像多器官定位方法 | |
Alkabawi et al. | Computer-aided classification of multi-types of dementia via convolutional neural networks | |
Du et al. | Fast multi-task SCCA learning with feature selection for multi-modal brain imaging genetics | |
Yang et al. | Diagnosis of Parkinson’s disease based on 3D ResNet: The frontal lobe is crucial | |
Ong et al. | Detection of subtle white matter lesions in MRI through texture feature extraction and boundary delineation using an embedded clustering strategy | |
CN112233805B (zh) | 基于多图谱神经影像学数据进行生物标志物的挖掘方法 | |
Wang et al. | Joint learning framework of cross-modal synthesis and diagnosis for Alzheimer’s disease by mining underlying shared modality information | |
CN114202075A (zh) | 引导式多模态影像遗传学数据特征分析方法 | |
Xu et al. | Role of hippocampal subfields in neurodegenerative disease progression analyzed with a multi-scale attention-based network | |
Sriramakrishnan et al. | A rapid knowledge‐based partial supervision fuzzy c‐means for brain tissue segmentation with CUDA‐enabled GPU machine | |
Filipovych et al. | A composite multivariate polygenic and neuroimaging score for prediction of conversion to Alzheimer's disease |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |