CN109589092A

CN109589092A - 基于集成学习的阿尔茨海默症确定方法及***

Info

Publication number: CN109589092A
Application number: CN201811167293.7A
Authority: CN
Inventors: 潘丹; 曾安; 贾龙飞
Original assignee: Guangzhou True Network Technology Co Ltd
Current assignee: Pan Dan
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2019-04-09
Anticipated expiration: 2038-10-08
Also published as: CN109589092B

Abstract

本发明公开了基于集成学习的阿尔茨海默症确定方法及***，方法包括：获取阿尔茨海默症的磁共振成像数据；基于卷积神经网络，对磁共振成像数据进行训练，得到基分类器；对基分类器进行集成学习，得到集成分类器；根据集成分类器得到分类结果作为阿尔茨海默症的确定结果；***包括获取模块、训练模块、集成模块和分类模块。本发明基于卷积神经网络进行训练，并对训练结果进行集成学习，最终根据集成学习的结果获取阿尔茨海默症的确定结果，提高了阿尔茨海默症的早期诊断准确率和泛化能力，可广泛应用于计算机辅助诊断领域。

Description

基于集成学习的阿尔茨海默症确定方法及***

技术领域

本发明涉及计算机辅助诊断领域，尤其是一种基于集成学习的阿尔茨海默症确定方法及***。

背景技术

阿尔茨海默症(Alzheimer’s Disease,AD)，是一种典型的神经退行性疾病，临床上表现为失忆，丧失语言能力，丧失生活自理能力等。随着现代社会人口老龄化进程的加速，该病患病人数增长迅速，给患者及其家庭带来极大的痛苦和负担。但迄今为止，该病患病原因尚不明确且病程不可逆，也没有治愈该病的方法。于是，对AD进行早期诊断对于研发新型药物和措施以减缓病情发展具有重要意义。轻度认知障碍(Mild CognitiveImpairment，MCI)是一种介于AD和健康状态HC(Healthy Controls，HC)之间的状态，可以细分为会转化为AD的轻度认知障碍(MCI patients who will convert to AD，MCIc)和不会转化为AD的轻度认知障碍(MCI patients who will not convert to AD，MCInc)。研究表明，MCI患者比没有患过MCI的人更有可能发展成AD。因此，对MCI病人的准确筛查成为了AD早期诊断的研究热点之一。

随着神经影像技术和深度学习的飞速发展，越来越多的研究者使用深度学习方法对大脑神经影像，如：通过对磁共振影像(MRI)进行分析，来实现对阿尔茨海默症的早期诊断。

其中，卷积神经网络(Convolutional Neural Network，CNN)由于其在图像处理上的天然优势而被广泛使用。卷积神经网络是近年发展起来，并引起广泛重视的一种高效图像识别方法。卷积神经网络作为神经网络领域的一个重要研究分支，它的特点在于其每一层的特征都由上一层的局部区域通过共享权值的卷积核激励得到，这一特点使得卷积神经网络相比于其他神经网络方法更适合应用于图像特征的学***面，平面上所有神经元的权值相等。由于一个映射面上的神经元共享权值，因而有效减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求取局部平均与二次提取的池化层，这种特有的两次特征提取结构减小了特征分辨率。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形，该部分功能主要由池化层实现。由于CNN可以通过训练数据进行自适应学习，所以在使用CNN时，避免了显式的特征抽取，能够隐式地从训练数据中学习到特征；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于全连接网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

此外，集成学习(ensemble learning)，即一种通过构建多个弱学习器，然后结合为一个强学习器来完成分类任务的机器学习方法，能够显著提高学习***的泛化能力，增加模型稳定性。集成学习(Ensemble Learning)的主要思路是先通过一定的规则生成多个基学习机，再采用某种集成策略进行组合，最后通过综合判断来输出最终结果。具有代表性的集成学习方法有Bagging，Boosting和随机森林(Random Forest)等，集成学习能够显著提高学习***的泛化能力。目前，常见的用于生成基学习机的方法可以粗略分为两大类：一类是将不同类型的学习算法应用于同一数据集上，这种方法得到的基学习机通常被称为是异质类型的(heterogeneous)；另一类是将同一学习算法应用于不同的训练集，这种方法得到的基学习机被称为是同质类型的(homogeneous)。

然而，目前尚未见到将卷积神经网络和集成学习的方法相结合来确定阿尔茨海默症的相关报道。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种泛化能力强且稳定性高的，基于集成学习的阿尔茨海默症确定方法及***。

本发明一方面所采取的技术方案为：

基于集成学习的阿尔茨海默症确定方法，包括以下步骤：

获取阿尔茨海默症的磁共振成像数据；

基于卷积神经网络，对磁共振成像数据进行训练，得到基分类器；

对基分类器进行集成学习，得到集成分类器；

根据集成分类器得到分类结果作为阿尔茨海默症的确定结果。

进一步，所述获取阿尔茨海默症的磁共振成像数据这一步骤，包括以下步骤：

通过ADNI数据库获取阿尔茨海默症的磁共振成像数据；

对阿尔茨海默症的磁共振成像数据进行预处理；

其中，所述对阿尔茨海默症的磁共振成像数据进行预处理这一步骤，包括以下步骤：

对阿尔茨海默症的磁共振成像数据进行去头骨处理；

将去头骨处理后的磁共振成像数据配准至MNI标准空间；

对MNI标准空间内的磁共振成像数据进行图像平滑处理；

对图像平滑处理后的磁共振成像数据进行灰度归一化处理；

对灰度归一化处理后的磁共振成像数据进行切片处理；

对切片处理后的磁共振成像数据进行尺寸统一处理。

进一步，还包括对磁共振成像数据进行数据扩充处理这一步骤，所述对磁共振成像数据进行数据扩充处理这一步骤，具体包括以下步骤：

对磁共振成像数据进行旋转处理；

对旋转处理后的磁共振成像数据进行平移处理；

对平移处理后的磁共振成像数据进行伽马校正；

对伽马校正后的磁共振成像数据进行随机噪声处理；

对随机噪声处理后的磁共振成像数据进行缩放处理；

对缩放处理后的磁共振成像数据进行随机仿射变换处理。

进一步，所述基于卷积神经网络，对磁共振成像数据进行训练，得到基分类器这一步骤，其具体为：

基于卷积神经网络，采用并行处理方法，对磁共振成像数据进行训练，得到多个基分类器。

进一步，还包括对基分类器进行第一筛选这一步骤，所述对基分类器进行第一筛选这一步骤，包括以下步骤：

根据K折交叉验证方法的折数K对磁共振成像数据进行数据集划分，得到磁共振成像数据的训练集和磁共振成像数据的测试集；

逐一对磁共振成像数据的训练集进行单切片的基分类器训练，直至所有磁共振成像数据的训练集都训练完成；

基于预设的顺序，对磁共振成像数据训练集的坐标进行排列，得到切片映射表；

基于预设的群体规模和切片映射表，对染色体进行编码；

根据编码后的染色体和切片映射表，通过训练得到基分类器构造三轴集成分类器；

获取三轴集成分类器的分类准确率和染色体的适应度值；

当染色体的适应度值满足预设条件时，得到最优染色体，并根据最优染色体确定对应的最优基分类器；反之，则执行下一步骤；

采用基于轮盘赌选择法的选择算子，选择优良染色体；

采用基于单点交叉算法的交叉算子，在优良染色体上生成交叉位置；

对交叉位置上的基因进行位置交换；

根据位置变换后的基因，选取最优染色体，并根据最优染色体与切片映射表的映射关系对最优染色体进行解码，最终确定对应于所述最优染色体的基分类器。

进一步，还包括对基分类器进行第二筛选这一步骤，所述对基分类器进行第二筛选这一步骤具体包括：

对训练得到的同一坐标轴方向的多个基分类器进行效果测试；

根据测试效果的排列顺序，选取预设个数的基分类器。

进一步，所述对基分类器进行集成学习，得到集成分类器这一步骤，包括以下步骤：

对三个坐标轴方向的多切片基分类器进行集成，生成三个单轴集成分类器；

对分别对应于三个坐标轴方向的三个单轴集成分类器进行集成，生成三轴集成分类器。

进一步，所述对三个坐标轴方向的多切片基分类器进行集成，生成三个单轴集成分类器这一步骤，包括以下步骤：

对选取的基分类器进行集成，得到单轴集成分类器；

采用投票法对选取的基分类器的分类结果进行表决，得到单轴集成分类器的分类结果；

所述对分别对应于三个坐标轴方向的三个单轴集成分类器进行集成，生成三轴集成分类器这一步骤，包括以下步骤：

对分别对应于三个坐标轴方向的三个单轴集成分类器进行集成，得到三轴集成分类器；

采用投票法对三个单轴集成分类器的分类结果进行表决，得到三轴集成分类器的分类结果。

本发明另一方面所采取的技术方案是：

基于集成学习的阿尔茨海默症确定***，包括：

获取模块，用于获取阿尔茨海默症的磁共振成像数据；

训练模块，用于基于卷积神经网络，对磁共振成像数据进行训练，得到基分类器；

集成模块，用于对基分类器进行集成学习，得到集成分类器；

分类模块，用于根据集成分类器得到分类结果作为阿尔茨海默症的确定结果。

本发明另一方面所采取的技术方案是：

基于集成学习的阿尔茨海默症确定***，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的基于集成学习的阿尔茨海默症确定方法。

本发明的有益效果是：本发明基于卷积神经网络进行训练，并对训练结果进行集成学习，最终根据集成学习的结果获取阿尔茨海默症的确定结果，提高了阿尔茨海默症的早期诊断准确率和泛化能力。

附图说明

图1为本发明实施例的步骤流程图；

图2为本发明实施例的ADvs HC的分类特征显著脑区示意图；

图3为本发明实施例的MCIcvs HC的分类特征显著脑区示意图；

图4为本发明实施例的MCIc vs MCInc的分类特征显著脑区示意图；

图5为本发明实施例的实验特征显著脑区位置示意图；

图6为本发明实施例的ADvs HC的脑区关联的行为域分布示意图；

图7为本发明实施例的MCIcvs HC的脑区关联的行为域分布示意图；

图8为本发明实施例的MCIc vs MCInc的脑区关联的行为域分布示意图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明实施例提供了一种基于集成学习的阿尔茨海默症确定方法，包括以下步骤：

S1、获取阿尔茨海默症的磁共振成像数据；

进一步作为步骤S1的优选实施方式，所述步骤S1包括以下步骤：

S11、通过ADNI数据库获取阿尔茨海默症的磁共振成像数据；

S12、对阿尔茨海默症的磁共振成像数据进行预处理；

具体地，本实施例使用的数据来自ADNI(Alzheimer’s Disease NeuroimagingInitiative)数据库，ADNI是由美国国立老年研究所(NIA)、国家生物医学成像和生物工程研究所(NIBIB)、美国食物和药物管理局(FDA)及一些民营医药企业和非盈利组织于2003年创建的，该数据库公开提供一系列测试对象的MRI、PET、基因数据、其他生物标记和相关诊断信息，成为研究阿尔茨海默症的一套比较标准的研究数据。

S111、对阿尔茨海默症的磁共振成像数据进行去头骨处理；

S112、将去头骨处理后的磁共振成像数据配准至MNI标准空间；

S113、对MNI标准空间内的磁共振成像数据进行图像平滑处理；

S114、对图像平滑处理后的磁共振成像数据进行灰度归一化处理；

其中，执行完步骤S113之后，所有图像大小均为121*145*121，空间分辨率为1.5mm，因此需要对每个MRI进行灰度归一化，因为每个MRI体素最小值都为0，归一化时用当前值除以该MRI中的体素最大值即可将每个体素值归一化到到0-1之间。

S115、对灰度归一化处理后的磁共振成像数据进行切片处理；

S116、对切片处理后的磁共振成像数据进行尺寸统一处理。

具体地，由于本实施例从ADNI数据库下载的图像都为nii格式文件，因此本实施例采用SPM12的CAT12工具包进行图像预处理，预处理的过程如步骤S111-S116所述。

其中，由于本实施例中需要使用2维切片作为训练数据，所以需要对3维MRI进行切片处理。为了方便描述，本实施例将三维MR图像的矢状面、冠状面、横断面三个方向分别用X，Y，Z表示，三个轴上的坐标范围分别为[1,121]、[1,145]、[1,121]。对于每个MRI图像，理论上本实施例从X,Y,Z三个方向进行切片分别可得到121、145、121张二维切片，但考虑到每个方向的切片中，靠近坐标轴两端的一些切片几乎没有脑组织，即几乎全部为黑色背景，有些只有很小一部分脑组织，这些切片包含的有效信息少，训练价值低，故舍去。另外，考虑到两个相邻切片的变化不是很大，故为了提升基分类器的训练效率，本实施例采用间隔选取切片方法。最终，对于每张MRI图像，本实施例在X轴[20,100]坐标范围中间隔选取40张切片(X20，X22,...X98)，在Y轴[24,124]坐标范围中间隔选取50张切片(Y24,Y26,…Y122)，在Z轴[30,96]坐标范围中间隔选取33张切片(Z30,Z32,…Z94)，这样，从每张三维MRI影像中，最终提取出来自三个轴向的123个切片作为基分类器的训练数据。

另外，由于配准后的MRI大小为121*145*121，本实施例从X、Y、Z三轴进行切片，得到的2维切片大小分别为145*121、121*121、121*145，为了保证基分类器的输入图像大小一致，本实验将这些切片统一成145*145的尺寸大小(保持图像中心点不变，边缘填充值为0的像素点)。

S2、对磁共振成像数据进行数据扩充处理；

进一步作为步骤S2的优选实施方式，所述步骤S2包括以下步骤：

S21、对磁共振成像数据进行旋转处理；

S22、对旋转处理后的磁共振成像数据进行平移处理；

S23、对平移处理后的磁共振成像数据进行伽马校正；

S24、对伽马校正后的磁共振成像数据进行随机噪声处理；

S25、对随机噪声处理后的磁共振成像数据进行缩放处理；

S26、对缩放处理后的磁共振成像数据进行随机仿射变换处理。

具体地，由于卷积神经网络需要大量图片进行训练才能达到较好的效果，如果直接用原始切片训练CNN基分类器，数据量是远远不够的。本实施例对切片进行了数据扩充(Data Augmentation)，通过旋转、平移、伽马校正、随机噪声、缩放、随机仿射变换六个操作从原始切片生成新的切片。本实施例在数据扩充时，不同类别的原始切片生成新切片的数量是不同的，原始切片较少的那类在数据扩充时会生成更多新切片，使得数据扩充后两种类别的切片数量基本相同，这样可以缩小数据集不平衡的影响。例如在MCIc vs HC的分类实验中，HC有162例，MCIc有76例，HC的原始切片数约为MCIc的2.1倍，因此在用步骤S21-S26这六种数据扩充操作生成新切片时，每种操作中每张HC切片生成10张新切片，每张MCIc切片生成10*2.1张新切片，数据扩充后两类切片比例约为1:1。

S3、基于卷积神经网络，对数据扩充处理后的磁共振成像数据进行训练，得到基分类器；

其中，步骤S3具体为：基于卷积神经网络，采用并行处理方法，对磁共振成像数据进行训练，得到多个基分类器。

本实施例中的卷积神经网络由6个卷积层(Convolution layer,conv)和2个全连接层(Fully connected layer，FC)组成，最后一个全连接层只有两个节点，采用softmax函数实现二分类。每个CNN基分类器训练30个epoch，经过测试，30个epoch足够使基分类器收敛，使基分类器在训练集原始切片上分类准确率达到100％。本实施例中的卷积层激活函数采用LReLU,梯度更新算法采用Adam优化算法，学习率设为0.0001，每批次输入切片张数(batchsize)设为200。

进一步作为优选的实施方式，所述步骤S3还包括对基分类器进行第一筛选这一步骤，所述对基分类器进行第一筛选这一步骤，包括以下步骤：

S31、根据K折交叉验证方法的折数K对磁共振成像数据进行数据集划分，得到磁共振成像数据的训练集和磁共振成像数据的测试集；

其中，由于本发明需要在后续步骤筛选出用于集成学习的优秀基分类器，于是，本实施例还收集了部分数据作为验证集，磁共振成像数据的验证集不同于磁共振成像数据训练集和测试集，它们来自不同的被试人体，这样可以使测试集始终不参与基分类器的训练与筛选过程，防止数据泄露。

本实施例共从ADNI数据库下载了787个被试的787张MRI图像，每个被试只有一张MRI图像。其中，509个MRI图像用作训练集和测试集，278个MRI图像用做验证集。本实施例采用五折交叉验证方法，每组分类实验均进行5次。每次实验，都是从“训练集&&测试集”中按照类别比例分层选取4/5作训练集，1/5作测试集，训练集和测试集中没有重合样本，不存在数据泄露。验证集不参与CNN基分类器的训练过程，仅当对训练得到的基分类器进行集成时，才使用验证集来筛选这些基分类器。简而言之，经过数据集划分后，每次实验时，实验数据被划分为三个彼此独立的数据集——训练集、测试集、验证集，其中训练集用来训练基分类器，验证集用来筛选基分类器，测试集用来检验整个集成分类器的最终效果。测试集始终不参与基分类器的训练和筛选过程，实验结果不存在数据泄露的影响。

每次实验，从每张MRI图像中，本实施例可以提取出来自X，Y和Z三个轴向的共计123张二维切片。选取来自不同MRI图像的相同坐标位置的切片作为一组，训练基分类器，共需训练123个基分类器，即基分类器是与切片一一对应的。以AD vs HC实验在X＝20切片(后面简称X20切片)上训练基分类器为例，训练该基分类器时，先从137张AD类的MRI和162张HC类的MRI中,各选出1/5作为测试集(不能整除时向下取整)，剩下的作为训练集，将训练集中所有MRI图像中的X20切片提取出来作为该基分类器的训练数据，训练集中所有MRI的X＝20切片提取出来留作测试数据。其他基分类器在训练时的数据集划分过程与上述划分过程类似。

S32、逐一对磁共振成像数据的训练集进行单切片的基分类器训练，直至所有磁共振成像数据的训练集都训练完成；

S33、基于预设的顺序，对磁共振成像数据训练集的坐标进行排列，得到切片映射表；

其中，本实施例首先将X,Y,Z轴所有切片坐标按如下顺序排列：[X20,X22...X98,Y24,Y26...Y122,Z30,Z32...Z94]，得到切片映射表。即前40个为X轴切片坐标，中间50个为Y轴切片坐标，后33个为Z轴切片坐标，每个区域切片坐标由小到大排列。

S34、基于预设的群体规模和切片映射表，对染色体进行编码；

本实施例设置群体规模为100，一条染色体是长度为123的0/1串，基因为1代表该位上所对应的切片训练的分类器被选中为集成模型的基分类器，基因为0代表该位上所对应的切片训练的分类器未被选中为集成模型的基分类器。

S35、根据编码后的染色体和切片映射表，通过训练得到基分类器构造三轴集成分类器；

本实施例通过初始化种群，将每个染色体初始化为随机0/1串，然后选择染色体中值为1的位置对应的基分类器构造三轴集成分类器。

S36、获取三轴集成分类器的分类准确率和染色体的适应度值；

本实施例对100个样本进行5折交叉检验，得到验证集样本在三轴集成分类器中的平均分类准确率和平均AUC值，把平均AUC值作为染色体的适应值。

S37、当染色体的适应度值满足预设条件时，执行步骤S311；反之，则执行步骤S38；

本实施例的预设条件是：若父子两代染色体的适应值之差的绝对值<0.0001或迭代次数达到100000，则执行步骤S311；反之，则执行步骤S38；

S38、采用基于轮盘赌选择法的选择算子，选择优良染色体；

其中，第i条染色体被选中的概率P_s的计算公式为：

AUC_i代表第i条染色体对应的适应值。

S39、采用基于单点交叉算法的交叉算子，在优良染色体上生成交叉位置；

本实施例的交叉算子采用单点交叉算法，在染色体上随机生成一个有效的交叉位置，然后交换位于该位置后的所有基因，交叉的概率P_c为0.75。

S310、对交叉位置上的基因进行位置交换；

本实施例随机选择染色体上的一个基因位，该基因位上变异的概率为0.01，也就是说，如果当前基因位为0，则该基因位有0.01的概率突变为1。

S311、根据位置变换后的基因，选取最优染色体，并根据最优染色体与切片映射表的映射关系对最优染色体进行解码，最终确定对应于所述最优染色体的基分类器。

具体地，针对三个不同的二分类问题：AD vs HC、MCIc vs HC、MCIc vs MCInc，本实施例一共训练了三个分类器，每个分类器由三个部分组成：基分类器、单轴集成分类器、三轴集成分类器。

在本实施例中，对基分类器进行筛选的方法还包括对基分类器进行第二筛选这一步骤，其具体为：

根据测试效果的排列顺序，选取预设个数的基分类器。

例如，当每个切片的基分类器训练完后，X轴切片一共得到40个基分类器，Y轴切片得到50个基分类器，Z轴切片得到33个基分类器。此时，使用验证集对每个轴每个切片得到的基分类器进行测试，选出分类测试效果最好的5个基分类器。

S4、对基分类器进行集成学习，得到集成分类器；

进一步作为步骤S4的优选实施方式，所述步骤S4包括以下步骤：

S41、对三个坐标轴方向的多切片基分类器进行集成，生成三个单轴集成分类器；

S42、对分别对应于三个坐标轴方向的三个单轴集成分类器进行集成，生成三轴集成分类器。

其中，所述步骤S41包括以下步骤：

S411、对选取的基分类器进行集成，得到单轴集成分类器；

S412、采用投票法对选取的基分类器的分类结果进行表决，得到单轴集成分类器的分类结果。

所述步骤S42包括以下步骤：

S421、对分别对应于三个坐标轴方向的三个单轴集成分类器进行集成，得到三轴集成分类器；

S422、采用投票法对三个单轴集成分类器的分类结果进行表决，得到三轴集成分类器的分类结果。

本实施例采用两个阶段集成学习方案：第一阶段是对每个坐标轴(X，Y，Z)方向的多切片基分类器进行集成以获得三个单轴集成分类器，第二阶段是对分别来自三个坐标轴方向的三个单轴集成分类器进行集成，最终获得一个三轴集成分类器。

具体地，当每个切片的基分类器训练完后，X轴切片一共得到40个基分类器，Y轴切片得到50个基分类器，Z轴切片得到33个基分类器。然后，对每轴选取的5个基分类器的结果进行集成以获得单轴集成分类器，采用投票法对分类结果进行表决(即取5个基分类器分类结果中出现较多的那类作为最终分类结果)，每轴最终可得到一个投票表决后的分类结果。本领域的技术人员可以理解，本实施例中对每轴选取了5个基分类器，而在实际应用中，具体基分类器的选取个数可以根据实际情况进行调整，即每轴选取的基分类器个数不一定为5个，同理，对应生成的交点坐标也不一定为125个。

接着，经过单轴多切片集成学习后，每个坐标轴取得的5个基分类器会构建出一个单轴集成分类器，三个坐标轴共可构建出三个单轴集成分类器。此时，再对这三个单轴集成分类器再次进行集成，以构建出一个三轴集成分类器，然后使用投票法得到最终的分类结果(即取3个单轴分类器分类结果中出现较多的那类作为最终分类结果)。

在第一阶段集成学习时，本实施例使用验证集对每个基分类器进行测试，因为基分类器与切片是一一对应的，因此，本发明可以按照每轴切片上基分类器的分类准确率对切片进行排序，选取每轴分类效果最好的那些切片。

在本实施例的实验中，每轴选取5个切片坐标，然后组合出125个交点坐标，如ADvsHC中可以根据X、Y、Z轴各自选取的前五个切片坐标组合出(76,82,34)、(76,82,32)...(80,80,42)等125个三维坐标，每个坐标对应到配准到MNI标准空间后的MRI中的一个点，根据这些点的坐标可以找出MRI中分类特征显著的区域。为了方便标识和描述这些区域，本实施例将这些点的坐标映射到大脑图谱Brainnetome Atlas中。Brainnetome Atlas是一个公开的大脑图谱。Brainnetome Atlas将大脑三维体积进行细粒度的分割，最终分割成246个脑区，使人们在研究大脑结构时能更好的标识和描述各个区域，该图谱还结合brainmap分类法来对各个脑区的行为域进行说明，可以根据脑区名称查询该脑区相关的行为域。BrainnetomeAtlas的脑区信息存储在一个三维nii格式的图像里，用0-246之间的不同灰度来标识不同脑区，相同灰度值的体素属于同一个脑区，0代表该区域不在图谱内。根据这125个点在MNI标准空间中所处的位置，并在Brainnetome Atlas中查询出这些位置所处的脑区，本实施例可以标识出分类特征显著(即可能具有较强分类能力)的脑区，并根据各个脑区中所包含的点的个数衡量该脑区对分类的贡献程度。找出各组分类实验的特征显著脑区之后，可以根据这些脑区名称在BrainnetomeAtlas官网查询各脑区对应的行为域，分析这些差异脑区的功能特征。

本实施例的验证实验采用5折交叉验证方法，每次取候选数据的20％作测试集，80％作训练集，每组分类实验做5次，取5次平均值作为最终结果。本实施例一共进行了三组实验：AD vs HC、MCIc vs HC、MCIc vs MCInc，最终三组实验的分类准确率均值分别为ADvs HC81％，MCIc vs HC 79％，MCIc vs MCInc 62％。AD vs HC、MCIc vs HC两组实验的分类准确率比基于PCA(Principal Component Analysis)和SVM((Support Vector Machine)的方法要高，MCIc vs MCInc实验的结果比基于PCA(Principal Component Analysis)和SVM((Support Vector Machine)的方法的实验结果略低。更为重要的是，三组实验的5次重复实验的标准差分别为：AD vs HC 0.03，MCIc vs HC 0.04，MCIc vs MCInc 0.06，都比基于PCA(Principal Component Analysis)和SVM((Support Vector Machine)的方法对应实验的标准差减小了三分之二左右，实验结果对比见表1。

表1

由此可见，本发明提出的基于CNN和集成学习(Ensemble)的阿尔茨海默症早期诊断模型比基于PCA和SVM的模型具有更高的准确率和更好的稳定性。

根据每组实验中第一次集成学习时各切片基分类器的分类效果可以获得各轴上分类特征显著的切片，根据这些切片坐标可以组合出切片交点的坐标，进而根据这些交点的位置找出MRI中分类特征显著的脑区。本实施例从X、Y、Z三轴分别选出分类效果最好的5个切片的坐标，这些切片一共有125个交点。将这些交点映射到BrainnetomeAtlas上可得到各组实验中分类特征显著的脑区。AD vs HC分类特征显著的脑区如图2所示，MCIc vs HC分类特征显著的脑区如图3所示，MCIc vs MCInc分类特征显著的脑区如图4，其中，图2-4中纵坐标为BrainnetomeAtlas中的脑区标签，标签前的L,R分别代表左脑和右脑；横坐标为125个点在每个脑区的分布个数，可以用来衡量该脑区的分类特征显著性强度。脑区详细信息及各脑区包含的交点数见表2、表3、表4(各表中最后一列各脑区包含点数加起来不等于125，因为有些点落在没有划分为任何脑区的区域，没有统计进该表中)。

表2：AD vs HC分类特征显著脑区详细信息

脑区标签	脑区英文名称	脑区中文名称	包含点数
				R.rHipp	rostral hippocampus	延髓海马	50
L.rHipp	rostral hippocampus	延髓海马	15
				R.mAmyg	medial amygdala	内侧杏仁核	11
R.lAmyg	lateral amygdala	外侧杏仁核	6
				R.34	caudal area 35/36	尾部区域35/36	3
R.36c	area 28/34(EC,entorhinal cortex)	区域28/34(EC，内嗅皮层)	3
				R.cHipp	caudal hippocampus	尾部海马	3
L.mAmyg	medial amygdala	内侧杏仁核	3
				L.34	area 28/34(EC,entorhinal cortex)	区域28/34(EC，内嗅皮层)	2
R.NAC	nucleus accumbens	伏隔核	1
				L.NAC	nucleus accumbens	伏隔核	1

表3：MCIc vs HC分类特征显著脑区详细信息

脑区标签	脑区英文名称	脑区中文名称	包含点数
				L.A21r	rostral area 21	嘴侧区域21	14
L.A22r	rostral area 22	嘴侧区域22	9
				L.A20cv	caudoventral of area 20	区域20的尾部	8
L.A37lv	lateroventral area37	后区域37	8
				L.A38l	lateral area 38	侧面区域38	5
L.A20il	intermediate lateral area 20	中间横向区域20	4
				L.mAmyg	medial amygdala	内侧杏仁核	4
L.A13	area 13	区域13	2
				L.A6cdl	caudal dorsolateral area 6	尾侧背外侧区域6	2
L.aSTS	anterior superior temporal sulcus	前颞上沟	2
				L.A20iv	intermediate ventral area 20	中间腹侧区域20	2
L.34	area 28/34(EC,entorhinal cortex)	区域28/34(EC，内嗅皮层)	2
				L.3ulhf	area 1/2/3(upper limb,head and face region)	面积1/2/3(上肢，头部和面部区域)	2
L.A2	area 2	区域2	2
				L.rHipp	rostral hippocampus	延髓海马	2
L.A6vl	ventrolateral area 6	腹外侧区域6	1
				L.A4hf	area 4(head and face region)	4区(头部和脸部区域)	1

表4：MCIc vs MCInc分类特征显著脑区详细信息

从上面的结果可以看出，AD vs HC实验中两组被试的MRI中分类特征最显著的区域为延髓海马、内侧杏仁核、外侧杏仁核等；MCIc vs HC实验中两组被试的MRI中分类特征最显著的区域为延髓海马、内侧杏仁核、内嗅皮层、苍白球等；MCIc vs MCInc实验中两组被试的MRI中分类特征最显著的区域为嘴侧区域22、区域20的尾部、后区域37、侧面区域38、中间横向区域20、内侧杏仁核等。这些脑区在大脑中的位置分布如图5所示。

本实施例利用BrainnetomeAtlas官网提供的行为域数据，对上述脑区的行为域进行分析。根据BrainnetomeAtlas官网的各脑区行为域数据查出AD vs HC、MCIc vs HC、MCIcvs MCInc各显著脑区的相关行为域和相关强度分别如表5、表6和表7所示；

表5：AD vs HC各显著脑区的相关行为域

表6：MCIc vs HC各显著脑区的相关行为域

表7：MCIc vs MCInc各显著脑区的相关行为域

根据表5、表6和表7的结果可以分别分析出各组实验中，分类特征较显著的脑区主要影响哪些行为。本实施例中，按照相关脑区涉及到的各个行为域进行统计，统计行为域出现在挑选出的脑区中的次数，以此分析这些脑区的行为域分布规律。最终得到三组实验中脑区关联的行为域分布如图6、图7和图8所示，图6-8中纵坐标为行为域名称，横坐标为行为域出现在挑选出的脑区中的次数。

根据图6、图7和图8的实验结果表明，这些分类特征显著的脑区所关联的大脑功能主要集中在情感、记忆、语言等行为域，还有少量有关感知、内感受和活动的脑区。而阿尔茨海默症病人临床上通常表现为感情淡漠、失忆，丧失行动、丧失语言能力等，本实施例的实验中找出的特征脑区的主要功能刚好集中在情感、记忆、语言等行为域。由此可见，本发明的方法所找出的这些分类特征显著的脑区集中的行为域是与阿尔茨海默症人的临床特征相吻合的。

S5、根据集成分类器得到分类结果作为阿尔茨海默症的确定结果。本发明根据三轴集成分类器的分类结果，最终确定被测者的健康状态。

本发明实施例还提供了一种基于集成学习的阿尔茨海默症确定***，包括：

获取模块，用于获取阿尔茨海默症的磁共振成像数据；

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

上述方法实施例中的内容均适用于本***实施例中，本***实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

此外，本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的基于集成学习的阿尔茨海默症确定方法。

综上所述，本发明一种基于集成学习的阿尔茨海默症确定方法及***具有以下优点：

1)、本发明采用了多种数据扩充(Data Augmentation，DA)方法对原始MRI切片进行数据扩充，大大增加了训练样本数量，并且针对不同类别图像的样本量不平衡性，每类图像扩充数量也会有相应变化，使得扩充后的数据集中，两类图像的样本量基本一致。

2)、一般基于2D-CNN的AD早期诊断模型都只选取了MRI图像中的一个特定切片进行训练，切片选取往往根据经验，如选取穿过海马体的某个横断面切片。在整个三维MRI图像中只选取一个二维切片必然会损失很多有用的信息，且切片的选取位置是人工根据经验设定，这强烈依赖于领域知识，具有很大的局限性。本发明采用多切片进行训练，基于每个选取的切片都训练获得一个CNN模型基分类器，最后对这些基分类器进行筛选、集成，得到最终的集成分类器。本发明有效提升了分类准确率，且切片选取不需要根据领域知识特意指定某些位置，而是按顺序选取，直至取完所有有效切片即可。

3)、一般基于2D-CNN的AD早期诊断模型只会从一个方向选取切片，而本文模型从冠状面、矢状面、横断面三个方向都选取了切片。同一脑区从不同方向观察一般会有完全不同的形态，将来自多个方向的切片信息结合起来能进一步提升模型的分类准确率和稳定性。

4)、本发明需要基于每个方向的每个切片都训练获得一个基分类器，然后对这些基分类器进行筛选和集成，相对于其他仅基于单切片训练获得的模型，训练时间会更长。为了有效解决训练时间长的问题，本发明采用了并行技术，使得基于每个切片训练获得基分类器的过程可以并行处理，并可以根据需要自行设置并行训练的基分类器个数。在硬件资源充足的情况下，所有基分类器的训练都可以并行处理，互不影响。这样就大大提升了训练效率，并使该模型具有很好的分布式并行处理的可扩展性。

5)、本发明根据对每个基分类器在验证集上的分类测试效果进行排序，可以找出冠状面、矢状面、横断面三个方向上分类效果最好、特征最为显著的切片位置。根据这些切片的交点可以找出在待分类的两类人群中，如：AD患者与正常人(HC)，差异较大的影像学特征，效率很高。

6)、本发明基于卷积神经网络进行训练，并对训练结果进行集成学习，最终根据集成学习的结果获取分类结果，提高了阿尔茨海默症的早期诊断准确率和泛化能力。

本发明提出一种基于集成学习的阿尔茨海默症确定方法。该方法相对于传统的PCA+SVM方法，可以免去人工选取感兴趣区域，通过卷积神经网络的自适应学习自动提取MRI中分类效果显著的特征。该方法使用两次集成学习，提升了模型的泛化能力和稳定性。本文在ADNI数据集中选取与使用PCA+SVM方法的论文相同的样本进行实验，最终三组实验的5折交叉验证分类准确率为：AD vs HC 0.81±0.03，MCIc vs HC 0.79±0.04，MCIc vsMCInc 0.62±0.06，AD vs HC和MCIc vs HC的分类结果相对于PCA+SVM方法均有较大提升，MCIc vs MCInc分类结果低于PCA+SVM。本发明的模型的三组实验结果的方差均远小于PCA+SVM方法，证明本发明的模型具有更好的稳定性。本发明在测试模型准确率的同时，根据集成学习中基分类器的效果挑选出分类效果显著的基分类器，根据这些基分类器对应的切片确定出整个大脑三维标准空间中分类特征显著的坐标点，进而将这些点映射到大脑图谱BrainnetomeAtlas上，找到各组实验中分类特征最显著的脑区。本实验得出的分类特征显著脑区中包含海马体、杏仁核、颞叶等常用的AD生物标志物，与现有的经验知识一致，证明了本模型在自适应学习中提取到了有效特征，其他选取出的特征显著性脑区具有指导意义，可以作为阿尔茨海默症MR生物标志物的候选，为AD生物标志物的发现研究提供了新的参考。本发明还对所有选出脑区的行为域进行了分析，发现这些分类特征显著的脑区主要与情感、记忆、语言等功能相关，这与阿尔茨海默症患者感情淡漠、失忆、丧失语言能力、丧失行动能力等临床表现不谋而合，进一步印证了本模型提取到的分类效果显著脑区的正确性和有效性。另外，本发明提出的三轴集成分类器建模方法对于其他脑病的分类预测研究及其神经影像生物标志物的发现研究同样具有参考价值。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于集成学习的阿尔茨海默症确定方法，其特征在于：包括以下步骤：

获取阿尔茨海默症的磁共振成像数据；

对基分类器进行集成学习，得到集成分类器；

2.根据权利要求1所述的基于集成学习的阿尔茨海默症确定方法，其特征在于：所述获取阿尔茨海默症的磁共振成像数据这一步骤，包括以下步骤：

通过ADNI数据库获取阿尔茨海默症的磁共振成像数据；

对阿尔茨海默症的磁共振成像数据进行预处理；

对阿尔茨海默症的磁共振成像数据进行去头骨处理；

将去头骨处理后的磁共振成像数据配准至MNI标准空间；

对MNI标准空间内的磁共振成像数据进行图像平滑处理；

对图像平滑处理后的磁共振成像数据进行灰度归一化处理；

对灰度归一化处理后的磁共振成像数据进行切片处理；

对切片处理后的磁共振成像数据进行尺寸统一处理。

3.根据权利要求1所述的基于集成学习的阿尔茨海默症确定方法，其特征在于：还包括对磁共振成像数据进行数据扩充处理这一步骤，所述对磁共振成像数据进行数据扩充处理这一步骤，具体包括以下步骤：

对磁共振成像数据进行旋转处理；

对旋转处理后的磁共振成像数据进行平移处理；

对平移处理后的磁共振成像数据进行伽马校正；

对伽马校正后的磁共振成像数据进行随机噪声处理；

对随机噪声处理后的磁共振成像数据进行缩放处理；

对缩放处理后的磁共振成像数据进行随机仿射变换处理。

4.根据权利要求1所述的基于集成学习的阿尔茨海默症确定方法，其特征在于：所述基于卷积神经网络，对磁共振成像数据进行训练，得到基分类器这一步骤，其具体为：

5.根据权利要求4所述的基于集成学习的阿尔茨海默症确定方法，其特征在于：还包括对基分类器进行第一筛选这一步骤，所述对基分类器进行第一筛选这一步骤，包括以下步骤：

基于预设的群体规模和切片映射表，对染色体进行编码；

获取三轴集成分类器的分类准确率和染色体的适应度值；

采用基于轮盘赌选择法的选择算子，选择优良染色体；

对交叉位置上的基因进行位置交换；

6.根据权利要求4所述的基于集成学习的阿尔茨海默症确定方法，其特征在于：还包括对基分类器进行第二筛选这一步骤，所述对基分类器进行第二筛选这一步骤具体包括：

根据测试效果的排列顺序，选取预设个数的基分类器。

7.根据权利要求6所述的基于集成学习的阿尔茨海默症确定方法，其特征在于：所述对基分类器进行集成学习，得到集成分类器这一步骤，包括以下步骤：

8.根据权利要求7所述的基于集成学习的阿尔茨海默症确定方法，其特征在于：

所述对三个坐标轴方向的多切片基分类器进行集成，生成三个单轴集成分类器这一步骤，包括以下步骤：

对选取的基分类器进行集成，得到单轴集成分类器；

9.基于集成学习的阿尔茨海默症确定***，其特征在于：包括：

获取模块，用于获取阿尔茨海默症的磁共振成像数据；

10.基于集成学习的阿尔茨海默症确定***，其特征在于：包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-8任一项所述的基于集成学习的阿尔茨海默症确定方法。