CN110766071A - 一种基于森林自编码器的脑网络数据增强方法 - Google Patents

一种基于森林自编码器的脑网络数据增强方法 Download PDF

Info

Publication number
CN110766071A
CN110766071A CN201911004577.9A CN201911004577A CN110766071A CN 110766071 A CN110766071 A CN 110766071A CN 201911004577 A CN201911004577 A CN 201911004577A CN 110766071 A CN110766071 A CN 110766071A
Authority
CN
China
Prior art keywords
data
brain
encoder
brain network
forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911004577.9A
Other languages
English (en)
Other versions
CN110766071B (zh
Inventor
王子涵
冀俊忠
李俊伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911004577.9A priority Critical patent/CN110766071B/zh
Publication of CN110766071A publication Critical patent/CN110766071A/zh
Application granted granted Critical
Publication of CN110766071B publication Critical patent/CN110766071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本方法涉及一种基于森林自编码器的脑网络数据增强方法,属于机器学习数据增强方法理论与应用研究领域。具体包括以下步骤:原始数据生成,生成稀疏脑网络数据以及对生成的稀疏脑网络数据进行筛选。该方法利用基于森林自编码器的生成器通过调整树的数量可以影响解码数据的稀疏程度这一特性生成稀疏脑网络数据,并利用基于多个随机森林的筛选器对生成数据进行筛选,保证了生成数据的稀疏性与鲁棒性。将筛选后的数据用于数据增强提高了各种分类器的分类性能。本方法参数少且生成数据更符合脑网络的本质特性,具有很广阔的应前景。

Description

一种基于森林自编码器的脑网络数据增强方法
技术领域
本发明属于机器学习数据增强方法理论与应用研究领域,具体来说,是涉及一种基于森林自编码器的脑网络数据增强方法。
背景技术
人脑是一个极其复杂的信息处理***,它可以通过多个神经元、神经元群和大脑区域的相互连接来完成复杂的任务。同时,人类的认知过程依赖于大脑不同区域的相互作用,这些相互作用的模式被称为脑功能网络。近年来,越来越多的研究表明,包括阿尔茨海默症(Alzheimer's disease,AD)、精神***症(schizophrenia)、自闭症谱系障碍(autismspectrum disorder,ASD)在内的许多神经、精神疾病通常伴有脑区连接的中断或异常整合。因此,对脑网络的研究为探索脑疾病与人脑潜在的功能异常之间的关系、更好地了解神经障碍的病理基础提供了机会,这对于神经、精神疾病的早期诊断至关重要。
近年来,脑功能网络分类研究的方法有很多。支持向量机(support vectormachine,SVM)、最小绝对收缩选择算子、随机森林(random forest,RF)等传统机器学习方法已被广泛应用于脑网络的特征提取与分析,进而实现脑疾病的自动诊断及预测。然而,这些方法在本质上仍然使用低层次的特征进行识别和分类,在脑网络的分类性能上仍有很大的提升空间。通过构建层次结构或深度结构,深度神经网络(Deep Neural Network,DNN)可以从原始数据中学习脑网络的深层特征表示,与传统方法相比其性能得到了显著的提高。尽管如此,大多数方法通常需要大量数据才能获得更好的性能。然而,在实际工作中要获得大量的脑影像数据是非常困难的。因此,如何解决由脑网络的小样本特性引起的过拟合问题仍然是一个挑战。
伴随各种生成模型在图像、视频等领域上的巨大突破,可以解决小样本问题的数据增强方法在近几年开始应用于医疗影像领域,并形成了该领域的一个前沿热点。高斯混合模型、生成式对抗网络和变分自编码器等方法可以有效的生成数据并进行数据集的扩展。然而脑网络的功能连接本质上应该是稀疏的,我们常用的脑网络数据却是由每两个脑区之间的相关系数组成,存在大量的噪声和不必要的连接。但是,当前的数据生成方法很难在服从于原始数据分布的同时去除这些不必要的连接和噪声。
发明内容
本发明针对上述脑网络数据生成所面临的挑战,提出了一种基于森林自编码器的脑网络数据增强方法。本方法可以利用森林自编码器生成稀疏脑网络数据并扩展数据集,这些数据服从于原始数据分布的同时去除了不必要的连接和噪声。将新的数据集用于各种分类器的训练提高了它们对脑网络的识别能力。
本发明为了实现上述的目的,采用的技术方案是:利用基于森林自编码器的生成器来生成稀疏的脑网络数据,并利用基于多个随机森林的选择器进行生成数据的筛选,筛选后的数据用于扩充脑网络数据集可以有效的解决脑网络数据的小样本问题并提高各种分类器的分类性能。
一种基于森林自编码器的脑网络数据增强方法,其特征在于,在计算机上依次按照以下步骤实现:
步骤(1):原始数据生成,具体步骤如下:
原始数据生成:首先利用AAL脑图谱分割模板选取fMRI数据中位于大脑皮层的90个脑区作为感兴趣区域(regions of interests,ROIs),接着计算每两个ROI之间的神经活动信号统计相关性,主要度量方法包括皮尔森相关、偏相关,由每两个脑区之间的相关系数构成90*90的邻接矩阵即为脑功能连接网络,也就是本方法的原始数据。
为了后续步骤需要,在此进行相关参数初始化,基于森林自编码器的脑网络数据增强方法的相关参数包括基于森林自编码器的生成器相关参数和基于多个随机森林的选择器相关参数,生成器的参数包括森林自编码器中决策树的棵数GT,选择器的相关参数包括随机森林的个数SN,每个森林内包含的决策树的棵数ST、筛选数据的条件SC。
步骤(2):训练生成器,并利用基于森林自编码器的生成器生成稀疏脑网络数据。在生成稀疏脑网络数据这一步,使用了森林自编码器
步骤(3):利用基于多个随机森林的选择器对生成的稀疏脑网络数据进行筛选,具体的筛选步骤如下:
步骤(3.1):选择器由SN个随机森林组成,首先使用由原始数据集划分出来的测试集作为选择器的训练集对这些随机森林进行训练;
步骤(3.2):为了使最终用于数据增强的稀疏脑网络数据的重要特征与原始数据一致,需要对步骤2中生成的稀疏脑网络数据进行筛选。如果一个数据被正确分类,则认为它与原始数据具有相同的特征分布,本方法中选择SC个随机森林都可以正确分类的数据作为拓展数据。
步骤(4)原始数据集和拓展数据即为本发明的输出。
有益效果
本发明提出一种基于森林自编码器的脑网络数据增强方法,利用基于森林自编码器的生成器通过调整树的数量可以影响生成数据的稀疏程度这一特性生成稀疏脑网络数据,利用基于多个随机森林的选择器筛选出与原始数据具有相同数据分布的数据并对数据集进行增强,提高各种分类器的分类性能。本方法参数少且生成数据更符合脑网络的本质特性,具有很广阔的应用前景。
附图说明
图1:一种基于森林自编码器的脑网络数据增强方法示意图。
图2:基于多个随机森林的选择器的数据筛选方法示意图。
具体实施方式
我们的方法主要包含3个部分,首先是原始数据生成及参数初始化,其次是利用基于森林自编码器的生成器生成稀疏脑网络数据,最后利用基于多个随机森林的选择器对生成的稀疏脑网络数据进行筛选。该方法的基本结构如图1所示,其具体实施步骤如下:
步骤(1):原始数据生成及参数初始化,具体步骤如下:
步骤(1.1):原始数据生成:首先利用AAL脑图谱分割模板选取fMRI数据中位于大脑皮层的90个脑区作为感兴趣区域(regions of interests,ROIs),接着计算每两个ROI之间的神经活动信号统计相关性,主要度量方法包括皮尔森相关、偏相关,由每两个脑区之间的相关系数构成90*90的邻接矩阵即为脑功能连接网络,也就是本方法的原始数据,原始数据中的每个元素称为一个属性。
步骤(1.2):基于森林自编码器的脑网络数据增强方法的相关参数包括基于森林自编码器的生成器相关参数和基于多个随机森林的选择器相关参数,生成器的参数包括森林自编码器中决策树的棵数GT=400,选择器的相关参数包括随机森林的个数SN=4,每个森林内包含的决策树的棵数ST=500、筛选数据的条件SC=4。
步骤(2):训练生成器,并利用基于森林自编码器的生成器生成稀疏脑网络数据。所述的生成器是一个由多棵决策树构成的森林自编码器,关于生成器的训练以及森林自编码器都是公知常识,以下首先具体介绍生成器的训练:
生成器训练:原始数据集按照4:1的比例被划分为训练集和测试集,一位采集对象的原始数据称为一个实例,每个实例中都包含属性信息,利用训练集对森林自编码器中的多棵决策树同时进行训练:首先,每棵决策树在节点处随机选取训练集中的部分实例以及这些实例的部分属性,比如抽取50个实例,从每个实例中选取相同的10个属性,根据选取的信息计算每个属性的Gini不纯度,然后选择所有属性中最小的Gini不纯度,作为当前最优特征的最优分割点并进行决策树节点的分割,接着,在生成的2个新叶子节点上继续进行分割,最后,当叶子节点中只包含一种类别的数据时训练结束,其中的类别指有病、没病两种;
以下是对森林自编码器的原理性介绍:
生成特征向量:将测试集中的每一个实例送入该训练好的森林自编码器,经过每棵决策树的每一个节点时,将用于分割该节点的属性及其分割条件与当前实例中的属性进行比较,并落入对应的孩子节点,循环该过程直到落入叶子节点,将该叶子节点的整数索引作为当前实例的第i(i∈{1,2...T})个特征。每个实例遍历400棵树后,则可以返回一个400维向量作为特征向量;
生成数据:每个实例根据它的特征向量,即叶子节点编号,在每棵决策树上反推出唯一的一条决策路径,接着,根据决策路径在每个节点的特征及其取值范围推理出一条规则,一共可以得到400条规则。将每个规则进行化简,并求取化简后的规则的交集,即为最大相容规则(Maximum-Compatible Rule,MCR),在生成数据时,选择MCR中每个数值属性取值范围中的平均值作为该属性的最终取值,而非数值属性则直接使用该规则的值作为最终取值,所有取值确定后,该数据即为新生成的数据,由于训练过程中每次选择的特征均为最重要的特征,所以很多特征没有被还原,故该生成数据为稀疏脑网络数据。
步骤(3):训练选择器,并利用基于多个随机森林的选择器对生成的稀疏脑网络数据进行筛选,选择器的具体结构如图2所示:
步骤(3.1):本实施例中选用了4个随机森林构成并列结构,以步骤2中的测试集作为本步骤中的训练集对4个随机森林进行训练,选择器的训练过程与步骤(2)中生成器的训练过程一致。
步骤(3.2):为了使最终用于数据增强的稀疏脑网络数据的重要特征与原始数据一致,利用训练完成的选择器对步骤2生成的稀疏脑网络数据进行筛选,具体为:将步骤2生成的稀疏脑网络数据分别输入4个随机森林中,每个随机森林都输出一个分类结果,即有病或者没病。本实施例中设定4个随机森林的分类结果都与其对应的标签相同时,则对应输入的稀疏脑网络数据即为拓展数据。
步骤(4)输出由拓展数据与原始数据集组成的增强后的数据集。
将筛选后的数据加入原始训练数据形成新的数据集,分别使用RF、SVM、gcForest和DNN作为分类器进行训练。其中,RF为使用多棵决策树进行的集成学***均结果。不难发现,数据增强后的新数据集在进行分类器训练后的分类准确率均好于仅使用原始数据集。使用新数据集进行训练后,各种分类器的召回率都有了非常明显的提升,证明我们用于数据集扩展的生成数据中充分提取到了致病的关键特征,这对疾病的诊断非常有利。
表1几种分类器在不同数据集下得到的分类性能
Figure BDA0002240306820000071

Claims (6)

1.一种基于森林自编码器的脑网络数据增强方法,其特征在于,包括以下步骤:
步骤(1):原始数据生成:首先使用功能磁共振成像(functional magnetic resonanceimaging,fMRI)生成脑功能连接网络作为原始数据,且每个原始数据包括有病或者没病的标签,多位采集对象的原始数据构成原始数据集,原始数据集分为训练集和测试集;
步骤(2):利用训练集训练生成器,并利用训练完成的生成器生成稀疏脑网络数据,其中,生成器的输入为步骤1中获得到原始数据集;
步骤(3):训练选择器,并利用训练完成的选择器对步骤2生成的稀疏脑网络数据进行筛选,用于识别出服从于原始数据分布且去除了不必要的连接和噪声的数据,其中,选择器是由SN个随机森林组成的并列结构,当超过SC个随机森林都能够正确分类时,对应输入选择器的数据即为扩展数据;
步骤(4):输出增强后的数据集,该数据集包括原始数据和扩展数据。
2.根据权利要求1所述的一种基于森林自编码器的脑网络数据增强方法,其特征在于,
步骤1中所述的原始数据的生成过程具体为:
首先利用AAL脑图谱分割模板选取fMRI数据中位于大脑皮层的90个脑区作为感兴趣区域(regions of interests,ROIs),
接着计算每两个ROI之间的神经活动信号统计相关性,其中涉及的度量方法包括皮尔森相关、偏相关,根据得到的每两个脑区之间的相关系数,构成90*90的邻接矩阵,即为脑功能连接网络。
3.根据权利要求1所述的一种基于森林自编码器的脑网络数据增强方法,其特征在于,步骤2中所述的生成器为含有多棵决策树的森林自编码器。
4.根据权利要求1所述的一种基于森林自编码器的脑网络数据增强方法,其特征在于,所述选择器的训练数据为由原始数据集中划分的测试集。
5.根据权利要求1所述的一种基于森林自编码器的脑网络数据增强方法,其特征在于,所述的随机森林的个数SN优选为4,SC优选为4。
6.根据权利要求1所述的一种基于森林自编码器的脑网络数据增强方法,其特征在于,还可以增加一个分类器,用于将增强后的数据集进行有病、没病的二分类。
CN201911004577.9A 2019-10-21 2019-10-21 一种基于森林自编码器的脑网络数据增强方法 Active CN110766071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911004577.9A CN110766071B (zh) 2019-10-21 2019-10-21 一种基于森林自编码器的脑网络数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911004577.9A CN110766071B (zh) 2019-10-21 2019-10-21 一种基于森林自编码器的脑网络数据增强方法

Publications (2)

Publication Number Publication Date
CN110766071A true CN110766071A (zh) 2020-02-07
CN110766071B CN110766071B (zh) 2023-04-28

Family

ID=69331523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911004577.9A Active CN110766071B (zh) 2019-10-21 2019-10-21 一种基于森林自编码器的脑网络数据增强方法

Country Status (1)

Country Link
CN (1) CN110766071B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN108710576A (zh) * 2018-05-30 2018-10-26 浙江工业大学 基于异构迁移的数据集扩充方法及软件缺陷预测方法
CN109241070A (zh) * 2018-08-22 2019-01-18 南京信息工程大学 一种基于大数据的气象数据不一致性的时间维度统一方法
US20190102337A1 (en) * 2017-10-02 2019-04-04 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
WO2019067831A1 (en) * 2017-09-28 2019-04-04 D5Ai Llc MULTI-OBJECTIVE DEEP LEARNING GENERATORS

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
WO2019067831A1 (en) * 2017-09-28 2019-04-04 D5Ai Llc MULTI-OBJECTIVE DEEP LEARNING GENERATORS
US20190102337A1 (en) * 2017-10-02 2019-04-04 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
CN108710576A (zh) * 2018-05-30 2018-10-26 浙江工业大学 基于异构迁移的数据集扩充方法及软件缺陷预测方法
CN109241070A (zh) * 2018-08-22 2019-01-18 南京信息工程大学 一种基于大数据的气象数据不一致性的时间维度统一方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JI FENG等: "AutoEncoder by Forest" *

Also Published As

Publication number Publication date
CN110766071B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN107909117B (zh) 基于脑功能网络特征对早晚期轻度认知障碍的分类装置
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Huang et al. Multiclass machine learning classification of functional brain images for Parkinson's disease stage prediction
CN110084381A (zh) 一种基于权值特征属性融合与新型图核的脑网络分类方法
Jena et al. Texture analysis based feature extraction and classification of lung cancer
Bahrami et al. Using low-dimensional manifolds to map relationships between dynamic brain networks
García Chimeno et al. Automatic classification of dyslexic children by applying machine learning to fMRI images
Ahmed et al. Predicting skin cancer melanoma using stacked convolutional neural networks model
Hamdi et al. Biomarker detection from fmri-based complete functional connectivity networks
Sheng et al. Deep manifold harmonic network with dual attention for brain disorder classification
CN110766071B (zh) 一种基于森林自编码器的脑网络数据增强方法
CN115310491A (zh) 一种基于深度学***衡磁共振全脑数据分类方法
Song et al. Joint sparse collaborative regression on imaging genetics study of schizophrenia
Safaei et al. A zero-shot architecture for action recognition in still images
Stofa et al. DenseNet with Atrous Spatial Pyramid Pooling for Skin Lesion Classification
Mehta Brain tumor detection using artificial neural network
Tahmasbi et al. CWLA: A novel cognitive classifier for breast mass diagnosis
Mohammed A proposed alzheimer’s disease diagnosing system based on clustering and segmentation techniques
Sankaran et al. A conceptual and effective scheme for brain tumor identification using robust random forest classifier
Vallaboju et al. Bioinformatics image based decision support system for bone cancer detection
Kasthuri et al. AI‐Driven Healthcare Analysis
Raamana et al. Novel histogram-weighted cortical thickness networks and a multi-scale analysis of predictive power in Alzheimer's disease
Surendran et al. Multistage classification of Alzheimer’s disease
McCormack et al. Creative discovery using qd search
Sethi et al. Medical Image Augmentation Framework for Resolving Chest X-Ray Data Imbalance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant