CN111128378B - 一种用于评估婴幼儿肠道菌群发育年龄的预测方法 - Google Patents

一种用于评估婴幼儿肠道菌群发育年龄的预测方法 Download PDF

Info

Publication number
CN111128378B
CN111128378B CN201911278021.9A CN201911278021A CN111128378B CN 111128378 B CN111128378 B CN 111128378B CN 201911278021 A CN201911278021 A CN 201911278021A CN 111128378 B CN111128378 B CN 111128378B
Authority
CN
China
Prior art keywords
data
age
feature
intestinal flora
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911278021.9A
Other languages
English (en)
Other versions
CN111128378A (zh
Inventor
杨恒文
谭宇翔
钟竞辉
尹芝南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201911278021.9A priority Critical patent/CN111128378B/zh
Publication of CN111128378A publication Critical patent/CN111128378A/zh
Application granted granted Critical
Publication of CN111128378B publication Critical patent/CN111128378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开的一种用于评估婴幼儿肠道菌群发育年龄的预测方法,包括以下步骤:获取婴幼儿的肠道菌群数据;利用所述肠道菌群数据为基础,通过线性判别分析和随机森林构建预测模型,即分类数据模型;将待测样品输入预测模型进行预测,输出分类数据,得到预测结果;根据预测结果得到待测样品的肠道菌群发育年龄段;把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现紊乱或者发育偏差;本发明采用线性判别分析和随机森林结合,构建预测模型,大大提高了准确率,通过预测模型预测出对应年龄,然后通过预测年龄和实际年龄的比较来评估菌群是否发育失调。

Description

一种用于评估婴幼儿肠道菌群发育年龄的预测方法
技术领域
本发明涉及肠道菌群预测的研究领域,特别涉及一种用于评估婴幼儿肠道菌群发育年龄的预测方法。
背景技术
现有技术中,对人体肠道微生物的检测方法比较少,如CN109448842A专利,没有使用线性判别,该专利的内容不针对婴儿,也不针对新增单独个体的判断,主要评估人体肠道微生态是否失衡,并不预测年龄,而且并没有使用年龄这个参照,且预测的准确率不足70%,如CN108345768A专利,是预测菌群成熟度的,并不是预测年龄的,且预测的准确率也较低,肠道微生态的失衡既是亚健康的结果,同时也可能加重亚健康,导致疾病的发生。肠道微生态是机体最重要、最庞大,尤为特殊的生态***。肠道内大量微生物菌时刻处在动态平衡和相对稳定之中。众多因素影响这个平衡。人体亚健康的发生、发展和治疗转归均伴随着肠道微生态正常菌群的变化或失衡,进而影响婴幼儿的生长发育。但是,到目前为止,还没有很好的预测婴幼儿肠道菌群发育年龄的方法。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种用于评估婴幼儿肠道菌群发育年龄的预测方法,建立预测模型,通过预测肠道菌群的年龄,进而判断肠道菌群是否发育失调。
本发明的目的通过以下的技术方案实现:
一种用于评估婴幼儿肠道菌群发育年龄的预测方法,其特征在于,包括以下步骤:
获取婴幼儿的肠道菌群数据为原始数据,并存储在数据库的基准数据集中;
利用所述肠道菌群数据为基础,通过线性判别分析进行预处理,得到分类数据,通过随机森林训练构建预测模型;
将待测样品输入预测模型进行预测,得到预测结果,根据预测结果得到待测样品的肠道菌群发育年龄段;
把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现紊乱或者发育偏差。
进一步地,所述获取婴幼儿的肠道菌群数据具体如下:通过16S扩增子测序技术进行测序并进行分析,收集1-48个月的健康婴幼儿***物进行测试并对婴幼儿状况进行观察和记录在数据库的基准数据集中。
进一步地,所述肠道菌群数据为带标签的525维10分类数据,其中,525维是指菌群结构是由525个菌种分类单元构成;10分类数据包括1-48个月的8个分类以及青年和中老年两个分类组成。
进一步地,所述构建预测模型具体为:
利用肠道菌群数据为基础及对应的采样年龄信息,采用线性判别分析对带标签的525维10分类数据进行预处理,即进行降维,得到低维数据;采用随机森林将低维数据划分训练数据和测试数据,并将基础分类器个数设置为K,进行训练,得到预测模型。
进一步地,所述训练数据与测试数据比例为7∶3;所述基础分类器个数K>100。
进一步地,所述进行预测,得到预测结果,具体为:
根据分类数据确定原始数据集各个原始特征重要性,即原始菌群的特征重要性,并对线性判别分析转换得到的新特征分别进行乱序排列操作,得到乱序排列特征,再次利用随机森林对乱序特征进行分类,根据每一次得到的预测模型精度和原模型精度的差值,判断每一个乱序排列特征的重要性,得到乱序排列重要性;
计算每个原始特征和每个乱序排列特征之间的相关系数,确定原始特征和乱序排列特征之间的相关性,得到原始特征和乱序排列特征之间的Pearson相关系数绝对值作为权重,其中,计算原始特征的特征重要性如下:
其中,Fi为第i个原始菌种的特征重要性,pi,j为第i个原始菌种和第j个新特征之间的Pearson相关系数,fj为第j个新特征的乱序排列重要性。
进一步地,把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现紊乱或者发育偏差,具体为:
若预测所得年龄段和测试目标个体采样的实际年龄偏差小于N个月,则为正常;如果偏差大于N个月则为菌群发育失调,需要根据实际情况进一步制定干预方案。
进一步地,所述N为12。
本发明与现有技术相比,具有如下优点和有益效果:
本发明通过扩增子测序采集数据建立数据集,采用线性判别分析和随机森林建立预测模型,支持这种多年龄段的判别,覆盖范围广,提高预测准确度,关注婴幼儿肠道菌群发育情况,能提早避免因为菌群紊乱导致的后续一系列的免疫、代谢、神经***等的问题,对优育有着重要意义。
附图说明
图1为本发明所述一种用于评估婴幼儿肠道菌群发育年龄的预测方法流程图。
图2为本发明所述实施例中预测准确率示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
一种用于评估婴幼儿肠道菌群发育年龄的预测方法,如图1所示,包括以下步骤:
获取婴幼儿的肠道菌群数据;
因为粪便中的肠道微生物的组成是实时变化的,且受到许多不同的短期因素的影响(如抗生素使用、益生菌摄入、疾病状态等)。所以,为了建立覆盖健康婴幼儿发育年龄跨度的基准数据集,收集了1、6、12、18、24、30、36、48个月的健康婴幼儿的粪便,这些婴幼儿在收样时并没有肠道相关的病症(如便秘或腹泻),也没有出现免疫激活类疾病(如感冒和发烧),一个月内没有服用抗生素和益生菌、益生元制剂。收样时,采集人员都会对婴儿的状况进行观察并记录。粪便放置到三个采集管内,置于干冰中保存并迅速返回实验室放置于负80度冰箱,如果是有常温保存液的保存管,可以在常温下保存2周;如果是空的保存管,必须放置于干冰或其他低温环境中不超过24小时,并尽快转移到低温冰箱或者进行DNA提取。对样品进行DNA提取,然后进行样品制备;样品制备后上测序仪进行扩增子测序,获得扩增子测序结果。4、进行扩增子测序数据的分析,获取肠道菌群数据。
样品提取到的DNA使用Qubit仪器检查浓度以及琼脂糖凝胶电泳观察质量。扩增子测序选用了16S rRNA的V4区(前引物为:515F:5’-GTGCCAGCMGCCGCGGTAA-3’和后引物为:806R:5’-GGACTACHVGGGTWTCTAAT-3’)。引物序列上有Illumina的3’端链接序列和12bp长的样品识别序列.测序使用的是Illumina MiSeq和HiSeq2500平台。
测序下级后数据根据样品识别序列,分别获取到不同样品的具体数据集。数据使用FLASH软件进行双端拼接和祛除低质量的片段。并且使用了USEARCH方法和GreenGene数据库进行了嵌合体的祛除提高数据纯度。最后,整个菌群结构的分析,实用的是QIIME工具包。
利用所述肠道菌群数据为基础,通过线性判别分析和随机森林构建预测模型;
待处理数据MINdepth-L7是一个带标签的525维的10分类数据,为了处理这个分类问题,并提取出重要的特征,先后采用了线性判别分析(LDA)对分类数据进行有监督地预处理,得到分类数据,并通过随机森林(Random Forest)的多分类方法,训练得到一个可对相关数据进行多分类的预测模型。
其中为了将高维的数据集转换得到更容易处理的形式,利用线性判断分析(LDA)有监督地将给定数据从525维降为9维,不仅得到了更为高效的数据表达形式,更有利于机器学习模型进一步在此基础上训练和预测。
为了完成数据训练和预测的工作,采用了较为轻量级且便于处理缺失值(MissingValue)的分类方法,随机森林。在随机森林中,由于训练数据的稀疏性,将训练数据和测试数据的比例划分为70%和30%,并将基础分类器的个数设为200,得到最终的预测模型。
将待测样品输入预测模型进行预测,输出分类数据,得到预测结果;根据预测结果得到待测样品的肠道菌群发育年龄段;
为了进一步根据分类数据确定原始数据集上各个特征(菌群)的重要性(FeatureImportance),我们对9个LDA转换得到的新特征分别进行乱序排列操作(Permutation),得到乱序排列特征,再重新利用随机森林对每个乱序排列操作得到的数据重新进行分类,根据每一次得到的分类模型的精度和原模型精度的差值,判断每一个乱序排列的特征的重要性,这样的特征重要性被称作乱序排列重要性(Permutation Importance)。
根据9个新特征的乱序排列重要性,我们想要计算得到525个原始特征(菌群)的重要性。首先,我们通过计算每个原始特征和9个新特征之间的Pearson相关系数来确定原始特征和新特征之间的相关性,最后将原始特征和新特征之间的相关系数的绝对值作为权重,计算原始特征的特征重要性,计算原始特征的特征重要性如下:
其中,Fi为第i个原始菌种的特征重要性,pi,j为第i个原始菌种和第j个新特征之间的Pearson相关系数,fj为第j个新特征的乱序排列重要性;
把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现紊乱或者发育偏差。若预测所得年龄段和测试目标个体采样的实际年龄偏差小于12个月,则为正常;如果偏差大于12个月则为菌群发育失调,需要根据实际情况进一步制定干预方案。
预测结果如图2所示,其中,
A:1个月(22人);B:6个月(34人);C:12个月(30人);D:18个月(20人);
E:24个月(18);F:30个月(9人);G:36个月(13人);H:48个月(16人);
O:成人(36-51岁)(13人);Y:成人(20-27岁)(22人)
共197人
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (2)

1.一种用于评估婴幼儿肠道菌群发育年龄的预测方法,其特征在于,包括以下步骤:
获取婴幼儿的肠道菌群数据为原始数据,并存储在数据库的基准数据集中;
获取婴幼儿的肠道菌群数据具体如下:通过16S扩增子测序技术进行测序并进行分析,收集1-48个月的健康婴幼儿***物进行测试并对婴幼儿状况进行观察和记录在数据库的基准数据集中;
肠道菌群数据为带标签的525维10分类数据,其中,525维是指菌群结构是由525个菌种分类单元构成;10分类数据包括1-48个月的8个分类以及青年和中老年两个分类组成;
利用所述肠道菌群数据为基础,通过线性判别分析进行预处理,得到分类数据,通过随机森林训练构建预测模型;
构建预测模型具体为:
利用肠道菌群数据为基础及对应的采样年龄信息,采用线性判别分析对带标签的525维10分类数据进行预处理,即进行降维,得到低维数据;采用随机森林将低维数据划分训练数据和测试数据,并将基础分类器个数设置为K,进行训练,得到预测模型;
将待测样品输入预测模型进行预测,得到预测结果,根据预测结果得到待测样品的肠道菌群发育年龄段;
进行预测,得到预测结果,具体为:
根据分类数据确定原始数据集各个原始特征重要性,即原始菌群的特征重要性,并对线性判别分析转换得到的新特征分别进行乱序排列操作,得到乱序排列特征,再次利用随机森林对乱序特征进行分类,根据每一次得到的预测模型精度和原模型精度的差值,判断每一个乱序排列特征的重要性,得到乱序排列重要性;
计算每个原始特征和每个乱序排列特征之间的相关系数,确定原始特征和乱序排列特征之间的相关性,得到原始特征和乱序排列特征之间的Pearson相关系数绝对值作为权重,其中,计算原始特征的特征重要性如下:
其中,Fi为第i个原始菌种的特征重要性,pi,j为第i个原始菌种和第j个新特征之间的Pearson相关系数,fj为第j个新特征的乱序排列重要性;
把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现紊乱或者发育偏差。
2.根据权利要求1所述的一种用于评估婴幼儿肠道菌群发育年龄的预测方法,其特征在于,所述训练数据与测试数据比例为7∶3;所述基础分类器个数K>100。
CN201911278021.9A 2019-12-12 2019-12-12 一种用于评估婴幼儿肠道菌群发育年龄的预测方法 Active CN111128378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911278021.9A CN111128378B (zh) 2019-12-12 2019-12-12 一种用于评估婴幼儿肠道菌群发育年龄的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911278021.9A CN111128378B (zh) 2019-12-12 2019-12-12 一种用于评估婴幼儿肠道菌群发育年龄的预测方法

Publications (2)

Publication Number Publication Date
CN111128378A CN111128378A (zh) 2020-05-08
CN111128378B true CN111128378B (zh) 2023-08-25

Family

ID=70498577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911278021.9A Active CN111128378B (zh) 2019-12-12 2019-12-12 一种用于评估婴幼儿肠道菌群发育年龄的预测方法

Country Status (1)

Country Link
CN (1) CN111128378B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712856A (zh) * 2020-12-25 2021-04-27 北京群峰纳源健康科技有限公司 一种基于肠道菌群分析膳食结构的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009058915A1 (en) * 2007-10-29 2009-05-07 The Trustees Of The University Of Pennsylvania Computer assisted diagnosis (cad) of cancer using multi-functional, multi-modal in-vivo magnetic resonance spectroscopy (mrs) and imaging (mri)
CN104851346A (zh) * 2015-04-30 2015-08-19 暨南大学 模块化动物消化道体外模拟***及其人类肠道模拟方法
CN108345768A (zh) * 2017-01-20 2018-07-31 深圳华大生命科学研究院 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2948134C (en) * 2014-05-06 2023-03-14 Is-Diagnostics Ltd. Microbial population analysis
US11001900B2 (en) * 2015-06-30 2021-05-11 Psomagen, Inc. Method and system for characterization for female reproductive system-related conditions associated with microorganisms

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009058915A1 (en) * 2007-10-29 2009-05-07 The Trustees Of The University Of Pennsylvania Computer assisted diagnosis (cad) of cancer using multi-functional, multi-modal in-vivo magnetic resonance spectroscopy (mrs) and imaging (mri)
CN104851346A (zh) * 2015-04-30 2015-08-19 暨南大学 模块化动物消化道体外模拟***及其人类肠道模拟方法
CN108345768A (zh) * 2017-01-20 2018-07-31 深圳华大生命科学研究院 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
臧凯丽等.微生态制剂调节便秘、腹泻人...短链脂肪酸关键菌属的相关性.食品科学.2018,第39卷(第05期),第155-165页. *

Also Published As

Publication number Publication date
CN111128378A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN109706235A (zh) 一种肠道微生物菌群的检测和分析方法及其***
CN108345768B (zh) 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN104603283B (zh) 确定异常状态相关生物标志物的方法及***
CN110892081A (zh) 诊断菌群失调的方法
CN110097928B (zh) 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型
Kudirkiene et al. Rapid and accurate identification of Streptococcus equi subspecies by MALDI-TOF MS
Smith et al. The effects of progressing and nonprogressing Mycobacterium avium ssp. paratuberculosis infection on milk production in dairy cows
CN113186310B (zh) 一种通过肠道菌群相对丰度预测健康性老化的方法
CN114582429B (zh) 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
CN112852916A (zh) 肠道微生态的标志物组合、辅助诊断模型及其应用
CN115527608A (zh) 一种肠道年龄预测方法和***
CN111128378B (zh) 一种用于评估婴幼儿肠道菌群发育年龄的预测方法
CN112908414A (zh) 一种大规模单细胞分型方法、***及存储介质
CN111206079A (zh) 基于微生物组测序数据和机器学习算法的死亡时间推断方法
CN112435756A (zh) 基于多数据集差异互证的肠道菌群关联疾病风险预测***
Finnicum et al. Metataxonomic analysis of individuals at BMI extremes and monozygotic twins discordant for BMI
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN114023386A (zh) 宏基因组数据分析及特征菌筛选方法
CN110358849A (zh) 源于肠道的诊断胰腺炎的生物标志物、筛选方法及其用途
CN110111841B (zh) 动脉粥样硬化的识别模型的构建方法
CN116913382A (zh) 一种基于微生物组测序数据预测肠道年龄指数的人工智能模型和方法
CN116590381A (zh) 一种筛选再生水补水影响河道生物多样性的关键水质因子的方法
CN113930526B (zh) 用于鉴别甲基***涉毒人群的方法、组合物及其应用
CN111261222A (zh) 口腔微生物群落检测模型的构建方法及其应用
Tang et al. Mixed effect Dirichlet-tree Multinomial for longitudinal microbiome data and weight prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant