CN114944199A - 基于人工智能的菌株筛选方法及装置 - Google Patents

基于人工智能的菌株筛选方法及装置 Download PDF

Info

Publication number
CN114944199A
CN114944199A CN202210465987.9A CN202210465987A CN114944199A CN 114944199 A CN114944199 A CN 114944199A CN 202210465987 A CN202210465987 A CN 202210465987A CN 114944199 A CN114944199 A CN 114944199A
Authority
CN
China
Prior art keywords
microorganism
microorganisms
association
screening
strain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210465987.9A
Other languages
English (en)
Inventor
杨煜清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210465987.9A priority Critical patent/CN114944199A/zh
Publication of CN114944199A publication Critical patent/CN114944199A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提出一种基于人工智能的菌株筛选方法及装置,其中方法包括,运用关联推断算法解析人体肠道微生物基因测序数据,对人体肠道微生物进行***生物学分析,获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络;基于微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;通过分析关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。本发明有助于活菌药物发现的智能化和效率提升。

Description

基于人工智能的菌株筛选方法及装置
技术领域
本发明属于人工智能、计算机应用领域。
背景技术
肠道微生物与人体免疫和疾病存在紧密联系,众多研究已证明干预肠道微生物可治疗多种疾病,由活菌构成的活体生物药已成为药物研发领域的热点。但是目前多菌株活体生物药的相关研究较依赖生物实验进行菌株分离和人工筛选,缺乏微生物生态学的理论支撑,亦缺少指导多菌株活体生物药研发的生物信息学方法。
文献调研发现当前缺乏多菌株LBP药物发现相关的计算方法研究,生物学家多是依赖专家经验和生物实验手段进行菌株分离和人工筛选,仅有Bucci等人在前期动物实验基础上,利用Lotka–Volterra一阶微分方程组来构建12种菌株的生态学模型及与免疫细胞关联模型,从中筛选更优的菌株组合。
但是上述研究在菌株发现方法上存在一定限制。一方面较为依赖动物实验的结果,由于单次动物实验中动物数量的限制,通过统计分析寻找到的潜在菌株可能存在假阳性。另一方面通过抗生素来缩小菌株筛选范围,或直接组合多个具有不同潜在功能的菌株来构建多菌株LBP的方式,未考虑人体肠道微生物群落中复杂的交互作用,肠道中的其他微生物可能会与筛选出的微生物存在关联,影响筛选出的菌株的定植或特定功能的表达,从而进一步影响多菌株LBP的药效。上述LBP菌株发现方法难以考虑肠道微生物群落内部不同物种间以及微生物与宿主变量之间的生物学交互,缺乏微生物生态学的理论支撑。
基于上述分析,针对人体肠道进行多菌株活体生物药研发的一个重要挑战在于宿主微生物群落在人体健康和疾病中作用的复杂性,目前生物学家对肠道菌群如何影响宿主表型仍理解有限,对控制微生物群落组成基本规则的了解仍处于起步阶段。这使得多菌株LBP研发过程中,筛选潜在菌株组合成为一项复杂的工作。目前随着大规模人类肠道微生物研究的开展(人类微生物组计划(Human Microbiome Project,HMP)、人类肠道宏基因组计划(Metagenomics of Human Intestinal Tract,MetaHIT)、美国肠道计划(American GutProject,AGP)、中科院人类微生物组计划等)和微生物组大数据的积累(MGnify微生物数据平台已包含超14万个人体微生物组样本),以及肠道微生物与宿主免疫调节和疾病机制相关知识的快速增长,为通过关联推断方法分析肠道微生物群落内部以及微生物群落与宿主之间的交互作用,并结合已有生物学知识寻找关键肠道微生物集合,进而辅助多菌株LBP智能发现提供了可能。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的菌株筛选方法,用于辅助筛选潜在成药菌株组合。
本发明的第二个目的在于提出另一种基于人工智能的菌株筛选方法。
本发明的第三个目的在于提出一种基于人工智能的菌株筛选装置。
本发明的第四个目的在于提出另一种基于人工智能的菌株筛选装置。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的菌株筛选方法,包括:
运用关联推断算法解析人体肠道微生物基因测序数据,对人体肠道微生物进行***生物学分析,获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络;
基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
另外,根据本发明上述实施例的基于人工智能的菌株筛选方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络,包括:
构建层次贝叶斯模型,通过控制所述宿主疾病,记录所述微生物群落中各微生物以及所述各微生物之间的交互,进一步生成微生物关联网络。
进一步地,在本发明的一个实施例中,所述利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,包括:
定义微生物交互知识来源于K篇文献,第i篇文献期刊分区级别为Ri,文献所属类别为Ti,样本量为Ni,则该知识的置信度为,
Conf=1/(1+exp(-∑i{W1(Ri)+W2(Ti)+W3(Ni)}));
其中,Wj为相应的权重映射函数。
进一步地,在本发明的一个实施例中,所述评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合,包括:
从抗药性、毒力因子、肠道屏障移位、与药物相互作用四方面对所述不同菌株组合对患者肠道微生态的影响进行评估。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的菌株筛选方法,包括:
运用人工智能算法构建疾病预测模型,通过特征选择获取能够区分疾病患者和健康人的肠道微生物集合,并进一步获取疾病与多种微生物的关联关系,生成微生物关联网络;
基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
为达上述目的,本发明第三方面实施例提出了一种基于人工智能的菌株筛选装置,包括:
获取模块,用于运用关联推断算法解析人体肠道微生物基因测序数据,对人体肠道微生物进行***生物学分析,获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络;
筛选模块,用于基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
评估模块,用于通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
进一步地,在本发明的一个实施例中,所述获取模块,还用于:
构建层次贝叶斯模型,通过控制所述宿主疾病,记录所述微生物群落中各微生物以及所述各微生物之间的交互,进一步生成微生物关联网络。
为达上述目的,本发明第四方面实施例提出了一种基于人工智能的菌株筛选装置,包括:
获取模块,用于运用人工智能算法构建疾病预测模型,通过特征选择获取能够区分疾病患者和健康人的肠道微生物集合,并进一步获取疾病与多种微生物的关联关系,生成微生物关联网络;
筛选模块,用于基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
评估模块,用于通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
为达上述目的,本发明第三方面实施例提出了一种基于人工智能的菌株筛选装置,包括:
获取模块,用于运用人工智能算法构建疾病预测模型,通过特征选择获取能够区分疾病患者和健康人的肠道微生物集合,并进一步获取疾病与多种微生物的关联关系,生成微生物关联网络;
筛选模块,用于基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
评估模块,用于通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
本发明实施例提出的基于人工智能的菌株筛选方法及装置,针对当前多菌株LBP药物设计依赖动物实验和人工分离培养,缺乏微生物生态学理论支撑,缺少相关生物信息学方法研究的问题,本发明通过整合微生物关联分析、知识图谱和流平衡分析,构建全新的数据驱动的用于多菌株LBP智能发现的菌株筛选算法,有助于促进活菌药物发现的智能化和效率提升。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于人工智能的菌株筛选方法的流程示意图。
图2为本发明实施例所提供的一种基于人工智能的菌株筛选装置的流程示意图。
图3为本发明实施例所提供的一种基于人工智能的菌株筛选方法的流程示意图。。
图4为本发明实施例所提供的一种基于人工智能的菌株筛选装置的流程示意图。
图5为本发明实施例所提供的用于多菌株LBP智能发现的菌株筛选算法整体流程图。
图6为本发明实施例所提供的基于BioBERT进行英文摘要文本挖掘示意图。
图7为本发明实施例所提供的基于人工智能的菌株筛选示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的菌株筛选方法和装置。
图1为本发明实施例所提供的一种基于基于人工智能的菌株筛选方法的流程示意图。
如图1所示,该基于人工智能的菌株筛选方法包括以下步骤:
S101:运用关联推断算法解析人体肠道微生物基因测序数据,对人体肠道微生物进行***生物学分析,获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络;
进一步地,在本发明的一个实施例中,所述获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络,包括:
构建层次贝叶斯模型,通过控制所述宿主疾病,记录所述微生物群落中各微生物以及所述各微生物之间的交互,进一步生成微生物关联网络。
为了解决肠道微生物群落人群异质性的问题,本发明首先收集公开发表的肠道微生物16S rRNA基因宏基因组测序数据,并对测序样本对应的宿主年龄、性别、BMI、生活习惯、饮食、疾病及用药情况进行整理和对齐。一方面下载HMP、iHMP和American Gut等大规模人体微生物研究项目公开的原始测序数据和相关元数据,另外也会查阅MGnify和GMrepo等微生物数据库,进行数据筛选和文献核对。本发明优先纳入包含宿主信息的健康人群和各种疾病患者的肠道微生物基因组数据。
在原始16S rRNA基因测序数据整理完成后,利用QIIME2进行序列分析,获取OTU表和物种注释信息,根据样本序列数、物种丰富度(Richness)和均匀度(Evenness)等信息进行样本过滤,剩余样本用于后续建模分析。
为了考虑肠道微生物人群异质性,本发明构建层次贝叶斯模型,假设微生物群落内部的交互受到宿主变量的调节,并且在宿主变量值相似时,群落中的关联较为稳定;当宿主条件改变时,微生物的关联会随之变化。在相同的宿主条件下,宿主变量的值会在某一个小范围内波动,但是核心的微生物种类及核心微生物之间的关联保持一致。当宿主条件变化时,宿主变量的值、肠道微生物的种类和他们之间的交互均可能发生变化。这里不同的宿主条件对应着不同的人群。为了便于后续算法优化,引入关联稀疏化的假设,即微生物群落内的关联并非稠密的,而是存在不同的关联子群体,同一群体内部微生物之间交互较为紧密,而不同子群体之间关联较为稀疏。
设向量xi表示第i个样本的测序结果,mi表示对应的宿主变量组成的向量。P维向量hi表示第i个样本中微生物的相对丰度,αi对应微生物的绝对丰度向量。与本发明前期研究基础一致,假设微生物绝对丰度αi决定着DNA文库中微生物的相对丰度hi,并且测序获得的微生物序列数xi与文库中的微生物相对丰度hi有关。第i个样本可以认为是从某个子人群c(i)采样得到。子人群c(i)中的肠道微生物绝对丰度αi变化受到两方面因素的影响:(1)微生物与宿主因素关联的影响,记作Bc(i)*mi;(2)微生物之间关联的作用,这里用隐变量zc(i)表示。同样地,zc(i)服从一个多元高斯分布,包括一个基线向量B0 c(i)和精确度矩阵Θc(i)。这里Bc(i)记录着子人群c(i)中微生物与宿主变量的直接关联,Θc(i)记录着微生物之间的关联。假设数据集中存在着K种宿主条件,即对应K个人群。对于人群c(i)中样本xi的产生式过程为,
zc(i)~N(B0 c(i)c(i))
αi|c(i)~exp(Bc(i)*mi+zc(i))
hi~Dirichlet(αi)
xi~Multinomial(hi),
矩阵Bc(i)和Θc(i)对应着人群c(i)中的微生物关联网络,是需要优化求解的变量。
S102:基于微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
本发明构建肠道微生物知识图谱,存储和表示微生物及其代谢物、宿主免疫和疾病之间的交互关系。实体涵盖不同级别的微生物、代谢物、免疫细胞、细胞因子和疾病,不同类型的实体之间关系包括直接和间接促进或抑制、数量增加或减少、分泌或吸收等。微生物、免疫***和疾病之间可以存在一对多的作用关系,例如多种微生物共同调节某一免疫功能。对于同一类型的实体按照层级关系或包含范围大小进行组织。
MicroPhenoDB(http://www.liwzlab.cn/microphenodb/#/home)由学者人工收集和整理了美国传染病学会指南和NCI词库数据,包含了来自HMDAD和Disbiome数据库的微生物与疾病关联数据,并且设计了一种评分模型对关联的置信度进行打分排序。GIMICA数据库(http://gimica.idrblab.net/ttd/)根据已有文献整理了影响人体微生物的遗传和免疫相关因素,可用于分析微生物与人体免疫***之间的关联。MASI数据库(http://www.aiddlab.com/MASI/about.html)整理了微生物与各类活性物质的交互知识,活性物质包含西药、中草药、食物和其他自然环境中的化合物。首先下载相关知识库数据,对知识库分别进行数据清洗,以统一的文本格式存储。考虑到微生物名称存在缩写、简写等多种表述方式,微生物分级关系不同版本数据库中存在差异的问题,通过抽取各个数据库中微生物名称和物种分级关系,与知识图谱结构对齐和统一。部分数据库中实体之间的关系隐藏在文本语句描述中,需要通过实体和关系抽取与人工校对相结合的方式进行梳理。
基于Pubmed生物医学领域肠道微生物相关文献的英文摘要进行文本挖掘,训练命名体识别模型(Named Entity Recognition,NER)和关系抽取(Relation Extraction)模型。首先爬取英文文献摘要,利用正则表达式和规则等方式抽取潜在训练数据,并通过随机抽取和人工审核方式构建训练语料。在人工审核时,需要记录文献的DOI号、所属期刊信息、实验情况和数据量,用于后续评估该知识的可信度。对训练语料中包含的实体和关系进行标注,实体包含微生物、疾病、药物、代谢物、免疫细胞等名称,关系包含正相关和负相关。抽取结果用三元组(Subject,Predication,Object)表示,例如:(双歧杆菌,负相关,炎症性肠病)。拟基于BioBERT训练NER模型和关系抽取模型,模型如图6所示。
考虑到微生物相关交互知识可能并未经过湿实验验证,而且不同交互知识被文献验证的次数亦存在差别,本发明通过比较参考文献使用的实验和统计方法、数据量等信息,重新以分级的方式赋予知识可信度,便于后续进行分析、筛选和计算。
进一步地,在本发明的一个实施例中,所述利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,包括:
定义微生物交互知识来源于K篇文献,第i篇文献期刊分区级别为Ri,文献所属类别为Ti,样本量为Ni,则该知识的置信度为,
Conf=1/(1+exp(-∑i{W1(Ri)+W2(Ti)+W3(Ni)}));
其中,Wj为相应的权重映射函数。
知识图谱统一存储到图关系数据库Neo4j中,并开发微生物知识检索和查阅的Web服务和Restful API接口,供研究人员查询和后续关键微生物挖掘使用。提供各类型实体和关系的查询、筛选和导出等功能。
在基于关联推断得到的不同人群关联网络结果后,通过比较患者群体和健康人群微生物关联网络的差异,从中挑选出关键节点和连接。关键节点和连接的选择采取规则和统计学检验两种方法进行。规则选取过程首先依据微生物知识图谱,进行关联网络节点的映射,找出关联网络中疾病机制相关的OTU或OTU集合,作为初始的关键节点集。初始关键节点依据知识图谱中的实体类型进行分组,并按照知识置信度进行由高到低排序。然后依次以关键节点为中心,比较在患者人群和健康人群之间子网络的差异,保留对网络差异贡献较大的连接或节点,若初始关键节点在患者和健康人群中无显著差异则跳过。网络差异分析通过计算两个子网络的广义汉明距离(Generalized Hamming Distance,GHD)进行。假设A=(V,EA)和B=(V,EB)是两个图,具有相同的节点集V={1,…,P},以及不同的边集EA和EB。广义汉明距离(GHD)定义为:
GHD(A,B)=1/(P*(P-1))∑(aij-bij)2
这里aij=EA(i,j)–1/(N*(N-1))∑i≠j EA(i,j),EA(i,j)表示网络A中两个微生物之间或微生物与宿主变量之间的关联推断权重。然后通过置换检验(Permutation Test)计算P-value来判断两个网络之间是否有显著差异。
此外,除了利用知识图谱找到的关键微生物集合外,还从网络拓扑结构的角度,自动寻找两个网络之间在拓扑结构上差异较大的节点,拓展关键微生物集合。在寻找重要节点时,比较分析节点的多种指标:度(Degress)、特征向量(Eigenvector)、紧密中心性(Closeness Centrality)、介数中心性(Betweenness Centrality)和聚集系数(Clustering Coefficient)等。知识图谱和关联网络联合分析的算法会封装成软件工具,支持对分析结果的可视化,集成到构建的Web服务中。
S103:通过分析关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
为了基于关联推断和知识图谱寻找到的疾病相关微生物集合细化到菌株级别,本发明首先构建肠道微生物基因组数据库,并对各个菌株进行代谢模型构建。根据人类肠道微生物数据库GMrepo数据分析结果,人体肠道中已有1658属共6914种微生物存在;在MGnify网站上收录了人类肠道微生物基因组拼接和注释的结果Unified HumanGastrointestinal Genome(UHGG)v2.0,包含4744个物种和约29万种原核生物基因组。基于两个数据库的信息进行肠道微生物信息整理,并基于物种名称和ID信息从NCBI Genome数据库中下载各物种包含的菌株基因组数据。此外JGI GOLD数据库(https://gold.jgi.doe.gov/index)中记录了详尽的各类菌株的元数据(分类信息、基因组测序状态、基因组公布时间及质量、是否可培养、所属生态***等),与构建的数据库进行信息映射。基于菌株基因组信息,利用CarveMe自动化基因组注释工具进行代谢模型构建,用于后续微生物群落代谢网络建模。
依据FDA发布的针对活体生物药研发指南《Early Clinical Trials with LiveBiotherapeutic Products:Chemistry,Manufacturing,and Control Information》,从抗药性、毒力因子、肠道屏障移位、与药物相互作用四方面对菌株风险进行评判,对各菌株的潜在风险进行注释和分级。利用ResFinfer 4.0工具进行基因组抗药性(AntimicrobialResistance,AMR)评估。菌株毒性信息通过与VFDB毒力因子数据库进行序列比对获得。菌株肠道屏障移位和与药物相互作用主要依据微生物与活性物质相互作用数据库MASI和其他知识图谱进行判断。依次调用这四种评估模块对菌株风险进行评估,包含毒力因子的菌株直接过滤。
基于关联推断和知识图谱得到的关键微生物集合,首先进行菌株映射,然后进行流平衡分析以确定最优菌株组合。当单个微生物注释结果在属水平时,需要先根据物种进化关系遍历其下属的物种,从而获取菌株信息。当同一属水平(Genus)包含的物种(Species)过多时,基于鸟枪法宏基因组测序数据分析结果,统计肠道微生物群落中属水平下丰度靠前或出现频率较高的物种作为优先选择的对象。当同一物种下包含的菌株数量过多时,需要根据菌株基因组相似性进行聚类和筛选,对较相似的菌株集合挑选代表性基因组。
在得到关键微生物集合对应的可分离培养的菌株组合后,本发明通过流平衡分析评估对疾病患者肠道微生物代谢网络的影响。基于1.1中构建的考虑人群异质性的关联网络,得到患者群体聚类的结果,基于每个聚类结果包含的样本统计微生物的相对丰度,得到患者群体微生物平均分布情况。然后基于微生物的数量分布,以及微生物对应的代谢模型,构建患者群体的肠道微生物代谢网络模型,利用流平衡分析计算代谢物的分布情况。基于代谢物及微生物的分布情况,评估在补充关键菌株后对代谢网络的影响,考察是否能够增加疾病相关代谢物以及微生物的量。通过计算机搜索的方式,对不同的菌株组合进行流平衡分析,寻找能够增加疾病相关代谢物和微生物量、且所需菌株种数较少的结果。在基于流平衡分析得到菌株组合后,借鉴微生物学家自底向上设计LBP的思路,从互补营养缺陷型(Complementary Auxotrophy)和功能冗余性(Metabolic Redundancy)的角度进行菌株组合调整。根据需要补充其他菌株,使得不同菌株之间可以在必需氨基酸、维他命和生长因子等方面能够互补,增强菌株在人体肠道微生物中定植的能力。
进一步地,在本发明的一个实施例中,所述评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合,包括:
从抗药性、毒力因子、肠道屏障移位、与药物相互作用四方面对所述不同菌株组合对患者肠道微生态的影响进行评估。
本发明整体算流程如图7所示,首先考虑肠道微生物人群异质性构建大规模关联推断算法,然后通过构建微生物及其代谢物与宿主免疫和疾病关联知识图谱,结合推断的疾病关联网络进行关键微生物及子网络定位和挖掘,最后结合生物信息学分析和肠道微生物代谢网络流平衡分析进行菌株组合发现,从而构建用于多菌株LBP智能发现的菌株组合筛选算法。算法筛选出的菌株可后续通过动物实验进行验证。
本发明提出一种数据驱动的用于多菌株LBP药物发现的菌株筛选方法,基于肠道微生物大数据关联推断获取微生物群落内部及与宿主潜在交互信息,并整合现有肠道微生物与人体免疫***和疾病机制相关的生物学知识,寻找关键微生物及关联子网络,然后利用流平衡分析技术实现菌株级别的微生物代谢模拟和筛选,从而构建一套新的多菌株LBP智能发现算法。如图5所示,首先运用关联推断算法解析人体肠道微生物基因测序数据,对人体肠道微生物进行***生物学分析,获取微生物群落中各微生物之间以及微生物与宿主疾病之间的可能的关联模式。然后基于计算得到的微生物关联网络,利用疾病、免疫***与微生物相关知识寻找网络中关键模块,即微生物关联网络中影响疾病进展的重要节点和子网络。最后基于寻找到的关键微生物信息,通过分析所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估不同组合对患者肠道微生态的影响,筛选出最优的菌株组合进行动物实验验证。
本发明实施例提出的基于人工智能的菌株筛选方法,针对当前多菌株LBP药物设计依赖动物实验和人工分离培养,缺乏微生物生态学理论支撑,缺少相关生物信息学方法研究的问题,本发明通过整合微生物关联分析、知识图谱和流平衡分析,构建全新的数据驱动的用于多菌株LBP智能发现的菌株筛选算法,有助于促进活菌药物发现的智能化和效率提升,推动多菌株LBP更高效的进入临床,为患者带来帮助。
本发明的整体思路是通过人工智能以及生物信息学方法辅助多菌株LBP药物发现过程中的菌株组合筛选过程。当前发明的第一步是先通过关联推断算法获得每个人群的特征微生物集合,该步骤的结果就是输出健康人和患者相关的微生物集合。所以除了关联推断算法外,其他的用于患者和健康人分类的人工智能算法也可以用于完成该功能,通过构建分类模型,然后加上特征选择就可以得到区分患者和健康人的微生物集合。
为了实现上述实施例,本发明还提出一种基于人工智能的菌株筛选方法,图2为本发明实施例提供的一种基于人工智能的菌株筛选方法示意图。如图2所示,该基于人工智能的菌株筛选方法,包括以下步骤:
S201:运用人工智能算法构建疾病预测模型,通过特征选择获取能够区分疾病患者和健康人的肠道微生物集合,并进一步获取疾病与多种微生物的关联关系,生成微生物关联网络;
S202:基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
S203:通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
为了实现上述实施例,本发明还提出一种基于人工智能的菌株筛选装置。
图3为本发明实施例提供的一种基于人工智能的菌株筛选装置的结构示意图。
如图3所示,该基于人工智能的菌株筛选装置包括:获取模块310,筛选模块320,评估模块330;
其中,获取模块,用于运用关联推断算法解析人体肠道微生物基因测序数据,对人体肠道微生物进行***生物学分析,获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络;
筛选模块,用于基于微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
评估模块,用于通过分析关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
进一步地,在本发明的一个实施例中,获取模块,还用于:
构建层次贝叶斯模型,通过控制所述宿主疾病,记录微生物群落中各微生物以及所述各微生物之间的交互,进一步生成微生物关联网络。
为了实现上述实施例,本发明还提出一种基于人工智能的菌株筛选装置。
如图4所示,该基于人工智能的菌株筛选装置包括:获取模块410,筛选模块420,评估模块430;
获取模块,用于运用人工智能算法构建疾病预测模型,通过特征选择获取能够区分疾病患者和健康人的肠道微生物集合,并进一步获取疾病与多种微生物的关联关系,生成微生物关联网络;
筛选模块,用于基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
评估模块,用于通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于人工智能的菌株筛选方法,其特征在于,包括以下步骤:
运用关联推断算法解析人体肠道微生物基因测序数据,对人体肠道微生物进行***生物学分析,获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络;
基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
2.根据权利要求1所述的方法,其特征在于,所述获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络,包括:
构建层次贝叶斯模型,通过控制所述宿主疾病,记录所述微生物群落中各微生物以及所述各微生物之间的交互,进一步生成微生物关联网络。
3.根据权利要求1所述的方法,其特征在于,所述利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,包括:
定义微生物交互知识来源于K篇文献,第i篇文献期刊分区级别为Ri,文献所属类别为Ti,样本量为Ni,则该知识的置信度为,
Conf=1/(1+exp(-∑i{W1(Ri)+W2(Ti)+W3(Ni)}));
其中Wj为相应的权重映射函数。
4.根据权利要求1所述的方法,其特征在于,所述评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合,包括:
从抗药性、毒力因子、肠道屏障移位、与药物相互作用四方面对所述不同菌株组合对患者肠道微生态的影响进行评估。
5.一种基于人工智能的菌株筛选方法,其特征在于,包括以下步骤:
运用人工智能算法构建疾病预测模型,通过特征选择获取能够区分疾病患者和健康人的肠道微生物集合,并进一步获取疾病与多种微生物的关联关系,生成微生物关联网络;
基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
6.一种基于人工智能的菌株筛选装置,其特征在于,包括:
获取模块,用于运用关联推断算法解析人体肠道微生物基因测序数据,对人体肠道微生物进行***生物学分析,获取微生物群落中各微生物之间以及单个微生物与宿主疾病之间的关联模式,生成微生物关联网络;
筛选模块,用于基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
评估模块,用于通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,还用于:
构建层次贝叶斯模型,通过控制所述宿主疾病,记录所述微生物群落中各微生物以及所述各微生物之间的交互,进一步生成微生物关联网络。
8.一种基于人工智能的菌株筛选装置,其特征在于,包括:
获取模块,用于运用人工智能算法构建疾病预测模型,通过特征选择获取能够区分疾病患者和健康人的肠道微生物集合,并进一步获取疾病与多种微生物的关联关系,生成微生物关联网络;
筛选模块,用于基于所述微生物关联网络,利用疾病、免疫***与微生物相关知识筛选微生物关联网络中影响疾病进展的重要节点和子网络,得到关键微生物信息;
评估模块,用于通过分析所述关键微生物信息所属的可培养的细菌菌株基因组,对不同菌株组合进行微生物代谢网络流平衡分析,评估所述不同菌株组合对患者肠道微生态的影响,筛选出最优的菌株组合。
CN202210465987.9A 2022-04-26 2022-04-26 基于人工智能的菌株筛选方法及装置 Pending CN114944199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210465987.9A CN114944199A (zh) 2022-04-26 2022-04-26 基于人工智能的菌株筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210465987.9A CN114944199A (zh) 2022-04-26 2022-04-26 基于人工智能的菌株筛选方法及装置

Publications (1)

Publication Number Publication Date
CN114944199A true CN114944199A (zh) 2022-08-26

Family

ID=82906399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210465987.9A Pending CN114944199A (zh) 2022-04-26 2022-04-26 基于人工智能的菌株筛选方法及装置

Country Status (1)

Country Link
CN (1) CN114944199A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758976A (zh) * 2023-08-21 2023-09-15 中国建筑设计研究院有限公司 一种功能微生物定量贡献的识别方法
CN117292846A (zh) * 2023-11-27 2023-12-26 神州医疗科技股份有限公司 一种肠道微生物知识图谱的构建方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938524A (zh) * 2016-04-26 2016-09-14 清华大学 一种微生物关联网络预测方法及装置
US20180032668A1 (en) * 2016-07-30 2018-02-01 Tata Consultancy Services Limited Method and system for identification of key driver organisms from microbiome / metagenomics studies
KR102261556B1 (ko) * 2020-10-30 2021-06-07 한밭대학교 산학협력단 학습 데이터셋을 확장하여 학습하는 인공지능 기반의 미생물 균총과 질병의 연관성 예측 시스템 및 프로그램

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938524A (zh) * 2016-04-26 2016-09-14 清华大学 一种微生物关联网络预测方法及装置
US20180032668A1 (en) * 2016-07-30 2018-02-01 Tata Consultancy Services Limited Method and system for identification of key driver organisms from microbiome / metagenomics studies
KR102261556B1 (ko) * 2020-10-30 2021-06-07 한밭대학교 산학협력단 학습 데이터셋을 확장하여 학습하는 인공지능 기반의 미생물 균총과 질병의 연관성 예측 시스템 및 프로그램

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
卞星晨: "基因组规模代谢模型在细菌感染治疗领域的研究进展", 中国感染与化疗杂志, 20 July 2020 (2020-07-20), pages 452 - 456 *
胡政 等: "肠道微生物群落研究进展及合成微生物群落面临的挑战", 集成技术, 31 July 2021 (2021-07-31), pages 102 - 114 *
蒋兴鹏: "微生物组学的大数据研究", 数学建模及其应用, 15 September 2015 (2015-09-15), pages 6 - 18 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758976A (zh) * 2023-08-21 2023-09-15 中国建筑设计研究院有限公司 一种功能微生物定量贡献的识别方法
CN116758976B (zh) * 2023-08-21 2023-12-19 中国建筑设计研究院有限公司 一种功能微生物定量贡献的识别方法
CN117292846A (zh) * 2023-11-27 2023-12-26 神州医疗科技股份有限公司 一种肠道微生物知识图谱的构建方法及装置

Similar Documents

Publication Publication Date Title
Grønbech et al. scVAE: variational auto-encoders for single-cell gene expression data
CN114944199A (zh) 基于人工智能的菌株筛选方法及装置
Zhao et al. Microbes and complex diseases: from experimental results to computational models
KR20190077372A (ko) 준비된 유전자 라이브러리 및 네트워크 기반의 데이타 구조를 이용한 표현형/질환 특이적 유전자 등급화
KR101450784B1 (ko) 전자의무기록과 약물/질환 네트워크 정보 기반의 신약 재창출 후보 예측 방법
US8200589B2 (en) System and method for network association inference, validation and pruning based on integrated constraints from diverse data
US8572018B2 (en) Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology
Chen et al. A comprehensive comparison on cell-type composition inference for spatial transcriptomics data
Chen et al. Trans-species learning of cellular signaling systems with bimodal deep belief networks
Wen et al. A survey on predicting microbe-disease associations: biological data and computational methods
CN107169259A (zh) 基于协同过滤和建议的个性化医学决定支持***
Zhou et al. A drug-side effect context-sensitive network approach for drug target prediction
Yang et al. GutBalance: a server for the human gut microbiome-based disease prediction and biomarker discovery with compositionality addressed
Schleicher et al. Facing the challenges of multiscale modelling of bacterial and fungal pathogen–host interactions
Ma et al. NinimHMDA: neural integration of neighborhood information on a multiplex heterogeneous network for multiple types of human microbe–disease association
CN115114445A (zh) 细胞知识图谱构建方法、装置、计算设备及存储介质
Cobo-López et al. Stochastic block models reveal a robust nested pattern in healthy human gut microbiomes
Mandal et al. A study of bio-inspired computing in bioinformatics: a state-of-the-art literature survey
Sikora et al. Induction and selection of the most interesting Gene Ontology based multiattribute rules for descriptions of gene groups
Feng et al. E-TSN: an interactive visual exploration platform for target–disease knowledge mapping from literature
CN111816276B (zh) 患教教程推荐方法、装置、计算机设备和存储介质
Shen et al. A universal approach for integrating super large-scale single-cell transcriptomes by exploring gene rankings
Chang et al. Phenotate: crowdsourcing phenotype annotations as exercises in undergraduate classes
Dörpinghaus et al. A novel link prediction approach on clinical knowledge graphs utilising graph structures
Reddy et al. Real-time data mining-based cancer disease classification using KEGG gene dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination