CN114736970B - 一种鉴别不同人群的方法 - Google Patents
一种鉴别不同人群的方法 Download PDFInfo
- Publication number
- CN114736970B CN114736970B CN202210221732.8A CN202210221732A CN114736970B CN 114736970 B CN114736970 B CN 114736970B CN 202210221732 A CN202210221732 A CN 202210221732A CN 114736970 B CN114736970 B CN 114736970B
- Authority
- CN
- China
- Prior art keywords
- ethnic groups
- sample
- group
- different ethnic
- klebsiella
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/689—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A50/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
- Y02A50/30—Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种鉴别不同人群的方法,具体的,本发明首次公开了23种微生物可用于鉴别或区分不同民族人群,所述不同民族人群为汉族人群和藏族人群。此外,本发明还提供了微生物在构建不同人群的分类模型中的应用。
Description
技术领域
本发明属于生物医药领域,具体涉及一种鉴别不同人群的方法。
背景技术
大多数肠道微生物对人体生理和健康都有着重要影响,它们对人类生命至关重要。肠道菌群与肠道细胞之间的相互作用可以调节屏障功能,不断刺激免疫***防御病原体。肠道菌群与宿主之间的平衡如果发生了改变,可能会导致机体产生各种疾病。高海拔地区缺氧环境的人群成功地在极端环境条件下逐代繁衍,因此其对高海拔地区缺氧环境的快速适应机制也一直是科学家们关注的热点问题。长期生活在极端环境中的人群独特的饮食习惯和生活方式使得他们的肠道菌群具有独特结构组成,研究菌群的特殊结构与藏族的疾病的关系,有利于探讨高原疾病发生机理。
发明内容
本发明的第一目的在于提供微生物在鉴别或区分不同民族人群中的应用;
本发明的第二目的在于提供一种鉴别或区分不同民族人群的方法。
为实现上述目的,本发明采用了如下技术方案:
本发明第一方面提供了一种可用于鉴别或区分不同民族人群的试剂,所述的试剂能够检测微生物的丰度水平,所述的微生物包括s_Actinobacillus succinogenes、s_Actinomyces sp.HMSC035G02、s_Alistipes indistinctus、s_Citrobacter sp.MGH110、s_Clostridium sp.CAG_58、s_Cohnella sp.OV330、s_Fibrobacter sp.UWOV1、s_Klebsiellasp.OBRC7、s_Klebsiella variicola、s_Kluyvera ascorbata、s_Kytococcussedentarius、s_Lactobacillus kefiranofaciens、s_Lactococcus garvieae、s_Lysobacter enzymogenes、s_Olsenella umbonata、s_Paenibacillus massiliensis、s_Pantoea ananatis、s_Peptostreptococcus sp.D1、s_Porphyromonas sp.HMSC065F10、s_Prevotella aurantiaca、s_Slackia piriformis、s_Candidatus Saccharibacteria oraltaxon TM7x和/或s_Lachnospiraceae bacterium KHCPX20。
术语“和/或”是指并且包括一个或多个相关联的所列项目的任何和所有可能的组合,以及在备选方案(或)中解释时缺少组合。
术语“丰度”是指生物样品中目标微生物的数量的量度。“丰度”也被称为“负载”。一般通过分子方法,典型地通过例如荧光原位杂交(FISH)、定量聚合酶链反应(qPCR)或PCR/焦磷酸测序测定所述的目标微生物的16SrRNA基因拷贝数,进行细菌定量。生物样品内目标核酸序列丰度的定量可能是绝对的或相对的。“相对定量”通常是基于一个或多个内部参考基因,即来自参考菌株的16S rRNA基因,比如使用通用引物并且将目标核酸序列的丰度表达为总细菌16S rRNA基因拷贝的百分比或通过大肠杆菌16SrRNA基因拷贝归一化而测定的细菌。“绝对定量”通过与DNA标准进行比较或通过DNA浓度归一化来给出目标分子的确切数目。
本文所使用的术语“生物样品”指的是从患者处获得的流体样品、细胞样品、组织样品或器官样品。在一些实施方式中,从受试者处获得细胞或细胞群、或一定量的组织或体液。“生物样品”经常可包括来自动物的细胞,但该术语也可以指非细胞的生物材料,如可用于检测微生物的存在或类别的血液、唾液或尿液的非细胞部分。生物样品包括但不仅限于:活组织切片、刮取物(如口腔刮取物)、全血、血浆、血清、尿液、唾液、细胞培养物、活组织切片、粘膜样品、粪便、肠灌洗物、关节液、脑脊液、胆汁样品、呼吸道分泌物(如痰)、支气管肺泡灌洗液样品等。生物样品或组织样品可以指由个体分离的组织或流体,包括但不仅限于,例如,血、血浆、血清、尿、粪便、痰、脊髓液、胸膜液、淋巴液;皮肤、呼吸道、肠道和泌尿生殖道的外层;眼泪、唾液;和器官。样品可包括冷冻组织。术语“样品”还涵盖任何由对此类样品进行进一步加工而衍生的材料。衍生样品可包括例如由样品提取的核酸或蛋白;或经由将所述样品进行如核酸扩增或mRNA逆转录,或对特定核酸、蛋白、其它细胞质组分或核组分进行分离和/或纯化等技术而获得的核酸或蛋白。
进一步,所述的试剂包括引物、探针、反义寡核苷酸、适配体或抗体。
术语“引物”指的是能够形成与模板链互补的碱基对(bas e pair),并且起到用于复制模板链的起始点作用的7个~50个核酸序列。引物通常合成而得,但也可以使用自然生成的核酸。引物的序列并不一定需要与模板的序列完全相同,只要充分互补而能够与模板杂交即可。可以混入不改变引物的基本性质的追加特征。作为可以混入的追加特征的例子,有甲基化、带帽、一个以上的核酸被同系物取代和核酸间的修饰,但不限于此。
术语“杂交”指的是两个互补的核酸链在适当严格的条件下彼此退火结合。通常利用探针长度的核酸分子来进行杂交。核酸杂交技术在现有技术中是公知的。本领域的技术人员了解如何估计和调整杂交条件的严格度,使得具有至少所需程度的互补性的序列将稳定地杂交,而具有较低互补性的序列将不能稳定地杂交。
术语“探针”指的是能与另一分子的特定序列或亚序列或其它部分结合的分子。除非另有指出,术语“探针”通常指能通过互补碱基配对与另一多核苷酸(往往称为“靶多核苷酸”)结合的多核苷酸探针。根据杂交条件的严谨性,探针能和与该探针缺乏完全序列互补性的靶多核苷酸结合。探针可作直接或间接的标记,其范围包括引物。杂交方式包括,但不限于:溶液相、固相、混合相或原位杂交测定法。
术语“寡核苷酸”指的是由脱氧核糖核苷酸、核糖核苷酸或其任意组合构成的短聚合物。寡核苷酸的长度通常在大10个核苷酸和大约100个核苷酸之间。寡核苷酸优选地长度为15个核苷酸到70个核苷酸,最通常的是20个核苷酸到26个核苷酸。寡核苷酸可以用作引物或探针。
术语“适配体”是通过链内碱基间的氢键作用折叠形成稳定的发卡、茎环、假结、口袋、凸环和G-四链体等二级或三级结构,并与靶标产生空间结构匹配的高亲和力和特异性结合的核糖核酸和单链脱氧核糖核酸。
在本发明中,术语“抗体”以最广义使用,而且具体涵盖例如单克隆抗体,多克隆抗体,具有多表位特异性的抗体,单链抗体,多特异性抗体和抗体片段。此类抗体可以是嵌合的,人源化的,人的和合成的。
本发明第二方面提供了本发明第一方面所述的试剂在制备用于鉴别或区分不同民族人群的产品中的应用。
进一步,所述的产品包括试剂盒、芯片或高通量测序平台。
术语“芯片”可指具有附着有吸附剂的、一般为平面的表面的固体基底。生物芯片的表面可包含多个可寻址的位置,其中每个位置可结合有吸附剂。生物芯片可适合于接合探针接口,并因此用作探针。蛋白质生物芯片适用于捕获多肽,并可包含在可寻址位置处附着有层析或生物特异性吸附剂的表面。微阵列芯片一般用于DNA和RNA基因表达检测。
进一步,所述的不同民族人群包括汉族人群、藏族人群。
本发明第三方面提供了微生物在构建不同民族人群的分类模型中的应用,所述的微生物包括s_Actinobacillus succinogenes、s_Actinomyces sp.HMSC035G02、s_Alistipes indistinctus、s_Citrobacter sp.MGH110、s_Clostridium sp.CAG_58、s_Cohnella sp.OV330、s_Fibrobacter sp.UWOV1、s_Klebsiella sp.OBRC7、s_Klebsiellavariicola、s_Kluyvera ascorbata、s_Kytococcus sedentarius、s_Lactobacilluskefiranofaciens、s_Lactococcus garvieae、s_Lysobacter enzymogenes、s_Olsenellaumbonata、s_Paenibacillus massiliensis、s_Pantoea ananatis、s_Peptostreptococcussp.D1、s_Porphyromonas sp.HMSC065F10、s_Prevotella aurantiaca、s_Slackiapiriformis、s_Candidatus Saccharibacteria oral taxon TM7x和/或s_Lachnospiraceae bacterium KHCPX20。
进一步,所述的不同民族人群的分类模型使用选自以下一种或更多种算法来确定:XGBoost、随机森林、glmnet、cforest、机器学习的分类与回归树、treebag、K-毗邻、神经网络、支持向量机径向、支持向量机线性、朴素贝叶斯或多层感知。
在本发明中,“模型”是任何数学方程式,算法,分析或程序化过程或统计技术,其采用一个或多个连续或分类输入并计算输出值,有时称为“索引”,“索引值”,“预测器”,“预测值”,“概率”或“概率得分”。“公式”的非限制性示例包括和、比率以及回归算子,例如系数或指数,生物标志物值转换和标准化,规则和指南,统计分类模型以及对历史群体进行训练的神经网络。在组(panel)和组合构造中,特别有趣的是结构和句法统计分类算法,以及利用模式识别特征的风险指数构建方法,包括已建立的技术,例如互相关,主成分分析(PCA),因子旋转,对数回归(LogReg),线性判别分析(LDA),特征基因线性判别分析(EigengeneLinearDiscriminant Analysis,ELDA),支持向量机(Support Vector Machines,SVM),随机森林(Random Forest,RF),递归分区树(RPART)、XGBoost(XGB)以及其他相关的决策树分类技术,ShrunkenCentroids(SC),StepAIC,最近的Kth邻居(Kth-Nearest Neighbor),Boosting,决策树(Decision Trees),神经网络,贝叶斯网络,支持向量机和隐马尔可夫模型(Hidden MarkovModels)等。还进一步实现了许多此类算法技术,以执行特征(基因座)选择和规则化(regularization)规则化,例如在岭回归(ridge regression),lasso和elastic net等中。其他技术可用于生存和事件前时间危险分析(time to event hazardanalysis)中,包括本领域技术人员众所周知的Cox,Weibull,Kaplan-Meier和Greenwood模型。这些技术中的许多技术都可以与生物标志物选择技术结合使用,例如正向选择,后向选择或逐步选择,给定大小的所有潜在生物标志物集或组的完整枚举,遗传算法或它们本身可以包括生物标志物选择方法。这些可以与信息标准结合使用,例如Akaike的信息标准(Akaike'sInformation Criterion,AIC)或贝叶斯信息标准(Bayes InformationCriterion,BIC),以便量化其他生物标志物和模型改进之间的权衡,并有助于最小化过度拟合。生成的预测模型可以在其他研究中进行验证,或在它们最初进行培训的研究中交叉验证,使用诸如Bootstrap,Leave-One-Out(LOO)和10倍交叉验证(10-Fold cross-validation)(10倍CV)等技术进行。在各个步骤,可以根据本领域已知的技术通过值排列来估计错误发现率。
本发明第四方面提供了一种鉴别或区分不同民族人群的方法,所述的方法包括检测微生物的丰度水平,所述的微生物包括s_Actinobacillus succinogenes、s_Actinomyces sp.HMSC035G02、s_Alistipes indistinctus、s_Citrobacter sp.MGH110、s_Clostridium sp.CAG_58、s_Cohnella sp.OV330、s_Fibrobacter sp.UWOV1、s_Klebsiellasp.OBRC7、s_Klebsiella variicola、s_Kluyvera ascorbata、s_Kytococcussedentarius、s_Lactobacillus kefiranofaciens、s_Lactococcus garvieae、s_Lysobacter enzymogenes、s_Olsenella umbonata、s_Paenibacillus massiliensis、s_Pantoea ananatis、s_Peptostreptococcus sp.D1、s_Porphyromonas sp.HMSC065F10、s_Prevotella aurantiaca、s_Slackia piriformis、s_Candidatus Saccharibacteria oraltaxon TM7x和/或s_Lachnospiraceae bacterium KHCPX20。
进一步,所述的检测受试者样本中微生物的丰度水平通过以下任意一种或多种方法来实现:16S rRNA测序、全基因组测序、定量聚合酶链反应、PCR-焦磷酸测序、荧光原位杂交、微阵列、PCR-ELISA。
术语“测序”是指测定核酸分子(例如,DNA或RNA核酸分子)中的核苷酸碱基——A、T、C、G和U——的顺序的测序方法。
术语“宏基因组”("metagenome")涉及包括在诸如土壤、动物肠等分离的区域中的所有病毒、细菌、真菌等的全部基因组,并且主要用作基因组的概念,其解释了使用测序仪一次鉴定许多微生物以分析非培养的微生物。特别地,宏基因组不是指一种物种的基因组,而是指基因组的混合物,包括环境单位的所有物种的基因组。这个术语源于这样一种观点:当在生物学发展到组学(omics)的过程中定义一个物种时,各种物种以及现有的一个物种在功能上相互作用以形成完整的物种。在技术上,它是使用快速测序以识别一个环境中的所有物种并验证相互作用和代谢来分析所有DNA和RNA的技术的主题,无论物种如何都如此。
术语“核酸”泛指:染色体的段;DNA、cDNA和/或RNA的段或部分。核酸可以自最初与任何源分离的核酸样本(例如,与样本DNA或RNA分离、从样本DNA或RNA纯化、扩增、克隆或逆转录)获取或获得。
术语“16S”、“16S核糖体亚基”和“16S核糖体RNA(rRNA)”可在本文中互换使用,并且可指原核生物(例如细菌、古细菌)核糖体小亚基(例如30S)的组分。16S rRNA在微生物物种之间在进化上是高度保守的。因此,16S核糖体亚基的测序可用于鉴定和/或比较样品中存在的微生物(例如微生物组)。
本发明第五方面提供了一种鉴别或区分不同民族人群的***,包括以下单元:
1)检测单元:包括微生物检测模块;
2)分析单元:将检测单元检测得到的微生物的丰度水平作为输入变量,输入不同种族的分类模型进行分析;
3)评估单元:输出样本对应的个体为汉族/藏族的概率值;
所述的微生物包括s_Actinobacillus succinogenes、s_Actinomycessp.HMSC035G02、s_Alistipes indistinctus、s_Citrobacter sp.MGH110、s_Clostridiumsp.CAG_58、s_Cohnella sp.OV330、s_Fibrobacter sp.UWOV1、s_Klebsiella sp.OBRC7、s_Klebsiella variicola、s_Kluyvera ascorbata、s_Kytococcus sedentarius、s_Lactobacillus kefiranofaciens、s_Lactococcus garvieae、s_Lysobacterenzymogenes、s_Olsenella umbonata、s_Paenibacillus massiliensis、s_Pantoeaananatis、s_Peptostreptococcus sp.D1、s_Porphyromonas sp.HMSC065F10、s_Prevotella aurantiaca、s_Slackia piriformis、s_Candidatus Saccharibacteria oraltaxon TM7x和/或s_Lachnospiraceae bacterium KHCPX20。
附图说明
图1为每个特征的贡献值结果图;
图2为特征数目与AUC值对应关系图;
图3为最优模型的ROC曲线。
具体实施方式
下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于说明本发明而不用于限制本发明的范围。实施例中未注明具体条件的实验方法,通常按照常规条件,或按照制造厂商所建议的条件。
实施例1汉族人群和藏族人群的分类模型
一、人群信息
汉族人群:Han1k_HT(生活在平原的汉族,来源于新疆,182人);Han4k_b3m(下高原后在平原生活3个月后的汉族人群,92人);Han4k_1w(到高原1周后的汉族人群,85人);Han4k_6m(去高原生活半年后的人群,63人);Han1k_YC(生活在平原的汉族,来源于新疆,143人);Han1k_ZP(生活在平原地区的汉族,来源于新疆,43人);Han4k(在高原生活超过一年的汉族人群,30人);
藏族人群:Tibetan4k(一直生活在高原的藏族人,138人)。
二、实验方法
1、粪便样本采集与DNA提取
收集上述人群的粪便样品后采用试剂盒进行DNA提取,得到提取的DNA样本。
2、宏基因组高通量测序及分析
采用Illumina HiSeq测序平台测序,共获得5,933,464.129,999,99Mbp的原始数据(Raw Data)(平均数据量7,756.16Mbp),经过质控得到5,885,567.3Mbp的有效数据(Clean Data)(平均数据量为7,693.55Mbp),经过单样品组装及混合组装后,共得到97,165,177,458bp的Scaftigs。对各样品及混合组装的结果,采用MetaGeneMark软件进行基因预测,共得到123,459,411个开放阅读框(ORFs)(平均为161,385),经过去冗余后,共获得6,727,989个ORFs,总长为4,584.45Mbp,其中完整基因的个数为3,686,582,所占比例为54.79%。非冗余基因集与MicroNR库进行blastp比对,运用LCA算法进行物种注释,注释到属和门的比例分别为65.11%,86.00%。
(1)测序数据预处理
质控结果概述:总共测序数据量为5,933,464.129,999,99Mbp,平均测序数据量为7,756.16Mbp,质控后总体数据量及平均数据量分别为5,885,567.3Mbp,7,693.55Mbp,质控的有效数据率为99.19%。
数据预处理的具体处理步骤如下:
1)去除所含低质量碱基(质量值<=38)超过一定比例(默认设为40bp)的reads;
2)去除N碱基达到一定比例的reads(默认设为10bp);
3)去除与Adapter之间overlap超过一定阈值(默认设为15bp)的reads;
4)如果样品存在宿主污染,需与宿主数据库进行比对,过滤掉可能来源于宿主的reads;
(2)Metagenome组装
组装结果概述:共组装得到105,500,331,957bp的Scaffolds,平均长度为1,934.98bp,最大长度为1,733,071bp,N50为4,517.84bp,N90为692.50bp;从N处打断Scaffolds,生成Scaftigs,共得到97,165,177,458bp的Scaftigs,Scaftigs平均长度为1,868bp,N50为4,139bp,N90为678bp。
Metagenome组装的具体处理步骤如下:
1)经过预处理后得到Clean Data,使用SOAP denovo组装软件进行组装;
2)对于单个样品,首先选取一个K-mer(默认选取55)进行组装,得到该样品的组装结果;
3)将组装得到的Scaffolds从N连接处打断,得到不含N的序列片段,称为Scaftigs(i.e.,continuous sequences within scaffolds);
4)将各样品质控后的CleanData采用Bowtie2软件比对至各样品组装后的Scaftigs上,获取未被利用上的PE reads;
5)将各样品未被利用上的reads放在一起,进行混合组装,组装时,考虑到计算消耗和时间消耗,只选取一个kmer进行组装(默认-K 55),其他组装参数与单样品组装参数相同;
6)将混合组装的Scaffolds从N连接处打断,得到不含N的Scaftigs序列;
7)对于单样品和混合组装生成的Scaftigs,过滤掉500bp以下的片段,并进行统计分析和后续基因预测;
(3)基因预测及丰度分析
基因预测结果概述:一共预测得到123,459,411条ORFs,平均每个样品161,385条ORFs;经去冗余后,得到6,727,989条ORFs,去冗余后的ORFs总长为4,584.45Mbp,平均长度681.4bp,GC含量为45.77%,其中,完整基因有3,686,582个,占所有非冗余基因总数的54.79%。
基因预测基本步骤:
1)从各样品及混合组装的Scaftigs(>=500bp)出发,采用MetaGeneMark进行ORF(Open Reading Frame)预测及过滤;
2)对各样品及混合组装的ORF预测结果,采用CD-HIT软件进行去冗余;
3)将各样品的Clean Data比对至去冗余后的代表性基因上,计算得到基因在各样品中比对上的reads数目;
4)过滤掉在各个样品中,不存在支持reads数目>2的基因,获得最终用于后续分析的gene catalogue(Unigenes);
5)从比对上的reads数目及基因长度出发,计算得到各基因在各样品中的丰度信息;
6)基于gene catalogue中各基因在各样品中的丰度信息,进行基本信息统计,core-pan基因分析,样品间相关性分析,及基因数目韦恩图分析。
(4)物种注释
物种注释结果概述:原始去冗余后的预测基因共有6,727,989条,其中,能够注释到NR数据库的ORFs数目为5,317,849(79.04%),在能够注释到NR数据库的ORFs中,注释到界水平的比例为88.82%,门水平的比例为86.00%,纲水平的比例为81.43%,目水平的比例为80.77%,科水平的比例为69.52%,属水平的比例为65.11%,种水平的比例为49.00%。其中占主导地位的门主要包括Firmicutes,Proteobacteria,Bacteroidetes等。组间具有显著性差异的门主要有k__Bacteria\;p__Actinobacteria,k__Bacteria\;p__Chlamydiae,k__Archaea\;p__Euryarchaeota等。
注释基本步骤:
1)使用DIAMOND软件将Unigenes与从NCBI的NR(Version:2018.01)数据库中抽提出的细菌(Bacteria)、真菌(Fungi)、古菌(Archaea)和病毒(Viruses)序列进行比对(blastp,evalue<=1e-5);
2)比对结果过滤:对于每一条序列的比对结果,选取evalue<=最小evalue*10的比对结果进行后续分析;
3)过滤后,采取LCA算法(应用于MEGAN软件的***分类),将出现第一个分支前的分类级别,作为各序列的物种注释信息;
4)从LCA注释结果及基因丰度表出发,获得各个样品在各个分类层级(界门纲目科属种)上的丰度信息和基因数目信息;
5)从各个分类层级(界门纲目科属种)上的丰度表出发,进行Krona分析,相对丰度概况展示,丰度聚类热图展示,PCA和NMDS降维分析,Anosim组间(内)差异分析,组间差异物种的Metastat和LEfSe多元统计分析。
3、分类模型的构建
利用上述流程得到的微生物物种丰度信息表建立机器学习分类模型。
基于XGBoost(eXtreme Gradient Boosting)选取不同数量的肠道微生物特征对上述汉族人群和藏族人群做分类,并使用十折交叉验证的方式最终取AUC值(ROC曲线下方的面积大小)的平均值,每次随机取数据的70%作为训练集,剩余的30%作为测试集,最终筛选出最优分类模型包含的23个特征:s_Actinobacillus succinogenes、s_Actinomycessp.HMSC035G02、s_Alistipes indistinctus、s_Citrobacter sp.MGH110、s_Clostridiumsp.CAG_58、s_Cohnella sp.OV330、s_Fibrobacter sp.UWOV1、s_Klebsiella sp.OBRC7、s_Klebsiella variicola、s_Kluyvera ascorbata、s_Kytococcus sedentarius、s_Lactobacillus kefiranofaciens、s_Lactococcus garvieae、s_Lysobacterenzymogenes、s_Olsenella umbonata、s_Paenibacillus massiliensis、s_Pantoeaananatis、s_Peptostreptococcus sp.D1、s_Porphyromonas sp.HMSC065F10、s_Prevotella aurantiaca、s_Slackia piriformis、s_Candidatus Saccharibacteria oraltaxon TM7x、s_Lachnospiraceae bacterium KHCPX20。
三、实验结果
基于23个特征构建的模型为最优模型。图1为每个特征的贡献值结果图;图2为特征数目与AUC值对应关系图。
图3为最优模型的ROC曲线,AUC=0.97±0.02,P<0.01,说明利用这些微生物构建的模型可以准确区分汉族人群和藏族人群。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。
此外,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
Claims (5)
1.检测微生物丰度水平的试剂在制备用于鉴别或区分不同民族人群的产品中的应用,其特征在于,所述微生物包括s_Actinobacillus succinogenes、s_Actinomycessp.HMSC035G02、s_Alistipes indistinctus、s_Citrobacter sp.MGH110、s_Clostridiumsp.CAG_58、s_Cohnella sp.OV330、s_Fibrobacter sp.UWOV1、s_Klebsiella sp.OBRC7、s_Klebsiella variicola、s_Kluyvera ascorbata、s_Kytococcus sedentarius、s_Lactobacillus kefiranofaciens、s_Lactococcus garvieae、s_Lysobacterenzymogenes、s_Olsenella umbonata、s_Paenibacillus massiliensis、s_Pantoeaananatis、s_Peptostreptococcus sp.D1、s_Porphyromonas sp.HMSC065F10、s_Prevotella aurantiaca、s_Slackia piriformis、s_Candidatus Saccharibacteria oraltaxon TM7x和s_Lachnospiraceae bacterium KHCPX20;
所述不同民族人群为汉族人群和藏族人群。
2.根据权利要求1所述的应用,其特征在于,所述试剂包括引物、探针、反义寡核苷酸、适配体或抗体。
3.根据权利要求1所述的应用,其特征在于,所述的产品包括试剂盒、芯片或高通量测序平台。
4.微生物在构建不同民族人群的分类模型中的应用,其特征在于,所述微生物包括s_Actinobacillus succinogenes、s_Actinomyces sp.HMSC035G02、s_Alistipesindistinctus、s_Citrobacter sp.MGH110、s_Clostridium sp.CAG_58、s_Cohnellasp.OV330、s_Fibrobacter sp.UWOV1、s_Klebsiella sp.OBRC7、s_Klebsiella variicola、s_Kluyvera ascorbata、s_Kytococcus sedentarius、s_Lactobacilluskefiranofaciens、s_Lactococcus garvieae、s_Lysobacter enzymogenes、s_Olsenellaumbonata、s_Paenibacillus massiliensis、s_Pantoea ananatis、s_Peptostreptococcussp.D1、s_Porphyromonas sp.HMSC065F10、s_Prevotella aurantiaca、s_Slackiapiriformis、s_Candidatus Saccharibacteria oral taxon TM7x和s_Lachnospiraceaebacterium KHCPX20;
所述不同民族人群为汉族人群和藏族人群。
5.根据权利要求4所述的应用,其特征在于,所述的不同民族人群的分类模型使用选自以下一种或更多种算法来确定:XGBoost、随机森林、glmnet、cforest、机器学习的分类与回归树、treebag、K-毗邻、神经网络、支持向量机径向、支持向量机线性、朴素贝叶斯或多层感知。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221732.8A CN114736970B (zh) | 2022-03-09 | 2022-03-09 | 一种鉴别不同人群的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221732.8A CN114736970B (zh) | 2022-03-09 | 2022-03-09 | 一种鉴别不同人群的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114736970A CN114736970A (zh) | 2022-07-12 |
CN114736970B true CN114736970B (zh) | 2023-06-30 |
Family
ID=82274350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210221732.8A Active CN114736970B (zh) | 2022-03-09 | 2022-03-09 | 一种鉴别不同人群的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114736970B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109913524B (zh) * | 2019-02-13 | 2021-05-04 | 中国人民解放军总医院 | 普雷沃菌属在鉴别和/或区分不同民族个体中的应用 |
CN114023386A (zh) * | 2021-10-26 | 2022-02-08 | 艾德范思(北京)医学检验实验室有限公司 | 宏基因组数据分析及特征菌筛选方法 |
CN114093411B (zh) * | 2021-11-29 | 2022-08-09 | 中国人民解放军总医院 | 基于样本的微生物群体的进化关系和丰度信息的分析方法及设备 |
-
2022
- 2022-03-09 CN CN202210221732.8A patent/CN114736970B/zh active Active
Non-Patent Citations (2)
Title |
---|
刘峡壁等.人工智能 机器学习与神经网络.《人工智能 机器学习与神经网络》.国防工业出版社,2020, * |
鄢仁祥等.蛋白质结构生物信息学.《蛋白质结构生物信息学》.福建科学技术出版社,2017, * |
Also Published As
Publication number | Publication date |
---|---|
CN114736970A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020513856A (ja) | 大腸癌の複合バイオマーカーを特定するための配列ベースの糞便微生物群調査データの活用 | |
CN110283903B (zh) | 用于诊断胰腺炎的肠道微生物菌群 | |
CA3169914A1 (en) | Cancer classification with genomic region modeling | |
CN111315884A (zh) | 测序文库的归一化 | |
CN111411150B (zh) | 诊断肌少症的肠道菌群及其应用 | |
US20220073986A1 (en) | Method of characterizing a neurodegenerative pathology | |
EP2825673A1 (en) | Method, kit and array for biomarker validation and clinical use | |
Vancuren et al. | Evaluation of variant calling for cpn60 barcode sequence-based microbiome profiling | |
JP2024099818A (ja) | 移植片拒絶を検出する方法およびシステム | |
CN113637744B (zh) | 微生物标志物在判断急性胰腺炎病程进展中的应用 | |
CN115261499B (zh) | 耐力相关的肠道微生物标记物及其应用 | |
CN114736970B (zh) | 一种鉴别不同人群的方法 | |
CN114566224B (zh) | 一种用于鉴别或区分不同海拔人群的模型及其应用 | |
CN108026532A (zh) | 新型mirna生物标志物及其用途 | |
CN114875118B (zh) | 确定细胞谱系的方法、试剂盒和装置 | |
EP4159873A1 (en) | Method for treating cell population and method for analyzing genes included in cell population | |
CN101457254A (zh) | 肝癌预后 | |
CN113584190A (zh) | 一种诊断草酸钙结石的肠道菌群标志物及其应用 | |
CN111662992A (zh) | 与急性胰腺炎相关的菌群及其应用 | |
CN114839369B (zh) | 急性高原反应微生物标志物及其应用 | |
CN113637782B (zh) | 与急性胰腺炎病程进展相关的微生物标志物及其应用 | |
CN115261500B (zh) | 爆发力相关的肠道微生物标记物及其应用 | |
CN108103064A (zh) | 长链非编码rna及其应用 | |
Ogundolie et al. | Microbiome characterization and identification: key emphasis on molecular approaches | |
CN112634983A (zh) | 病原物种特异pcr引物优化设计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |