CN106778071A - 用以分析细菌菌种的测序数据的***及其方法 - Google Patents
用以分析细菌菌种的测序数据的***及其方法 Download PDFInfo
- Publication number
- CN106778071A CN106778071A CN201610083766.XA CN201610083766A CN106778071A CN 106778071 A CN106778071 A CN 106778071A CN 201610083766 A CN201610083766 A CN 201610083766A CN 106778071 A CN106778071 A CN 106778071A
- Authority
- CN
- China
- Prior art keywords
- genetic fragment
- sequence
- corpse
- variable region
- laboratory examination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title abstract description 20
- 230000001580 bacterial effect Effects 0.000 title abstract 5
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 72
- 238000013098 chemical test method Methods 0.000 claims description 92
- 239000012634 fragment Substances 0.000 claims description 82
- 230000002068 genetic effect Effects 0.000 claims description 79
- 241000894006 Bacteria Species 0.000 claims description 53
- FRXSZNDVFUDTIR-UHFFFAOYSA-N 6-methoxy-1,2,3,4-tetrahydroquinoline Chemical compound N1CCCC2=CC(OC)=CC=C21 FRXSZNDVFUDTIR-UHFFFAOYSA-N 0.000 claims description 38
- 230000003252 repetitive effect Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 108020004465 16S ribosomal RNA Proteins 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002538 fungal effect Effects 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 208000037062 Polyps Diseases 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 210000000936 intestine Anatomy 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010048723 Multiple-drug resistance Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000002052 colonoscopy Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000002429 large intestine Anatomy 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000008488 polyadenylation Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 210000005000 reproductive tract Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明涉及一种用以分析细菌菌种的测序数据的***及其方法。用以分析细菌菌种的测序数据的方法包含:搜索第一基因样本序列中的特定变异区域以及搜索第二基因样本序列中的另一特定变异区域;判断特定变异区域与另一特定变异区域是否存在相同的一跨检体子序列;当特定变异区域与另一特定变异区域存在相同的跨检体子序列时,储存跨检体子序列至记录表中;当存在跨检体子序列时,将跨检体子序列与一数据库模块中的多个已知菌种基因序列进行比对,以分析该第一基因样本序列与第二基因样本序列中对应跨检体子序列的菌种。由此减少测序数据的***的运算量,以达到提升分析检体数据速度的功效。
Description
技术领域
本发明涉及一种用以分析细菌菌种的测序数据的***及其方法,且特别是涉及一种针对单一检体及跨检体重复序列进行检测的用以分析细菌菌种的测序数据的***及其方法。
背景技术
随着生物科技的日益发展,基因测序的工作越来越完整,对于人体共生菌的研究变得非常重要。目前已知人体身上约100兆的共生菌所组成,这些共生菌的数量比人体全部的细胞整整多了十倍。此外,人体的肠胃道、皮肤、口腔、呼吸道、生殖道等等地方也有共生菌的存在,统称为菌相,这些菌相与免疫、代谢、发育,神经***等等皆息息相关。
其中,科学家们已知利用16S核糖体RNA(16S rRNA)序列的测序,解构出人类肠道菌的种类分布,因此可利用将16S rRNA基因标定并扩增复制序列后,经过测序及根据测序的质量做前处理,再将序列与16S rRNA数据库做组序、贴序的步骤,以区分出物种。而相似性高的物种将会归类到同一个可操作性的分类单位体(operational taxonomic unit,OTU),最后统计分析不同检体的菌向差异。
然而,在传统上,若要分析多组检体数据,则需要耗费的时程及运算量是相当可观的,因此如何减少***的运算量,以提升分析检体数据的速度,已成为本领域需要解决的问题之一。
发明内容
为解决上述的问题,本发明的一个方面提供一种用以分析细菌菌种的测序数据的***。用以分析细菌菌种的测序数据的***包含:单一检体去重复序列模块、跨检体重复序列判断模块、重复序列记录模块以及运算贴序模块。单一检体去重复序列模块用以搜索第一基因样本序列中的第一保守区域及特定变异区域,并将第一保守区域移除。跨检体重复序列判断模块用以判断特定变异区域是否存在与第二基因序列中的另一特定变异区域相同的跨检体子序列。重复序列记录模块用以当特定变异区域存在与第二菌体样本中的另一特定变异区域相同的跨检体子序列时,储存跨检体子序列至记录表中。运算贴序模块用以当存在跨检体子序列时,将跨检体子序列与数据库模块中的多个已知菌种基因序列进行比对,以分析第一基因样本序列与第二基因样本序列中对应跨检体子序列的菌种。
本发明的另一方面提供一种用以分析细菌菌种的测序方法。分析细菌菌种的测序方法包含:搜索第一基因样本序列中的特定变异区域以及搜索第二基因样本序列中的另一特定变异区域;判断特定变异区域与另一特定变异区域是否存在相同的跨检体子序列;当特定变异区域与另一特定变异区域存在相同的跨检体子序列时,储存跨检体子序列至记录表中;当存在跨检体子序列时,将跨检体子序列与数据库模块中的多个已知菌种基因序列进行比对,以分析该第一基因样本序列与第二基因样本序列中对应跨检体子序列的菌种。
综上所述,本发明的技术方案与现有技术相比具有明显的优点和有益效果。通过上述技术方案,可达到相当的技术进步,并具有产业上的广泛利用价值,本公开内容可减少用以分析细菌菌种的测序数据的***的运算量,以达到提升分析检体数据速度的功效。
附图说明
为了使本发明的上述和其他目的、特征、优点与实施例能更明显易懂,提供附图如下:
图1是根据本发明一实施例绘示的一种用以分析细菌菌种的测序数据的***的方块图;
图2是根据本发明一实施例绘示的一种用以分析细菌菌种的测序数据的方法的流程图;
图3是根据本发明一实施例绘示的一种基因样本序列的示意图;
图4A-4C是根据本发明一实施例绘示的一种基因片段的示意图。
具体实施方式
参照第1图,图1是根据本发明一实施例绘示的一种用以分析细菌菌种的测序数据的***100的方块图。
用以分析细菌菌种的测序数据的***100包含:单一检体去重复序列模块110、跨检体重复序列判断模块120、重复序列记录模块130以及运算贴序模块140。单一检体去重复序列模块110用以搜索第一基因样本序列中的第一保守区域及特定变异区域,并将第一保守区域移除。跨检体重复序列判断模块120用以判断特定变异区域是否存在与第二基因序列中的另一特定变异区域相同的一跨检体子序列。重复序列记录模块130用以当特定变异区域存在与第二菌体样本中的另一特定变异区域相同的跨检体子序列时,储存跨检体子序列至一记录表135中。运算贴序模块140用以当存在跨检体子序列时,将跨检体子序列与一数据库模块150中的多个已知菌种基因序列进行比对,以分析第一基因样本序列与第二基因样本序列中对应跨检体子序列的菌种。
其中,如图1所示,数据库模块150可被实作为只读存储器、闪存、软盘、硬盘、光盘、随身碟、磁带、可由网络存取的数据库或本领域技术人员可轻易思及具有相同功能的储存介质,记录表135可以为一档案,被储存于具有储存功能的任何电子装置中。此外,单一检体去重复序列模块110、跨检体重复序列判断模块120、重复序列记录模块130以及运算贴序模块140可分别或合并被实施为例如微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signal processor)、特殊应用集成电路(application specific integrated circuit,ASIC)或逻辑电路。
由上述可知,用以分析细菌菌种的测序数据的***100可排除单一检体中相同或重复的基因区段,并通过跨检体地找出相同或重复的跨检体子序列,将跨检体子序列及其与菌体样本之间的关系储存至记录表135中,利用记录表135可将大量具有重复性质的跨检体子序列建立精简化的数据结构。通过此些方法可避免运算贴序模块140重复地将单一检体或跨检体中相同或重复的大量基因区段与数据库模块150中的已知数据进行比对,更可减少用以分析细菌菌种的测序数据的***100的运算量,以提升分析检体数据的速度。
以下进一步说明分析细菌菌种的测序数据的方法200。一并参照图1-3,图2是根据本发明一实施例绘示的一种用以分析细菌菌种的测序数据的方法200的流程图。图3是根据本发明的一实施例绘示的一种基因样本序列300的示意图。为了方便说明,图1所示的用以分析细菌菌种的测序数据的***100的操作会与用以分析细菌菌种的测序数据的方法200及基因样本序列300一并举例说明。
在步骤S210中,单一检体去重复序列模块110用以搜索第一基因样本序列中的特定变异区域以及搜索第二基因样本序列中的另一特定变异区域。于一实施例中,第一基因样本序列中的特定变异区域以及第二基因样本序列中的另一特定变异区域可以分别指第一基因样本序列和第二基因样本序列中的任一段变异区域。
于一实施例中,用以分析细菌菌种的测序数据的***还包含检体采样模块(未绘示)及基因测序模块(未绘示)。检体采样模块用以采样多个菌体样本,此些菌体样本包含第一菌体样本及第二菌体样本。基因测序模块用以将此些菌体样本分别进行基因测序,以取得对应第一菌体样本的第一基因样本序列,及对应第二菌体样本的第二基因样本序列。
举例而言,于某一使用者进行大肠镜检查时,可能会发现其大肠长有息肉,则检体采样模块可将息肉部份进行采样,并在息肉的附近看起来正常的地方也进行采样,以取得多个菌体样本。其中,每一份菌体样本可能具有30万笔基因数据,此些数据中通常混杂了多种对人体有害或有益的多种细菌,因此可通过将此些基因样本序列分别与数据库模块150中的已知数据进行比对,当比对出两者相同时(例如第一基因样本序列与数据库模块150中的某一已知菌种基因序列相同时),则可确认出对应此基因样本序列的菌种。例如,一共采样30份菌体样本后,利用基因测序模块进行基因测序,此基因测序模块例如为测序仪,可将每一份菌体样本的脱氧核醣核酸(DNA)提取出来,并对应每一份菌体样本各自取得至少一笔基因样本序列。
此外,于另一实施例中,当基因测序需要测序出基因序列长度为500bp的变异区域,但测序仪只能测序至100bp的基因序列长度时,测序仪可被设置成大量复制基因序列后,随机打碎此被大量复制的基因序列,再取得打碎后的各小片段的100bp的基因序列长度以进行测序,最后再将测序后各小片段组合起来,通过此方法可以测序出长度较长的基因序列。
于一实施例中,单一检体去重复序列模块110可接收多个基因样本序列。于一实施例中,单一检体去重复序列模块110可接收已完成基因测序的第一基因样本序列及第二基因样本序列,且此第一基因样本序列及第二基因样本序列来对应至同一份或不同份的检体样本。
于一实施例中,第一基因样本序列可以例如为图3所示的基因样本序列300。于图3中,基因样本序列300为一条16s rRNA,长度为1600bp(碱基对)。本领域技术人员可理解图3中的基因样本序列300是一基因样本示意图。单一检体去重复序列模块110可应用既有的基因序列搜索方法,以搜索出此基因样本序列300所包含的保守区域C1-C10与变异区域V1-V10。其中,保守区域C1-C10是指每个细菌的16s rRNA中相同或类似的基因区段,变异区域V1-V10是指每个细菌的16s rRNA中相异的基因区段。于一实施例中,第一基因样本序列中可具有第一变异区域V1、第二变异区域V2、第三变异区域V3、第四变异区域V4…等。于一实施例中,变异区域V1-V10可各自具有不同的长度。
此外,第二基因样本序列亦可以例如为图3所示的基因样本序列300。于一实施例中,第二基因样本序列与第一基因样本序列中的基因排序方式不同。于一实施例中,第二基因样本序列与第一基因样本序列中的基因排序方式及基因样本长度均不同。本领域技术人员可理解第二基因样本序列中的另一特定变异区域的搜索方式与前述第一基因样本序列中的特定变异区域的搜索方式相同,故此处不再赘述。
通过搜索第一基因样本序列中的特定变异区域以及搜索第二基因样本序列中的另一特定变异区域,可对样本检体序列做前置处理以减低需要查询贴序的数量。
另一方面,于一实施例中,由于每一只细菌的16s rRNA都大同小异,可能仅有部分变异区域不同。因此,数据库模块150于建立已知菌种基因序列的过程中,可基于既有的次世代测序16s rRNA识别法,摘取出某一已知细菌的部分变异区域,并将此摘取出的部分变异区域储存于数据库模块150中,以供后续运算贴序模块140将此摘取出的部分变异区域与检体样本的基因序列进行比对。
由此,数据库模块150可对16S rRNA的已知菌种基因序列建构检索,意即仅摘取出各个已知细菌的部分变异区域,作为对应各个已知细菌的基因序列代表,以精简被搜索或被用来比对的基因序列。
举例而言,若数据库模块150于建立已知菌种基因序列时,摘取出图3所示的第三变异区域V3-第四变异区域V4的基因区段,并将此摘取出的部分变异区域储存于数据库模块150中,以供后续运算贴序模块140将此摘取出的部分第三变异区域V3-第四变异区域V4与检体样本的基因序列进行比对。此外,关于比对方法的细节技术特征将于步骤S240中详述。
于一实施例中,部分第三变异区域V3-第四变异区域V4的长度例如为500bp,基因样本序列300全序列长度为1600bp,故于此实施例中,此部分第三变异区域V3-第四变异区域V4仅占基因样本序列300全序列长度的30%。
由此可知,通过此方法可将目前已知的20.3万种细菌的16s rRNA摘要出差异区域,并将其储存于数据库模块150中,运算贴序模块140后续只需将第一基因样本序列中的特定变异区域(例如为第一基因样本序列中的第三变异区域V3-第四变异区域V4)及/或第二基因样本序列中的另一特定变异区域(例如为第二基因样本序列中的第三变异区域V3-第四变异区域V4)与数据库模块150中所储存的已知细菌的部分变异区域进行比对,当比对出两者相同时,则可确认出对应此基因样本序列的菌种。
换言之,通过上述技术特征,于进行基因序列分析或贴序时,只需比对基因样本序列与数据库模块150中具代表性的基因序列区段或基因序列的变异区域,无需将整个基因样本序列或整个第二基因样本序列与数据库模块150中完整的所有数据进行比对,由此可降低运算贴序模块140于贴序过程中所需耗用的运算量,以提升分析检体数据的速度。
于步骤S220中,跨检体重复序列判断模块120用以判断特定变异区域与另一特定变异区域是否存在相同的一跨检体子序列。
于一实施例中,当经由单一检体去重复序列模块110搜索第一基因样本序列中的特定变异区域以及搜索第二基因样本序列中的另一特定变异区域后,若第一基因样本序列与第二基因样本序列位于不同的菌体样本中,则可通过跨检体重复序列判断模块120判断特定变异区域与另一特定变异区域是否存在相同的一跨检体子序列。
例如,于特定变异区域包含于第一基因样本序列中,第一基因样本序列包含于第一菌体样本,且另一特定变异区域包含于第二基因样本序列中,第二基因样本序列包含于第二菌体样本的情况下,若特定变异区域与另一特定变异区域具有某一相同的基因子序列(substring),则将此部分基因子序列视为跨检体子序列。
于一实施例中,若检体重复序列判断模块120判断特定变异区域与另一特定变异区域存在相同的一跨检体子序列,则进入步骤S230。
反之,若检体重复序列判断模块120判断特定变异区域与另一特定变异区域未存在相同的一跨检体子序列,则运算贴序模块140直接将第一基因样本序列中的特定变异区域与数据库模块150中的多个已知菌种基因序列进行比对,以分析第一基因样本序列中对应特定变异区域的菌种。换句话说,当某个变异区域只有在某一菌体样本中出现,没有出现在其他菌体样本时,例如前述的特定变异区域与另一特定变异区域未存在相同的一跨检体子序列时,则此变异区域不会被移除,且运算贴序模块140一定会将此变异区域与数据库模块150中的数据进行比对。
在步骤S230中,重复序列记录模块130用以当特定变异区域与另一特定变异区域存在相同的跨检体子序列时,储存跨检体子序列至一记录表135中。
于一实施例中,重复序列记录模块130更用以记录跨检体子序列所对应的特定变异区域、跨检体子序列所对应的特定变异区域的所属的第一菌体样本、另一特定变异区域、跨检体子序列所对应的另一特定变异区域的所属的第二菌体样本。藉由记录此些数据,可利于减少后续贴序时及/或分析可操作性的分类单位体时所需要的运算量,例如,于分析可操作性的分类单位体时,可透过记录表13追溯出对应某一跨检体子序列的某一变异区域及其所属的菌体样本,无须再次重新比对所有基因样本序列。
在步骤S240中,运算贴序模块140用以当存在跨检体子序列时,将跨检体子序列与数据库模块150中的多个已知菌种基因序列进行比对,以分析第一基因样本序列与第二基因样本序列中对应跨检体子序列的菌种。
由此,当存在跨检体子序列时,运算贴序模块140会将此跨检体子序列摘取出来,再将此垮检体子序列与数据库模块150中的全部数据或已知菌种的部分变异区域进行比对一次,并将比对结果记录于记录表135中。因此,当多个菌体样本中都具有相同的基因子序列(即跨检体子序列)时,运算贴序模块140仍只需要将此相同的基因子序列时与已知数据比对一次,即可得知基因子序列对应到某一特定的已知菌体,亦可推得此些菌体样本中都包含此特定的已知菌体,而无须将每一个菌体样本中所有相关于跨检体子序列的基因序列都一一进行比对。
此外,于后续计算环境基因体比对分析时,运算贴序模块140可回查记录表135,以得知此变异区域在哪些菌种上面,且此些菌种存在于哪几个菌体样本中(步骤S230),藉此可减少运算贴序的次数。
接着,参阅图4A-4C,图4A-4C是根据本发明一实施例绘示的一种基因片段的示意图。以下进一步说明于步骤S220及S240中相关于单一检体去重复的细部方法及其基因序列的比对方法。
于一实施例中,参照图4A,第一基因样本序列包含第一基因片段D1及第二基因片段D2。于步骤S210中还包含判断第一基因片段D1与第二基因片段D2是否完全相同,当第一基因片段与第二基因片段完全相同时,特定变异区域排除第二基因片段D2。
举例而言,当第一基因片段D1与第二基因片段D2完全相同时,单一检体去重复序列模块110将第二基因片段D2视为至少第一保守区域的其中之一,故可将特定变异区域视为排除(或不包含)第二基因片段D2。此外,运算贴序模块140将第一基因片段D1与数据库模块150中的已知菌种基因序列进行比对,以分析对应第一基因片段D1的所属菌种。
于一实施例中,参照图4B,第一基因样本序列包含第一基因片段D1及第二基因片段D2,且当第一基因片段D1长于第二基因片段D2时,于步骤S210中,还包含判断第二基因片段D2是否完全相同于第一基因片段D1的一部分;当第二基因片段D2完全相同于第一基因片段D1的一部分时,特定变异区域排除第二基因片段D2。
举例而言,当第一基因片段D1长于第二基因片段D2,且第二基因片段D2完全相同于第一基因片段D1的一部分时,可将特定变异区域视为排除(或不包含)第二基因片段D2。此外,运算贴序模块140将第一基因片段D1与数据库模块150中的已知菌种基因序列进行比对,以分析对应第一基因片段D1的所属菌种。
于一实施例中,参照图4C,其中第一基因样本序列包含第一基因片段D1及第二基因片段D2,当第一基因片段D1长于第二基因片段D2,且第二基因片段D2完全相同于第一基因片段D1的一部分时,运算贴序模块140将第二基因片段D2储存至记录表135中。
此外,于一实施例中,在确认某一基因序列对应至何种菌种及其所属菌体样本后,可进一步进行环境基因体比对分析,以判断此些分析出来的菌种及所属菌体样本中的益菌或坏菌所占的比例;于一实施例中,亦可基于分析结果进一步进行群集分析,以分析细菌分布的情况,例如,癌症患者的细菌群集中的某些特定菌数量会较多,由此可分析病患的健康程度;于一实施例中,可基于分析结果进一步进行菌落功能分析,以判断此些菌种是否具有益生菌或是与某些特定疾病相关的已知菌种,由此以得知病患的健康状况。
综上所述,本发明所示的用以分析细菌菌种的测序数据的***及其方法,可对样本检体序列做前置处理,减低需要查询贴序的数量,以精简需要进行比对的基因序列,可减少用以分析细菌菌种的测序数据的***的运算量,以提升分析检体数据的速度。
虽然本发明已以实施方式揭露如上,然而其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,可作各种修改与改变,因此本发明的保护范围以所附权利要求书所界定者为准。
Claims (10)
1.一种用以分析细菌菌种的测序数据的***,其特征在于包含:
单一检体去重复序列模块,用以搜索第一基因样本序列中的第一保守区域及一特定变异区域,并将该第一保守区域移除;
跨检体重复序列判断模块,用以判断该特定变异区域是否存在与第二基因序列中的另一特定变异区域相同的一跨检体子序列;
重复序列记录模块,当该特定变异区域存在与该第二菌体样本中的该另一特定变异区域相同的该跨检体子序列时,该重复序列记录模块用以储存该跨检体子序列至一记录表中;
运算贴序模块,当存在该跨检体子序列时,该运算贴序模块用以将该跨检体子序列与数据库模块中的多个已知菌种基因序列进行比对,以分析该第一基因样本序列与该第二基因样本序列中对应该跨检体子序列的菌种。
2.根据权利要求1所述的用以分析细菌菌种的测序数据的***,还包含:
检体采样模块,用以采样多个菌体样本,该些菌体样本包含第一菌体样本及第二菌体样本;以及
基因测序模块,用以将该些菌体样本分别进行基因测序,以取得对应该第一菌体样本的第一基因样本序列,及对应该第二菌体样本的第二基因样本序列。
3.根据权利要求2所述的用以分析细菌菌种的测序数据的***,其中,该重复序列记录模块更用以记录该跨检体子序列所对应的该另一特定变异区域、该跨检体子序列所对应的该另一特定变异区域的所属的该第二菌体样本。
4.根据权利要求1所述的用以分析细菌菌种的测序数据的***,其中,该第一基因样本序列包含第一基因片段及第二基因片段,
其中,当该第一基因片段与该第二基因片段完全相同时,该单一检体去重复序列模块将该第二基因片段视为至少第一保守区域的其中之一,该特定变异区域排除该第二基因片段;以及
该运算贴序模块将该第一基因片段与该数据库模块中的该些已知菌种基因序列进行比对,以分析对应该第一基因片段的菌种。
5.根据权利要求1所述的用以分析细菌菌种的测序数据的***,其中,该第一基因样本序列包含第一基因片段及第二基因片段,当该第一基因片段长于该第二基因片段,且该第二基因片段完全相同于该第一基因片段的一部分时,该运算贴序模块将该第一基因片段与该数据库模块中的该些已知菌种基因序列进行比对,以分析对应该第一基因片段的菌种。
6.根据权利要求5所述的用以分析细菌菌种的测序数据的***,其中该第一基因样本序列包含第一基因片段及第二基因片段,当该第一基因片段长于该第二基因片段,且该第二基因片段完全相同于该第一基因片段的一部分时,该运算贴序模块将该第二基因片段储存至该记录表中。
7.一种用以分析细菌菌种的测序方法,其特征在于包含:
搜索第一基因样本序列中的特定变异区域以及搜索第二基因样本序列中的另一特定变异区域;
判断该特定变异区域与该另一特定变异区域是否存在相同的一跨检体子序列;
当该特定变异区域与该另一特定变异区域存在相同的该跨检体子序列时,储存该跨检体子序列至记录表中;以及
当存在该跨检体子序列时,将该跨检体子序列与数据库模块中的多个已知菌种基因序列进行比对,以分析该第一基因样本序列与该第二基因样本序列中对应该跨检体子序列的菌种。
8.根据权利要求7所述的用以分析细菌菌种的测序方法,其中该第一基因样本序列包含第一基因片段及第二基因片段,其中搜索该第一基因样本序列中的该特定变异区域的步骤包含:
判断该第一基因片段与该第二基因片段是否完全相同;以及
当该第一基因片段与该第二基因片段完全相同时,该特定变异区域排除该第二基因片段。
9.根据权利要求7所述的用以分析细菌菌种的测序方法,其中,该第一基因样本序列包含第一基因片段及第二基因片段,当该第一基因片段长于该第二基因片段时,其中搜索该第一基因样本序列中的该特定变异区域的步骤包含:
判断该第二基因片段是否完全相同于该第一基因片段的一部分;以及
当该第二基因片段完全相同于该第一基因片段的一部分,该特定
变异区域排除该第二基因片段。
10.根据权利要求9所述的用以分析细菌菌种的测序方法,包
含:
当该第一基因片段长于该第二基因片段,且该第二基因片段完全相同于该第一基因片段的一部分时,将该第二基因片段储存至该记录表中。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW104138505A TWI582631B (zh) | 2015-11-20 | 2015-11-20 | 用以分析細菌菌種之定序資料的系統及其方法 |
TW104138505 | 2015-11-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106778071A true CN106778071A (zh) | 2017-05-31 |
Family
ID=58720202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610083766.XA Pending CN106778071A (zh) | 2015-11-20 | 2016-02-06 | 用以分析细菌菌种的测序数据的***及其方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170147744A1 (zh) |
CN (1) | CN106778071A (zh) |
TW (1) | TWI582631B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328399A (zh) * | 2022-03-15 | 2022-04-12 | 四川大学华西医院 | 一种基因测序多样本数据文件自动配对的方法和*** |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI629607B (zh) * | 2017-08-15 | 2018-07-11 | 極諾生技股份有限公司 | 建立腸道菌數據庫的方法和相關檢測系統 |
CN116391166A (zh) * | 2020-09-10 | 2023-07-04 | 宝洁公司 | 确定内部空间的卫生条件的***和方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102952854A (zh) * | 2011-08-25 | 2013-03-06 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
CN104965999A (zh) * | 2015-06-05 | 2015-10-07 | 西安交通大学 | 一种中短基因片段测序的分析拼接方法及设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7718361B2 (en) * | 2002-12-06 | 2010-05-18 | Roche Molecular Systems, Inc. | Quantitative test for bacterial pathogens |
US7727718B2 (en) * | 2005-01-04 | 2010-06-01 | Molecular Research Center, Inc. | Reagents for storage and preparation of samples for DNA analysis |
EP2267161B1 (en) * | 2005-06-17 | 2014-07-16 | Instituto de Salud Carlos III | Primers, probes and kits for the detection of bacterial species belonging to the genus bartonella |
TWI326431B (en) * | 2007-04-30 | 2010-06-21 | Univ Nat Taiwan Science Tech | Method and system of analyzing gene sequence |
WO2013119770A1 (en) * | 2012-02-08 | 2013-08-15 | Dow Agrosciences Llc | Data analysis of dna sequences |
-
2015
- 2015-11-20 TW TW104138505A patent/TWI582631B/zh active
- 2015-12-08 US US14/963,196 patent/US20170147744A1/en not_active Abandoned
-
2016
- 2016-02-06 CN CN201610083766.XA patent/CN106778071A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102952854A (zh) * | 2011-08-25 | 2013-03-06 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
CN104965999A (zh) * | 2015-06-05 | 2015-10-07 | 西安交通大学 | 一种中短基因片段测序的分析拼接方法及设备 |
Non-Patent Citations (4)
Title |
---|
CHRISTIAN QUAST等: ""The SILVA ribosomal RNA gene database project: improved data processing and web-based tools"", 《NUCLEIC ACIDS RESEARCH》 * |
ELIZABETH K.COSTELLO等: ""Bacterial community variation in human body habitats across space and time"", 《SCIENCE》 * |
MARTIN HARTMANN等: ""V-Xtractor: An open-source, high-throughput software tool to identify and extract hypervariable regions of small subunit (16 S/18 S) ribosomal RNA gene sequences"", 《JOURNAL OF MICROBIOLOGICAL METHODS》 * |
TIKHONOV等: ""Interpreting 16S metagenomic data without clustering to achieve sub-OTU resolution"", 《THE ISME JOURNAL》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328399A (zh) * | 2022-03-15 | 2022-04-12 | 四川大学华西医院 | 一种基因测序多样本数据文件自动配对的方法和*** |
CN114328399B (zh) * | 2022-03-15 | 2022-05-24 | 四川大学华西医院 | 一种基因测序多样本数据文件自动配对的方法和*** |
Also Published As
Publication number | Publication date |
---|---|
US20170147744A1 (en) | 2017-05-25 |
TWI582631B (zh) | 2017-05-11 |
TW201719468A (zh) | 2017-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xia et al. | Statistical analysis of microbiome data with R | |
Sarangi et al. | Methods for studying gut microbiota: a primer for physicians | |
US11621083B2 (en) | Cancer evolution detection and diagnostic | |
Robinson et al. | Intricacies of assessing the human microbiome in epidemiologic studies | |
CN112086129B (zh) | 预测肿瘤组织cfDNA的方法及*** | |
CN107077537A (zh) | 用短读测序数据检测重复扩增 | |
CN110168648A (zh) | 序列变异识别的验证方法和*** | |
CN111192634A (zh) | 用于处理基因组数据的方法 | |
JP7041614B2 (ja) | 生体データにおけるパターン認識のマルチレベルアーキテクチャ | |
Larsson et al. | Comparative microarray analysis | |
Titus et al. | A new dimension of breast cancer epigenetics | |
EP3590058A1 (en) | Systems and methods for metagenomic analysis | |
CN106778071A (zh) | 用以分析细菌菌种的测序数据的***及其方法 | |
Titus et al. | Unsupervised deep learning with variational autoencoders applied to breast tumor genome-wide DNA methylation data with biologic feature extraction | |
CN110021360B (zh) | 基于组学数据挖掘的疾病—药物关联平台 | |
Darvish et al. | Needle: a fast and space-efficient prefilter for estimating the quantification of very large collections of expression experiments | |
Torres-Morales et al. | Site-specialization of human oral Gemella species | |
RU2699284C2 (ru) | Система и способ интерпретации данных и предоставления рекомендаций пользователю на основе его генетических данных и данных о составе микробиоты кишечника | |
CN114974432A (zh) | 一种生物标志物的筛选方法及其相关应用 | |
Kebschull et al. | Differential expression and functional analysis of high-throughput-omics data using open source tools | |
US11127485B2 (en) | Techniques for fine grained correction of count bias in massively parallel DNA sequencing | |
WO2016193846A2 (en) | Degenerate primer sets | |
Jabeer et al. | Identifying taxonomic biomarkers of colorectal cancer in human intestinal microbiota using multiple feature selection methods | |
Zhou et al. | Data pre-processing for analyzing microbiome data–A mini review | |
KR102138517B1 (ko) | 췌장암 진단용 바이오마커의 추출 방법, 이를 위한 컴퓨팅 장치, 췌장암 진단용 바이오마커 및 이를 포함하는 췌장암 진단 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |