CN114743597A - 一种基于碱基序列分析物种的方法及装置 - Google Patents
一种基于碱基序列分析物种的方法及装置 Download PDFInfo
- Publication number
- CN114743597A CN114743597A CN202210326419.0A CN202210326419A CN114743597A CN 114743597 A CN114743597 A CN 114743597A CN 202210326419 A CN202210326419 A CN 202210326419A CN 114743597 A CN114743597 A CN 114743597A
- Authority
- CN
- China
- Prior art keywords
- species
- base sequence
- analyzed
- library
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 84
- 241000894007 species Species 0.000 claims description 414
- 230000008569 process Effects 0.000 claims description 17
- 244000005700 microbiome Species 0.000 claims description 9
- 108700005443 Microbial Genes Proteins 0.000 claims description 6
- 238000002864 sequence alignment Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于碱基序列分析物种的方法及装置,所述方法包括:获取待检测基因序列,读取待检测基因序列,得到若干待分析碱基序列,在物种碱基序列库中确定与待分析碱基序列匹配的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息,确定物种信息与待分析碱基序列的匹配得分,统计物种信息的出现频率,从而得到待分析碱基序列的归属物种的概率得分,概率得分最高者作为归属物种。可见,在比对时分析两碱基序列的相似度,对与待分析碱基序列对应的物种信息打分,结合物种信息的出现频率,分析待分析碱基序列归属物种的可能性,更科学、精确地衡量待分析碱基序列在各物种中的概率分布,有助于判断待检测基因序列的物种归属。
Description
技术领域
本申请涉及碱基检测领域,更具体的说,是涉及一种基于碱基序列分析物种的方法及装置。
背景技术
随着微生物的繁衍,微生物日益复杂,种类增多,不能确定新衍生的微生物是否源于危险物种,使得不明源头的微生物已成为全球关注的焦点,因此确定微生物的物种种类归属的第一步则需要快速确认微生物原体。目前通过序列比对的方式将测序序列比对到参考的数据库上,根据序列比对结果分析物种原体。
然而不同物种可能存在同源序列,目前的比对方式通常出现一条测序的比对序列可能比对到多个物种的基因组上,无法判断该碱基序列的物种归属。
如何实现基于碱基序列精确分析物种归属,是需要关注的问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种基于碱基序列分析物种的方法及装置,以实现基于碱基序列精确分析物种归属。
为了实现上述目的,现提出具体方案如下:
一种基于碱基序列分析物种的方法,包括:
从已有的微生物基因库中获取待检测基因序列;
基于预设长度的读长及第一滑动步长,读取所述待检测基因序列,得到若干长度为所述读长的待分析碱基序列;
对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息,所述物种碱基序列库包含若干长度为预设读长的碱基序列,以及每个碱基序列对应的若干物种信息;
对于每个目标碱基序列对应的每一物种信息,基于目标碱基序列与所述待分析碱基序列的相似度,确定所述物种信息与所述待分析碱基序列的匹配得分;
统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率;
对于每个待分析碱基序列,将与之比对成功的目标碱基序列对应的每一物种信息的出现频率与,所述物种信息与所述待分析碱基序列的匹配得分相乘,得到观测得分,将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分,并将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种。
可选的,所述统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率,包括:
将各目标碱基序列对应的物种信息的条数相加,得到物种信息总出现条数,以及,统计各目标碱基序列对应的物种信息中每一类型物种信息的出现条数;
将各目标碱基序列对应的物种信息中每一类型物种信息的出现条数,与所述物种信息总出现条数的比值,作为每一类型物种信息的出现频率。
可选的,所述对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,包括:
对于每个待分析碱基序列,将已配置的物种碱基序列库中的碱基序列逐个与所述待分析碱基序列比对,并将碱基比对成功个数大于预设比对个数的碱基序列作为目标碱基序列。
可选的,在将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种之后,还包括:
将在各待分析碱基序列中的出现次数最多的归属物种,作为所述待检测基因序列的归属物种。
可选的,构建所述物种碱基序列库的过程,包括:
从已有的基因库中获取若干物种的基因序列;
以所述预设长度为读长,预设步长大于1的第二滑动步长,读取每个物种的基因序列,得到每个物种的若干长度为所述读长的碱基序列,所述读取过程中所使用的GPU显存不超过预设显存;
构建由各物种的各碱基序列组成的物种碱基序列库。
可选的,已配置的物种碱基序列库是从已有的基因库中获取若干物种的基因序列,以所述预设长度为读长,步长为1个碱基,读取每个物种的基因序列,得到每个物种的若干长度为所述读长的碱基序列,由各物种的各碱基序列构建的,由此所得到的各待分析碱基序列的归属物种作为第一分类结果;
所述方法还包括:
调整建立所述物种碱基序列库时的步长,得到调整后的物种碱基序列库,调整的所述步长不为1;
返回执行对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息的步骤,直至得到各待分析碱基序列的归属物种,作为第二分类结果;
判断所述第一分类结果和第二分类结果的差异度是否大于预设差异度;
若否,则将调整后的物种碱基序列库作为最终物种碱基序列库;
若是,返回执行调整建立所述物种碱基序列库时的步长,得到调整后的物种碱基序列库的步骤。
一种基于碱基序列分析物种的装置,包括:
待测基因序列获取单元,用于从已有的微生物基因库中获取待检测基因序列;
待分析碱基序列获取单元,用于基于预设长度的读长及第一滑动步长,读取所述待检测基因序列,得到若干长度为所述读长的待分析碱基序列;
碱基序列比对单元,用于对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息,所述物种碱基序列库包含若干长度为预设读长的碱基序列,以及每个碱基序列对应的若干物种信息;
匹配得分确定单元,用于对于每个目标碱基序列对应的每一物种信息,基于目标碱基序列与所述待分析碱基序列的相似度,确定所述物种信息与所述待分析碱基序列的匹配得分;
出现频率统计单元,用于统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率;
归属物种确定单元,用于对于每个待分析碱基序列,将与之比对成功的目标碱基序列对应的每一物种信息的出现频率与,所述物种信息与所述待分析碱基序列的匹配得分相乘,得到观测得分,将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分,并将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种。
可选的,所述出现频率统计单元,包括:
第一出现频率统计子单元,用于将各目标碱基序列对应的物种信息的条数相加,得到物种信息总出现条数,以及,统计各目标碱基序列对应的物种信息中每一类型物种信息的出现条数;
第二出现频率统计子单元,用于将各目标碱基序列对应的物种信息中每一类型物种信息的出现条数,与所述物种信息总出现条数的比值,作为每一类型物种信息的出现频率。
可选的,所述碱基序列比对单元,包括:
目标碱基序列确定单元,用于对于每个待分析碱基序列,将已配置的物种碱基序列库中的碱基序列逐个与所述待分析碱基序列比对,并将碱基比对成功个数大于预设比对个数的碱基序列作为目标碱基序列。
可选的,所述装置还包括:
物种确定单元,用于将在各待分析碱基序列中的出现次数最多的归属物种,作为所述待检测基因序列的归属物种。
可选的,所述装置还包括:
物种基因序列获取单元,用于从已有的基因库中获取若干物种的基因序列;
碱基序列读取单元,用于以所述预设长度为读长,预设步长大于1的第二滑动步长,读取每个物种的基因序列,得到每个物种的若干长度为所述读长的碱基序列,所述读取过程中所使用的GPU显存不超过预设显存;
检索序列库构建单元,用于构建由各物种的各碱基序列组成的物种碱基序列库。
可选的,已配置的物种碱基序列库是从已有的基因库中获取若干物种的基因序列,以所述预设长度为读长,步长为1个碱基,读取每个物种的基因序列,得到每个物种的若干长度为所述读长的碱基序列,由各物种的各碱基序列构建的,由此所得到的各待分析碱基序列的归属物种作为第一分类结果;
所述装置还包括:
步长调整单元,用于调整建立所述物种碱基序列库时的步长,得到调整后的物种碱基序列库,调整的所述步长不为1,返回执行碱基序列比对单元的处理步骤,直至得到各待分析碱基序列的归属物种,作为第二分类结果;
差异度判断单元,用于判断所述第一分类结果和第二分类结果的差异度是否大于预设差异度,若否,则将调整后的物种碱基序列库作为最终物种碱基序列库,若是,返回执行步长调整单元的处理步骤。
借由上述技术方案,由于预先构建的物种基因序列库包含每个碱基序列对应的每一物种信息,在比对时能根据待分析碱基序列与目标碱基序列的相似度,对与待分析碱基序列对应的物种信息打分,结合每种信息对于各待分析碱基序列的出现频率,分析待分析碱基序列归属每一物种的可能性,从而更科学、精确地衡量各个待分析碱基序列在每个物种中的概率分布程度,有助于判断待检测基因序列的物种归属。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的一种基于碱基序列分析物种的流程示意图;
图2为本申请实施例提供的另一种基于碱基序列分析物种的流程示意图;
图3为本申请实施例提供的一种基于碱基序列分析物种的装置结构示意图;
图4为本申请实施例提供的一种基于碱基序列分析物种设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是电脑、服务器、云端等。
接下来,结合图1所述,本申请的基于碱基序列分析物种方法可以包括以下步骤:
步骤S110、从已有的微生物基因库中获取待检测基因序列。
具体的,已有的微生物基因库中可以包含了若干未知的微生物基因序列,这些未知的微生物基因序列需要待检测的。
步骤S120、基于预设长度的读长及第一滑动步长,读取所述待检测基因序列,得到若干长度为所述读长的待分析碱基序列。
具体的,预设长度的读长可以表示一次性从待检测基因序列中确定选取的碱基数,例如读长为4,则可以表示从待检测基因序列中确定选取4个碱基。第一滑动步长可以表示相邻两次的读长读取所移动的碱基数量,例如对于待检测基因序列假设为:AATCGG,当读长为4,第一滑动步长为2时,第一次读取得到的待分析碱基序列为:AATC,第二次读取得到的待分析碱基序列为:TCGG。
步骤S130、对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息。
其中,已配置的物种碱基序列库可以包含若干长度为预设读长的碱基序列,以及每个碱基序列对应的若干物种信息。目标碱基序列可以表示用于表示待分析碱基序列的碱基序列。
可以理解的是,不同物种的基因序列之间可能存在相同的碱基片段,因此对于一个碱基序列可能指示多个物种,因此每个碱基序列可以对应若干物种信息。
具体的,可以预先设置两碱基序列比对成功的条件,当比对时两碱基序列满足所述条件时,判定为比对成功,否则判定为比对失败。
步骤S140、对于每个目标碱基序列对应的每一物种信息,基于目标碱基序列与所述待分析碱基序列的相似度,确定所述物种信息与所述待分析碱基序列的匹配得分。
具体的,目标碱基序列与碱基序列的相似度,可以表示目标碱基序列用于表示待分析碱基序列的可靠程度,相似度越高可以代表目标碱基序列用于表示待分析碱基序列的可靠程度越高,从而所述物种信息与所述待分析碱基序列的匹配得分越高。
步骤S150、统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率。
具体的,每一物种信息的出现频率可以表示基于目标碱基序列而确定的物种信息的可能性。
步骤S160、对于每个待分析碱基序列,将与之比对成功的目标碱基序列对应的每一物种信息的出现频率与,所述物种信息与所述待分析碱基序列的匹配得分相乘,得到观测得分。
具体的,观测得分可以表示通过当前表现出来的物种分布所观察到的分布情况得到的,参考不同的物种碱基序列库所得到的观测得分不同,也可以作为最终结果得分的经验得分。
步骤S170、将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分。
其中,待分析碱基序列的归属物种的概率得分可以表示,待分析碱基序列为所属物种的可能性。
具体的,对于每个待分析碱基序列,可以将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分。
可以理解的是,对于每一待分析碱基序列的物种信息的最终评价得分,由物种信息的基础得分和观测得分(经验得分)构成,基础得分可以表示物种信息与所述待分析碱基序列的匹配得分,综合两者量化最终得分可以使得评价效果更客观、准确。
步骤S180、将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种。
可以理解的是,对于每个待分析碱基序列,可能出现多个物种归属以及每个物种归属的得分,那么可以将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种。
本实施例提供的基于碱基序列分析物种的方法,能够预先构建的物种基因序列库包含每个碱基序列对应的每一物种信息,在比对时能根据碱基序列与目标碱基序列的相似度,对与碱基序列对应的物种信息打分,结合每种信息对于各碱基序列的出现频率,分析碱基序列归属每一物种的可能性,从而更科学、精确地衡量各个碱基序列在每个物种中的概率分布程度,有助于判断待检测基因序列的物种归属。
本申请的一些实施例中,对上述步骤S150、统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率的过程进行介绍,该过程可以包括:
S1、将各目标碱基序列对应的物种信息的条数相加,得到物种信息总出现条数,以及,统计各目标碱基序列对应的物种信息中每一类型物种信息的出现条数。
可以理解的是,由于每一待分析碱基序列所匹配到的目标碱基序列可能有多个,每个目标碱基序列可能有多种物种信息,因此分析每一待分析碱基序列可能得出多种物种信息,那么可以统计每一物种信息的条数以及所有物种信息的条数。
S2、将各目标碱基序列对应的物种信息中每一类型物种信息的出现条数,与所述物种信息总出现条数的比值,作为每一类型物种信息的出现频率。
可以理解的是,每一物种信息出现频率可以表示,每一物种的出现频次与所有物种出现频次的比值,也即每一物种信息的条数与所有物种信息的条数的比值。
本实施例提供的基于碱基序列分析物种的方法,能够统计待分析碱基序列的每一物种信息的条数、各物种信息的总条数,从而计算得出所述待分析碱基序列里每一物种信息的出现频率,以供分析待分析碱基序列的物种丰度。
本申请的一些实施例中,考虑到将待分析碱基序列与目标碱基序列比对成功的基准,可以是两条碱基序列中匹配碱基的个数,也可以是两条碱基序列中匹配碱基的所占比例,基于此,对上述实施例提到的对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列的过程进行介绍,该过程可以包括如下两种情况:
第一种、对于每个待分析碱基序列,将已配置的物种碱基序列库中的碱基序列逐个与所述待分析碱基序列比对,并将碱基比对成功个数大于预设比对个数的碱基序列作为目标碱基序列。
具体的,预设比对个数可以表示确定序列成功比对的最少碱基匹配个数。
示例如,待分析碱基序列为:AATCGG,预设比对成功个数为4,物种碱基序列库中的一条碱基序列为:ATTCGG,其中有5个碱基与待分析碱基序列的碱基比对成功,则确定该碱基序列为目标碱基序列。
第二种、对于每个待分析碱基序列,将已配置的物种碱基序列库中的碱基序列逐个与所述待分析碱基序列比对,并将碱基比对成功个数占比大于预设占比的碱基序列作为目标碱基序列。
示例如,待分析碱基序列为:AATCGG,预设比例为80%,物种碱基序列库中的一条碱基序列为:ATTCGG,其中有83.3%占比的碱基与待分析碱基序列的碱基比对成功,则确定该碱基序列为目标碱基序列。
本实施例提供的基于碱基序列分析物种的方法,能够通过预先设立成功比对的基准,控制与待分析碱基序列比对成功的目标碱基序列的个数,从而使得目标碱基序列更精准,与待分析碱基序列更相似。
在本申请的一些实施例中,考虑到在确定每个待分析碱基序列的物种归属之后,需要确定所读取得出每个待分析碱基序列的待检测基因序列的物种归属,达到对每个待检测基因序列物种分析的效果,基于此,在上述实施例提到的在将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种之后,将在各待分析碱基序列中的出现次数最多的归属物种,作为所述待检测基因序列的归属物种。
本申请的一些实施例中,在上述实施例提到的读取待检测基因序列得到待分析碱基序列之前,需要预先构建用于比对的物种碱基序列库,具体的,该物种碱基序列库的构建过程可以包括:
S1、从已有的基因库中获取若干物种的基因序列。
具体的,已有的基因库中可以包括目前人类已知的所有物种的基因序列,因此从已有的基因库中获取的基因序列,可以是目前人类所认知的物种所对应的。
S2、以所述预设长度为读长,预设步长大于1的第二滑动步长,读取每个物种的基因序列,得到每个物种的若干长度为所述读长的碱基序列,所述读取过程中所使用的GPU显存不超过预设显存。
可以理解的是,当以预设步长大于1的滑动步长读取基因序列时,读取得到的碱基序列条数数量能够减小,机器中的显存和内存的消耗减小,从而节省机身的显存和内存。
具体的,当使用所述预设长度为读长、以及第二滑动步长读取基因序列时,机器所使用的显存不能超过最大显存的90%。
S3、构建由各物种的各碱基序列组成的物种碱基序列库。
具体的,可以将读取基因序列得到的所有碱基序列,组成物种碱基序列库,以供待分析碱基序列与之比对。
本实施例提供的基于碱基序列分析物种的方法,能够从已有的基因库中获取若干物种的基因序列,并按照预设的读长和步长不为1的滑动步长划分多段碱基序列,将各划分得出的碱基序列构成物种碱基序列库,可见通过限制机身的显存而控制滑动步长,使得建立物种碱基序列库的过程能够节省机身的显存和内存,且在作为比对库时由于碱基序列条数数量减小,能够减少占用机器的资源。
上述实施例中介绍了以大于1的步长构建物种碱基序列库,但以过长的步长构建的物种碱基序列库,可能导致最终分类结果精度低。在本申请的一些实施例中,考虑到平衡在待分析碱基序列与物种碱基序列库进行比对时所占机器的资源,以及最终得到分类结果的精确度,基于此,需要配置以所述预设长度为读长,步长为1个碱基的物种碱基序列库,并由此所得到的各待分析碱基序列的归属物种作为第一分类结果,其结果分类精度相对更高,因此作为参照分类结果,以供与基于所述预设长度为读长,步长不为1个碱基的物种碱基序列库得到的分类结果进行比较,优化建立物种碱基序列库时所需的步长,得到最终的物种碱基序列库。
基于此,结合图2所示,本申请的一些实施例中,基于碱基序列分析物种的方法,可以包括如下步骤:
步骤S201、从已有的微生物基因库中获取待检测基因序列。
步骤S202、基于预设长度的读长及第一滑动步长,读取所述待检测基因序列,得到若干长度为所述读长的待分析碱基序列。
步骤S203、对于每个待分析碱基序列,确定在物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息。
步骤S204、对于每个目标碱基序列对应的每一物种信息,基于目标碱基序列与所述待分析碱基序列的相似度,确定所述物种信息与所述待分析碱基序列的匹配得分。
步骤S205、统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率。
步骤S206、对于每个待分析碱基序列,将与之比对成功的目标碱基序列对应的每一物种信息的出现频率与,所述物种信息与所述待分析碱基序列的匹配得分相乘,得到观测得分。
步骤S207、将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分。
步骤S208、将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种,作为第二分类结果。
上述步骤S201-S208与前述实施例中步骤S110-S180一一对应,详细参照前述介绍,此处不再赘述。
步骤S209、判断第一分类结果和第二分类结果的差异度是否大于预设差异度,若是,则执行步骤S210,若否,则执行步骤S211。
具体的,预设差异度可以表示第一分类结果和第二分类结果之间的相似程度。
当第一分类结果和第二分类结果的差异度大于预设差异度时,可以表示得到第二分类结果的精确度不高,结果所基于的物种碱基序列库需要重新调整,则执行步骤S210。
当第一分类结果和第二分类结果的差异度不大于预设差异度时,可以表示得到第二分类结果的精确度达到预设标准,则执行步骤S211。
步骤S210、调整建立所述物种碱基序列库时的步长,得到调整后的物种碱基序列库,返回执行步骤S203。
可以理解的是,调整后的物种碱基序列库,需要与得到参照分类结果所基于的物种碱基序列库不同,因此调整的所述步长不为1。
具体的,在调整建立所述物种碱基序列库时的步长之后,可以返回执行步骤S203,将待分析碱基序列与调整后的物种碱基序列库比对。
步骤S211、将调整后的物种碱基序列库作为最终物种碱基序列库。
可以理解的是,最终物种碱基序列库平衡了待分析碱基序列与物种碱基序列库进行比对时所占机器的资源,以及最终物种分类结果的精度,因此可以将该物种碱基序列库与待分析碱基序列进行比对。
本实施例提供的基于碱基序列分析物种的方法,能够确定调整步长后的物种碱基序列库,可以将该物种碱基序列库与待分析碱基序列进行比对,由于调整后的物种碱基序列库减少存储碱基序列,使得在待分析碱基序列与物种碱基序列库进行比对时,减少占用机器的资源,而且其最终物种分类结果与第一分类结果相近,因此又保证最终物种分类的精度。
下面对本申请实施例提供的实现基于碱基序列分析物种的装置进行描述,下文描述的实现基于碱基序列分析物种的装置与上文描述的实现基于碱基序列分析物种的方法可相互对应参照。
参见图3,图3为本申请实施例公开的一种实现基于碱基序列分析物种的装置结构示意图。
如图3所示,该装置可以包括:
待测基因序列获取单元11,用于从已有的微生物基因库中获取待检测基因序列;
待分析碱基序列获取单元12,用于基于预设长度的读长及第一滑动步长,读取所述待检测基因序列,得到若干长度为所述读长的待分析碱基序列;
碱基序列比对单元13,用于对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息,所述物种碱基序列库包含若干长度为预设读长的碱基序列,以及每个碱基序列对应的若干物种信息;
匹配得分确定单元14,用于对于每个目标碱基序列对应的每一物种信息,基于目标碱基序列与所述待分析碱基序列的相似度,确定所述物种信息与所述待分析碱基序列的匹配得分;
出现频率统计单元15,用于统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率;
归属物种确定单元16,用于对于每个待分析碱基序列,将与之比对成功的目标碱基序列对应的每一物种信息的出现频率与,所述物种信息与所述待分析碱基序列的匹配得分相乘,得到观测得分,将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分,并将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种。
可选的,所述出现频率统计单元15,包括:
第一出现频率统计子单元,用于将各目标碱基序列对应的物种信息的条数相加,得到物种信息总出现条数,以及,统计各目标碱基序列对应的物种信息中每一类型物种信息的出现条数;
第二出现频率统计子单元,用于将各目标碱基序列对应的物种信息中每一类型物种信息的出现条数,与所述物种信息总出现条数的比值,作为每一类型物种信息的出现频率。
可选的,所述碱基序列比对单元13,包括:
目标碱基序列确定单元,用于对于每个待分析碱基序列,将已配置的物种碱基序列库中的碱基序列逐个与所述待分析碱基序列比对,并将碱基比对成功个数大于预设比对个数的碱基序列作为目标碱基序列。
可选的,所述装置还包括:
物种确定单元,用于将在各待分析碱基序列中的出现次数最多的归属物种,作为所述待检测基因序列的归属物种。
可选的,所述装置还包括:
物种基因序列获取单元,用于从已有的基因库中获取若干物种的基因序列;
碱基序列读取单元,用于以所述预设长度为读长,预设步长大于1的第二滑动步长,读取每个物种的基因序列,得到每个物种的若干长度为所述读长的碱基序列,所述读取过程中所使用的GPU显存不超过预设显存;
检索序列库构建单元,用于构建由各物种的各碱基序列组成的物种碱基序列库。
可选的,已配置的物种碱基序列库是从已有的基因库中获取若干物种的基因序列,以所述预设长度为读长,步长为1个碱基,读取每个物种的基因序列,得到每个物种的若干长度为所述读长的碱基序列,由各物种的各碱基序列构建的,由此所得到的各待分析碱基序列的归属物种作为第一分类结果;
所述装置还包括:
步长调整单元,用于调整建立所述物种碱基序列库时的步长,得到调整后的物种碱基序列库,调整的所述步长不为1,返回执行碱基序列比对单元13的处理步骤,直至得到各待分析碱基序列的归属物种,作为第二分类结果;
差异度判断单元,用于判断所述第一分类结果和第二分类结果的差异度是否大于预设差异度,若否,则将调整后的物种碱基序列库作为最终物种碱基序列库,若是,返回执行步长调整单元的处理步骤。
本申请实施例提供的基于碱基序列分析物种的装置可应用于基于碱基序列分析物种设备,如终端:手机、电脑等。可选的,图4示出了基于碱基序列分析物种设备的硬件结构框图,参照图4,基于碱基序列分析物种设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
从已有的微生物基因库中获取待检测基因序列;
基于预设长度的读长及第一滑动步长,读取所述待检测基因序列,得到若干长度为所述读长的待分析碱基序列;
对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息,所述物种碱基序列库包含若干长度为预设读长的碱基序列,以及每个碱基序列对应的若干物种信息;
对于每个目标碱基序列对应的每一物种信息,基于目标碱基序列与所述待分析碱基序列的相似度,确定所述物种信息与所述待分析碱基序列的匹配得分;
统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率;
对于每个待分析碱基序列,将与之比对成功的目标碱基序列对应的每一物种信息的出现频率与,所述物种信息与所述待分析碱基序列的匹配得分相乘,得到观测得分,将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分,并将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
从已有的微生物基因库中获取待检测基因序列;
基于预设长度的读长及第一滑动步长,读取所述待检测基因序列,得到若干长度为所述读长的待分析碱基序列;
对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息,所述物种碱基序列库包含若干长度为预设读长的碱基序列,以及每个碱基序列对应的若干物种信息;
对于每个目标碱基序列对应的每一物种信息,基于目标碱基序列与所述待分析碱基序列的相似度,确定所述物种信息与所述待分析碱基序列的匹配得分;
统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率;
对于每个待分析碱基序列,将与之比对成功的目标碱基序列对应的每一物种信息的出现频率与,所述物种信息与所述待分析碱基序列的匹配得分相乘,得到观测得分,将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分,并将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于碱基序列分析物种的方法,其特征在于,包括:
从已有的微生物基因库中获取待检测基因序列;
基于预设长度的读长及第一滑动步长,读取所述待检测基因序列,得到若干长度为所述读长的待分析碱基序列;
对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息,所述物种碱基序列库包含若干长度为预设读长的碱基序列,以及每个碱基序列对应的若干物种信息;
对于每个目标碱基序列对应的每一物种信息,基于目标碱基序列与所述待分析碱基序列的相似度,确定所述物种信息与所述待分析碱基序列的匹配得分;
统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率;
对于每个待分析碱基序列,将与之比对成功的目标碱基序列对应的每一物种信息的出现频率与,所述物种信息与所述待分析碱基序列的匹配得分相乘,得到观测得分,将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分,并将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种。
2.根据权利要求1所述的方法,其特征在于,所述统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率,包括:
将各目标碱基序列对应的物种信息的条数相加,得到物种信息总出现条数,以及,统计各目标碱基序列对应的物种信息中每一类型物种信息的出现条数;
将各目标碱基序列对应的物种信息中每一类型物种信息的出现条数,与所述物种信息总出现条数的比值,作为每一类型物种信息的出现频率。
3.根据权利要求1所述的方法,其特征在于,所述对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,包括:
对于每个待分析碱基序列,将已配置的物种碱基序列库中的碱基序列逐个与所述待分析碱基序列比对,并将碱基比对成功个数大于预设比对个数的碱基序列作为目标碱基序列。
4.根据权利要求1所述的方法,其特征在于,在将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种之后,还包括:
将在各待分析碱基序列中的出现次数最多的归属物种,作为所述待检测基因序列的归属物种。
5.根据权利要求1所述的方法,其特征在于,构建所述物种碱基序列库的过程,包括:
从已有的基因库中获取若干物种的基因序列;
以所述预设长度为读长,预设步长大于1的第二滑动步长,读取每个物种的基因序列,得到每个物种的若干长度为所述读长的碱基序列,所述读取过程中所使用的GPU显存不超过预设显存;
构建由各物种的各碱基序列组成的物种碱基序列库。
6.根据权利要求1所述的方法,其特征在于,已配置的物种碱基序列库是从已有的基因库中获取若干物种的基因序列,以所述预设长度为读长,步长为1个碱基,读取每个物种的基因序列,得到每个物种的若干长度为所述读长的碱基序列,由各物种的各碱基序列构建的,由此所得到的各待分析碱基序列的归属物种作为第一分类结果;
该方法还包括:
调整建立所述物种碱基序列库时的步长,得到调整后的物种碱基序列库,调整的所述步长不为1;
返回执行对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息的步骤,直至得到各待分析碱基序列的归属物种,作为第二分类结果;
判断所述第一分类结果和第二分类结果的差异度是否大于预设差异度;
若否,则将调整后的物种碱基序列库作为最终物种碱基序列库;
若是,返回执行调整建立所述物种碱基序列库时的步长,得到调整后的物种碱基序列库的步骤。
7.一种基于碱基序列分析物种的装置,其特征在于,包括:
待测基因序列获取单元,用于从已有的微生物基因库中获取待检测基因序列;
待分析碱基序列获取单元,用于基于预设长度的读长及第一滑动步长,读取所述待检测基因序列,得到若干长度为所述读长的待分析碱基序列;
碱基序列比对单元,用于对于每个待分析碱基序列,确定在已配置的物种碱基序列库中比对成功的若干目标碱基序列,以及每个目标碱基序列对应的若干物种信息,所述物种碱基序列库包含若干长度为预设读长的碱基序列,以及每个碱基序列对应的若干物种信息;
匹配得分确定单元,用于对于每个目标碱基序列对应的每一物种信息,基于目标碱基序列与所述待分析碱基序列的相似度,确定所述物种信息与所述待分析碱基序列的匹配得分;
出现频率统计单元,用于统计各目标碱基序列对应的物种信息中,每一类型物种信息的出现频率;
归属物种确定单元,用于对于每个待分析碱基序列,将与之比对成功的目标碱基序列对应的每一物种信息的出现频率与,所述物种信息与所述待分析碱基序列的匹配得分相乘,得到观测得分,将所述观测得分加上所述物种信息与所述待分析碱基序列的匹配得分,结果作为所述物种信息属于所述待分析碱基序列的归属物种的概率得分,并将所述概率得分最高的归属物种作为所述待分析碱基序列的归属物种。
8.根据权利要求7所述的装置,其特征在于,所述出现频率统计单元,包括:
第一出现频率统计子单元,用于将各目标碱基序列对应的物种信息的条数相加,得到物种信息总出现条数,以及,统计各目标碱基序列对应的物种信息中每一类型物种信息的出现条数;
第二出现频率统计子单元,用于将各目标碱基序列对应的物种信息中每一类型物种信息的出现条数,与所述物种信息总出现条数的比值,作为每一类型物种信息的出现频率。
9.根据权利要求7所述的装置,其特征在于,所述碱基序列比对单元,包括:
目标碱基序列确定单元,用于对于每个待分析碱基序列,将已配置的物种碱基序列库中的碱基序列逐个与所述待分析碱基序列比对,并将碱基比对成功个数大于预设比对个数的碱基序列作为目标碱基序列。
10.根据权利要求7所述的装置,其特征在于,还包括:
物种确定单元,用于将在各待分析碱基序列中的出现次数最多的归属物种,作为所述待检测基因序列的归属物种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210326419.0A CN114743597A (zh) | 2022-03-30 | 2022-03-30 | 一种基于碱基序列分析物种的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210326419.0A CN114743597A (zh) | 2022-03-30 | 2022-03-30 | 一种基于碱基序列分析物种的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114743597A true CN114743597A (zh) | 2022-07-12 |
Family
ID=82279921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210326419.0A Pending CN114743597A (zh) | 2022-03-30 | 2022-03-30 | 一种基于碱基序列分析物种的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743597A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480470A (zh) * | 2016-06-08 | 2017-12-15 | 广州华大基因医学检验所有限公司 | 基于贝叶斯与泊松分布检验的已知变异检出方法和装置 |
CN108268753A (zh) * | 2018-01-25 | 2018-07-10 | 清华大学 | 一种微生物组识别方法和装置、设备 |
CN111462821A (zh) * | 2020-04-10 | 2020-07-28 | 广州微远基因科技有限公司 | 病原微生物分析鉴定***及应用 |
CN112259167A (zh) * | 2020-10-22 | 2021-01-22 | 深圳华大基因科技服务有限公司 | 基于高通量测序的病原体分析方法、装置和计算机设备 |
CN112420130A (zh) * | 2020-11-03 | 2021-02-26 | 上海美吉生物医药科技有限公司 | 基于kegg数据库的注释方法、装置、设备和介质 |
-
2022
- 2022-03-30 CN CN202210326419.0A patent/CN114743597A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480470A (zh) * | 2016-06-08 | 2017-12-15 | 广州华大基因医学检验所有限公司 | 基于贝叶斯与泊松分布检验的已知变异检出方法和装置 |
CN108268753A (zh) * | 2018-01-25 | 2018-07-10 | 清华大学 | 一种微生物组识别方法和装置、设备 |
CN111462821A (zh) * | 2020-04-10 | 2020-07-28 | 广州微远基因科技有限公司 | 病原微生物分析鉴定***及应用 |
CN112259167A (zh) * | 2020-10-22 | 2021-01-22 | 深圳华大基因科技服务有限公司 | 基于高通量测序的病原体分析方法、装置和计算机设备 |
CN112420130A (zh) * | 2020-11-03 | 2021-02-26 | 上海美吉生物医药科技有限公司 | 基于kegg数据库的注释方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
CN106446816B (zh) | 人脸识别方法及装置 | |
CN110827924B (zh) | 基因表达数据的聚类方法、装置、计算机设备及存储介质 | |
CN110807488B (zh) | 一种基于用户对等组的异常检测方法及装置 | |
CN111143597B (zh) | 图像检索方法、终端及存储装置 | |
CN112364014B (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN111626346A (zh) | 数据分类方法、设备、存储介质及装置 | |
CN112101024B (zh) | 基于app信息的目标对象识别*** | |
CN107077617B (zh) | 指纹提取方法及装置 | |
CN114743597A (zh) | 一种基于碱基序列分析物种的方法及装置 | |
JPWO2013145249A1 (ja) | 生体認証装置、生体認証方法、および生体認証プログラム | |
CN116310994A (zh) | 一种视频片段提取方法、装置、电子设备及介质 | |
TW201738792A (zh) | 行動設備標識的設置方法和裝置 | |
CN114513341B (zh) | 恶意流量检测方法、装置、终端及计算机可读存储介质 | |
CN110751227A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110597807A (zh) | 基于数据分析的数据扩充方法、装置、终端及介质 | |
CN116415063A (zh) | 云服务推荐方法及装置 | |
CN114139547A (zh) | 知识融合方法、装置、设备、***及介质 | |
CN114429177A (zh) | 设备指纹特征筛选方法、装置、电子设备及存储介质 | |
CN112085526A (zh) | 基于用户群的信息匹配方法、装置、计算机设备及存储介质 | |
CN113628683A (zh) | 一种高通量测序突变检测方法、设备、装置及可读存储介质 | |
CN108154177B (zh) | 业务识别方法、装置、终端设备及存储介质 | |
CN112698877A (zh) | 数据处理方法及*** | |
CN112801130B (zh) | 图像聚类簇质量评估方法、***、介质及装置 | |
CN115840834B (zh) | 一种人脸数据库快速搜索方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |