CN110246544B - 一种基于整合分析的生物标志物选择方法及*** - Google Patents

一种基于整合分析的生物标志物选择方法及*** Download PDF

Info

Publication number
CN110246544B
CN110246544B CN201910409758.3A CN201910409758A CN110246544B CN 110246544 B CN110246544 B CN 110246544B CN 201910409758 A CN201910409758 A CN 201910409758A CN 110246544 B CN110246544 B CN 110246544B
Authority
CN
China
Prior art keywords
genes
importance
algorithm
adopting
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910409758.3A
Other languages
English (en)
Other versions
CN110246544A (zh
Inventor
刘婉婷
张弓
何庆瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201910409758.3A priority Critical patent/CN110246544B/zh
Publication of CN110246544A publication Critical patent/CN110246544A/zh
Application granted granted Critical
Publication of CN110246544B publication Critical patent/CN110246544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于整合分析的生物标志物选择方法及***,该方法包括下述步骤:选取原始测序数据;原始测序数据采用FANSe算法,进行mapping分析,得到基因定量信息,设定基因原始分组;采用GWGS算法计算基因在原始分组中的重要性排序,再采用GWRS算法将每组基因的重要性整合,得到整合后的基因重要性排列列表,将基因按照重要性从高到低排序;采用基于SVM的Wrapper Feature Selection模型进行数据挖掘,区分数据样本类型,从重要性高的基因中筛选出生物标志物。本发明根据测序数据特点,有机整合多中心的原始测序数据,并解决平台、样本、实验设计上的***差异,采用稳健性高的整合分析算法进行深度数据挖掘,挖掘到共同、特异、关键的生物大分子。

Description

一种基于整合分析的生物标志物选择方法及***
技术领域
本发明涉及生物标志物检测技术领域,具体涉及一种基于整合分析的生物标志物选择方法及***。
背景技术
寻找较为共同且特异性强、关键性强的生物大分子(包括核酸和蛋白质),可以提升医学治疗效果,但是现有的分子标志物难以满足共同、特异、关键的要求,分子标志物大多利用多中心数据分析得到,而现有的多中心数据的常规处理方式是采用Meta分析(荟萃分析),整合多中心研究的结论,由于多中心数据常存在着实验对象差异、仪器方法差异等不一致因素,不加分别地合并其原始数据进行分析的方法并不妥当,荟萃分析易受原始数据质量、原始研究人员分析水平、原始研究工具错漏等因素的影响而造成偏倚,使得大量珍贵数据未能得到充分利用。
发明内容
为了克服现有技术存在的缺陷,本发明提供一种基于整合分析的生物标志物选择方法及***,建立一种整合分析策略,利用高精度的底层处理算法开发具有强稳健性的整合算法,直接对多中心原始测序数据进行整合分析,从而充分利用多中心海量测序数据,挖掘到共同、特异、关键的生物大分子。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于整合分析的生物标志物选择方法,包括下述步骤:
S1:选取原始测序数据;
S2:原始测序数据采用FANSe算法,进行mapping分析,得到基因定量信息,设定基因原始分组;
S3:采用GWGS算法计算基因在原始分组中的重要性排序,再采用GWRS算法将每组基因的重要性整合,得到整合后的基因重要性排列列表,将基因按照重要性从高到低排序;
S4:采用基于SVM的Wrapper Feature Selection模型进行数据挖掘,区分数据样本类型,从重要性高的基因中筛选出生物标志物。
作为优选的技术方案,步骤S1中所述的原始测序数据,采用从测序机器上生成的fastq格式的测序文件。
作为优选的技术方案,步骤S2中所述的进行mapping分析,具体步骤为:
将短读序列打断成多个不重叠的种子,每个种子程度相同,将所有种子与参考基因组进行匹配,对匹配上的种子根据起始位点进行统计打分,按照分数高低进行排位,根据配位截取参考基因序列,将短读序列跟截取参考基因组序列进行比对,将比对上的最高位短读序列位置作为最终位置,得到基因定量信息。
作为优选的技术方案,步骤S3中所述采用GWGS算法计算基因在原始分组中的重要性排序,首先采用GWRS算法对mapping分析后的测序数据进行评测,按照表达的显著程度赋予不同的数值,GWRS算法进行评测的具体计算公式为:
Figure BDA0002062436300000021
其中,rij表示在第j微阵列中第i基因的rank值,i∈(1,m),j∈(1,n),sij为GWRS值,对微阵列中含有NA的基因,sij值也设为NA。
作为优选的技术方案,步骤S3中再采用GWRS算法将每组基因的重要性整合,具体计算公式为:
Figure BDA0002062436300000022
其中,ωj表示第j微阵列的权重值,sij为GWRS值。
作为优选的技术方案,步骤S4中所述采用基于SVM的Wrapper Feature Selection模型进行数据挖掘,具体步骤为:
S41:基于SVM建立Wrapper Feature Selection模型,训练Wrapper FeatureSelection模型;
S42:将按照重要性排序好的基因组输入到训练好的Wrapper Feature Selection模型,判断输出结果是否能分开样本种类,达到预设条件的,输出对应的基因,未达到预设条件的,进行循环数据挖掘过程,逐次添加基因直到达到预设条件,输出最终结果对应的基因。
本发明提供一种基于整合分析的生物标志物选择***,包括:原始测序数据选取模块、定量分析模块、排序整合模块和数据挖掘模块;
所述原始测序数据选取模块用于选取原始测序数据,从测序机器上选取fastq格式的测序文件;
所述定量分析模块对原始测序数据采用FANSe算法进行mapping分析,得到基因定量信息;
所述排序整合模块用于生成基因重要性排列列表,采用GWGS算法计算基因在原始分组中的重要性排序,再采用GWRS算法将每组基因的重要性整合,得到整合后的基因重要性排列列表,将基因按照重要性从高到低排序;
所述数据挖掘模块用于筛选出生物标志物,采用基于SVM的Wrapper FeatureSelection模型进行数据挖掘,区分数据样本类型,从重要性高的基因中筛选出生物标志物。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明建立测序数据整合分析策略,根据测序数据特点,有机整合多中心的原始测序数据,并解决平台、样本、实验设计上的***差异,采用稳健性高的整合分析算法进行深度数据挖掘,挖掘到共同、特异、关键的生物大分子。
附图说明
图1为本实施例基于整合分析的生物标志物选择方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
本实施例提供一种基于整合分析的生物标志物选择方法,将原始测序数据利用FANSe系列算法mapping及定量后,应用GWGS算法先计算基因在某单一数据集中的重要性,再通过GWRS算法整合多个数据集,得到基因在所有数据集中的重要性排序,依照重要性排序为顺序将基因逐次放入筛选模型中,最终选出生物标志物。
本实施例引入高精度测序分析算法FANSe,FANSe算法基于哈希种子匹配进行序列比对,可以高效、高精准度地将短读序列比对到参考基因组中,算法准确度极高,容错率极强,通过史密斯-沃特曼算法对微***/微缺失极灵敏,同时结果具备可靠的实验验证性。
本实施例测序数据量需要经过大量的前期处理,如mapping等计算量极大的步骤,而这一步骤的精度会直接影响到Integrative分析的准确度。
如图1所示,本实施例提供的基于整合分析的生物标志物选择方法,具体步骤如下:
S1:选取原始测序数据;
S2:原始测序数据进行mapping分析后得到精准定量结果,得到基因定量信息,设定基因原始分组:
原始测序数据是从测序机器上直接生成的fastq格式的测序文件,该文件需要与相应物种的参考序列比对,由此计算出测序样本中有什么基因(定性部分),每个基因的表达量是多少(定量部分)。mapping分析计算流程为:将短读序列打断成若干不重叠的种子,每个种子程度相同,将所有种子跟参考基因组匹配,对匹配上的种子根据起始位点进行统计,打分,分数越高的排位越靠前,根据配位截取参考基因序列,将短读序列跟截取参考基因组序列进行精准比对,根据碱基-碱基比较来进行打分,将其中史密斯-沃特曼算法的回溯机制取消,已达到加速目的,整理比对结果,将精确比对上的最高位短读序列位置作为最终位置,即确定了基因,完成mapping全过程。然后根据mapping上的序列数量,定量基因表达量。算法经过评定,具有稳健性和容错率极强,因此用这个算法重新处理下载来自不同实验平台的数据,可以去除或者减少实验平台或不同实验带来的实验数据偏倚;
S3:采用GWGS算法计算基因在原始分组中的重要性排序,再采用GWRS算法将每组基因的重要性整合,得到整合后的基因重要性排列列表,将基因按照重要性从高到低排序:
首先应用如公式(1)所示的GWRS算法对FANSe处理过的单中心测序数据中进行评测,按照表达的显著程度赋予不同的数值,
Figure BDA0002062436300000061
其中,rij表示在第j微阵列中第i基因的rank值,i∈(1,m),j∈(1,n),sij为GWRS值,对微阵列中含有NA的基因,sij值也设为NA;
应用公式(2)所示的GWGS算法对上述GWRS结果进行整合分析,生成一组跨越多中心数据的基因表达数据:
Figure BDA0002062436300000062
其中,ωj表示第j微阵列的权重值;
S4:采用基于SVM的Wrapper Feature Selection模型进行数据挖掘,区分数据样本类型,从重要性高的基因中筛选出生物标志物;
在本实施例中,模型是基于支持向量机(SVM)为基础建立的,将步骤S2、步骤S3处理过的排好重要性的基因组,逐次加入到循环模型中,即每次比上次增加一个基因,并投入到提前训练好的Wrapper Feature Selection模型中,判断输出结果是否符合最佳的稳定正确率,即是否能真实分开样本种类,如果达到最佳稳定正确率,即跳出循环并输出达到该结果的相应的基因,如果未达到最佳正确率结果,检测将持续进行,逐次添加基因直到达到最佳结果为止。以上步骤可以从步骤S2、S3生成的基因重要性列表中精准的筛选出既重要性排名靠前又能准确区分样本类型的基因作为标志物。
在本实施例中,Wrapper Feature Selection模型训练方法为有监督训练,即知道已知样本答案,检测投入的基因是否可以将不同阶段的样本分开,本实施例以随机抽样1000次样本数据的方式摸索的最符合该数据类型对应的合适的参数,即在此参数下,相关基因可以区分样本并达到最高正确率。
在本实施例中,为改良模型适应测序数据,本实施例应用样本相关的测序数据进行模型调整和预实验,根据数据特点对GWRS,GWGS,及Wrapper feature selection中SVM等模块进行调整,同时充分考虑到计算效率优化、并行化计算和分布式计算等问题。
在本实施例中,模型需要根据临床样本的不同进行适当调整:
1.针对测序数据需要引入FANSe系列算法以保证测序定量结果,在好的测序定量结果上才能展开筛选;
2.GWRS和GWGS也考虑了测序数据的特点,如不能只凭借P value一个差异定量作为参数,可能需引入多个,本实施例采用差异倍数作为基础,P value作为差异倍数的权重来给基因重要性排序;
3.对测序数据进行抽样,根据其特点,制定Wrapper Feature Selection模型的筛选参数,保证得到最高的稳定正确率。
在本实施例中,从多个数据库中筛选到临床测序数据,按照技术方案中提到的步骤,首先将所有数据经FANSe系列算法mapping及定量处理,得到基因定量信息后,以原始数据分组为单位,应用GWGS算法计算基因在原始分组中的重要性排序,再应用GWRS算法将每组基因的重要性整合,得到整合后的一组基因重要性排列列表。将基因按照重要性高到底排序,应用基于SVM的Wrapper Feature Selection模型从重要基因中筛选生物大分子(即生物标志物),通过对这批数据的计算和筛选,筛选出共同、特异、关键的生物大分子。
本实施例还提供一种基于整合分析的生物标志物选择***,包括:原始测序数据选取模块、定量分析模块、排序整合模块和数据挖掘模块;
所述原始测序数据选取模块用于选取原始测序数据,从测序机器上选取fastq格式的测序文件;
所述定量分析模块对原始测序数据采用FANSe算法进行mapping分析,得到基因定量信息;
所述排序整合模块用于得到基因重要性排列列表,采用GWGS算法计算基因在原始分组中的重要性排序,再采用GWRS算法将每组基因的重要性整合,得到整合后的基因重要性排列列表,将基因按照重要性从高到低排序;
所述数据挖掘模块用于筛选出生物标志物,采用基于SVM的Wrapper FeatureSelection模型进行数据挖掘,区分数据样本类型,从重要性高的基因中筛选出生物标志物。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于整合分析的生物标志物选择方法,其特征在于,包括下述步骤:
S1:选取原始测序数据;
S2:原始测序数据采用FANSe算法,进行mapping分析,得到基因定量信息,设定基因原始分组;
步骤S2中所述的进行mapping分析,具体步骤为:
将短读序列打断成多个不重叠的种子,每个种子程度相同,将所有种子与参考基因组进行匹配,对匹配上的种子根据起始位点进行统计打分,按照分数高低进行排位,根据配位截取参考基因序列,将短读序列跟截取参考基因组序列进行比对,将比对上的最高位短读序列位置作为最终位置,得到基因定量信息;
S3:采用GWGS算法计算基因在原始分组中的重要性排序,再采用GWRS算法将每组基因的重要性整合,得到整合后的基因重要性排列列表,将基因按照重要性从高到低排序;
步骤S3中所述采用GWGS算法计算基因在原始分组中的重要性排序,首先采用GWRS算法对mapping分析后的测序数据进行评测,按照表达的显著程度赋予不同的数值,GWRS算法进行评测的具体计算公式为:
Figure FDA0002762222050000011
其中,rij表示在第j微阵列中第i基因的rank值,i∈(1,m),j∈(1,n),sij为GWRS值,对微阵列中含有NA的基因,sij值也设为NA;
步骤S3中再采用GWRS算法将每组基因的重要性整合,具体计算公式为:
Figure FDA0002762222050000012
其中,ωj表示第j微阵列的权重值,sij为GWRS值;
S4:采用基于SVM的Wrapper Feature Selection模型进行数据挖掘,区分数据样本类型,从重要性高的基因中筛选出生物标志物。
2.根据权利要求1所述的基于整合分析的生物标志物选择方法,其特征在于,步骤S1中所述的原始测序数据,采用从测序机器上生成的fastq格式的测序文件。
3.根据权利要求1所述的基于整合分析的生物标志物选择方法,其特征在于,步骤S4中所述采用基于SVM的Wrapper Feature Selection模型进行数据挖掘,具体步骤为:
S41:基于SVM建立Wrapper Feature Selection模型,训练Wrapper FeatureSelection模型;
S42:将按照重要性排序好的基因组输入到训练好的Wrapper Feature Selection模型,判断输出结果是否能分开样本种类,达到预设条件的,输出对应的基因,未达到预设条件的,进行循环数据挖掘过程,逐次添加基因直到达到预设条件,输出最终结果对应的基因。
4.一种基于整合分析的生物标志物选择***,其特征在于,包括:原始测序数据选取模块、定量分析模块、排序整合模块和数据挖掘模块;
所述原始测序数据选取模块用于选取原始测序数据,从测序机器上选取fastq格式的测序文件;
所述定量分析模块对原始测序数据采用FANSe算法进行mapping分析,得到基因定量信息;
将短读序列打断成多个不重叠的种子,每个种子程度相同,将所有种子与参考基因组进行匹配,对匹配上的种子根据起始位点进行统计打分,按照分数高低进行排位,根据配位截取参考基因序列,将短读序列跟截取参考基因组序列进行比对,将比对上的最高位短读序列位置作为最终位置,得到基因定量信息;
所述排序整合模块用于生成基因重要性排列列表,采用GWGS算法计算基因在原始分组中的重要性排序,再采用GWRS算法将每组基因的重要性整合,得到整合后的基因重要性排列列表,将基因按照重要性从高到低排序;
所述采用GWGS算法计算基因在原始分组中的重要性排序,首先采用GWRS算法对mapping分析后的测序数据进行评测,按照表达的显著程度赋予不同的数值,GWRS算法进行评测的具体计算公式为:
Figure FDA0002762222050000031
其中,rij表示在第j微阵列中第i基因的rank值,i∈(1,m),j∈(1,n),sij为GWRS值,对微阵列中含有NA的基因,sij值也设为NA;
再采用GWRS算法将每组基因的重要性整合,具体计算公式为:
Figure FDA0002762222050000032
其中,ωj表示第j微阵列的权重值,sij为GWRS值;
所述数据挖掘模块用于筛选出生物标志物,采用基于SVM的Wrapper FeatureSelection模型进行数据挖掘,区分数据样本类型,从重要性高的基因中筛选出生物标志物。
CN201910409758.3A 2019-05-17 2019-05-17 一种基于整合分析的生物标志物选择方法及*** Active CN110246544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910409758.3A CN110246544B (zh) 2019-05-17 2019-05-17 一种基于整合分析的生物标志物选择方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910409758.3A CN110246544B (zh) 2019-05-17 2019-05-17 一种基于整合分析的生物标志物选择方法及***

Publications (2)

Publication Number Publication Date
CN110246544A CN110246544A (zh) 2019-09-17
CN110246544B true CN110246544B (zh) 2021-03-19

Family

ID=67884226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910409758.3A Active CN110246544B (zh) 2019-05-17 2019-05-17 一种基于整合分析的生物标志物选择方法及***

Country Status (1)

Country Link
CN (1) CN110246544B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686580B (zh) * 2021-01-31 2023-05-16 重庆渝高科技产业(集团)股份有限公司 一种可自定义流程的工作流定义方法及***
CN114574582A (zh) * 2022-03-21 2022-06-03 暨南大学 一种转录组学标准品及其制备方法
CN116543838B (zh) * 2023-07-05 2023-09-05 苏州凌点生物技术有限公司 一种生物基因选择表达概率的数据分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104968802A (zh) * 2012-11-16 2015-10-07 西门子公司 作为诊断标志物的新miRNA
CN105874080A (zh) * 2013-09-09 2016-08-17 阿尔玛克诊断有限公司 用于食道癌的分子诊断测试
CN105874079A (zh) * 2013-09-09 2016-08-17 阿尔玛克诊断有限公司 用于肺癌的分子诊断测试
CN106845152A (zh) * 2017-02-04 2017-06-13 北京林业大学 一种基因组胞嘧啶位点表观基因型分型方法
CN109642256A (zh) * 2016-07-28 2019-04-16 阿利瑟迪亚格公司 作为用于情绪障碍测试的生物标志物的rna编辑
CN109658980A (zh) * 2018-03-20 2019-04-19 上海交通大学医学院附属瑞金医院 一种粪便基因标志物的筛选及应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050079524A1 (en) * 2000-01-21 2005-04-14 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104968802A (zh) * 2012-11-16 2015-10-07 西门子公司 作为诊断标志物的新miRNA
CN105874080A (zh) * 2013-09-09 2016-08-17 阿尔玛克诊断有限公司 用于食道癌的分子诊断测试
CN105874079A (zh) * 2013-09-09 2016-08-17 阿尔玛克诊断有限公司 用于肺癌的分子诊断测试
CN109642256A (zh) * 2016-07-28 2019-04-16 阿利瑟迪亚格公司 作为用于情绪障碍测试的生物标志物的rna编辑
CN106845152A (zh) * 2017-02-04 2017-06-13 北京林业大学 一种基因组胞嘧啶位点表观基因型分型方法
CN109658980A (zh) * 2018-03-20 2019-04-19 上海交通大学医学院附属瑞金医院 一种粪便基因标志物的筛选及应用

Also Published As

Publication number Publication date
CN110246544A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
AU2022268283B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
CN110246544B (zh) 一种基于整合分析的生物标志物选择方法及***
CN111292802B (zh) 用于检测突变的方法、电子设备和计算机存储介质
Carstens et al. A global analysis of bats using automated comparative phylogeography uncovers a surprising impact of Pleistocene glaciation
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析***及分析方法
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
CN112669903A (zh) 基于Sanger测序的HLA分型方法及设备
Whitehouse et al. Timesweeper: accurately identifying selective sweeps using population genomic time series
CN112599190B (zh) 一种基于混合分类器来识别耳聋相关基因的方法
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN112382342A (zh) 一种基于集成特征选择的癌症甲基化数据分类方法
CN114496089B (zh) 一种病原微生物鉴定方法
CN113724779B (zh) 基于机器学习技术的SNAREs蛋白识别方法、***、存储介质及设备
CN116994647A (zh) 用于分析变异检测结果的模型的构建方法
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
Bhat et al. An accurate and exact clustering algorithm for next generation sequencing metagenomic sequences
CN115910216B (zh) 一种基于机器学习识别基因组序列分类错误的方法和***
CN113469244B (zh) 小众app分类***
CN117672343B (zh) 测序饱和度评估方法及装置、设备及存储介质
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
Leong Modeling Sequencing Artifacts for Next Generation Sequencing
CN115482879A (zh) 基于卷积神经网络的变异临床效应分析识别方法及设备
CN117877575A (zh) 区分胚系变异和体细胞变异的方法和装置
Gollwitzer et al. MetaFast: Enabling Fast Metagenomic Classification via Seed Counting and Edit Distance Approximation
Kamrava et al. Machine-learning algorithm for identifying and predicting amyotrophic lateral sclerosis causal mutations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant