CN112164424B - 一种基于无参考基因组的群体进化分析方法 - Google Patents
一种基于无参考基因组的群体进化分析方法 Download PDFInfo
- Publication number
- CN112164424B CN112164424B CN202010768331.5A CN202010768331A CN112164424B CN 112164424 B CN112164424 B CN 112164424B CN 202010768331 A CN202010768331 A CN 202010768331A CN 112164424 B CN112164424 B CN 112164424B
- Authority
- CN
- China
- Prior art keywords
- snp
- data
- group
- sample
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 45
- 238000013515 script Methods 0.000 claims abstract description 27
- 238000012163 sequencing technique Methods 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 230000002068 genetic effect Effects 0.000 claims abstract description 7
- 108090000790 Enzymes Proteins 0.000 claims description 23
- 102000004190 Enzymes Human genes 0.000 claims description 23
- 239000002585 base Substances 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 9
- 238000007476 Maximum Likelihood Methods 0.000 claims description 8
- 238000003776 cleavage reaction Methods 0.000 claims description 8
- 230000007017 scission Effects 0.000 claims description 8
- 108091035707 Consensus sequence Proteins 0.000 claims description 6
- 238000013398 bayesian method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000003908 quality control method Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 102000054766 genetic haplotypes Human genes 0.000 claims description 4
- 239000002773 nucleotide Substances 0.000 claims description 4
- 125000003729 nucleotide group Chemical group 0.000 claims description 4
- 239000003513 alkali Substances 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000005304 joining Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001351 cycling effect Effects 0.000 claims 1
- 238000007405 data analysis Methods 0.000 abstract description 3
- 241000894007 species Species 0.000 description 3
- 230000035772 mutation Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002856 computational phylogenetic analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于2d‑RAD测序后无参考基因组的群体进化分析方法,通过将样本进行数据拆分后过滤聚类得到群体SNP,并基于样本分组和群体SNP信息进行群体遗传参数分析后构建***发育树,确定最佳K值后利用所述R自写脚本,根据群体SNP信息和指定的群体信息来寻找两大Group之间的共有和特有SNP信息进行无参考基因组的群体进化分析。本发明的整个数据分析比较自动化,节省了人力成本,提高了分析效率,避免了可能的人为失误且分析的数据图表更加美观。
Description
技术领域
本发明涉及基因测序分析技术领域,具体涉及一种基于无参考基因组的群体进化分析方法。
背景技术
通过群体进化分析能更加深入的探究同物种内不同亚群之间的群体结构差异、基因交流情况,也能够研究不同物种之间的群体结构特征;但很多的物种还没有参考基因组发表,所以就要进行无参考基因组的群体进化分析。
因为无参建库方法有多种(RAD、GBS、2d-RAD、SLAF等),不同的建库方法在无参分析的第一步数据拆分上会不同,而现有的基于2d-RAD建库的无参分析方法数据过滤流程复杂,效率较低,尤其是项目数量多且一个项目中包含的样本量大时,实际操作过程中一个项目可能会多次上机测序,这样就会得到不同批次的数据,现有无参分析方法无法智能地使用自动化流程合并不同批次的数据并且进行过滤,导致数据合并与过滤会耗费大量人工时间。
随着高通量测序的不断发展,已有的分析流程分析内容显得单薄,分析内容较少,新的无参分析内容种类更加多样化和个性化。以往的无参分析流程中有许多地方需要人工进行操作进行,现在新的无参分析方法更加自动化,该自动化流程提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
发明内容
为了克服现有技术的上述缺陷,本发明的目的在于提供一种基于无参考基因组的群体进化分析自动化分析方法。
为了实现本发明的目的,所采用的技术方案是:
一种基于2d-RAD测序后无参考基因组的群体进化分析方法,包括如下步骤:
第一步:根据测序样本中的barcode、酶1和酶2的酶切位点信息利用拆分脚本进行数据拆分后将同个样本的多个下机测序数据进行合并后以fastq.gz的格式保存在第一文件夹中;
第二步:将第一步拆分合并后的数据通过滤脚本对数据进行fastQC的质控后按照碱基质量值:Q≥20和序列长度≥50bp的标准进行数据过滤得到过滤后的数据以fastq.gz的格式保存在第二文件夹中;
第三步:将单个样本内先进行序列聚类,在聚类前将单个样本的双端测序数据合并到一个文件中,然后利用软件Stacks中的ustacks命令进行聚类,得到每个样本的代表catalog序列,结果文件以tags.tsv.gz的格式保存在第三文件夹中;
第四步:将样本分组后,基于单个样本的catalog序列进行聚类得到所有样本的consensus序列,所述consensus序列为用于所有样本的类参考基因组序列;
第五步:读取所有文件指定每个样本的分组信息,同时指定缺失率参数利用软件Stacks中的cstacks命令检测群体SNP信息,并以VCF文件的格式保存群体SNP信息;
第六步:基于第五步的群体SNP信息,利用Stacks中的populations命令进行群体遗传参数的分析,计算得到群体分化指数Fst、群体核苷酸多样性π、群体期望杂合度和观测杂合度、单倍型多样性数据;
第七步:将第五步的群体SNP信息的VCF文件,使用软件vcftools和plink进行格式转换,然后使用软件GCTA对SNP进行降维分析,得到对群体影响较大的三个主成分并计算各主成分的贡献值,最后用R自写脚本绘制PCA分布图;
第八步:利用Python自写脚本将得到的群体SNP信息与单个样本的SNP信息转换格式连在一起,然后利用不同的模型构建***发育树;
第九步:
利用Perl自写脚本将群体SNP格式转换为软件structure要求的格式,然后指定分析中使用的SNP数目、群体数目,计算每个样本属于指定的祖先百分比;
然后确定最佳K值(祖先个数),通过这个结果可以得到样本的分群信息和最初指定的是否一致;
第十步:
利用Perl自写脚本,根据群体SNP信息和指定的群体信息来寻找两大Group之间的共有和特有SNP信息。
在本发明的一个优选实施例中,所述过滤脚本为filter_batch_v2.pl。
在本发明的一个优选实施例中,所述构建***发育树的模型包括maximumparsimony(MP)、neighbor-joining(NJ)、Maximum Likelihood(ML)或Bayesian method(BI)中的任意一种或多种。
在本发明的一个优选实施例中,所述最佳K值为ln likelihood进入平台期后拐点所对应的K值。
本发明的有益效果在于:
整个数据分析比较自动化,节省了人力成本,提高了分析效率,避免了可能的人为失误且分析的数据图表更加美观。
附图说明
图1为本发明的流程图。
图2为本发明的PCA分布图。
图3为本发明基于NJ模型的进化树分布图。
图4为本发明最佳K=3时群体遗传结构分布图。
具体实施方式
本发明的原理在于:
基于2d-RAD无参简化的自动化过滤流程,可进行批量数据拆分和过滤,数据过滤后续的各项分析也都可以自动化完成,提高数据处理效率和服务器使用效率,节约人工时间,同时降低人为错误,最终缩短了整个项目分分析周期,实现了丰富分析内容的无参分析高效自动化。
结合图1,本发明的一种基于2d-RAD测序后无参考基因组的群体进化分析方法,包括如下步骤:
(1)数据拆分步骤
根据测序样本的barcode、酶1和酶2的酶切位点信息用自写的脚本进行数据自动化拆分,格式大致为一行表示一个样本的信息,每列的元素分别为样本名,barcode碱基,酶1的酶切位点,酶2的酶切位点,其中间隔符设置为制表符;若一个样本有多次下机测序,分析流程会自动匹配进行合并,合并后的数据以fastq.gz的格式被统一存放在1_RawData的文件夹中。
拆分脚本具体是:
一个文库内会包含多个样本,将样本名、barcode、酶1和酶2的酶切位点序列这四列作为输入文件1,将文库下机原始双端数据fastq.gz作为输入文件2和3;
若一条序列的R1的5’端前7bp与barcode一致,接下来的5个碱基与酶1酶切位点一致,且该reads对应的R2的5’端前4bp与酶2的酶切位点序列一致,则会把这条reads拆分到该样本中,多次循环并输出最终每个样本的拆分数据结果。
(2)数据质控和过滤步骤
利用自己写的自动化过滤脚本filter_batch_v2.pl对样本进行fastQC的质控,同时按照碱基质量值(Q≥20)和序列长度(≥50bp)的标准进行数据过滤。运行结束后所有高质量数据以fastq.gz的格式被存放在2_HQData中。
过滤脚本为filter_batch_v2.pl:
该脚本首先读取位于1_RawData中的样本下机原始数据的双端序列文件${name}_R1.fastq.gz和${name}_R1.fastq.gz作为输入文件,然后对文件进行重命名,通过软件fastqc对输入文件进行质控,得到原始数据的碱基质量等信息的fastq文件;
再利用软件AdapterRemoval以原始数据的fastq.gz文件作为输入文件,去除测序接头,同时将新产生的结果文件以fastq格式保存在2_HQData中,然后再将上一步新产生的fastq文件作为序列质量过滤程序的输入文件,采用滑动窗口法进行质量过滤,窗口大小设置为5bp,步长设置为1bp;
每一次往前移动一个碱基,取5个碱基计算窗口的平均Q值,若窗口的平均Q值≤20,则仅保留该窗口倒数第二个碱基及之前的碱基;
之后双末端中任意一条reads的长度≤50bp,则去除该双末端reads。最终结果输出为${name}_HQ_R1.fq和${name}_HQ_R2.fq。
(3)单个样本内序列聚类步骤
因为无参分析没有参考基因组,所以单个样本内先进行序列聚类,在聚类前将单个样本的双端测序数据合并到一个文件中,然后利用软件Stacks中的ustacks命令进行聚类,得到每个样本的代表catalog序列,结果文件以tags.tsv.gz的格式存放在3_Stacks文件夹中。
(4)所有样本的catalog序列聚类步骤
指定样本的分组信息,同时基于单个样本的catalog序列进行聚类得到所有样本的consensus序列,这个consensus序列被当做所有样本的类参考基因组序列。
(5)检测群体SNP的步骤
读取所有文件指定每个样本的分组信息,同时指定缺失率参数利用软件Stacks中的cstacks命令检测群体SNP信息,并以VCF文件的格式保存。
(6)群体遗传参数(Fst、π、杂合度、单倍型多样性)分析
根据群体SNP信息,利用Stacks中的populations命令进行群体遗传参数的分析,计算得到群体分化指数Fst、群体核苷酸多样性π、群体期望杂合度和观测杂合度、单倍型多样性。
(7)群体PCA分析的步骤
根据群体SNP的VCF文件使用软件vcftools和plink进行格式转换,然后使用软件GCTA对SNP进行降维分析,得到对群体影响较大的三个主成分并计算各主成分的贡献值,最后用R自写脚本绘制PCA分布图。
R自写脚本首先读取GCTA软件输出的PC1、PC2向量信息做为输入文件,计算PC1和PC2的贡献率,然后利用R中的ggplot2包画散点图。
(8)群体***发育树分析的步骤
自写脚本将得到的群体SNP信息将每个样本的SNP信息转换格式连在一起,然后利用不用的模型构建***发育树。
构建进化树的常用模型包括maximum parsimony(MP)、neighbor-joining(NJ)、Maximum Likelihood(ML)、Bayesian method(BI);
其中,MP模型适用于位点不存在回复突变和平行突变,序列相似度较高,核苷酸或氨基酸数目大、替代速率稳定的长序列。NJ模型适用于进化距离不大,信息位点少的短序列。在进化模型确定的情况下,ML法是与进化事实吻合最好的建树方法。BI模型保留了最大似然法的基本原理,又引进了马尔科夫链的蒙特卡洛方法,适用于推导***树、评估***树的不确定性、检测选择作用、比较***树、参考化石记录计算分歧时间和检测分子钟。
(9)群体遗传结构分析的步骤
自写脚本将群体SNP格式转换为软件structure要求的格式,然后指定分析中使用的SNP数目、群体数目,计算每个样本属于指定的祖先百分比。然后确定最佳K值(祖先个数),通过这个结果可以得到样本的分群信息和最初指定的是否一致。
每个K值基于贝叶斯模型的计算方法模拟的结果,都会产生对应最大似然值(likelihood),它是取了自然对数后输出的(ln likelihood)。ln likelihood越大,说明K值越接近于真实情况,但一般随着K值升高,ln likelihood值也会进入平台期。最优K值就是进入平台期的那个拐点对应的K值)。
(10)群体特有SNP分析的步骤
自写脚本根据群体SNP信息和指定的群体信息来寻找两大Group之间的共有和特有SNP信息。
首先根据基因型缺失的情况和SNP位点的测序深度对原始SNP进行过滤,群体SNP的特异性通过两个阈值(A和B)来定义,一是SNP在目标群体中出现的频率高于某阈值(A),二是SNP在非目标群体中出现的频率低于某阈值(B),阈值一般设置为0.8。
基于上述步骤本发明的优点在于:
(1)整个数据分析比较自动化,节省了人力成本,提高了分析效率,避免了可能的人为失误。
(2)分析内容更加丰富,分析结果的图形更加美观(如图2-4所示)。
Claims (1)
1.一种基于2d-RAD测序后无参考基因组的群体进化分析方法,其特征在于,为如下步骤:
第一步:根据测序样本中的barcode、酶1和酶2的酶切位点信息利用拆分脚本进行数据拆分后将同个样本的多个下机测序数据进行合并后以fastq.gz的格式保存在第一文件夹中;
所述拆分脚本具体是:
一个文库内会包含多个样本,将样本名、barcode、酶1和酶2的酶切位点序列这四列作为输入文件1,将文库下机原始双端数据fastq.gz作为输入文件2和3;
若一条序列的R1的 5’端前 7 bp 与barcode一致,接下来的5个碱基与酶1酶切位点一致,且该reads对应的R2的 5’端前 4 bp与酶2的酶切位点序列一致,则会把这条reads拆分到该样本中,多次循环并输出最终每个样本的拆分数据结果;
第二步:将第一步拆分合并后的数据通过滤脚本对数据进行fastQC的质控后按照碱基质量值:Q≥20和序列长度≥50bp的标准进行数据过滤得到过滤后的数据以fastq.gz的格式保存在第二文件夹中;
所述过滤脚本为filter_batch_v2.pl;
所述过滤脚本首先读取位于1_RawData中的样本下机原始数据的双端序列文件${name}_R1.fastq.gz和${name}_R1.fastq.gz作为输入文件,然后对文件进行重命名,通过软件fastqc对输入文件进行质控,得到原始数据的碱基质量信息的fastq文件;
再利用软件AdapterRemoval以原始数据的fastq.gz文件作为输入文件,去除测序接头,同时将新产生的结果文件以fastq格式保存在2_HQData中,然后再将上一步新产生的fastq文件作为序列质量过滤程序的输入文件,采用滑动窗口法进行质量过滤,窗口大小设置为 5 bp,步长设置为 1 bp;
每一次往前移动一个碱基,取 5 个碱基计算窗口的平均 Q 值,若窗口的平均 Q 值≤ 20,则仅保留该窗口倒数第二个碱基及之前的碱基;
之后双末端中任意一条 reads 的长度 ≤ 50 bp,则去除该双末端 reads,最终结果输出为${name}_HQ_R1.fq和${name}_HQ_R2.fq;
第三步:将单个样本内先进行序列聚类,在聚类前将单个样本的双端测序数据合并到一个文件中,然后利用软件Stacks中的ustacks命令进行聚类,得到每个样本的代表catalog序列,结果文件以tags.tsv.gz的格式保存在第三文件夹中;
第四步:将样本分组后,基于单个样本的catalog序列进行聚类得到所有样本的consensus序列,所述consensus序列为用于所有样本的类参考基因组序列;
第五步:读取所有文件指定每个样本的分组信息,同时指定缺失率参数利用软件Stacks中的cstacks命令检测群体SNP信息,并以VCF文件的格式保存群体SNP信息;
第六步:基于第五步的群体SNP信息,利用Stacks中的populations命令进行群体遗传参数的分析,计算得到群体分化指数Fst、群体核苷酸多样性π、群体期望杂合度和观测杂合度、单倍型多样性数据;
第七步:将第五步的群体SNP信息的VCF文件,使用软件vcftools和plink进行格式转换,然后使用软件GCTA对SNP进行降维分析,得到对群体影响较大的三个主成分并计算各主成分的贡献值,最后用R自写脚本绘制PCA分布图;
所述R自写脚本首先读取GCTA软件输出的PC1、PC2向量信息做为输入文件,计算PC1和PC2的贡献率,然后利用R中的ggplot2包画散点图;
第八步:利用Perl自写脚本将得到的群体SNP信息与单个样本的SNP信息转换格式连在一起,然后利用不同的模型构建***发育树;
所述构建***发育树的模型为maximum parsimony、neighbor-joining、MaximumLikelihood和Bayesian method中的任意一种或多种;
第九步:
利用Python自写脚本将群体SNP格式转换为软件structure要求的格式,然后指定分析中使用的SNP数目、群体数目,计算每个样本属于指定的祖先百分比;
然后确定祖先个数的最佳K值,所述最佳K值为ln likelihood进入平台期后拐点所对应的K值,通过这个结果得到样本的分群信息和最初指定的是否一致;
第十步:
利用Perl自写脚本,根据群体SNP信息和指定的群体信息来寻找两大Group之间的共有和特有SNP信息;
具体是首先根据基因型缺失的情况和SNP位点的测序深度对原始SNP进行过滤,群体SNP的特异性通过两个阈值A和B来定义,一是SNP在目标群体中出现的频率高于某阈值A,二是SNP在非目标群体中出现的频率低于某阈值B,阈值设置为0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010768331.5A CN112164424B (zh) | 2020-08-03 | 2020-08-03 | 一种基于无参考基因组的群体进化分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010768331.5A CN112164424B (zh) | 2020-08-03 | 2020-08-03 | 一种基于无参考基因组的群体进化分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112164424A CN112164424A (zh) | 2021-01-01 |
CN112164424B true CN112164424B (zh) | 2024-04-09 |
Family
ID=73859973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010768331.5A Active CN112164424B (zh) | 2020-08-03 | 2020-08-03 | 一种基于无参考基因组的群体进化分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112164424B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113678767B (zh) * | 2021-08-10 | 2022-08-23 | 中国水产科学研究院黄海水产研究所 | 一种对虾抗病性状的选育方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7571151B1 (en) * | 2005-12-15 | 2009-08-04 | Gneiss Software, Inc. | Data analysis tool for analyzing data stored in multiple text files |
CN101968774A (zh) * | 2010-10-21 | 2011-02-09 | 中国人民解放军61938部队 | 移动数据安全存储的装置和方法 |
GB201404479D0 (en) * | 2013-03-15 | 2014-04-30 | Palantir Technologies Inc | Transformation of data items from data sources using a transformation script |
CN104573409A (zh) * | 2015-01-04 | 2015-04-29 | 杭州和壹基因科技有限公司 | 基因定位的多重检验方法 |
CN105002567A (zh) * | 2015-06-30 | 2015-10-28 | 北京百迈客生物科技有限公司 | 无参考基因组高通量简化甲基化测序文库的构建方法 |
CN108388771A (zh) * | 2018-01-24 | 2018-08-10 | 安徽微分基因科技有限公司 | 一种生物多样性自动分析方法 |
CN108537006A (zh) * | 2018-04-03 | 2018-09-14 | 郑州云海信息技术有限公司 | 一种基因序列数据处理方法、装置及*** |
CN109182505A (zh) * | 2018-09-29 | 2019-01-11 | 南京农业大学 | 奶牛乳腺炎关键SNPs位点rs75762330及2b-RAD基因分型和分析方法 |
WO2019191649A1 (en) * | 2018-03-29 | 2019-10-03 | Freenome Holdings, Inc. | Methods and systems for analyzing microbiota |
CN111235303A (zh) * | 2020-03-24 | 2020-06-05 | 中国环境科学研究院 | 一种鉴别大米草和互花米草的方法 |
CN111276185A (zh) * | 2020-02-18 | 2020-06-12 | 上海桑格信息技术有限公司 | 一种基于二代高通量测序的微生物鉴定分析***及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101832834B1 (ko) * | 2017-03-09 | 2018-04-13 | 주식회사 샤인바이오 | 다중점도표 분석 기반 변이 탐색 방법 및 시스템 |
-
2020
- 2020-08-03 CN CN202010768331.5A patent/CN112164424B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7571151B1 (en) * | 2005-12-15 | 2009-08-04 | Gneiss Software, Inc. | Data analysis tool for analyzing data stored in multiple text files |
CN101968774A (zh) * | 2010-10-21 | 2011-02-09 | 中国人民解放军61938部队 | 移动数据安全存储的装置和方法 |
GB201404479D0 (en) * | 2013-03-15 | 2014-04-30 | Palantir Technologies Inc | Transformation of data items from data sources using a transformation script |
CN104573409A (zh) * | 2015-01-04 | 2015-04-29 | 杭州和壹基因科技有限公司 | 基因定位的多重检验方法 |
CN105002567A (zh) * | 2015-06-30 | 2015-10-28 | 北京百迈客生物科技有限公司 | 无参考基因组高通量简化甲基化测序文库的构建方法 |
CN108388771A (zh) * | 2018-01-24 | 2018-08-10 | 安徽微分基因科技有限公司 | 一种生物多样性自动分析方法 |
WO2019191649A1 (en) * | 2018-03-29 | 2019-10-03 | Freenome Holdings, Inc. | Methods and systems for analyzing microbiota |
CN108537006A (zh) * | 2018-04-03 | 2018-09-14 | 郑州云海信息技术有限公司 | 一种基因序列数据处理方法、装置及*** |
CN109182505A (zh) * | 2018-09-29 | 2019-01-11 | 南京农业大学 | 奶牛乳腺炎关键SNPs位点rs75762330及2b-RAD基因分型和分析方法 |
CN111276185A (zh) * | 2020-02-18 | 2020-06-12 | 上海桑格信息技术有限公司 | 一种基于二代高通量测序的微生物鉴定分析***及装置 |
CN111235303A (zh) * | 2020-03-24 | 2020-06-05 | 中国环境科学研究院 | 一种鉴别大米草和互花米草的方法 |
Non-Patent Citations (4)
Title |
---|
RAD测序技术及其在水生生物研究中的应用;胡景杰 等;水产科学;第37卷(第1期);第125-132页 * |
Stacks: Building and Genotyping Loci De Novo From Short-Read Sequences;Julian M. Catchen;G3 Genes Genomes Genetics;第1卷;第171-182页 * |
应用简化基因组技术对富民枳遗传多样性检测;张珊珊;陈剑;杨文忠;;东北林业大学学报;20200414(第04期);第38-43页 * |
数据集成中的一种数据合并技术;董树明, 徐文胜, 董逸生;现代计算机;20031130(第11期);第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112164424A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Venturini et al. | Leveraging multiple transcriptome assembly methods for improved gene structure annotation | |
US11817180B2 (en) | Systems and methods for analyzing nucleic acid sequences | |
US20210173842A1 (en) | Systems and Methods for Annotating Biomolecule Data | |
Wee et al. | The bioinformatics tools for the genome assembly and analysis based on third-generation sequencing | |
US20170199959A1 (en) | Genetic analysis systems and methods | |
CN105989249B (zh) | 用于组装基因组序列的方法、***及装置 | |
WO2013043909A1 (en) | Systems and methods for identifying sequence variation | |
KR20140119723A (ko) | Dna 서열의 데이터 분석 | |
CN110997936A (zh) | 基于低深度基因组测序进行基因分型的方法、装置及其用途 | |
AU2022298428A1 (en) | Gene sequencing analysis method and apparatus, and storage medium and computer device | |
CN105426700B (zh) | 一种批量计算基因组直系同源基因进化速率的方法 | |
CN112164424B (zh) | 一种基于无参考基因组的群体进化分析方法 | |
Chen et al. | Recent advances in sequence assembly: principles and applications | |
US10179934B2 (en) | High-throughput detection method for DNA synthesis product | |
CN110570901B (zh) | 一种基于测序数据进行ssr分型的方法及*** | |
CN108182348A (zh) | 基于种子序列信息的dna甲基化数据检测方法及其装置 | |
CN108595914B (zh) | 一种烟草线粒体rna编辑位点高精度预测方法 | |
Gawehns et al. | epiGBS2: An improved protocol and automated snakemake workflow for highly multiplexed reduced representation bisulfite sequencing | |
CN110504007B (zh) | 一键化完成多场景菌种鉴定的工作方法及*** | |
Jing et al. | ScSmOP: a universal computational pipeline for single-cell single-molecule multiomics data analysis | |
Conry | Determining the impact of recombination on phylogenetic inference | |
US20190172553A1 (en) | Using k-mers for rapid quality control of sequencing data without alignment | |
RU2804535C1 (ru) | Система обработки данных полногеномного секвенирования | |
RU2806429C1 (ru) | Способ обработки данных полногеномного секвенирования | |
Wen et al. | Reference-guided automatic assembly of genomic tandem repeats with only HiFi and Hi-C data enables population-level analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |