CN112233727B - 数据分区存储方法及装置 - Google Patents
数据分区存储方法及装置 Download PDFInfo
- Publication number
- CN112233727B CN112233727B CN202011187097.3A CN202011187097A CN112233727B CN 112233727 B CN112233727 B CN 112233727B CN 202011187097 A CN202011187097 A CN 202011187097A CN 112233727 B CN112233727 B CN 112233727B
- Authority
- CN
- China
- Prior art keywords
- gene mutation
- data
- partition
- target gene
- mutation site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005192 partition Methods 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 44
- 206010064571 Gene mutation Diseases 0.000 claims abstract description 111
- 108090000623 proteins and genes Proteins 0.000 claims description 48
- 210000000349 chromosome Anatomy 0.000 claims description 23
- 230000035772 mutation Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 3
- 241000282414 Homo sapiens Species 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 238000012070 whole genome sequencing analysis Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000003470 mitochondria Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000003765 sex chromosome Anatomy 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 241000282813 Aepyceros melampus Species 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据分区存储方法及装置。其中,该方法包括:在预定数据仓库中初始化存储基因突变位点的分区表;根据多个基因突变位点中每一个基因突变位点对应的数据区间将分区表分为多个子区域;获取待存储的目标基因突变位点的起点数值和终点数值;基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中。本发明解决了相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。
Description
技术领域
本发明涉及生物信息技术领域,具体而言,涉及一种数据分区存储方法及装置。
背景技术
随着生命科学和基因测序技术的快速发展,测序成本的超摩尔定律下降,数据产出能力大幅提高。随着科学研究的深入,对癌症和遗传病等疾病的诊断、治疗和筛查,不仅只是关注单基因对疾病的影响,还包含复杂的多基因对疾病的作用机制,越来越多的国家发起了应用人类全基因组测序进行人类健康的研究。人类的全基因组的长度30亿碱基,存储一个人的30X的WGS(全基因组测序)数据,大概就需要大于90G的硬盘空间。所以随着测序样本增加,积累的数据很容易达到PB(拍字节)级别。人类对于疾病诊断、治疗和筛查,不仅仅关注单个个体本身的变异,还需要通过收集一个群体的全基因组测序数据,建立生物数据库,以便研究人群中各变异的分布情况,以及突变对疾病治疗和诊断的影响。
最早的分析***是Share Everything(共享架构)单机形式,为了解决海量数据分析诉求和降低***建设成本,两种全新的架构***应运而生,一种是基于通用服务器的Share Nothing(无共享)架构,最典型的代表是基于数据库发展的MPP(MassivelyParallel Processing,大规模并行处理)***;另一种是海量数据分析的Hadoop大数据分析***。MPP***受限于单点瓶颈的架构设计,导致其进行海量数据时能力不足;而原生的Hadoop***由于一开始就瞄准PB/EB(exabytes;艾字节)级的数据,很好解决了海量数据分析问题。虽然建立以Hadoop平台的生物大数据平台,可以很好的管理和存储这些数据,但是对数据的操作效率(如查询分析)较低。
而使用hive仓库的分区表,将数据结构化,并按某种规则进行分区,将数据分布式存储在不同的节点上,可以提高数据的利用效率。因此,可以搭建Hadoop数据平台,Hive数据仓库表以染色体或基因为分区条件建立分区表。
但是,上述通过搭建Hadoop数据平台,以使Hive数据仓库表以染色体或基因为分区条件建立分区表会引入新的问题,人类的基因组是二倍体,有22对常染色体,1对性染色体,及mt线粒体,由于25条染色体(1~22条常染色体,两条性染色体X,Y,另线粒体Mt,)的长度差异较大,如果是以染色体条件分区,有25个数据区,25个分区的数据的数据量有极大的差异。当然也可以按基因分区,因为基因长度大小不一,同样会存在数据量不均衡问题,而且单个表的基因分区数有6万多,会影响查询性能,由于hive本身对分区数据有限制,当然也是可以修改的,主要是因为NameNode(管理文件***的命名空间;HDFS集群有两类节点,NameNode和多个DataNode)节点的内存限制,如果分区数目很大,会影响NameNode服务,进而影响一系列依赖于NameNode的服务进程。所以要合理设置分区规则。另一方面基因的编码区约占基因组的2%,会缺失98%的非编码区域,不满足全基因测序结果数据的存储。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据分区存储方法及装置,以至少解决相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。
根据本发明实施例的一个方面,提供了一种数据分区存储方法,包括:在预定数据仓库中初始化存储基因突变位点的分区表;根据多个基因突变位点中每一个基因突变位点对应的数据区间将所述分区表分为多个子区域;获取待存储的目标基因突变位点的起点数值和终点数值;基于所述目标基因突变位点的起点数值和终点数据将所述目标基因突变位点匹配并存储到所述分区表的一个或多个子区域中。
可选地,在在预定数据仓库中初始化存储基因突变位点的分区表之前,该数据分区存储方法还包括:搭建基于Hadoop的大数据平台,其中,所述基于Hadoop的大数据平台至少包括:预定数据仓库,计算引擎,查询***。
可选地,在在预定数据仓库中初始化存储基因突变位点的分区表之后,该数据分区存储方法还包括:获取多个历史基因突变位点的起点位置和终点数值;基于所述多个历史基因突变位点的起点位置和终点位置将所述多个历史基因突变位点存储至所述分区表。
可选地,在在预定数据仓库中初始化存储基因突变位点的分区表之后,该数据分区存储方法还包括:获取基因组中每条染色体的长度信息;基于所述每条染色体的长度信息将所述染色体的标号以及长度信息转换成预定格式的数据结构。
可选地,获取待存储的目标基因突变位点的起点数值和终点数值,包括:获取与所述目标基因突变位点对应的基因组版本的基因组注释文件;通过所述基因组注释文件提取出所述目标基因突变位点的位置信息;基于所述目标基因突变位点的位置信息确定所述目标基因突变位点的起点数值和终点数值。
可选地,在基于所述目标基因突变位点的起点数值和终点数据将所述目标基因突变位点匹配并存储到所述分区表的一个或多个子区域中之后,该数据分区存储方法还包括:将所述目标基因突变位点的变异信息以及分区信息存储到所述分区表的预定区域中。
根据本发明实施例的另外一个方面,还提供了一种数据分区存储装置,包括:初始化单元,用于在预定数据仓库中初始化存储基因突变位点的分区表;划分单元,用于根据多个基因突变位点中每一个基因突变位点对应的数据区间将所述分区表分为多个子区域;第一获取单元,用于获取待存储的目标基因突变位点的起点数值和终点数值;存储单元,用于基于所述目标基因突变位点的起点数值和终点数据将所述目标基因突变位点匹配并存储到所述分区表的一个或多个子区域中。
可选地,该数据分区存储装置还包括:搭建单元,用于在在预定数据仓库中初始化存储基因突变位点的分区表之前,搭建基于Hadoop的大数据平台,其中,所述基于Hadoop的大数据平台至少包括:预定数据仓库,计算引擎,查询***。
可选地,该数据分区存储装置还包括:第二获取单元,用于在在预定数据仓库中初始化存储基因突变位点的分区表之后,获取多个历史基因突变位点的起点位置和终点数值;所述存储单元,用于基于所述多个历史基因突变位点的起点位置和终点位置将所述多个历史基因突变位点存储至所述分区表。
可选地,该数据分区存储装置还包括:第三获取单元,用于在在预定数据仓库中初始化存储基因突变位点的分区表之后,获取基因组中每条染色体的长度信息;转换单元,用于基于所述每条染色体的长度信息将所述染色体的标号以及长度信息转换成预定格式的数据结构。
可选地,所述第一获取单元,包括:获取模块,用于获取与所述目标基因突变位点对应的基因组版本的基因组注释文件;提取模块,用于通过所述基因组注释文件提取出所述目标基因突变位点的位置信息;确定模块,用于基于所述目标基因突变位点的位置信息确定所述目标基因突变位点的起点数值和终点数值。
可选地,该数据分区存储装置还包括:所述存储单元,用于在基于所述目标基因突变位点的起点数值和终点数据将所述目标基因突变位点匹配并存储到所述分区表的一个或多个子区域中之后,将所述目标基因突变位点的变异信息以及分区信息存储到所述分区表的预定区域中。
根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机存储介质所在设备执行上述中任意一项所述的数据分区存储方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,其特征在于,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述中任意一项所述的数据分区存储方法。
在本发明实施例中,采用在预定数据仓库中初始化存储基因突变位点的分区表;根据多个基因突变位点中每一个基因突变位点对应的数据区间将分区表分为多个子区域;获取待存储的目标基因突变位点的起点数值和终点数值;基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中,通过本发明实施例提供的数据分区存储方法,实现了根据基因组长度和基因的位置,将基因合理划分成不同的分区,生成满足预定条件的基因的目的,达到了提高分区数据量均衡性的技术效果,也提高了基因搜索查询效率的技术效果,进而解决了相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据分区存储方法的流程图;
图2是根据本发明实施例的数据在分布式节点上的存储示意图;
图3是根据本发明实施例图2中每个节点中数据块的分区方式的示意图;
图4是根据本发明实施例的数据分区存储装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种数据分区存储方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的数据分区存储方法的流程图,如图1所示,该数据分区存储方法包括如下步骤:
步骤S102,在预定数据仓库中初始化存储基因突变位点的分区表。
在该实施例中,预定数据仓库可以是Hive数据仓库。
在一种可选的实施例中,在在预定数据仓库中初始化存储基因突变位点的分区表之前,该数据分区存储方法还包括:搭建基于Hadoop的大数据平台,其中,基于Hadoop的大数据平台至少包括:预定数据仓库,计算引擎,查询***。
在该实施例中,可以搭建基于Hadoop的大数据平台,该大数据平台可以包括但不限于:预定数据仓库(例如Hive)、计算引擎(例如Spark)、查询分析(例如Impala)。
步骤S104,根据多个基因突变位点中每一个基因突变位点对应的数据区间将分区表分为多个子区域。
步骤S106,获取待存储的目标基因突变位点的起点数值和终点数值。
步骤S108,基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中。
由上可知,在本发明实施例中,可以在预定数据仓库中初始化存储基因突变位点的分区表;根据多个基因突变位点中每一个基因突变位点对应的数据区间将分区表分为多个子区域;获取待存储的目标基因突变位点的起点数值和终点数值;基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中,实现了根据基因组长度和基因的位置,将基因合理划分成不同的分区,生成满足预定条件的基因的目的,达到了提高分区数据量均衡性的技术效果,也提高了基因搜索查询效率的技术效果。
因此,通过本发明实施例提供的数据分区存储方法,解决了相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。
在一种可选的实施例中,在在预定数据仓库中初始化存储基因突变位点的分区表之后,该数据分区存储方法还可以包括:获取多个历史基因突变位点的起点位置和终点数值;基于多个历史基因突变位点的起点位置和终点位置将多个历史基因突变位点存储至分区表。
在一种可选的实施例中,在在预定数据仓库中初始化存储基因突变位点的分区表之后,该数据分区存储方法还可以包括:获取基因组中每条染色体的长度信息;基于每条染色体的长度信息将染色体的标号以及长度信息转换成预定格式的数据结构。
在该实施例中,可以获取基因组的每条染色体的长度信息,转换成键值对数据结构,可以如下形式:{‘1’,24956422,‘2’,242193529……}。
在一种可选的实施例中,获取待存储的目标基因突变位点的起点数值和终点数值,包括:获取与目标基因突变位点对应的基因组版本的基因组注释文件;通过基因组注释文件提取出目标基因突变位点的位置信息;基于目标基因突变位点的位置信息确定目标基因突变位点的起点数值和终点数值。
在该实施例中,可以找到对应基因组版本的基因组注释文件gff,提取基因的位置信息,并按照染色体和基于的起始位置排序。
需要说明的是,在本发明实施例中,可以根据染色体的长度和基因的位置,划分区域,生成不同的分区和分区里的基因,可以根据分区里面的基因长度,调整分区的数目。如果设置分区里基因长度为20000碱基,分区数目大概为18000个;1-147245485:147381393为其中一个分区,1和47245485:147381393以‘-’连接,1表示1号染色体,47245485:147381393表示基因组区域的起始和终止位置。
在检查核对每个分区里的基因是否完整的包含在分区里,遍历分区里基因里基因的起始和终止位置,判断其是否在分区。
在一种可选的实施例中,在基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中之后,该数据分区存储方法还可以包括:将目标基因突变位点的变异信息以及分区信息存储到分区表的预定区域中。
在该实施例中,可以读取分区的信息结合样本中变异位点的位置,判断每个位点对应的分区,之后将位点的变异信息及分区信息存入Hive分区表中。
例如,在该Hive分区表中可以存储包括突变的位置信息、分区的信息以及突变基因数目等信息;另外,也可以在分区表的预定区域设置存储样本基本信息的表,例如,性别、年龄、所属产品、疾病状态等,可以以分区信息为:region=“1-147245485:147381393,执行sql查询语句,其中查询时间在4s左右。具体代码如下:
图2是根据本发明实施例的数据在分布式节点上的存储示意图,如图2所示,可以将基因变异数据分布式存储在不同的节点上(例如,节点1、节点2、节点3……节点n),从而可以提高数据存储的可靠性。
图3是根据本发明实施例图2中每个节点中数据块的分区方式的示意图,如图3所示,多个或单个基于和其基因组间区组成一个分区,分区中的基因可以部分重叠。
通过本发明实施例提供的数据分区存储方法,可以根据基于组长度和基因的位置,将基因组合理划分成不同分区,生成的分区满足以下条件:1)包含一个或多个完整的基因;2)分区中的基因长度在20000bp左右,从而使每个分区的数据量相对均匀的分布,提高实时计算的效率。
由上可知,在本发明实施例中,可以建立Hadoop平台,为Hive分区表,满足了存储数量级的要求,设计了新的分区方式,产生了合理的区分数目,减少了分区数量的不均衡。
实施例2
根据本发明实施例的另外一个方面,还提供了一种数据分区存储装置,图4是根据本发明实施例的数据分区存储装置的示意图,如图4所示,该数据分区存储装置可以包括:初始化单元41,划分单元43,第一获取单元45以及存储单元47。下面对该数据分区存储装置进行说明。
初始化单元41,用于在预定数据仓库中初始化存储基因突变位点的分区表。
划分单元43,用于根据多个基因突变位点中每一个基因突变位点对应的数据区间将分区表分为多个子区域。
第一获取单元45,用于获取待存储的目标基因突变位点的起点数值和终点数值。
存储单元47,用于基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中。
此处需要说明的是,上述初始化单元41,划分单元43,第一获取单元45以及存储单元47对应于实施例1中的步骤S102至S108,上述单元与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
由上可知,在本申请上述实施例中,可以利用初始化单元在预定数据仓库中初始化存储基因突变位点的分区表;然后利用划分单元根据多个基因突变位点中每一个基因突变位点对应的数据区间将分区表分为多个子区域;再利用第一获取单元获取待存储的目标基因突变位点的起点数值和终点数值;以及利用存储单元基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中。通过本发明实施例提供的数据分区存储装置,实现了根据基因组长度和基因的位置,将基因合理划分成不同的分区,生成满足预定条件的基因的目的,达到了提高分区数据量均衡性的技术效果,也提高了基因搜索查询效率的技术效果,进而解决了相关技术中人类全基因组变异检测结果数据在hive数据仓库分区数目过多或过少,以及分区数据量不均衡的技术问题。
在一种可选的实施例中,该数据分区存储装置还包括:搭建单元,用于在在预定数据仓库中初始化存储基因突变位点的分区表之前,搭建基于Hadoop的大数据平台,其中,基于Hadoop的大数据平台至少包括:预定数据仓库,计算引擎,查询***。
在一种可选的实施例中,该数据分区存储装置还包括:第二获取单元,用于在在预定数据仓库中初始化存储基因突变位点的分区表之后,获取多个历史基因突变位点的起点位置和终点数值;存储单元,用于基于多个历史基因突变位点的起点位置和终点位置将多个历史基因突变位点存储至分区表。
在一种可选的实施例中,该数据分区存储装置还包括:第三获取单元,用于在在预定数据仓库中初始化存储基因突变位点的分区表之后,获取基因组中每条染色体的长度信息;转换单元,用于基于每条染色体的长度信息将染色体的标号以及长度信息转换成预定格式的数据结构。
在一种可选的实施例中,第一获取单元,包括:获取模块,用于获取与目标基因突变位点对应的基因组版本的基因组注释文件;提取模块,用于通过基因组注释文件提取出目标基因突变位点的位置信息;确定模块,用于基于目标基因突变位点的位置信息确定目标基因突变位点的起点数值和终点数值。
在一种可选的实施例中,该数据分区存储装置还包括:存储单元,用于在基于目标基因突变位点的起点数值和终点数据将目标基因突变位点匹配并存储到分区表的一个或多个子区域中之后,将目标基因突变位点的变异信息以及分区信息存储到分区表的预定区域中。
实施例3
根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序被处理器运行时控制计算机存储介质所在设备执行上述中任意一项的数据分区存储方法。
实施例4
根据本发明实施例的另外一个方面,还提供了一种处理器,其特征在于,处理器用于运行计算机程序,其中,计算机程序运行时执行上述中任意一项的数据分区存储方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种数据分区存储方法,其特征在于,包括:
在预定数据仓库中初始化存储基因突变位点的分区表;
根据多个基因突变位点中每一个基因突变位点对应的数据区间将所述分区表分为多个子区域;
获取待存储的目标基因突变位点的起点数值和终点数值;
基于所述目标基因突变位点的起点数值和终点数据将所述目标基因突变位点匹配并存储到所述分区表的一个或多个子区域中。
2.根据权利要求1所述的方法,其特征在于,在在预定数据仓库中初始化存储基因突变位点的分区表之前,还包括:
搭建基于Hadoop的大数据平台,其中,所述基于Hadoop的大数据平台至少包括:预定数据仓库,计算引擎,查询***。
3.根据权利要求1所述的方法,其特征在于,在在预定数据仓库中初始化存储基因突变位点的分区表之后,还包括:
获取多个历史基因突变位点的起点位置和终点数值;
基于所述多个历史基因突变位点的起点位置和终点位置将所述多个历史基因突变位点存储至所述分区表。
4.根据权利要求1所述的方法,其特征在于,在在预定数据仓库中初始化存储基因突变位点的分区表之后,还包括:
获取基因组中每条染色体的长度信息;
基于所述每条染色体的长度信息将所述染色体的标号以及长度信息转换成预定格式的数据结构。
5.根据权利要求1所述的方法,其特征在于,获取待存储的目标基因突变位点的起点数值和终点数值,包括:
获取与所述目标基因突变位点对应的基因组版本的基因组注释文件;
通过所述基因组注释文件提取出所述目标基因突变位点的位置信息;
基于所述目标基因突变位点的位置信息确定所述目标基因突变位点的起点数值和终点数值。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在基于所述目标基因突变位点的起点数值和终点数据将所述目标基因突变位点匹配并存储到所述分区表的一个或多个子区域中之后,还包括:
将所述目标基因突变位点的变异信息以及分区信息存储到所述分区表的预定区域中。
7.一种数据分区存储装置,其特征在于,包括:
初始化单元,用于在预定数据仓库中初始化存储基因突变位点的分区表;
划分单元,用于根据多个基因突变位点中每一个基因突变位点对应的数据区间将所述分区表分为多个子区域;
第一获取单元,用于获取待存储的目标基因突变位点的起点数值和终点数值;
存储单元,用于基于所述目标基因突变位点的起点数值和终点数据将所述目标基因突变位点匹配并存储到所述分区表的一个或多个子区域中。
8.根据权利要求7所述的装置,其特征在于,还包括:
搭建单元,用于在在预定数据仓库中初始化存储基因突变位点的分区表之前,搭建基于Hadoop的大数据平台,其中,所述基于Hadoop的大数据平台至少包括:预定数据仓库,计算引擎,查询***。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机存储介质所在设备执行权利要求1至6中任意一项所述的数据分区存储方法。
10.一种处理器,其特征在于,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行权利要求1至6中任意一项所述的数据分区存储方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011187097.3A CN112233727B (zh) | 2020-10-29 | 2020-10-29 | 数据分区存储方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011187097.3A CN112233727B (zh) | 2020-10-29 | 2020-10-29 | 数据分区存储方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233727A CN112233727A (zh) | 2021-01-15 |
CN112233727B true CN112233727B (zh) | 2024-01-26 |
Family
ID=74123001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011187097.3A Active CN112233727B (zh) | 2020-10-29 | 2020-10-29 | 数据分区存储方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233727B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486083A (zh) * | 2021-06-30 | 2021-10-08 | 高新兴科技集团股份有限公司 | 数据处理方法、***、计算机存储介质及电子设备 |
CN116246715B (zh) * | 2023-04-27 | 2024-04-16 | 倍科为(天津)生物技术有限公司 | 多样本基因突变数据存储方法、装置、设备及介质 |
Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1904858A (zh) * | 2005-07-25 | 2007-01-31 | 索尼株式会社 | 数据存储设备、数据存储方法以及记录/再现*** |
CN102063348A (zh) * | 2010-12-27 | 2011-05-18 | 成都市华为赛门铁克科技有限公司 | 分区表信息备份方法和装置以及存储*** |
EP2406728A1 (en) * | 2009-03-10 | 2012-01-18 | Agency For Science, Technology And Research | A method for identification, prediction and prognosis of cancer aggressiveness |
CN103927331A (zh) * | 2014-03-21 | 2014-07-16 | 珠海多玩信息技术有限公司 | 数据查询方法、装置及*** |
CN104102701A (zh) * | 2014-07-07 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种基于hive的历史数据存档与查询方法 |
CN105955851A (zh) * | 2016-05-25 | 2016-09-21 | 广东欧珀移动通信有限公司 | 应用于移动终端的***文件烧录方法及装置 |
CN106415534A (zh) * | 2015-05-31 | 2017-02-15 | 华为技术有限公司 | 一种分布式数据库中关联表分区的方法和设备 |
WO2017077499A1 (en) * | 2015-11-04 | 2017-05-11 | Genomics Applications And Informatics Technology (Ganit) Labs | Biomarkers of squamous cell carcinoma of head and neck, prognostic markers of recurrence in squamous cell carcinoma of head and neck, and methods thereof |
CN106933935A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 任务存储方法和装置 |
CN107194208A (zh) * | 2017-04-25 | 2017-09-22 | 北京荣之联科技股份有限公司 | 一种基因分析注释方法和装置 |
CN107273204A (zh) * | 2016-04-08 | 2017-10-20 | 华为技术有限公司 | 用于基因分析的资源分配方法和装置 |
CN107708089A (zh) * | 2017-10-30 | 2018-02-16 | 吴豪 | 基于分簇的数据转发方法和数据转发装置 |
CN108255838A (zh) * | 2016-12-28 | 2018-07-06 | 航天信息股份有限公司 | 一种建立用于大数据分析的中间数据仓库的方法及*** |
CN108563923A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基因变异数据分布式存储方法及架构 |
CN109295198A (zh) * | 2018-09-03 | 2019-02-01 | 安吉康尔(深圳)科技有限公司 | 用于检测遗传性疾病基因变异的方法、装置及终端设备 |
CN109726175A (zh) * | 2018-12-29 | 2019-05-07 | 北京赛思信安技术股份有限公司 | 一种基于HBase的海量文件离线分区管理方法 |
CN109767810A (zh) * | 2019-01-10 | 2019-05-17 | 上海思路迪生物医学科技有限公司 | 高通量测序数据分析方法及装置 |
CN110070911A (zh) * | 2019-04-12 | 2019-07-30 | 内蒙古农业大学 | 一种基于Hadoop的基因序列并行比对方法 |
CN110264530A (zh) * | 2019-06-27 | 2019-09-20 | 深圳市道通智能航空技术有限公司 | 一种相机标定方法、装置和无人机 |
CN110515969A (zh) * | 2019-07-08 | 2019-11-29 | 中国平安人寿保险股份有限公司 | 数据查询处理方法、电子装置、计算机设备及存储介质 |
CN111028897A (zh) * | 2019-12-13 | 2020-04-17 | 内蒙古农业大学 | 一种基于Hadoop的基因组索引构建的分布式并行计算方法 |
CN111159235A (zh) * | 2019-12-20 | 2020-05-15 | 中国建设银行股份有限公司 | 数据预分区方法、装置、电子设备及可读存储介质 |
CN111241203A (zh) * | 2020-02-10 | 2020-06-05 | 江苏满运软件科技有限公司 | Hive数据仓库同步方法、***、设备及存储介质 |
CN111259627A (zh) * | 2020-01-08 | 2020-06-09 | 深圳市采薇科技咨询有限公司 | 文档分析方法、装置、计算机存储介质及设备 |
CN111321140A (zh) * | 2020-03-03 | 2020-06-23 | 苏州吉因加生物医学工程有限公司 | 一种基于单样本的肿瘤突变负荷检测方法和装置 |
CN111538713A (zh) * | 2020-04-02 | 2020-08-14 | 咪咕文化科技有限公司 | 面向Hive的多模式数据处理方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040080536A1 (en) * | 2002-10-23 | 2004-04-29 | Zohar Yakhini | Method and user interface for interactive visualization and analysis of microarray data and other data, including genetic, biochemical, and chemical data |
US9201916B2 (en) * | 2012-06-13 | 2015-12-01 | Infosys Limited | Method, system, and computer-readable medium for providing a scalable bio-informatics sequence search on cloud |
US11382989B2 (en) * | 2017-07-07 | 2022-07-12 | Board Of Regents, The University Of Texas System | Engineered microbial population |
US10642803B2 (en) * | 2018-01-31 | 2020-05-05 | Salesforce.Com, Inc. | Adding a partition to an existing table stored on a distributed file system |
-
2020
- 2020-10-29 CN CN202011187097.3A patent/CN112233727B/zh active Active
Patent Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1904858A (zh) * | 2005-07-25 | 2007-01-31 | 索尼株式会社 | 数据存储设备、数据存储方法以及记录/再现*** |
EP2406728A1 (en) * | 2009-03-10 | 2012-01-18 | Agency For Science, Technology And Research | A method for identification, prediction and prognosis of cancer aggressiveness |
CN102063348A (zh) * | 2010-12-27 | 2011-05-18 | 成都市华为赛门铁克科技有限公司 | 分区表信息备份方法和装置以及存储*** |
CN103927331A (zh) * | 2014-03-21 | 2014-07-16 | 珠海多玩信息技术有限公司 | 数据查询方法、装置及*** |
CN104102701A (zh) * | 2014-07-07 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种基于hive的历史数据存档与查询方法 |
CN106415534A (zh) * | 2015-05-31 | 2017-02-15 | 华为技术有限公司 | 一种分布式数据库中关联表分区的方法和设备 |
WO2017077499A1 (en) * | 2015-11-04 | 2017-05-11 | Genomics Applications And Informatics Technology (Ganit) Labs | Biomarkers of squamous cell carcinoma of head and neck, prognostic markers of recurrence in squamous cell carcinoma of head and neck, and methods thereof |
CN106933935A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 任务存储方法和装置 |
CN107273204A (zh) * | 2016-04-08 | 2017-10-20 | 华为技术有限公司 | 用于基因分析的资源分配方法和装置 |
CN105955851A (zh) * | 2016-05-25 | 2016-09-21 | 广东欧珀移动通信有限公司 | 应用于移动终端的***文件烧录方法及装置 |
CN108255838A (zh) * | 2016-12-28 | 2018-07-06 | 航天信息股份有限公司 | 一种建立用于大数据分析的中间数据仓库的方法及*** |
CN107194208A (zh) * | 2017-04-25 | 2017-09-22 | 北京荣之联科技股份有限公司 | 一种基因分析注释方法和装置 |
CN107708089A (zh) * | 2017-10-30 | 2018-02-16 | 吴豪 | 基于分簇的数据转发方法和数据转发装置 |
CN108563923A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基因变异数据分布式存储方法及架构 |
CN109295198A (zh) * | 2018-09-03 | 2019-02-01 | 安吉康尔(深圳)科技有限公司 | 用于检测遗传性疾病基因变异的方法、装置及终端设备 |
CN109726175A (zh) * | 2018-12-29 | 2019-05-07 | 北京赛思信安技术股份有限公司 | 一种基于HBase的海量文件离线分区管理方法 |
CN109767810A (zh) * | 2019-01-10 | 2019-05-17 | 上海思路迪生物医学科技有限公司 | 高通量测序数据分析方法及装置 |
CN110070911A (zh) * | 2019-04-12 | 2019-07-30 | 内蒙古农业大学 | 一种基于Hadoop的基因序列并行比对方法 |
CN110264530A (zh) * | 2019-06-27 | 2019-09-20 | 深圳市道通智能航空技术有限公司 | 一种相机标定方法、装置和无人机 |
CN110515969A (zh) * | 2019-07-08 | 2019-11-29 | 中国平安人寿保险股份有限公司 | 数据查询处理方法、电子装置、计算机设备及存储介质 |
CN111028897A (zh) * | 2019-12-13 | 2020-04-17 | 内蒙古农业大学 | 一种基于Hadoop的基因组索引构建的分布式并行计算方法 |
CN111159235A (zh) * | 2019-12-20 | 2020-05-15 | 中国建设银行股份有限公司 | 数据预分区方法、装置、电子设备及可读存储介质 |
CN111259627A (zh) * | 2020-01-08 | 2020-06-09 | 深圳市采薇科技咨询有限公司 | 文档分析方法、装置、计算机存储介质及设备 |
CN111241203A (zh) * | 2020-02-10 | 2020-06-05 | 江苏满运软件科技有限公司 | Hive数据仓库同步方法、***、设备及存储介质 |
CN111321140A (zh) * | 2020-03-03 | 2020-06-23 | 苏州吉因加生物医学工程有限公司 | 一种基于单样本的肿瘤突变负荷检测方法和装置 |
CN111538713A (zh) * | 2020-04-02 | 2020-08-14 | 咪咕文化科技有限公司 | 面向Hive的多模式数据处理方法、装置及电子设备 |
Non-Patent Citations (4)
Title |
---|
Identifying Drivers of Parallel Evolution: A Regression Model Approach.;Susan F;Genome biology and evolution;第10卷(第10期);2801-2812 * |
TriageTools: tools for partitioning and prioritizing analysis of high-throughput sequencing data;Fimereli, D;《NUCLEIC ACIDS RESEARCH》;第41卷(第7期);12-15 * |
基于Hadoop的海量医药电商数据存储***设计与开发;梅阳阳;;电子制作(第19期);49-52+55 * |
基于海量组学数据的基因启动子区域组蛋白修饰位置偏好性与基因表达水平的相关性分析;左永春;《第七次全国动物生物技术学术研讨会暨新疆畜牧科学院第六次学术年会》;第13卷;81 * |
Also Published As
Publication number | Publication date |
---|---|
CN112233727A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Minkin et al. | TwoPaCo: an efficient algorithm to build the compacted de Bruijn graph from many complete genomes | |
Wang et al. | Exploiting ontology graph for predicting sparsely annotated gene function | |
CN112233727B (zh) | 数据分区存储方法及装置 | |
Gustafsson et al. | Constructing and analyzing a large-scale gene-to-gene regulatory network Lasso-constrained inference and biological validation | |
Schlicker et al. | FunSimMat: a comprehensive functional similarity database | |
Wang et al. | Identifying protein complexes from interaction networks based on clique percolation and distance restriction | |
CN110459264B (zh) | 基于梯度增强决策树预测环状rna与疾病相关性的方法 | |
CN108121896B (zh) | 一种基于miRNA的疾病间关系分析方法和装置 | |
CN108427756B (zh) | 基于同类用户模型的个性化查询词补全推荐方法和装置 | |
CN113470741B (zh) | 药物靶标关系预测方法、装置、计算机设备及存储介质 | |
Graversen et al. | Computational aspects of DNA mixture analysis: Exact inference using auxiliary variables in a Bayesian network | |
Guo et al. | A network integration method for deciphering the types of metabolic pathway of chemicals with heterogeneous information | |
Siederdissen et al. | Discriminatory power of RNA family models | |
Zheng et al. | A parallel computational framework for ultra-large-scale sequence clustering analysis | |
Bar-Or et al. | Decision tree induction in high dimensional, hierarchically distributed databases | |
CN115147020B (zh) | 装修数据处理方法、装置、设备及存储介质 | |
US20190042697A1 (en) | Computer-implemented methods for automated analysis and prioritization of variants in datasets | |
CN116010662A (zh) | 一种能源消费-碳排放查询***的构建方法、装置及介质 | |
Zou et al. | HPTree: reconstructing phylogenetic trees for ultra-large unaligned DNA sequences via NJ model and Hadoop | |
Riza et al. | Sax and random projection algorithms for the motif discovery of orbital asteroid resonance using big data platforms | |
CN108629159B (zh) | 一种用于发现阿尔兹海默症致病关键蛋白质的方法 | |
Oloulade et al. | Cancer drug response prediction with surrogate modeling-based graph neural architecture search | |
Bathoorn et al. | Frequent episode mining to support pattern analysis in developmental biology | |
Wassan | Modeling stack framework for accessing electronic health records with big data needs | |
Pavlidis et al. | Multi-membership gene regulation in pathway based microarray analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |