CN109616156B

CN109616156B - 一种基因测序数据存储方法和装置

Info

Publication number: CN109616156B
Application number: CN201811463734.8A
Authority: CN
Inventors: 朱红; 刘羽; 崔坤磊
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2021-07-06
Anticipated expiration: 2038-12-03
Also published as: CN109616156A

Abstract

本发明公开了一种基因测序数据存储方法与装置，包括：分别将相对端的两个测序文件分割为多个数据块，并根据多个数据块向名称节点发送存储两个测序文件的请求；由名称节点根据请求而将多个数据块对应到多个数据节点中，其中将两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中；将每个数据块分割为多个数据包，并将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上。本发明的技术方案能够对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储，降低基因测序处理时间、提高基因测序并降低网络压力。

Description

一种基因测序数据存储方法和装置

技术领域

本发明涉及大数据领域，并且更具体地，特别是涉及一种基因测序数据存储方法与装置。

背景技术

随着基因测序技术的发展，特别是高通量测试技术，比如二代测序和三代测序的发展，基因数据变的越来越触手可及。但相较于数据的爆发式增长，大多数的生物信息学软件的设计都是低效率的单线程运行或单节点运行。这是因为软件的设计者，即生物信息学领域的研发人员，大多不是十分的精通高性能计算的技术，不太愿意采用跨节点通信技术来在高性能计算集群上使用相应软件。于是，随着数据量越来越大，相应的生物信息学流程和软件的运行时间会显著变长，效率低下。虽然现在高性能计算技术已经较为成熟，其它传统计算学科比如天气预报等已经能够成功的利用数百个节点、上万核的CPU同时计算来获取高精度的天气数据，而对于生物信息学领域来说，大多数据处理还集中在单个计算节点、甚至单CPU核心的层次，严重跟不上当前高性能计算硬件计算能力的增长。

另一方面，随着精准医疗概念的提出，基因测序及相应的数据处理技术越来越多的开始从实验室走向临床。和实验室不同，临床对于数据处理的时效性要求高，比如希望基因测序和数据处理像验血一样可以在一个小时内拿到试验结果。但现实是，基因数据在测序仪上测序需要数小时到一天的时间，而分析数据并得到分析报告又需要耗费约一天的时间，这样的时效性对其临床应用造成了较大的阻碍。而分析过程缓慢的原因之一就是当前的数据分析软件大多不能很好的利用计算机集群的多节点并行扩展计算模式。

需要注意的是，和传统的高性能计算不完全一样的是，基因测序数据处理流程是一个计算密集的数据处理任务，其应对的数据量也极大。例如，Illumina最新的Novaseq运行1天就能产生6TB的数据量，而中国在2018年就有多家企业拥有多台Novaseq测序仪，数据产出量达到了每天数十TB的量级。如此海量的数据的存储和处理的整个流程都是需要优化的IT解决方案来应对，因此基因测序数据处理是一个大数据加高性能计算的应用场景，需要应用大型存储***。

对于基因测序数据而言，特别是基于二代基因测序技术的测序数据，大多是双端测序数据，即：测序结果数据是保存在两个文本文件中的。其中一个文本保存的是一端的测序结果，另外一个文本保存的是另外一端的测序结果。两个文本中的数据有很大的相关性。以具体的格式来说，文本文件中每4行对应于一条DNA序列的测序结果；而两个文本文件中相同位置的数据对应于同一条DNA序列的两端测序结果。在储存文件时，我们总是期望相关联的数据被存放在存储***中相同的节点上以便于读取，而现有技术的存储方案无法保证这一点。考虑到基因数据处理时，主流的处理软件如BWA、bowtie等，需要同时读入两个文本数据的对等位置来进行处理。因此在运行上述程序时，就需要先在不同节点中找到两个文件的对等数据来进行处理，这必然带来了额外的时间消耗和网络通信需求。

针对现有技术中不支持在相同节点上存储相关联的基因测序数据，导致工作耗时长、效率低、网络通信需求高的问题，目前尚未有有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种基因测序数据存储方法与装置，能够对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储，降低基因测序处理时间、提高基因测序并降低网络压力。

基于上述目的，本发明实施例的一方面提供了一种基因测序数据存储方法，包括以下步骤：

分别将相对端的两个测序文件分割为多个数据块，并根据多个数据块向名称节点发送存储两个测序文件的请求；

由名称节点根据请求而将多个数据块对应到多个数据节点中，其中将两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中；

将每个数据块分割为多个数据包，并将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上。

在一些实施方式中，相对端的两个测序文件分别为对同一基因序列从两相对端开始测序所产生的数据记录，两个测序文件中的大小相等并且数据中按行记载的碱基序列完全对应。

在一些实施方式中，请求包括每个数据块的大小、数量、和标识。

在一些实施方式中，将两个测序文件分割为多个数据块包括：同时为每个数据块分别生成用于表示数据块处于其所在测序文件中相对位置的数据块标识。

在一些实施方式中，将两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中包括：获取每个数据块的数据块标识，并将数据块标识彼此相对应的两个数据块对应到同一数据节点中。

在一些实施方式中，将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上包括：对于同一数据块的数据包，以排队握手模式依次存储到其共同对应的数据节点中的一个主机上，并从该主机以链式传输并存储到其数据节点中的所有主机上；对于不同数据块的数据包，彼此独立地传输到各自数据节点中的一个主机上，并各自从该主机以链式传输并存储到其数据节点中的所有主机上。

在一些实施方式中，每个数据节点中的多个主机分布在至少两个不同的机架上。

在一些实施方式中，其特征在于，名称节点和多个数据节点从属于Hadoop分布式文件***。

本发明实施例的另一方面，还提供了一种基因测序数据存储装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，其中程序代码在由处理器运行时执行上述的方法。

本发明实施例的另一方面，还提供了一种基因测序数据存储服务器，包括名称节点和连接到名称节点的多个数据节点，

其中，名称节点用于将请求存储的基因测序数据对应到多个数据节点中，多个数据节点用于根据名称节点建立的对应关系来存储数据；其中，名称节点配置为，在处理由相对端的两个测序文件所分割而成的多个数据块时，将两个测序文件中所记载的基因测序数据彼此相对应的两个数据块对应到同一数据节点中。

本发明具有以下有益技术效果：本发明实施例提供的基因测序数据存储方法与装置，通过使分别将相对端的两个测序文件分割为多个数据块，并根据多个数据块向名称节点发送存储两个测序文件的请求；由名称节点根据请求而将多个数据块对应到多个数据节点中，其中将两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中；将每个数据块分割为多个数据包，并将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上的技术方案，能够对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储，降低基因测序处理时间、提高基因测序并降低网络压力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的基因测序数据存储方法的流程示意图；

图2为本发明提供的基因测序数据存储方法的一个实施例的架构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”、“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储的方法的实施例。图1示出的是本发明提供的基因测序数据存储方法的实施例的流程示意图。

所述基因测序数据存储方法，包括以下步骤：

步骤S101，分别将相对端的两个测序文件分割为多个数据块，并根据多个数据块向名称节点发送存储两个测序文件的请求；

步骤S103，由名称节点根据请求而将多个数据块对应到多个数据节点中，其中将两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中；

步骤S105，将每个数据块分割为多个数据包，并将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上。

本发明实施例提供了高效存储基因测序数据的方法，保证双端测序结果的两个文本文件能够有序的分部在相同节点上，进而保证后续的软件数据处理能够高效进行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。上述方法步骤也可以利用控制器以及用于存储使得控制器实现上述步骤的计算机程序的计算机可读存储介质实现。

在一些实施方式中，其特征在于，名称节点和多个数据节点从属于Hadoop分布式文件***。Hadoop分布式文件***可以将数据存储在分布于集群中的数据节点上，将处理数据变成“把计算发送到节点”的过程，即把需要处理的计算任务发送到数据节点，数据节点对存储在本节点内的数据进行处理，有效的减少数据在节点间的流动，避免大量节点间数据传输通信造成的计算任务扩展性瓶颈问题，也避免了集群对于高带宽低延迟网络的依赖。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

下面根据图2示出的具体实施例来进一步阐述本发明的具体实施方式。在本实施例中，要把测序仪产生的两个测序结果数据seq_1.fastq、seq_2.fastq写入HDFS文件***，这两个数据有几乎同等的大小和完全相同的行数。在本实施例中，两个文件都有100，000，000行(约对应于10GB大小)。

①将seq_1.fastq和seq_2.fastq按1000，000行(约对应于100MB)分块，各分成100块；

②向名称节点发送写上述两个文件数据的请求；

③名称节点记录数据块信息，并返回每个数据块可以写入的数据节点，两个文件的对等数据块写在同一个数据节点上；

如图2所示：

Block1(seq_1.fastq，seq_2.fastq):host2，host1，host3

Block2(seq_1.fastq，seq_2.fastq):host7，host8，host4

Block3(seq_1.fastq，seq_2.fastq):…，…，…

④向数据节点发送seq_1.fastq文件的block1(第一数据块)，发送过程如下：

将block1按1000行(约100KB大小)划分为数据包；

将第一个数据包发送给host2；

host2接收完后，将第一个数据包发送给host1，同时向host2发送第二个数据包；

host1接收完第一个数据包后发送给host3，同时接收host2发来的第二个数据包……

以此类推，直到将seq_1.fastq文件的block1发送完毕，然后用相同方式发送seq_2.fastq文件的block1；

发送完block1后，再向host7，host8，host4发送block2。

从上述实施例可以看出，本发明实施例提供的基因测序数据存储方法，通过使分别将相对端的两个测序文件分割为多个数据块，并根据多个数据块向名称节点发送存储到两个测序文件的请求；由名称节点根据请求而将多个数据块对应到多个数据节点中，其中将两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中；将每个数据块分割为多个数据包，并将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上的技术方案，能够对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储，降低基因测序处理时间、提高基因测序并降低网络压力。

需要特别指出的是，上述基因测序数据存储方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于基因测序数据存储方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储的装置的实施例。所述装置包括：

处理器；和

本发明实施例公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

基于上述目的，本发明实施例的第三个方面，提出了一种对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储的基因测序数据存储服务器的实施例。所述服务器包括名称节点和连接到名称节点的多个数据节点，名称节点用于将请求存储的基因测序数据对应到多个数据节点中，多个数据节点用于根据名称节点建立的对应关系来存储数据；其中，名称节点配置为，在处理由相对端的两个测序文件所分割而成的多个数据块时，将两个测序文件中所记载的基因测序数据彼此相对应的两个数据块对应到同一数据节点中。

从上述实施例可以看出，本发明实施例提供的基因测序数据存储装置和数据存储服务器，通过使分别将相对端的两个测序文件分割为多个数据块，并根据多个数据块向名称节点发送存储两个测序文件的请求；由名称节点根据请求而将多个数据块对应到多个数据节点中，其中将两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中；将每个数据块分割为多个数据包，并将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上的技术方案，能够对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储，降低基因测序处理时间、提高基因测序并降低网络压力。

需要特别指出的是，上述基因测序数据存储装置和数据存储服务器的实施例采用了所述基因测序数据存储方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述基因测序数据存储方法的其他实施例中。当然，由于所述基因测序数据存储方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述基因测序数据存储装置和数据存储服务器也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基因测序数据存储方法，其特征在于，包括以下步骤：

分别将相对端的两个测序文件分割为多个数据块，并根据所述多个数据块向名称节点发送存储所述两个测序文件的请求；

由所述名称节点根据所述请求而将所述多个数据块对应到多个数据节点中，其中将所述两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中；

将每个数据块分割为多个数据包，并将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上；

其中，将所述两个测序文件分割为所述多个数据块包括：同时为所述每个数据块分别生成用于表示数据块处于其所在测序文件中相对位置的数据块标识；

将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上包括：对于同一数据块的数据包，以排队握手模式依次存储到其共同对应的数据节点中的一个主机上，并从该主机以链式传输并存储到其数据节点中的所有主机上；对于不同数据块的数据包，彼此独立地传输到各自数据节点中的一个主机上，并各自从该主机以链式传输并存储到其数据节点中的所有主机上。

2.根据权利要求1所述的方法，其特征在于，相对端的两个测序文件分别为对同一基因序列从两相对端开始测序所产生的数据记录，所述两个测序文件中的大小相等并且数据中按行记载的碱基序列完全对应。

3.根据权利要求1所述的方法，其特征在于，所述请求包括所述每个数据块的大小、数量、和标识。

4.根据权利要求1所述的方法，其特征在于，将所述两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中包括：获取所述每个数据块的所述数据块标识，并将所述数据块标识彼此相对应的两个数据块对应到同一数据节点中。

5.根据权利要求1所述的方法，其特征在于，每个所述数据节点中的多个主机分布在至少两个不同的机架上。

6.根据权利要求1-5中任意一项所述的方法，其特征在于，所述名称节点和所述多个数据节点从属于Hadoop分布式文件***。

7.一种基因测序数据存储装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，其中所述程序代码在由所述处理器运行时执行如权利要求1-6中任意一项所述的方法。

8.一种基因测序数据存储服务器，其特征在于，包括名称节点和连接到所述名称节点的多个数据节点，

其中，所述名称节点用于将请求存储的基因测序数据对应到所述多个数据节点中，所述多个数据节点用于根据所述名称节点建立的对应关系来存储数据；所述名称节点配置为，在处理由相对端的两个测序文件所分割而成的多个数据块时，将所述两个测序文件中所记载的基因测序数据彼此相对应的两个数据块对应到同一数据节点中；

由数据节点将每个数据块分割为多个数据包，并将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上；