CN115083538A

CN115083538A - 一种药物数据的处理***、运行方法及数据处理方法

Info

Publication number: CN115083538A
Application number: CN202211009270.XA
Authority: CN
Inventors: 刘昊; 何家祺; 魏志强; 王卓亚; 周旭; 王存吉; 单利阳; 高源�; 林鹏
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-09-20
Anticipated expiration: 2042-08-23
Also published as: CN115083538B

Abstract

本发明涉及一种药物数据的处理***、运行方法及数据处理方法，属于药物筛选技术领域，所述***采用“存算”分离的部署方式，由计算集群与存储集群组成，计算集群负责药物数据的超大规模并行处理；计算集群包括资源管理节点、驱动节点和n个计算节点，其中资源管理节点是负责管理和调度计算集群资源；驱动节点运行程序的驱动进程，计算节点提供计算资源，以容器形式运行负责计算的执行进程和缓存层工作进程。本发明实现超大规模的药物数据处理方法，对多源异构的原始分子进行批量的加工，为虚拟筛选的核心计算提供数据集制备以及分子数据信息的标准化处理，大大提高了虚拟筛选的效率。

Description

一种药物数据的处理***、运行方法及数据处理方法

技术领域

本发明属于药物筛选技术领域，公开了一种面向超大规模药物数据的处理***、运行方法及数据处理方法。

背景技术

虚拟筛选即化合物筛选，是从大量化合物中筛选出可成药分子的过程。常见的靶点库包含数千种结构，与包含上亿个配体的典型的配体库进行分子对接、分子动力学等虚拟筛选流程，产生的筛选数据则可能多达数百亿。药物的虚拟筛选流程对配体分子质量要求极高，在进行典型的分子对接和分子动力学等计算前，均需要面向海量数据进行较为复杂的数据处理，且不同阶段的数据处理模式存在较大差异。经研究表明，在一个完整的药物虚拟筛选数据挖掘过程中，数据处理要占据一半以上的时间。传统的药物发现过程中，操作人员通常在虚拟筛选中采用较为独立的数据处理过程，导致每轮虚拟筛选都会产生非核心的重复操作。此类过程通常需要进行数千万互不相关的化合物数据处理，过程的I/O开销大，计算复杂度较低，多涉及文本内容的操作，部分处理过程依赖外部处理模块，处理过程带有一定的交互，对于并行框架的灵活性要求较高，超算通常采用的批处理***，并不适用于化合物结构优化等交互和I/O较多的处理场景。随着虚拟筛选数据量的越来越大，数据合理的存储也变得尤为重要。现存的虚拟筛选***通常基于单一存储模型实现基本的数据存取，在应对超大规模数据，访问性能具有局限性且不易备份，出现特殊状况时数据难以追溯，容易造成遗漏和错误。

目前，大数据处理方法为处理海量数据提供了多种可行性，MPI、MapReduce等并行编程模型提供了容错、高可用和可扩展的方法来对其进行有效处理，实现大规模非结构化数据的可靠处理。近年来，这些大数据处理框架被广泛应用于药物虚拟筛选领域，大大提升了药物虚拟筛选的效率。由于NoSQL数据库在数据存储和查询检索方面的性能表现较好，作为传统关系型数据库管理***的替代方法，被广泛应用于大规模生物医药数据领域。

对于现有的药物分子处理方法，在处理规模上相对提升，但仍然存在较多不足。

1.现有的药物分子处理并行化通常是采用“存算”一体的分布式架构，存储与计算资源捆绑，随着虚拟筛选药物数据的爆发式增长，无法单独对计算资源或者存储资源弹性扩展，往往面临着扩展性差，容错、恢复能力差，调度不灵活等问题。

2.现有的药物分子处理方法对于药物数据分子的存储通常采用单一的存储模式，不能适应异构、多源的海量药物分子数据，不合理的数据存储方式会造成大量资源的浪费以及***整体的效率低下。

3.现有药物分子并行化处理缺乏一套完整的流程化方法，处理效率不高。

发明内容

本发明提供一种药物数据的处理***，所述***用于超大规模药物数据处理，解决了虚拟筛选各个阶段数据处理的需求问题，虚拟筛选各个阶段的数据存储的需求问题，虚拟筛选各个阶段流程化的需求问题。

本发明是通过如下技术方案来实现的：

一种药物数据的处理***，所述***采用“存算”分离的部署方式，由计算集群与存储集群组成，计算集群负责药物数据的超大规模并行处理；计算集群包括资源管理节点、驱动节点和n个计算节点，其中资源管理节点是负责管理和调度计算集群资源，其职责是：1）接受来自客户端的作业，分配一个驱动节点，启动该作业的驱动进程；2）管理计算节点，接收来自计算节点的资源和节点健康状况的汇报；3）接收来自驱动进程的资源申请，并为驱动进程分配容器，所述的容器，是将计算节点的CPU和内存资源由其抽离成多个虚拟份额，然后将这些虚拟份额的CPU和内存资源根据配置形成的多个可运行进程任务的环境；驱动节点运行程序的驱动进程，所述驱动进程负责执行程序的main()方法以及将作业按照阶段划分，并将每个阶段的作业分散成多个的计算任务，其划分规则是保证在每个阶段内，不会发生数据的跨节点移动，驱动进程还会向资源管理节点申请完成并行计算所需的容器；计算节点提供计算资源，以容器形式运行负责计算的执行进程和缓存层工作进程，所述的执行进程，其工作是向驱动进程申请并执行药物数据处理的计算任务，所述的缓存层，是一种分布式文件***，其底层是由多个计算节点上的内存和本地磁盘（SSD、HDD）形成的多级缓存，映射来自存储集群提供的存储服务，并提供给程序、用户读写操作，此外，计算节点还向资源管理节点定期汇报本节点上的资源使用情况以及各个容器的运行状态；

存储集群包括内存存储模块、集中式存储模块、分布式存储模块和光存储模块，负责药物数据的海量存储服务；其中分布式存储模块为存储核心；多个存储模块形成统一命名空间，实现统一管理，通过统一的存储接口对外提供高性能数据存取操作；

分布式存储是用于存储海量小分子数据、海量靶点分子数据、药物计算热结果数据，同时对基于内存存储、集中式存储的数据备份；

内存存储模块存储虚拟筛选过程的一些中间结果数据、活性分子数据、复合物常备靶点数据；

集中式存储采用网络文件***，支持低延迟的读写，并且能够提供较大容量的存储；虚拟筛选各个阶段中产生的日志文件数据由集中式存储所承载；

光存储使用成本低廉，存储虚拟筛选过程中产生的大量冷数据，所述冷数据为少读取、低利用数据；

本发明还提供上述***的运行方法，在客户端提交药物数据处理的作业以及配置参数，当作业被提交给资源管理节点时，资源管理节点会在集群中分配驱动节点启动程序的驱动进程，由该驱动进程负责执行程序的main()方法以及将作业按照阶段划分，每个阶段的作业被分散成多个的计算任务，根据用户配置的参数，该驱动进程向资源管理节点申请计算节点上计算所需的容器，各个计算节点上的容器运行负责计算的执行进程，由这些执行进程向驱动进程申请并执行具体的计算任务，在获取驱动进程分发的广播变量后，执行进程开始执行计算任务，执行进程的数量以及每个执行进程分配的逻辑CPU核数决定了整个药物数据处理作业的并行度；

执行计算任务过程中，存储集群存储的药物数据文件会被映射到缓存层中，各个计算节点运行的缓存层工作进程响应执行进程的计算任务请求，提供对存储集群中药物数据的读写操作；从缓存层中读取的药物数据会以一种分布式数据集合的存储结构保存在内存中，所述的分布式数据集合，是所有药物数据的抽象，被分成多个分区，这些分区运行在不同容器的内存中；应用分布式数据集合对数据进行运算，数据经过一次读取，中间结果存储在内存中；计算完成后，处理完成的结果数据被分布式数据集合写入缓存层，进一步被持久化到存储集群中。

本发明还提供利用所述***对药物数据进行大规模批处理的方法，所述方法包括原始数据清洗、结构优化处理以及类型转换；

所述的原始数据清洗包括数据检查、过滤和去重；

所述的结构优化处理，对清洗后的分子数据先对分子进行加氢操作，然后生成分子3D构象，接着使用力场进行局部构象优化，并且进一步筛选掉优化结束后仍然存在问题的分子，再对优化结束的分子各个维度进行计算，生成一系列分子属性；

所述的类型转换；优化处理完成的分子需要将文件类型转换成对接计算软件所接受的类型，并进行统一文件编码，数据信息会被保存在标准分子库中；

上述方法由所述药物数据的处理***执行。

本发明与现有技术相比的有益效果：

（1）本发明***采用计算与存储分离的架构，使分布式集群资源利用更加充分，扩展好，调度更加灵活，构建药物数据分布式并行处理框架，利用内存计算以及缓存技术减少数据在网络传输中的I/O消耗。

（2）本发明对海量药物数据设计多模块存储策略，实现海量药物数据的高性能存储，对药物虚拟筛选涉及数据进行特征分析，以匹配相应的存储模块进行数据储存，提高虚拟筛选整体***的I/O性能。

（3）本发明实现超大规模的药物数据处理方法，对多源异构的原始分子进行批量的加工，为虚拟筛选的核心计算提供数据集制备以及分子数据信息的标准化处理，大大提高了虚拟筛选的效率。

附图说明

图1为本发明的面向超大规模药物数据处理的“存算分离”架构图；

图2为面向超大规模药物数据处理方法流程图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合附图对本发明作进一步说明。

下面将结合本发明的具体实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的一种用于超大规模药物数据的处理***，如图1所示所述***采用“存算”分离的部署方式，由计算集群与存储集群组成，通过高速网络实现计算组件和存储组件的消息通信与数据传输。以此保证***拥有更好的扩展性，更强的容错、恢复能力，以及更灵活的***调度。

计算集群负责药物数据的超大规模并行处理；计算集群包括资源管理节点、驱动节点和n个计算节点，其中资源管理节点是负责管理和调度计算集群资源，其职责是：1）接受来自客户端的作业，分配一个驱动节点，启动该作业的驱动进程；2）管理计算节点，接收来自计算节点的资源和节点健康状况的汇报；3）接收来自驱动进程的资源申请，并为驱动进程分配容器，所述的容器，是虚拟份额的CPU和内存资源与程序代码及其运行所需的环境打包形成的可独立运行程序进程的标准化单元，上述的虚拟份额的CPU和内存资源是由计算节点的实际CPU和内存抽离产生；驱动节点运行程序的驱动进程，所述驱动进程负责执行程序的main()方法以及将作业按照阶段划分，并将每个阶段的作业分散成多个的计算任务，其划分规则是保证在每个阶段内，不会发生数据的跨节点移动，驱动进程还会向资源管理节点申请完成并行计算所需的容器；计算节点提供计算资源，以容器形式运行负责计算的执行进程和缓存层工作进程，所述的执行进程，其工作是向驱动进程申请并执行药物数据处理的计算任务，所述的缓存层，是一种分布式文件***，其底层是由多个计算节点上的内存和本地磁盘（SSD、HDD）形成的多级缓存，映射来自存储集群提供的存储服务，并提供给程序、用户读写操作，此外，计算节点还向资源管理节点定期汇报本节点上的资源使用情况以及各个容器的运行状态。计算节点采用容器的来运行进程，能充分利用计算资源，提高并行度，并且提升计算环境的可移植性。

存储集群包括内存存储模块、集中式存储模块、分布式存储模块和光存储模块，负责药物数据的海量存储服务；其中分布式存储模块为存储核心。其每个存储模块功能如下：

分布式存储具有很强大的横向扩展能力，通过扩展不同的节点可以支持PB级别的存储容量，并且由于数据跨节点分布，多个节点的并行I/O可以实现数据的高吞吐量。针对海量小分子数据、海量靶点分子数据、药物计算热结果数据，这些数据体量大、增长快、流转性强，需要提供高吞吐量以及高效便捷的水平扩展和迁移能力，采用挂载分布式文件***的非关系型数据库进行存储。对分布式数据库的数据，采取哈希分片的数据分片策略，分布到多个节点上实现负载均衡，并且构建跨节点的副本集，提供冗余存储和高效管理。分布式文件***还可以对基于内存存储、集中式存储的数据备份，保障数据安全性、可恢复性。

内存存储模块适合虚拟筛选过程的一些中间结果数据、活性分子数据、复合物常备靶点数据等，可能会在后续的药物计算中反复读写，对索引及性能要求非常高，但是这些数据的数据量较小，容易在分布式存储中持久化备份。因此，采用内存文件***为这些热点数据提供高性能、高并发、低延迟的I/O。

集中式存储采用网络文件***，支持低延迟的读写，并且可以提供较大容量的存储。虚拟筛选各个阶段中产生的日志文件数据规模一般呈TB级，被虚拟筛选相关软件实时写入并且需要被持续处理，这一过程对存储***的延迟性要求较高，适合由集中式存储所承载。

光存储使用成本低廉，适合虚拟筛选过程中产生的大量冷数据（少读取、低利用数据）。这类冷数据规模呈PB规模，其对访问性能要求较低，即便访问，其写入的频率远低于读取的频率。为了提高对光存储数据的检索效率，在存储的同时，将元数据记录在分布式数据库中。

将所有物理存储设备整合为统一的存储资源，由万兆高速网络，映射到位于计算集群的缓存层，实现存储资源的统一管理，通过统一命名空间对外提供高性能数据存取操作。

分布式计算集群部署完毕，当用户将药物数据处理的作业提交给资源管理节点时，配置参数设置容器的数量为30个，容器的逻辑CPU数量为3个,内存为6G，程序开始执行，资源管理节点会在集群中分配驱动节点来运行程序的驱动进程，由该进程负责执行程序的main()方法以及将作业按照阶段拆分，并且保证在每个阶段内，不会发生数据的跨节点移动。为了在数据处理阶段达到最大并行度，任务的数量是用户决定分配给作业的总逻辑CPU数量的3倍，即270个。然后，该进程向资源管理节点申请计算节点上的资源，资源管理节点根据计算集群的可用资源分布情况进行调度，在多个计算节点上设置30个容器，给每个容器配备3个逻辑CPU和6G的内存，随后各个计算节点上启动容器运行负责计算的执行进程，由这些执行进程向驱动进程申请任务，在获取驱动进程分发的广播变量后，执行进程开始执行计算任务。

在执行计算任务过程中，***的“存算分离”的架构会导致网络传输中的I/O消耗巨大问题。为了提高药物数据的并行处理程序性能，程序内数据存储结构使用基于内存的分布式数据集合，应用分布式数据集合对计算过程中的药物数据进行运算和存储，一次读取，中间结果存储在内存中，避免中间结果落地磁盘的大量I/O开销，相比中间结果由磁盘存储的模式，效率提升近10倍。除此之外，缓存层利用内存和本地磁盘（SSD、HDD）构建多级缓存机制，存储集群提供的存储服务会被映射到缓存层,这使得计算应用程序频繁访问的远端数据可以被透明地缓存在缓存层中，再经由缓存层读取到分布式数据集合，或由分布式数据集合写入到缓存层，提供内存级的高I/O吞吐率。缓存进程与计算集群的计算进程共同运行在同一物理节点。缓存层响应计算任务，把数据写入缓存块中，当缓存被写满时，会根据数据块的命中几率进行替换。计算任务可以直接以内存速度从本地的缓存层读写缓存数据，而不必通过网络进行数据传输，对访存的加速效率达到50%。

本***提供的运行方法在使用逻辑CPU数量为90个时，相比单核串行执行作业效率可以提高79倍。

实施例2利用所述***对超大规模药物数据处理方法。

如图2所示，基于以上构建的超大规模药物数据处理***架构，提出超大规模药物数据处理方法，对药物数据进行高效的批量处理，为分子对接提供数据集制备以及分子数据信息的标准化处理。

***接收来自网络多源头的化合物数据库的一批原始分子数据，这些原始分子数据事先下载到存储集群。因为获取化合物库不同，所以这些化合物数据库之间存在一定的冗余，一些从XML中解析得到的分子数据存在文件内容格式错误以及文件错误，有些分子数据还存在着属性缺失，难以形成***管理，严重影响后续工作的进行。对这些原始分子数据进行数据清洗，包括数据检查、过滤和去重。在这一过程中，由分布式计算集群执行药物分子标准化处理作业，利用缓存机制从存储集群中加载原始分子数据，读取到分布式数据集合中进行处理，分布式数据集合中的每个元素都代表一条分子数据，先检查每个元素是否有正确的内容格式以及包含完整的坐标属性，通过第一次操作过滤掉检查出属性缺失或者格式错误的元素，之后再通过一次操作过滤掉重复的元素，至此完成数据清洗。

为匹配分子对接软件的输入条件，针对这批完成数据清洗的分子数据进一步结构优化处理，很多分子数据是二级结构，而对接计算需要提供三级结构的分子，并且存在构象异构体，能量电荷不足，属性信息错误等问题，因此，需要生成分子3D构象，接着使用力场进行局部构象优化。由于分子文件内容在默认情况下是不显示氢的，但氢原子对于真实的几何构象计算有很大的影响，因此，在生成3D构象和局部优化之前先对分子进行加氢操作，并且进一步筛选掉存在问题的分子。同时，考虑到一些通用任务的需求，这里会对优化结束的分子各个维度进行计算，生成一系列分子属性。这一过程在分布式数据集合中通过三次操作完成，第一次操作对每个元素进行加“氢”、生成3D构象、力场局部优化，第二次操作会判断优化结束后的元素是否有效，过滤掉存在问题的元素，确保所有元素均有效无误后，第三次操作中会对元素进行分子属性计算，并创建一个新的分布式数据集合，以保存每个分子计算出的各种分子属性。

这批分子数据优化处理完成后，将文件类型转换成分子对接软件所接受的类型，并进行统一文件编码。此时，分子数据已然完成不规则的原始形态到标准化形态的转变。经过标准化处理后的标准化分子数据仍在分布式数据集合中，需要将标准化分子数据保存以文件形式，再次经由缓存层写入存储集群的分布式文件***中，作为分子对接的标准数据集，至此完成分子数据的准备工作，而存储分子数据计算结果的分布式数据集合将标准化分子数据的所有属性信息以键值对的形式保存在分布式非关系型数据库的标准分子库中，方便虚拟筛选后续工作的查询。

Claims

1.一种药物数据的处理***，其特征在于，所述***采用“存算”分离的部署方式，由计算集群与存储集群组成，计算集群负责药物数据的超大规模并行处理；计算集群包括资源管理节点、驱动节点和n个计算节点，其中资源管理节点是负责管理和调度计算集群资源，驱动节点运行程序的驱动进程，所述驱动进程负责执行程序的main()方法以及将作业按照阶段划分，并将每个阶段的作业分散成多个的计算任务，其划分规则是保证在每个阶段内，不会发生数据的跨节点移动，驱动进程还会向资源管理节点申请完成并行计算所需的容器；计算节点提供计算资源，以容器形式运行负责计算的执行进程和缓存层工作进程，所述的执行进程，其工作是向驱动进程申请并执行药物数据处理的计算任务，所述的缓存层，是一种分布式文件***，其底层是由多个计算节点上的内存和本地磁盘形成的多级缓存，映射来自存储集群提供的存储服务，并提供给程序、用户读写操作，此外，计算节点还向资源管理节点定期汇报本节点上的资源使用情况以及各个容器的运行状态；

存储集群包括内存存储模块、集中式存储模块、分布式存储模块和光存储模块，负责药物数据的海量存储服务；其中分布式存储模块为存储核心；多个存储模块形成统一命名空间，实现统一管理，通过统一的存储接口对外提供高性能数据存取操作。

2.根据权利要求1所述的***，其特征在于，资源管理节点的职责是：1）接受来自客户端的作业，分配一个驱动节点，启动该作业的驱动进程；2）管理计算节点，接收来自计算节点的资源和节点健康状况的汇报；3）接收来自驱动进程的资源申请，并为驱动进程分配容器，所述的容器，是将计算节点的CPU和内存资源由其抽离成多个虚拟份额，然后将这些虚拟份额的CPU和内存资源根据配置形成的多个可运行进程任务的环境。

3.根据权利要求1所述的***，其特征在于，所述分布式存储是用于存储海量小分子数据、海量靶点分子数据、药物计算热结果数据，同时对基于内存存储、集中式存储的数据备份；

光存储使用成本低廉，存储虚拟筛选过程中产生的大量冷数据，所述冷数据为少读取、低利用数据。

4.权利要求1所述***的运行方法，其特征在于，所述方法具体如下：在客户端提交药物数据处理的作业以及配置参数，当作业被提交给资源管理节点时，资源管理节点会在集群中分配驱动节点启动程序的驱动进程，由该驱动进程负责执行程序的main()方法以及将作业按照阶段划分，每个阶段的作业被分散成多个的计算任务，根据用户配置的参数，该驱动进程向资源管理节点申请计算节点上计算所需的容器，各个计算节点上的容器运行负责计算的执行进程，由这些执行进程向驱动进程申请并执行具体的计算任务，在获取驱动进程分发的广播变量后，执行进程开始执行计算任务，执行进程的数量以及每个执行进程分配的逻辑CPU核数决定了整个药物数据处理作业的并行度；

5.利用权利要求1所述***对药物数据进行大规模批处理的方法，所述方法包括原始数据清洗、结构优化处理以及类型转换；

所述的原始数据清洗包括数据检查、过滤和去重；

上述方法由所述药物数据的处理***执行。