CN115083538A - 一种药物数据的处理***、运行方法及数据处理方法 - Google Patents

一种药物数据的处理***、运行方法及数据处理方法 Download PDF

Info

Publication number
CN115083538A
CN115083538A CN202211009270.XA CN202211009270A CN115083538A CN 115083538 A CN115083538 A CN 115083538A CN 202211009270 A CN202211009270 A CN 202211009270A CN 115083538 A CN115083538 A CN 115083538A
Authority
CN
China
Prior art keywords
data
storage
computing
node
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211009270.XA
Other languages
English (en)
Other versions
CN115083538B (zh
Inventor
刘昊
何家祺
魏志强
王卓亚
周旭
王存吉
单利阳
高源�
林鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202211009270.XA priority Critical patent/CN115083538B/zh
Publication of CN115083538A publication Critical patent/CN115083538A/zh
Application granted granted Critical
Publication of CN115083538B publication Critical patent/CN115083538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种药物数据的处理***、运行方法及数据处理方法,属于药物筛选技术领域,所述***采用“存算”分离的部署方式,由计算集群与存储集群组成,计算集群负责药物数据的超大规模并行处理;计算集群包括资源管理节点、驱动节点和n个计算节点,其中资源管理节点是负责管理和调度计算集群资源;驱动节点运行程序的驱动进程,计算节点提供计算资源,以容器形式运行负责计算的执行进程和缓存层工作进程。本发明实现超大规模的药物数据处理方法,对多源异构的原始分子进行批量的加工,为虚拟筛选的核心计算提供数据集制备以及分子数据信息的标准化处理,大大提高了虚拟筛选的效率。

Description

一种药物数据的处理***、运行方法及数据处理方法
技术领域
本发明属于药物筛选技术领域,公开了一种面向超大规模药物数据的处理***、运行方法及数据处理方法。
背景技术
虚拟筛选即化合物筛选,是从大量化合物中筛选出可成药分子的过程。常见的靶点库包含数千种结构,与包含上亿个配体的典型的配体库进行分子对接、分子动力学等虚拟筛选流程,产生的筛选数据则可能多达数百亿。药物的虚拟筛选流程对配体分子质量要求极高,在进行典型的分子对接和分子动力学等计算前,均需要面向海量数据进行较为复杂的数据处理,且不同阶段的数据处理模式存在较大差异。经研究表明,在一个完整的药物虚拟筛选数据挖掘过程中,数据处理要占据一半以上的时间。传统的药物发现过程中,操作人员通常在虚拟筛选中采用较为独立的数据处理过程,导致每轮虚拟筛选都会产生非核心的重复操作。此类过程通常需要进行数千万互不相关的化合物数据处理,过程的I/O开销大,计算复杂度较低,多涉及文本内容的操作,部分处理过程依赖外部处理模块,处理过程带有一定的交互,对于并行框架的灵活性要求较高,超算通常采用的批处理***,并不适用于化合物结构优化等交互和I/O较多的处理场景。随着虚拟筛选数据量的越来越大,数据合理的存储也变得尤为重要。现存的虚拟筛选***通常基于单一存储模型实现基本的数据存取,在应对超大规模数据,访问性能具有局限性且不易备份,出现特殊状况时数据难以追溯,容易造成遗漏和错误。
目前,大数据处理方法为处理海量数据提供了多种可行性,MPI、MapReduce等并行编程模型提供了容错、高可用和可扩展的方法来对其进行有效处理,实现大规模非结构化数据的可靠处理。近年来,这些大数据处理框架被广泛应用于药物虚拟筛选领域,大大提升了药物虚拟筛选的效率。由于NoSQL数据库在数据存储和查询检索方面的性能表现较好,作为传统关系型数据库管理***的替代方法,被广泛应用于大规模生物医药数据领域。
对于现有的药物分子处理方法,在处理规模上相对提升,但仍然存在较多不足。
1.现有的药物分子处理并行化通常是采用“存算”一体的分布式架构,存储与计算资源捆绑,随着虚拟筛选药物数据的爆发式增长,无法单独对计算资源或者存储资源弹性扩展,往往面临着扩展性差,容错、恢复能力差,调度不灵活等问题。
2.现有的药物分子处理方法对于药物数据分子的存储通常采用单一的存储模式,不能适应异构、多源的海量药物分子数据,不合理的数据存储方式会造成大量资源的浪费以及***整体的效率低下。
3.现有药物分子并行化处理缺乏一套完整的流程化方法,处理效率不高。
发明内容
本发明提供一种药物数据的处理***,所述***用于超大规模药物数据处理,解决了虚拟筛选各个阶段数据处理的需求问题,虚拟筛选各个阶段的数据存储的需求问题,虚拟筛选各个阶段流程化的需求问题。
本发明是通过如下技术方案来实现的:
一种药物数据的处理***,所述***采用“存算”分离的部署方式,由计算集群与存储集群组成,计算集群负责药物数据的超大规模并行处理;计算集群包括资源管理节点、驱动节点和n个计算节点,其中资源管理节点是负责管理和调度计算集群资源,其职责是:1)接受来自客户端的作业,分配一个驱动节点,启动该作业的驱动进程;2)管理计算节点,接收来自计算节点的资源和节点健康状况的汇报;3)接收来自驱动进程的资源申请,并为驱动进程分配容器,所述的容器,是将计算节点的CPU和内存资源由其抽离成多个虚拟份额,然后将这些虚拟份额的CPU和内存资源根据配置形成的多个可运行进程任务的环境;驱动节点运行程序的驱动进程,所述驱动进程负责执行程序的main()方法以及将作业按照阶段划分,并将每个阶段的作业分散成多个的计算任务,其划分规则是保证在每个阶段内,不会发生数据的跨节点移动,驱动进程还会向资源管理节点申请完成并行计算所需的容器;计算节点提供计算资源,以容器形式运行负责计算的执行进程和缓存层工作进程,所述的执行进程,其工作是向驱动进程申请并执行药物数据处理的计算任务,所述的缓存层,是一种分布式文件***,其底层是由多个计算节点上的内存和本地磁盘(SSD、HDD)形成的多级缓存,映射来自存储集群提供的存储服务,并提供给程序、用户读写操作,此外,计算节点还向资源管理节点定期汇报本节点上的资源使用情况以及各个容器的运行状态;
存储集群包括内存存储模块、集中式存储模块、分布式存储模块和光存储模块,负责药物数据的海量存储服务;其中分布式存储模块为存储核心;多个存储模块形成统一命名空间,实现统一管理,通过统一的存储接口对外提供高性能数据存取操作;
分布式存储是用于存储海量小分子数据、海量靶点分子数据、药物计算热结果数据,同时对基于内存存储、集中式存储的数据备份;
内存存储模块存储虚拟筛选过程的一些中间结果数据、活性分子数据、复合物常备靶点数据;
集中式存储采用网络文件***,支持低延迟的读写,并且能够提供较大容量的存储;虚拟筛选各个阶段中产生的日志文件数据由集中式存储所承载;
光存储使用成本低廉,存储虚拟筛选过程中产生的大量冷数据,所述冷数据为少读取、低利用数据;
本发明还提供上述***的运行方法,在客户端提交药物数据处理的作业以及配置参数,当作业被提交给资源管理节点时,资源管理节点会在集群中分配驱动节点启动程序的驱动进程,由该驱动进程负责执行程序的main()方法以及将作业按照阶段划分,每个阶段的作业被分散成多个的计算任务,根据用户配置的参数,该驱动进程向资源管理节点申请计算节点上计算所需的容器,各个计算节点上的容器运行负责计算的执行进程,由这些执行进程向驱动进程申请并执行具体的计算任务,在获取驱动进程分发的广播变量后,执行进程开始执行计算任务,执行进程的数量以及每个执行进程分配的逻辑CPU核数决定了整个药物数据处理作业的并行度;
执行计算任务过程中,存储集群存储的药物数据文件会被映射到缓存层中,各个计算节点运行的缓存层工作进程响应执行进程的计算任务请求,提供对存储集群中药物数据的读写操作;从缓存层中读取的药物数据会以一种分布式数据集合的存储结构保存在内存中,所述的分布式数据集合,是所有药物数据的抽象,被分成多个分区,这些分区运行在不同容器的内存中;应用分布式数据集合对数据进行运算,数据经过一次读取,中间结果存储在内存中;计算完成后,处理完成的结果数据被分布式数据集合写入缓存层,进一步被持久化到存储集群中。
本发明还提供利用所述***对药物数据进行大规模批处理的方法,所述方法包括原始数据清洗、结构优化处理以及类型转换;
所述的原始数据清洗包括数据检查、过滤和去重;
所述的结构优化处理,对清洗后的分子数据先对分子进行加氢操作,然后生成分子3D构象,接着使用力场进行局部构象优化,并且进一步筛选掉优化结束后仍然存在问题的分子,再对优化结束的分子各个维度进行计算,生成一系列分子属性;
所述的类型转换;优化处理完成的分子需要将文件类型转换成对接计算软件所接受的类型,并进行统一文件编码,数据信息会被保存在标准分子库中;
上述方法由所述药物数据的处理***执行。
本发明与现有技术相比的有益效果:
(1)本发明***采用计算与存储分离的架构,使分布式集群资源利用更加充分,扩展好,调度更加灵活,构建药物数据分布式并行处理框架,利用内存计算以及缓存技术减少数据在网络传输中的I/O消耗。
(2)本发明对海量药物数据设计多模块存储策略,实现海量药物数据的高性能存储,对药物虚拟筛选涉及数据进行特征分析,以匹配相应的存储模块进行数据储存,提高虚拟筛选整体***的I/O性能。
(3)本发明实现超大规模的药物数据处理方法,对多源异构的原始分子进行批量的加工,为虚拟筛选的核心计算提供数据集制备以及分子数据信息的标准化处理,大大提高了虚拟筛选的效率。
附图说明
图1为本发明的面向超大规模药物数据处理的“存算分离”架构图;
图2为面向超大规模药物数据处理方法流程图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合附图对本发明作进一步说明。
下面将结合本发明的具体实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的一种用于超大规模药物数据的处理***,如图1所示所述***采用“存算”分离的部署方式,由计算集群与存储集群组成,通过高速网络实现计算组件和存储组件的消息通信与数据传输。以此保证***拥有更好的扩展性,更强的容错、恢复能力,以及更灵活的***调度。
计算集群负责药物数据的超大规模并行处理;计算集群包括资源管理节点、驱动节点和n个计算节点,其中资源管理节点是负责管理和调度计算集群资源,其职责是:1)接受来自客户端的作业,分配一个驱动节点,启动该作业的驱动进程;2)管理计算节点,接收来自计算节点的资源和节点健康状况的汇报;3)接收来自驱动进程的资源申请,并为驱动进程分配容器,所述的容器,是虚拟份额的CPU和内存资源与程序代码及其运行所需的环境打包形成的可独立运行程序进程的标准化单元,上述的虚拟份额的CPU和内存资源是由计算节点的实际CPU和内存抽离产生;驱动节点运行程序的驱动进程,所述驱动进程负责执行程序的main()方法以及将作业按照阶段划分,并将每个阶段的作业分散成多个的计算任务,其划分规则是保证在每个阶段内,不会发生数据的跨节点移动,驱动进程还会向资源管理节点申请完成并行计算所需的容器;计算节点提供计算资源,以容器形式运行负责计算的执行进程和缓存层工作进程,所述的执行进程,其工作是向驱动进程申请并执行药物数据处理的计算任务,所述的缓存层,是一种分布式文件***,其底层是由多个计算节点上的内存和本地磁盘(SSD、HDD)形成的多级缓存,映射来自存储集群提供的存储服务,并提供给程序、用户读写操作,此外,计算节点还向资源管理节点定期汇报本节点上的资源使用情况以及各个容器的运行状态。计算节点采用容器的来运行进程,能充分利用计算资源,提高并行度,并且提升计算环境的可移植性。
存储集群包括内存存储模块、集中式存储模块、分布式存储模块和光存储模块,负责药物数据的海量存储服务;其中分布式存储模块为存储核心。其每个存储模块功能如下:
分布式存储具有很强大的横向扩展能力,通过扩展不同的节点可以支持PB级别的存储容量,并且由于数据跨节点分布,多个节点的并行I/O可以实现数据的高吞吐量。针对海量小分子数据、海量靶点分子数据、药物计算热结果数据,这些数据体量大、增长快、流转性强,需要提供高吞吐量以及高效便捷的水平扩展和迁移能力,采用挂载分布式文件***的非关系型数据库进行存储。对分布式数据库的数据,采取哈希分片的数据分片策略,分布到多个节点上实现负载均衡,并且构建跨节点的副本集,提供冗余存储和高效管理。分布式文件***还可以对基于内存存储、集中式存储的数据备份,保障数据安全性、可恢复性。
内存存储模块适合虚拟筛选过程的一些中间结果数据、活性分子数据、复合物常备靶点数据等,可能会在后续的药物计算中反复读写,对索引及性能要求非常高,但是这些数据的数据量较小,容易在分布式存储中持久化备份。因此,采用内存文件***为这些热点数据提供高性能、高并发、低延迟的I/O。
集中式存储采用网络文件***,支持低延迟的读写,并且可以提供较大容量的存储。虚拟筛选各个阶段中产生的日志文件数据规模一般呈TB级,被虚拟筛选相关软件实时写入并且需要被持续处理,这一过程对存储***的延迟性要求较高,适合由集中式存储所承载。
光存储使用成本低廉,适合虚拟筛选过程中产生的大量冷数据(少读取、低利用数据)。这类冷数据规模呈PB规模,其对访问性能要求较低,即便访问,其写入的频率远低于读取的频率。为了提高对光存储数据的检索效率,在存储的同时,将元数据记录在分布式数据库中。
将所有物理存储设备整合为统一的存储资源,由万兆高速网络,映射到位于计算集群的缓存层,实现存储资源的统一管理,通过统一命名空间对外提供高性能数据存取操作。
分布式计算集群部署完毕,当用户将药物数据处理的作业提交给资源管理节点时,配置参数设置容器的数量为30个,容器的逻辑CPU数量为3个,内存为6G,程序开始执行,资源管理节点会在集群中分配驱动节点来运行程序的驱动进程,由该进程负责执行程序的main()方法以及将作业按照阶段拆分,并且保证在每个阶段内,不会发生数据的跨节点移动。为了在数据处理阶段达到最大并行度,任务的数量是用户决定分配给作业的总逻辑CPU数量的3倍,即270个。然后,该进程向资源管理节点申请计算节点上的资源,资源管理节点根据计算集群的可用资源分布情况进行调度,在多个计算节点上设置30个容器,给每个容器配备3个逻辑CPU和6G的内存,随后各个计算节点上启动容器运行负责计算的执行进程,由这些执行进程向驱动进程申请任务,在获取驱动进程分发的广播变量后,执行进程开始执行计算任务。
在执行计算任务过程中,***的“存算分离”的架构会导致网络传输中的I/O消耗巨大问题。为了提高药物数据的并行处理程序性能,程序内数据存储结构使用基于内存的分布式数据集合,应用分布式数据集合对计算过程中的药物数据进行运算和存储,一次读取,中间结果存储在内存中,避免中间结果落地磁盘的大量I/O开销,相比中间结果由磁盘存储的模式,效率提升近10倍。除此之外,缓存层利用内存和本地磁盘(SSD、HDD)构建多级缓存机制,存储集群提供的存储服务会被映射到缓存层,这使得计算应用程序频繁访问的远端数据可以被透明地缓存在缓存层中,再经由缓存层读取到分布式数据集合,或由分布式数据集合写入到缓存层,提供内存级的高I/O吞吐率。缓存进程与计算集群的计算进程共同运行在同一物理节点。缓存层响应计算任务,把数据写入缓存块中,当缓存被写满时,会根据数据块的命中几率进行替换。计算任务可以直接以内存速度从本地的缓存层读写缓存数据,而不必通过网络进行数据传输,对访存的加速效率达到50%。
本***提供的运行方法在使用逻辑CPU数量为90个时,相比单核串行执行作业效率可以提高79倍。
实施例2利用所述***对超大规模药物数据处理方法。
如图2所示,基于以上构建的超大规模药物数据处理***架构,提出超大规模药物数据处理方法,对药物数据进行高效的批量处理,为分子对接提供数据集制备以及分子数据信息的标准化处理。
***接收来自网络多源头的化合物数据库的一批原始分子数据,这些原始分子数据事先下载到存储集群。因为获取化合物库不同,所以这些化合物数据库之间存在一定的冗余,一些从XML中解析得到的分子数据存在文件内容格式错误以及文件错误,有些分子数据还存在着属性缺失,难以形成***管理,严重影响后续工作的进行。对这些原始分子数据进行数据清洗,包括数据检查、过滤和去重。在这一过程中,由分布式计算集群执行药物分子标准化处理作业,利用缓存机制从存储集群中加载原始分子数据,读取到分布式数据集合中进行处理,分布式数据集合中的每个元素都代表一条分子数据,先检查每个元素是否有正确的内容格式以及包含完整的坐标属性,通过第一次操作过滤掉检查出属性缺失或者格式错误的元素,之后再通过一次操作过滤掉重复的元素,至此完成数据清洗。
为匹配分子对接软件的输入条件,针对这批完成数据清洗的分子数据进一步结构优化处理,很多分子数据是二级结构,而对接计算需要提供三级结构的分子,并且存在构象异构体,能量电荷不足,属性信息错误等问题,因此,需要生成分子3D构象,接着使用力场进行局部构象优化。由于分子文件内容在默认情况下是不显示氢的,但氢原子对于真实的几何构象计算有很大的影响,因此,在生成3D构象和局部优化之前先对分子进行加氢操作,并且进一步筛选掉存在问题的分子。同时,考虑到一些通用任务的需求,这里会对优化结束的分子各个维度进行计算,生成一系列分子属性。这一过程在分布式数据集合中通过三次操作完成,第一次操作对每个元素进行加“氢”、生成3D构象、力场局部优化,第二次操作会判断优化结束后的元素是否有效,过滤掉存在问题的元素,确保所有元素均有效无误后,第三次操作中会对元素进行分子属性计算,并创建一个新的分布式数据集合,以保存每个分子计算出的各种分子属性。
这批分子数据优化处理完成后,将文件类型转换成分子对接软件所接受的类型,并进行统一文件编码。此时,分子数据已然完成不规则的原始形态到标准化形态的转变。经过标准化处理后的标准化分子数据仍在分布式数据集合中,需要将标准化分子数据保存以文件形式,再次经由缓存层写入存储集群的分布式文件***中,作为分子对接的标准数据集,至此完成分子数据的准备工作,而存储分子数据计算结果的分布式数据集合将标准化分子数据的所有属性信息以键值对的形式保存在分布式非关系型数据库的标准分子库中,方便虚拟筛选后续工作的查询。

Claims (5)

1.一种药物数据的处理***,其特征在于,所述***采用“存算”分离的部署方式,由计算集群与存储集群组成,计算集群负责药物数据的超大规模并行处理;计算集群包括资源管理节点、驱动节点和n个计算节点,其中资源管理节点是负责管理和调度计算集群资源,驱动节点运行程序的驱动进程,所述驱动进程负责执行程序的main()方法以及将作业按照阶段划分,并将每个阶段的作业分散成多个的计算任务,其划分规则是保证在每个阶段内,不会发生数据的跨节点移动,驱动进程还会向资源管理节点申请完成并行计算所需的容器;计算节点提供计算资源,以容器形式运行负责计算的执行进程和缓存层工作进程,所述的执行进程,其工作是向驱动进程申请并执行药物数据处理的计算任务,所述的缓存层,是一种分布式文件***,其底层是由多个计算节点上的内存和本地磁盘形成的多级缓存,映射来自存储集群提供的存储服务,并提供给程序、用户读写操作,此外,计算节点还向资源管理节点定期汇报本节点上的资源使用情况以及各个容器的运行状态;
存储集群包括内存存储模块、集中式存储模块、分布式存储模块和光存储模块,负责药物数据的海量存储服务;其中分布式存储模块为存储核心;多个存储模块形成统一命名空间,实现统一管理,通过统一的存储接口对外提供高性能数据存取操作。
2.根据权利要求1所述的***,其特征在于,资源管理节点的职责是:1)接受来自客户端的作业,分配一个驱动节点,启动该作业的驱动进程;2)管理计算节点,接收来自计算节点的资源和节点健康状况的汇报;3)接收来自驱动进程的资源申请,并为驱动进程分配容器,所述的容器,是将计算节点的CPU和内存资源由其抽离成多个虚拟份额,然后将这些虚拟份额的CPU和内存资源根据配置形成的多个可运行进程任务的环境。
3.根据权利要求1所述的***,其特征在于,所述分布式存储是用于存储海量小分子数据、海量靶点分子数据、药物计算热结果数据,同时对基于内存存储、集中式存储的数据备份;
内存存储模块存储虚拟筛选过程的一些中间结果数据、活性分子数据、复合物常备靶点数据;
集中式存储采用网络文件***,支持低延迟的读写,并且能够提供较大容量的存储;虚拟筛选各个阶段中产生的日志文件数据由集中式存储所承载;
光存储使用成本低廉,存储虚拟筛选过程中产生的大量冷数据,所述冷数据为少读取、低利用数据。
4.权利要求1所述***的运行方法,其特征在于,所述方法具体如下:在客户端提交药物数据处理的作业以及配置参数,当作业被提交给资源管理节点时,资源管理节点会在集群中分配驱动节点启动程序的驱动进程,由该驱动进程负责执行程序的main()方法以及将作业按照阶段划分,每个阶段的作业被分散成多个的计算任务,根据用户配置的参数,该驱动进程向资源管理节点申请计算节点上计算所需的容器,各个计算节点上的容器运行负责计算的执行进程,由这些执行进程向驱动进程申请并执行具体的计算任务,在获取驱动进程分发的广播变量后,执行进程开始执行计算任务,执行进程的数量以及每个执行进程分配的逻辑CPU核数决定了整个药物数据处理作业的并行度;
执行计算任务过程中,存储集群存储的药物数据文件会被映射到缓存层中,各个计算节点运行的缓存层工作进程响应执行进程的计算任务请求,提供对存储集群中药物数据的读写操作;从缓存层中读取的药物数据会以一种分布式数据集合的存储结构保存在内存中,所述的分布式数据集合,是所有药物数据的抽象,被分成多个分区,这些分区运行在不同容器的内存中;应用分布式数据集合对数据进行运算,数据经过一次读取,中间结果存储在内存中;计算完成后,处理完成的结果数据被分布式数据集合写入缓存层,进一步被持久化到存储集群中。
5.利用权利要求1所述***对药物数据进行大规模批处理的方法,所述方法包括原始数据清洗、结构优化处理以及类型转换;
所述的原始数据清洗包括数据检查、过滤和去重;
所述的结构优化处理,对清洗后的分子数据先对分子进行加氢操作,然后生成分子3D构象,接着使用力场进行局部构象优化,并且进一步筛选掉优化结束后仍然存在问题的分子,再对优化结束的分子各个维度进行计算,生成一系列分子属性;
所述的类型转换;优化处理完成的分子需要将文件类型转换成对接计算软件所接受的类型,并进行统一文件编码,数据信息会被保存在标准分子库中;
上述方法由所述药物数据的处理***执行。
CN202211009270.XA 2022-08-23 2022-08-23 一种药物数据的处理***、运行方法及数据处理方法 Active CN115083538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211009270.XA CN115083538B (zh) 2022-08-23 2022-08-23 一种药物数据的处理***、运行方法及数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211009270.XA CN115083538B (zh) 2022-08-23 2022-08-23 一种药物数据的处理***、运行方法及数据处理方法

Publications (2)

Publication Number Publication Date
CN115083538A true CN115083538A (zh) 2022-09-20
CN115083538B CN115083538B (zh) 2022-11-11

Family

ID=83244478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211009270.XA Active CN115083538B (zh) 2022-08-23 2022-08-23 一种药物数据的处理***、运行方法及数据处理方法

Country Status (1)

Country Link
CN (1) CN115083538B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470007A (zh) * 2022-10-31 2022-12-13 中国海洋大学 数据处理和药物再利用筛选框架及方法、存储介质和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云***自动化部署方法
CN111210879A (zh) * 2020-01-06 2020-05-29 中国海洋大学 一种用于超大规模药物数据的分级存储优化方法
CN113296877A (zh) * 2020-07-14 2021-08-24 阿里巴巴集团控股有限公司 数据处理方法和装置,及计算机存储介质和电子设备
CN113296711A (zh) * 2021-06-11 2021-08-24 中国科学技术大学 一种数据库场景中优化分布式存储延迟的方法
CN113672583A (zh) * 2021-08-20 2021-11-19 浩鲸云计算科技股份有限公司 基于存储与计算分离的大数据多数据源分析方法及***
WO2022161323A1 (zh) * 2021-01-28 2022-08-04 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置、设备、存储介质及计算机程序产品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云***自动化部署方法
CN111210879A (zh) * 2020-01-06 2020-05-29 中国海洋大学 一种用于超大规模药物数据的分级存储优化方法
CN113296877A (zh) * 2020-07-14 2021-08-24 阿里巴巴集团控股有限公司 数据处理方法和装置,及计算机存储介质和电子设备
WO2022161323A1 (zh) * 2021-01-28 2022-08-04 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置、设备、存储介质及计算机程序产品
CN113296711A (zh) * 2021-06-11 2021-08-24 中国科学技术大学 一种数据库场景中优化分布式存储延迟的方法
CN113672583A (zh) * 2021-08-20 2021-11-19 浩鲸云计算科技股份有限公司 基于存储与计算分离的大数据多数据源分析方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FANG CHEN等: "Research on access efficiency and optimization of massive", 《IOP CONFERENCE SERIES: EARTH AND ENVIRONMENTAL SCIENCE》 *
吴金坛等: "大数据计算与存储分离技术实验分析", 《电脑知识与技术》 *
汤小春等: "数据流计算环境下的集群资源管理技术", 《大数据》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470007A (zh) * 2022-10-31 2022-12-13 中国海洋大学 数据处理和药物再利用筛选框架及方法、存储介质和装置

Also Published As

Publication number Publication date
CN115083538B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
Li Cloud-native database systems at Alibaba: Opportunities and challenges
Tang et al. A survey on spark ecosystem: Big data processing infrastructure, machine learning, and applications
Bakshi Considerations for big data: Architecture and approach
Sakr et al. A survey of large scale data management approaches in cloud environments
Bichsel et al. A simple algorithm for shape from shading
AU2004262370B2 (en) Parallel recovery by non-failed nodes
Padhy Big data processing with Hadoop-MapReduce in cloud systems
US11921725B2 (en) Processing queries based on rebuilding portions of virtual segments
US9176867B2 (en) Hybrid DRAM-SSD memory system for a distributed database node
CN109643310B (zh) 用于数据库中数据重分布的***和方法
CN109144783B (zh) 一种分布式海量非结构化数据备份方法及***
Arfat et al. Big data for smart infrastructure design: Opportunities and challenges
Liu et al. ETLMR: a highly scalable dimensional ETL framework based on mapreduce
US11734355B2 (en) Processing queries based on level assignment information
CN115083538B (zh) 一种药物数据的处理***、运行方法及数据处理方法
CN116302574A (zh) 一种基于MapReduce的并发处理方法
CN117677943A (zh) 用于混合数据处理的数据一致性机制
Jia Google cloud computing platform technology architecture and the impact of its cost
CN111651302A (zh) 分布式数据库备份方法,装置及***
Chen et al. Providing scalable database services on the cloud
Yang From Google file system to omega: a decade of advancement in big data management at Google
WO2013153029A1 (en) Method and system for managing and processing data in a distributed computing platform
Khosla et al. Big data technologies
Torlone Hadoop & Map-Reduce
Obilikwu et al. Volume-Adaptive Big Data Model for Relational Databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant