CN116992065B - 一种图数据库数据导入方法、***、电子设备、介质 - Google Patents
一种图数据库数据导入方法、***、电子设备、介质 Download PDFInfo
- Publication number
- CN116992065B CN116992065B CN202311250823.5A CN202311250823A CN116992065B CN 116992065 B CN116992065 B CN 116992065B CN 202311250823 A CN202311250823 A CN 202311250823A CN 116992065 B CN116992065 B CN 116992065B
- Authority
- CN
- China
- Prior art keywords
- data
- import
- task
- graph database
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000008676 import Effects 0.000 claims abstract description 166
- 238000013515 script Methods 0.000 claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000000977 initiatory effect Effects 0.000 claims abstract description 19
- 238000012544 monitoring process Methods 0.000 claims abstract description 19
- 238000003780 insertion Methods 0.000 claims abstract description 6
- 230000037431 insertion Effects 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241000533950 Leucojum Species 0.000 description 1
- 241000475481 Nebula Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种图数据库数据导入方法、***、电子设备、介质,包括导入任务发起模块、导入任务执行模块和导入任务监控模块。其中,导入任务发起模块包括:配置图数据库信息,配置图数据格式转换脚本,按行读取数据文件,调用API提交导入任务;导入任务执行模块包括:通过API接收导入任务,将任务分发到数据导入集群,读取图数据库配置信息,读取数据动态处理脚本,解析数据得到图数据库***语句,执行***语句将数据写入图数据库;导入任务监控模块包括:收集导入执行信息,汇总数据,生成导入任务执行情况报表。本发明方法支持大规模图数据的高效导入,且实现方法简单,支持不同格式的数据文件,可以随时查看导入进度。
Description
技术领域
本申请涉及图数据处理领域,特别是涉及一种图数据库数据导入方法、***、电子设备、介质。
背景技术
图数据库随着互联网的急速发展而越来越受到企业关注,相比于传统关系数据库,图数据库具有更加高效快速的数据处理能力,对于海量、复杂的数据有着更加高效的管理能力。
随着图处理能力的逐步提升,图数据库的规模也越来越大,对于亿级点、十亿级边规模的图数据库,如何高效的将数据导入图数据库,是一项极具挑战的工作。
此外,由于图结构的复杂性,且缺少统一的图数据格式标准,这些图数据格式各不相同,增加了将这些图数据导入图数据库的复杂性。
相关技术中,通过数据接入模块将不同数据源转换成统一列格式的数据集,然后通过参数配置模块定义数据输入格式、转换规则、数据输出格式,实现不同数据源、不同格式的数据导入,该方法对于***已支持的数据源类型,不需要很多编码即可支持不同格式数据,但当有新的数据源需要接入时,需要修改数据接入模块代码,实现新数据源格式向平台统一列格式的转换,而且该方法也未考虑解决大量数据导入时数据转换及导入执行的性能问题。
此外,另一类方法(参考专利公布号:CN 114647689 A),将数据进行格式转换,转换为图数据库要求的预设格式的文件,然后将预设文件载入图数据库的数据存储目录中,然后通过图数据库提供的命令将数据存储目录中的预设文件对应导入到图数据的图空间中。这类方法可以解决分布式图数据库中大规模导入时资源抢占问题和服务易出现不可用问题,但存在以下几个问题:
(1)编写数据格式处理程序成本较高,尤其是数据文件较大时,需要通过分布式处理程序提升数据格式处理的速度。
(2)通用性差,不同的图数据库要求的预设文件格式不同,且并非所有图数据库都提供加载预设格式数据文件的方法。
此外,另一类方法,通过spark等分布式计算框架实现并行导入,或者自己编写一套策略,实现主节点将点边文件分发到各个节点,各个节点对保存在本节点的数据进行格式转换和导入。以nebula图数据库官方提供的导入工具NebulaGraph Exchange为例,该工具内置了13种常见数据源的导入方法,使用该工具需要先安装spark并配置环境,通过sprak-submit命令执行官方提供的已编译好的exchange jar包,如果要支持新数据源的导入,需要针对数据格式,修改exchange的代码,并重新编译。 此类方法通过spark工具实现了图数据的分布式导入,提升了导入的效率,但存在以下几个问题:
(1)导入任务发起方需要安装spark工具,并进行复杂的配置。
(2)通用性差,当新增数据源时,需要修改spark任务代码并重新打包。
(3)通过spark-submit命令一次性提交整个导入任务,调试困难,尤其是数据文件中存在部分不规范数据时,无法在导入过程中实时发现和干预。
(4)由于是一次性提交整个导入任务,当任务被意外中断时,只能重新开始导入。对于超大规模的图数据导入任务而言,成本非常高。
(5)导入进度查看不方便。
发明内容
针对现有技术不足,本发明提供了一种基于任务提交、任务分发、通过动态脚本解析数据、可实时查看导入进度的图数据库数据导入方法、***、电子设备、介质。
根据本发明实施例的第一方面,提供了一种图数据库数据导入***,包括:
导入任务发起模块,用于配置图数据库信息,配置图数据格式转换脚本,按行读取数据文件,调用API提交导入任务;
导入任务执行模块用于通过API接收到导入任务,通过消息服务器将任务分发到数据导入集群;
图数据导入集群,包含多个服务器,分别用于依据图数据格式转换脚本采用数据处理动态脚本对分发的任务解析数据得到图数据库***语句,再依据图数据库信息执行***语句将数据写入图数据库;
导入任务监控模块,用于收集导入执行情况数据,实时对导入情况数据进行汇总,生成导入任务执行情况报表。
根据本发明实施例的第二方面,提供了一种图数据库数据导入方法,所述方法包括:
步骤S1,通过导入任务发起模块,配置图数据库信息,配置数据格式转换脚本,按行读取数据文件,调用API提交导入任务;
步骤S2,导入任务执行模块通过API接收到导入任务,通过消息服务器将任务分发到图数据导入集群,图数据导入集群中的服务器分别依据图数据格式转换脚本采用数据处理动态脚本对分发的任务解析数据得到图数据库***语句,再依据图数据库信息执行***语句将数据写入图数据库。
步骤S3,导入任务监控模块收集导入执行情况数据,实时对导入情况数据进行汇总,生成导入任务执行情况报表。
进一步地,所述步骤S1包括:
步骤S101:导入任务发起模块配置图数据库信息,包括导入任务ID,图数据库IP地址、用户名、图空间名称,保存到云端的配置服务器;
步骤S102:配置图数据格式转换脚本,包括导入任务ID,数据格式转换脚本内容,保存到云端的配置服务器;
步骤S103:按行读取数据文件;
步骤S104:调用API提交导入任务,API入参为导入任务ID,数据类型、数据标签、数据内容。
进一步地,所述步骤S101和步骤S102中,配置服务器将图数据库信息和图数据格式转换脚本下发至图数据导入集群服务器内存中。
进一步地,所述步骤S104中,调用API采用通过消息队列异步调用的方式。
进一步地,所述步骤S2包括:
步骤S201:通过数据导入API接收导入任务发起模块传过来的图数据导入任务。
步骤S202:将导入任务发送给消息服务器。
步骤S203:消息服务器将任务分发给数据导入集群中负载较低的服务器进行处理。
步骤204:数据导入程序解析导入任务消息,获取导入任务ID、数据类型、数据标签、数据内容。
步骤205:根据数据导入任务ID从配置服务器读取数据动态处理脚本。
步骤206:使用数据动态处理脚本,对数据内容进行格式转换,得到图数据库***语句。
步骤207:从配置服务器读取配置的图数据库信息,根据该配置的图数据库信息,执行***语句,将数据写入图数据库。
进一步地,所述步骤S3包括:
步骤S301:数据导入集群每完成一批数据导入任务后,将导入执行情况信息发送到导入任务监控模块。
步骤S302:导入任务监控模块实时对导入情况数据进行汇总。
步骤S303:导入任务监控模块生成导入任务执行情况报表。
根据本发明实施例的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的图数据库数据导入方法。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的图数据库数据导入方法。
与现有技术相比,本发明的有益效果包括:
1、导入任务执行模块通过API的方式提供服务,使得导入任务发起模块操作简单,不用关注导入执行的细节;
2、导入任务执行模块通过消息服务器将导入任务分发到数据导入集群,实现分布式导入,导入效率高;
3、通过配置动态数据解析脚本,无需修改代码实现对新数据源的支持;
4、通过导入任务监控模块收集和汇总导入任务执行信息,可以实现查询任务执行情况的实时查询。
5、本发明先通过导入任务发起模块读取数据,再通过导入任务执行模块进行数据格式转换和导入,在添加新的数据源时无需修改导入任务执行模块的代码,数据转换通过动态脚本执行更加灵活,通用性强,导入任务执行模块作为***的核心部分,可以部署成稳定的分布式服务***,具有很好的工业应用前景。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的利用本发明图数据库数据导入***进行图数据库数据导入方法的流程示意图;
图2为本发明实施例提供的图数据库数据导入发起模块的流程示意图;
图3为本发明实施例提供的图数据库数据导入执行模块的流程示意图;
图4本发明实施例提供动态数据解析脚本配置和执行的流程示意图;
图5为本发明实施例提供的图数据库数据导入监控模块的流程示意图;
图6为本发明实施例提供的图数据库导入监控模块查看导入进度的流程示意图;
图7为本发明实施例提供的图数据库导入监控模块查询导入执行详细信息的流程示意图;
图8为本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应该理解,可以以各种形式实现本公开而不应该被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明提供了一种图数据库数据导入***,包括:
导入任务发起模块,导入任务执行模块,图数据导入集群和导入任务监控模块。
本发明***支持大规模图数据的高效导入,且实现方法简单,支持不同格式的数据文件,可以随时查看导入进度。
需要说明的是,本发明所提到的图数据导入执行模块负责利用图数据导入集群高效完成客户端提交过来的图数据导入任务。
需要说明的是,本发明所提到的图数据导入发起模块,主要完成导入数据读取的工作,将读取到的数据通过API发送给图数据导入执行模块进行处理。
需要说明的是,本发明所提到的导入任务监控模块,主要负责收集及汇总导入过程中的任务执行信息,生成可供查看的导入情况报表。
图1所示为本发明实施例提供的利用本发明图数据库数据导入***进行图数据库数据导入方法的流程示意图,如图1所示,包括以下步骤:
步骤S1,通过导入任务发起模块,配置图数据库信息,配置图数据格式转换脚本,按行读取数据文件,调用API提交导入任务;
步骤S2,导入任务执行模块通过API接收到数据导入任务,通过消息服务器将任务分发到图数据导入集群,图数据导入集群中的服务器分别依据图数据格式转换脚本采用数据处理动态脚本对分发的任务解析数据得到图数据库***语句,再依据图数据库信息执行***语句将数据写入图数据库。
步骤S3,导入任务监控模块收集导入执行情况数据,实时对导入情况数据进行汇总,生成导入任务执行情况报表。
如图2所示,所述步骤S1具体包括以下子步骤:
步骤S101:导入任务发起模块配置图数据库信息,包括导入任务ID,图数据库IP地址、用户名、图空间名称,并将这些信息保存到配置服务器;
在一些实施案例中,配置服务器将配置的图数据库信息下发到图数据导入集群的服务器内存,避免图数据导入集群每次执行导入时都要访问配置服务器获取数据库配置信息,降低数据导入的性能。
步骤S102:配置图数据格式转换脚本,包括导入任务ID,数据格式转换脚本内容,保存到配置服务器中;
在一些实施案例中,配置服务器将数据转换脚本下发到图数据导入集群的服务器内存,避免图数据导入集群每次进行数据格式转换时都要访问配置服务器获取数据转换脚本内容,降低数据导入的性能。
步骤S103:按行读取数据文件;
在一些实施案例中,为提升性能,采用批量或者多线程的方式加快数据文件的读取速度,更进一步地,可以通过将文件放到多个服务器,实现分布式的文件读取。
在一些实施案例中,数据源为关系型数据库(如mysql)、大数据存储***(如Hive)、消息***(如Kafka)等非本地文件,可以通过数据源对应的数据读取API,对数据进行查询遍历,逐行获取数据。
步骤S104:调用API提交导入任务,API入参为导入任务ID,数据类型、数据标签、数据内容。
在一些实施案例中,数据导入服务端同时提供批量导入的API,支持一次性传入多行数据进行导入。
在一些实施案例中,为避免数据导入API的性能瓶颈,将API设计成支持异步调用的方式,通过消息队列,支持更高的调用频率。
如3所示,所述步骤S2具体包括以下子步骤:
步骤S201:通过数据导入API接收导入任务发起模块传过来的图数据导入任务。
在一些实施案例中,为了防止API被滥用,写入虚假数据,需要设置API签名机制。
在一些实施案例中,API被设计成restfull风格的http接口,可以支持不同语言客户端的调用。
在一些实施案例中,API被设计成导入任务发起模块可以直接调用的本地SDK,以减少网络调用带来的开销。
步骤S202:将图数据导入任务发送给消息服务器。
步骤S203:消息服务器将任务分发给图数据导入集群中的服务器进行处理。
在一些实施案例中,消息服务器的消息分发模式设计成简单高效的hash模式,适用于导入集群服务器的配置都基本相同的情况。
在一些实施案例中,消息服务器的消息分发模式设计成根据服务器压力动态调节的模式,适用于导入集群服务器的配置不同或者负载压力不同的情况,优先分发给负载较低的服务器。
步骤204:接收到任务的服务器通过数据导入程序解析导入任务消息,获取导入任务ID、数据类型、数据标签、数据内容。
在一些实施案例中,导入任务ID通过雪花算法或者UidGenerator程序生成,确保全局唯一。
在一些实施案例中,数据类型参数表示该数据是点数据还是边数据,数据标签表明节点的类型(如学生、老师)或者边的类型(如授课、选课)。
步骤205:服务器根据数据导入任务ID从配置服务器读取数据格式转换脚本。
在一些实施案例中,数据格式转换脚本通过配置服务器下发到导入集群的服务器内存。
步骤206:服务器依据数据格式转换脚本使用数据动态处理脚本,对数据内容进行格式转换,得到图数据库***语句。
在一些实施案例中,动态处理脚本的执行过程如图4所示,动态脚本是一个groovy函数,函数入参为数据类型(点还是边)、数据标签(点类型或者边类型)、数据内容,函数的返回为图数据库的***语句。groovy函数内部针对不同的数据类型及数据标签,对数据内容进行相应的格式转换,并拼接得到图数据库的***语句。
步骤207:服务器从配置服务器读取图数据库配置,根据该配置,执行***语句,将数据写入图数据库。
在一些实施案例中,受限于图数据库写入接口的速度限制,写入数据库时添加流控机制,对于超过写入速度限制的请求返回失败并反馈给消息***,消息***后续会重新分发该导入任务给导入集群。
如图5所示,所述步骤S3具体包括以下子步骤:
步骤S301:收集导入信息:图数据导入集群每完成一批数据导入任务后,将导入执行情况信息发送到导入任务监控模块。
步骤S302:实时对导入情况数据进行汇总。
步骤S303:生成导入任务执行情况报表。
在一些实施案例中,如图6所示,通过分布式缓存(如redis)对导入成功及失败的数据进行计数,可以以极小的性能代价实现进度汇总功能。缓存的key可以按如下规则设计:任务a导入成功的条数:success_a,任务a导入失败的条数:fail_a。缓存的value即为导入成功或失败的记录数,每当导入成功或者失败一条数据时,对应的缓存value记数加一。
在一些实施案例中,如图7所示,用户不仅希望获取任务导入成功或失败的条数,还希望获取每条数据导入情况的详细信息,如导入时间、数据内容、失败原因等,可以通过大数据处理平台,对数据导入集群服务器产生的本地日志进行收集和处理,导入到日志搜索引擎,供用户按数据内容搜索查询导入详情情况。
如图8所示,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。
还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器101(Random Access Memory,RAM),只读存储器101(Read Only Memory,ROM),可编程只读存储器101(ProgrammableRead-Only Memory,PROM),可擦除只读存储器101(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器102,包括中央处理器102(Central Processing Unit,CPU)、网络处理器102(Network Processor,NP)等;还可以是数字信号处理器102(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的方法及***,也可以通过其它的方式实现。以上所描述的方法及***实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
另一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器101(ROM,Read-Only Memory)、随机存取存储器101(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (9)
1.一种图数据库数据导入***,其特征在于,包括:
导入任务发起模块,用于配置图数据库信息,配置图数据格式转换脚本,按行读取数据文件,调用API提交导入任务;
导入任务执行模块,用于通过API接收到导入任务,通过消息服务器将任务分发到数据导入集群;具体如下:
通过数据导入API接收导入任务发起模块传过来的导入任务;
将导入任务发送给消息服务器;
消息服务器将导入任务分发给数据导入集群中服务器进行处理;
接收到任务的服务器通过数据导入程序解析导入任务消息,获取导入任务ID、数据类型、数据标签和数据内容;
服务器根据导入任务ID读取数据格式转换脚本;
服务器依据数据格式转换脚本使用数据动态处理脚本,对数据内容进行格式转换,得到图数据库***语句;
服务器读取配置的图数据库信息并根据图数据库信息,执行***语句,将数据写入图数据库;
图数据导入集群,包含多个服务器,分别用于依据图数据格式转换脚本采用数据处理动态脚本对分发的任务解析数据得到图数据库***语句,再依据图数据库信息执行***语句将数据写入图数据库;
导入任务监控模块,用于收集导入执行情况数据,实时对导入情况数据进行汇总,生成导入任务执行情况报表。
2.一种图数据库数据导入方法,其特征在于,所述方法包括:
步骤S1,通过导入任务发起模块,配置图数据库信息,配置图数据格式转换脚本,按行读取数据文件,调用API提交导入任务;
步骤S2,导入任务执行模块通过API接收到导入任务,通过消息服务器将任务分发到图数据导入集群,图数据导入集群中的服务器分别依据图数据格式转换脚本采用数据处理动态脚本对分发的任务解析数据得到图数据库***语句,再依据图数据库信息执行***语句将数据写入图数据库;所述步骤S2具体包括以下子步骤:
步骤S201:通过数据导入API接收导入任务发起模块传过来的导入任务;
步骤S202:将导入任务发送给消息服务器;
步骤S203:消息服务器将导入任务分发给数据导入集群中服务器进行处理;
步骤204:接收到任务的服务器通过数据导入程序解析导入任务消息,获取导入任务ID、数据类型、数据标签和数据内容;
步骤205:服务器根据导入任务ID读取数据格式转换脚本;
步骤206:服务器依据数据格式转换脚本使用数据动态处理脚本,对数据内容进行格式转换,得到图数据库***语句;
步骤207:服务器读取配置的图数据库信息并根据图数据库信息,执行***语句,将数据写入图数据库;
步骤S3,导入任务监控模块收集导入执行情况数据,实时对导入情况数据进行汇总,生成导入任务执行情况报表。
3.根据权利要求2所述的图数据库数据导入方法,其特征在于,所述步骤S1具体包括以下子步骤:
步骤S101:导入任务发起模块配置图数据库信息,包括导入任务ID,图数据库IP地址、用户名、图空间名称,保存到云端的配置服务器;
步骤S102:配置图数据格式转换脚本,包括导入任务ID,数据格式转换脚本内容,保存到云端的配置服务器;
步骤S103:按行读取数据文件;
步骤S104:调用API提交导入任务,API入参为导入任务ID,数据类型、数据标签、数据内容。
4.根据权利要求3所述的图数据库数据导入方法,其特征在于,所述步骤S101和步骤S102中,配置服务器将图数据库信息和图数据格式转换脚本下发至图数据导入集群服务器内存中。
5.根据权利要求3所述的图数据库数据导入方法,其特征在于,所述步骤S104中,调用API采用通过消息队列异步调用的方式。
6.根据权利要求2所述的图数据库数据导入方法,其特征在于,所述消息服务器的消息分发模式为根据服务器压力动态调节的模式。
7.根据权利要求2所述的图数据库数据导入方法,其特征在于,所述步骤S3具体包括以下子步骤:
步骤S301:图数据导入集群每完成一批数据导入任务后,将导入执行情况信息发送到导入任务监控模块;
步骤S302:导入任务监控模块实时对导入情况数据进行汇总;
步骤S303:导入任务监控模块生成导入任务执行情况报表。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求2-7任一项所述的图数据库数据导入方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求2-7中任一所述的图数据库数据导入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311250823.5A CN116992065B (zh) | 2023-09-26 | 2023-09-26 | 一种图数据库数据导入方法、***、电子设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311250823.5A CN116992065B (zh) | 2023-09-26 | 2023-09-26 | 一种图数据库数据导入方法、***、电子设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992065A CN116992065A (zh) | 2023-11-03 |
CN116992065B true CN116992065B (zh) | 2024-01-12 |
Family
ID=88530534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311250823.5A Active CN116992065B (zh) | 2023-09-26 | 2023-09-26 | 一种图数据库数据导入方法、***、电子设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992065B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977157A (zh) * | 2019-02-27 | 2019-07-05 | 深圳点猫科技有限公司 | 一种基于数据平台将数据导入目标目录的方法和电子设备 |
CN112231399A (zh) * | 2020-09-25 | 2021-01-15 | 中国建设银行股份有限公司 | 一种应用于图数据库的方法和装置 |
CN112784114A (zh) * | 2019-11-09 | 2021-05-11 | 北京航天长峰科技工业集团有限公司 | 一种基于Neo4j高性能图数据库的关系图谱更新方法 |
CN114647689A (zh) * | 2022-03-10 | 2022-06-21 | 杭州欧若数网科技有限公司 | 一种图数据库数据导入的方法、***、装置和介质 |
CN114741207A (zh) * | 2022-06-10 | 2022-07-12 | 之江实验室 | 一种基于多维度组合并行的gpu资源调度方法和*** |
CN114756623A (zh) * | 2022-04-02 | 2022-07-15 | 中国工商银行股份有限公司 | 一种非同源数据库同步方法及装置 |
CN115248826A (zh) * | 2022-09-21 | 2022-10-28 | 杭州悦数科技有限公司 | 一种大规模分布式图数据库集群运维管理的方法和*** |
CN115658978A (zh) * | 2022-11-14 | 2023-01-31 | 杭州欧若数网科技有限公司 | 图数据库***多源数据导入方法和装置 |
WO2023050705A1 (zh) * | 2021-09-30 | 2023-04-06 | 苏州浪潮智能科技有限公司 | 一种监控数据管理方法、装置及电子设备和存储介质 |
CN116089414A (zh) * | 2023-04-10 | 2023-05-09 | 之江实验室 | 基于海量数据场景的时序数据库写入性能优化方法及装置 |
CN116594958A (zh) * | 2023-05-25 | 2023-08-15 | 之江实验室 | 一种图数据集加载方法、***、电子设备、介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7060981B2 (ja) * | 2018-02-21 | 2022-04-27 | キヤノン株式会社 | 画像形成装置及びその制御方法、並びにプログラム |
-
2023
- 2023-09-26 CN CN202311250823.5A patent/CN116992065B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977157A (zh) * | 2019-02-27 | 2019-07-05 | 深圳点猫科技有限公司 | 一种基于数据平台将数据导入目标目录的方法和电子设备 |
CN112784114A (zh) * | 2019-11-09 | 2021-05-11 | 北京航天长峰科技工业集团有限公司 | 一种基于Neo4j高性能图数据库的关系图谱更新方法 |
CN112231399A (zh) * | 2020-09-25 | 2021-01-15 | 中国建设银行股份有限公司 | 一种应用于图数据库的方法和装置 |
WO2023050705A1 (zh) * | 2021-09-30 | 2023-04-06 | 苏州浪潮智能科技有限公司 | 一种监控数据管理方法、装置及电子设备和存储介质 |
CN114647689A (zh) * | 2022-03-10 | 2022-06-21 | 杭州欧若数网科技有限公司 | 一种图数据库数据导入的方法、***、装置和介质 |
CN114756623A (zh) * | 2022-04-02 | 2022-07-15 | 中国工商银行股份有限公司 | 一种非同源数据库同步方法及装置 |
CN114741207A (zh) * | 2022-06-10 | 2022-07-12 | 之江实验室 | 一种基于多维度组合并行的gpu资源调度方法和*** |
CN115248826A (zh) * | 2022-09-21 | 2022-10-28 | 杭州悦数科技有限公司 | 一种大规模分布式图数据库集群运维管理的方法和*** |
CN115658978A (zh) * | 2022-11-14 | 2023-01-31 | 杭州欧若数网科技有限公司 | 图数据库***多源数据导入方法和装置 |
CN116089414A (zh) * | 2023-04-10 | 2023-05-09 | 之江实验室 | 基于海量数据场景的时序数据库写入性能优化方法及装置 |
CN116594958A (zh) * | 2023-05-25 | 2023-08-15 | 之江实验室 | 一种图数据集加载方法、***、电子设备、介质 |
Non-Patent Citations (1)
Title |
---|
机群并行数据库的动态监控关键技术;王洁;王洋;曾宇;;计算机工程(第21期);40-42 * |
Also Published As
Publication number | Publication date |
---|---|
CN116992065A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344172B (zh) | 一种高并发数据处理方法、装置及客户端服务器 | |
CN110990420B (zh) | 数据查询方法、装置 | |
US20230144100A1 (en) | Method and apparatus for managing and controlling resource, device and storage medium | |
CN108363741B (zh) | 大数据统一接口方法、装置、设备及存储介质 | |
CN111930489B (zh) | 一种任务调度方法、装置、设备及存储介质 | |
US11169847B1 (en) | Method and device for processing distributed data solving problem of manual intervention by data analysts | |
CN108460068B (zh) | 报表导入导出的方法、装置、存储介质及终端 | |
CN113839977A (zh) | 消息推送方法、装置、计算机设备及存储介质 | |
CN112860730A (zh) | Sql语句的处理方法、装置、电子设备及可读存储介质 | |
US12001450B2 (en) | Distributed table storage processing method, device and system | |
CN112988741A (zh) | 实时业务数据合并方法、装置及电子设备 | |
CN113760677A (zh) | 异常链路分析方法、装置、设备及存储介质 | |
CN113010607A (zh) | ***间数据同步方法、装置、计算机***、存储介质 | |
CN111290942A (zh) | 压力测试方法、装置以及计算机可读介质 | |
CN116992065B (zh) | 一种图数据库数据导入方法、***、电子设备、介质 | |
CN113326305A (zh) | 一种处理数据的方法和装置 | |
CN112187509A (zh) | 多架构云平台执行日志管理方法、***、终端及存储介质 | |
CN111130882A (zh) | 网络设备的监控***及方法 | |
CN115934537A (zh) | 接口测试工具生成方法、装置、设备、介质及产品 | |
CN115344614A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN112433862A (zh) | 一种数据聚合实现***及设备 | |
CN111310002B (zh) | 一种基于分发器和配置表组合的泛型爬虫*** | |
CN116340363B (zh) | 一种基于关系型数据库的数据存储、加载方法及相关装置 | |
CN117632140B (zh) | 一种业务流程处理方法、装置及存储介质 | |
CN116342185A (zh) | 人群包的处理方法、***、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |