CN112711659B - 基于海量图数据的模型计算方法及装置 - Google Patents
基于海量图数据的模型计算方法及装置 Download PDFInfo
- Publication number
- CN112711659B CN112711659B CN202011625560.8A CN202011625560A CN112711659B CN 112711659 B CN112711659 B CN 112711659B CN 202011625560 A CN202011625560 A CN 202011625560A CN 112711659 B CN112711659 B CN 112711659B
- Authority
- CN
- China
- Prior art keywords
- data
- file
- graph
- database
- hdfs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012821 model calculation Methods 0.000 title claims description 14
- 238000013507 mapping Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims description 11
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract description 11
- 230000002776 aggregation Effects 0.000 abstract description 8
- 238000004220 aggregation Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 7
- 238000012986 modification Methods 0.000 abstract description 6
- 230000004048 modification Effects 0.000 abstract description 6
- 238000002360 preparation method Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的基于海量图数据的模型计算方法及装置,将待处理图数据从图数据库JanusGraph导入到hive数据库中得到数据节点列表和数据关系列表并确定每个数据节点及对应的数据关系的连通图id,基于连通图id,聚合同一连通图的数据并推送到hdfs存储中,同时在聚合过程中保留好运行参数与聚合文件的映射并导入hive数据库中,对预设线程参数进行调整得到目标线程参数以进行数据处理得到数据处理结果。提前采用连通图进行了数据拆分,为任务能够并行做好了准备,提前进行了数据筛选和数据转换,减少了计算时的数据量,以及数据转换使得数据安装加载到内存,将单机的模型python代码简单的修改转换为spark代码,能够并行计算且根据计算资源以及任务的需求动态调整并行度。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种基于海量图数据的模型计算方法及装置。
背景技术
在一般的知识图谱项目中,图模型是图分析挖掘的重要组成部分,图模型能够利用图数据做机器学习、数据挖掘等深层次分析,能够更好地发现图数据隐含的知识。但是在实际应用中,由于图数据之间关联较多,在做图模型计算时很难将其拆分开,在图数据量较小时可以将数据全部加载到内存中,然后再进行计算,因此影响不是很大。而在海量数据的情况下,不可能将数据全部加载到内存,同时单机运行所耗费的时间也不能接受,因此需要一种在海量图数据的情况下,能够耗费较小的资源,同时能够将计算并行起来的方法。
发明内容
为了改善上述问题,本发明提供了一种基于海量图数据的模型计算方法及装置。
本发明实施例提供了一种基于海量图数据的模型计算方法,应用于计算机设备,所述方法包括以下步骤:
将待处理图数据从图数据库JanusGraph导入到hive数据库中,得到数据节点列表和数据关系列表;
根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id;
基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中;
针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中;
对预设线程参数进行调整,得到目标线程参数;
根据所述目标线程参数启动数据处理任务,对所述hive数据库中的映射文件进行数据处理,得到数据处理结果。
可选地,根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id,包括:
通过获取到的spark代码,读取所述数据节点列表和所述数据关系列表;
基于spark的Graphx框架,计算每个数据节点及其对应的数据关系的连通图id。
可选地,基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中,包括:
对所述连通图id进行分组;
将每个组的数据节点以及数据关系依次写入初始文件,得到目标文件;
将所述目标文件推送到hdfs数据库中。
可选地,针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中,包括:
定义数据过滤文件;
根据所述数据过滤文件读取所述hdfs文件目录;
将所述hdfs文件目录下的每一个待处理文件转换为sqlite文件以及para与sqlite的映射文件;
将所述sqlite文件以及所述映射文件推送到所述hive数据库的指定目录下。
可选地,对预设线程参数进行调整,得到目标线程参数,包括:
将预设的单机代码修改为分布式代码。
可选地,根据所述目标线程参数启动数据处理任务,包括:
基于所述分布式代码启动计算任务,使用spark的submit命令将任务进行提交。
可选地,所述方法还包括:
对所述数据处理结果进行验证。
本发明实施例提供了一种基于海量图数据的模型计算装置,应用于计算机设备,所述装置包括以下功能模块:
数据导入模块,用于将待处理图数据从图数据库JanusGraph导入到hive数据库中,得到数据节点列表和数据关系列表;
连通图确定模块,用于根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id;
文件推送模块,用于基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中;
数据筛选模块,用于针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中;
参数调整模块,用于对预设线程参数进行调整,得到目标线程参数;
数据处理模块,用于根据所述目标线程参数启动数据处理任务,对所述hive数据库中的映射文件进行数据处理,得到数据处理结果。
可选地,连通图确定模块,用于:
通过获取到的spark代码,读取所述数据节点列表和所述数据关系列表;
基于spark的Graphx框架,计算每个数据节点及其对应的数据关系的连通图id。
可选地,文件推送模块,用于:
对所述连通图id进行分组;
将每个组的数据节点以及数据关系依次写入初始文件,得到目标文件;
将所述目标文件推送到hdfs数据库中。
本发明所提供的基于海量图数据的模型计算方法及装置,将待处理图数据从图数据库JanusGraph导入到hive数据库中得到数据节点列表和数据关系列表并确定每个数据节点及其对应的数据关系的连通图id,基于连通图id,聚合同一连通图的数据并推送到hdfs存储中,同时在聚合过程中保留好运行参数与聚合文件的映射并导入hive数据库中,对预设线程参数进行调整得到目标线程参数以根据目标线程参数启动数据处理任务对hive数据库中的映射文件进行数据处理得到数据处理结果。如此设计,提前采用连通图进行了数据拆分,为任务能够并行做好了准备,提前进行了数据筛选和数据转换,减少了计算时的数据量,以及数据转换使得数据安装加载到内存,将单机的模型python代码简单的修改转换为spark代码,不仅能够并行计算,同时能够根据计算资源以及任务的需求动态调整并行度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种基于海量图数据的模型计算方法的流程图。
图2为本发明实施例所提供的一种基于海量图数据的模型计算装置的模块框图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
发明人发现,常见的基于单机的内存图模型计算方案如下:a.将小量的数据加载到内存中,b.编写相应的分析代码,处理内存中的数据,c.启动单个或者多个线程运行分析代码,d.输出结果。
但是,现有技术存在以下缺点:现有的技术只能处理小量的数据,将数据全部加载到内存中,资源的耗用比较高,虽然能多线程并行运行,但是只能在单机上运行。当数据量较大时,无法利用大数据相关的计算引擎线性扩展计算资源。
为改善上述问题。发明人创新性地提出了基于海量图数据的模型计算方法及装置。首先请参阅图1,示出了基于海量图数据的模型计算方法,所述方法可以应用于计算机设备,进一步通过以下步骤S11-步骤S16所描述的内容实现。
步骤S11,将待处理图数据从图数据库JanusGraph导入到hive数据库中,得到数据节点列表和数据关系列表。
数据导出这一步是指将数据从图数据库JanusGraph(一种分布式图数据库,常用于小批量的OLTP查询)中导出到Hive(一种大数据分布式数据仓库)中,导出的目的是为了后续的全量分析(OLAP)与前面的数据是一致的。导出的结果有两个Hive表:数据节点列表(nodes表)以及数据关系列表(relations表)。
nodes表
relations表
步骤S12,根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id。
步骤S13,基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中。
步骤S14,针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中。
步骤S15,对预设线程参数进行调整,得到目标线程参数。
步骤S16,根据所述目标线程参数启动数据处理任务,对所述hive数据库中的映射文件进行数据处理,得到数据处理结果。
如此设计,将待处理图数据从图数据库JanusGraph导入到hive数据库中得到数据节点列表和数据关系列表并确定每个数据节点及其对应的数据关系的连通图id,基于连通图id,聚合同一连通图的数据并推送到hdfs存储中,同时在聚合过程中保留好运行参数与聚合文件的映射并导入hive数据库中,对预设线程参数进行调整得到目标线程参数以根据目标线程参数启动数据处理任务对hive数据库中的映射文件进行数据处理得到数据处理结果。如此设计,提前采用连通图进行了数据拆分,为任务能够并行做好了准备,提前进行了数据筛选和数据转换,减少了计算时的数据量,以及数据转换使得数据安装加载到内存,将单机的模型python代码简单的修改转换为spark代码,不仅能够并行计算,同时能够根据计算资源以及任务的需求动态调整并行度。
进一步地,步骤S12所描述的根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id,包括:通过获取到的spark代码,读取所述数据节点列表和所述数据关系列表;基于spark的Graphx框架,计算每个数据节点及其对应的数据关系的连通图id。可以理解,在传统的方法中,数据无法并行的原因就是图数据相互的管理而导致没有把数据拆分开来,本步骤的拆分是利用图数据连通图的属性,计算每一个节点的连通图id。
进一步地,步骤S13所描述的基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中,包括:对所述连通图id进行分组;将每个组的数据节点以及数据关系依次写入初始文件,得到目标文件;将所述目标文件推送到hdfs数据库中。
可以理解,数据汇聚的目的是将同一个连通图的节点和关系写到同一个文件为后续计算做准备,同时为了防止有的连通图过小而导致产生大量的小文件,需要设置一个文件最小的记录数目。
例如,编写Spark代码,读取步骤的结果,根据连通图id进行分组,先将每个组的节点写入到文件并以node|开始,一行一个记录,再写关系,并以relations|开始,同时为了防止内存溢出,每写1w行,便flush缓存到磁盘。如果该文件写入的记录数没有到达阈值,便不切换新的文件写入,还在原来的文件写入。最终形成的文件如下:
当文件写完成后,将文件推送到hdfs(一种分布式文件存储***)上去。
对于一些可能的示例而言,步骤S14所描述的针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中,包括:定义数据过滤文件;根据所述数据过滤文件读取所述hdfs文件目录;将所述hdfs文件目录下的每一个待处理文件转换为sqlite文件以及para与sqlite的映射文件;将所述sqlite文件以及所述映射文件推送到所述hive数据库的指定目录下。本步骤的目的是筛选数据并且将步骤S13的文件转换为计算需要的数据。由于一般模型只用到了部分节点和关系的数据,提前将不用的数据筛选出去,有助于减少计算的数据量。
例如,数据过滤文件如下。
编写代码读取配置文件,使用spark读取步骤S13结果的hdfs文件目录,将改目录下每一个文件转为为一个sqlite文件,每个sqlite文件有两个表nodes,relations两个表的数据和索引符合上面文件的定义。Sqlite的文件名在原来的文件名后面加一个后缀’.db’,在转换的过程中,同时也需要把para所在的文件写入到文件中。在转换过程中,每转换10000条数据,提交一下记录。每转换完成一个文件,将有两个文件生成。一个是转换完成的sqlite文件,一个是para与sqlite的映射文件,将这两个文件推送到hdfs指定的目录。将para与sqlite的映射文件导入到hive中,该hive表有两列:para,db。
进一步地,步骤S15所描述的对预设线程参数进行调整,得到目标线程参数,包括:将预设的单机代码修改为分布式代码。这一步骤的目的是将分析师编写单机代码转换为分布式的代码。
在一些实施例中,步骤S16所描述的根据所述目标线程参数启动数据处理任务,包括:基于所述分布式代码启动计算任务,使用spark的submit命令将任务进行提交。
在上述内容的基础上,还可以包括以下步骤:对所述数据处理结果进行验证。例如,计算完成后,选择部分的数据与单机的进行比较验证。
基于上述同样的发明构思,请结合参阅图2,示出了一种基于海量图数据的模型计算装置200,应用于计算机设备,所述装置包括以下模块:
数据导入模块210,用于将待处理图数据从图数据库JanusGraph导入到hive数据库中,得到数据节点列表和数据关系列表;
连通图确定模块220,用于根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id;
文件推送模块230,用于基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中;
数据筛选模块240,用于针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中;
参数调整模块250,用于对预设线程参数进行调整,得到目标线程参数;
数据处理模块260,用于根据所述目标线程参数启动数据处理任务,对所述hive数据库中的映射文件进行数据处理,得到数据处理结果。
可选地,连通图确定模块220,用于:通过获取到的spark代码,读取所述数据节点列表和所述数据关系列表;基于spark的Graphx框架,计算每个数据节点及其对应的数据关系的连通图id。
可选地,文件推送模块230,用于:对所述连通图id进行分组;将每个组的数据节点以及数据关系依次写入初始文件,得到目标文件;将所述目标文件推送到hdfs数据库中。
综上,本发明的基于海量图数据的模型计算方法及装置,将待处理图数据从图数据库JanusGraph导入到hive数据库中得到数据节点列表和数据关系列表并确定每个数据节点及对应的数据关系的连通图id,基于连通图id,聚合同一连通图的数据并推送到hdfs存储中,同时在聚合过程中保留好运行参数与聚合文件的映射并导入hive数据库中,对预设线程参数进行调整得到目标线程参数以进行数据处理得到数据处理结果。如此,提前采用连通图进行了数据拆分,为任务能够并行做好了准备,提前进行了数据筛选和数据转换,减少了计算时的数据量,以及数据转换使得数据安装加载到内存,将单机的模型python代码简单的修改转换为spark代码,不仅能够并行计算,同时能够根据计算资源以及任务的需求动态调整并行度。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (7)
1.一种基于海量图数据的模型计算方法,其特征在于,应用于计算机设备,所述方法包括以下步骤:
将待处理图数据从图数据库JanusGraph导入到hive数据库中,得到数据节点列表和数据关系列表;
根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id;
基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中;
针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中;
对预设线程参数进行调整,得到目标线程参数;
根据所述目标线程参数启动数据处理任务,对所述hive数据库中的映射文件进行数据处理,得到数据处理结果;
根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id,包括:
通过获取到的spark代码,读取所述数据节点列表和所述数据关系列表;
基于spark的Graphx框架,计算每个数据节点及其对应的数据关系的连通图id;
基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中,包括:
对所述连通图id进行分组;
将每个组的数据节点以及数据关系依次写入初始文件,得到目标文件;
将所述目标文件推送到hdfs数据库中;
针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中,包括:
定义数据过滤文件;
根据所述数据过滤文件读取所述hdfs文件目录;
将所述hdfs文件目录下的每一个待处理文件转换为sqlite文件以及para与sqlite的映射文件;
将所述sqlite文件以及所述映射文件推送到所述hive数据库的指定目录下。
2.根据权利要求1所述的基于海量图数据的模型计算方法,其特征在于,对预设线程参数进行调整,得到目标线程参数,包括:
将预设的单机代码修改为分布式代码。
3.根据权利要求2所述的基于海量图数据的模型计算方法,其特征在于,根据所述目标线程参数启动数据处理任务,包括:
基于所述分布式代码启动计算任务,使用spark 的submit命令将任务进行提交。
4.根据权利要求1所述的基于海量图数据的模型计算方法,其特征在于,所述方法还包括:
对所述数据处理结果进行验证。
5.一种基于海量图数据的模型计算装置,其特征在于,应用于计算机设备,所述装置包括以下功能模块:
数据导入模块,用于将待处理图数据从图数据库JanusGraph导入到hive数据库中,得到数据节点列表和数据关系列表;
连通图确定模块,用于根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id;
文件推送模块,用于基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中;
数据筛选模块,用于针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中;
参数调整模块,用于对预设线程参数进行调整,得到目标线程参数;
数据处理模块,用于根据所述目标线程参数启动数据处理任务,对所述hive数据库中的映射文件进行数据处理,得到数据处理结果;
根据所述数据节点列表和所述数据关系列表确定每个数据节点及其对应的数据关系的连通图id,包括:
通过获取到的spark代码,读取所述数据节点列表和所述数据关系列表;
基于spark的Graphx框架,计算每个数据节点及其对应的数据关系的连通图id;
基于所述连通图id得到目标文件,并将所述目标文件推送到hdfs数据库中,包括:
对所述连通图id进行分组;
将每个组的数据节点以及数据关系依次写入初始文件,得到目标文件;
将所述目标文件推送到hdfs数据库中;
针对所述目标文件在所述hdfs数据库中对应的hdfs文件目录进行数据筛选,得到映射文件,将所述映射文件导入到所述hive数据库中,包括:
定义数据过滤文件;
根据所述数据过滤文件读取所述hdfs文件目录;
将所述hdfs文件目录下的每一个待处理文件转换为sqlite文件以及para与sqlite的映射文件;
将所述sqlite文件以及所述映射文件推送到所述hive数据库的指定目录下。
6.根据权利要求5所述的基于海量图数据的模型计算装置,其特征在于,连通图确定模块,用于:
通过获取到的spark代码,读取所述数据节点列表和所述数据关系列表;
基于spark的Graphx框架,计算每个数据节点及其对应的数据关系的连通图id。
7.根据权利要求5所述的基于海量图数据的模型计算装置,其特征在于,文件推送模块,用于:
对所述连通图id进行分组;
将每个组的数据节点以及数据关系依次写入初始文件,得到目标文件;
将所述目标文件推送到hdfs数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011625560.8A CN112711659B (zh) | 2020-12-31 | 2020-12-31 | 基于海量图数据的模型计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011625560.8A CN112711659B (zh) | 2020-12-31 | 2020-12-31 | 基于海量图数据的模型计算方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112711659A CN112711659A (zh) | 2021-04-27 |
CN112711659B true CN112711659B (zh) | 2024-03-15 |
Family
ID=75547652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011625560.8A Active CN112711659B (zh) | 2020-12-31 | 2020-12-31 | 基于海量图数据的模型计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711659B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809168A (zh) * | 2015-04-06 | 2015-07-29 | 华中科技大学 | 超大规模rdf图数据的划分与并行分布处理方法 |
CN105335230A (zh) * | 2014-07-30 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 一种服务处理方法及装置 |
CN105849764A (zh) * | 2013-10-25 | 2016-08-10 | 西斯摩斯公司 | 用于识别社交数据网络中的影响者及其社区的***和方法 |
CN110134516A (zh) * | 2019-05-16 | 2019-08-16 | 深圳前海微众银行股份有限公司 | 金融数据处理方法、装置、设备及计算机可读存储介质 |
CN111428095A (zh) * | 2020-06-11 | 2020-07-17 | 上海冰鉴信息科技有限公司 | 图数据质量验证方法及图数据质量验证装置 |
CN111460234A (zh) * | 2020-03-26 | 2020-07-28 | 平安科技(深圳)有限公司 | 图查询方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150169758A1 (en) * | 2013-12-17 | 2015-06-18 | Luigi ASSOM | Multi-partite graph database |
-
2020
- 2020-12-31 CN CN202011625560.8A patent/CN112711659B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105849764A (zh) * | 2013-10-25 | 2016-08-10 | 西斯摩斯公司 | 用于识别社交数据网络中的影响者及其社区的***和方法 |
CN105335230A (zh) * | 2014-07-30 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 一种服务处理方法及装置 |
CN104809168A (zh) * | 2015-04-06 | 2015-07-29 | 华中科技大学 | 超大规模rdf图数据的划分与并行分布处理方法 |
CN110134516A (zh) * | 2019-05-16 | 2019-08-16 | 深圳前海微众银行股份有限公司 | 金融数据处理方法、装置、设备及计算机可读存储介质 |
CN111460234A (zh) * | 2020-03-26 | 2020-07-28 | 平安科技(深圳)有限公司 | 图查询方法、装置、电子设备及计算机可读存储介质 |
CN111428095A (zh) * | 2020-06-11 | 2020-07-17 | 上海冰鉴信息科技有限公司 | 图数据质量验证方法及图数据质量验证装置 |
Non-Patent Citations (3)
Title |
---|
evaluating Hive and Spark SQL with bigbench;Todor Ivanov等;arXiv;20151228;1-10 * |
云平台下图数据处理技术;刘超;唐郑望;姚宏;胡成玉;梁庆中;;计算机应用;20150110;第35卷(第01期);43-47 * |
基于路径的频繁子图挖掘算法研究;唐德权;张波云;;计算机工程与科学;20191215;第41卷(第12期);2223-2230 * |
Also Published As
Publication number | Publication date |
---|---|
CN112711659A (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9773027B2 (en) | Data loading tool | |
US9953102B2 (en) | Creating NoSQL database index for semi-structured data | |
JP5298117B2 (ja) | 分散コンピューティングにおけるデータマージング | |
US20170083573A1 (en) | Multi-query optimization | |
US9256665B2 (en) | Creation of inverted index system, and data processing method and apparatus | |
Kunda et al. | A comparative study of nosql and relational database | |
US8935233B2 (en) | Approximate index in relational databases | |
US20200117663A1 (en) | Managed query execution platform, and methods thereof | |
US8583655B2 (en) | Using an inverted index to produce an answer to a query | |
Mehmood et al. | Performance analysis of not only SQL semi-stream join using MongoDB for real-time data warehousing | |
Kalavri et al. | Block sampling: Efficient accurate online aggregation in mapreduce | |
CN110377519B (zh) | 大数据***的性能容量测试方法、装置、设备及存储介质 | |
Abramova et al. | SQL or NoSQL? Performance and scalability evaluation | |
US8548980B2 (en) | Accelerating queries based on exact knowledge of specific rows satisfying local conditions | |
CN112711659B (zh) | 基于海量图数据的模型计算方法及装置 | |
CN113297245A (zh) | 获取执行信息的方法及装置 | |
US11663189B1 (en) | Generating relational table structures from NoSQL datastore and migrating data | |
US9378229B1 (en) | Index selection based on a compressed workload | |
CN117390040B (zh) | 基于实时宽表的业务请求处理方法、设备及存储介质 | |
US11449514B2 (en) | Approximate aggregation queries | |
Ghule et al. | A review of NoSQL Databases and Performance Testing of Cassandra over single and multiple nodes | |
CN117216059A (zh) | 数据表合并方法、装置、设备及介质 | |
CN116401323A (zh) | 指标数据处理方法、装置及计算机设备 | |
CN118051494A (zh) | 确定spark目标参数的方法、装置及电子设备 | |
AbhishekKumar et al. | A Comparative Study of MongoDB and Document-Based MySQL for Big Data Application Data Management. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |