CN106227800B - 一种高度关联大数据的存储方法及管理*** - Google Patents

一种高度关联大数据的存储方法及管理*** Download PDF

Info

Publication number
CN106227800B
CN106227800B CN201610579013.8A CN201610579013A CN106227800B CN 106227800 B CN106227800 B CN 106227800B CN 201610579013 A CN201610579013 A CN 201610579013A CN 106227800 B CN106227800 B CN 106227800B
Authority
CN
China
Prior art keywords
data
entity
model
entities
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610579013.8A
Other languages
English (en)
Other versions
CN106227800A (zh
Inventor
李�昊
张敏
付艳艳
惠榛
陈震宇
张宗福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201610579013.8A priority Critical patent/CN106227800B/zh
Publication of CN106227800A publication Critical patent/CN106227800A/zh
Application granted granted Critical
Publication of CN106227800B publication Critical patent/CN106227800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种高度关联大数据的存储方法及管理***。本***包括存储模块、统一数据管理模块;其中,存储模块包括用以存储数据实体内容的Hashmap模型,用以存储数据实体属性的关系模型,用以存储数据实体之间关联联系的图数据模型;每一数据实体设置一实体类型和唯一的ID号,通过数据实体ID号对同一数据实体的属性和内容之间建立该关联关系;所述统一数据管理模块,用于对数据实体的关联关系、属性、数据内容在存储模块中的增加、删除、更新、查询。本发明能够实现对大数据集的存储和管理,同时能够支持高效的关联查询分析。

Description

一种高度关联大数据的存储方法及管理***
技术领域
本发明属于大数据存储领域,具体涉及了一种高度关联大数据的存储方法及管理***。
背景技术
在大数据时代,企业或组织机构越来越重视数据的价值,并逐步开始了大数据的采集、存储和分析利用。在这些大数据集中,数据之间的关联是普遍存在的。尤其是在社交网络大数据、医疗大数据等与个体用户密切相关的应用场景中,数据对象之间更是呈现出高度关联的特点。而这些高度关联数据集中存在的数据之间的复杂联系往往具备巨大的分析价值。例如,社交用户之间的朋友关系、药品与病人之间的关联等等。同时,这些高度关联的大数据集也具备大规模、高速性和多样性的特点,因此为了更好地分析和利用它们,就需要对此类数据集的高效存储和管理等问题展开研究。
为了应对大数据的存储需求,通常会有针对性地采用结构化关系数据库存储结构化数据,采用NoSQL数据库存储半结构化或非结构化数据。在这些存储方法中,关系型数据库和大多数NoSQL数据库(例如,键值数据库、文档数据库、列数据库)对于数据之间联系的存储和管理都非常低效。它们存储的都是无关联的记录、值、文档、列,在需要进行数据之间关联性的查询和分析时,需要采用索引、外键、表连接等额外的机制来实现。
与之相对的是,图数据库则专注于数据之间联系的存储和查询,其多层关联查询和反向查询效率远远高于关系数据库和其他NoSQL数据库。多层关联查询是指在数据之间的联系上进行多层查询。例如查询“某个人的朋友的朋友的朋友的朋友”就是在朋友关系上进行多层查询。而反向查询则是指查询的方向与索引建立的方向是相反的。例如,存在索引“病人->药品”,那么查询某个病人买了哪些药品是非常快捷的,但是反向查询买了某个药品的病人有哪些,就要效率低很多。即使为了应对上面的反向查询,建立了“药品->病人”的索引,那么在面对查询“有哪些病人买了药品A,还买了药品B”时,仍然需要进行多次查询,效率较低。图数据库能够解决这些关注数据之间关联关系的查询问题。然而,图数据库无法满足大数据集的规模大和多样化的存储特点。
目前,已经出现了一些混合应用NoSQL数据库和文件***来存储大数据集的方法。这些方法根据大数据集中不同数据的各自特点,将它们分别存放在了合适的数据库或文件***中。例如采用结构化关系数据库存储结构化数据,采用NoSQL数据库存储半结构化或非结构化数据。然而由于缺少针对高度关联大数据集中数据之间复杂关联的考虑,也没有与之匹配的数据模型、存储方法和查询方法,所以这些存储在不同数据库或文件***中的数据集往往相互独立,存在大量冗余,同时在进行复杂关联关系查询时也较为低效。
总之,目前大数据存储领域尚缺乏一种针对存在高度关联关系的大数据集的高效存储和管理方法,无法同时满足大数据的存储需求和对其中复杂联系的高效分析需求。
发明内容
针对上述技术问题,本发明的目的是提供一种针对高度关联大数据的存储方法及管理***,实现对这类大数据集的存储和管理,同时能够支持高效的关联查询分析。
该技术的基本原理为:基于图数据模型、关系模型、Hashmap模型提出一种以数据实体之间关联关系为核心的混合数据模型,即采用图数据模型描述数据实体之间的关联关系,采用关系模型描述数据实体的结构化属性,采用Hashmap模型描述实体的内容;并分别采用图数据库、关系数据库、键值数据库或分布式文件***来实现上述数据模型;并采用恰当的策略优化数据实体的关系查询、属性查询和内容查询的优先顺序来提高数据的查询检索效率。
具体地,为了实现上述技术目的,本发明采用以下技术方案:
一种针对高度关联大数据的存储方法及管理***包括:
1)建立针对高度关联大数据集的混合数据模型;
进一步地,所述混合数据模型包括图数据模型、关系模型、Hashmap模型。
进一步地,所述图数据模型是指用节点表示数据实体,用连接节点的边表示数据实体之间的联系的数据模型。
进一步地,所述关系模型是指关系数据库中采用的规范化模型,即用二维表的形式表示实体和实体间联系的数据模型。本技术方案中只采用二维表来描述实体的属性。即关系模型一般是用来存实体和实体之间联系的,但是本发明在混合数据模型中仅将其用来描述实体的属性。
进一步地,所述Hashmap模型是指采用键来存储和检索后面的值的数据模型。Hashmap模型的实现形式可以是键值数据库或分布式文件***,两者都可以。
进一步地,混合数据模型的构建方法如图1所示:每个数据实体都具有一个实体类型和一个唯一的ID号;数据实体的属性则采用关系模型中的二维表的形式来描述,即每种实体类型将对应一个形如[数据实体ID|属性A|属性B......]的二维表;Hashmap模型中的键为数据实体的ID号,而值为数据实体的原始内容;数据实体之间的关联通过图数据模型表示,即图数据模型中的一个节点就表示一个数据实体,该节点将被标识上对应数据实体的类型和ID号,而节点之间的边则表示数据实体之间的关联关系;而同一个实体的属性和内容之间的关联则通过实体ID号的映射来表示。
2)与上述混合数据模型匹配的高度关联大数据的存储方法和管理***;
进一步地,所述高度关联大数据的存储方法和管理***如图2所示,包括:存储模块、统一数据管理模块和辅助索引机制。
进一步地,所述存储模块是指存储数据实体的多个数据库或文件***,即用以存储数据实体之间联系的图数据库,用以存储数据实体原始内容的键值数据库或分布式文件***,用以存储数据实体属性的关系数据库。其中,
所述图数据库实现了图数据模型,即每个数据实体被存储为图数据库中的一个节点,该节点具有实体ID的标识和实体类型的标识。
所述键值数据库或分布式文件***实现了Hashmap模型。可以但不限于用实体ID作为键。当采用非实体ID作为键时(例如,若干个实体存储在一起时,可以用存储时间或实体ID的组合作为键),则需要构建一个辅助索引来提高查询效率,即通过实体ID索引到实体内容对应的键。该辅助索引可以实现为关系数据库中的一个表。
所述关系数据库实现了关系数据模型及辅助索引机制,即为每个实体类型构建一张数据表[实体ID|属性A|属性B......],实体ID是其主键。
进一步地,所述统一数据管理模块,主要实现了数据实体的关联关系、属性、数据内容在不同数据库或文件***中的增加、删除、更新、查询功能,并采用恰当的策略优化数据实体的关系查询、属性查询和内容查询的优先顺序来提高数据的查询检索效率。
进一步地,所述辅助索引机制,主要用以提高常见查询的效率,即为经常作为查询条件的属性或属性组合构建索引,以实现对实体ID的快速检索。此外,还包括采用非实体ID作为键值数据库或分布式文件***的键时构建的辅助索引表。
进一步地,所述数据增加流程如下:
步骤A1:将新增数据实体的原始内容存入键值数据库或分布式文件***,其键设为实体ID或其他唯一标识。若采用非实体ID的其他唯一标识,则在关系数据库中应事先建立好用于辅助索引的表[实体ID|其他唯一标识],而在新增数据实体时,向该表***“新增数据实体ID,新的其他唯一标识”的对应关系记录。
步骤A2:提取新增数据实体的属性值,并将这些属性值***该数据实体的类型所对应的关系表中,新增记录形如“实体ID|属性A|属性B......”。
步骤A3:提取新增数据实体与其他数据实体的关联关系,在图数据库中***新的节点表示新增数据实体,同时为其设置两个节点属性分别记录实体ID和实体类型,最后根据新增数据实体与其他数据实体的关联关系建立边。当新增数据实体所关联的另一数据实体已在图数据库中存在,则将表示两个实体的节点用边连接即可。若新增数据实体所关联的另一数据实体还没有在图数据库中存在,则应该先在图数据库中建立代表另一个数据实体的节点,然后再用边连接它们。
进一步地,所述数据删除流程如下:
步骤B1:将要删除的数据实体从键值数据库或分布式文件***中删除,若关系数据库中存在用于辅助索引的表[实体ID|其他唯一标识],则同时需要删除该数据实体对应的记录。
步骤B2:将要删除的数据实体从关系数据库对应的关系表中删除。
步骤B3:将要删除的数据实体所代表的节点从图数据库中删除,同时将该节点作为端点之一的边也全部删除。
进一步地,所述数据查询流程如下:
步骤C1:根据查询条件中的数据实体之间的关联关系约束,在图数据库中进行匹配查找,获得符合条件的结果集R1。若查询条件不含对数据实体之间的关联关系的约束,则不执行步骤C1,R1直接为空。
步骤C2:根据查询条件中的数据实体的属性约束,在关系数据库中进行匹配查找,获得结果集R2。若查询条件中不含对数据实体的属性约束,则不执行步骤C2,R2直接为空。
步骤C3:根据R1和R2中的实体ID构成的集合来设置结果集R3。若R1和R2都为空,则R3为空。若R1或R2其中任意一个为空,则R3等于其中非空的一个结果集中的实体ID构成的集合。若R1与R2都非空,则设置R3为R1与R2中实体ID集合的交集(可能交集为空)。
步骤C4:若数据查询的结果要求有数据的原文内容,则根据R3中的实体ID,在键值数据库或分布式文件***中查找到对应的实体内容。若R3为空,即表示R3中没有数据实体,则步骤C4不执行,直接进入步骤C5。
步骤C5:若R 3不为空,则返回查询结果R1、R2、R3及R3中数据实体的内容。若R3为空,则返回R1、R2、R3。
进一步地,所述数据更新流程如下:
步骤D1:基于所述数据查找流程,根据查询条件获取要更新的数据实体的ID集合R3。
步骤D2:若需要更新某数据实体的内容,则根据R3中数据实体ID在键值数据库或分布式文件***中查找到对应的实体内容,将其替换为新内容。
步骤D3:若需要更新某数据实体的属性,则根据R3中数据实体ID在关系数据库对应的关系表中更新该实体对应的记录。
步骤D4:若需要更新R3中某数据实体与其他数据实体的一些关联关系,则将根据该实体ID定位到表示它的节点,将该节点作为查询的起点,接着从该起点开始按照要更新的关联关系的模式在图数据库中进行匹配查找,当发现需要修改的关联关系时将其更新。
进一步地,所述的优化查询顺序的策略如下:当对关系数据库的查询不含复杂的表连接时,优先进行关系数据库的查询,即交换查询步骤C2与C1的次序,将C2执行的结果集R2中的实体ID作为C1图数据库查询的起始节点,然后再从这些起始节点开始图数据库的路径匹配查询;而当对关系数据库的查询含有复杂表连接时,则优先进行图数据库的查询,即保持步骤C1和C2的次序,通过图数据库的关联查询获得R1,然后再在R1中的实体ID范围内进行复杂的关系数据库的查询,从而提高查询效率。
本发明的有益效果如下:
(一)大数据集中的数据实体之间的关联关系采用了图模型进行建模,并使用了图数据库进行存储,因此能够支持高效地复杂关联查询,即同样软硬件环境下,在图模型上进行复杂关联数据(节点和边构成的路径的长度为3或以上)查找时,性能平均在秒级;而其他采用关系模型、Hashmap模型表达关联关系时,其复杂关联数据查询大多在几十秒,甚至几百秒级别。
(二)大数据集中的数据实体的属性和原始内容被恰当地关联在一起存储,因此能够同时满足对大数据属性和原始内容的查询。
(三)采用了统一数据管理模块,能够根据查询条件的特点对查询顺序进行优化,从而提高查询效率。
附图说明
图1是本发明提出的混合数据模型;
图2是本发明提出的数据管理***的技术架构;
图3是本发明展示的一个社交网站的数据集的建模示例。
具体实施方式
下面将对发明内容中的关键技术和方法的实施方式进行示例性解释,但不以这种解释限制发明的范围。
1)数据集
以某社交网站的数据为例,数据主要包括用户信息数据,微博信息数据两大类。用户信息数据包括了用户帐号、性别、年龄、爱好、注册时间、用户关注的其他用户的列表、关注此用户的其他用户的列表。微博信息数据则包括了微博的ID、发布的用户帐号、转发微博的ID、微博的内容、发布时间、发布地点、发布微博的设备、@的用户帐号。在这个数据集中存在大量的数据之间的关系:用户之间的关注关系、用户与微博的发布关系、微博之间的转发关系、微博中@的关系。
2)数据建模
如图3所示,先将用户信息中的结构化属性信息建模为关系表UserInfo[用户帐号|性别|年龄|爱好|注册时间],主键为用户帐号。再将微博信息中的结构化属性信息也建立为关系表Weibo[微博ID|发布时间|发布地点|发布微博的设备],主键为微博ID。接着将微博的原始文本内容建模为Hashmap模型,将微博的ID作为键。然后将用户帐号、微博ID作为图模型的节点,并将用户之间的关注关系、用户与微博的发布关系、微博之间的转发关系、微博与用户的@关系用节点之间的边进行描述。最后,关系表UserInfo与图模型的用户节点通过用户帐号进行映射关联;关系表Weibo、图模型的微博节点、Hashmap模型通过微博ID进行映射关联。
此外,为了提高查询效率,通常情况下可以允许适当的冗余存在。例如,将关系表Weibo[微博ID|发布时间|发布地点|发布微博的设备],修改为Weibo[微博ID|发布时间|发布地点|发布微博的设备|发布的用户帐号]。虽然用户与微博的发布关系在图模型中已经描述,修改后增加了数据的冗余,但是这种冗余在进行查询“用户A上个月发布的所有微博”时,具有更高的效率。因为这种无需复杂表连接操作的关系查询是关系数据库所擅长的,所以就无需再去图数据库中查询了,总的数据库查询操作只需要一次。这种建模时对数据冗余的考虑需要根据实际的业务需求而定。
3)存储方法
首先,采用传统关系数据库来实施数据模型中的关系表UserInfo和Weibo的构建,完成对用户和微博两种数据实体的属性的存储;接着,采用键值数据库来实施Hashmap模型,完成对微博原文内容的存储;然后,采用图数据库实施图模型的构建,完成对用户之间的关注关系、用户与微博的发布关系、微博之间的转发关系、微博中@的关系的存储;最后,由于本例子直接采用了微博数据实体的ID作为了键值数据库的键,所以就不需要建立辅助索引了。如果需要加速一些常用的属性条件查询,可适当地在关系数据库中建立其他辅助索引。而上述数据存储方法将由统一数据管理模块来实施,即将采集到的用户信息数据,微博信息数据两类数据按照上面的数据模型进行组织,分别存放在不同数据库中进行管理。

Claims (6)

1.一种高度关联大数据的存储方法,其步骤为:
1)为每一数据实体设置一实体类型和唯一的ID号;
2)采用关系模型中的二维表仅存储数据实体的属性;采用Hashmap模型存储数据实体的内容;其中所述Hashmap模型中,将若干数据实体的内容进行合并存储,以存储在一起的若干数据实体的存储时间为键,存储在一起的若干数据实体的内容为键值,并且构建一数据实体ID索引到实体内容对应的键的索引;或存储在一起的若干数据实体的存储时间及其ID的组合作为键,存储在一起的若干数据实体的内容为键值,并且构建一数据实体ID索引到实体内容对应的键的索引;
3)通过数据实体ID号对同一数据实体的属性和内容之间建立关联关系;采用图数据模型存储数据实体之间的关联关系;其中采用图数据模型存储数据实体之间的关联关系的方法为:将图数据模型中的一个节点表示一个数据实体,在该节点上标识对应数据实体的实体类型和ID号,利用节点之间的边表示数据实体之间的关联关系。
2.如权利要求1所述的方法,其特征在于,采用关系模型中的二维表存储数据实体的属性的方法为:将每种实体类型的数据实体的属性采用一二维表进行存储,其格式为:[数据实体ID|属性A|属性B......]。
3.一种高度关联大数据的管理***,其特征在于,包括存储模块、统一数据管理模块;其中,
存储模块包括用以存储数据实体内容的Hashmap模型,用以存储数据实体属性的关系模型,用以存储数据实体之间关联联系的图数据模型;每一数据实体设置一实体类型和唯一的ID号,通过数据实体ID号对同一数据实体的属性和内容之间建立该关联关系;其中,采用关系模型中的二维表仅存储数据实体的属性;利用图数据库实现所述图数据模型,即每个数据实体被存储为图数据库中的一个节点,在该节点上标识对应数据实体的实体类型和ID号,利用节点之间的边表示数据实体之间的关联关系;
所述统一数据管理模块,用于对数据实体的关联关系、属性、数据内容在存储模块中的增加、删除、更新、查询;
其中,所述Hashmap模型中,将若干数据实体的内容进行合并存储,以存储在一起的若干数据实体的存储时间为键,存储在一起的若干数据实体的内容为键值,并且构建一数据实体ID索引到实体内容对应的键的索引;或存储在一起的若干数据实体的存储时间及其ID的组合作为键,存储在一起的若干数据实体的内容为键值,并且构建一数据实体ID索引到实体内容对应的键的索引。
4.如权利要求3所述的***,其特征在于,利用关系数据库实现所述关系数据模型,其中,每种实体类型的数据实体的属性采用一二维表进行存储,其格式为:[数据实体ID|属性A|属性B......]。
5.如权利要求3或4所述的***,其特征在于,当有新增数据实体需要存储到存储模块时,所述统一数据管理模块将该新增数据实体的内容存入Hashmap模型,其键设为实体ID;然后提取该新增数据实体的属性值,并将这些属性值***关系模型中该新增数据实体的类型所对应的二维表中;然后提取该新增数据实体与其他数据实体的关联关系,在图数据模型中***新的节点表示该新增数据实体,并设置两个节点属性分别记录实体ID和实体类型;然后根据该新增数据实体与其他数据实体的关联关系建立边。
6.如权利要求3或4所述的***,其特征在于,当收到一数据实体查询请求时,所述统一数据管理模块根据查询条件中的数据实体之间的关联关系约束,在图数据模型中进行匹配查找,获得符合条件的结果集R1;根据查询条件中的数据实体的属性约束,在关系模型中进行匹配查找,获得结果集R2;然后根据结果集R1、R2中的实体ID构成的集合来设置结果集R3:若结果集R1和R2都为空则结果集R3为空,若结果集R1或R2其中任意一个为空则结果集R3等于其中非空的一个结果集中的实体ID构成的集合,若结果集R1与R2都非空,则设置结果集R3为R1与R2中实体ID集合的交集;若数据查询请求要求有数据的原文内容,则根据结果集R3中的实体ID,在Hashmap模型中查找到对应的实体内容,然后返回查询结果集R1、R2、R3及R3中数据实体的内容。
CN201610579013.8A 2016-07-21 2016-07-21 一种高度关联大数据的存储方法及管理*** Active CN106227800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610579013.8A CN106227800B (zh) 2016-07-21 2016-07-21 一种高度关联大数据的存储方法及管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610579013.8A CN106227800B (zh) 2016-07-21 2016-07-21 一种高度关联大数据的存储方法及管理***

Publications (2)

Publication Number Publication Date
CN106227800A CN106227800A (zh) 2016-12-14
CN106227800B true CN106227800B (zh) 2020-02-21

Family

ID=57532054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610579013.8A Active CN106227800B (zh) 2016-07-21 2016-07-21 一种高度关联大数据的存储方法及管理***

Country Status (1)

Country Link
CN (1) CN106227800B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775742A (zh) * 2016-12-27 2017-05-31 中国建设银行股份有限公司 一种用户定制信息的扩展方法及***
CN107391533B (zh) * 2017-04-18 2020-04-07 阿里巴巴集团控股有限公司 生成图形数据库查询结果的方法及装置
CN107491476B (zh) * 2017-06-29 2021-01-12 中国科学院计算机网络信息中心 一种适用于多种大数据管理***的数据模型转换及查询分析方法
CN110019399A (zh) * 2017-12-19 2019-07-16 成都蜀信信用服务有限公司 智能关系圈动态灵活分析***及方法
CN108170847B (zh) * 2018-01-18 2021-08-31 国网福建省电力有限公司 一种基于Neo4j图数据库的大数据存储方法
CN108664582B (zh) * 2018-05-04 2021-06-18 企查查科技有限公司 企业关系的查询方法、装置、计算机设备及存储介质
CN109325076B (zh) * 2018-06-07 2020-03-27 北京百度网讯科技有限公司 物联网中的数据管理方法、设备、计算机设备及可读介质
CN109241052A (zh) * 2018-07-26 2019-01-18 山东大学 一种基于关联数据的存储方法、装置、介质及设备
CN109325048B (zh) * 2018-08-23 2021-12-07 上海海洋大学 一种基于图模型构建的赤潮数据查询方法
CN110895548B (zh) * 2018-08-24 2022-08-09 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN109726203A (zh) * 2018-12-20 2019-05-07 四川新网银行股份有限公司 一种重构图的数据存储方法
CN111723245B (zh) * 2019-03-18 2024-04-26 阿里巴巴集团控股有限公司 数据存储***中建立不同类型存储对象关联关系的方法
CN110347699B (zh) * 2019-06-26 2022-01-28 北京明略软件***有限公司 确定身份证相关实体活跃度的方法及装置
CN110362706B (zh) * 2019-07-05 2022-02-08 北京明略软件***有限公司 数据的查找方法、装置、存储介质及电子装置
CN110928960B (zh) * 2019-10-28 2023-08-11 华中科技大学 一种数据存储***、方法、设备和存储介质
CN111026732B (zh) * 2019-12-03 2023-11-17 深圳块织类脑智能科技有限公司 动态化巡采巡查方法和***
CN111090824B (zh) * 2019-12-23 2023-09-19 百度国际科技(深圳)有限公司 内容处理方法和装置
CN111930958B (zh) * 2020-07-13 2023-12-01 车智互联(北京)科技有限公司 一种图数据库构建方法、计算设备及可读存储介质
CN111831696A (zh) * 2020-07-13 2020-10-27 上海华讯网络***有限公司 基于图理论的资产信息存储方法和***
CN112465294B (zh) * 2020-10-21 2023-08-22 郑州大学第一附属医院 基于审计结果的医院药品智能供货方法及装置
CN112836063B (zh) * 2021-01-27 2023-06-06 四川新网银行股份有限公司 一种实现特征溯源的方法
CN113220659B (zh) * 2021-04-08 2023-06-09 杭州费尔斯通科技有限公司 一种数据迁移的方法、***、电子装置和存储介质
CN113903421B (zh) * 2021-10-11 2022-04-12 上海柯林布瑞信息技术有限公司 一种医疗科研表单数据的快速处理方法和装置
CN114238268B (zh) * 2021-11-29 2022-09-30 武汉达梦数据技术有限公司 一种数据存储方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023979A (zh) * 2009-09-09 2011-04-20 中国工商银行股份有限公司 元数据管理方法及***
CN102541992A (zh) * 2010-11-03 2012-07-04 微软公司 用于高效地查询数据库的同态定理
CN103617295A (zh) * 2013-12-16 2014-03-05 北京锐安科技有限公司 一种地理信息矢量数据处理的方法和装置
CN103810275A (zh) * 2014-02-13 2014-05-21 清华大学 用于非关系与关系型数据库间数据交互的方法和装置
CN104123369A (zh) * 2014-07-24 2014-10-29 ***通信集团广东有限公司 一种基于图形数据库的配置管理数据库***及实现方法
CN104572856A (zh) * 2014-12-17 2015-04-29 武汉科技大学 一种服务起源数据的融合存储方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055233A1 (en) * 2014-08-25 2016-02-25 Ca, Inc. Pre-join tags for entity-relationship modeling of databases

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023979A (zh) * 2009-09-09 2011-04-20 中国工商银行股份有限公司 元数据管理方法及***
CN102541992A (zh) * 2010-11-03 2012-07-04 微软公司 用于高效地查询数据库的同态定理
CN103617295A (zh) * 2013-12-16 2014-03-05 北京锐安科技有限公司 一种地理信息矢量数据处理的方法和装置
CN103810275A (zh) * 2014-02-13 2014-05-21 清华大学 用于非关系与关系型数据库间数据交互的方法和装置
CN104123369A (zh) * 2014-07-24 2014-10-29 ***通信集团广东有限公司 一种基于图形数据库的配置管理数据库***及实现方法
CN104572856A (zh) * 2014-12-17 2015-04-29 武汉科技大学 一种服务起源数据的融合存储方法

Also Published As

Publication number Publication date
CN106227800A (zh) 2016-12-14

Similar Documents

Publication Publication Date Title
CN106227800B (zh) 一种高度关联大数据的存储方法及管理***
CN109299102B (zh) 一种基于Elastcisearch的HBase二级索引***及方法
JP6617117B2 (ja) 半構造データのためのスケーラブルな分析プラットフォーム
Alsubaiee et al. AsterixDB: A scalable, open source BDMS
CN107402995B (zh) 一种分布式newSQL数据库***及方法
US9805079B2 (en) Executing constant time relational queries against structured and semi-structured data
CN103631909B (zh) 对大规模结构化和非结构化数据联合处理的***及方法
US9665607B2 (en) Methods and apparatus for organizing data in a database
CN107122443A (zh) 一种基于Spark SQL的分布式全文检索***及方法
CN104298771A (zh) 一种海量web日志数据查询与分析方法
CN111881223B (zh) 数据管理方法、设备、***及存储介质
CN103279543B (zh) 海量图数据上的路径模式查询***
WO2017091925A1 (zh) 数据查询的方法、装置和数据库***
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
CN102890678A (zh) 一种基于格雷编码的分布式数据布局方法及查询方法
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN103795811A (zh) 一种基于元数据保存存储信息及统计管理数据的方法
CN108959538A (zh) 全文检索***及方法
Yafooz et al. Managing unstructured data in relational databases
CN107577714A (zh) 一种基于HBase的数据查询方法
US10628421B2 (en) Managing a single database management system
Calçada et al. Evaluation of Couchbase, CouchDB and MongoDB using OSSpal.
CN103365987A (zh) 一种基于共享磁盘架构的集群数据库***及数据处理方法
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant