CN104572740A - 一种存储数据的方法和装置 - Google Patents

一种存储数据的方法和装置 Download PDF

Info

Publication number
CN104572740A
CN104572740A CN201310505069.5A CN201310505069A CN104572740A CN 104572740 A CN104572740 A CN 104572740A CN 201310505069 A CN201310505069 A CN 201310505069A CN 104572740 A CN104572740 A CN 104572740A
Authority
CN
China
Prior art keywords
information
node
attribute information
attribute
nodal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310505069.5A
Other languages
English (en)
Other versions
CN104572740B (zh
Inventor
刘志容
李川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Huawei Technologies Co Ltd
Original Assignee
Sichuan University
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, Huawei Technologies Co Ltd filed Critical Sichuan University
Priority to CN201310505069.5A priority Critical patent/CN104572740B/zh
Priority to PCT/CN2014/075570 priority patent/WO2015058500A1/zh
Publication of CN104572740A publication Critical patent/CN104572740A/zh
Application granted granted Critical
Publication of CN104572740B publication Critical patent/CN104572740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种存储数据的方法和装置,该方法包括:一种存储数据的方法,所述方法包括:获取原始数据集;从原始数据集中提取表示信息网络图结构的信息;其中,所述表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;所述节点信息至少包括:节点标识和节点属性关键码;所述节点属性关键码与所述节点属性信息具有对应关系;所述边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;所述边用于描述节点与节点之间的联系;存储所述提取的节点信息,节点属性信息,边信息,和边属性信息。本发明实施例提供的方案,使得研究人员还可以关注节点之间关系。

Description

一种存储数据的方法和装置
技术领域
本发明涉及数据存储领域,具体涉及一种存储数据的方法和装置。
背景技术
信息网络(Information Networks)的概念,是对现实空间中海量、多维、复杂结构数据的一般性抽象。信息网络在社区网络分析、合作者网络分析、交通运输网络能力计算、蛋白质网络接收成分分析、犯罪网络分析等领域都具有重要价值。
在信息网络环境中,用户关注的主题信息由简单的数值度量值(如销售总量,利润值),演化成为关注复杂的网络,如销售网络,其中每个节点(Vertex)代表一种商品,节点间的连线(即:边,Edge)表示不同类物品的共同销售关系,参见图1所示的销售网络。
经典的在线分析处理(OLAP,Online Analysis Processing)数据仓库模型是多维数据模型。多维数据模型是一个多维空间,“维”是人们观察数据的不同角度,可以用于表示某个事物的不同属性。例如,在分析产品销售数据时,涉及时间维,产品维,地区维等。现阶段没有统一的多维数据模型。其中,经典的OLAP数据仓库模型有三种,即:星形模式,雪花模式,和星座模式。
星形模式是多维数据模型的基本结构,其组成包括:中心事实表和维表。其中,中心事实表是星形模式中的核心表,存储事实的度量值及各个维表的关键码;维表用于保持维的信息,即每个维成员,包括维的属性信息等。中心事实表通过所存储的每个维表的关键码值和各维表进行连接。雪花模式是星形模式的变种,在星形模式的基础上对某些维表进行规范分解。星座模式可以看成是星形模式的汇聚,能满足多个实施表共享某些维表,进而实现多主体建模。
如图2所示,对于经典的产品销售数据来说,星形模式能够很好的解决其数据组织。对于销售数据,可以从四个维度考虑,分别是:时间维(Time),商品维(Item),商店维(Branch)和位置维(Location)。该模式包含一个中心事实表(Sales),该中心事实表包含四个维的关键码(如图2中所示,Time_key,Branch_key,Item_key,Location_key)和两个度量(如图2中所示Dollars_sold,Unit_sold)。
星形模式与雪花模式只适合对单个主题建模,无法对多主题进行建模。星座模式能满足多个事实表共享某些维表进而实现多主题建模,但信息网络中的主题数据演化成复杂的图网络,需要同时保存信息维、拓扑维的信息,星座模式也不适用于在线图处理的建模。
在传统OLAP中,科研工作者关注数值型的度量,比如商场中商品的销售数量,销售额等数值型数据。多维数据模型是面向传统OLAP提出的,并不适用于信息网络中以图为结构的数据组织。现在科研工作者更加关注商品与商品之间的共同销售关系,这就涉及对象与对象之间连接关系的建模问题。目前越来越多的数据以网络图的形式出现,如社交网络,合作者网络,蛋白质网络等,在这些网络中科研工作者更加关注实体间的连接关系。传统的多维数据模型不能合理的对网络图数据关系进行存储及表示,不能合理的关注实体间的连接关系。
发明内容
本发明实施例提供了一种存储数据的方法和装置,克服了传统的多维数据模型不能合理的对网络图数据关系进行存储及表示的问题。
本发明实施例第一方面提供了一种存储数据的方法,所述方法包括:
获取原始数据集;
从原始数据集中提取表示信息网络图结构的信息;其中,所述表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;
所述节点信息至少包括:节点标识和节点属性关键码;
所述节点属性关键码与所述节点属性信息具有对应关系;
所述边信息至少包括:边标识和边属性关键码;
所述边属性关键码与所述边属性信息具有对应关系;
所述边用于描述节点与节点之间的联系;
存储所述提取的节点信息,节点属性信息,边信息,和边属性信息。
本发明实施例第一方面的第一种可能的实现方式中,所述节点信息还包括:节点度量值;
所述边信息还包括:边度量值。
结合本发明实施例第一方面,和本发明实施例第一方面的第二种可能的实现方式中,
所述提取的节点信息存储在节点事实表中;
所述提取的边信息存储在边事实表中;
所述提取的节点属性信息存储在拓扑维表中;
所提取的边属性信息存储在信息维表中;
由于所述边用于描述节点与节点之间的联系,则所述节点事实表中的信息与所述边事实表中的信息具有对应关系;
所述节点属性关键码与所述节点属性信息具有对应关系;则所述拓扑维表中的信息与所述节点事实表中的信息具有对应关系;
由于所述边属性关键码与所述边属性信息,则所述信息维表中的信息与所述边事实表中的信息具有对应关系。
本发明实施例第一方面的第三种可能的实现方式中,所述存储所述提取的节点信息,节点属性信息,边信息,和边属性信息之后,所述方法还包括:
对需要查询的数据,在所述存储的所述节点信息,节点属性信息,边信息,和边属性信息中进行定位;
从定位后的所述节点信息,节点属性信息,边信息,或者边属性信息中其中之一中进行查询。
本发明实施例第一方面的第四种可能的实现方式中,所述存储所述提取的节点信息,节点属性信息,边信息,和边属性信息之后,所述方法还包括:
根据所述提取的节点信息,节点属性信息,边信息,和边属性信息,进行在线图处理操作。
结合本发明实施例第一方面的第四种可能的实现方式中,本发明实施例第一方面的第五种可能的实现方式中,所述在线图处理操作至少包括:
信息维上卷(I-OLGP),拓扑维上卷(T-OLGP),异步上卷,下钻,切片,切块,数据透视其中之一。
结合本发明实施例第一方面的第五种可能的实现方式中,本发明实施例第一方面的第六种可能的实现方式中,若所述提取的边属性信息存储在信息维表中,则所述信息维上卷具体包括:
对信息维表中存储的边的一种属性的信息,或者一种以上属性的信息进行上卷操作。
结合本发明实施例第一方面的第五种可能的实现方式中,本发明实施例第一方面的第七种可能的实现方式中,若所述提取的节点属性信息存储在拓扑维表中,则所述拓扑维聚集操具体包括:
对拓扑维表中存储的节点的一种属性的信息,或者一种以上属性的信息进行上卷操作。
本发明实施例第二方面提供的一种存储数据的装置,所述装置包括:获取单元,提取单元,和存储单元;
所述获取单元,用于获取原始数据集;
所述提取单元,用于从原始数据集中提取表示信息网络图结构的信息;其中,所述表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;所述节点信息至少包括:节点标识和节点属性关键码;所述节点属性关键码与所述节点属性信息具有对应关系;所述边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息对应关系;所述边用于描述节点与节点之间的联系;
所述存储单元,用于存储所述提取的节点信息,节点属性信息,边信息,和边属性信息。
本发明实施例第二方面的第一种实现方式中,所述节点信息还包括:节点度量值;
所述边信息还包括:边度量值。
结合本发明实施例第二方面的第一种实现方式,本发明实施例第二方面的第二种实现方式中,所述提取的节点信息存储在节点事实表中;
所述提取的边信息存储在边事实表中;
所述提取的节点属性信息存储在拓扑维表中;
所提取的边属性信息存储在信息维表中;
由于所述边用于描述节点与节点之间的联系,则所述节点事实表中的信息与所述边事实表中的信息具有对应关系;
所述节点属性关键码与所述节点属性信息具有对应关系;则所述拓扑维表中的信息与所述节点事实表中的信息具有对应关系;
由于所述边属性关键码与所述边属性信息具有对应关系,则所述信息维表中的信息与所述边事实表中的信息具有对应关系。
本发明实施例第二方面的第三种实现方式中,所述装置还包括:定位单元,和查询单元;
所述定位单元,用于对需要查询的数据,在所述存储的所述节点信息,节点属性信息,边信息,和边属性信息中进行定位;
所述查询单元,用于从定位后的所述节点信息,节点属性信息,边信息,或者边属性信息中其中之一中进行查询。
本发明实施例第二方面的第四种实现方式中,所述装置还包括:图处理单元;
所述图处理单元,用于根据所述提取的节点信息,节点属性信息,边信息,和边属性信息,进行在线图处理操作。
结合本发明实施例第二方面的第四种实现方式,本发明实施例第二方面的第五种实现方式中,所述图处理单元中所述在线图处理操作至少包括:
信息维上卷(I-OLGP),拓扑维上卷(T-OLGP),异步上卷,下钻,切片,切块,数据透视其中之一。
结合本发明实施例第二方面的第五种实现方式,本发明实施例第二方面的第六种实现方式中,所述图处理单元中若所述提取的边属性信息存储在信息维表中,则所述信息维上卷具体包括:
对信息维表中存储的边的一种属性的信息,或者一种以上属性的信息进行上卷操作。
结合本发明实施例第二方面的第五种实现方式,本发明实施例第二方面的第七种实现方式中,所述图处理单元中若所述提取的节点属性信息存储在拓扑维表中,则所述拓扑维聚集操具体包括:
对拓扑维表中存储的节点的一种属性的信息,或者一种以上属性的信息进行上卷操作。
通过上述对本发明实施例提供一种存储数据的方法,该方法通过获取原始数据集,从原始数据集中提取节点信息,节点属性信息,边信息,和边属性信息;节点信息至少包括:节点标识和节点属性的关键码;所述节点属性关键码与所述节点属性信息具有对应关系;边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;边用于描述节点与节点之间的联系;存储上述提取的节点信息,节点属性信息,边信息,和边属性信息。由于提取信息之间具有联系,因此在后续对数据进行操作时,可以快速准确定位到所需要的数据。同时,与现有的OLAP多维数据仓库模型相比,本发明实施例提供的方案存储的信息中,不仅包括与现有技术相同的节点信息,节点属性信息,使得研究人员可以关注以节点为中心的事实,而且,本发明实施例提供的方案存储的信息中,还包括现有技术不能关注的边信息和边属性信息,使得研究人员还可以关注节点之间关系。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的销售网络示意简图;
图2是现有技术中的星形模式的多维数据模型;
图3是本发明实施例提供的信息网络示意图;
图4是本发明实施例一提供了一种存储数据的方法;
图5是本发明实施例提供的节点属性信息,边信息,和边属性信息之间是具有联系示意图(或者称为多维信息网络数据仓库模型);
图6是科研合作者网络示意图;
图7是本发明实施例二提供了一种存储数据的方法;
图8是多维信息网络数据仓库模型;
图9所示边事实表转换为边事实关系表;
图10所示节点事实表转换为节点事实关系表;
图11所示信息维向关系信息维表的转化;
图12所示拓扑维向关系拓扑维表的转化;
图13所示关键字—合作者多维信息网络数据仓库模型;
图14所示电影演员合作网络;
图15是本发明实施例二提供了一种存储数据的方法;
图16是电影演员合作多维信息网络数据仓库模型;
图17是本发明实施例四提供的一种数据的存储装置;
图18是本发明实施例五提供的一种数据的存储装置。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在信息网络中用户关注的中心由数值度量上升到一个图或者网络,用户关注的中心的结构由节点和边组成。其中,节点和边分别对应着一些相关属性,即节点属性和边属性。与边相关的属性可以称为信息维,与节点相关的属性可以称为拓扑维。边代表两个节点之间的连接关系。例如图3所示信息网络示意图,圆圈表示节点,每个边有各自的属性,每个节点也有各自的属性。
在信息网络中,研究者更加关注对象与对象之间的连接关系,这里所说的对象可以理解为节点,即节点与节点之间的连接关系。多数科研工作者从事以图为结构的社交网络的连接预测、交通枢纽节点发现、社区趋势演化、蛋白质结构分析等工作,这些工作都是在以图为结构的数据上开展。但是,现有技术对这些数据的存储,缺乏一种通用高效的底层数据组织模型来方便对这些数据的分析。
因而,本发明实施例在对信息网络中的图数据提供一种通用的存储方案,即一种存储数据的方法、装置及***,对以图为结构的数据进行组织,方便上层算法研究的展开,方便对数据的分析利用,解决了以图为结构的对象之间关系建模,简化复杂的信息存储格式,消除冗余;利用关系数据库对其关系进行存储,方便用户进行高效的结构化查询操作。其中,关系数据库是指创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。
如下参考具体具体实施例,详细说明本方案。
实施例一
本发明实施例提供了一种存储数据的方法,如图4所示,该方法包括:
步骤101,获取原始数据集;
其中,原始数据集可以理解为用户收集的所有数据的集合,这些数据是杂乱,不利于分析的。步骤101中获取的原始数据集可以是输入到该执行设备中的非结构化文本的原始数据。
步骤102,从原始数据集中提取表示信息网络图结构的信息;其中,表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;节点信息至少包括:节点标识和节点属性关键码;所述节点属性关键码与所述节点属性信息具有对应关系;边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;所述边用于描述节点与节点之间的联系;
由于节点与节点属性的关系,边与边属性的关系,所述边用于描述节点与节点之间的联系,可以容易用图结构体现上述提取的节点信息,节点属性信息,边信息,和边属性信息之间的联系(参见后续说明的图5、图8、图16)。
参见图3所示,表示信息网络图结构的信息可以包括:节点信息(如,节点标识(VertexID)),节点属性信息(如,Attribute1,Attribute2),边信息(如,边标识(EdgeID)),边属性(如Attribute1,Attribute2)等等;节点属性的数量,边属性的数量,以及节点、边的数量根据具体的信息网络会有不同,结构也会有不同,此处图3所示简单的信息网络图结构,仅是便于理解的简单举例,并非对本发明实施例的限制。
通常,设备获取的原始数据集是杂乱的,不便于分析利用的。因此,在获取到原始数据集后,设备将原始数据按照信息网络图结构的形式,从原始数据集中提取包括:节点信息,节点属性信息,边信息,以及边属性信息的表示信息网络图结构的信息。
需要理解的是,上述提取的节点信息,节点属性信息,边信息,和边属性信息之间是具有联系,可以参见图5所示,在步骤102中提取包括:节点信息,节点属性信息,边信息,和边属性信息可以表示信息网络图结构的信息,可以具体是以表格的形式表示,例如:提取的节点信息存储到节点事实表(VFT)中,提取的边信息存储到边事实表(EFT)中,提取的节点属性信息存储到拓扑维表(TDT)中,提取的边属性信息存储到信息维表(IDT)中,由于节点与节点属性的关系,边与边属性的关系,使得各列表之间具有关联(所说的关联,在图5中体现在各表之间的连线)。
如图5中所示,当提取了一个节点的信息,该节点的信息包括:节点标识(即节点ID,节点具体的含义可以根据不同的信息网络定义不同,如合作者多维信息网络,节点可以代表作者,演员合作者多维信息网络中,节点可以代表演员),节点的属性关键码,和/或节点的度量。需要理解的是节点信息中包括的节点的度量可以是用数值的形式表示该节点相关的信息,如:合作者网络中,节点的信息可以是该作者发表的文章数量等。其中,节点的度量可以作为优选的方案,而非本方案必须。
节点属性关键码与所述节点属性信息具有对应关系,可以理解为,节点信息中包括的节点属性关键码是联系边信息与节点属性信息的纽带。节点属性关键码,所对应的详细信息具体可以是存储在拓扑维表中。例如,当节点为演员时,节点属性关键码可以是演员归属的电影公司,该节点(即演员)属性关键码(即演员归属的电影公司)所对应的具体信息为节点属性信息(即节点属性信息为具体的每个电影公司,例如:华谊兄弟电影制作公司,天娱电影公司等等)。
边信息至少包括:边标识和边属性关键码,还可以包括:边的度量。例如图5所示,由于边是两个节点的连线,因此,边标识(EdgeID)可以用两个节点的标识表示,如图5所示,节点1和节点2两个节点来表示该边。边属性关键码可以有多个,每个边属性关键码可以代表一类属性,例如:节点若是合作者信息网络中的作者,则边代表2个作者的合作的,边属性关键码可以是合作者之间的合作的文章,和/或合作的年代,和/或合作的地点。还需要理解的是边信息中包括的边的度量,可以是用数值的形式表示该边相关的信息,如:合作者网络中,边的信息可以是2个作者合作的次数(如,Co_Frequence)。
边属性关键码与所述边属性信息具有对应关系,可以理解为边信息中包括的边属性关键码是联系边信息与边属性信息的纽带。边属性信息具体可以是存储在信息维表中。
若边的关键码为合作的文章,则在边属性信息(具体可以是信息维表)中具体的信息可以是合作者之间合作的所有文章的名称,如:合作的文章包括:《雨水》、《雪花》。若边的关键码为合作的地点,则在边属性信息(具体可以是信息维表)中具体的信息可以是合作者之间合作的所有地点,如:北京,上海。
步骤103,存储上述提取的节点信息,节点属性信息,边信息,和边属性信息。
其中,存储提取的节点信息,节点属性信息,边信息,和边属性信息,具体可以是以表格的形式存储,即通过:节点事实表,拓扑维表,边事实表,信息维表将上述信息对应存储。其中,以表格的形式存储是一种事实方式,并非对本发明实施例的限制,具体的存储形式还可以有其他。
通过上述对本发明实施例一提供一种存储数据的方法,该方法通过获取原始数据集,从原始数据集中提取节点信息,节点属性信息,边信息,和边属性信息;节点信息至少包括:节点标识和节点属性的关键码;所述节点属性关键码与所述节点属性信息具有对应关系;边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;由于节点与节点属性的关系,边与边属性的关系,节点与节点的连线为边,使得提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,存储上述提取的节点信息,节点属性信息,边信息,和边属性信息。由于提取信息之间具有联系,因此在后续对数据进行操作时,可以快速准确定位到所需要的数据。同时,与现有的OLAP多维数据仓库模型相比,本发明实施例提供的方案存储的信息中,不仅包括与现有技术相同的节点信息,节点属性信息,使得研究人员可以关注以节点为中心的事实,而且,本发明实施例提供的方案存储的信息中,还包括现有技术不能关注的边信息和边属性信息,使得研究人员还可以关注节点之间关系。
进一步,对本发明实施例一提供一种存储数据的方法,解决了现有的OLAP多维数据仓库模型中,原始数据集中存在的冗余问题,本发明实施例提供的方案具有查询灵活,高效,主题抽取灵活的优点
更进一步,本发明实施例一提供一种存储数据的方法,更符合现实社会网络的建模要求,有利于高效OLGP算法设计,且该模型向传统关系表转化方便,利于人们对现实世界信息的理解。
而且,本发明实施例提供的方案中,根据节点与节点的连线为边,建立了节点与边的联系,因此,将节点信息、节点属性信息,以及边信息,边属性信息直接建立了联系,因此,本方案由于发现了边与节点之间的重要联系,使得对现有技术的改动较小的基础上,能够实现关注节点之间关系。
实施例二
本发明实施例提供了一种数据的存储方法,该方法与上述实施例一提供的方法相似,所不同的是,本发明实施例提供的方法,是一种具体应用在科研合作者信息网络中的存储方法举例。
科研合作者网络是记录某领域科研人员和在发表论文的情况,是信息网络的典型事例。如图6所示,每个节点表示一个作者,若两人合作发表过文章,则两点间存在一条边。边的属性记录两合作者在特点时间、特定会议发表的文章数。下面以美国计算机学会(ACM,Association for ComputingMachinery)数据集中的合作者网络为例,对多维信息网络数据仓库模型的实施流程进行详细的阐述和展示。
如图7所示,该方法包括:
步骤201,获取原始数据集。
目前大多数科研工作者使用的都是未经处理过的、杂乱无章的数据集来进行研究分析的。对于经典的合作者网络,其数据集版本就各式各样。比较典型的有基于xml文本的数字文献与图书馆项目(DBLP,Digital Bibliography&Library Project)数据集和ACM数据集。在ACM原始数据集中,其xml版本的数据格式组织如下:
<author>…</author>
<Institute>…</institute>
<author>…</author>
<Institute>…</institute>
<author>…</author>
<Institute>…</institute>
<title>…</title>
<year>…</year>
<journal>…</journal>
原始数据集可以是以非结构化文本方式存储,不利于用户高效的进行查询分析操作。本方案对获取的ACM数据集进行提取,分类存储,可以高效的进行查询分析操作。
步骤202,从原始数据集中提取表示信息网络图结构的信息;其中,表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;节点信息至少包括:节点标识和节点属性的关键码;所述节点属性关键码与所述节点属性信息具有对应关系;边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;其中,边用于描述节点与节点之间的联系。
由于节点与节点属性的关系,边与边属性的关系,节点与节点的连线为边,使得上述提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系。
在合作者网络中,提取的节点信息可以是以节点事实表(VFT,Vertex FactTable)存储的,其中,节点信息可以包括节点ID、节点属性关键码,还可以包括节点的度量。在合作者网络中节点表示作者。
提取的边信息可以存储在边事实边(EFT,Edge Fact Table),存储边信息可以包括:两个作者节点id1、id2(用于表示边标识),边属性的关键码(如:论文关键码(Paper_key),时间关键码(Time_key),和地点关键码(Venue_key)),边信息还可以包括边的度量。
节点属性信息是节点属性关键码所对应的具体信息,节点属性信息具体可以是存储在拓扑维表(TDT,Topology dimension Table)中,拓扑维表可以有一个或者一个以上。如在节点信息中节点的关键码为机构关键码(Institution_ID),则在拓扑维表中可以存储的是所有作者(即节点)所工作过的机构名称。
边属性信息是边属性关键码所对应的具体信息,边属性信息具体可以是存储在信息维表(IDT,Information Dimension Table)中。例如:上述论文关键码(Paper_key),时间关键码(Time_key),和地点关键码(Venue_key),对应的边属性信息,具体可以是分别存储在论文维表,时间维表,地点(Venue)维表。信息维表使论文集能够记录论文的发表会议、发表时间以及论文ID和论文名称等。如Paper维表可以包含Paper_key,Paper_name。图8给出了图7是。本发明实施例提供的方法,依照图8所示的多维信息网络数据仓库模型,提取表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息。存储提取的信息,其中存储的具体方法可以是以表格的形式存储对应的信息。
步骤203,存储提取的节点信息,节点属性信息,边信息,和边属性信息,其中,存储上述信息具体采用节点事实表,拓扑维表,边事实表,和信息维表进行存储。
为了更清楚了理解边事实表、节点事实表、信息维表、以及拓扑维表的信息,下面结合具体附图进行详细说明。
一、边事实表
合作者网络的边事实表(EFT)由两个作者节点的ID(Author1_id,Author2_id),各个边属性(边属性的具体信息存储在信息维表)的关键码(Paper_key,Time_key,Venue_key)以及度量值(可以是:合作次数(Co_Frequence))组成。Author1_id,Author2_id组成合作者网络边事实关系表的主键,该主键可以定位一条边(即可以表示边标识)。边事实表与各个信息维表的连接可以通过Paper_key,Time_key,Venue_key来完成。一个边对应一个边事实表。边事实表中携带的具体信息,可以由边事实关系表表示,如图9所示边事实表转换为边事实关系表,图9左边的表格中仅标识出了边事实表的表头,即边事实表中关注的边相关的重要信息,如边标识和边属性关键码;而在图9右边的表格中对于边标识和边属性关键码的具体信息进行定位,或者可以理解为边标识和边属性关键码的具体取值。
例如,图9中右边的表格中第一行Author1_id的取值为0,Author2_id的取值为1;
Paper_key取值为1,表示取值为0和1的作者合作的论文的具体信息,参见取值为1所对应的表示论文具体信息的信息维表;
Time_key取值为1,表示取值为0和1的作者合作的时间的具体信息,参见取值为1所对应的表示时间具体信息的信息维表;
Venue_key取值为1,表示取值为0和1的作者合作的地点的具体信息,参见取值为1所对应的表示地点具体信息的信息维表;
其中,上述Paper_key,Time_key,Venue_key为边信息中包括的边属性关键码,该关键码的每个取值对应具体的信息维表。
Co_frequence取值为1,是边信息中包括的边的度量,其取值通常为具体的数值,即Co_frequence取值为1,可以理解为值为0和1的作者合作的次数为1次。
二、节点事实表
合作者网络节点事实表(VFT)由节点信息(具体是节点ID,或者是作者ID),和节点属性的关键码,还可以包括节点的度量值。
其中,节点信息包括:节点ID和/或作者ID,即节点信息可以是单独的节点ID,也可以是节点ID与作者ID联合表示,或者也可以是由作者ID单独表示。作者ID(Author_id)可唯一表示一个节点,作为节点事实关系表的主键。
节点属性的关键码,具体可以是拓扑维表的主键,(该主键可以理解为拓扑维表中记录的信息的主题信息,例如拓扑维表组织的主键(Institution_id)中记录的是组织的标识等信息),拓扑维表可以有多个,每个都可以反映节点的一种属性。
节点的度量值具体可以该节点作者发表文章数(即Paper_Num)组成,也可以有节点的度量值。
节点事实表通常有一个。节点事实表与拓扑维表的链接可以通过拓扑维表组织的主键(即Institution_id)来实现。节点事实表中携带的具体信息,可以由节点事实关系表表示,如图10所示节点事实表转换为节点事实关系表,图10左边的表格中仅标识出了节点事实表的表头,即节点事实表中关注的节点相关的重要信息,如作者标识,作者名称,组织所述组织名称,作者发表的论文数等;而在图10右边的表格中对于节点标识和节点属性关键码的具体信息进行定位,或者可以理解为节点标识和节点属性关键码的具体取值。
例如,图9中右边的表格中第一行作者标识为0,作者名称为Janwei Han,组织所述组织名称的代码为1,作者发表的论文数为15篇。
三、信息维表
信息维表(IDT)由能够标识该信息维表的主键(即主键理解为信息维表中记录的信息的主题信息)和该信息维表的一些相关属性组成。信息维可以有多个,每个维都有一个关系表与之相关联,称为维表,它进一步描述维。在合作者网络中信息维包括Paper维表,Time维表,Venue维表。维表由用户自己根据实际情况设定,或者根据数据分布自动产生和调整。信息维向关系信息维表的转化如图11所示:
其中,图11右边的信息维表关系表转化中,Paper_key标识为1唯一标识了paper_name是FP_tree,Paper_classify为TP311这条paper记录;同理,Paper_key标识为2、3、4有相似的理解。
Time_key标识为1唯一标识了为1967年,年代为1960年代的Time记录,同理,Time_key标识为2、3、4有相似的理解。
Venue_key标识为1唯一标识了Venue_name是VLDB,Venue_area是DB的Venue记录,同理,Venue_key标识为2、3、4有相似的理解。
四、拓扑维表
拓扑维决定信息网络的边集和节点集,即决定信息网络中图的拓扑结构。进而决定了节点所表示单位的大小。合作者网络中拓扑维是机构。拓扑维表(TDT)由能够唯一标识该拓扑维表的主键和该拓扑维表的一些相关属性组成。同样拓扑维表可以有多个。各个拓扑维向关系拓扑维表的转化如图12所示,即在拓扑维表中具体的存储形式可以如图12右边的关系拓扑维表中的存储形式。
便于理解信息网络数据仓库模型,如下进一步对此概念进行说明:
信息维:图结构为G(V,E)=G(V,f(ID))。其中V是图中点的集合,E表示边的集合,函数f为图G的边信息决定函数。设变量ID={I1,I2…Im}是OLGP中待考察的维度集合,这m个信息属性构成的维度集合只能决定图的边集,不能改变图的拓扑结构,称ID为信息维集合。
拓扑维:设变量TD={T1,T2,…,Tn}是刻画OLGP中图中心度量拓扑结构的一个集合。一个图可表示为G(V,E)=G(Φ(TD),δ(TD)),其中函数Φ为点拓扑决定函数,函数δ为边拓扑决定函数。这n个拓扑属性构成的拓扑维决定图的点集合和边集合,从而决定图的拓扑结构,称TD为拓扑维集合。
信息网络数据仓库模型:设ROLGP(EFT,VFT,S(IDT),S(TDT),F)是关系OLGP数据立方体。其中,EFT为边事实表,VFT为节点事实表,S(IDT)信息维表集合,IDT为信息维表,S(TDT)拓扑维表集合,TDT为拓扑维表,F为表间的依赖关系集合,且需满足以下约束:
(1)IDT通过外键与EFT连接,TDT通过外键与VFT连接,EFT与VFT通过节点ID连接。(2)EFT,VFT,IDT,TDT满足关系表,即满足以下定义:R(U,D,Dom,F’).R为关系表,U为组成该关系的属性名集合,D为属性组U中属性所来自的域,Dom为属性向域的集合,F’为属性间数据的依赖关系集合。
与传统OLAP建模类似,基于OLGP的信息网络的建模也有事实表和维表。不同的是事实表由边事实表(EFT)和节点事实表(VFT)共同组成,维表则是由信息维表(IDT)和拓扑维表(TDT)组成。对OLGP信息网络做基于关系数据的建模,对节点和边分别用节点事实表和边事实表进行存储,与边事实表相关的属性利用信息维表进行存储,与节点相关的属性利用拓扑维表进行存储。
通过上述对本发明实施例二提供一种存储数据的方法,该方法通过获取原始数据集,从原始数据集中提取节点信息,节点属性信息,边信息,和边属性信息;节点信息至少包括:节点标识和节点属性的关键码;所述节点属性关键码与所述节点属性信息具有对应关系;边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;由于节点与节点属性的关系,边与边属性的关系,节点与节点的连线为边,使得提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,存储上述提取的节点信息,节点属性信息,边信息,和边属性信息。由于提取信息之间具有联系,因此在后续对数据进行操作时,可以快速准确定位到所需要的数据。同时,与现有的OLAP多维数据仓库模型相比,本发明实施例提供的方案存储的信息中,不仅包括与现有技术相同的节点信息,节点属性信息,使得研究人员可以关注以节点为中心的事实,而且,本发明实施例提供的方案存储的信息中,还包括现有技术不能关注的边信息和边属性信息,使得研究人员还可以关注节点之间关系。
更进一步,本发明实施例提供的方案中,根据节点与节点的连线为边,建立了节点与边的联系,因此,将节点信息、节点属性信息,以及边信息,边属性信息直接建立了联系,因此,本方案由于发现了边与节点之间的重要联系,使得对现有技术的改动较小的基础上,能够实现关注节点之间关系。
优选的,由于本发明实施例提供的存储方法,对于后续对存储的数据的查询操作实现非常快速,准确。如下该方法还可以包括:
步骤204,对需要查询的数据,在存储的所述节点信息,节点属性信息,边信息,和边属性信息中进行定位;从定位后的所述节点信息,节点属性信息,边信息,或者边属性信息中其中之一中进行查询。
即判处出需要查询的数据时属于节点信息,或者是节点属性信息,或者是边信息,或者是边属性信息;从判断出的其中之一的信息中进行查询操作。大大缩小了查询的范围。
例如:在合作者网络中,查询不同会议发表的论文数量,由于采用上述步骤201~203的存储方法,在该多维信息网络数据仓库模型,涉及EFT与Venue表(信息维表中的地址表,即Venue表),EFT表中的边属性关键码Venue_key与信息维表,即Venue表,建立连接关系。可以查询出不同会议发表的论文数量。具体的查询操作可以如下所示:
结构化查询语言(SQL,Structured Query Language)语句:
select EFT.Paper_key
from EFT,Venue
where EFT.Venue_key=Venue.Venue_key AND Venue.Venue_name=“会议名称”
通过增加上述步骤204,对需要查询的数据进行查询时,在多维信息网络数据仓库中的边事实表、节点事实表、信息维表以及拓扑维表中,可以判断出该需要查询信息应该属于上述表中的一个或者一个以上,因此,可以消除大量信息冗余,查询起来高效并且节约时间。对特定问题的查询只涉及部分表的连接操作。
优选的,该方法还包括如下步骤:
步骤205,根据所述提取的节点信息,节点属性信息,边信息,和边属性信息,进行在线图处理操作(OLGP,Online Graph Processing)。
其中,OLGP操作可以包括但不限于:上卷(信息维上卷(I-OLGP),拓扑维上卷(T-OLGP),异步上卷),下钻,切片,切块,数据透视。
其中,对合作者网络可进行信息维上卷(I-OLGP),具体操作可以是:在信息维中的时间维上进行年份(year)→年代(decade)→全部(all)不同层次的上卷操作,从不同年份发表的论文数量上卷到不同年代发表的论文数量,再上卷到所有时间发表的论文数量。
其中,对合作者网络可进行拓扑维上卷,具体操作可以是:在拓扑维表中的机构维上进行作者个人(Author)→作者机构(Institution)→全部(all)不同拓扑层次上卷操作,从不同作者间的合作关系上卷到不同机构之间的合作关系。
需要理解的是,上卷操作,可以理解为在某一维上将低层次的细节数据概括到高层次的汇总数据。例如,对信息维(时间维)上卷,由年份向年代上卷,得到年代的聚合数据,再由年代向所有年份上卷,可得到所有年份的聚合数据。
由于采用本发明实施例提供的存储方法进行存储,存储的信息之间具有联系,即所述提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,因此,在对存储的信息进行在线图处理(OLGP)操作时,可以针对不同的分类的信息进行处理,如仅对信息维表中存储的边属性信息进行操作,或者仅对拓扑维表中存储的节点属性信息进行操作等等。
更进一步,利用本发明实施例提供的存储方法,可以通过共享信息维进行多主题建模,能够很少的重构底层数据,尽可能的共享已有的维表。例如在关键字—合作者网络模型中,由于关键字网络与合作者网络都包含Paper、Time、Venue维,因而可以通过共享这三个信息维构建关键字合作者网络。如图13所示,关键字事实表与合作者事实表通过共享Venue维、Paper维和Time维构建关键字—合作者多维信息网络数据仓库模型。
从图13所示的关键字—合作者多维信息网络数据仓库模型可以看出,左边四列所显示的节点代表学期(Term),边代表学期与学期之间的情况,左边四列是以执行与上述说明的步骤201~203的操作进行存储节点信息,节点属性信息,边信息,和边属性信息;右边四列所显示的节点代表作者,边代表作者与作者之间的情况,左边四列是以执行与上述说明的步骤201~203的操作进行存储节点信息,节点属性信息,边信息,和边属性信息。即左右两边存储的主题不同(左边存储的主题是以节点代表学期,右边存储的主题是以节点代表作者)。
其中,中间的Co_IDT可以作为左边存储仓库中的信息维表,也可以作为右边存储仓库的信息维表,即左右两边的多维信息网络数据仓库共用信息维表,即两仓库中存储的边的属性信息是相同的。
因此,当节点所代表的主题不同时,采用本发明实施例提供的存储方法存储的多个主题的数据时,可以通过共享信息维进行多主题建模,能够很少的重构底层数据,尽可能的共享已有的维表。
实施例三
本发明实施例提供了一种数据的存储方法,该方法与上述实施例儿提供的方法相似,所不同的是,本发明实施例提供的方法,是另一种具体应用的存储方法举例。是将该存储方法应用在电影演员合作网络中。
电影演员合作网络也是信息网络的一种。当用户需要关注演员间合作关系时,节点标识演员,边代表两演员之间有合作关系。电影演员合作网络如图14所示,节点描述包括:演员名,性别,年纪,所属电影公司;边描述包括:电影名称,上映时间。如图15所示,该方法包括:
步骤301,获取原始数据集,对于电影演员合作网络的原始数据集,通常是杂乱的演员的名字,性别,所出演电影名称,上映的时间等等,混乱无序。不便于查找,以及OLGP操作等。
步骤302,从原始数据集中提取表示信息网络图结构的信息;其中,表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;节点信息至少包括:节点标识和节点属性的关键码;所述节点属性关键码与所述节点属性信息具有对应关系;边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;边用于描述节点与节点之间的联系。
由于节点与节点属性的关系,边与边属性的关系,所述边用于描述节点与节点之间的联系,可以容易用图结构体现上述提取的节点信息,节点属性信息,边信息,和边属性信息之间的联系。
在电影演员合作网络中,提取的节点信息可以是以节点事实表(VFT,Vertex Fact Table)存储的,其中,节点信息可以包括节点ID、节点属性关键码,还可以包括节点的度量。如图15所示VFT,节点ID为演员(Actor_id)和演员姓名,节点属性关键码为演员所属公司关键码(Film_Comany_id),节点的度量为演员所演电影数量(Film_Num)。
提取的边信息可以存储在边事实边(EFT,Edge Fact Table),存储边信息可以包括:两个演员节点id1、id2(用于表示边标识),边属性的关键码(如:合作电影关键码(Film_key),上映时间关键码(Release_Time_key),边信息还可以包括边的度量(即合作次数Co_Frequence)。
节点属性信息是节点属性关键码所对应的具体信息,节点属性信息具体可以是存储在拓扑维表(TDT,Topology dimension Table)中,拓扑维表可以有一个或者一个以上。如在节点信息中节点的关键码为电影公司关键码(Film_Comany_ID),则在拓扑维表中可以存储的是演员(即节点)所属电影公司名称。
边属性信息是边属性关键码所对应的具体信息,边属性信息具体可以是存储在信息维表(IDT,Information Dimension Table)中。例如:上述合作电影关键码(Film_key),上映时间关键码(Release_Time_key),对应的边属性信息,具体可以是分别存储在电影维表,上映时间维表。电影维表记录电影名称,电影类型等信息;上映时间维表记录上映年,年代等信息。
步骤303,存储提取的节点信息,节点属性信息,边信息,和边属性信息,其中,存储上述信息具体采用节点事实表,拓扑维表,边事实表,和信息维表进行存储。如图16所示存储的节点事实表,拓扑维表,边事实表,和信息维表组成的电影演员合作多维信息网络数据仓库模型。
通过上述对本发明实施例三提供一种存储数据的方法,该方法通过获取原始数据集,从原始数据集中提取节点信息,节点属性信息,边信息,和边属性信息;节点信息至少包括:节点标识和节点属性的关键码;所述节点属性关键码与所述节点属性信息具有对应关系;边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;由于节点与节点属性的关系,边与边属性的关系,节点与节点的连线为边,使得提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,存储上述提取的节点信息,节点属性信息,边信息,和边属性信息。由于提取信息之间具有联系,因此在后续对数据进行操作时,可以快速准确定位到所需要的数据。同时,与现有的OLAP多维数据仓库模型相比,本发明实施例提供的方案存储的信息中,不仅包括与现有技术相同的节点信息,节点属性信息,使得研究人员可以关注以节点为中心的事实,而且,本发明实施例提供的方案存储的信息中,还包括现有技术不能关注的边信息和边属性信息,使得研究人员还可以关注节点之间关系。
更进一步,本发明实施例提供的方案中,根据节点与节点的连线为边,建立了节点与边的联系,因此,将节点信息、节点属性信息,以及边信息,边属性信息直接建立了联系,因此,本方案由于发现了边与节点之间的重要联系,使得对现有技术的改动较小的基础上,能够实现关注节点之间关系。
优选的,由于本发明实施例提供的存储方法,对于后续对存储的数据的查询操作实现非常快速,准确。如下该方法还可以包括:
步骤304,对需要查询的数据,在存储的所述节点信息,节点属性信息,边信息,和边属性信息中进行定位。从定位后的所述节点信息,节点属性信息,边信息,或者边属性信息中其中之一中进行查询。即判处出需要查询的数据时属于节点信息,或者是节点属性信息,或者是边信息,或者是边属性信息;在定位后的信息中进行查询,缩小的查询的范围。
例如:在在电影演员合作网络中,查询不同年份发行的电影数量,由于采用上述步骤301~303的存储方法,在该多维信息网络数据仓库模型,涉及EFT与上映时间表(信息维表中的Release_Time表),EFT表中的边属性关键码Release_Time_key与信息维表,即Release_Time表,建立连接关系。可以查询出不同年份发行的电影数量。具体的查询操作可以如下所示:
结构化查询语言(SQL,Structured Query Language)语句:
select EFT.Film_key
from EFT,Release_Time
where EFT.Release_Time_key=Release_Time.Release_Time_key ANDRelease_Time.Year=“年份”
通过增加上述步骤304,对需要查询的数据进行查询时,在多维信息网络数据仓库中的边事实表、节点事实表、信息维表以及拓扑维表中,可以判断出该需要查询信息应该属于上述表中的一个或者一个以上,因此,可以消除大量信息冗余,查询起来高效并且节约时间。对特定问题的查询只涉及部分表的连接操作。
优选的,该方法还包括如下步骤:
步骤305,根据所述提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,进行在线图处理操作(OLGP,Online Graph Processing)。
其中,OLGP操作可以包括但不限于:上卷(信息维上卷(I-OLGP),拓扑维上卷(T-OLGP),异步上卷),下钻,切片,切块,数据透视。
其中,对合作者网络可进行信息维上卷(I-OLGP),具体操作可以是:在信息维中的时间维上进行年份(year)→年代(decade)→全部(all)不同层次的上卷操作,从不同年份发行的电影数量上卷到不同年代发行的电影数量,再上卷到所有时间发行的电影数量。
其中,对合作者网络可进行拓扑维上卷,具体操作可以是:在拓扑维表中的机构维上进行演员(Actor)→所属电影公司(Film_Company)→全部(all)不同拓扑层次上卷操作,从不同演员间的合作关系上卷到不同电影公司之间的合作关系。
由于采用本发明实施例提供的存储方法进行存储,存储的信息之间具有联系,即所述提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,因此,在对存储的信息进行在线图处理(OLGP)操作时,可以针对不同的分类的信息进行处理,如仅对信息维表中存储的边属性信息进行操作,或者仅对拓扑维表中存储的节点属性信息进行操作等等。
更进一步,利用本发明实施例提供的存储方法,可以通过共享信息维进行多主题建模,能够很少的重构底层数据,尽可能的共享已有的维表。
实施例四
本发明实施例提供了一种数据的存储装置,如图17所示,该装置包括:获取单元401,提取单元402,和存储单元403;
所述获取单元401,用于获取原始数据集;
其中,原始数据集可以理解为用户收集的所有数据的集合,这些数据是杂乱,不利于分析的。获取单元中获取的原始数据集可以是输入到该执行设备中的非结构化文本的原始数据。
所述提取单元402,用于从原始数据集中提取表示信息网络图结构的信息;其中,所述表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;所述节点信息至少包括:节点标识和节点属性关键码;所述节点属性关键码与所述节点属性信息具有对应关系;所述边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;所述边用于描述节点与节点之间的联系;
由于节点与节点属性的关系,边与边属性的关系,所述边用于描述节点与节点之间的联系,可以容易用图结构体现上述提取的节点信息,节点属性信息,边信息,和边属性信息之间的联系(参见上述说明的图5、图8、图16)。
所述存储单元403,用于存储所述提取的节点信息,节点属性信息,边信息,和边属性信息。
其中,所述存储单元存储提取的节点信息,节点属性信息,边信息,和边属性信息,具体可以是以表格的形式存储,即通过:节点事实表,拓扑维表,边事实表,信息维表将上述信息对应存储。其中,以表格的形式存储是一种事实方式,并非对本发明实施例的限制,具体的存储形式还可以有其他。
通过上述对本发明实施例一提供一种存储数据的装置,该装置通过获取原始数据集,从原始数据集中提取节点信息,节点属性信息,边信息,和边属性信息;节点信息至少包括:节点标识和节点属性的关键码;所述节点属性关键码与所述节点属性信息具有对应关系;边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;由于节点与节点属性的关系,边与边属性的关系,节点与节点的连线为边,使得提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,存储上述提取的节点信息,节点属性信息,边信息,和边属性信息。由于提取信息之间具有联系,因此在后续对数据进行操作时,可以快速准确定位到所需要的数据。同时,与现有的OLAP多维数据仓库模型相比,本发明实施例提供的方案存储的信息中,不仅包括与现有技术相同的节点信息,节点属性信息,使得研究人员可以关注以节点为中心的事实,而且,本发明实施例提供的方案存储的信息中,还包括现有技术不能关注的边信息和边属性信息,使得研究人员还可以关注节点之间关系。
进一步,对本发明实施例一提供一种存储数据的装置,解决了现有的OLAP多维数据仓库模型中,原始数据集中存在的冗余问题,本发明实施例提供的方案具有查询灵活,高效,主题抽取灵活的优点
更进一步,本发明实施例一提供一种存储数据的装置,更符合现实社会网络的建模要求,有利于高效OLGP算法设计,且该模型向传统关系表转化方便,利于人们对现实世界信息的理解。
而且,本发明实施例提供的方案中,根据节点与节点的连线为边,建立了节点与边的联系,因此,将节点信息、节点属性信息,以及边信息,边属性信息直接建立了联系,因此,本方案由于发现了边与节点之间的重要联系,使得对现有技术的改动较小的基础上,能够实现关注节点之间关系。
优选的,本方案中,所述节点信息还包括:节点度量值;所述边信息还包括:边度量值。
优选的,本方案中,所述提取的节点信息存储在节点事实表中;
所述提取的边信息存储在边事实表中;
所述提取的节点属性信息存储在拓扑维表中;
所提取的边属性信息存储在信息维表中;
由于所述边用于描述节点与节点之间的联系,则所述节点事实表与所述边事实表具有联系;
所述节点属性关键码与所述节点属性信息具有对应关系;则所述拓扑维表与所述节点事实表具有联系;
由于所述边属性关键码与所述边属性信息具有对应关系,则所述信息维表与所述边事实表具有联系。
优选的,所述装置还包括:定位单元404,和查询单元405;
所述定位单元404,用于对需要查询的数据,在所述存储的所述节点信息,节点属性信息,边信息,和边属性信息中进行定位;
所述查询单元405,用于从定位后的所述节点信息,节点属性信息,边信息,或者边属性信息中其中之一中进行查询。
通过增加上述定位单元404,和查询单元405,对需要查询的数据进行查询时,在多维信息网络数据仓库中的边事实表、节点事实表、信息维表以及拓扑维表中,可以判断出该需要查询信息应该属于上述表中的一个或者一个以上,因此,可以消除大量信息冗余,查询起来高效并且节约时间。对特定问题的查询只涉及部分表的连接操作。
优选的,本方案中,所述装置还包括:图处理单元406;
所述图处理单元406,用于根据所述提取的节点信息,节点属性信息,边信息,和边属性信息,进行在线图处理操作。
优选的,本方案中,所述图处理单元406中所述在线图处理操作至少包括:
上卷(信息维上卷(I-OLGP),拓扑维上卷(T-OLGP),异步上卷),下钻,切片,切块,数据透视其中之一。
优选的,本方案中,所述图处理单元406中若所述提取的边属性信息存储在信息维表中,则所述信息维上卷具体包括:
对信息维表中存储的边的一种属性的信息,或者一种以上属性的信息进行上卷操作。
优选的,本方案中,所述图处理单元406中若所述提取的节点属性信息存储在拓扑维表中,则所述拓扑维聚集操具体包括:
对拓扑维表中存储的节点的一种属性的信息,或者一种以上属性的信息进行上卷操作。
由于采用本发明实施例提供的存储方法进行存储,存储的信息之间具有联系,即所述提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,因此,在对存储的信息进行在线图处理(OLGP)操作时,可以针对不同的分类的信息进行处理,如仅对信息维表中存储的边属性信息进行操作,或者仅对拓扑维表中存储的节点属性信息进行操作等等。
更进一步,利用本发明实施例提供的存储方法,可以通过共享信息维进行多主题建模,能够很少的重构底层数据,尽可能的共享已有的维表。
实施例五
本发明实施例提供了一种数据的存储装置,如图18所示,该装置包括:包括分别连接到总线上的存储器40、处理器41、输入装置43和输出装置44,
其中,存储器40中用来储存从输入装置43输入的数据,且还可以储存处理器41处理数据的必要文件等信息;
输入装置43,用于获取原始数据集;
处理器41,用于用于从原始数据集中提取表示信息网络图结构的信息;其中,所述表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;所述节点信息至少包括:节点标识和节点属性关键码;所述节点属性关键码与所述节点属性信息具有对应关系;所述边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;所述边用于描述节点与节点之间的联系;
所述存储器40,还用于存储所述提取的节点信息,节点属性信息,边信息,和边属性信息。
通过上述对本发明实施例一提供一种存储数据的装置,该装置通过获取原始数据集,从原始数据集中提取节点信息,节点属性信息,边信息,和边属性信息;节点信息至少包括:节点标识和节点属性的关键码;所述节点属性关键码与所述节点属性信息具有对应关系;边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息具有对应关系;由于节点与节点属性的关系,边与边属性的关系,节点与节点的连线为边,使得提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,存储上述提取的节点信息,节点属性信息,边信息,和边属性信息。由于提取信息之间具有联系,因此在后续对数据进行操作时,可以快速准确定位到所需要的数据。同时,与现有的OLAP多维数据仓库模型相比,本发明实施例提供的方案存储的信息中,不仅包括与现有技术相同的节点信息,节点属性信息,使得研究人员可以关注以节点为中心的事实,而且,本发明实施例提供的方案存储的信息中,还包括现有技术不能关注的边信息和边属性信息,使得研究人员还可以关注节点之间关系。
进一步,对本发明实施例一提供一种存储数据的装置,解决了现有的OLAP多维数据仓库模型中,原始数据集中存在的冗余问题,本发明实施例提供的方案具有查询灵活,高效,主题抽取灵活的优点。
更进一步,本发明实施例一提供一种存储数据的装置,更符合现实社会网络的建模要求,有利于高效OLGP算法设计,且该模型向传统关系表转化方便,利于人们对现实世界信息的理解。
而且,本发明实施例提供的方案中,根据节点与节点的连线为边,建立了节点与边的联系,因此,将节点信息、节点属性信息,以及边信息,边属性信息直接建立了联系,因此,本方案由于发现了边与节点之间的重要联系,使得对现有技术的改动较小的基础上,能够实现关注节点之间关系。
优选的,处理器41中处理的所述节点信息还包括:节点度量值;所述边信息还包括:边度量值。
优选的,处理器41中所述提取的节点信息存储在节点事实表中;所述提取的边信息存储在边事实表中;所述提取的节点属性信息存储在拓扑维表中;所提取的边属性信息存储在信息维表中;由于所述边用于描述节点与节点之间的联系,则所述节点事实表与所述边事实表具有联系;所述节点属性关键码与所述节点属性信息具有对应关系;则所述拓扑维表与所述节点事实表具有联系;由于所述边属性关键码与所述边属性信息具有对应关系,则所述信息维表与所述边事实表具有联系。
优选的,处理器41还用于对需要查询的数据,在所述存储的所述节点信息,节点属性信息,边信息,和边属性信息中进行定位;从定位后的所述节点信息,节点属性信息,边信息,或者边属性信息中其中之一中进行查询。
对需要查询的数据进行查询时,在多维信息网络数据仓库中的边事实表、节点事实表、信息维表以及拓扑维表中,可以判断出该需要查询信息应该属于上述表中的一个或者一个以上,因此,可以消除大量信息冗余,查询起来高效并且节约时间。对特定问题的查询只涉及部分表的连接操作。
优选的,处理器41还用于根据所述提取的节点信息,节点属性信息,边信息,和边属性信息,进行在线图处理操作。
优选的,处理器41还用于中所述在线图处理操作至少包括:
上卷(信息维上卷(I-OLGP),拓扑维上卷(T-OLGP),异步上卷),下钻,切片,切块,数据透视其中之一。
优选的,处理器41还用于中若所述提取的边属性信息存储在信息维表中,则所述信息维上卷具体包括:
对信息维表中存储的边的一种属性的信息,或者一种以上属性的信息进行上卷操作。
优选的,处理器41还用于中若所述提取的节点属性信息存储在拓扑维表中,则所述拓扑维聚集操具体包括:
对拓扑维表中存储的节点的一种属性的信息,或者一种以上属性的信息进行上卷操作。
由于采用本发明实施例提供的存储方法进行存储,存储的信息之间具有联系,即所述提取的节点信息,节点属性信息,边信息,和边属性信息之间具有联系,因此,在对存储的信息进行在线图处理(OLGP)操作时,可以针对不同的分类的信息进行处理,如仅对信息维表中存储的边属性信息进行操作,或者仅对拓扑维表中存储的节点属性信息进行操作等等。
更进一步,利用本发明实施例提供的存储方法,可以通过共享信息维进行多主题建模,能够很少的重构底层数据,尽可能的共享已有的维表。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种存储数据的方法和装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种存储数据的方法,其特征在于,所述方法包括:
获取原始数据集;
从原始数据集中提取表示信息网络图结构的信息;其中,所述表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;
所述节点信息至少包括:节点标识和节点属性关键码;
所述节点属性关键码与所述节点属性信息具有对应关系;
所述边信息至少包括:边标识和边属性关键码;
所述边属性关键码与所述边属性信息具有对应关系;
所述边用于描述节点与节点之间的联系;
存储所述提取的节点信息,节点属性信息,边信息,和边属性信息。
2.根据权利要求1所述方法,其特征在于,
所述节点信息还包括:节点度量值;
所述边信息还包括:边度量值。
3.根据权利要求1或者2所述方法,其特征在于,
所述提取的节点信息存储在节点事实表中;
所述提取的边信息存储在边事实表中;
所述提取的节点属性信息存储在拓扑维表中;
所提取的边属性信息存储在信息维表中;
由于所述边用于描述节点与节点之间的联系,则所述节点事实表中的信息与所述边事实表中的信息具有对应关系;
所述节点属性关键码与所述节点属性信息具有对应关系;则所述拓扑维表中的信息与所述节点事实表中的信息具有对应关系;
由于所述边属性关键码与所述边属性信息,则所述信息维表中的信息与所述边事实表中的信息具有对应关系。
4.根据权利要求1所述方法,其特征在于,所述存储所述提取的节点信息,节点属性信息,边信息,和边属性信息之后,所述方法还包括:
对需要查询的数据,在所述存储的所述节点信息,节点属性信息,边信息,和边属性信息中进行定位;
从定位后的所述节点信息,节点属性信息,边信息,或者边属性信息中其中之一中进行查询。
5.根据权利要求1所述方法,其特征在于,所述存储所述提取的节点信息,节点属性信息,边信息,和边属性信息之后,所述方法还包括:
根据所述提取的节点信息,节点属性信息,边信息,和边属性信息,进行在线图处理操作。
6.根据权利要求5所述方法,其特征在于,所述在线图处理操作至少包括:
信息维上卷(I-OLGP),拓扑维上卷(T-OLGP),异步上卷,下钻,切片,切块,数据透视其中之一。
7.根据权利要求6所述方法,其特征在于,若所述提取的边属性信息存储在信息维表中,则所述信息维上卷具体包括:
对信息维表中存储的边的一种属性的信息,或者一种以上属性的信息进行上卷操作。
8.根据权利要求6所述方法,其特征在于,若所述提取的节点属性信息存储在拓扑维表中,则所述拓扑维聚集操具体包括:
对拓扑维表中存储的节点的一种属性的信息,或者一种以上属性的信息进行上卷操作。
9.一种存储数据的装置,其特征在于,所述装置包括:获取单元,提取单元,和存储单元;
所述获取单元,用于获取原始数据集;
所述提取单元,用于从原始数据集中提取表示信息网络图结构的信息;其中,所述表示信息网络图结构的信息至少包括:节点信息,节点属性信息,边信息,和边属性信息;所述节点信息至少包括:节点标识和节点属性关键码;所述节点属性关键码与所述节点属性信息具有对应关系;所述边信息至少包括:边标识和边属性关键码;所述边属性关键码与所述边属性信息对应关系;所述边用于描述节点与节点之间的联系;
所述存储单元,用于存储所述提取的节点信息,节点属性信息,边信息,和边属性信息。
10.根据权利要求9所述装置,其特征在于,
所述节点信息还包括:节点度量值;
所述边信息还包括:边度量值。
11.根据权利要求9或者10所述装置,其特征在于,
所述提取的节点信息存储在节点事实表中;
所述提取的边信息存储在边事实表中;
所述提取的节点属性信息存储在拓扑维表中;
所提取的边属性信息存储在信息维表中;
由于所述边用于描述节点与节点之间的联系,则所述节点事实表中的信息与所述边事实表中的信息具有对应关系;
所述节点属性关键码与所述节点属性信息具有对应关系;则所述拓扑维表中的信息与所述节点事实表中的信息具有对应关系;
由于所述边属性关键码与所述边属性信息具有对应关系,则所述信息维表中的信息与所述边事实表中的信息具有对应关系。
12.根据权利要求9所述装置,其特征在于,所述装置还包括:定位单元,和查询单元;
所述定位单元,用于对需要查询的数据,在所述存储的所述节点信息,节点属性信息,边信息,和边属性信息中进行定位;
所述查询单元,用于从定位后的所述节点信息,节点属性信息,边信息,或者边属性信息中其中之一中进行查询。
13.根据权利要求9所述装置,其特征在于,所述装置还包括:图处理单元;
所述图处理单元,用于根据所述提取的节点信息,节点属性信息,边信息,和边属性信息,进行在线图处理操作。
14.根据权利要求13所述装置,其特征在于,所述图处理单元中所述在线图处理操作至少包括:
信息维上卷(I-OLGP),拓扑维上卷(T-OLGP),异步上卷,下钻,切片,切块,数据透视其中之一。
15.根据权利要求14所述装置,其特征在于,所述图处理单元中若所述提取的边属性信息存储在信息维表中,则所述信息维上卷具体包括:
对信息维表中存储的边的一种属性的信息,或者一种以上属性的信息进行上卷操作。
16.根据权利要求14所述装置,其特征在于,所述图处理单元中若所述提取的节点属性信息存储在拓扑维表中,则所述拓扑维聚集操具体包括:
对拓扑维表中存储的节点的一种属性的信息,或者一种以上属性的信息进行上卷操作。
CN201310505069.5A 2013-10-23 2013-10-23 一种存储数据的方法和装置 Active CN104572740B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310505069.5A CN104572740B (zh) 2013-10-23 2013-10-23 一种存储数据的方法和装置
PCT/CN2014/075570 WO2015058500A1 (zh) 2013-10-23 2014-04-17 一种存储数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310505069.5A CN104572740B (zh) 2013-10-23 2013-10-23 一种存储数据的方法和装置

Publications (2)

Publication Number Publication Date
CN104572740A true CN104572740A (zh) 2015-04-29
CN104572740B CN104572740B (zh) 2019-09-13

Family

ID=52992190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310505069.5A Active CN104572740B (zh) 2013-10-23 2013-10-23 一种存储数据的方法和装置

Country Status (2)

Country Link
CN (1) CN104572740B (zh)
WO (1) WO2015058500A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106325756A (zh) * 2015-06-15 2017-01-11 阿里巴巴集团控股有限公司 一种数据存储、数据计算方法和设备
CN109446362A (zh) * 2018-09-05 2019-03-08 北京费马科技有限公司 基于外存的图数据库结构、图数据存储方法、装置
CN110737805A (zh) * 2019-10-18 2020-01-31 网易(杭州)网络有限公司 图模型数据的处理方法、装置和终端设备
CN110933101A (zh) * 2019-12-10 2020-03-27 腾讯科技(深圳)有限公司 安全事件日志处理方法、装置及存储介质
CN112948447A (zh) * 2020-12-28 2021-06-11 福建票付通信息科技有限公司 一种基于网状结构的用户信息高效检索方法
CN110019357B (zh) * 2017-09-29 2021-06-29 北京国双科技有限公司 数据库查询脚本生成方法及装置
CN114077680A (zh) * 2022-01-07 2022-02-22 支付宝(杭州)信息技术有限公司 一种图数据的存储方法、***及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093495A (zh) * 2006-06-22 2007-12-26 国际商业机器公司 基于网状关系维的数据处理方法和***
US20080208652A1 (en) * 2007-02-23 2008-08-28 Srivastava Ashok N Method and system utilizing online analytical processing (olap) for making predictions about business locations

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108399B2 (en) * 2007-05-18 2012-01-31 Microsoft Corporation Filtering of multi attribute data via on-demand indexing
US20090248715A1 (en) * 2008-03-31 2009-10-01 Microsoft Corporation Optimizing hierarchical attributes for olap navigation
CN102982103A (zh) * 2012-11-06 2013-03-20 东南大学 一种olap海量多维数据维存储方法
CN103164222A (zh) * 2013-02-25 2013-06-19 用友软件股份有限公司 多维建模***和多维建模方法
CN103235793A (zh) * 2013-04-01 2013-08-07 华为技术有限公司 联机处理数据的方法、设备及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093495A (zh) * 2006-06-22 2007-12-26 国际商业机器公司 基于网状关系维的数据处理方法和***
US20080208652A1 (en) * 2007-02-23 2008-08-28 Srivastava Ashok N Method and system utilizing online analytical processing (olap) for making predictions about business locations

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
周彦 等: "基于层次位图连接索引的数据仓库查询优化", 《计算机技术与发展》 *
徐洪宇 等: "在线图处理:面向信息网络的在线分析处理", 《计算机科学与探索》 *
李川 等: "Graph OLAPing的建模、设计与实现", 《软件学报》 *
聂章艳等: "面向OLGP的多维信息网络数据仓库模型设计", 《计算机科学与探索》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106325756A (zh) * 2015-06-15 2017-01-11 阿里巴巴集团控股有限公司 一种数据存储、数据计算方法和设备
CN110019357B (zh) * 2017-09-29 2021-06-29 北京国双科技有限公司 数据库查询脚本生成方法及装置
CN109446362A (zh) * 2018-09-05 2019-03-08 北京费马科技有限公司 基于外存的图数据库结构、图数据存储方法、装置
CN109446362B (zh) * 2018-09-05 2021-07-23 深圳神图科技有限公司 基于外存的图数据库结构、图数据存储方法、装置
CN110737805A (zh) * 2019-10-18 2020-01-31 网易(杭州)网络有限公司 图模型数据的处理方法、装置和终端设备
CN110737805B (zh) * 2019-10-18 2022-07-19 网易(杭州)网络有限公司 图模型数据的处理方法、装置和终端设备
CN110933101A (zh) * 2019-12-10 2020-03-27 腾讯科技(深圳)有限公司 安全事件日志处理方法、装置及存储介质
CN110933101B (zh) * 2019-12-10 2022-11-04 腾讯科技(深圳)有限公司 安全事件日志处理方法、装置及存储介质
CN112948447A (zh) * 2020-12-28 2021-06-11 福建票付通信息科技有限公司 一种基于网状结构的用户信息高效检索方法
CN114077680A (zh) * 2022-01-07 2022-02-22 支付宝(杭州)信息技术有限公司 一种图数据的存储方法、***及装置
WO2023131218A1 (zh) * 2022-01-07 2023-07-13 支付宝(杭州)信息技术有限公司 图数据的存储

Also Published As

Publication number Publication date
CN104572740B (zh) 2019-09-13
WO2015058500A1 (zh) 2015-04-30

Similar Documents

Publication Publication Date Title
CN104572740A (zh) 一种存储数据的方法和装置
Casado et al. Emerging trends and technologies in big data processing
CN103093045A (zh) 一种交互式产品配置平台
WO2009082116A1 (en) System and method for analysis of information
CN110275927A (zh) 一种基于MySQL的流式实时数据同步***
CN110275919B (zh) 数据集成方法及装置
Mohammed et al. A review of big data environment and its related technologies
Sebaa et al. Research in big data warehousing using Hadoop
Grover et al. BCD: BigData, cloud computing and distributed computing
WO2017040209A1 (en) Data preparation for data mining
CN113535788A (zh) 一种面向海洋环境数据的检索方法、***、设备及介质
CN101145227A (zh) 一种业务数据的处理方法及处理装置
Ali et al. A state of art survey for big data processing and nosql database architecture
CN103150632B (zh) 基于水利云平台的防汛防旱简报生成***的构建方法
Ait El Mouden et al. An algorithm of conversion between relational data and graph schema
Kaufmann et al. SQL and NoSQL Databases
Pole et al. A recent study of emerging tools and technologies boosting big data analytics
Arputhamary et al. A review on big data integration
Xie et al. Enabling building digital twin: Ontology-based information management framework for multi-source data integration
Ren et al. Cloud-based master data platform for smart manufacturing process
Zdepski et al. An Approach for Modeling Polyglot Persistence.
Piedra et al. SmartLand-LD: A Linked data approach for integration of heterogeneous datasets to intelligent management of high biodiversity territories
Hadzhiev et al. A Hybrid Model for Structuring, Storing and Processing Distributed Data on the Internet
Paulus et al. The PLASMA Framework: Laying the Path to Domain-Specific Semantics in Dataspaces
Aljarallah Comparative study of database modeling approaches

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant