CN111723245B - 数据存储***中建立不同类型存储对象关联关系的方法 - Google Patents
数据存储***中建立不同类型存储对象关联关系的方法 Download PDFInfo
- Publication number
- CN111723245B CN111723245B CN201910204012.9A CN201910204012A CN111723245B CN 111723245 B CN111723245 B CN 111723245B CN 201910204012 A CN201910204012 A CN 201910204012A CN 111723245 B CN111723245 B CN 111723245B
- Authority
- CN
- China
- Prior art keywords
- storage
- association
- attribute
- data
- storage object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 490
- 238000013500 data storage Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000007405 data analysis Methods 0.000 claims description 17
- 238000004519 manufacturing process Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 8
- 238000007726 management method Methods 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000012098 association analyses Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种数据存储***中建立不同类型存储对象关联关系的方法、装置及***,其中,所述方法包括:获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;构建包含所述关联属性和所述存放位置的存储对象集链接字段;将所述关联属性和所述存储对象集链接字段对应存储。采用本申请所述的数据存储***中建立不同类型存储对象关联关系的方法,可以通过关联属性和存储对象链接类型字段实现数据存储***中存在弱关联关系的各个类型的存储对象的关联匹配,提高了数据关联探索的效率,从而便于用户对数据存储***中的存储对象进行管理和查询。
Description
技术领域
本申请涉及大数据分析,具体涉及一种数据存储***中建立不同类型存储对象关联关系的方法、装置及***。另外还涉及一种数据存储***中关联存储对象的查询方法和装置。
背景技术
近年来,随着互联网的快速发展,存储数据量的规模呈***性的增长,数据类型也越来越丰富,其中包括日志型、交易型、应用型等数据。在数据规模和用户规模逐渐庞大的背景下,对数据库的可扩展性、容错性以及成本控制方面的要求越来越高。传统数据仓库越来越不能满足数据存储和管理等方面的需求。如何有效存储和管理大规模的各个类型的数据,成为本领域技术人员亟需解决的技术问题。
为了解决上述技术问题,现有技术中通常将数据生产***产生的数据存储到数据湖中,将数据的目录信息放置在元数据目录库中,后续数据开发者可以基于目录信息进行数据关联探索,并为数据分析***建立数据分析图表。在数据湖场景中,数据生产***产生了大量的结构化和非结构化数据,这些数据通常有一些关联关系,比如按照时间线、按照事件等。通过目录信息进行数据关联探索的方式,能够对数据湖中存在的大量的结构化和非结构化数据一定程度上的实现关联分析。其中,所述数据湖和传统的数据仓库都具有类似的存储和管理数据的能力,但是,两者的具有工作方式并不相同。
数据湖是一种能够集中化存储海量的、多个来源的,多种类型数据的大数据存储***。其区别于传统数据仓库的数据存储架构,能够以原生格式存储结构化、非结构化的原始数据,并能够对不同类型的原始数据进行快速加工处理。数据湖最初是为了解决传统数据仓库笨重,高成本,冗长的分析周期等问题。
但是,由于数据湖中存储的数据通常是弱关联的,在使用数据湖中存储的数据时,利用目录信息对大量的结构化和非结构化数据进行数据关联探索的方式往往比较复杂,且效率低下。
发明内容
本申请提供一种数据存储***中建立不同类型存储对象关联关系的方法,以解决现有技术中存在的数据存储***中数据关联匹配方法效率低下,无法适用于多类型存储对象,从而不能满足用户需求的问题。本申请另外提供一种数据存储***中关联存储对象的查询方法和装置。
本申请提供一种数据存储***中建立不同类型存储对象关联关系的方法,包括:获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;构建包含所述关联属性和所述存放位置的存储对象集链接字段;将所述关联属性和所述存储对象集链接字段对应存储。
可选的,所述存储对象集链接字段为包含所述关联属性和所述存放位置的标识字符串。
可选的,所述构建包含所述关联属性和所述存放位置的存储对象集链接字段,具体包括:将所述存储对象的所述存放位置作为所述存储对象集链接字段的第一链接类型字段,将所述存储对象的所述关联属性作为所述存储对象集链接字段的第二链接类型字段;所述存储对象集链接字段包含至少一种第二链接类型字段。
可选的,在所述数据存储***中监测到存储数据生产***产生的存储对象时,触发根据所述数据存储***中建立不同类型存储对象关联关系的方法进行下列操作:获得存入所述数据存储***的存储对象包含的关联属性和存放位置;构建包含所述关联属性和所述存放位置的存储对象集链接字段;将所述关联属性和所述存储对象集链接字段对应存储到为所述数据存储***准备的关联目录中。
可选的,所述获得存入所述数据存储***的存储对象包含的关联属性步骤执行前,执行下述步骤:获得数据存储***中存储的各个类型的存储对象的属性信息;根据所述属性信息的具体含义以及对所述存储对象的可能使用方式,确定作为关联属性的属性信息。
可选的,所述将所述关联属性和所述存储对象集链接字段对应存储,包括:根据所述关联属性生成关联属性字段;根据关联属性确定所述关联属性字段和所述存储对象集链接字段之间的对应关系;根据所述关联属性字段、所述存储对象集链接字段以及所述对应关系构建用于查询关联存储对象的关联关系图表。
可选的,所述存储对象包含所述数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中的至少一种存储对象类型;相应的,所述关联属性为所述数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中至少两种不同类型的存储对象共有的属性。
可选的,所述关联属性为所述存储对象的创建时间信息、产生所述存储对象的业务生产***的标识信息以及日志记录信息中的至少一种。
相应的,本申请还提供一种数据存储***中建立不同类型存储对象关联关系的装置包括:信息获得单元、链接字段构建单元以及存储单元;所述信息获得单元,用于获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;所述链接字段构建单元,用于构建包含所述关联属性和所述存放位置的存储对象集链接字段;所述存储单元,用于将所述关联属性和所述存储对象集链接字段对应存储。
可选的,所述存储对象集链接字段为包含所述关联属性和所述存放位置的标识字符串。
可选的,所述链接字段构建单元具体用于:将所述存储对象的所述存放位置作为所述存储对象集链接字段的第一链接类型字段,将所述存储对象的所述关联属性作为所述存储对象集链接字段的第二链接类型字段;所述存储对象集链接字段包含至少一种第二链接类型字段。
可选的,在所述数据存储***中监测到存储数据生产***产生的存储对象时,触发根据所述数据存储***中建立不同类型存储对象关联关系的装置进行下列操作:获得存入所述数据存储***的存储对象包含的关联属性和存放位置;构建包含所述关联属性和所述存放位置的存储对象集链接字段;将所述关联属性和所述存储对象集链接字段对应存储到为所述数据存储***准备的关联目录中。
可选的,触发所述信息获得单元执行操作前,执行下述步骤:获得数据存储***中存储的各个类型的存储对象的属性信息;根据所述属性信息的具体含义以及对所述存储对象的可能使用方式,确定作为关联属性的属性信息。
可选的,所述存储单元具体用于:根据所述关联属性生成关联属性字段;根据关联属性确定所述关联属性字段和所述存储对象集链接字段之间的对应关系;根据所述关联属性字段、所述存储对象集链接字段以及所述对应关系构建用于查询关联存储对象的关联关系图表。
可选的,所述存储对象包含所述数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中的至少一种存储对象类型;相应的,所述关联属性为所述数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中至少两种不同类型的存储对象共有的属性。
可选的,所述关联属性为所述存储对象的创建时间信息、产生所述存储对象的业务生产***的标识信息以及日志记录信息中的至少一种。
相应的,本申请还提供一种数据存储***中关联存储对象的查询方法,其特征在于,包括:获得数据分析***的业务需求信息;确定对应所述业务需求信息的目标关联属性;根据所述目标关联属性以及预先存储的存储对象集链接字段,输出目标存储对象集合,其中,所述的存储对象集链接字段为包含所述关联属性和所述存放位置的标识字符串。
可选的,所述预先存储的存储对象集链接字段,采用如下方式获得:获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;构建包含所述关联属性和所述存放位置的存储对象集链接字段;将所述关联属性和所述存储对象集链接字段对应存储。
相应的,本申请还提供一种数据存储***中关联存储对象的查询装置,包括:需求信息获得单元、目标关联属性确定单元以及输出单元;所述需求信息获得单元,用于获得数据分析***的业务需求信息;所述目标关联属性确定单元,用于确定对应所述业务需求信息的目标关联属性;所述输出单元,用于根据所述目标关联属性以及预先存储的存储对象集链接字段,输出目标存储对象集合,其中,所述的存储对象集链接字段为包含所述关联属性和所述存放位置的标识字符串。
可选的,所述预先存储的存储对象集链接字段,采用如下方式获得:获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;构建包含所述关联属性和所述存放位置的存储对象集链接字段;将所述关联属性和所述存储对象集链接字段对应存储。
相应的,本申请还提供一种数据存储***中建立不同类型存储对象关联关系的***,包括:上述所述的数据存储***中建立不同类型存储对象关联关系的装置,以及所述的数据存储***中关联存储对象的查询装置。
相应的,本申请还提供一种电子设备,其特征在于,包括:处理器以及存储器,所述存储器用于存储上述数据存储***中建立不同类型存储对象关联关系方法的程序,该设备通电并通过所述处理器运行该数据存储***中建立不同类型存储对象关联关系方法的程序后,执行下述步骤:获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;构建包含所述关联属性和所述存放位置的存储对象集链接字段;将所述关联属性和所述存储对象集链接字段对应存储。
相应的,本申请还提供一种存储设备,存储上述数据存储***中建立不同类型存储对象关联关系方法的程序,该程序被处理器运行,执行下述步骤:获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;构建包含所述关联属性和所述存放位置的存储对象集链接字段;将所述关联属性和所述存储对象集链接字段对应存储。
与现有技术相比,本申请具有以下优点:
采用本申请所述的数据存储***中建立不同类型存储对象关联关系的方法,可以通过关联属性和存储对象链接类型字段实现数据存储***中存在弱关联关系的各个类型的存储对象的关联匹配,提高了数据关联探索的效率,从而便于用户对数据存储***中的存储对象进行管理和查询。
附图说明
图1为本发明实施例提供的一种数据存储***中建立不同类型存储对象关联关系的方法的流程图;
图2为本发明实施例提供的一种数据存储***中建立不同类型存储对象关联关系的装置的示意图;
图3为本发明实施例提供的一种电子设备的示意图;
图4为本发明实施例提供的一种数据存储***中关联存储对象的查询方法的流程图;
图5为本发明实施例提供的一种数据存储***中关联存储对象的查询装置的示意图;
图6为一种现有技术中对数据存储***内的存储对象进行关联分析的方法的示意图;
图7为本发明实施例提供的一种对数据存储***内的存储对象进行关联分析的方法的示意图;
图8为本发明实施例提供的一种构建关联关系图表的示意图;
图9为本发明实施例提供的完成一次数据存储***中关联存储对象的查询的流程图;
图10为本发明实施例提供的一种关联关系图表的解析示意图;
图11为本发明实施例提供的一种数据存储***中建立不同类型存储对象关联关系的方法的完整流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此,本发明不受下面公开的具体实施的限制。
下面基于本发明提供的数据存储***中建立不同类型存储对象关联关系的方法,对其实施例进行详细描述。请参考图1所示,其为本发明实施例提供的一种数据存储***中建立不同类型存储对象关联关系的方法的流程图。
本发明所述的方法实施例可以基于传统的数据湖存储***实现,具体实现过程包括以下步骤:
步骤S101:获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性。
在本发明实施例中,所述的数据存储***可以是一种能够集中化存储海量的、多个来源的,多种类型存储对象的数据湖存储***。其通常区别于传统数据仓库的数据存储架构,能够以原生格式存储结构化以及非结构化的原始数据,并能够对不同类型的原始数据进行快速加工处理。
在数据湖存储***中,应用程序生产者通常会产生大量的存储对象,所述存储对象包括结构化数据(例如:日志记录、文本数据、JSON(JavaScript Object Notation)、数据库数据、KV数据等)和非结构化数据(例如:物联网传感器数据、视频片段、音频片段、图片等)等。
通常应用程序数据生产者产生的存储对象之间具有一定的关联关系,将存储对象放到数据湖存储***中,后面的数据分析应用程序若要利用这些存储对象提高后续业务处理的效率,通常需要首先建立不同类型存储对象之间的关联关系,比如可以按照时间线、ID或者事件发生的地点等将具有一定联系的存储对象关联起来,从而输出存储对象集供数据分析应用程序进行后续业务处理。
具体的,如图7所示,其为本发明实施例提供的一种对数据存储***内的存储对象进行关联分析的方法的示意图。
本发明通过构建数据集链接类型字段和关联属性的方式,对应用程序数据生产者产生的存储对象建立关联关系,即:在数据湖存储***中结构化和非结构化数据集之间建立关联关系,比如:Log Files模块(日志文件模块)、JSON(JavaScript Object Notation,JS对象简谱)Files模块、CSV(Comma-Separated Values)Files模块、ORC(The OptimizedRow Columnar)Files模块、Parquet Files模块、KV Store(键值数据库)、Database Tables(数据库表模块)、Video Files模块、Image Files模块以及LOT(Internet of Things)Sensor Data Files模块等存储的不同类型的存储对象,进而构建存储有存储对象关联关系的关联关系图表(Root table),并将关联关系图表(Root table)存储至数据湖目录模块(Data Lake Catalog)中。当数据分析应用程序需要进行后续业务处理或者需要输出报表时,可以直接利用数据湖目录模块中的存储对象关联关系,获得所需要数据,从而协助数据分析类应用程序进行数据关联探索和发现,提高后续业务处理工作的效率。其中,所述的关联属性是至少两种不同类型的存储对象共有的属性,可以是指存储对象存入数据湖存储***时的时间信息,也可以是指产生存储对象的应用程序生产者的ID或者名称等。所述的存放位置可以是指存储对象在数据湖存储***中的存放位置,也可以是指存储对象集合在数据湖存储***中的存放位置。
步骤S102:构建包含所述关联属性和所述存放位置的存储对象集链接字段。
上述步骤S101获得存入数据存储***的存储对象包含的关联属性和存放位置,为本步骤构建包含所述关联属性和所述存放位置的存储对象集链接字段做了数据准备工作。
在步骤S102中,可以根据上述获得的存入数据存储***的存储对象的关联属性和存放位置在关联关系图表(Root table)构建存储对象集链接字段。根据所述关联属性以及存储对象集链接字段中的关联属性确定数据存储***的存储对象之间的关联关系。其中,所述存储对象集链接字段为包含关联属性和存放位置的标识字符串。
具体的,如图8和11所示,其分别为本发明实施例提供的一种构建关联关系图表的示意图以及一种数据存储***中建立不同类型存储对象关联关系的方法的完整流程图。以关联关系图表中存储的第一行数据为例,Create-time(2018-11-01 00:12:32.002)为Image-data(图像数据)、Video-data(视频数据)、KV-data(键值数据库中存储的数据)之间的关联属性;Id(20181234)为KV-data(键值数据库中存储的数据)之间的关联属性。其中,针对Image-data(图像数据)构建的存储对象集链接字段的字符串为oss://xxx/imagedir/20181101001232.jpg,针对video-data(视频数据)构建的存储对象集链接字段的字符串为oss://xxx/video dir/2018-11-01 001232.mp4,针对kv-data(键值数据库中存储的数据)构建的存储对象集链接字段的字符串为tablestore://xxx.xxx.xxx/kv-table-1/filter;Id=20181234&create-time=2018-11-0100:12:32.002。通过关联属性Create-time可以建立Image-data(图像数据)、video-data(视频数据)、KV-data(键值数据库中存储的数据)三种类型之间的关联关系;通过关联属性Id可以建立KV-data(键值数据库中存储的数据)的存储对象之间的关联关系。需要说明的是,本发明实施例中,所述的关联属性不限于图8中所示的Create-time和Id,所述的存储对象类型也不限于Image-data(图像数据)、Video-data(视频数据)、KV-data(键值数据库中存储的数据)这三种存储对象类型。
上述构建包含所述关联属性和所述存放位置的存储对象集链接字段,可采用如下方式实现:
在数据存储***中监测到存储数据生产***产生的存储对象时,触发获得数据存储***中存储的各个类型的存储对象的属性信息,根据属性信息的具体含义以及对存储对象的可能使用方式,确定作为关联属性的属性信息。进而获得存入数据存储***的存储对象包含的关联属性和存放位置;将存储对象的存放位置作为存储对象集链接字段的第一链接类型字段,将存储对象的关联属性作为存储对象集链接字段的第二链接类型字段;其中,存储对象集链接字段包含至少一种第二链接类型字段。将关联属性和存储对象集链接字段对应存储到为数据存储***准备的关联目录中的操作步骤。
步骤S103:将所述关联属性和所述存储对象集链接字段对应存储。
在上述步骤S102中构建包含关联属性和存放位置的存储对象集链接字段后,可以通过本步骤将关联属性和所述存储对象集链接字段对应存储。
具体的,将关联属性和所述存储对象集链接字段对应存储,可采用如下方式实现:
根据关联属性生成关联属性字段,并根据关联属性确定关联属性字段和存储对象集链接字段之间的对应关系,根据关联属性字段、存储对象集链接字段以及两者之间的对应关系可以构建用于查询关联存储对象的关联关系图表,从而便于管理和查询。需要说明的是,所述存储对象包含数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中的至少一种存储对象类型,相应的,所述关联属性可以包括数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中至少两种不同类型的存储对象共有的属性。所述关联属性可以包括存储对象的创建时间信息、产生存储对象的业务生产***的标识信息以及日志记录信息中的至少一种。
如图10所示,其为本发明实施例提供的一种关联关系图表的解析示意图。定义关联关系图表Root Table,在关联关系图表中构建存储对象集链接字段。其中,所述存储对象集链接字段包含存放位置(存储对象集URL)和关联属性等,按照存储对象集链接字段中包含的关联属性对存储对象进行关联分析探索。并输出带有存储对象集链接字段的存储对象,根据输出的存储对象集链接字段的存储对象URL进行判断,确定是否需要建立数据分析表,若是,则建立数据分析表;若否,则继续判断是否进行下次建立存储对象的关联关系的探索过程。
采用本申请所述的数据存储***中建立不同类型存储对象关联关系的方法,可以通过关联属性和存储对象链接类型字段实现数据存储***中存在弱关联关系的各个类型的存储对象的关联匹配,提高了数据关联探索的效率,从而便于用户对数据存储***中的存储对象进行管理和查询。
与上述提供的数据存储***中建立不同类型存储对象关联关系的方法相对应,本发明还提供一种数据存储***中建立不同类型存储对象关联关系的装置。由于该装置的实施例相似于上述方法实施例,所以描述的比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述一种数据存储***中建立不同类型存储对象关联关系的装置的实施例仅是示意性的。请参考图2所示,其为本发明实施例提供的一种数据存储***中建立不同类型存储对象关联关系的装置的示意图。
本发明所述的装置实施例可以基于传统的数据湖存储***实现,具体实现过程包括如下部分:
信息获得单元201,用于获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性。
在本发明实施例中,所述的数据存储***可以是一种能够集中化存储海量的、多个来源的,多种类型存储对象的数据湖存储***。其通常区别于传统数据仓库的数据存储架构,能够以原生格式存储结构化以及非结构化的原始数据,并能够对不同类型的原始数据进行快速加工处理。
在数据湖存储***中,应用程序生产者通常会产生大量的存储对象,所述存储对象包括结构化数据(例如:日志记录、文本数据、JSON(JavaScript Object Notation)、数据库数据、KV数据等)和非结构化数据(例如:物联网传感器数据、视频片段、音频片段、图片等)等。
通常应用程序数据生产者产生的存储对象之间具有一定的关联关系,将存储对象放到数据湖存储***中,后面的数据分析应用程序若要利用这些存储对象提高后续业务处理的效率,通常需要首先建立不同类型存储对象之间的关联关系,比如可以按照时间线、ID或者事件发生的地点等将具有一定联系的存储对象关联起来,从而输出存储对象集供数据分析应用程序进行后续业务处理。
其中,所述的关联属性是至少两种不同类型的存储对象共有的属性,可以是指存储对象存入数据湖存储***时的时间信息,也可以是指产生存储对象的应用程序生产者的ID或者名称等。所述的存放位置可以是指存储对象在数据湖存储***中的存放位置,也可以是指存储对象集合在数据湖存储***中的存放位置。
链接字段构建单元202,用于构建包含所述关联属性和所述存放位置的存储对象集链接字段。
上述信息获得单元201获得存入数据存储***的存储对象包含的关联属性和存放位置,为本步骤构建包含所述关联属性和所述存放位置的存储对象集链接字段做了数据准备工作。
在链接字段构建单元202中,可以根据上述获得的存入数据存储***的存储对象的关联属性和存放位置在关联关系图表(Root table)构建存储对象集链接字段。根据所述关联属性以及存储对象集链接字段中的关联属性确定数据存储***的存储对象之间的关联关系。其中,所述存储对象集链接字段为包含关联属性和存放位置的标识字符串。
具体的,如图8和11所示,其分别为本发明实施例提供的一种构建关联关系图表的示意图以及一种数据存储***中建立不同类型存储对象关联关系的方法的完整流程图。以关联关系图表中存储的第一行数据为例,Create-time(2018-11-01 00:12:32.002)为Image-data(图像数据)Video-data(视频数据)、KV-data(键值数据库中存储的数据)之间的关联属性;Id(20181234)为KV-data(键值数据库中存储的数据)之间的关联属性。其中,针对Image-data(图像数据)构建的存储对象集链接字段的字符串为oss://xxx/imagedir/20181101001232.jpg,针对Video-data(视频数据)构建的存储对象集链接字段的字符串为oss://xxx/video dir/2018-11-01 001232.mp4,针对KV-data(键值数据库中存储的数据)构建的存储对象集链接字段的字符串为tablestore://xxx.xxx.xxx/kv-table-1/filter;Id=20181234&create-time=2018-11-0100:12:32.002。通过关联属性Create-time可以建立Image-data(图像数据)、Video-data(视频数据)、KV-data(键值数据库中存储的数据)三种类型之间的关联关系;通过关联属性Id可以建立KV-data(键值数据库中存储的数据)的存储对象之间的关联关系。需要说明的是,本发明实施例中,所述的关联属性不限于图8中所示的Create-time和Id,所述的存储对象类型也不限于Image-data(图像数据)、Video-data(视频数据)、KV-data(键值数据库中存储的数据)这三种存储对象类型。
上述构建包含所述关联属性和所述存放位置的存储对象集链接字段,可采用如下方式实现:
在数据存储***中监测到存储数据生产***产生的存储对象时,触发获得数据存储***中存储的各个类型的存储对象的属性信息,根据属性信息的具体含义以及对存储对象的可能使用方式,确定作为关联属性的属性信息。进而获得存入数据存储***的存储对象包含的关联属性和存放位置;将存储对象的存放位置作为存储对象集链接字段的第一链接类型字段,将存储对象的关联属性作为存储对象集链接字段的第二链接类型字段;其中,存储对象集链接字段包含至少一种第二链接类型字段。将关联属性和存储对象集链接字段对应存储到为数据存储***准备的关联目录中的操作步骤。
存储单元203,用于将所述关联属性和所述存储对象集链接字段对应存储。
在上述链接字段构建单元202中构建包含关联属性和存放位置的存储对象集链接字段后,可以通过本步骤将关联属性和所述存储对象集链接字段对应存储。
具体的,将关联属性和所述存储对象集链接字段对应存储,可采用如下方式实现:
根据关联属性生成关联属性字段,并根据关联属性确定关联属性字段和存储对象集链接字段之间的对应关系,根据关联属性字段、存储对象集链接字段以及两者之间的对应关系可以构建用于查询关联存储对象的关联关系图表,从而便于管理和查询。需要说明的是,所述存储对象包含数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中的至少一种存储对象类型,相应的,所述关联属性可以包括数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中至少两种不同类型的存储对象共有的属性。所述关联属性可以包括存储对象的创建时间信息、产生存储对象的业务生产***的标识信息以及日志记录信息中的至少一种。
采用本申请所述的数据存储***中建立不同类型存储对象关联关系的装置,可以通过关联属性和存储对象链接类型字段实现数据存储***中存在弱关联关系的各个类型的存储对象的关联匹配,提高了数据关联探索的效率,从而便于用户对数据存储***中的存储对象进行管理和查询。
与上述提供的数据存储***中建立不同类型存储对象关联关系的方法相对应,本发明还提供一种电子设备。请参见图3所示,其为本发明实施例提供的一种电子设备的示意图。
本发明提供的电子设备具体包括:处理器以及存储器;该存储器用于存储上述数据存储***中建立不同类型存储对象关联关系方法的程序,该设备通电并通过所述处理器运行该数据存储***中建立不同类型存储对象关联关系方法的程序后,执行下述步骤:步骤一,获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;步骤二,构建包含所述关联属性和所述存放位置的存储对象集链接字段;步骤三,将所述关联属性和所述存储对象集链接字段对应存储。
与上述提供的数据存储***中建立不同类型存储对象关联关系的方法相对应,本发明还提供一种存储设备,该存储设备存储有数据存储***中建立不同类型存储对象关联关系方法的程序,该程序被处理器运行,执行下述步骤:步骤一,获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;步骤二,构建包含所述关联属性和所述存放位置的存储对象集链接字段;步骤三,将所述关联属性和所述存储对象集链接字段对应存储。
与上述提供的数据存储***中建立不同类型存储对象关联关系的方法相对应,本发明还提供一种数据存储***中关联存储对象的查询方法。由于该数据存储***中关联存储对象的查询方法的实施例相似于上述数据存储***中建立不同类型存储对象关联关系的方法的实施例,所以描述的比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述一种数据存储***中关联存储对象的查询方法的实施例仅是示意性的。请参考图4所示,其为本发明实施例提供的一种数据存储***中关联存储对象的查询方法的示意图。
本发明所述的实施例可以基于传统的数据湖存储***实现,具体实现过程包括以下步骤:
步骤S401:获得数据分析***的业务需求信息。
步骤S402:确定对应所述业务需求信息的目标关联属性。
步骤S403:根据所述目标关联属性以及预先存储的存储对象集链接字段,输出目标存储对象集合,其中,所述的存储对象集链接字段为包含所述关联属性和所述存放位置的标识字符串。
与上述提供的数据存储***中关联存储对象的查询方法相对应,本发明还提供一种数据存储***中关联存储对象的查询装置。由于该装置的实施例相似于上述方法实施例,所以描述的比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述一种数据存储***中关联存储对象的查询装置的实施例仅是示意性的。请参考图5所示,其为本发明实施例提供的一种数据存储***中关联存储对象的查询装置的示意图。
需求信息获得单元501,用于获得数据分析***的业务需求信息。
目标关联属性确定单元502,用于确定对应所述业务需求信息的目标关联属性。
输出单元503,用于根据所述目标关联属性以及预先存储的存储对象集链接字段,输出目标存储对象集合,其中,所述的存储对象集链接字段为包含所述关联属性和所述存放位置的标识字符串。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此,本发明的保护范围应当以本发明权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (13)
1.一种数据存储***中建立不同类型存储对象关联关系的方法,其特征在于,包括:
获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;
构建包含所述关联属性和所述存放位置的存储对象集链接字段;
将所述关联属性和所述存储对象集链接字段对应存储;
其中,所述将所述关联属性和所述存储对象集链接字段对应存储,包括:
根据所述关联属性生成关联属性字段;
根据所述关联属性确定所述关联属性字段和所述存储对象集链接字段之间的对应关系;
根据所述关联属性字段、所述存储对象集链接字段以及所述对应关系构建用于查询关联存储对象的关联关系图表。
2.根据权利要求1所述的数据存储***中建立不同类型存储对象关联关系的方法,其特征在于,所述存储对象集链接字段为包含所述关联属性和所述存放位置的标识字符串。
3.根据权利要求1所述的数据存储***中建立不同类型存储对象关联关系的方法,其特征在于,所述构建包含所述关联属性和所述存放位置的存储对象集链接字段,具体包括:
将所述存储对象的所述存放位置作为所述存储对象集链接字段的第一链接类型字段,将所述存储对象的所述关联属性作为所述存储对象集链接字段的第二链接类型字段;所述存储对象集链接字段包含至少一种第二链接类型字段。
4.根据权利要求1所述的数据存储***中建立不同类型存储对象关联关系的方法,其特征在于,在所述数据存储***中监测到存储数据生产***产生的存储对象时,触发根据所述数据存储***中建立不同类型存储对象关联关系的方法进行下列操作:
获得存入所述数据存储***的存储对象包含的关联属性和存放位置;
构建包含所述关联属性和所述存放位置的存储对象集链接字段;
将所述关联属性和所述存储对象集链接字段对应存储到为所述数据存储***准备的关联目录中。
5.根据权利要求4所述的数据存储***中建立不同类型存储对象关联关系的方法,所述获得存入所述数据存储***的存储对象包含的关联属性步骤执行前,执行下述步骤:
获得数据存储***中存储的各个类型的存储对象的属性信息;
根据所述属性信息的具体含义以及对所述存储对象的可能使用方式,确定作为关联属性的属性信息。
6.根据权利要求1所述的数据存储***中建立不同类型存储对象关联关系的方法,其特征在于,所述存储对象包含所述数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中的至少一种存储对象类型;
相应的,所述关联属性为所述数据存储***中存储的结构化数据、半结构化数据以及非结构化数据中至少两种不同类型的存储对象共有的属性。
7.根据权利要求1所述的数据存储***中建立不同类型存储对象关联关系的方法,其特征在于,所述关联属性为所述存储对象的创建时间信息、产生所述存储对象的业务生产***的标识信息以及日志记录信息中的至少一种。
8.一种数据存储***中建立不同类型存储对象关联关系的装置,其特征在于,包括:信息获得单元、链接字段构建单元以及存储单元;
所述信息获得单元,用于获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;
所述链接字段构建单元,用于构建包含所述关联属性和所述存放位置的存储对象集链接字段;
所述存储单元,用于将所述关联属性和所述存储对象集链接字段对应存储;
其中,所述将所述关联属性和所述存储对象集链接字段对应存储,包括:
根据所述关联属性生成关联属性字段;
根据所述关联属性确定所述关联属性字段和所述存储对象集链接字段之间的对应关系;
根据所述关联属性字段、所述存储对象集链接字段以及所述对应关系构建用于查询关联存储对象的关联关系图表。
9.一种数据存储***中关联存储对象的查询方法,其特征在于,包括:
获得数据分析***的业务需求信息;
确定对应所述业务需求信息的目标关联属性;
根据所述目标关联属性以及预先存储的存储对象集链接字段,输出目标存储对象集合,其中,所述的存储对象集链接字段为包含所述关联属性和存放位置的标识字符串;所述预先存储的存储对象集链接字段,采用如下方式获得:
获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;
构建包含所述关联属性和所述存放位置的存储对象集链接字段;
将所述关联属性和所述存储对象集链接字段对应存储;
其中,所述将所述关联属性和所述存储对象集链接字段对应存储,包括:
根据所述关联属性生成关联属性字段;
根据所述关联属性确定所述关联属性字段和所述存储对象集链接字段之间的对应关系;
根据所述关联属性字段、所述存储对象集链接字段以及所述对应关系构建用于查询关联存储对象的关联关系图表。
10.一种数据存储***中关联存储对象的查询装置,其特征在于,包括:需求信息获得单元、目标关联属性确定单元以及输出单元;
所述需求信息获得单元,用于获得数据分析***的业务需求信息;
所述目标关联属性确定单元,用于确定对应所述业务需求信息的目标关联属性;
所述输出单元,用于根据所述目标关联属性以及预先存储的存储对象集链接字段,输出目标存储对象集合,其中,所述的存储对象集链接字段为包含所述关联属性和存放位置的标识字符串;
所述预先存储的存储对象集链接字段,采用如下方式获得:
获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;
构建包含所述关联属性和所述存放位置的存储对象集链接字段;
将所述关联属性和所述存储对象集链接字段对应存储;
其中,所述将所述关联属性和所述存储对象集链接字段对应存储,包括:
根据所述关联属性生成关联属性字段;
根据所述关联属性确定所述关联属性字段和所述存储对象集链接字段之间的对应关系;
根据所述关联属性字段、所述存储对象集链接字段以及所述对应关系构建用于查询关联存储对象的关联关系图表。
11.一种数据存储***中建立不同类型存储对象关联关系的***,其特征在于,包括:上述权利要求8所述的数据存储***中建立不同类型存储对象关联关系的装置,以及权利要求10所述的数据存储***中关联存储对象的查询装置。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储数据存储***中建立不同类型存储对象关联关系方法的程序,该设备通电并通过所述处理器运行所述数据存储***中建立不同类型存储对象关联关系方法的程序后,执行下述步骤:
获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;
构建包含所述关联属性和所述存放位置的存储对象集链接字段;
将所述关联属性和所述存储对象集链接字段对应存储;
其中,所述将所述关联属性和所述存储对象集链接字段对应存储,包括:
根据所述关联属性生成关联属性字段;
根据所述关联属性确定所述关联属性字段和所述存储对象集链接字段之间的对应关系;
根据所述关联属性字段、所述存储对象集链接字段以及所述对应关系构建用于查询关联存储对象的关联关系图表。
13.一种存储设备,其特征在于,存储数据存储***中建立不同类型存储对象关联关系方法的程序,该程序被处理器运行,执行下述步骤:
获得存入所述数据存储***的存储对象包含的关联属性和存放位置;所述关联属性是至少两种不同类型的存储对象共有的属性;
构建包含所述关联属性和所述存放位置的存储对象集链接字段;
将所述关联属性和所述存储对象集链接字段对应存储;
其中,所述将所述关联属性和所述存储对象集链接字段对应存储,包括:
根据所述关联属性生成关联属性字段;
根据所述关联属性确定所述关联属性字段和所述存储对象集链接字段之间的对应关系;
根据所述关联属性字段、所述存储对象集链接字段以及所述对应关系构建用于查询关联存储对象的关联关系图表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910204012.9A CN111723245B (zh) | 2019-03-18 | 2019-03-18 | 数据存储***中建立不同类型存储对象关联关系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910204012.9A CN111723245B (zh) | 2019-03-18 | 2019-03-18 | 数据存储***中建立不同类型存储对象关联关系的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723245A CN111723245A (zh) | 2020-09-29 |
CN111723245B true CN111723245B (zh) | 2024-04-26 |
Family
ID=72562294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910204012.9A Active CN111723245B (zh) | 2019-03-18 | 2019-03-18 | 数据存储***中建立不同类型存储对象关联关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723245B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966950B (zh) * | 2020-10-21 | 2021-01-15 | 北京每日优鲜电子商务有限公司 | 日志发送方法、装置、电子设备和计算机可读介质 |
CN116303458B (zh) * | 2023-03-17 | 2023-10-13 | 北京信源电子信息技术有限公司 | 一种handle***内数据对象的管理方法 |
CN117349401B (zh) * | 2023-12-06 | 2024-03-15 | 之江实验室 | 一种非结构化数据的元数据存储方法、装置、介质及设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440288A (zh) * | 2013-08-16 | 2013-12-11 | 曙光信息产业股份有限公司 | 一种大数据存储方法及装置 |
CN104102652A (zh) * | 2013-04-08 | 2014-10-15 | 国家电网公司 | 一种非结构化数据存储***及方法 |
CN104462362A (zh) * | 2014-12-08 | 2015-03-25 | 曙光信息产业(北京)有限公司 | 一种数据存储、查询、加载方法及装置 |
CN106227470A (zh) * | 2016-08-05 | 2016-12-14 | 浪潮(北京)电子信息产业有限公司 | 一种存储资源管理方法及装置 |
CN106227800A (zh) * | 2016-07-21 | 2016-12-14 | 中国科学院软件研究所 | 一种高度关联大数据的存储方法及管理*** |
CN106649708A (zh) * | 2013-08-29 | 2017-05-10 | 华为技术有限公司 | 存储数据的方法和装置 |
CN107016025A (zh) * | 2016-11-17 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 一种非关系型数据库索引的建立方法及装置 |
CN107665228A (zh) * | 2017-05-10 | 2018-02-06 | 平安科技(深圳)有限公司 | 一种关联信息查询方法、终端及设备 |
CN107783993A (zh) * | 2016-08-25 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 数据的存储方法和装置 |
CN108287889A (zh) * | 2018-01-17 | 2018-07-17 | 清华大学 | 一种基于弹性表模型的多源异构数据存储方法和*** |
CN109299154A (zh) * | 2018-11-30 | 2019-02-01 | 长城计算机软件与***有限公司 | 一种大数据的数据存储***及方法 |
-
2019
- 2019-03-18 CN CN201910204012.9A patent/CN111723245B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102652A (zh) * | 2013-04-08 | 2014-10-15 | 国家电网公司 | 一种非结构化数据存储***及方法 |
CN103440288A (zh) * | 2013-08-16 | 2013-12-11 | 曙光信息产业股份有限公司 | 一种大数据存储方法及装置 |
CN106649708A (zh) * | 2013-08-29 | 2017-05-10 | 华为技术有限公司 | 存储数据的方法和装置 |
CN104462362A (zh) * | 2014-12-08 | 2015-03-25 | 曙光信息产业(北京)有限公司 | 一种数据存储、查询、加载方法及装置 |
CN106227800A (zh) * | 2016-07-21 | 2016-12-14 | 中国科学院软件研究所 | 一种高度关联大数据的存储方法及管理*** |
CN106227470A (zh) * | 2016-08-05 | 2016-12-14 | 浪潮(北京)电子信息产业有限公司 | 一种存储资源管理方法及装置 |
CN107783993A (zh) * | 2016-08-25 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 数据的存储方法和装置 |
CN107016025A (zh) * | 2016-11-17 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 一种非关系型数据库索引的建立方法及装置 |
CN107665228A (zh) * | 2017-05-10 | 2018-02-06 | 平安科技(深圳)有限公司 | 一种关联信息查询方法、终端及设备 |
CN108287889A (zh) * | 2018-01-17 | 2018-07-17 | 清华大学 | 一种基于弹性表模型的多源异构数据存储方法和*** |
CN109299154A (zh) * | 2018-11-30 | 2019-02-01 | 长城计算机软件与***有限公司 | 一种大数据的数据存储***及方法 |
Non-Patent Citations (1)
Title |
---|
面向对象的科研数据库管理***;李俊山, 贺升平;计算机工程与设计;19981228(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111723245A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10560465B2 (en) | Real time anomaly detection for data streams | |
CN109997126B (zh) | 事件驱动提取、变换、加载(etl)处理 | |
Kraska | Finding the needle in the big data systems haystack | |
US8380759B2 (en) | Type projection query of an instance space | |
JP5008878B2 (ja) | データベース・オブジェクトへのファイル・システム・モデルのマッピング | |
US11145123B1 (en) | Generating extended reality overlays in an industrial environment | |
US11847773B1 (en) | Geofence-based object identification in an extended reality environment | |
CN111723245B (zh) | 数据存储***中建立不同类型存储对象关联关系的方法 | |
CN110162512B (zh) | 一种日志检索方法、装置及存储介质 | |
JP2017538200A (ja) | 分散環境におけるサービスアドレッシング | |
CN107861981B (zh) | 一种数据处理方法及装置 | |
JP5542859B2 (ja) | ログ管理装置、ログ蓄積方法、ログ検索方法、およびプログラム | |
US11755531B1 (en) | System and method for storage of data utilizing a persistent queue | |
US10157213B1 (en) | Data processing with streaming data | |
US20180165349A1 (en) | Generating and associating tracking events across entity lifecycles | |
CN107423037B (zh) | 应用程序接口定位方法及设备 | |
US11734324B2 (en) | Systems and methods for high efficiency data querying | |
US20230024345A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
CN110704476A (zh) | 数据处理方法、装置、设备及存储介质 | |
US11892976B2 (en) | Enhanced search performance using data model summaries stored in a remote data store | |
CN112948397A (zh) | 一种数据处理***、方法、装置及存储介质 | |
US20240211456A1 (en) | Index data structures and graphical user interface | |
US11544229B1 (en) | Enhanced tracking of data flows | |
US10289619B2 (en) | Data processing with streaming data | |
CN112035555B (zh) | 一种信息展示方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |