CN102521303A - 一种用于列数据库的单表多列序存储方法 - Google Patents

一种用于列数据库的单表多列序存储方法 Download PDF

Info

Publication number
CN102521303A
CN102521303A CN2011103920331A CN201110392033A CN102521303A CN 102521303 A CN102521303 A CN 102521303A CN 2011103920331 A CN2011103920331 A CN 2011103920331A CN 201110392033 A CN201110392033 A CN 201110392033A CN 102521303 A CN102521303 A CN 102521303A
Authority
CN
China
Prior art keywords
row
index
column
data
tables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103920331A
Other languages
English (en)
Other versions
CN102521303B (zh
Inventor
杨尚
王鸿翔
冯玉
李祥凯
冷建全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingbase Information Technologies Co Ltd
Original Assignee
Beijing Kingbase Information Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingbase Information Technologies Co Ltd filed Critical Beijing Kingbase Information Technologies Co Ltd
Priority to CN201110392033.1A priority Critical patent/CN102521303B/zh
Publication of CN102521303A publication Critical patent/CN102521303A/zh
Application granted granted Critical
Publication of CN102521303B publication Critical patent/CN102521303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于列数据库的单表多列序存储方法。该列数据库包括多个由行和列构成的数据表,数据表被划分为多个列集合,列集合包括一个或多个列,并且列集合的并集构成数据表,列集合两两之间建立连接索引,连接索引记录了建立了连接索引的两个列集合中,属于数据表的同一元组的列的存储位置的一一对应关系。利用本发明所提供的单表多列序存储方法,可以提高列数据库的查询效率,并减小存储空间。

Description

一种用于列数据库的单表多列序存储方法
技术领域
本发明涉及一种数据库存储方法,尤其涉及一种用于列数据库的单表多列序存储方法,属于数据库存储技术领域。
背景技术
关系型数据库是一个用以存储及处理结构化数据的软件***,其数据分为两个层次:一是逻辑数据,它是由数据表、记录等组成;另一是物理数据,它代表数据库怎样存储逻辑数据。实现数据库物理数据的方法有两种:一种是基于行存储,另一种是基于列存储。
对于基于行存储的实现方法,它是把逻辑数据的整条记录存储到数据块中,为了提高查询速度,要为某些列建立B+树等类型的索引;对于基于列存储的实现方法,逻辑数据中的记录不直接按条映射到物理数据中,而是把记录按列分开,把所有记录的相同列的值存在一起,同时提供连接数据,用于把不同记录的相应的列值重新组合起来形成记录。
随着企业及政府信息化的不断深入,数据库应用的复杂性日益增强。这些需求推动着数据库技术向海量和智能的方向发展。同时,数据仓库和在线分析等应用迫切需要实时高效的数据处理技术。传统的基于行存储的数据库技术已经出现了技术瓶颈。如何在快速执行复杂查询的同时,还能缩小存储空间和节约成本是目前数据库技术研究的热点问题。
列数据库是基于列存储技术、主要面向企业决策分析领域的关系型数据库。列存储技术的特点是数据查询效率高,读磁盘少,存储空间少,是构建数据仓库的理想架构。列数据库的应用价值来自于它对复杂查询的快速响应以及数据压缩所带来的存储优势,使其在企业决策分析、数据仓库、商业智能等应用领域具有良好的发展前景。根据美国Gartner公司在2010年1月发布的关于数据仓库的分析报告:列数据库与传统关系型数据库相比,在数据分析方面表现出卓越的性能。因此,列数据库的技术研究和产品开发在学术界和工业界受到广泛关注。
目前,开源的列数据库有C-Store,rasdaman,MonetDB等,商用列数据库有Sybase IQ、Vertica Analytic Database、ParAccelAnalytic Database、EXASOL EXA Solution等。近5年来,在国际一流的数据库会议如VLDB、SIGMOD、ICDE上有关列数据库领域的优秀论文也频频出现。
在申请号为200810187227.6的中国发明专利申请中,公开了一种实现基于列存储的关系型数据库的方法及装置,包括:建立数据文件,并对组成数据文件的数据块按顺序编序列号;定义表段;将记录***到表段中;对于***到表段中的记录生成表段内唯一的记录标识号,并将记录按列分开;对于记录中的每一个列,执行如下操作:将列值和记录标识号作为值数据存储到数据块中并按列值大小排序;将记录标识号和存储值数据的数据块的序列号作为连接数据存储到新的数据块中,并按记录标识号大小排序;对存储值数据的数据块和存储连接数据的数据块建立索引,生成索引数据块。该方法是对存储值数据的数据块和存储连接数据的数据块建立索引,而不是对属于同一元组的不同列或列集合之间建立索引。
发明内容
本发明所要解决的技术问题在于提供一种用于列数据库的单表多列序存储方法。利用该存储方法可以提高列数据库的查询效率,并减小存储空间。
为实现上述的发明目的,本发明采用下述的技术方案:
一种用于列数据库的单表多列序存储方法,所述列数据库包括多个由行和列构成的数据表,所述数据表被划分为多个列集合,所述列集合包括一个或多个列,并且所述列集合的并集构成所述数据表,其特征在于:
所述列集合两两之间建立连接索引,所述连接索引记录建立了连接索引的两个列集合中,属于所述数据表的同一元组的列的存储位置的一一对应关系。
其中较优地,对每个列集合,按照属于所述数据表的同一元组的、两个列集合中的列的存储位置值,建立连接索引;
将所述连接索引对应存储到所述每个列集合中,并与所述每个列集合中的所述列对应。
其中较优地,如果两个列集合包含重复列,则按照所述重复列,对所述两个列集合的行进行排序并存储;
如果两个列集合没有重复列,则将所述两个列集合的行,分别按照查询条件来排序并存储。
其中较优地,对于没有重复列的所述两个列集合,如果逻辑顺序相同则不建立连接索引,如果逻辑顺序不相同则建立连接索引。
其中较优地,对于有重复列的所述两个列集合,不建立连接索引。
其中较优地,估计每个执行计划所需的代价,根据最优代价选择连接索引。
其中较优地,在判断所述数据表的全部列都出现在所述多个列集合的并集中的时候,为每个列集合创建物化视图,完成列集合的创建。
其中较优地,在建立连接索引的过程中还包括下述列集合加载步骤:
步骤1:在所述数据表加载数据;
步骤2:物化全部列集合物化视图,包括物化每个列集合的存储位置;
步骤3:建立连接索引;
步骤4:删除所述数据表的数据;
步骤5:删除不需要的存储位置值。
本发明打破了列存储需要保持属于同一逻辑元组的列值在每列中的位置相同的限制,使得本单表多列序存储方法增加了使用上的灵活性。本发明可以根据报表类应用的查询来划分最佳顺序的投影以增强性能,也能根据连接索引处理Ad-Hoc(点对点)类的查询而不损失性能。
附图说明
下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1显示了一个应用本单表多列序存储方法的数据库项目的示例;
图2是图1所示的数据库项目中,显示存储位置值的示意图;
图3是图1所示的数据库项目中,表明连接索引的示意图;
图4是本单表多列序存储方法中,创建列集合的操作步骤示意图;
图5是在图1所示的实施例中,所建立的连接索引的示意图;
图6是在图1所示的实施例中,使用连接索引还原逻辑元组的示意图。
具体实施方式
本发明使用关系数据库的逻辑数据模型:每个关系(relation)是一个二维表(table),由行(tuple,也称元组)和列(attribute,也称字段)构成。在此基础上,本发明使用基于列集合的物理组织来实现逻辑数据模型。下面首先介绍“列集合”的具体含义。
列集合:每个列集合都属于一个关系,逻辑上列集合是它所属关系的一个垂直子集;物理上包含这个关系的一个或多个列并和所属关系有相同的行数。如果列集合所属的关系和另一个关系是多对一的关系,列集合中也可以包含另一个关系中的列。
列集合之间可以重复包含同一列,也可相互没有重复列。换句话说,列集合之间的列可以重叠,可以包含多个数据表的相同列。属于同一关系的所有列集合中的、列的并集就是该关系列的集合,这些列就组成了这个关系。列集合中使用列存储,并可以按照列集合中的一列或几列来进行排序。这样的组织方式可以省去索引的存储开销并提供针对查询的优化空间。在存储过程中,可以使用多种列存储压缩方式,例如RLE(行程长度编码)等。另外,可以使用分段存储的方式提高压缩效率。
本发明提供一种用于OLAP(联机分析处理)场景的列存储物理组织方式,能使用较少的存储空间并提供更多的优化灵活性。为此,在本发明所提供的单表多列序存储方法中,首先将要存储的数据表作为基表,划分为多个列的集合。同时使用存储位置值(storage key)的连接建立连接索引(join index)。该连接索引用于记录不同列集合之间列值的一一对应关系。列集合通过连接其他列集合的连接索引可以获得该列集合中列值在基表中对应的其他列值,以便重建逻辑上的一条元组。存储位置值可以根据实际需要而设定,例如可以是基表中哈希列的哈希值等。
该列集合是基表的一个垂直划分,包含一个或多个列,和基表有相同的行数。另外,列集合也可以包含其他与基表有一对多关系的数据表的列。
由于本发明打破了列存储需要保持属于同一逻辑元组的列值在每列中的位置需要相同的限制,使得本单表多列序存储方法可以增加使用上的灵活性。本发明可以根据报表类应用的查询来划分最佳顺序的投影以增强性能,例如在图6中,首先进行姓名的投影,再根据连接索引找到对应的所在系。实现这个过程的前提是:连接索引中记录的是列集合所在系在列集合姓名中的存储位置。因此,在每个列集合中都要存储连接索引,记录本列集合中的行在另一个列集合中的位置,即本列集合中的行与另一个列集合中的哪一行对应,也能根据连接索引处理Ad-Hoc(点对点)类的查询而不损失性能。
本发明的单表多列序存储方法,在列集合两两之间建立连接索引,连接索引记录了,建立了连接索引的两个列集合中,属于数据表的同一元组的列的存储位置的一一对应关系。对每个列集合,按照属于数据表的同一元组的、两个列集合中的列的存储位置值,建立连接索引,将连接索引对应存储到每个列集合中,并与每个列集合中的相应列的值对应。这样,即使每个列集合进行了重新排序,连接索引的值随之而排序,也就不会影响列集合的属于同一元组的列之间的对应关系。
下面,以一个应用单表多列序存储方法的数据库项目为例,具体阐述本发明的实施步骤及其效果。该数据库示例是用于高等院校教学管理工作的数据库。如图1所示,按学号排序的列集合1(学号,姓名,性别,年龄)和按所在系排序的列集合2(学号,所在系)组成了学生关系,列集合3中包含了课程中的列。如图2所示,列集合中的每列的每个值都有一个存储位置值,具有同一存储位置值的列构成一条逻辑元组。这个存储位置值可以不采用物理存储方式。如图3所示,由于组成关系的列集合可以按照不同的列排序,在基表中具有同一存储位置值的列值,可能在不同的列集合中处于不同的位置。如图3中学号为20070026的记录,在列集合2中位于第1行;在列集合1中位于第2行。使用连接索引标记这种位置关系,可以在不能确定物理存储位置时,找出与存储位置值相同的列值,进而通过在不同的列集合上建立连接索引,可以按照某列的顺序获得逻辑元组。例如,连接索引(即图3中右上方的“对应位置”)标记了,列集合2中第1行与列集合中的第2行对应。
通过以上的说明可知,逻辑顺序相同的两个列集合间可以不需要连接索引。如果两个列集合包含重复列,则按照该重复列,对两个列集合的行进行排序并存储;如果两个列集合没有重复列,则将两个列集合的行,分别按照查询条件来排序并存储。没有重复列的两个列集合,如果逻辑顺序相同则不建立连接索引,如果逻辑顺序不相同则建立连接索引。有重复列的两个列集合,因为其排序相同,则不需要连接索引。
图4显示了本单表多列序存储方法中,创建列集合的操作步骤。首先,根据列集合定义判断列表是否为空。如果列表为空则返回,如果列表不为空则取列集合,进一步判断基表部分的列是否在基表列集合A中,如果结果为是则将列并入列集合B中,如果结果为否则反馈错误信息。接下来,进一步检查每个没引用其他表的列集合中的列是否属于基表?每个引用其他表的列集合中的列是否属于引用表,引用表和基表是否有主外键关系?包含列是否属于列表X?是否有其它列集合包含了基表的列(即是否基表的全部列都出现在列集合中)?在以上检查的结果均为是的情况下,将被包含的列并入列集合B中。如果出现检查的结果为否的情况,则根据情况反馈错误信息。在列集合B与基表的列集合相同的情况下,为每个列集合创建一个物化视图,取下一个列集合重复上述的操作步骤。
下面显示了创建使用列集合存储方式的基表所使用的一些SQL语句示例:
语句说明:
CREATE TABLE table_name指定了表名为table_name的基表。
WITH(ORIENTATION=COLUMN)指定了基表的存储方式为列存储。
PROJECTIONS子句用于创建列集合,指定了包括列集合名称,集合中包含的列,用于排序的列。
在只使用基表的列的列集合情况下,使用如下的查询语句:
SELECT column_name...FROM table_name ORDER BY column_name;
在使用到其他表的列的列集合情况下,使用如下的查询语句:
SELECT column_name...FROM table_name JOIN other_table USING(主外键列)ORDER BY column_name。
图5显示了在图1所示的实施例中,所建立的连接索引的示意图。建立连接索引所使用的SQL语句如下:
CREATE JOIN INDEX index_name FROM projection_a TO projection_b;
该SQL语句创建了列集合projection_a到列集合projection_b的连接索引index_name。
在建立连接索引的过程中,列集合的数据加载过程是这样的:
1)在基表和列集合引用到的其他表加载数据;
2)物化全部的列集合物化视图,包括物化每个列集合的存储位置;
3)建立连接索引;
4)删除基表和列集合引用到的其他表的数据;
5)删除不需要的存储位置。
选择连接索引的过程可以使用基于代价的优化方式,即估计每个执行计划所需的代价,该代价将每个执行计划所耗费的资源进行量化,根据这个代价选择出最优的连接索引。由于使用连接索引会造成随机数据库吞吐(IO),因此应该尽可能少使用连接索引。
图6显示了在图1所示的实施例中,使用连接索引还原逻辑元组的操作过程。该操作过程包括如下的步骤:
步骤10:寻找包含查询所需要的所有目标列的列集合,如果有,则利用该列集合还原出元组;如果没有,则进入下一步;
在图6中具体为:寻找包含查询所有目标,即“姓名”、“所在系”,的列集合。
步骤11:寻找列序相同的包含查询所需要的所有目标列的多个列集合;
步骤12:在步骤11中获得的多个列集合中,选择使用连接索引最少的列集合组(例如图6中的列集合1和列集合2);
步骤13:完成目标列的投影之后,利用连接索引还原元组。
通过尽可能推迟连接索引的使用,直至完成目标列的投影之后,可以增强查询性能。
以上对本发明所提供的用于列数据库的单表多列序存储方法进行了详细的说明。对本领域的技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (10)

1.一种用于列数据库的单表多列序存储方法,所述列数据库包括多个由行和列构成的数据表,所述数据表被划分为多个列集合,所述列集合包括一个或多个列,并且所述列集合的并集构成所述数据表,其特征在于:
所述列集合两两之间建立连接索引,所述连接索引记录建立了连接索引的两个列集合中,属于所述数据表的同一元组的列的存储位置的一一对应关系。
2.如权利要求1所述的用于列数据库的单表多列序存储方法,其特征在于包括下述步骤:
对每个列集合,按照属于所述数据表的同一元组的、两个列集合中的列的存储位置值,建立连接索引;
将所述连接索引对应存储到所述每个列集合中,并与所述每个列集合中的所述列对应。
3.如权利要求1所述的用于列数据库的单表多列序存储方法,其特征在于包括下述步骤:
如果两个列集合包含重复列,则按照所述重复列,对所述两个列集合的行进行排序并存储;
如果两个列集合没有重复列,则将所述两个列集合的行,分别按照查询条件来排序并存储。
4.如权利要求3所述的用于列数据库的单表多列序存储方法,其特征在于:
对于没有重复列的所述两个列集合,如果逻辑顺序相同则不建立连接索引,如果逻辑顺序不相同则建立连接索引。
5.如权利要求3所述的用于列数据库的单表多列序存储方法,其特征在于:
对于有重复列的所述两个列集合,不建立连接索引。
6.如权利要求2所述的用于列数据库的单表多列序存储方法,其特征在于:
估计每个执行计划所需的代价,根据最优代价选择连接索引。
7.如权利要求1所述的用于列数据库的单表多列序存储方法,其特征在于包括下述创建列集合的步骤:
在判断所述数据表的全部列都出现在所述多个列集合的并集中的时候,为每个列集合创建物化视图,完成列集合的创建。
8.如权利要求1所述的用于列数据库的单表多列序存储方法,其特征在于:在建立连接索引的过程中还包括下述列集合加载步骤:
步骤1:在所述数据表加载数据;
步骤2:物化全部列集合物化视图,包括物化每个列集合的存储位置;
步骤3:建立连接索引;
步骤4:删除所述数据表的数据;
步骤5:删除不需要的存储位置值。
9.如权利要求1所述的用于列数据库的单表多列序存储方法,其特征在于还包括下述利用连接索引还原逻辑元组的步骤:
步骤1:寻找包含查询所需要的所有目标列的列集合,如果有,则利用该列集合还原出元组;如果没有,则进入下一步;
步骤2:寻找列序相同的包含查询所需要的所有目标列的多个列集合;
步骤3:在步骤2中获得的多个列集合中,选择使用连接索引最少的列集合组;
步骤4:完成目标列的投影之后,利用连接索引还原元组。
10.如权利要求1所述的用于列数据库的单表多列序存储方法,其特征在于:
属于所述数据表的同一元组的列,是指列集合中的多个列。
CN201110392033.1A 2011-11-30 2011-11-30 一种用于列数据库的单表多列序存储方法 Active CN102521303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110392033.1A CN102521303B (zh) 2011-11-30 2011-11-30 一种用于列数据库的单表多列序存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110392033.1A CN102521303B (zh) 2011-11-30 2011-11-30 一种用于列数据库的单表多列序存储方法

Publications (2)

Publication Number Publication Date
CN102521303A true CN102521303A (zh) 2012-06-27
CN102521303B CN102521303B (zh) 2016-08-10

Family

ID=46292224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110392033.1A Active CN102521303B (zh) 2011-11-30 2011-11-30 一种用于列数据库的单表多列序存储方法

Country Status (1)

Country Link
CN (1) CN102521303B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218691A (zh) * 2013-04-26 2013-07-24 吉林市赢科信息技术有限责任公司 一种嵌入式商业智能信息管理***及管理方法
CN103425781A (zh) * 2013-08-20 2013-12-04 北京国双科技有限公司 软件界面表格中列位置的数据处理方法和装置
CN104021145A (zh) * 2014-05-16 2014-09-03 华为技术有限公司 一种混合业务并发访问的方法和装置
CN104090954A (zh) * 2014-07-04 2014-10-08 用友软件股份有限公司 只读表的连接方法和只读表的连接***
CN105045791A (zh) * 2014-03-26 2015-11-11 日本电气株式会社 数据库设备
CN105224649A (zh) * 2015-09-29 2016-01-06 北京奇艺世纪科技有限公司 一种数据处理方法和装置
WO2016000156A1 (en) * 2014-06-30 2016-01-07 Microsoft Technology Licensing, Llc Managing data with flexible schema
CN105446991A (zh) * 2014-07-07 2016-03-30 阿里巴巴集团控股有限公司 数据存储方法、查询方法及设备
CN105589965A (zh) * 2015-12-23 2016-05-18 中国地质大学(武汉) 一种基于列数据库的空间数据存储方法
CN106326305A (zh) * 2015-06-30 2017-01-11 星环信息科技(上海)有限公司 一种数据文件的存储和查询方法及设备
CN106354829A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 一种列存数据库的物化方法及装置
CN106933919A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 数据表的连接方法及装置
WO2017161540A1 (zh) * 2016-03-24 2017-09-28 华为技术有限公司 数据查询的方法、数据对象的存储方法和数据***
CN108268586A (zh) * 2017-09-22 2018-07-10 广东神马搜索科技有限公司 跨多数据表的数据处理方法、装置、介质和计算设备
CN110019218A (zh) * 2017-12-08 2019-07-16 阿里巴巴集团控股有限公司 数据存储与查询方法及设备
CN110413624A (zh) * 2019-08-07 2019-11-05 南京录信软件技术有限公司 一种基于列存的多列联合存储的方法
CN111737290A (zh) * 2020-06-03 2020-10-02 北京人大金仓信息技术股份有限公司 一种分布式数据库的查询方法及装置
CN112182028A (zh) * 2020-09-29 2021-01-05 北京人大金仓信息技术股份有限公司 基于分布式数据库的表的数据行数查询方法和装置
CN113641681A (zh) * 2021-10-13 2021-11-12 南京大数据集团有限公司 一种空间自适应的海量数据查询方法
US11222067B2 (en) 2017-12-05 2022-01-11 Beijing Baidu Netcom Science And Technology Co., Ltd. Multi-index method and apparatus, cloud system and computer-readable storage medium
WO2024108668A1 (zh) * 2022-11-25 2024-05-30 深圳计算科学研究院 一种用于htap和海量数据的纯列式更新方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751406A (zh) * 2008-12-18 2010-06-23 赵伟 一种实现基于列存储的关系型数据库的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751406A (zh) * 2008-12-18 2010-06-23 赵伟 一种实现基于列存储的关系型数据库的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BFS198: "hbase介绍", 《百度文库-专业资料-IT/计算机》 *
尼米克: "《Oracle Database 10g性能调整与优化》", 31 January 2009 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218691A (zh) * 2013-04-26 2013-07-24 吉林市赢科信息技术有限责任公司 一种嵌入式商业智能信息管理***及管理方法
CN103218691B (zh) * 2013-04-26 2016-09-07 吉林市赢科信息技术有限责任公司 一种嵌入式商业智能信息管理***及管理方法
CN103425781A (zh) * 2013-08-20 2013-12-04 北京国双科技有限公司 软件界面表格中列位置的数据处理方法和装置
CN103425781B (zh) * 2013-08-20 2018-04-06 北京国双科技有限公司 软件界面表格中列位置的数据处理方法和装置
CN105045791A (zh) * 2014-03-26 2015-11-11 日本电气株式会社 数据库设备
CN104021145A (zh) * 2014-05-16 2014-09-03 华为技术有限公司 一种混合业务并发访问的方法和装置
CN104021145B (zh) * 2014-05-16 2018-03-06 华为技术有限公司 一种混合业务并发访问的方法和装置
US9904701B2 (en) 2014-05-16 2018-02-27 Huawei Technologies Co.,. Ltd. Method and apparatus for concurrent access of mixed services
US9898492B2 (en) 2014-06-30 2018-02-20 Microsoft Technology Licensing, Llc Managing data with flexible schema
WO2016000156A1 (en) * 2014-06-30 2016-01-07 Microsoft Technology Licensing, Llc Managing data with flexible schema
US11169981B2 (en) 2014-06-30 2021-11-09 Microsoft Technology Licensing, Llc Managing data with flexible schema
CN106471489A (zh) * 2014-06-30 2017-03-01 微软技术许可有限责任公司 管理具有灵活模式的数据
CN106471489B (zh) * 2014-06-30 2019-10-11 微软技术许可有限责任公司 管理具有灵活模式的数据
CN104090954A (zh) * 2014-07-04 2014-10-08 用友软件股份有限公司 只读表的连接方法和只读表的连接***
CN105446991B (zh) * 2014-07-07 2018-10-30 阿里巴巴集团控股有限公司 数据存储方法、查询方法及设备
CN105446991A (zh) * 2014-07-07 2016-03-30 阿里巴巴集团控股有限公司 数据存储方法、查询方法及设备
CN106326305A (zh) * 2015-06-30 2017-01-11 星环信息科技(上海)有限公司 一种数据文件的存储和查询方法及设备
CN105224649B (zh) * 2015-09-29 2019-03-26 北京奇艺世纪科技有限公司 一种数据处理方法和装置
CN105224649A (zh) * 2015-09-29 2016-01-06 北京奇艺世纪科技有限公司 一种数据处理方法和装置
CN105589965A (zh) * 2015-12-23 2016-05-18 中国地质大学(武汉) 一种基于列数据库的空间数据存储方法
CN106933919A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 数据表的连接方法及装置
CN106933919B (zh) * 2015-12-31 2020-03-03 北京国双科技有限公司 数据表的连接方法及装置
WO2017161540A1 (zh) * 2016-03-24 2017-09-28 华为技术有限公司 数据查询的方法、数据对象的存储方法和数据***
CN106354829A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 一种列存数据库的物化方法及装置
CN108268586A (zh) * 2017-09-22 2018-07-10 广东神马搜索科技有限公司 跨多数据表的数据处理方法、装置、介质和计算设备
US11222067B2 (en) 2017-12-05 2022-01-11 Beijing Baidu Netcom Science And Technology Co., Ltd. Multi-index method and apparatus, cloud system and computer-readable storage medium
CN110019218A (zh) * 2017-12-08 2019-07-16 阿里巴巴集团控股有限公司 数据存储与查询方法及设备
CN110019218B (zh) * 2017-12-08 2023-08-25 阿里巴巴集团控股有限公司 数据存储与查询方法及设备
CN110413624A (zh) * 2019-08-07 2019-11-05 南京录信软件技术有限公司 一种基于列存的多列联合存储的方法
CN111737290A (zh) * 2020-06-03 2020-10-02 北京人大金仓信息技术股份有限公司 一种分布式数据库的查询方法及装置
CN112182028A (zh) * 2020-09-29 2021-01-05 北京人大金仓信息技术股份有限公司 基于分布式数据库的表的数据行数查询方法和装置
CN113641681A (zh) * 2021-10-13 2021-11-12 南京大数据集团有限公司 一种空间自适应的海量数据查询方法
CN113641681B (zh) * 2021-10-13 2022-02-22 南京大数据集团有限公司 一种空间自适应的海量数据查询方法
WO2024108668A1 (zh) * 2022-11-25 2024-05-30 深圳计算科学研究院 一种用于htap和海量数据的纯列式更新方法及装置

Also Published As

Publication number Publication date
CN102521303B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN102521303A (zh) 一种用于列数据库的单表多列序存储方法
CN100562874C (zh) 一种增量数据捕获方法和***
Markl Mistral: Processing relational queries using a multidimensional access technique
CN103020301B (zh) 一种多维度数据查询和存储方法及***
CN105912687B (zh) 海量分布式数据库存储单元
CN107391306A (zh) 一种异构数据库备份文件恢复方法
CN103366015A (zh) 一种基于Hadoop的OLAP数据存储与查询方法
CN102521307A (zh) 一种云计算环境下的无共享数据库集群并行查询处理方法
CN104391948A (zh) 数据仓库的数据标准化构建方法及***
CN105631003A (zh) 支持海量数据分组统计的智能索引构建、查询及维护方法
CN101751406A (zh) 一种实现基于列存储的关系型数据库的方法及装置
US11734313B2 (en) Systems and methods for intelligently grouping financial product users into cohesive cohorts
CN102819589B (zh) 一种基于etl的数据优化方法及设备
CN109636092B (zh) 一种基于双因子优化的仓库货位分配方法
CN104699857A (zh) 基于知识工程的大数据存储方法
CN102779138A (zh) 实时数据的硬盘存取方法
CN102411600A (zh) 一种基于蕴涵规则的数据质量自动检测方法
CN105938479A (zh) 一种关系表与非关系表的结构转换方法
CN105022791A (zh) 一种新型的kv分布式数据存储方法
CN101408882B (zh) 一种授权文档的检索方法和***
CN102724279B (zh) 一种实现日志保存和管理的***
CN101833511A (zh) 数据管理方法、装置和***
CN111104441A (zh) 一种数据采集方法及***
CN103488645A (zh) 一种用于物联网数据更新的结构设计方法
CN110688386A (zh) 面向新型供电轨道交通大数据的分布式列族数据索引方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant