CN108256003A

CN108256003A - 一种根据分析数据重复率提高union运算效率的方法

Info

Publication number: CN108256003A
Application number: CN201711497512.3A
Authority: CN
Inventors: 武新; 赵伟; 马良柱; 牛杰; 崔维力; 杨铸; 张楠
Original assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Current assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-07-06

Abstract

本发明提供了一种根据分析数据重复率提高union运算效率的方法，首先分析了集合的数据特征,然后对符合某些特征的集合进行优化,从而大幅缩短运算时间。这里的数据特征是指数据有较多的重复值。分析数据特征时采用抽样方式来分析重复率,对符合特征值的集合先对union两端的数据分别进行去重操作,然后再进行union运算,这样大大降低了union操作的时间和磁盘IO时间,从而降低总查询时间。

Description

一种根据分析数据重复率提高union运算效率的方法

技术领域

本发明属于数据库领域，尤其是涉及一种根据分析数据重复率提高 union运算效率的方法。

背景技术

数据库的Union操作是指取A集合与B集合的并集,且结果没有重复值。

下面的sql语句执行从t1表取出所有数据,然后从t2表取出所有数据, 然后做union：

SELECT*FROM t1UNION SELECT*FROM t2；

一般的数据库处理为3步:

1、集合A的值,然后再取集合B的值

2、进行并操作

3、对结果去重

如图2是oracle11的执行计划(缩进越多,越先执行)，它的执行顺序符合上面的处理步骤,按ID看执行顺序为3->4->2->1->0

步骤1.在执行ID3,ID4过程中,首先取出所有t1,t2表的内容,转换为特定的格式保存到磁盘为临时文件,这个操作可能有大量的磁盘IO；

步骤2.在执行ID2时,时间是把上一步产生的临时文件拼接起来,同样有大量的磁盘IO

步骤3.在执行ID1时,会对第二步生成的新临时文件逐行读取,然后做去重操作。

对某些数据特征,即集合里面的数据重复率较高时,步骤1和步骤2生成的临时文件会很大,而步骤3生成的最终结果会很小.这样会造成2个问题:

步骤1,2生成大量无用临时文件,增加了磁盘IO时间

由于步骤2生成的临时文件较大,会增加步骤3的CPU处理时间。

发明内容

有鉴于此，本发明旨在提出一种根据分析数据重复率提高union运算效率的方法，可以对高重复率的集合大幅度优化,也不会对普通数据添加额外的去重运算负担。

为达到上述目的，本发明的技术方案是这样实现的：

一种根据分析数据重复率提高union运算效率的方法，包括如下步骤：

1)对两个表分别抽取采样，判断每个表的采样的重复率是否大于设定的阈值；

2)对于重复率大于阈值的表，进行去重操作并将数据写入磁盘；对于重复率不大于阈值的表，将数据直接写入磁盘；

3)从磁盘读取临时文件,然后进行union运算。

进一步的，在步骤1)中，对两个表均按固定步长抽取采样。

进一步的，在步骤2)中，进行去重操作并将数据写入磁盘的方法为：从表里每次读一行,若已经写到磁盘的临时文件,则跳过这一行,否则写入磁盘,直到所有的行都被读完。

相对于现有技术，本发明具有以下优势：

数据特征的分析是通过采样方式抽取部分数据来分析重复率.由于是抽样方式,所以时间可以忽略不计；对符合数据特征的数据,将去重操作提前,对步骤1和步骤2只输出不重复的数值,这样减少了步骤1和步骤2的磁盘IO输出,从而也降低了步骤3的CPU负担；当数据比较离散,即重复率不高时,按照原来的办法,直接到磁盘的临时文件；通过本发明,既可以对高重复率的集合大幅度优化,也不会对普通数据添加额外的去重运算负担。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明方法流程图；

图2为oracle11的执行计划。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

本发明以SELECT*FROM t1UNION SELECT*FROM t2为例说明，如图1所示：

1.数据采样

对t1表t2表按固定步长采样,如1/500,

假设t1表有1000个数据块,t2表有2000个数据块

则对t1表的第1,500块和t2表的1,500,1000,1500数据块进行采样,即读取这些数据块的内容。

2.评估

对t1表和t2表采样的数据进行重复率分析,

重复率＝(1-没有重复的元素个数/总元素个数)*100％

若t1表的重复率大于50％,则首先进行去重操作,进入步骤4,否则按照原来的方案,直接将所有数据写到磁盘为临时文件,然后进入步骤4；

对t2表的处理方式同t1一致。

3.去重

从t1或t2表里每次读一行,若已经写到磁盘的临时文件,则跳过这一行,否则写入磁盘,直到所有的行都被读完,此时磁盘上的临时文件将只是t1或t2表中的不重复的值。

4.进行union运算

从磁盘读取临时文件,然后进行集合运算。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种根据分析数据重复率提高union运算效率的方法，其特征在于包括如下步骤：

3)从磁盘读取临时文件,然后进行union运算。

2.根据权利要求1所述的一种根据分析数据重复率提高union运算效率的方法，其特征在于：在步骤1)中，对两个表均按固定步长抽取采样。

3.根据权利要求1所述的一种根据分析数据重复率提高union运算效率的方法，其特征在于：在步骤2)中，进行去重操作并将数据写入磁盘的方法为：从表里每次读一行,若已经写到磁盘的临时文件,则跳过这一行,否则写入磁盘,直到所有的行都被读完。