CN112883064A

CN112883064A - 一种自适应采样与查询方法及***

Info

Publication number: CN112883064A
Application number: CN202110231990.XA
Authority: CN
Inventors: ***; 沈恩亚; 宋怡然; 沈磊贤
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-06-01
Anticipated expiration: 2041-03-02
Also published as: CN112883064B

Abstract

本发明提供一种自适应采样与查询方法及***，该方法包括：基于波动度的余弦距离权重函数，计算每一个数据点的波动度权重，并按照所述波动度权重，使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小；对每个分桶结果中的流式数据，通过多种采样算子提取相同数目的样本，以实现自适应的采样密度，得到对应的采样结果；基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，并根据所述层级样本结构，构建层级查询引擎；当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果。本发明降低了采样误差，保证了数据查询结果的一致性与低延迟。

Description

一种自适应采样与查询方法及***

技术领域

本发明涉及计算机可视化采样技术领域，尤其涉及一种自适应采样与查询方法及***。

背景技术

对海量规模高频率流式数据进行实时可视化监控，对于数据分析与故障检测等任务具有极为重要的意义。但由于流式数据规模大和频率高的特点，查询、处理及渲染上百万条数据将会耗费大量的时间，这使得仅仅对流式数据进行实时可视化监控都成为难以解决的问题。实现流式数据的实时可视化，有助于在早期发现数据异常特征，防患于未然，具有重要的现实意义。一个可行的解决办法就是在不损失太多可视化精度的前提下，降低可视化数据的规模。

最直接的实现方法为在每次查询时都对原始数据进行采样，但这仍需要大量的查询与处理时间。数据库采样技术先对原始数据进行随机采样，然后将样本物化在数据库中用以响应查询。这避免了不同查询之间的重复计算，但是随机采样意味着其可视化误差没有保证。没有误差保证的可视化结果可能会带来错误的可视化结论。常见的简单采样方法如均匀采样、分层采样等，都缺少采样误差的保证，存在较高的延迟。

因此，现在亟需一种自适应采样与查询方法及***来解决上述问题。

发明内容

针对现有技术存在的问题，本发明提供一种自适应采样与查询方法及***。

本发明提供一种自适应采样与查询方法，包括：

基于波动度的余弦距离权重函数，计算每一个数据点的波动度权重，并按照所述波动度权重，使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小；

对每个分桶结果中的流式数据，通过多种采样算子提取相同数目的样本，以实现自适应的采样密度，得到对应的采样结果；

基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，并根据所述层级样本结构，构建层级查询引擎；

当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果。

根据本发明提供的一种自适应采样与查询方法，所述基于波动度的余弦距离权重函数用于计算数据点的波动度权重，其中，所述波动度权重，为目标数据点与该目标数据点相邻前后两数据点的余弦距离。

根据本发明提供的一种自适应采样与查询方法，所述使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小，包括：

对权重数组扫描一次，得到所有数据点的权重和与单个数据点权重的最大值；

将所有数据点的权重和与单个数据点权重的最大值作为桶权重和的上界与下界，并基于所述上界和所述下界为起点，通过二分查找算法，获取满足预设条件的桶权重和。

根据本发明提供的一种自适应采样与查询方法，所述基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，包括：

将所述层级样本结构分为最低样本层级与上层样本层级，其中，最低样本层级，用于直接获取实时更新的原始数据，并对原始数据进行自适应分桶采样；上层样本层级不断轮询下一层级所得到的采样结果，并判断当前累计数据是否可以满足分桶条件；

当数据权重累计至分出自适应桶时，进行自适应采样，并将自采样结果传入上一层级，以实现整个层级样本结构的自底向上更新。

根据本发明提供的一种自适应采样与查询方法，所述根据所述层级样本结构，构建层级查询引擎，包括：

根据用户给定的样本数目或者采样误差条件，自顶向下查询层级样本结构，并返回满足条件的样本集合；

若当前层级样本不满足用户给定的条件，则确定当前层级采样粒度大于目标采样粒度，并查询下一层级样本，直到找到满足用户查询条件的样本层级。

根据本发明提供的一种自适应采样与查询方法，所述当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果，包括：

当所述层级查询引擎查询到符合采样粒度的层级后，保留当前层级的样本作为查询结果，并获取当前层级样本的最新数据点；且所述层级查询引擎将本层级样本结果的最新数据时间作为时间范围起始时间，向下一层级进行样本查询，直到查询到最低层级样本。

本发明还提供一种自适应采样与查询***，包括：

分桶模块，用于基于波动度的余弦距离权重函数，计算每一个数据点的波动度权重，并按照所述波动度权重，使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小；

采样模块，用于对每个分桶结果中的流式数据，通过多种采样算子提取相同数目的样本，以实现自适应的采样密度，得到对应的采样结果；

引擎构建模块，用于基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，并根据所述层级样本结构，构建层级查询引擎；

查询模块，用于当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述自适应采样与查询方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述自适应采样与查询方法的步骤。

本发明提供的自适应采样与查询方法及***，该方法基于波动度的数据点权重函数，以及二分查找的快速桶划分算法，提出了确定自适应采样密度的技术，降低了采样误差，并结合一种用于管理样本的层级结构，通过预处理与层级查询技术，保证了数据查询结果的一致性与低延迟。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的自适应采样与查询方法的流程示意图；

图2为本发明提供的自适应采样与查询***的结构示意图；

图3为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的自适应采样与查询方法的流程示意图，如图1所示，本发明提供了一种自适应采样与查询方法，包括：

步骤101，基于波动度的余弦距离权重函数，计算每一个数据点的波动度权重，并按照所述波动度权重，使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小；

步骤102，对每个分桶结果中的流式数据，通过多种采样算子提取相同数目的样本，以实现自适应的采样密度，得到对应的采样结果；

步骤103，基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，并根据所述层级样本结构，构建层级查询引擎；

步骤104，当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果。

需要说明的是，本发明提供的数据来源是兼容各种不同种类的流式数据源的统一查询接口，支持主流的消息队列***Kafka，以及IoTDB数据库，In-fluxDB数据库和TimescaleDB数据库。

具体地，在步骤101中，对数据控制器查询获取的数据进行权重计算与自适应桶划分；然后，在步骤102中，将采样算子应用在每个桶内从中提取相同数量的样本；接着，在步骤103中，将采样的结果按层级存储在中间数据库；最后，在步骤104中，根据用户的查询参数，在中间层数据库中按层级，自顶向下查找匹配的样本并返回结果。需要说明的是，本发明还可以存储与查询层级样本采样结果。

本发明提供的自适应采样与查询方法，该方法基于波动度的数据点权重函数，以及二分查找的快速桶划分算法，提出了确定自适应采样密度的技术，降低了采样误差，并结合一种用于管理样本的层级结构，通过预处理与层级查询技术保证了数据查询结果的一致性与低延迟。

在上述实施例的基础上，所述基于波动度的余弦距离权重函数用于计算数据点的波动度权重，其中，所述波动度权重，为目标数据点与该目标数据点相邻前后两数据点的余弦距离。

可以理解的是，数据点的波动度权重为该点与其相邻前后两点的余弦距离。

在上述实施例的基础上，所述使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小，包括：

在本发明中，对于给定时间序列，及计算得到的波动度权重和所需的分桶数目，通过近似x桶划分算法，将时间序列划分为多个桶，而其目标为使所有桶的最大权重和最小化。给定一个预设的桶权重和，将权重数组分成几个连续的子数组，保证每个子数组的总和不超过预设的桶权重和。基于流式数据的特性，对于累积新到来的数据，当这些数据的权重和约等于预设的桶权重和时，将他们分为一个桶。二分查找算法是一种简单快速的算法，有助于高效找到理想的桶权重和。进一步地，通过对权重数组扫描一次，可以得到所有数据点的权重和与单个数据点权重的最大值，并将这两个权值作为预设的桶权重和的上界与下界。然后，以上下界为起点出发，通过逐渐二分查找到理想的桶权重和，进而使用这一查找到的桶权重和，将时间序列数据划分为不同的桶。

在上述实施例的基础上，所述基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，包括：

在本发明中，样本层级结构分为最低样本层级与上层样本层级两个部分，最低样本层级直接获取实时更新的原始数据，并对原始数据进行自适应分桶采样。采样的结果一方面物化到样本层级结构中，用于响应查询；另一方面通过相邻层级间的阻塞队列传入上一层级，作为上一样本层级的流式数据源。

而上层样本层级则不断轮询下一层级所得到的采样结果，并判断当前累计数据是否可以满足分桶条件。当数据权重累计至可以分出自适应桶时，进行自适应采样，并将采样结果进一步地传入上一层级，以此实现整个层级样本结构的自底向上地更新。

在上述实施例的基础上，所述根据所述层级样本结构，构建层级查询引擎，包括：

在本发明中，根据用户给定的样本数目或者采样误差条件，自顶向下地查询层级样本结构，并返回满足样本数目或者采样误差条件的样本集合。具体地，每个用户给定的样本查询请求包含了数据源、时间范围和样本数目(或者采样误差)三个基本参数，样本层级查询引擎按层级自顶向下地查询给定的时间范围内，每个层级的样本数目或者计算采样误差。如果当前层级样本不满足用户给定的条件，则意味着当前层级采样粒度大于目标采样粒度，需要进一步查询下一层级样本，直到查询到可以满足用户查询条件的样本层级。

在上述实施例的基础上，所述当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果，包括：

在本发明中，当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为结果，同时获取当前层级样本的最新数据点；然后，样本层级查询引擎会将时间范围起始时间设置为本层级样本结果的最新数据时间，进一步地向更低层级查询样本直到最低层级样本。

图2为本发明提供的自适应采样与查询***的结构示意图，如图2所示，本发明提供了一种自适应采样与查询***，包括分桶模块201、采样模块202、引擎构建模块203和查询模块204，其中，分桶模块201用于基于波动度的余弦距离权重函数，计算每一个数据点的波动度权重，并按照所述波动度权重，使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小；采样模块202用于对每个分桶结果中的流式数据，通过多种采样算子提取相同数目的样本，以实现自适应的采样密度，得到对应的采样结果；引擎构建模块203用于基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，并根据所述层级样本结构，构建层级查询引擎；查询模块204用于当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果。

本发明提供的自适应采样与查询***，该方法基于波动度的数据点权重函数，以及二分查找的快速桶划分算法，提出了确定自适应采样密度的技术，降低了采样误差，并结合一种用于管理样本的层级结构，通过预处理与层级查询技术，保证了数据查询结果的一致性与低延迟。

本发明提供的***是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图3为本发明提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(CommunicationsInterface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行自适应采样与查询方法，该方法包括：基于波动度的余弦距离权重函数，计算每一个数据点的波动度权重，并按照所述波动度权重，使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小；对每个分桶结果中的流式数据，通过多种采样算子提取相同数目的样本，以实现自适应的采样密度，得到对应的采样结果；基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，并根据所述层级样本结构，构建层级查询引擎；当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的自适应采样与查询方法，该方法包括：基于波动度的余弦距离权重函数，计算每一个数据点的波动度权重，并按照所述波动度权重，使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小；对每个分桶结果中的流式数据，通过多种采样算子提取相同数目的样本，以实现自适应的采样密度，得到对应的采样结果；基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，并根据所述层级样本结构，构建层级查询引擎；当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的自适应采样与查询方法，该方法包括：基于波动度的余弦距离权重函数，计算每一个数据点的波动度权重，并按照所述波动度权重，使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小；对每个分桶结果中的流式数据，通过多种采样算子提取相同数目的样本，以实现自适应的采样密度，得到对应的采样结果；基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，并根据所述层级样本结构，构建层级查询引擎；当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种自适应采样与查询方法，其特征在于，包括：

2.根据权利要求1所述的自适应采样与查询方法，其特征在于，所述基于波动度的余弦距离权重函数用于计算数据点的波动度权重，其中，所述波动度权重，为目标数据点与该目标数据点相邻前后两数据点的余弦距离。

3.根据权利要求1所述的自适应采样与查询方法，其特征在于，所述使用二分查找算法对累积数据进行快速自适应分桶，使得分桶结果中所有桶的最大权重和最小，包括：

4.根据权利要求1所述的自适应采样与查询方法，其特征在于，所述基于采样结果，从低层级样本中采样得到高层级的样本，构建保持层级结果一致性的层级样本结构，包括：

5.根据权利要求4所述的自适应采样与查询方法，其特征在于，所述根据所述层级样本结构，构建层级查询引擎，包括：

6.根据权利要求5所述的自适应采样与查询方法，其特征在于，所述当层级查询引擎查询到符合采样粒度的层级后，将保留当前层级的样本作为查询结果，包括：

7.一种自适应采样与查询***，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述自适应采样与查询方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述自适应采样与查询方法的步骤。