CN112883064A - 一种自适应采样与查询方法及*** - Google Patents

一种自适应采样与查询方法及*** Download PDF

Info

Publication number
CN112883064A
CN112883064A CN202110231990.XA CN202110231990A CN112883064A CN 112883064 A CN112883064 A CN 112883064A CN 202110231990 A CN202110231990 A CN 202110231990A CN 112883064 A CN112883064 A CN 112883064A
Authority
CN
China
Prior art keywords
sampling
level
sample
weight
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110231990.XA
Other languages
English (en)
Other versions
CN112883064B (zh
Inventor
***
沈恩亚
宋怡然
沈磊贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110231990.XA priority Critical patent/CN112883064B/zh
Publication of CN112883064A publication Critical patent/CN112883064A/zh
Application granted granted Critical
Publication of CN112883064B publication Critical patent/CN112883064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种自适应采样与查询方法及***,该方法包括:基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。本发明降低了采样误差,保证了数据查询结果的一致性与低延迟。

Description

一种自适应采样与查询方法及***
技术领域
本发明涉及计算机可视化采样技术领域,尤其涉及一种自适应采样与查询方法及***。
背景技术
对海量规模高频率流式数据进行实时可视化监控,对于数据分析与故障检测等任务具有极为重要的意义。但由于流式数据规模大和频率高的特点,查询、处理及渲染上百万条数据将会耗费大量的时间,这使得仅仅对流式数据进行实时可视化监控都成为难以解决的问题。实现流式数据的实时可视化,有助于在早期发现数据异常特征,防患于未然,具有重要的现实意义。一个可行的解决办法就是在不损失太多可视化精度的前提下,降低可视化数据的规模。
最直接的实现方法为在每次查询时都对原始数据进行采样,但这仍需要大量的查询与处理时间。数据库采样技术先对原始数据进行随机采样,然后将样本物化在数据库中用以响应查询。这避免了不同查询之间的重复计算,但是随机采样意味着其可视化误差没有保证。没有误差保证的可视化结果可能会带来错误的可视化结论。常见的简单采样方法如均匀采样、分层采样等,都缺少采样误差的保证,存在较高的延迟。
因此,现在亟需一种自适应采样与查询方法及***来解决上述问题。
发明内容
针对现有技术存在的问题,本发明提供一种自适应采样与查询方法及***。
本发明提供一种自适应采样与查询方法,包括:
基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;
对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;
基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;
当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
根据本发明提供的一种自适应采样与查询方法,所述基于波动度的余弦距离权重函数用于计算数据点的波动度权重,其中,所述波动度权重,为目标数据点与该目标数据点相邻前后两数据点的余弦距离。
根据本发明提供的一种自适应采样与查询方法,所述使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小,包括:
对权重数组扫描一次,得到所有数据点的权重和与单个数据点权重的最大值;
将所有数据点的权重和与单个数据点权重的最大值作为桶权重和的上界与下界,并基于所述上界和所述下界为起点,通过二分查找算法,获取满足预设条件的桶权重和。
根据本发明提供的一种自适应采样与查询方法,所述基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,包括:
将所述层级样本结构分为最低样本层级与上层样本层级,其中,最低样本层级,用于直接获取实时更新的原始数据,并对原始数据进行自适应分桶采样;上层样本层级不断轮询下一层级所得到的采样结果,并判断当前累计数据是否可以满足分桶条件;
当数据权重累计至分出自适应桶时,进行自适应采样,并将自采样结果传入上一层级,以实现整个层级样本结构的自底向上更新。
根据本发明提供的一种自适应采样与查询方法,所述根据所述层级样本结构,构建层级查询引擎,包括:
根据用户给定的样本数目或者采样误差条件,自顶向下查询层级样本结构,并返回满足条件的样本集合;
若当前层级样本不满足用户给定的条件,则确定当前层级采样粒度大于目标采样粒度,并查询下一层级样本,直到找到满足用户查询条件的样本层级。
根据本发明提供的一种自适应采样与查询方法,所述当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果,包括:
当所述层级查询引擎查询到符合采样粒度的层级后,保留当前层级的样本作为查询结果,并获取当前层级样本的最新数据点;且所述层级查询引擎将本层级样本结果的最新数据时间作为时间范围起始时间,向下一层级进行样本查询,直到查询到最低层级样本。
本发明还提供一种自适应采样与查询***,包括:
分桶模块,用于基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;
采样模块,用于对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;
引擎构建模块,用于基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;
查询模块,用于当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述自适应采样与查询方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述自适应采样与查询方法的步骤。
本发明提供的自适应采样与查询方法及***,该方法基于波动度的数据点权重函数,以及二分查找的快速桶划分算法,提出了确定自适应采样密度的技术,降低了采样误差,并结合一种用于管理样本的层级结构,通过预处理与层级查询技术,保证了数据查询结果的一致性与低延迟。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的自适应采样与查询方法的流程示意图;
图2为本发明提供的自适应采样与查询***的结构示意图;
图3为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的自适应采样与查询方法的流程示意图,如图1所示,本发明提供了一种自适应采样与查询方法,包括:
步骤101,基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;
步骤102,对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;
步骤103,基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;
步骤104,当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
需要说明的是,本发明提供的数据来源是兼容各种不同种类的流式数据源的统一查询接口,支持主流的消息队列***Kafka,以及IoTDB数据库,In-fluxDB数据库和TimescaleDB数据库。
具体地,在步骤101中,对数据控制器查询获取的数据进行权重计算与自适应桶划分;然后,在步骤102中,将采样算子应用在每个桶内从中提取相同数量的样本;接着,在步骤103中,将采样的结果按层级存储在中间数据库;最后,在步骤104中,根据用户的查询参数,在中间层数据库中按层级,自顶向下查找匹配的样本并返回结果。需要说明的是,本发明还可以存储与查询层级样本采样结果。
本发明提供的自适应采样与查询方法,该方法基于波动度的数据点权重函数,以及二分查找的快速桶划分算法,提出了确定自适应采样密度的技术,降低了采样误差,并结合一种用于管理样本的层级结构,通过预处理与层级查询技术保证了数据查询结果的一致性与低延迟。
在上述实施例的基础上,所述基于波动度的余弦距离权重函数用于计算数据点的波动度权重,其中,所述波动度权重,为目标数据点与该目标数据点相邻前后两数据点的余弦距离。
可以理解的是,数据点的波动度权重为该点与其相邻前后两点的余弦距离。
在上述实施例的基础上,所述使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小,包括:
对权重数组扫描一次,得到所有数据点的权重和与单个数据点权重的最大值;
将所有数据点的权重和与单个数据点权重的最大值作为桶权重和的上界与下界,并基于所述上界和所述下界为起点,通过二分查找算法,获取满足预设条件的桶权重和。
在本发明中,对于给定时间序列,及计算得到的波动度权重和所需的分桶数目,通过近似x桶划分算法,将时间序列划分为多个桶,而其目标为使所有桶的最大权重和最小化。给定一个预设的桶权重和,将权重数组分成几个连续的子数组,保证每个子数组的总和不超过预设的桶权重和。基于流式数据的特性,对于累积新到来的数据,当这些数据的权重和约等于预设的桶权重和时,将他们分为一个桶。二分查找算法是一种简单快速的算法,有助于高效找到理想的桶权重和。进一步地,通过对权重数组扫描一次,可以得到所有数据点的权重和与单个数据点权重的最大值,并将这两个权值作为预设的桶权重和的上界与下界。然后,以上下界为起点出发,通过逐渐二分查找到理想的桶权重和,进而使用这一查找到的桶权重和,将时间序列数据划分为不同的桶。
在上述实施例的基础上,所述基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,包括:
将所述层级样本结构分为最低样本层级与上层样本层级,其中,最低样本层级,用于直接获取实时更新的原始数据,并对原始数据进行自适应分桶采样;上层样本层级不断轮询下一层级所得到的采样结果,并判断当前累计数据是否可以满足分桶条件;
当数据权重累计至分出自适应桶时,进行自适应采样,并将自采样结果传入上一层级,以实现整个层级样本结构的自底向上更新。
在本发明中,样本层级结构分为最低样本层级与上层样本层级两个部分,最低样本层级直接获取实时更新的原始数据,并对原始数据进行自适应分桶采样。采样的结果一方面物化到样本层级结构中,用于响应查询;另一方面通过相邻层级间的阻塞队列传入上一层级,作为上一样本层级的流式数据源。
而上层样本层级则不断轮询下一层级所得到的采样结果,并判断当前累计数据是否可以满足分桶条件。当数据权重累计至可以分出自适应桶时,进行自适应采样,并将采样结果进一步地传入上一层级,以此实现整个层级样本结构的自底向上地更新。
在上述实施例的基础上,所述根据所述层级样本结构,构建层级查询引擎,包括:
根据用户给定的样本数目或者采样误差条件,自顶向下查询层级样本结构,并返回满足条件的样本集合;
若当前层级样本不满足用户给定的条件,则确定当前层级采样粒度大于目标采样粒度,并查询下一层级样本,直到找到满足用户查询条件的样本层级。
在本发明中,根据用户给定的样本数目或者采样误差条件,自顶向下地查询层级样本结构,并返回满足样本数目或者采样误差条件的样本集合。具体地,每个用户给定的样本查询请求包含了数据源、时间范围和样本数目(或者采样误差)三个基本参数,样本层级查询引擎按层级自顶向下地查询给定的时间范围内,每个层级的样本数目或者计算采样误差。如果当前层级样本不满足用户给定的条件,则意味着当前层级采样粒度大于目标采样粒度,需要进一步查询下一层级样本,直到查询到可以满足用户查询条件的样本层级。
在上述实施例的基础上,所述当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果,包括:
当所述层级查询引擎查询到符合采样粒度的层级后,保留当前层级的样本作为查询结果,并获取当前层级样本的最新数据点;且所述层级查询引擎将本层级样本结果的最新数据时间作为时间范围起始时间,向下一层级进行样本查询,直到查询到最低层级样本。
在本发明中,当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为结果,同时获取当前层级样本的最新数据点;然后,样本层级查询引擎会将时间范围起始时间设置为本层级样本结果的最新数据时间,进一步地向更低层级查询样本直到最低层级样本。
图2为本发明提供的自适应采样与查询***的结构示意图,如图2所示,本发明提供了一种自适应采样与查询***,包括分桶模块201、采样模块202、引擎构建模块203和查询模块204,其中,分桶模块201用于基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;采样模块202用于对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;引擎构建模块203用于基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;查询模块204用于当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
本发明提供的自适应采样与查询***,该方法基于波动度的数据点权重函数,以及二分查找的快速桶划分算法,提出了确定自适应采样密度的技术,降低了采样误差,并结合一种用于管理样本的层级结构,通过预处理与层级查询技术,保证了数据查询结果的一致性与低延迟。
本发明提供的***是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图3为本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(CommunicationsInterface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行自适应采样与查询方法,该方法包括:基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的自适应采样与查询方法,该方法包括:基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的自适应采样与查询方法,该方法包括:基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种自适应采样与查询方法,其特征在于,包括:
基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;
对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;
基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;
当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
2.根据权利要求1所述的自适应采样与查询方法,其特征在于,所述基于波动度的余弦距离权重函数用于计算数据点的波动度权重,其中,所述波动度权重,为目标数据点与该目标数据点相邻前后两数据点的余弦距离。
3.根据权利要求1所述的自适应采样与查询方法,其特征在于,所述使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小,包括:
对权重数组扫描一次,得到所有数据点的权重和与单个数据点权重的最大值;
将所有数据点的权重和与单个数据点权重的最大值作为桶权重和的上界与下界,并基于所述上界和所述下界为起点,通过二分查找算法,获取满足预设条件的桶权重和。
4.根据权利要求1所述的自适应采样与查询方法,其特征在于,所述基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,包括:
将所述层级样本结构分为最低样本层级与上层样本层级,其中,最低样本层级,用于直接获取实时更新的原始数据,并对原始数据进行自适应分桶采样;上层样本层级不断轮询下一层级所得到的采样结果,并判断当前累计数据是否可以满足分桶条件;
当数据权重累计至分出自适应桶时,进行自适应采样,并将自采样结果传入上一层级,以实现整个层级样本结构的自底向上更新。
5.根据权利要求4所述的自适应采样与查询方法,其特征在于,所述根据所述层级样本结构,构建层级查询引擎,包括:
根据用户给定的样本数目或者采样误差条件,自顶向下查询层级样本结构,并返回满足条件的样本集合;
若当前层级样本不满足用户给定的条件,则确定当前层级采样粒度大于目标采样粒度,并查询下一层级样本,直到找到满足用户查询条件的样本层级。
6.根据权利要求5所述的自适应采样与查询方法,其特征在于,所述当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果,包括:
当所述层级查询引擎查询到符合采样粒度的层级后,保留当前层级的样本作为查询结果,并获取当前层级样本的最新数据点;且所述层级查询引擎将本层级样本结果的最新数据时间作为时间范围起始时间,向下一层级进行样本查询,直到查询到最低层级样本。
7.一种自适应采样与查询***,其特征在于,包括:
分桶模块,用于基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;
采样模块,用于对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;
引擎构建模块,用于基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;
查询模块,用于当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述自适应采样与查询方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述自适应采样与查询方法的步骤。
CN202110231990.XA 2021-03-02 2021-03-02 一种自适应采样与查询方法及*** Active CN112883064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110231990.XA CN112883064B (zh) 2021-03-02 2021-03-02 一种自适应采样与查询方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110231990.XA CN112883064B (zh) 2021-03-02 2021-03-02 一种自适应采样与查询方法及***

Publications (2)

Publication Number Publication Date
CN112883064A true CN112883064A (zh) 2021-06-01
CN112883064B CN112883064B (zh) 2022-11-15

Family

ID=76055234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110231990.XA Active CN112883064B (zh) 2021-03-02 2021-03-02 一种自适应采样与查询方法及***

Country Status (1)

Country Link
CN (1) CN112883064B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114884682A (zh) * 2022-07-07 2022-08-09 湖南工商大学 基于自适应本地差分隐私的群智感知数据流隐私保护方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912274A (zh) * 2016-04-21 2016-08-31 乐视控股(北京)有限公司 流式数据定位方法及装置
CN106933206A (zh) * 2015-10-09 2017-07-07 费希尔-罗斯蒙特***公司 分布式工业***中的独立于源的查询
US20180018383A1 (en) * 2016-07-18 2018-01-18 Sap Se Hierarchical Data Grouping in Main-Memory Relational Databases
CN110609832A (zh) * 2019-08-30 2019-12-24 南开大学 一种面向流式数据的非重复采样方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933206A (zh) * 2015-10-09 2017-07-07 费希尔-罗斯蒙特***公司 分布式工业***中的独立于源的查询
CN105912274A (zh) * 2016-04-21 2016-08-31 乐视控股(北京)有限公司 流式数据定位方法及装置
US20180018383A1 (en) * 2016-07-18 2018-01-18 Sap Se Hierarchical Data Grouping in Main-Memory Relational Databases
CN110609832A (zh) * 2019-08-30 2019-12-24 南开大学 一种面向流式数据的非重复采样方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114884682A (zh) * 2022-07-07 2022-08-09 湖南工商大学 基于自适应本地差分隐私的群智感知数据流隐私保护方法
CN114884682B (zh) * 2022-07-07 2022-09-13 湖南工商大学 基于自适应本地差分隐私的群智感知数据流隐私保护方法

Also Published As

Publication number Publication date
CN112883064B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
EP3842957A1 (en) Pruning indexes to enhance database query processing
US10331712B2 (en) Efficient spatial queries in large data tables
US10223437B2 (en) Adaptive data repartitioning and adaptive data replication
CN105243169B (zh) 一种数据查询方法及***
CA3038018C (en) Performing cache update adaptation
US10901993B2 (en) Performing cache update adaptation
CN102054000A (zh) 数据查询方法、装置及***
US10169411B2 (en) Forecasting query access plan obsolescence
US20160292233A1 (en) Discarding data points in a time series
CN112883064B (zh) 一种自适应采样与查询方法及***
Huang et al. An adaptively multi-attribute index framework for big IoT data
CN108140022A (zh) 数据查询方法和数据库***
EP3182299A2 (en) Methods and systems for estimating the number of points in two-dimensional data
CN110647542B (zh) 一种数据获取方法和装置
CN115618050B (zh) 视频数据存储、分析方法、装置、***、通信设备及存储介质
CN111522918A (zh) 数据汇聚方法、装置、电子设备及计算机可读存储介质
CN110944050B (zh) 反向代理服务器缓存动态配置方法及***
WO2016144360A1 (en) Progressive interactive approach for big data analytics
CN112597193B (zh) 一种数据处理方法和数据处理***
CN115017215B (zh) 数据处理方法及计算设备
US20230297572A1 (en) Cache update adaptation
CN117435647B (zh) 一种基于增量采样的近似查询方法、装置及设备
US20240152467A1 (en) Systems and methods to generate a cache miss ratio curve where cache data has a time-to-live
CN115934759B (zh) 一种面向海量多源异构卫星数据查询的加速计算方法
CN111339134B (zh) 一种数据查询方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant