CN111506790B

CN111506790B - 抽取对象确定及数据刷新方法、***、设备和存储介质

Info

Publication number: CN111506790B
Application number: CN202010275801.4A
Authority: CN
Inventors: 高坤晓; 齐文超
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2024-03-22
Anticipated expiration: 2040-04-09
Also published as: CN111506790A

Abstract

本发明公开了一种抽取对象确定及数据刷新方法、***、设备和存储介质。其中，抽取对象确定方法包括：确定待选的若干对象，每个对象对应一个权重值，所述权重值的取值与所述对象被抽中的概率正相关；将相同权重值的对象聚合存储为一个集合；在权重值上构建索引，相同的权重值在所述索引中所占的长度值等于所述权重值乘以对应集合中的对象数；在所述索引中随机选取一个索引值，找到被选取的索引值对应的权重值，查询被找到的权重值对应的集合；从所查询到的集合中随机获取一个对象作为抽取对象。本发明在确定抽取对象时既不会在运行时占用过多的临时存储空间，又能减少运行时间。

Description

抽取对象确定及数据刷新方法、***、设备和存储介质

技术领域

本发明属于计算机领域，尤其涉及一种抽取对象确定及数据刷新方法、***、设备和存储介质。

背景技术

互联网、大数据计算等领域经常涉及海量数据，如何快速高效地处理海量数据是技术人员所关注的。例如，在OTA(在线旅行社)中，网站需要经常更新各酒店供应商提供的酒店数据，由于数据量较多，一次性更新所有酒店数据可能会使服务器承受很大的负担，也可能受限于QPS(每秒查询率)而无法快速获取到所有酒店数据。

为了避免上述问题，一种较为常见的做法是选择性地从所有酒店数据中挑选部分数据分步更新。将所有的酒店数据看作一个包含海量数据元素的集合，每个元素对应一个权重，利用加权随机算法抽取部分数据进行更新。然而，目前的加权随机算法在实现时时间复杂度与空间复杂度不能同时兼顾，要么在运行过程中临时占用的存储空间较大，要么运行时间较长。

发明内容

本发明要解决的技术问题是为了克服依赖现有的加权随机算法抽取对象时占用的存储空间大、运行时间长的缺陷，提供一种抽取对象确定及数据刷新方法、***、设备和存储介质。

本发明是通过以下技术方案解决上述技术问题的：

一种抽取对象确定方法，包括：

确定待选的若干对象，每个对象对应一个权重值，所述权重值的取值与所述对象被抽中的概率正相关；

将相同权重值的对象聚合存储为一个集合；

在权重值上构建索引，相同的权重值在所述索引中所占的长度值等于所述权重值乘以对应集合中的对象数；

在所述索引中随机选取一个索引值，找到被选取的索引值对应的权重值，查询被找到的权重值对应的集合；

从所查询到的集合中随机获取一个对象作为抽取对象。

较佳地，采用均匀随机算法在所述索引中随机选取一个索引值。

较佳地，通过二分法找到被选取的索引值对应的权重值。

一种数据刷新方法，包括：

确定数据刷新范围，所述数据刷新范围包括若干对象的数据，所述对象被抽中的概率与所述对象的数据变化频率正相关；

以所述数据刷新范围内的对象为待选的对象，利用如上所述的抽取对象确定方法确定抽取对象；

通过访问数据接口获取所述抽取对象的数据；

将所述抽取对象的数据缓存在数据缓存单元并替换所述数据缓存单元中所述抽取对象原有的数据。

一种抽取对象确定***，包括：

对象确定模块，用于确定待选的若干对象，每个对象对应一个权重值，所述权重值的取值与所述对象被抽中的概率正相关；

对象聚合模块，用于将相同权重值的对象聚合存储为一个集合；

索引构建模块，用于在权重值上构建索引，相同的权重值在所述索引中所占的长度值等于所述权重值乘以对应集合中的对象数；

集合查找模块，用于在所述索引中随机选取一个索引值，找到被选取的索引值对应的权重值，查询被找到的权重值对应的集合；

对象抽取模块，用于从所查询到的集合中随机获取一个对象作为抽取对象。

较佳地，所述集合查找模块采用均匀随机算法在所述索引中随机选取一个索引值。

较佳地，所述集合查找模块通过二分法找到被选取的索引值对应的权重值。

一种数据刷新***，包括：

数据确定模块，用于确定数据刷新范围，所述数据刷新范围包括若干对象的数据，所述对象被抽中的概率与所述对象的数据变化频率正相关；

对象抽取模块，用于以所述数据刷新范围内的对象为待选的对象，利用如上所述的抽取对象确定***确定抽取对象；

接口访问模块，用于通过访问数据接口获取所述抽取对象的数据；

数据刷新模块，用于将所述抽取对象的数据缓存在数据缓存单元并替换所述数据缓存单元中所述抽取对象原有的数据。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如上所述的方法的步骤。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：本发明在确定抽取对象时可以做到时间/空间复杂度都为O(1)，既不会在运行时占用过多的临时存储空间，又能减少运行时间，尤其适用于待选对象多，需要考虑性能与空间占用的场景，同时索引较为简洁，重建索引耗时较短，可以适用加权随机候选集快速变化的场景。本发明还在数据刷新时大概率地刷新变化频率高的数据，避免出现一次性刷新所有数据，而导致服务器承受负担过大或受限于QPS的情况，实现了数据的快速更新。

附图说明

图1为本发明实施例1的一种抽取对象确定方法的流程图；

图2为本发明实施例1中索引的数据结构示意图；

图3为本发明实施例1中构建的一个具体索引的数据模型示意图；

图4为目前加权随机的第一种常见实现的内存模型示意图；

图5为本发明实施例2的一种数据刷新方法的流程图；

图6为本发明实施例3的一种抽取对象确定***的示意框图；

图7为本发明实施例4的一种数据刷新***的示意框图；

图8为本发明实施例5的一种电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

图1示出了本实施例的一种抽取对象确定方法，其包括以下步骤：

步骤101：确定待选的若干对象，每个对象对应一个权重值，权重值的取值与对象被抽中的概率正相关。

步骤102：将相同权重值的对象聚合存储为一个集合。其中，每个集合所占的总权重为集合中每个对象的权重值的总和。

步骤103：在权重值上构建索引，相同的权重值在索引中所占的长度值等于权重值乘以对应集合中的对象数。图2示出了索引的一种数据结构，索引列为权重值，每种权重值对应一个索引范围，索引范围内包括N个索引值，N等于对应权重值与该权重值对应集合中的对象数的乘积，每个索引范围分别指向一个候选数据集，候选数据集即为同权重候选数据集合，包括了该权重的对象。

步骤104：在索引中随机选取一个索引值，找到被选取的索引值对应的权重值，查询被找到的权重值对应的集合。

步骤105：从所查询到的集合中随机获取一个对象作为抽取对象。

本实施例中，步骤104优选采用均匀随机算法在索引中随机选取一个索引值。

本实施例中，步骤104还优选通过二分法找到被选取的索引值对应的权重值。

例如，总共5个对象，分别为A1、A2、A3、B1和B2，已知A1、A2、A3权重为2，B1、B2权重为3，则构建索引的数据模型如图3所示，每次抽取对象时，从[0,12)之间随机一个元素，如随机到5，则对应权重2这个集合，再从权重2集合中{A1,A2,A3}中随机选择一个对象。由此可以保证每个对象被选取到的概率与其权重值线性正相关。

下面将本实施例的抽取对象确定方法与目前常见的加权随机算法的实现进行对比，以进一步体现本实施例方法所能达到的技术效果：

场景描述：已知集合S，其包含海量数据对象，其元素为快速动态变化的：每个对象有对应的权重w，w取值范围为[1,m]，m为有限定值，如一般权重多为1至100。每次从中抽取指定对象，其被抽取到的概率p与权重值w正相关(p∝w)，即对集合S做加权随机。

(1)目前业内的常见实现为：

第一种：扩展这个集合，使每一项出现的次数与其权重正相关。在上述例子这个集合扩展成：{a*{A1},a*{A2},a*{A3},b*{B1},b*{B2}}，共计3a+2b个集合，然后就可以用均匀随机算法来从中选取。

例如A1、A2、A3权重为2，B1、B2权重为3，则内存模型如图4所示。

该种实现时间复杂度为O(1)，空间复杂度为O(n)；当前集合变化时，重建索引成本较高。

第二种：计算权重总和sum，然后在1到sum之间随机选择一个数R，之后遍历整个集合，统计遍历的项的权重之和，如果大于等于R，就停止遍历，选择遇到的项。

该种实现时间复杂度为O(n)，空间复杂度为O(1)。

以上两种实现，时间复杂度与空间复杂度不能同时兼顾。第一种，较为占用空间，在面对海量数据快速更新的场景下，需要花费大量时间来重新计算索引，同时带来大量GC，损耗性能。第二种，时间复杂度较差。

(2)使用本实施例的方法：

对于上述集合S，其中有x个对象A的权重都为p，集合S的总权重值为P，则每个对象被抽取到的概率为a/A：

按照本实施例的方法实现加权随机，则新集合{A}被抽取到概率为：(x*p)/P；

在随机{A}集合中的任何一个值，每个对象被随机到的概率为1/x。

则单个对象被加权随机到的概率为(x*p)/P*(1/x)＝a/A，符合预期。

在该方法中，由于权重w取值范围为[1,m]，所以该方法最多占用空间为m个，故空间复杂度为O(1)，时间复杂度上，由于索引最多为m个，则查找到对应区间最多花费log(m)次，故时间复杂度也为O(1)。

通过比较可以看出，本实施例的抽取对象确定方法从权重的角度入手，通过构建索引，通过新的加权随机思想选择了一个抽取对象，在抽取过程中相比于现有的加权随机算法实现压缩了存储空间，同时时间复杂度优异，数学上符合加权期望。

本实施例的方法在确定抽取对象时可以做到时间/空间复杂度都为O(1)，既不会在运行时占用过多的临时存储空间，又能减少运行时间，尤其适用于待选对象多，需要考虑性能与空间占用的场景，同时索引较为简洁，重建索引耗时较短，可以适用加权随机候选集快速变化的场景。

实施例2

本实施例将实施例1中的抽取对象确定方法应用于数据刷新场景中，从而形成一种数据刷新方法。图5示出了本实施例的一种数据刷新方法，其包括以下步骤：

步骤201：确定数据刷新范围。数据刷新范围包括若干对象的数据，对象被抽中的概率与对象的数据变化频率正相关。也就是说，对象的权重值与对象的数据变化频率正相关。

步骤202：以数据刷新范围内的对象为待选的对象，利用实施例1的抽取对象确定方法确定抽取对象。

步骤203：通过访问数据接口获取抽取对象的数据。

步骤204：将抽取对象的数据缓存在数据缓存单元并替换数据缓存单元中抽取对象原有的数据。

本实施例的数据刷新方法可以应用于OTA网站的酒店数据刷新场景中，例如，在OTA(在线旅行社)中，网站在更新各酒店供应商提供的酒店数据(酒店数据包括但不限于酒店房型、房间预定价格等)时，以酒店为对象，根据各酒店的产出量设置酒店权重，产出高、酒店预订量大的酒店权重高，反之产出小、酒店预定量小的酒店权重低，每次从所有酒店中更新部分酒店的数据，避免出现一次性刷新所有数据，而导致服务器承受负担过大或受限于QPS的情况，实现了数据的快速更新。

实施例3

图6示出了本实施例的一种抽取对象确定***，其包括以下模块：

对象确定模块301，用于确定待选的若干对象，每个对象对应一个权重值，所述权重值的取值与所述对象被抽中的概率正相关；

对象聚合模块302，用于将相同权重值的对象聚合存储为一个集合；

索引构建模块303，用于在权重值上构建索引，相同的权重值在所述索引中所占的长度值等于所述权重值乘以对应集合中的对象数；

集合查找模块304，用于在所述索引中随机选取一个索引值，找到被选取的索引值对应的权重值，查询被找到的权重值对应的集合；

对象抽取模块305，用于从所查询到的集合中随机获取一个对象作为抽取对象。

本实施例中，集合查找模块304优选采用均匀随机算法在所述索引中随机选取一个索引值。

本实施例中，集合查找模块304还优选通过二分法找到被选取的索引值对应的权重值。

本实施例的***在确定抽取对象时可以做到时间/空间复杂度都为O(1)，既不会在运行时占用过多的临时存储空间，又能减少运行时间，尤其适用于待选对象多，需要考虑性能与空间占用的场景，同时索引较为简洁，重建索引耗时较短，可以适用加权随机候选集快速变化的场景。

实施例4

图7示出了本实施例的一种数据刷新***，其包括以下模块：

数据确定模块401，用于确定数据刷新范围，所述数据刷新范围包括若干对象的数据，所述对象被抽中的概率与所述对象的数据变化频率正相关；

对象抽取模块402，用于以所述数据刷新范围内的对象为待选的对象，利用实施例3的抽取对象确定***确定抽取对象；

接口访问模块403，用于通过访问数据接口获取所述抽取对象的数据；

数据刷新模块404，用于将所述抽取对象的数据缓存在数据缓存单元并替换所述数据缓存单元中所述抽取对象原有的数据。

本实施例的***在数据刷新时大概率地刷新变化频率高的数据，避免出现一次性刷新所有数据，而导致服务器承受负担过大或受限于QPS的情况，实现了数据的快速更新。

实施例5

图8为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1-2的任意一种方法。图8显示的电子设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备50可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备50的组件可以包括但不限于：上述至少一个处理器51、上述至少一个存储器52、连接不同***组件(包括存储器52和处理器51)的总线53。

总线53包括数据总线、地址总线和控制总线。

存储器52可以包括易失性存储器，例如随机存取存储器(RAM)521和/或高速缓存存储器522，还可以进一步包括只读存储器(ROM)523。

存储器52还可以包括具有一组(至少一个)程序模块524的程序/实用工具525，这样的程序模块524包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器51通过运行存储在存储器52中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或2所提供的方法。

电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，模型生成的设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器56通过总线53与模型生成的设备50的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1-2所提供的任意一种方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1-2所述的任意一种方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种抽取对象确定方法，其特征在于，应用于酒店数据刷新场景，以酒店为对象，根据各酒店的产出量设置酒店权重；包括：

将相同权重值的对象聚合存储为一个集合；

从所查询到的集合中随机获取一个对象作为抽取对象。

2.如权利要求1所述的抽取对象确定方法，其特征在于，采用均匀随机算法在所述索引中随机选取一个索引值。

3.如权利要求1所述的抽取对象确定方法，其特征在于，通过二分法找到被选取的索引值对应的权重值。

4.一种数据刷新方法，其特征在于，包括：

以所述数据刷新范围内的对象为待选的对象，利用权利要求1至3中任意一项所述的抽取对象确定方法确定抽取对象；

通过访问数据接口获取所述抽取对象的数据；

5.一种抽取对象确定***，其特征在于，应用于酒店数据刷新场景，以酒店为对象，根据各酒店的产出量设置酒店权重；包括：

6.如权利要求5所述的抽取对象确定***，其特征在于，所述集合查找模块采用均匀随机算法在所述索引中随机选取一个索引值。

7.如权利要求5所述的抽取对象确定***，其特征在于，所述集合查找模块通过二分法找到被选取的索引值对应的权重值。

8.一种数据刷新***，其特征在于，包括：

对象抽取模块，用于以所述数据刷新范围内的对象为待选的对象，利用权利要求5至7中任意一项所述的抽取对象确定***确定抽取对象；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。