WO2016184316A1

WO2016184316A1 - 数据限流方法和装置

Info

Publication number: WO2016184316A1
Application number: PCT/CN2016/081216
Authority: WO
Inventors: 胡四海
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2015-05-15
Filing date: 2016-05-06
Publication date: 2016-11-24
Also published as: CN106302202B; CN106302202A

Abstract

本申请提出一种数据限流方法和装置，该数据限流方法包括：计算接收到的数据的局部敏感哈希值；根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值，计算所述数据与所述至少一条数据的相似值；根据所述相似值确定是否保存所述数据。本申请可以根据数据的相似程度和差异，去除数据，并可以优先去除相同数据，从而可以使限流后的数据的多样性最大化。

Description

数据限流方法和装置

本申请要求2015年05月15日递交的申请号为201510250007.3、发明名称为“数据限流方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据限流方法和装置。

背景技术

计算机***间调用，出于各种原因(资源不足、***压力大等)，常常面临需要进行流量限制的情况。现有的限流方案，一般包括两种，随机限流方案和哈希(Hash)方案。其中，随机限流方案通常为纯随机限流，这种方案中，去除和保留的数据，完全随机，无法保证限流数据的多样性。而Hash方案是通过计算得到的Hash值，判断两条数据是否相同，优先去除相同的数据，但对于相似的两条数据却无法区分。

发明内容

本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种数据限流方法。该方法可以根据数据的相似程度和差异，去除数据，并可以优先去除相同数据，从而可以使限流后的数据的多样性最大化。

本申请的第二个目的在于提出一种数据限流装置。

为了实现上述目的，本申请第一方面实施例的数据限流方法，包括：计算接收到的数据的局部敏感哈希值；根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值，计算所述数据与所述至少一条数据的相似值；根据所述相似值确定是否保存所述数据。

本申请实施例的数据限流方法，计算接收到的数据的局部敏感哈希值，然后根据上述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值，计算上述数据与至少一条数据的相似值，最后根据上述相似值确定是否保存上述数据，从而可以实现根据数据的相似程度和差异，去除数据，并可以优先去除相同数据，从而可以使限流后的数据的多样性最大化。

为了实现上述目的，本申请第二方面实施例的数据限流装置，包括：计算模块，用于计算接收到的数据的局部敏感哈希值，并根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值，计算所述数据与所述至少一条数据的相似值；确定模块，用于根据所述计算模块计算的相似值确定是否保存所述数据。

本申请实施例的数据限流装置，计算模块计算接收到的数据的局部敏感哈希值，并根据上述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值，计算上述数据与至少一条数据的相似值；然后，确定模块根据上述计算模块计算的相似值确定是否保存上述数据，从而可以实现根据数据的相似程度和差异，去除数据，并可以优先去除相同数据，从而可以使限流后的数据的多样性最大化。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请数据限流方法一个实施例的流程图；

图2为本申请数据限流方法另一个实施例的流程图；

图3为本申请数据限流装置一个实施例的结构示意图；

图4为本申请数据限流装置另一个实施例的结构示意图。

具体实施方式

下下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本申请数据限流方法一个实施例的流程图，本实施例的数据限流方法可以由数据限流装置实现，上述数据限流装置可以设置在上游服务器与下游服务器之间，具体地，上述数据限流装置可以集成在上游服务器或下游服务器中，实现对上游服务器发往下游服务器的数据进行限流的功能。或者，上述数据限流装置也可以设置在一独立的服务器中或者作为一独立的服务器，该独立的服务器位于上游服务器与下游服务器之间，实现对上游服务器发往下游服务器的数据进行限流的功能。

如图1所示，该数据限流方法可以包括：

步骤101，计算接收到的数据的局部敏感哈希(Locality Sensitive Hashing；以下简称：LSH)值。

具体地，上述接收到的数据即为上游服务器发出的数据，数据限流装置接收到上游服务器发出的数据之后，对其进行限流，再发送给下游服务器。

步骤102，根据上述数据的LSH值与已保存的至少一条数据的LSH值，计算上述数据与上述至少一条数据的相似值。

其中，上述已保存的至少一条数据可以为缓存中已保存的至少一条数据，上述缓存为在上述数据限流装置中或者在包含上述数据限流装置的服务器中开辟的缓存。

具体地，根据上述数据的LSH值与已保存的至少一条数据的LSH值，计算上述数据与上述至少一条数据的相似值可以为：计算上述数据的LSH值与上述至少一条数据的LSH值的差异值，并根据上述差异值计算上述数据与上述至少一条数据的相似值。

其中，数据限流装置根据上述差异值计算上述数据与上述至少一条数据的相似值可以为：按照式(1)计算上述数据与上述至少一条数据的相似值。

其中，D_i为上述数据的LSH值与上述至少一条数据的LSH值的差异值；S_i为上述数据与上述至少一条数据的相似值，i为整数，i≥1。

本实施例中，上述数据的LSH值与上述至少一条数据的LSH值的差异值可以为上述数据的LSH值与上述至少一条数据的LSH值的汉明距离(Hamming Distance；以下简称：HD)。

步骤103，根据上述相似值确定是否保存上述数据。

具体地，数据限流装置根据上述相似值确定是否保存上述数据可以为：数据限流装置根据上述相似值中的最大值和预定的抽样率计算上述数据的通过概率；如果上述通过概率大于或等于预设阈值，则保存上述数据；而如果上述通过概率小于上述预设阈值，则不保存上述数据。其中，上述预设阈值可以在具体实现时，根据实现需求和/或***性能等自行设定，本实施例对上述预设阈值的大小不作限定，举例来说，该预设阈值可以为50％。

具体地，保存上述数据可以为：将上述数据存入上述缓存。进一步地，在保存上述数据之后，数据限流装置还可以将缓存中保存的数据发送给下游服务器，从而实现了对上游服务器发出的数据进行限流后，发送给下游服务器。

其中，数据限流装置根据上述相似值中的最大值和预定的抽样率计算上述数据的通过概率可以为：按照式(2)计算上述数据的通过概率。

其中，P为上述数据的通过概率；L为预定的抽样率，例如：L可以为75％；S_i为上述数据与上述至少一条数据的相似值，i为整数，i≥1；Max(S_i)为上述相似值中的最大值。

上述实施例中，数据限流装置计算接收到的数据的LSH值，然后根据上述数据的LSH值与已保存的至少一条数据的LSH值，计算上述数据与至少一条数据的相似值，最后根据上述相似值确定是否保存上述数据，从而可以实现根据数据的相似程度和差异，去除数据，并可以优先去除相同数据，从而可以使限流后的数据的多样性最大化。

下面以电商平台交易数据为例对本申请提供的数据限流方法进行说明。假设有一***，需要对交易数据进行实时抽样检查，并尽可能保留抽样数据的多样性，预定的抽样率为75％，即需要限流去除25％的流量。

假设按序号顺序，交易数据如表1所示。

表1

从表1中可以看出，1号和4号数据完全一样，基于表1中的交易数据，8条数据，预定抽样率75％(即限流25％)，实际希望被去除的是差异最小的2条数据为：4号(与1号无差异)和2号(与1号仅购买数量不同)，即保留1号、3号、5号、6号、7号和8号数据。

本申请使用LSH，使抽样得到的数据，尽量多样化，保留足够的数据差异性，可以解决随机限流方案数据多样性丢失的问题，也可以解决Hash方案，只可判断相近、无法判断相似的问题，即Hash后无法保留原始内容的差异程度的问题。

LSH的计算方法有很多种，如Jaccard、SimHash或MinHash等，本申请以一种64位SimHash的实现为例，表1中各序号数据对应的SimHash值可以如表2所示(每位上的0/1为1个比特(Bit)位，1个SimHash值可用64个Bit位存储)。

表2

图2为本申请数据限流方法另一个实施例的流程图，如图2所示，该数据限流方法可以包括：

步骤201，开辟缓存空间。

其中，该缓存空间为在数据限流装置中或者在包含上述数据限流装置的服务器中开辟的缓存空间，用于缓存上游服务器发出的最近N条最新数据的LSH值。N可以根据实际情况进行配置，建议为5分钟内全量值，超过1024时，上限为1024，以保证内存限制在几K。

本实施例中，由于数量关系，可以假设N＝3，数据限流装置首先按序号顺序，对流量数据，计算并缓存LSH值，1号数据流入数据限流装置后，缓存如表3所示。

表3

缓存
1010111101001111111100101101100011010100100100110011011101000010

步骤202，新流量数据进来时，计算待存入缓存的数据的LSH值，并计算待存入缓存的数据的LSH值与上述缓存中的至少一条数据的LSH值的差异值。

本实施例中，用汉明距离来HD表示上述差异值。

2号数据流入后，数据限流装置计算2号数据的LSH值，2号数据的LSH值可以如表4所示。

表4

1010111101001111111101101101100011010100100100110011011101000010

然后数据限流装置计算与缓存内1号数据的LSH值的差异值，其中，HD的计算方法可以为：LSH值不同的对应位的数量，即比较2号数据的LSH值与1号数据的LSH值的各位上的差异，有多少位不同，则HD为多少。优选地，在计算HD时，可通过异或(xor)快速计算。

本实施例中，2号数据的LSH值与1号数据的LSH值的对比可以如表5所示。

表5

从表5中可以看出，2号数据的LSH值与1号数据的LSH值仅有1位不同，于是可以得出HD＝1。

步骤203，根据上述差异值计算待存入缓存的数据与上述缓存中的至少一条数据的相似值。

由于HD越大，相似值越低。不同场景下，HD与相似值的对应关系并不固定，在64位SimHash场景下，经测试得到：HD＝1时，相似的准确率，接近85％；而HD＝10时，相似的准确率，不到30％。

于是数据限流装置可以按照式(1)计算上述相似值。

根据式(1)可以计算获得2号数据的LSH值与1号数据的LSH值的相似度为：S＝0.93。

步骤204，根据上述相似值中的最大值和预定的抽样率计算上述待存入缓存的数据的通过概率。

其中，上述通过概率可以按照式(2)进行计算，数据限流装置根据式(2)可以计算获得2号数据的通过概率为5.83％。

步骤205，判断上述通过概率是否大于或等于预设阈值。如果是，则执行步骤206；如果上述通过概率小于预设阈值，则执行步骤207。

其中，上述预设阈值可以在具体实现时，根据实现需求和/或***性能等自行设定，本实施例对上述预设阈值的大小不作限定。但本实施例中，以该预设阈值为50％为例进行说明。

步骤206，将上述待存入缓存的数据存入上述缓存，本次流程结束。

步骤207，不将上述待存入缓存的数据存入上述缓存，本次流程结束。

由于2号数据的通过概率为5.83％，远低于50％，因此不将2号数据存入上述缓存，退出本次流程。

接下来，可以重复步骤202～步骤207，对3号～8号数据进行限流。由于2号数据未被存入缓存，因此缓存中的数据如表6所示。

表6

2号后缓存
1010111101001111111100101101100011010100100100110011011101000010

3号数据进入数据限流装置时，3号数据的LSH值与1号数据的LSH值的HD为10，于是可以计算获得3号数据的通过概率为55.6％，大于50％，于是将3号数据存入缓存，这时缓存中的数据如表7所示。

表7

3号后缓存
1010111101001111111100101101100011010100100100110011011101000010
1011111111000110111110101000100011010000100100100011011101100010

4号数据进入数据限流装置时，4号数据的LSH值与1号数据的LSH值的HD为0，4号数据的LSH值与3号数据的LSH值的HD为10。于是可以计算获得4号数据的通过概率为0，因此不将4号数据存入上述缓存，缓存中的数据仍如表7所示。

5号数据进入数据限流装置时，5号数据的LSH值与1号数据的LSH值的HD为9，5号数据的LSH值与3号数据的LSH值的HD为11。于是可以计算获得5号数据的通过概率为50％，因此将5号数据存入缓存，这时缓存中的数据如表8所示。

表8

5号后缓存
1010111101001111111100101101100011010100100100110011011101000010
1011111111000110111110101000100011010000100100100011011101100010
1010111111000110111010100101100011000100101100100011001101100010

继续6号、7号和8号数据，在此不再赘述。

上述数据限流方法中，数据限流装置可以按照数据相似程度的差异，进行数据限流，优先去除相同数据，从而可以使限流后的数据的多样性最大化。

图3为本申请数据限流装置一个实施例的结构示意图，本实施例中的数据限流装置可以实现本申请图1所示实施例的流程，如图3所示，该数据限流装置可以包括：计算模块31和确定模块32；

其中，计算模块31，用于计算接收到的数据的LSH值，并根据上述数据的LSH值与已保存的至少一条数据的LSH值，计算上述数据与上述至少一条数据的相似值；其中，计算模块31，具体用于计算上述数据的LSH值与已保存的至少一条数据的LSH值的差异值，并根据上述差异值计算上述数据与上述至少一条数据的相似值。其中，计算模块31计算的上述差异值可以为上述数据的LSH值与上述至少一条数据的LSH值的汉明距离；具体地，计算模块31可以按照式(1)计算上述数据与上述至少一条数据的相似值。

确定模块32，用于根据计算模块31计算的相似值确定是否保存上述数据。

上述数据限流装置可以设置在上游服务器与下游服务器之间，具体地，上述数据限流装置可以集成在上游服务器或下游服务器中，实现对上游服务器发往下游服务器的数据进行限流的功能。或者，上述数据限流装置也可以设置在一独立的服务器中或者作为一独立的服务器，该独立的服务器位于上游服务器与下游服务器之间，实现对上游服务器发往下游服务器的数据进行限流的功能。上述接收到的数据即为上游服务器发出的数据，数据限流装置接收到上游服务器发出的数据之后，对其进行限流，再发送给下游服务器。

上述实施例中，计算模块31计算接收到的数据的LSH值，并根据上述数据的LSH值与已保存的至少一条数据的LSH值，计算上述数据与至少一条数据的相似值；然后，确定模块32根据上述计算模块31计算的相似值确定是否保存上述数据，从而可以实现根据数据的相似程度和差异，去除数据，并可以优先去除相同数据，从而可以使限流后的数据的多样性最大化。

图4为本申请数据限流装置另一个实施例的结构示意图，与图3所示的数据限流装置相比，不同之处在于，图4所示的数据限流装置中，确定模块32可以包括：概率计算子模块321和存入子模块322；

其中，概率计算子模块321，用于根据计算模块31计算的相似值中的最大值和预定的抽样率计算上述数据的通过概率；具体地，概率计算子模块321可以按照式(2)计算上述数据的通过概率。

存入子模块322，用于当概率计算子模块321计算的通过概率大于或等于预设阈值时，保存上述数据。其中，上述预设阈值可以在具体实现时，根据实现需求和/或***性能等自行设定，本实施例对上述预设阈值的大小不作限定，举例来说，该预设阈值可以为50％。

具体地，保存上述数据可以为：存入子模块322将上述数据存入上述缓存。进一步地，在保存上述数据之后，数据限流装置还可以将缓存中保存的数据发送给下游服务器，从而实现了对上游服务器发出的数据进行限流后，发送给下游服务器。

上述数据限流装置，可以按照数据相似程度的差异，进行数据限流，优先去除相同数据，从而可以使限流后的数据的多样性最大化。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种数据限流方法，其特征在于，包括：

计算接收到的数据的局部敏感哈希值；

根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值，计算所述数据与所述至少一条数据的相似值；

根据所述相似值确定是否保存所述数据。
根据权利要求1所述的方法，其特征在于，所述根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值，计算所述数据与所述至少一条数据的相似值包括：

计算所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的差异值；

根据所述差异值计算所述数据与所述至少一条数据的相似值。
根据权利要求1或2所述的方法，其特征在于，所述根据所述相似值确定是否保存所述数据包括：

根据所述相似值中的最大值和预定的抽样率计算所述数据的通过概率；

如果所述通过概率大于或等于预设阈值，则保存所述数据。
根据权利要求2所述的方法，其特征在于，所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的差异值包括所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的汉明距离。
一种数据限流装置，其特征在于，包括：

计算模块，用于计算接收到的数据的局部敏感哈希值，并根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值，计算所述数据与所述至少一条数据的相似值；

确定模块，用于根据所述计算模块计算的相似值确定是否保存所述数据。
根据权利要求5所述的装置，其特征在于，

所述计算模块，具体用于计算所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值的差异值，并根据所述差异值计算所述数据与所述至少一条数据的相似值。
根据权利要求5或6所述的装置，其特征在于，所述确定模块包括：

概率计算子模块，用于根据所述计算模块计算的相似值中的最大值和预定的抽样率计算所述数据的通过概率；

存入子模块，用于当所述概率计算子模块计算的通过概率大于或等于预设阈值时，保存所述数据。
根据权利要求6所述的装置，其特征在于，

所述计算模块计算的差异值包括所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的汉明距离。