CN112783644A

CN112783644A - 一种基于高频键值计数的分布式倾斜流处理方法和***

Info

Publication number: CN112783644A
Application number: CN202011629933.9A
Authority: CN
Inventors: 唐卓; 郭耀莲; 李肯立; 刘园春; 罗文明; 宋莹洁; 阳王东; 曹嵘晖; 肖国庆; 刘楚波; 周旭
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11
Anticipated expiration: 2040-12-31
Also published as: CN112783644B

Abstract

本发明公开了一种基于高频键值计数的分布式倾斜流处理方法和***，其基本思路在于，使用计数式布隆过滤器对数据流中每个数据项进行计数，根据频数将该数据项分别识别为高频键、潜在高频键和低频键，进而得到不同数据项的分布，对高频键采用添加随机后缀再分组聚合的策略分配下游实例，对非高频键采用键值分组策略分配下游实例，从而实现不同下游实例间的负载均衡，提高***性能。本发明能解决倾斜流处理方法中的随机分组下游实例的内存开销极大和键值分组下游实例间负载不均衡的技术问题。

Description

一种基于高频键值计数的分布式倾斜流处理方法和***

技术领域

本发明属于大数据处理领域，更具体地，涉及一种基于高频键值计数的分布式倾斜流处理方法和***。

背景技术

随着大数据技术的发展，在社交网络、金融数据分析、电子商务交易等领域出现了大量基于数据流的应用。相较于传统数据，数据流具有动态、高速、海量、无限等特点，传统分布式处理方法无法预测和控制数据流到达的时间和规模，当数据到来的规模极大时，传统分布式处理方法处理性能急剧下降。为了应对上述挑战，基于S4、Storm、SparkStreaming、Flink等分布式流处理***的方法应运而生。此外，实际应用中的数据流分布是高度倾斜的，即数据流中各个数据的频数相差较大。

分布式流处理方法通过逻辑拓扑的方式将分布式流处理***中运行节点组织连接成一个应用处理流程，这些连接信息通常表示为一个有向无环图，图中的顶点代表应用中的一个操作，边代表操作间数据流的流向。分布式流处理***为每个数据操作创建多个下游实例，流处理方法中分组策略的目的就是将上游操作发送的数据进行分组，并分别分配到各个下游实例中，因此流处理的分组策略直接影响到各下游实例所处理数据的数量和分布情况。现有的分布式流处理的基本分组方法包括随机分组和键值分组，其中随机分组采用轮询机制，将每个数据项以等概率的形式分配给每个下游实例，易于实现***工作量的均匀分布；键值分组基于哈希运算将相同键的数据项分配给一个下游实例，每个数据项的键的状态仅由一个下游实例维护。

然而，现有的分布式倾斜流处理方法存在以下技术问题：随机分组中每个下游实例都要维护所有键的状态，下游实例的内存开销极大；而键值分组将相同键分配给同一个下游实例，不同键的值相差较大，导致下游实例间负载不均衡，并且随着数据流倾斜度的增加，下游实例间的负载不均衡更严重。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于高频键值计数的分布式倾斜流处理方法和***，其目的在于解决倾斜流处理方法中的随机分组下游实例的内存开销极大和键值分组下游实例间负载不均衡的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于高频键值计数的分布式倾斜流处理方法，包括如下步骤：

(1)获取数据流中待处理的数据项e_i，和数据流中在数据项e_i之前已处理的数据项总数M；

(2)判断数据项e_i是否位于高频键集S中，如果是，则将高频键集S中与该数据项相同的键所对应的值加1，然后进入步骤(10)，否则进入步骤(3)；

(3)使用计数式布隆过滤器对数据项e_i进行处理，以得到该数据项e_i的频数f_i；

(4)判断数据项e_i的频数f_i大小是否大于等于高频键阈值ε，如果是，则进入步骤(5)，否则转入步骤(6)；

(5)判断高频键集S中已有键数是否等于高频键集最大键数C，如果是，则将数据项e_i替换高频键集S中值最小的键，并将该键的值设置为f_i+f_min，其中f_min是高频键集S中键的最小值，然后转入步骤(10)；否则，将数据项e_i及频数f_i作为新的键值***高频键集S中，然后转入步骤(10)；

(6)判断数据项e_i的频数f_i大小是否大于等于低频键阈值θ，如果是，则转入步骤(9)，否则进入步骤(7)；

(7)判断低频键队列Q是否已满，如果是，则先删除低频键队列Q中头节点的数据项e_h，再将数据项e_i***低频键队列Q中，然后进入步骤(8)，否则，直接将数据项e_i***低频键队列Q中，然后转入步骤(9)；

(8)判断低频键队列Q中头节点的数据项e_h的衰减概率

是否大于随机数r，如果是，则使用计数式布隆过滤器对低频键队列Q中头节点的数据项e_h进行更新，以得到该数据项e_h更新后的频数，然后进入步骤(9)，其中b为预设的指数底数，b>1且b≈1，f_h为低频键队列Q中头节点的数据项e_h的频数，r为随机数产生器生成的范围为[0,1)的随机数；否则进入步骤(9)；

(9)采用键值分组算法为数据项e_i分配下游实例，并将数据流中已处理的数据项总数M加1，过程结束；

(10)根据高频键集S中与数据项e_i相同的键所对应的值大小，确定该键可以被分配的下游实例数，并根据确定的下游实例数从下游实例中选择一个下游实例，将选择的下游实例分配给数据项e_i，并将数据流中已处理的数据项总数M加1，过程结束。

优选地，步骤(2)中的高频键集S是通过空间节省算法中基于流摘要的数据结构实现，高频键集S中相同计数值的键链接在同一个链表中，并指向同一个父桶，高频键集S中的不同父桶间使用双向链表链接。

优选地，步骤(3)中的计数式布隆过滤器是一个包含w个计数器的数组B＝{B[0],B[1],…,B[w-1]}，首先，计数式布隆过滤器利用t个不同的哈希函数h₁()，h₂()，...，h_t()计算数据项e_i所分别对应的哈希值h₁(e_i)，h₂(e_i)，...，h_t(e_i)，然后，计算得到每个哈希值模w以后的处理结果h₁(e_i)％w，h₂(e_i)％w，...，h_t(e_i)％w，其后，将数组B中等于各个处理结果的元素分别加1，并将得到的所有元素中的最小值作为数据项e_i的频数f_i；

优选地，步骤(4)中的高频键阈值ε是由获取数据项e_i之前，数据流中已处理的数据项的总数M决定，且有

优选地，步骤(8)中使用计数式布隆过滤器对低频键队列Q中头节点的数据项e_h进行更新，是对低频键队列Q中头节点的数据项e_h在CBF中对应的数组B中的元素进行减1。

优选地，步骤(10)包括如下子步骤：

(10-1)判断高频键集S中键的最大值与最小值之差f_max-f_min的大小是否大于M/m，其中m为下游实例数，如果是，则进入步骤(10-2)，否则转入步骤(10-5)；

(10-2)判断数据项e_i在高频键集S中是否为值最大的键，如果是，则为该数据项对应的键分配m个下游实例，对该数据项e_i随机添加预设的m个随机后缀中的一个后缀，对添加了后缀后的数据项进行哈希运算后以得到分配的下游实例号，将该下游实例号对应的下游实例分配给该数据项e_i，过程结束，否则进入步骤(10-3)；

(10-3)判断数据项e_i在高频键集S中是否为值最小的键，如果是，则为该数据项对应的键分配2个下游实例，对该数据项e_i随机添加预设的2个随机后缀中的一个后缀，对添加了后缀后的数据项进行哈希运算后以得到分配的下游实例号，将该下游实例号对应的下游实例分配给该数据项e_i，过程结束，否则进入步骤(10-4)；

(10-4)为高频键集S中值居中的键分配

个下游实例，对该数据项e_i随机添加预设的与下游实例个数相同的随机后缀中的一个后缀，对添加了后缀后的数据项进行哈希运算以得到分配的下游实例号，将该下游实例号对应的下游实例分配给该数据项e_i，过程结束；

(10-5)为该数据项对应的键分配2个下游实例，对该数据项e_i随机添加预设的2个随机后缀中的一个后缀，对添加了后缀后的数据项进行哈希运算后以得到分配的下游实例号，将该下游实例号对应的下游实例分配给该数据项e_i，过程结束。

按照本发明的另一方面，提供了一种基于高频键值计数的分布式倾斜流处理***，包括如下模块：

第一模块，用于获取数据流中待处理的数据项e_i，和数据流中在数据项e_i之前已处理的数据项总数M；

第二模块，用于判断数据项e_i是否位于高频键集S中，如果是，则将高频键集S中与该数据项相同的键所对应的值加1，然后进入第十模块，否则进入第三模块；

第三模块，用于使用计数式布隆过滤器对数据项e_i进行处理，以得到该数据项e_i的频数f_i；

第四模块，用于判断数据项e_i的频数f_i大小是否大于等于高频键阈值ε，如果是，则进入第五模块，否则转入第六模块；

第五模块，用于判断高频键集S中已有键数是否等于高频键集最大键数C，如果是，则将数据项e_i替换高频键集S中值最小的键，并将该键的值设置为f_i+f_min，其中f_min是高频键集S中键的最小值，然后转入第十模块；否则，将数据项e_i及频数f_i作为新的键值***高频键集S中，然后转入第十模块；

第六模块，用于判断数据项e_i的频数f_i大小是否大于等于低频键阈值θ，如果是，则转入第九模块，否则进入第七模块；

第七模块，用于判断低频键队列Q是否已满，如果是，则先删除低频键队列Q中头节点的数据项e_h，再将数据项e_i***低频键队列Q中，然后进入第八模块，否则，直接将数据项e_i***低频键队列Q中，然后转入第九模块；

第八模块，用于判断低频键队列Q中头节点的数据项e_h的衰减概率

是否大于随机数r，如果是，则使用计数式布隆过滤器对低频键队列Q中头节点的数据项e_h进行更新，以得到该数据项e_h更新后的频数，然后进入第九模块，其中b为预设的指数底数，b>1且b≈1，f_h为低频键队列Q中头节点的数据项e_h的频数，r为随机数产生器生成的范围为[0,1)的随机数；否则进入第九模块；

第九模块，用于采用键值分组算法为数据项e_i分配下游实例，并将数据流中已处理的数据项总数M加1；

第十模块，用于根据高频键集S中与数据项e_i相同的键所对应的值大小，确定该键可以被分配的下游实例数，并根据确定的下游实例数从下游实例中选择一个下游实例，将选择的下游实例分配给数据项e_i，并将数据流中已处理的数据项总数M加1。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明的步骤(2)中对高频键集采用轻量级的数据结构进行存储，具有很高的空间效率，便于下游实例将该集合加载至内存中，同时对该高频键集支持快速O(1)在线查询和更新，实现快速地选择下游实例分配给其中的键；

(2)本发明的步骤(3)中使用计数式布隆过滤器监控数据流中每个数据项，计数式布隆过滤器具有很高的计算和内存效率，同时支持数据项的***和删除；

(3)本发明的步骤(6)中使用有限长度的低频键队列缓存低频键，并根据队列先进先出的特点，以一定衰减概率来剔除保存在计数式布隆过滤器中的低频键，衰减概率能过滤掉相对较小的低频键，节省了计数式布隆过滤器的内存占用，也减少了不同数据项间哈希运算结果冲突的概率；

(4)本发明的步骤(7)中，对高频键集中的键根据值大小进行区分，对键值相差不大的键均分给2个下游实例，对键值相差较大的键根据值大小分配不同的下游实例，分配下游实例数能根据数据流的变化动态更新，从而实现各个下游实例间的负载均衡，并且针对键值相对小的键分配少的下游实例，减少了不必要的内存开销。

附图说明

图1是本发明的处理过程示意图；

图2是本发明的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，如图1所示，使用计数式布隆过滤器(Counting BloomFilter，简称CBF)对数据流进行计数，根据频数将数据项分别识别为高频键、潜在高频键和低频键，进而得到不同数据项的分布，将高频键保存在高频键集中，将低频键保存在低频键队列中，对高频键采用添加随机后缀再分组聚合的策略分配下游实例，对非高频键采用键值分组策略分配下游实例，从而实现不同下游实例间的负载，提高***性能。

如图2所示，本发明提供一种基于高频键值计数的分布式倾斜流处理方法，包括如下步骤：

具体而言，数据流中已处理的数据项总数M的初始值为0，随着数据流中每个数据项依次处理，统计并更新已处理的数据项总数M。

(2)判断数据项e_i是否位于高频键集S中，如果是，则将高频键集S中与该数据项相同的键(key)所对应的值(value)加1，然后进入步骤(10)，否则进入步骤(3)；

具体而言，高频键集S的格式是例如{(value₁,key₁,key₂),(value₂,key₃),…}，其中(value₁,key₁,key₂)为高频键集S中的一个记录，每个记录中有且仅有一个值，但可以有一个或多个键，高频键集S的最大键数为C，其中C根据预设的预期误差∈来设定，并有

key₁,key₂,key₃表示键，value₁和value₂表示值。

本步骤中判断每个数据项e_i是否位于高频键集S中，是通过判断高频键集S中的键是否和数据项e_i一致，如果是，则说明获取数据项e_i之前，数据流中已处理的数据项里记录该数据项为高频键，即直接将数据项e_i在高频键集中对应键的值累加统计。

优选地，高频键集S是通过空间节省(Space Saving)算法中基于流摘要(StreamSummary)的数据结构实现，高频键集S中相同计数值的键链接在同一个链表中，并指向同一个父桶(即Bucket)，高频键集S中的不同父桶间使用双向链表链接。

例如，当前收到待处理的数据项为{talk,namespace,first,title,wiki}，高频键集S中已有记录{(255,namespace),(84,first,case),(61,letter),(35,word)}，数据项talk、title和wiki不在高频键集S中，进入步骤(2)处理，下一个数据项namespace和first在高频键集S中，则对应的值加1，因此高频键集S更新为{(256,namespace),(85,first),(84,case),(61,letter),(35,word)}。

(3)使用计数式布隆过滤器(Counting Bloom Filter，简称CBF)对数据项e_i进行处理，以得到该数据项e_i的频数f_i；

具体而言，CBF是一个包含w个计数器的数组B＝{B[0],B[1],…,B[w-1]}，本步骤具体为，首先，CBF利用t个不同的哈希函数h₁()，h₂()，...，h_t()计算数据项e_i所分别对应的哈希值h₁(e_i)，h₂(e_i)，...，h_t(e_i)，然后，计算得到每个哈希值模w以后的处理结果h₁(e_i)％w，h₂(e_i)％w，...，h_t(e_i)％w，其后，将数组B中等于各个处理结果的元素分别加1，并将得到的所有元素中的最小值作为数据项e_i的频数f_i；

其中，CBF的哈希函数个数t优选设置为

n为数据流中数据项的种类数；计数器的个数w优选为

δ为CBF的错误率误差；CBF支持数据项***时进行计数器加1的处理，还支持数据项删除时进行计数器减1的处理。

本步骤中得到的数据项e_i的频数f_i，包括了获取数据项e_i之前，数据流中已处理的数据项里数据项e_i的累计值，CBF随着数据流的到来而不断更新；CBF使用多个哈希函数，并将最小值作为统计频数，是为了减少不同数据项间的哈希冲突概率，提高统计的精度。

就步骤(2)中的实例而言，假设获取数据项talk之前，数据流中已处理的数据项里数据项talk在CBF中记录的频数为24，数据项title在CBF中记录的频数为29，经过本步骤处理后，数据项talk返回的频数为25，数据项title返回的频数是30，数据项wiki返回的频数为1；

(4)判断数据项e_i的频数f_i大小是否大于等于高频键阈值ε，如果是，则表示该数据项为高频键，然后进入步骤(5)，否则表示该数据项为非高频键，然后转入步骤(6)；

具体而言，高频键阈值ε是由获取数据项e_i之前，数据流中已处理的数据项的总数M决定，且有

就步骤(2)中的实例而言，假设获取数据项talk之前，数据流中已处理的数据项总数M＝1203，预期误差∈＝0.05(即C＝1/∈＝20)，高频键阈值

则数据项talk是非高频键；获取数据项title之前，数据流中已处理数据项总数M＝1206，高频键阈值ε＝30，则数据项title是高频键；数据项wiki是非高频键；

就步骤(2)中的实例而言，数据项title为高频键，且当前高频键集S中已有键数未超过C，直接将数据项title***高频键集S中，得到更新后的高频键集S为{(256,namespace),(85,first),(84,case),(61,letter),(35,word),(30,title)}。

(6)判断数据项e_i的频数f_i大小是否大于等于低频键阈值θ，如果是，则该认为数据项e_i是潜在高频键，然后转入步骤(9)，否则进入步骤(7)；

具体而言，低频键阈值θ的取值范围是[2,10]，优选为5；

其中低频键队列Q的长度等于C，即与高频键集最大键数相同，实际应用中可根据数据流大小来调整队列长度；

(8)判断低频键队列Q中头节点的数据项e_h的衰减概率

是否大于随机数r，如果是，则使用CBF对低频键队列Q中头节点的数据项e_h进行更新，以得到该数据项e_h更新后的频数，然后进入步骤(9)，其中b为预设的指数底数，b>1且b≈1，f_h为低频键队列Q中头节点的数据项e_h的频数，r为随机数产生器生成的范围为[0,1)的随机数；否则进入步骤(9)；

具体而言，使用CBF对低频键队列Q中头节点的数据项e_h进行更新，是对低频键队列Q中头节点的数据项e_h在CBF中对应的数组B中的元素进行减1。

就步骤(2)中的实例而言，数据项talk的频数为25，则继续保存在CBF中；数据项wiki需要***低频键队列Q中，但此时低频键队列Q中已有数据项{page,transnational,ns,ns,ce,page,…,user}，长度为20，已满，***数据项wiki前要删除低频键队列Q中头节点的数据项page，同时查询低频键队列Q中头节点的数据项page在CBF中保存的频数f，计算衰减概率p＝b^-f，产生[0,1)间任意随机数，小于衰减概率p时将CBF中数据项page对应的数组元素减1。

步骤(3)、步骤(4)和步骤(8)的优点在于，使用内存高效的CBF来监控数据流的每个数据项的频数，一方面设定动态的高频键阈值，能适应数据流的大小变化，更精确的识别出高频键集，提高了高频键的识别精度；另一方面设定低频键阈值，将低频键保存在低频键队列中，并根据队列先进先出的特点，结合衰减概率，对CBF中相应的数组元素减1处理，反向更新CBF，在实际应用数据中能过滤掉大部分低频键，以保证CBF以较小的内存来监控数据流，减少内存开销。

具体而言，键值分组算法基于哈希运算实现，对数据项经过哈希运算后得到分配的下游实例号，给该数据项分配与该下游实例号对应的下游实例，即相同的键对应的数据项被分配同一个下游实例；

(10)根据高频键集S中与数据项e_i相同的键所对应的值大小，确定该键可以被分配的下游实例数，并根据确定的下游实例数从下游实例中选择一个下游实例，将选择的下游实例分配给数据项e_i，并将数据流中已处理的数据项总数M加1，过程结束；

具体而言，本步骤包括如下子步骤：

具体而言，不同的键可以被分配给不同数量的下游实例，对每个键预设与可以被分配的下游实例数相同个数的随机后缀；根据随机函数生成的随机数序号，对数据项添加相应序号的后缀。

(10-4)为高频键集S中值居中的键分配

就步骤(2)中的实例而言，假设下游实例数为m＝6，数据流中的数据项namespace到达后，高频键集S更新为{(256,namespace),(84,first,case),(61,letter),(35,word)}，此时M＝1204，f_max-f_min＝221大于M/m＝200，所以认为当前的高频键集S中键的值相差较大，namespace是值最大的键，可以被分配给6个下游实例，随机产生一个在[1,6]之间的随机数，namespace通过添加{_1,_2,_3,_4,_5,_6}中随机数对应序号的后缀，对添加了后缀后的数据项经过哈希运算后得到可以分配的下游实例号，将对应的下游实例分配给该数据项；数据流中的数据项first到达后，高频键集S更新为{(256,namespace),(85,first),(84,case),(61,letter),(35,word)}，此时M＝1205，f_max-f_min＝221大于M/m＝200，数据项first是值居中的键，可以被分配给

个下游实例，随机产生一个在[1,2]之间的随机数，数据项first通过添加{_1,_2}中随机数对应序号的后缀，对添加了后缀后的数据项经过哈希运算后得到可以分配的下游实例号，将对应的下游实例分配给该数据项；数据项title到达后，高频键集S更新为{(256,namespace),(85,first),(84,case),(61,letter),(35,word),(30,title)}，此时M＝1206，f_max-f_min＝226大于M/m＝201，数据项title是值最小的键，可以分配2个下游实例，随机产生一个在[1,2]之间的随机数，数据项title通过添加{_1,_2}中随机数对应序号的后缀，对添加了后缀后的数据项经过哈希运算后得到可以分配的下游实例号，将对应的下游实例分配给该数据项。

本步骤的优点在于，对高频键集中的键根据值大小进行区分，对键值相差不大的键均分给2个下游实例，对键值相差较大的键根据值大小分配不同的下游实例，分配下游实例数能根据数据流的变化动态更新，从而实现各个下游实例间的负载均衡，并且对键值相对小的键分配少的下游实例，减少了不必要的内存开销。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于高频键值计数的分布式倾斜流处理方法，其特征在于，包括如下步骤：

(8)判断低频键队列Q中头节点的数据项e_h的衰减概率

是否大于随机数r，如果是，则使用计数式布隆过滤器对低频键队列Q中头节点的数据项e_h进行更新，以得到该数据项e_h更新后的频数，然后进入步骤(9)，其中b为预设的指数底数，b＞1且b≈1，f_h为低频键队列Q中头节点的数据项e_h的频数，r为随机数产生器生成的范围为[0，1)的随机数；否则进入步骤(9)；

2.如权利要求1所述的基于高频键值计数的分布式倾斜流处理方法，其特征在于，步骤(2)中的高频键集S是通过空间节省算法中基于流摘要的数据结构实现，高频键集S中相同计数值的键链接在同一个链表中，并指向同一个父桶，高频键集S中的不同父桶间使用双向链表链接。

3.如权利要求1所述的基于高频键值计数的分布式倾斜流处理方法，其特征在于，步骤(3)中的计数式布隆过滤器是一个包含w个计数器的数组B＝{B[0]，B[1]，...，B[w-1]}，首先，计数式布隆过滤器利用t个不同的哈希函数h₁()，h₂()，...，h_t()计算数据项e_i所分别对应的哈希值h₁(e_i)，h₂(e_i)，...，h_t(e_i)，然后，计算得到每个哈希值模w以后的处理结果h₁(e_i)％w，h₂(e_i)％w，…，h_t(e_i)％w，其后，将数组B中等于各个处理结果的元素分别加1，并将得到的所有元素中的最小值作为数据项e_i的频数f_i。

4.如权利要求1所述的基于高频键值计数的分布式倾斜流处理方法，其特征在于，步骤(4)中的高频键阈值ε是由获取数据项e_i之前，数据流中已处理的数据项的总数M决定，且有

5.如权利要求1所述的基于高频键值计数的分布式倾斜流处理方法，其特征在于，步骤(8)中使用计数式布隆过滤器对低频键队列Q中头节点的数据项e_h进行更新，是对低频键队列Q中头节点的数据项e_h在CBF中对应的数组B中的元素进行减1。

6.如权利要求1所述的基于高频键值计数的分布式倾斜流处理方法，其特征在于，步骤(10)包括如下子步骤：

(10-4)为高频键集S中值居中的键分配

7.一种基于高频键值计数的分布式倾斜流处理***，其特征在于，包括如下模块：

第八模块，用于判断低频键队列Q中头节点的数据项e_h的衰减概率p＝

是否大于随机数r，如果是，则使用计数式布隆过滤器对低频键队列Q中头节点的数据项e_h进行更新，以得到该数据项e_h更新后的频数，然后进入第九模块，其中b为预设的指数底数，b＞1且b≈1，f_h为低频键队列Q中头节点的数据项e_h的频数，r为随机数产生器生成的范围为[0，1)的随机数；否则进入第九模块；