CN117112549A

CN117112549A - 一种基于布隆过滤器的大数据归并方法

Info

Publication number: CN117112549A
Application number: CN202311365012.XA
Authority: CN
Inventors: 代颖超; 张仑; 梁思杰; 牛威
Original assignee: Zhongke Xingtu Measurement And Control Technology Co ltd
Current assignee: Zhongke Xingtu Measurement And Control Technology Co ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2023-11-24
Anticipated expiration: 2043-10-20
Also published as: CN117112549B

Abstract

本发明公开了一种基于布隆过滤器的大数据归并方法，包括步骤：S1、采用Redis批量缓存不同设备/主机发送的syslog日志数据；S2、对Redis批量缓存的syslog日志数据进行消费，将消费的syslog日志数据进行解析处理后，获取syslog日志数据归并字段加密值；S3、利用布隆过滤器对syslog日志数据归并字段加密值进行筛选处理，把筛选处理后的syslog日志数据转存到数据库；本发明通过Redis批量缓存syslog日志数据进行归并字段加密值解析处理，经过归并字段处理，降低syslog日志数据中大量冗余数据，节省存储空间，降低数据库使用成本，提高数据库使用效率。

Description

一种基于布隆过滤器的大数据归并方法

技术领域

本发明涉及大数据归并存储技术领域，尤其涉及一种基于布隆过滤器的大数据归并方法。

背景技术

近年来互联网的高速发展引领人类进入了一个信息量***性增长的时代。每个人的生活中都充满了结构化和非结构化的数据。随着人类生活全面向互联网转移，大数据时代将会不可避免的到来，作为全球互联网的前沿概念，大数据主要包括两方面特征：一方面整个社会的信息量急剧增长，另一方面个人可获取的信息也呈指数增长。从科技发展的角度来看，“大数据”是“数据化”趋势下的必然产物！并且随着这一趋势的不断深入，在不远的将来我们将身处于一个“一切都被记录，一切都被数字化”的时代。

在大数据时代，各个领域产生的数据量呈爆发性增长。从社交媒体、传感器数据到在线交易和云存储，数据以惊人的速度积累。这些数据包含着宝贵的信息和洞察力，在这种背景下，对大数据的有效存储以及良好地分析利用变的越来越急迫。而数据分析能力的高低决定了大数据中价值发现过程的好坏与成败。大数据时代的数据采集、分析、存储和以往数据分析的最重要的差别在于数据量急剧增长。由于数据量的增长，使得对于数据的存储、查询以及分析的要求迅速提高。大数据时代要求高效的数据处理和分析方法，传统的方式从数据接收，预处理到数据归并存储，存在冗余数据、数据丢失、缓存穿透及服务宕机的风险。

专利号为CN103116599A的专利文献公开一种基于改进Bloom Filter结构的城市海量数据流快速冗余消除方法，该方法中虽然涉及基于Bloom Filter结构去除冗余数据方法；但其着重于Bloom Filter结构进行数据集存储后的冗余去除，而没有针对BloomFilter筛选方式进行利用。

发明内容

本发明的目的在于提供一种基于布隆过滤器的大数据归并方法，解决对大数据进行处理时，大量冗余数据导致数据处理效率降低，数据丢失、缓存穿透及服务宕机的问题。

本发明的目的可以通过以下技术方案实现：一种基于布隆过滤器的大数据归并方法，包括以下步骤：

S1、采用Redis批量缓存不同设备/主机发送的syslog日志数据；

S2、对Redis批量缓存的syslog日志数据进行消费，将消费的syslog日志数据进行解析处理后，获取syslog日志数据归并字段加密值；

S3、利用布隆过滤器对syslog日志数据归并字段加密值进行筛选处理，把筛选处理后的syslog日志数据转存到数据库。

进一步地：所述S3中利用布隆过滤器对syslog日志数据归并字段加密值进行筛选处理的步骤为：

S31、布隆过滤器对经过的syslog日志数据，查找布隆过滤器中是否存在对应的归并字段加密值；

S32、当布隆过滤器不存在的归并字段加密值时，则在数据库中查找是否存在与归并字段相同的数据，存在则更新数据，不存在则将数据更新到数据库；并把归并字段加密值存储到布隆过滤器和Redis中；

S33、当布隆过滤器中存在归并字段加密值时，更新数据库中与归并字段相同的数据；

S34、重复S31～S33完成消费syslog日志数据筛选处理。

进一步地：所述S31中布隆过滤器对经过的syslog日志数据，查找布隆过滤器中是否存在对应的归并字段加密值的步骤为：

S311、布隆过滤器将加密值转换成的hash值；

S312、布隆过滤器比较hash值对应的byte数组位置；

S313、如果byte数组位置不存在比较的hash值，则返回空值，判定布隆过滤器中不存在对应的归并字段加密值。

进一步地：所述S33中，当布隆过滤器中存在归并字段加密值时，更新数据库中与归并字段相同的数据的步骤为：

S331、当布隆过滤器中存在归并字段加密值时，先对Redis存储的归并字段加密值数据进行查询，确认是否真实存在；

S332、如果Redis存在与归并字段相同的数据，对相同的数据进行更新，并更新数据库中与归并字段相同的数据；

S333、如果Redis不存在与归并字段相同的数据，则将数据***到数据库。

本发明的有益效果：

1、本发明通过Redis批量缓存syslog日志数据以及进行归并字段加密值解析处理，经过归并字段处理，降低syslog日志数据中大量冗余数据，节省存储空间，降低数据库使用成本，提高数据库使用效率。

2、本发明通过对归并字段加密值的数据进行布隆过滤器，布隆过滤器具有较高的筛选速度，筛选速度明显快于在Redis中查找相同的归并字段数据，通过布隆过滤器的快速筛选，可以防止请求数据持续的对Redis查找使用，从而造成Redis运行速度降低，导致Redis缓存穿透，通过设置布隆过滤器可以解决Redis 缓存穿透的问题，提高冗余数据的去除速度。

3、本发明在采用布隆过滤器筛选过滤的同时增加对Redis筛选的利用，经过对Redis中归并字段加密值进行再查询，可以使冗余数据的去除更为准确，冗余数据的去除率更高。

4、本发明对数据归并字段统一进行加密处理，可以有效防止恶意攻击，预防服务宕机。

5、本发明采用布隆过滤器将Redis缓存穿透控制在一个可容范围内，利用布隆过滤器可以预先把数据查询的主键，归并字段的加密值缓存到布隆过滤器中，当根据归并字段的加密值进行数据查询的时候，布隆过滤器先判断该值是否存在，若存在的话，则进行下一步处理，若不存在的话，直接返回，有效的将缓存穿透控制在一个可以容忍的范围内。

附图说明

图1为本发明一种基于布隆过滤器的大数据归并方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中表示，其中自始至终相同或类似的符号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解对本发明的限制。

如图1所示，本发明公开一种基于布隆过滤器的大数据归并方法，包括以下步骤：

S1、采用Redis批量缓存不同设备/主机发送的syslog日志数据；

Redis采用消息队列Redis Stream 缓存数据，它通过有序的、不断增长的日志序列来存储事件流数据，每个事件都是一个包含多个字段的消息，它们被追加到RedisStream的末尾，Redis Stream以UDP的方式接收不同设备/主机发送的syslog日志数据，消息队列Redis Stream 批量缓存不同设备/主机发送的syslog日志数据；消息队列RedisStream 提供了持久化和主备复制功能，可以让任何客户端访问任何时刻的syslog日志数据进行消费，并且能存储每一个客户端访问syslog日志数据的位置，客户端可以根据自身的处理能力动态调整消费速度，确保数据的可靠处理，有效防止数据丢失。

使用客户端对消息队列Redis Stream批量缓存的syslog日志数据进行消费处理，对syslog日志数据进行解析处理后，获取syslog日志数据归并字段加密值。

归并字段，是指根据统一的格式对syslog日志数据中的特征值进行提取归并，作为归并字段，例如syslog日志数据中的设备信息、时间信息、内容信息等，经过归并字段处理，syslog日志数据中会产生大量冗余数据，相同的冗余数据没有使用价值，且会占据大量存储空间，提高数据库使用成本，降低数据库使用效率。

解析后的syslog日志数据依据归并字段进行加密处理，获取加密值，可以防止恶意攻击。

为筛选syslog日志数据中冗余数据，可以利用布隆过滤器对syslog日志数据归并字段加密值进行筛选处理，再把筛选处理后的syslog日志数据转存到数据库。

如图1所示，具体的：

S31、布隆过滤器对经过的syslog日志数据，查找布隆过滤器中是否存在对应的归并字段加密值，查找是否存在对应的归并字段加密值的具体步骤为：

S311、布隆过滤器将加密值转换成的hash值；

S312、布隆过滤器比较hash值对应的byte数组位置；

在布隆过滤器中查找是否存在归并字段加密值，当一个不存在的归并字段加密值的数据进行请求时，在经过布隆过滤器时，布隆过滤器将比较加密值转换成的hash值，比较hash值对应的byte数组位置，如果byte数组位置不存在比较的hash值，立刻就能发现该值不存在，直接返回空值即可，速度几乎快到忽略不计，速度会明显快于在Redis中查找相同的归并字段数据。

对归并字段相同的冗余数据，进行查重时，通过布隆过滤器的快速筛选，可以防止请求数据持续的对Redis查找使用，从而造成Redis运行速度降低，导致Redis缓存穿透，通过设置布隆过滤器可以解决Redis缓存穿透的问题。

在布隆过滤器和Redis中消费的syslog日志数据中归并字段加密值同步保持更新；如果布隆过滤器不存在归并字段加密值，可以判定Redis中也不存在归并字段加密值，则可以把这条syslog日志数据认定为新数据，则把此数据更新到数据库。

S33、当布隆过滤器中存在归并字段加密值时，更新数据库中与归并字段相同的数据；更新数据库中与归并字段相同的数据的步骤可以为：

布隆过滤器对归并字段加密值的筛选采用的是将比较加密值转换成的hash值，比较hash值对应的byte数组位置，所以布隆过滤器与Redis对归并字段加密值的筛选过程不同，这会导致当布隆过滤器中筛选存在归并字段加密值相同数据时，Redis中可能存在也可能不存相同的归并字段数据，如果Redis存在与归并字段相同的数据，对相同的数据进行更新，并更新数据库中与归并字段相同的数据；如果Redis不存在与归并字段相同的数据，则将数据更新到数据库。

经过对Redis中syslog消费的日志数据进行再查询，可以使冗余数据的去除更为准确，冗余数据的去除率更高。

S34、重复S31～S33完成消费syslog日志数据筛选处理。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、 “固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或 “下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征 “之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

Claims

1.一种基于布隆过滤器的大数据归并方法，其特征在于，包括以下步骤：

S1、采用Redis批量缓存不同设备/主机发送的syslog日志数据；

2.根据权利要求1所述的一种基于布隆过滤器的大数据归并方法，其特征在于：所述S3中利用布隆过滤器对syslog日志数据归并字段加密值进行筛选处理的步骤为：

S34、重复S31～S33完成消费syslog日志数据筛选处理。

3.根据权利要求2所述的一种基于布隆过滤器的大数据归并方法，其特征在于：所述S31中布隆过滤器对经过的syslog日志数据，查找布隆过滤器中是否存在对应的归并字段加密值的步骤为：

S311、布隆过滤器将加密值转换成的hash值；

S312、布隆过滤器比较hash值对应的byte数组位置；

4.根据权利要求2所述的一种基于布隆过滤器的大数据归并方法，其特征在于：所述S33中，当布隆过滤器中存在归并字段加密值时，更新数据库中与归并字段相同的数据的步骤为：