CN115062002A - 流式数据处理方法及装置 - Google Patents
流式数据处理方法及装置 Download PDFInfo
- Publication number
- CN115062002A CN115062002A CN202210524751.8A CN202210524751A CN115062002A CN 115062002 A CN115062002 A CN 115062002A CN 202210524751 A CN202210524751 A CN 202210524751A CN 115062002 A CN115062002 A CN 115062002A
- Authority
- CN
- China
- Prior art keywords
- analysis result
- global
- flow analysis
- target
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000005206 flow analysis Methods 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000010219 correlation analysis Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000002087 whitening effect Effects 0.000 claims abstract description 10
- 230000004044 response Effects 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- UPMXNNIRAGDFEH-UHFFFAOYSA-N 3,5-dibromo-4-hydroxybenzonitrile Chemical compound OC1=C(Br)C=C(C#N)C=C1Br UPMXNNIRAGDFEH-UHFFFAOYSA-N 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012098 association analyses Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种流式数据处理方法及装置。其中,该方法包括:根据当前的目标日志确定对应的配置参数;响应于接收到用户选中的至少一个规则,根据至少一个规则和配置参数确定目标模型,目标模型的数据处理能力与目标日志匹配;根据目标模型,通过关联分析引擎对目标日志进行处理,得到并存储对应的流量分析结果;读取预设时间段的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将全局流量分析结果保存在数据库。实现了对实时的流式数据的判重、归并、计数、加白和分组。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种流式数据处理方法及装置。
背景技术
布隆过滤器,本质上是比较巧妙的概率型数据结构(二进制向量),存放的不是0就是1。
目前,布隆过滤器技术大多数都用于基于有限的数据量去重等问题,例如:Google的分布式数据库Bigtable使用布隆过滤器来查找不存在的行或列;Google Chrome浏览器使用布隆过滤器加速安全浏览服务;SPIN模型检测器使用布隆过滤器在大规模验证问题时跟踪可达状态空间;Venti文档存储***也采用布隆过滤器来检测先前存储的数据。这样势必会导致布隆过滤器存储数据量极限受限,扩展性不足等问题。
发明内容
针对现有技术中的问题,本发明实施例提供一种流式数据处理方法及装置。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种流式数据处理方法,包括:根据当前的目标日志确定对应的配置参数;响应于接收到用户选中的至少一个规则,根据所述至少一个规则和所述配置参数确定目标模型,所述目标模型的数据处理能力与所述目标日志的大小匹配;根据所述目标模型,通过关联分析引擎对所述目标日志进行处理,得到并存储对应的流量分析结果;读取预设时间段的流量分析结果,通过布隆过滤器对所述预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将所述全局流量分析结果保存在数据库。
进一步地,关联分析引擎包括Sabre引擎。
进一步地,配置参数包括以下至少一项:对应所述目标日志的流量大小、对应所述目标日志的黑名单、对应所述目标日志的存储地址、对应所述目标日志的目标字段和对应所述目标日志的归并字段。
进一步地,根据当前的目标日志确定对应的配置参数之前,还包括:预设至少一个初始规则,所述至少一个初始规则用于被用户选择。
进一步地,读取预设时间段的流量分析结果,通过布隆过滤器对所述预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将所述全局流量分析结果保存在数据库,包括:读取预设时间段的流量分析结果,通过布隆过滤器对所述预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果;将所述全局流量分析结果换算为对应的二进制向量并保存在所述布隆过滤器中;将所述全局流量分析结果保存在数据库。
进一步地,所述方法还包括:设置定时删除任务,根据所述定时删除任务清理所述数据库中的数据,以及将所述布隆过滤器中的对应所述数据的二进制向量置零。
进一步地,所述根据所述目标模型,通过关联分析引擎对所述目标日志进行处理,包括:根据所述目标模型,通过关联分析引擎对所述目标日志进行判重、归并、计数、加白和分组。
第二方面,本发明实施例还提供了一种流式数据处理装置,包括:第一处理模块,用于根据当前的目标日志确定对应的配置参数;第二处理模块,用于响应于接收到用户选中的至少一个规则,根据所述至少一个规则和所述配置参数确定目标模型,所述目标模型的数据处理能力与所述目标日志的大小匹配;第三处理模块,用于根据所述目标模型,通过关联分析引擎对所述目标日志进行处理,得到并存储对应的流量分析结果;第四处理模块,用于读取预设时间段的流量分析结果,通过布隆过滤器对所述预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将所述全局流量分析结果保存在数据库。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述流式数据处理方法的步骤。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述流式数据处理方法的步骤。
第五方面,本发明实施例还提供了一种计算机程序产品,其上存储有可执行指令,该指令被处理器执行时使处理器实现第一方面所述流式数据处理方法的步骤。
本发明实施例提供的流式数据处理方法及装置,根据构建的不同的目标模型,通过关联分析引擎对流式数据进行实时计算和实时统计,实现了对数据集筛选和过滤。再通过布隆过滤器处理当前流式数据,扩展了布隆过滤器的数据处理能力;通过布隆过滤器高效的标记这些数据实现了对预设时间段的流式数据的全局统计和全局判重;布隆过滤器仅对流量分析结果进行全局判重和全局统计得到全局流量分析结果,将全局流量分析结果对应的数据保存在数据库中,解决了布隆过滤器存储数据有限的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流式数据处理方法实施例流程图;
图2为流式数据处理方法的框架示意图;
图3为流式数据处理方法的业务模块的设计示意图;
图4为本发明的流式数据处理装置实施例结构示意图;
图5为本发明电子设备实体实施例结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明流式数据处理方法实施例流程图。如图1所示,本发明实施例的流式数据处理方法包括:
S101,根据当前的目标日志确定对应的配置参数。
目标日志为流量日志,即记录流量的日志,包括记录进出口流量的大小、点击流数据等,流量数据大,对应的流量日志也就大。
作为示例,流量日志可以包括时间戳,源IP,目的IP,源端口,目的端口,进出流量等。通常,会将一个流整合为一个记录后发往日志服务器。一个流指相同的源IP,目的IP和目的端口。
作为示例,当前的目标日志可以是前一秒的流量日志。
作为示例,若流量日志仅包括时间戳和进出流量大小,当前的目标日志为前一秒的流量日志,那么对应当前的目标日志的配置参数可以从流量日志中得到:目标字段、时间、进出流量大小。
S102,响应于接收到用户选中的至少一个规则,根据至少一个规则和配置参数确定目标模型,目标模型的数据处理能力与目标日志的大小匹配。
配置参数是基于流量的变化而动态调整的,至少一个规则是基于用户选择得到的不同的规则的组合,从而,根据至少一个规则和配置参数这两个动态因素确定目标模型。
作为示例,人机交互界面可以显示多个场景的名称,用户可以通过人机交互界面选择至少一个场景的方式选择至少一个规则。人机交互界面也可以展示预先设置的多个规则的名称和规则的用途(例如,某个规则用于判重、归并、计数、加白或者分组),用于用户选择。
作为示例,用户可以通过人机交互界面选择场景1(场景1对应的规则1用于将流量数据判重)和场景2(场景2对应的规则2用于将流量数据归并),配置参数可以是从流量日志中得到的进出流量大小(例如为10MB),那么根据规则1和规则2以及配置参数确定的目标模型可以为一个能够对流量大小为10MB的数据进行判重和归并的模型。
作为示例,目标模型可以根据用户选中的至少一个规则、配置参数以及认证信息确定。认证信息用于在数据交互的过程中进行安全认证。
根据至少一个规则和配置参数确定目标模型,实现了封装多种规则构建不同的模型,筛选出多种数据结构,适配不同场景。
S103,根据目标模型,通过关联分析引擎对目标日志进行处理,得到并存储对应的流量分析结果。
关联分析引擎(例如Sabre引擎)是可实现实时计算和实时统计的大数据流式分布式关联分析引擎。
作为示例,根据当前的目标日志,确定与之对应的目标模型,然后,关联分析引擎根据目标模型对当前的目标日志进行判重、归并、计数、加白和分组,完成对的实时分析,并将实时分析的流量分析结果存储。本申请对存储的方式不做限定。
关联分析引擎,可以是能够实时计算和实时统计大数据流式关联分析引擎。
S104,读取预设时间段的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将全局流量分析结果保存在数据库。
在一些实例中,上述的流量分析结果是实时存储的,例如每一秒实时存储一次流量分析结果,当存储到一定量的流量分析结果时,可以读取预设时间段的流量分析结果。作为示例,若已经存储有前两个小时的流量分析结果,且预设时间段为两小时,那么读取这两小时的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计(即得到前两个小时的判重和统计结果),得到全局流量分析结果,并将全局流量分析结果保存在数据库。本发明数据库类型和对全局流量分析结果的保存方式不做限定。
布隆过滤器,本质上是二进制的数据结构,用来判断某个元素(key)是否在某个集合中。布隆过滤器采用的布隆算法是以二进制数据集合为基础的判重算法。通过布隆过滤器,实现流式数据的全局判重和全局统计。
本发明实施例提供的流式数据处理方法及装置,根据构建的不同的目标模型,通过关联分析引擎对流式数据进行实时计算和实时统计,实现了对数据集筛选和过滤。再通过布隆过滤器处理当前流式数据,扩展了布隆过滤器的数据处理能力;通过布隆过滤器高效的标记这些数据实现了对预设时间段的流式数据的全局统计和全局判重;布隆过滤器仅对流量分析结果进行全局判重和全局统计得到全局流量分析结果,将全局流量分析结果对应的数据保存在数据库中,解决了布隆过滤器存储数据有限的问题。
在上述实施例的基础上,关联分析引擎可以是Sabre引擎。
Sabre引擎,是一种可以实时计算和实时统计大数据流式关联分析引擎。
本发明实施例提供的流式数据处理方法,采用Sabre引擎的实时计算和实时统计大数据的优点,进一步便于对当前的目标日志的实时计算和实时统计。
在上述实施例的基础上,配置参数可以包括以下至少一项:对应目标日志的流量大小、对应目标日志的黑名单、对应目标日志的存储地址、对应目标日志的目标字段和对应目标日志的归并字段。
配置参数可以根据当前的目标日志获得的。例如流量大小、存储地址以及目标字段可以直接在对应的目标日志中读取,黑名单可以是根据目标字段进行分析后确定的。不用类型的目标日志对应不同的黑名单。根据目标日志中的目标字段获取信息。根据归并字段将获取的信息整合。同样的,配置参数也可以包括对应目标日志的白名单。实现了循环调控数据处理的配置参数,适配不同数据量的目标模型。
在上述实施例的基础上,根据当前的目标日志确定对应的配置参数之前,还可以包括:预设至少一个初始规则,至少一个初始规则用于被用户选择。
预设的至少一个初始规则可以是针对不同类型的目标日志的判重、归并、计数、加白或分组。基于用户选定不同的初始规则,能够组合成新的规则,从而不断动态扩充可选规则。
在上述实施例的基础上,读取预设时间段的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将全局流量分析结果保存在数据库,可以包括:读取预设时间段的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果;将全局流量分析结果换算为对应的二进制向量并保存在布隆过滤器中;将全局流量分析结果保存在数据库。
布隆过滤器中保存的二进制向量与保存在数据库中的全局流量分析结果对应。
在上述实施例的基础上,还可以包括:设置定时删除任务,根据定时删除任务清理数据库中的数据,以及将布隆过滤器中的对应数据的二进制向量置零。
定时删除任务也可以是根据时间设定的删除任务。例如,设置布隆过滤器和数据库只存储一个星期的数据,若下一个星期的数据需要存进来,就需要删除存储时间最早的数据。
定时删除任务也可以设定布隆过滤器和数据库中的存储数据的最大数量,若布隆过滤器和数据库达到了存储极限,那么当新的数据需要存储时,会相应的删除存储时间最久的数据。
通过将布隆过滤器中的对应数据的二进制向量置零,实现了布隆过滤器的删除(重置)功能。
在上述实施例的基础上,根据所述目标模型,通过关联分析引擎对所述目标日志进行处理,包括:根据所述目标模型,通过关联分析引擎对所述目标日志进行判重、归并、计数、加白和分组。
判重,可以是判断日志中的数据是否存在重复,作为示例,将日志中的目标字段的内容进行对比,剔除重复的内容。
归并,可以是将日志中的符合条件的数据整合在一起。
计数,可以是计算日志中存在多少个数据段,或者计算日志中的重复的数据的总和等。可以根据需要对指定特征的数据计数。
加白,可以是根据预先设置的白名单,将在白名单中的数据直接过滤掉,或者根据预先设置的黑名单,保留在黑名单中的数据。也可以同时根据白名单和黑名单对日志流量进行筛选,本发明对此不做限定。白名单和黑名单中的内容可以根据具体需要设定。
分组,可以是根据日志中的目标字段对日志流量数据分组。例如目标字段为id,日志流量数据的字段包括id和对应id的数据内容。目标字段为所有为偶数的id,则可以将所有为偶数的字段分为一组,剩下的所有为奇数的字段分为一组。
如图2所示,根据上述实施例的方案的框架图,采用布隆过滤器结合流式分析引擎(sabre引擎),实现了对流式(流量)数据的过滤、全局判重和全局统计功能。***初始化预置若干(可配)规则,用于组合成其他规则的数据源头。配置参数依赖于流式数据量的变化进行自动调整,并定时同步到模型中,模型随着规则和配置的变化而更新。针对流式数据量的变化,模型会自动进行调整,对应的数据处理能力和入库能力也会有相应的调整,直到接入的数据量与处理能力达到平衡。
根据上述实施例的方案的业务模块的设计可以参考图3。图3中Request的内容可以为:主体属性(例如请求格式),客体资源属性(例如选择的规则的id),规则名称、规则的启停信息。Response的内容可以为:允许,拒绝和报错。
1、***预置默认支持的规则,前端可以直接选择不同场景进行组合;
2、用户选择不同的场景会组合不同的规则,sabre引擎接收到这些规则会构建出不同的数据处理模型;
3、引擎根据构建的模型处理数据(判重、归并、计数、加白和分组),不同的模型输出数据集不同;
4、根据布隆算法将输出的数据算成对应的二进制向量,保存到布隆过滤器;
5、入库对象将过滤和判重后的数据保存到数据库进行持久化且同步记录在布隆过滤器进行标记;
6、业务模块查询数据库获取到最新的数据集;
7、定时任务对象依据数据库存储的数据量和存储时间,同步清理数据库和删除布隆过滤器(置零)中的数据;
8、监控流式数据量的变化,自适应的调整对应配置参数,sabre引擎应用最新的模型和配置参数,动态调控数据处理的输出数据,达到流式数据量与数据处理能力平衡。
综上,以预置的规则为基础,构建出多种数据处理模型,提供了更高效和方便的手段,筛选出流式数据中需要的数据,适配不同的场景。针对流式数据量的变化,模型自动调整,达到流式数据快速处理的效果。
图4为本发明流式数据处理装置实施例结构示意图。如图4所示,该流式数据处理装置,包括:
第一处理模块401,用于根据当前的目标日志确定对应的配置参数;
第二处理模块402,用于响应于接收到用户选中的至少一个规则,根据至少一个规则和配置参数确定目标模型,目标模型的数据处理能力与目标日志的大小匹配;
第三处理模块403,用于根据目标模型,通过关联分析引擎对目标日志进行处理,得到并存储对应的流量分析结果;
第四处理模块404,用于读取预设时间段的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将全局流量分析结果保存在数据库。
可选地,关联分析引擎包括Sabre引擎。
可选地,配置参数包括以下至少一项:对应目标日志的流量大小、对应目标日志的黑名单、对应目标日志的存储地址、对应目标日志的目标字段和对应目标日志的归并字段。
可选地,装置还包括:
第五处理模块405,用于预设至少一个初始规则,至少一个初始规则用于被用户选择。
可选地,第四处理模块404,用于:
读取预设时间段的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果;
将全局流量分析结果换算为对应的二进制向量并保存在布隆过滤器中;
将全局流量分析结果保存在数据库。
可选地,装置还包括:
第六处理模块406,用于设置定时删除任务,根据定时删除任务清理数据库中的数据,以及将布隆过滤器中的对应数据的二进制向量置零。
可选地,第三处理模块403,还用于:根据所述目标模型,通过关联分析引擎对所述目标日志进行判重、归并、计数、加白和分组。
举个例子如下:
图5示例了一种电子设备的实体结构示意图,如图5示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行如下方法:根据当前的目标日志确定对应的配置参数;响应于接收到用户选中的至少一个规则,根据至少一个规则和配置参数确定目标模型,目标模型的数据处理能力与目标日志的大小匹配;根据目标模型,通过关联分析引擎对目标日志进行处理,得到并存储对应的流量分析结果;读取预设时间段的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将全局流量分析结果保存在数据库。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各实施例提供的流式数据处理方法,例如包括:根据当前的目标日志确定对应的配置参数;响应于接收到用户选中的至少一个规则,根据至少一个规则和配置参数确定目标模型,目标模型的数据处理能力与目标日志的大小匹配;根据目标模型,通过关联分析引擎对目标日志进行处理,得到并存储对应的流量分析结果;读取预设时间段的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将全局流量分析结果保存在数据库。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的流式数据处理方法,例如包括:根据当前的目标日志确定对应的配置参数;响应于接收到用户选中的至少一个规则,根据至少一个规则和配置参数确定目标模型,目标模型的数据处理能力与目标日志的大小匹配;根据目标模型,通过关联分析引擎对目标日志进行处理,得到并存储对应的流量分析结果;读取预设时间段的流量分析结果,通过布隆过滤器对预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将全局流量分析结果保存在数据库。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种流式数据处理方法,其特征在于,所述方法包括:
根据当前的目标日志确定对应的配置参数;
响应于接收到用户选中的至少一个规则,根据所述至少一个规则和所述配置参数确定目标模型,所述目标模型的数据处理能力与所述目标日志的大小匹配;
根据所述目标模型,通过关联分析引擎对所述目标日志进行处理,得到并存储对应的流量分析结果;
读取预设时间段的流量分析结果,通过布隆过滤器对所述预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将所述全局流量分析结果保存在数据库。
2.根据权利要求1所述的流式数据处理方法,其特征在于,所述关联分析引擎包括Sabre引擎。
3.根据权利要求1至2任一项所述的流式数据处理方法,其特征在于,所述配置参数包括以下至少一项:对应所述目标日志的流量大小、对应所述目标日志的黑名单、对应所述目标日志的存储地址、对应所述目标日志的目标字段和对应所述目标日志的归并字段。
4.根据权利要求1至2任一项所述的流式数据处理方法,其特征在于,所述根据当前的目标日志确定对应的配置参数之前,还包括:
预设至少一个初始规则,所述至少一个初始规则用于被用户选择。
5.根据权利要求1至2任一项所述的流式数据处理方法,其特征在于,所述读取预设时间段的流量分析结果,通过布隆过滤器对所述预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将所述全局流量分析结果保存在数据库,包括:
读取预设时间段的流量分析结果,通过布隆过滤器对所述预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果;
将所述全局流量分析结果换算为对应的二进制向量并保存在所述布隆过滤器中;
将所述全局流量分析结果保存在数据库。
6.根据权利要求5所述的流式数据处理方法,其特征在于,所述方法还包括:
设置定时删除任务,根据所述定时删除任务清理所述数据库中的数据,以及将所述布隆过滤器中的对应所述数据的二进制向量置零。
7.根据权利要求1所述的流式数据处理方法,其特征在于,所述根据所述目标模型,通过关联分析引擎对所述目标日志进行处理,包括:
根据所述目标模型,通过关联分析引擎对所述目标日志进行判重、归并、计数、加白和分组。
8.一种流式数据处理装置,其特征在于,所述方法包括:
第一处理模块,用于根据当前的目标日志确定对应的配置参数;
第二处理模块,用于响应于接收到用户选中的至少一个规则,根据所述至少一个规则和所述配置参数确定目标模型,所述目标模型的数据处理能力与所述目标日志的大小匹配;
第三处理模块,用于根据所述目标模型,通过关联分析引擎对所述目标日志进行处理,得到并存储对应的流量分析结果;
第四处理模块,用于读取预设时间段的流量分析结果,通过布隆过滤器对所述预设时间段的流量分析结果进行全局判重和全局统计,得到全局流量分析结果,并将所述全局流量分析结果保存在数据库。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的流式数据处理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的流式数据处理方法的步骤。
11.一种计算机程序产品,其上存储有可执行指令,其特征在于,该指令被处理器执行时使处理器实现如权利要求1至6中任一项所述流式数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210524751.8A CN115062002A (zh) | 2022-05-13 | 2022-05-13 | 流式数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210524751.8A CN115062002A (zh) | 2022-05-13 | 2022-05-13 | 流式数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062002A true CN115062002A (zh) | 2022-09-16 |
Family
ID=83198879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210524751.8A Pending CN115062002A (zh) | 2022-05-13 | 2022-05-13 | 流式数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062002A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116016361A (zh) * | 2022-12-12 | 2023-04-25 | 深圳依时货拉拉科技有限公司 | A/b实验分流方法、装置、存储介质和计算机设备 |
-
2022
- 2022-05-13 CN CN202210524751.8A patent/CN115062002A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116016361A (zh) * | 2022-12-12 | 2023-04-25 | 深圳依时货拉拉科技有限公司 | A/b实验分流方法、装置、存储介质和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684181A (zh) | 告警根因分析方法、装置、设备及存储介质 | |
CN106570465B (zh) | 一种基于图像识别的人流量统计方法及装置 | |
CN104091276B (zh) | 在线分析点击流数据的方法和相关装置及*** | |
CN110839016A (zh) | 异常流量监测方法、装置、设备及存储介质 | |
CN104731816A (zh) | 一种处理异常业务数据的方法和装置 | |
CN113765881A (zh) | 异常网络安全行为的检测方法、装置、电子设备及存储介质 | |
CN107832333B (zh) | 基于分布式处理和dpi数据构建用户网络数据指纹的方法和*** | |
CN115062002A (zh) | 流式数据处理方法及装置 | |
CN108876644B (zh) | 一种基于社交网络的相似账号计算方法及装置 | |
CN111740868A (zh) | 告警数据的处理方法和装置及存储介质 | |
CN111352994A (zh) | 数据同步方法以及相关设备、装置 | |
CN112818377A (zh) | 权限数据推荐、权限设置方法及***、电子设备及介质 | |
CN109344243A (zh) | 一种实时流计算报警分析方法及*** | |
CN110677269A (zh) | 通信用户关系的确定方法、装置和计算机可读存储介质 | |
CN108923967B (zh) | 一种去重流量记录方法、装置、服务器及存储介质 | |
CN106155913A (zh) | 缓存命中率分析的方法及设备 | |
CN108228752B (zh) | 数据全量导出方法、数据导出任务分配装置及数据导出节点装置 | |
CN109145109A (zh) | 基于社交网络的用户群体消息传播异常分析方法及装置 | |
CN113572721B (zh) | 一种异常访问检测方法、装置、电子设备及存储介质 | |
CN112256734A (zh) | 一种大数据处理方法、装置、***、设备和存储介质 | |
CN108351940B (zh) | 用于信息安全事件的高频启发式数据获取与分析的***和方法 | |
CN115952398B (zh) | 基于物联网的数据上传统计计算方法、***和存储介质 | |
CN110324588B (zh) | 基于字典结构的视频分析警告事件信息存储方法 | |
CN112052259A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
CN110019152A (zh) | 一种大数据清洗方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |