CN107038161A - 一种用于过滤数据的设备及方法 - Google Patents

一种用于过滤数据的设备及方法 Download PDF

Info

Publication number
CN107038161A
CN107038161A CN201510408180.1A CN201510408180A CN107038161A CN 107038161 A CN107038161 A CN 107038161A CN 201510408180 A CN201510408180 A CN 201510408180A CN 107038161 A CN107038161 A CN 107038161A
Authority
CN
China
Prior art keywords
data
filtering rule
filtered
rule
abstract syntax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510408180.1A
Other languages
English (en)
Other versions
CN107038161B (zh
Inventor
丁崔灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510408180.1A priority Critical patent/CN107038161B/zh
Priority to PCT/CN2016/088302 priority patent/WO2017008650A1/zh
Publication of CN107038161A publication Critical patent/CN107038161A/zh
Application granted granted Critical
Publication of CN107038161B publication Critical patent/CN107038161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的目的是提供一种用于过滤数据的设备及方法,每次获取初始待过滤数据后将所述初始待过滤数据转换为结构化待过滤数据,并利用相应的过滤规则实时进行匹配计算,随即得到过滤结果,解决实时性问题,同时支持算术运算,字符串运算,关系运算,逻辑运算,正则表达式运算,集合运算,且预留了扩展接口,并且所述过滤规则为简单的带变量的运算表达式形式,解决了过滤规则描述复杂、扩展不易及管理困难的问题。

Description

一种用于过滤数据的设备及方法
技术领域
本申请涉及计算机领域,尤其涉及一种从海量数据中根据设定的过滤规则实时过滤出满足过滤规则的数据的技术。
背景技术
随着信息技术爆发式增长,数据量与日俱增,众多领域对海量数据的处理的要求不断增加。
针对如何从海量数据中根据设定的过滤规则过滤出满足过滤规则的数据,现有技术中有以下几种方法:
基于内存关系型数据库的SQL语句(Structured Query Language)来过滤有效数据,然而,该方法需要将海量数据缓存在内存数据库的逻辑数据表中,占用大量内存资源,且SQL语句的周期性执行难以达到实时性要求;
基于Hbase(一个分布式的、面向列的开源数据库)的海量数据存储方案,使用Map-Reduce算法(一种编程模型算法,用于大规模数据集的并行运算)来过滤有效数据,然而,Map-Reduce模型任务是类似于批处理的后计算模式,对已经存储在Hbase中的海量数据,只能周期性的执行运算匹配结果,实时性难以得到保障,并且复杂的Map-Reduce模型任务需要通过扩展编写来实现,难以满足对大量过滤规则的实时可变和多种计算的需求;
基于CEP引擎(复杂事件处理,Complex Event Processing),使用模式匹配算法来过滤有效数据更适合做企业应用***的监测和决策控制,然而成熟的CEP引擎大多是商业软件,用户成本高,并且CEP引擎都有各自的模式规则描述方法,比如Drools使用XML格式,Esper使用EPL格式,针对不同的***的需求需要编写大量的适配代码来使用,且对于非标准化的匹配算法需要扩展编写来实现,增加实现难度,此外,CEP引擎的实现各不相同,故不易对CEP引擎的性能监测和调优。
发明内容
本申请要解决的技术问题是如何能够在不占用大量内存资源下,根据设定的过滤规则,从海量数据中实时地过滤出满足过滤规则,并且能够满足大量过滤规则的实时可变和多种计算的需求。
为实现上述目的,本申请提供了一种用于过滤数据的方法,其中,所述方法包括:
获取初始待过滤数据,并将所述初始待过滤数据转换为结构化待过滤数据,其中,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体;
加载过滤规则,其中,每一所述过滤规则包括规则领域标识、规则名称及规则运算表达式,并建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表;
获取所述结构化待过滤数据,并根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则;
利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算。
进一步地,所述获取初始待过滤数据包括:
从分布式消息中间件中获取所述初始待过滤数据。
进一步地,将所述初始待过滤数据转换为结构化待过滤数据还包括:
将所述结构化待过滤数据发送至阻塞队列;
获取所述结构化待过滤数据包括:
从所述阻塞队列中获取所述结构化待过滤数据。
进一步地,利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算包括:
对所获取的过滤规则进行规则编译,以建立可运行抽象语法树;
将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算。
进一步地,对所获取的过滤规则进行规则编译,以建立可运行抽象语法树包括:
对所获取的过滤规则的规则表达式进行分析,以转化为抽象语法树;
对所述抽象语法树进行预计算,以获得所述可运行抽象语法树;
其中,对所述抽象语法树进行一次预计算包括:
根据所述抽象语法树创建运行堆栈,将所述抽象语法树中的元素传入所述运行堆栈中;
当所述元素为操作符时,将所述操作符对应的两个操作数传出所述运行堆栈,计算以获得计算结果;
当所述元素为特殊元素,则将所述特殊元素转换为程序语言数据结构元素后传入运行堆栈中。
进一步地,利用若干所述可运行抽象语法树进行并行匹配计算包括:
将所述可运行抽象语法树的变量替换为所述数据体中的参数;
利用所述运行堆栈对所述可运行抽象语法树进行匹配计算。
进一步地,所述方法还包括:
新增过滤规则、删除过滤规则或对已有的过滤规则进行修改编译。
进一步地,建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表还包括:
建立根据所述过滤规则的规则名称为索引的所述过滤规则的第二规则列表;
所述新增过滤规则、删除过滤规则或对已有的过滤规则进行修改编译包括至少以下任一项:
将新增的过滤规则增加至所述第二规则列表中;
从所述第二规则列表中删除相应的过滤规则;
从所述第二规则列表中查找过滤规则,并对所查找的过滤规则进行修改编译。
进一步地,每一所述过滤规则还包括:所述过滤规则所绑定的通知器的信息;
所述方法还包括:
将满足相应所述过滤规则的结构化待过滤数据发送至该过滤规则所绑定的通知器,以备传输。
根据本申请另一方面还提供了一种用于过滤数据的设备,其中,所述设备包括:
第一装置,用于获取初始待过滤数据,并将所述初始待过滤数据转换为结构化待过滤数据,其中,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体;
第二装置,用于加载过滤规则,其中,每一所述过滤规则包括规则领域标识、规则名称及规则运算表达式,并建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表;
第三装置,用于获取所述结构化待过滤数据,并根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则;
第四装置,用于利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算。
进一步地,所述第一装置包括:
从分布式消息中间件中获取所述初始待过滤数据的单元。
进一步地,所述第一装置包括:
用于将所述结构化待过滤数据发送至阻塞队列的单元;
所述第三装置包括:
从所述阻塞队列中获取所述结构化待过滤数据的单元。
进一步地,所述第四装置包括:
用于对所获取的过滤规则进行规则编译,以建立可运行抽象语法树的单元;
用于将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算的单元。
进一步地,所述用于对所获取的过滤规则进行规则编译,以建立可运行抽象语法树的单元包括:
用于对所获取的过滤规则的规则表达式进行分析,以转化为抽象语法树的模块;
用于对所述抽象语法树进行预计算,以获得所述可运行抽象语法树的模块,其中,该模块用于:
根据所述抽象语法树创建运行堆栈,将所述抽象语法树中的元素传入所述运行堆栈中,
当所述元素为操作符时,将操作符对应的两个操作数传出所述运行堆栈,计算以获得计算结果,
用于当所述元素为特殊元素,则将所述特殊元素转换为程序语言数据结构元素后传入所述运行堆栈中。
进一步地,所述用于将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算的单元包括:
用于将所述可运行抽象语法树的变量替换为所述数据体中的参数的模块;
用于利用所述运行堆栈对所述可运行抽象语法树进行匹配计算的模块。
进一步地,所述设备还包括:
第五装置,用于新增过滤规则、删除过滤规则或对已有的过滤规则进行修改编译。
进一步地,所述第二装置还包括:
建立根据所述过滤规则的规则名称为索引的所述过滤规则的第二规则列表的单元;
所述第五装置包括:
用于将新增的过滤规则增加至所述第二规则列表中的单元;
用于从所述第二规则列表中删除相应的过滤规则的单元;
用于从所述第二规则列表中查找过滤规则,并对所查找的过滤规则进行修改编译的单元。
进一步地,每一所述过滤规则还包括:所述过滤规则所绑定的通知器的信息;
所述设备还包括:
第六装置,用于将满足相应所述过滤规则的结构化待过滤数据发送至该过滤规则所绑定的通知器,以备传输。
与现有技术相比,根据本申请一实施例所提供的用于数据过滤的设备及方法采用流式运算方式,不会在内存中缓存也不会固化数据,即每次获取初始待过滤数据后将所述初始待过滤数据转换为结构化待过滤数据,并利用相应的过滤规则实时进行匹配计算,随即得到过滤结果,解决海量流式数据的过滤的实时性问题;
进一步地,根据本申请一实施例所提供的用于数据过滤的设备及方法所述过滤数据的方法和设备支持算术运算,字符串运算,关系运算,逻辑运算,正则表达式运算,集合运算,且预留了扩展接口,并且所述过滤规则为简单的带变量的运算表达式形式,解决了过滤规则描述复杂、扩展不易及管理困难的问题;
此外,本申请根据本申请一实施例所提供的用于数据过滤的设备及方法为自主设计开发,成本相对较低,且在任意代码路径上都可以监控和调优。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一方面提供的一种用于过滤数据的设备的设备示意图;
图2示出根据本申请一优选的实施例提供的一种用于过滤数据的设备的设备示意图;
图3示出根据本申请另一优选的实施例提供的一种用于过滤数据的设备的设备示意图;
图4示出根据本申请一方面提供的一种用于过滤数据的方法流程图;
图5示出根据本申请一优选的实施例提供的一种用于过滤数据的方法流程图;
图6示出根据本申请另一优选的实施例提供的一种用于过滤数据的方法流程图;
图7示出根据本申请一优选的实施例提供的一种包括所述用于过滤数据设备的***的设备示意图;
图8至图10示出根据本申请一具体场景中利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算的示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
图1示出根据本申请一方面提供的一种用于过滤数据的设备的设备示意图,其中,所述设备1包括:第一装置11、第二装置12、第三装置13和第四装置14。
具体地,所述第一装置11用于获取初始待过滤数据,并将所述初始待过滤数据转换为结构化待过滤数据,其中,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体;所述第二装置12用于加载过滤规则,其中,每一所述过滤规则包括规则领域标识、规则名称、规则运算表达式,并建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表;所述第三装置13用于获取所述结构化待过滤数据,并根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则;所述第四装置14用于利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算。
进一步地,所述第一装置11用于获取初始待过滤数据,并将所述初始待过滤数据转换为结构化待过滤数据,其中,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体在此,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体。
其中,所述数据领域标识用于表明所述结构化待过滤数据的类别,其中,所述类别例如且不限于:主机的CPU占用率、某网站的访问延迟时间等,所述数据领域标识可以采用数据或文字等进行标识,此外,任何能够被计算机识别的标识的方式都可以作为所述数据领域标识的实施方式,并以引用的方式包含于此。其中,所述键-值对格式的数据体记录所述结构化待过滤数据的键-值对格式(Key-Value格式)的详细信息,所述数据体例如(仅为举例,并不限于此):instanceId=AY123456,clusterId=Hangzhou,value=92,bizTime=1427041923825,unit=Percent,其中,每一等号左侧表示键(Key),每一等号右侧表示值(Value),等号左右两侧的信息组成键-值对格式的数据体,在此,所述数据体所包括的键-对可包括一个或多个,其键-对的数量并不受限制。
优选的,所述初始待过滤数据从海量数据中获取,所述第一装置11还包括:从分布式消息中间件中获取所述初始待过滤数据的单元。所述第一装置11通过分布式消息中间件,优选的,所述分布式消息中间件为MetaQ(一种分布式消息中间件),MetaQ是一款分布式、队列模型的消息中间件,MetaQ具有以下特点:能够保证严格的消息顺序;提供丰富的消息拉取模式,高效的订阅者水平扩展能力,实时的消息订阅机制,亿级消息堆积能力,利用了MetaQ的集群数据Sharding(分片)的特性,可以使多个设备1形成多个功能完全相同的对等节点进行集群,并使使集群具备了负载均衡能力,满足在海量数据背景下的可扩展性,高可用性和性能要求。
优选的,所述第一装置11还可以包括:用于将所述结构化待过滤数据发送至阻塞队列的单元;相应地,所述第三装置13包括从所述阻塞队列中获取所述结构化待过滤数据的单元。
在此,所述阻塞队列能够在队列满的时候阻塞进一步的入队操作直至所述阻塞队列的队列不满。具体地,所述第一装置11将所述结构化待过滤数据发送至阻塞队列,则所述结构化待过滤数据进入阻塞队列等待,所述第三装置13根据所述结构化待过滤数据的等待次序,依此从所述阻塞队列中获取所述结构化待过滤数据,当所述结构化待过滤数据被获取后即从所述阻塞队列删除。在此,所述阻塞队列中等待的结构化待过滤数据占满所述阻塞队列时,所述阻塞队列阻塞所述第一装置11发送过滤数据进入阻塞队列的操作,从而能够避免处理能力不足时,内存占用过大,从而在海量数据过滤过程中起到削峰填谷的作用,避免处理故障。
进一步地,所述第二装置12用于加载过滤规则,其中,每一所述过滤规则包括:规则领域标识、规则名称及规则运算表达式,并建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表。
在此,所述规则领域标识用于表明所述过滤规则的类别,其中,所述的类别例如且不限于:主机的CPU占用率、某网站的访问延迟时间等,所述规则领域标识可以采用数据或文字等进行标识,此外,任何能够被计算机识别的标识的方式都可以作为所述数据领域标识的实施方式,并以引用的方式包含于此。优选地,所述规则领域标识的内容与所述数据领域标识的内容相同或基本相同,以便所述第三装置13根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则。其中,所述规则名称可以是全局唯一识别的规则名称,以便于过滤规则的管理维护。其中,规则运算表达式可以是数字、字符串形式组成的规则表达式,例如(仅为举例,并不限于此):instanceId='AY123456'||clusterId=hangzhou)&&value>80,规则运算表达式还可以包括非数字、字符串等原生类型组成的数据集合类型,例如(仅为举例,并不限于此):数组、哈希集合等。
进一步地,所述第二装置12建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表,所述第一规则列表用于为第三装置13获取过滤规则提供支持。
进一步地,所述第三装置13获取所述结构化待过滤数据,并根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则。具体地,所述第三装置13根据所述数据领域标识从所述第一规则列表中获取具有与数据领域标识相对应的规则领域标识的若干过滤规则。
进一步地,所述第四装置14利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算。
优选的,对于每一所述结构化待过滤数据,所述第三装置13根据其数据领域标识获取若干具有相应相同的规则领域标识的若干过滤规则,则第四装置14利用每一所获取的过滤规则对所述结构化待过滤数据进行一次匹配运算,所述第四装置14对若干所获取的过滤规则进行并行匹配计算,以充分利用多核中央处理器的性能,提高过滤效率。
具体地,所述第四装置14包括:用于对所获取的过滤规则进行规则编译,以建立可运行抽象语法树的单元;和用于将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算的单元。
所述第四装置14实现了抽象语法树的功能,能够支持算术运算,字符串运算,关系运算,逻辑运算,正则表达式运算和集合运算等,并预留了扩展接口,可支持用户自定义的运算等。
进一步地,所述第四装置14对所获取的过滤规则进行规则编译,以建立可运行抽象语法树(AST,Abstract Syntax Tree),在此,所述抽象语法树是是规则表达式的抽象语法结构的树状表现形式。
具体地,所述用于对所获取的过滤规则进行规则编译、以建立可运行抽象语法树的单元包括:用于对所获取的过滤规则的规则表达式进行分析,以转化为抽象语法树的模块;和用于对所述抽象语法树进行预计算,以获得所述可运行抽象语法树的模块。
具体地,对所获取的过滤规则的规则表达式进行分析,以转化为抽象语法树,可以采用Antlr(Another Tool for Language Recognition)来实现,能够将用户自定义的过滤规则表达式转化为抽象语法树;通过对规则表达式进行词法分析得到AST的Token流,Token流(令牌)包括分析识别出的字符串规则各种运算操作符,运算操作符包括但不限于例如:操作符、数字、字符串、变量、正则表达式等。
其中,运算操作符例如包括以下示例代码:
在具体的应用场景中,例如过滤规则的规则表达式为以下字符串形式的内容:
CPU>90/100and clusterId in[‘hz’,’qd’]and instanceId like‘AK47\w+’
图8至图10示出根据本申请一具体场景中利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算的示意图。通过编写Antlr词法分析规则,得到如图9所示的AST token流,并在***中的保存形式采用运算表达式后缀表示法来解决优先级问题,如图8所示,保存形式为:OP:操作符,Num:数字,Var:变量,Regex:正则表达式,StrArray:字符串数组。
接着,对所述抽象语法树进行预计算,以获得所述可运行抽象语法树。其中,所述预计算用于将AST token流中的常量表达式进行预先计算,以判断子表达式是否可计算,并通过预计算检查所述抽象语法树中每个元素是否为特殊类型,将其中的特殊类型的元素转换为程序语言数据结构元素,例如但不限于,将Like操作参数元素解释转化为正则表达式,将In操作参数元素解释转化为集合。通过预计算能够将AST中的常量表达式进行预先预算,从而加快运行时处理速度,并特殊类型的元素转化为程序语言数据结构元素,其中,所述特殊类型的元素是非数字、字符串组成的原生类型的元素,例如但不限于数据集合类型,例如但不限于数组、哈希map、哈希集合等。
接上例,在具体的场景中,所述第四装置14对图9所示的所述抽象语法树进行一次预计算,计算结果为可运行抽象语法树(AST),其中,AST的token流如图10所示,其中,“0.9”、“Java.util.HashSet[‘hz’,‘qd’]”及“Java.util.regex.pattern‘AK47\W+’”为经过预计算的计算结果。
在一可选的实施例中,进行预计算的示例代码如下:
当然本领域技术人员应当能够理解,上述示例代码仅为举例,今后可能出现的进行预计算的方法、代码等其他形式,如适用本申请,均能够以引用的方式包含于本申请的保护范围之内。
具体地,用于对所述抽象语法树进行预计算,以获得所述可运行抽象语法树的模块,其中,该模块用于:根据所述抽象语法树创建运行堆栈,将所述抽象语法树中的元素传入所述运行堆栈中,当所述元素为操作符时,将操作符对应的两个操作数传出所述运行堆栈,计算以获得计算结果,用于当所述元素为特殊元素,则将所述特殊元素转换为程序语言数据结构元素后传入所述运行堆栈中。
进一步地,所述第四装置14还包括将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算的单元。
利用若干所述可运行抽象语法树进行并行匹配计算运算的过程与一趟预计算相同,在正常情况下运行时AST中的所有表达式均为可计算表达式,所以最终的计算结果是一个确定的值,该值为布尔值FALSE或者TRUE,如果计算结果的布尔值为TRUE,则该结构化数据则判断为满足该过滤规则。
在此,通过利用所述可运行抽象语法树对所述数据进行匹配计算,当本申请所述设备1被分配到了1000个过滤规则,则对于每一所述结构化待过滤数据,在所述设备1的线程池中对这1000个过滤规则并发执行匹配运算,以充分利用多核CPU的性能来并发计算过滤规则。
具体地,所述用于将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算的单元包括:用于将所述可运行抽象语法树的变量替换为所述数据体中的参数的模块;用于利用所述运行堆栈对所述可运行抽象语法树进行匹配计算的模块。
其中,将所述可运行抽象语法树的变量替换为所述数据体中的参数的示例代码如下:
利用所述运行堆栈对所述可运行抽象语法树进行匹配计算,其中,对AST每个节点进行处理,并放入运行时栈的示例代码如下:
其中,对AST中的操作符节点进行相应的运算的示例代码如下:
其中,进行匹配计算的示例代码如下:
当然本领域技术人员应当能够理解,上述示例代码仅为举例,今后可能出现的方法、代码等其他形式,如适用本申请,均能够以引用的方式包含于本申请的保护范围之内。
此后,所述设备1可以对该结构化待过滤数据进行进一步处理,例如报警等。
图2示出根据本申请一优选实施例提供的一种用于过滤数据的设备的设备示意图,所述设备1包括:第一装置11’、第二装置12’、第三装置13’、第四装置14’和第五装置15’。
所述第一装置11’、第三装置13’和第四装置14’的内容与图1所示的设备1的第一装置11、第三装置13和第四装置14的内容相同或基本相同,为简明起见,不再赘述,仅以引用的方式包含于此。
优选的,所述第二装置12’在引用图1所示的第二装置12的内容的基础上,所述第二装置12’还包括:建立根据所述过滤规则的规则名称为索引的所述过滤规则的第二规则列表的单元;所述第二装置12’按照所述过滤规则的规则领域标识和所述过滤规则的规则名称为两个维度的索引建立第一规则列表和第二规则列表,其中,以所述过滤规则的规则领域标识为索引的第一规则列表供过滤数据时查找,以所述过滤规则的规则名称为索引的第二规则列表供过滤规则的管理和维护时查找。获得所述结构化待过滤数据时,根据数据领域标识匹配查找第一规则列表中的过滤规则,找到对应的过滤规则的列表,并遍历该过滤规则的列表,将格式化待过滤数据的数据体作为输入参数,对列表中的每一规则做并发匹配计算。所述第二规则列表便于对过滤规则进行管理。
所述第五装置15’用于新增过滤规则、删除过滤规则或对已有的过滤规则进行修改编译。
具体地,所述第五装置15’包括用于将新增的过滤规则增加至所述第二规则列表中的单元;用于从所述第二规则列表中删除相应的过滤规则的单元;用于从所述第二规则列表中查找过滤规则,并对所查找的过滤规则进行修改编译的单元。所述第五装置15’能够对过滤规则进行修改和增删操作,提高过滤规则的灵活性。
图3示出根据本申请另一优选实施例提供的一种用于过滤数据的设备的设备示意图,其中,所述设备1包括第一装置11”、第二装置12”、第三装置13”、第四装置14”、第五装置15”和第六装置16”。
其中,所述第一装置11”、第二装置12”、第三装置13”、第四装置14”和第五装置15”与图2所示的设备1的第一装置11’、第二装置12’、第三装置13’、第四装置14’和第五装置15”的内容相同或基本相同,为简明起见,不再赘述,并以引用的方式包含于此。
在此,每一所述过滤规则还包括:所述过滤规则所绑定的通知器的信息;所述第六装置16’用于将满足相应所述过滤规则的结构化待过滤数据发送至该过滤规则所绑定的通知器,以备传输。其中,在此,所述通知器是对预留通知接口的一组实现,可实现自定义的通知方式,比如使用不同的传输协议,不同的压缩算法,不同的序列化算法传输至下游***集群中不同的***中。其中,所述通知器可以在过滤规则创建时,即进行自由地组合装配绑定至任意过滤规则。
图4示出根据本申请一方面提供的一种用于过滤数据的方法流程图,其中,所述方法包括:步骤S11、步骤S12、步骤S13和步骤S14。
具体地,所述步骤S11包括:获取初始待过滤数据,并将所述初始待过滤数据转换为结构化待过滤数据,其中,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体;所述步骤S12包括:加载过滤规则,其中,每一所述过滤规则包括规则领域标识、规则名称、规则运算表达式,并建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表;所述步骤S13包括:获取所述结构化待过滤数据,并根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则;所述步骤S14包括:利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算。
进一步地,在所述步骤S11中:获取初始待过滤数据,并将所述初始待过滤数据转换为结构化待过滤数据,其中,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体在此,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体。
其中,所述数据领域标识用于表明所述结构化待过滤数据的类别,其中,所述类别例如且不限于:主机的CPU占用率、某网站的访问延迟时间等,所述数据领域标识可以采用数据或文字等进行标识,此外,任何能够被计算机识别的标识的方式都可以作为所述数据领域标识的实施方式,并以引用的方式包含于此。其中,所述键-值对格式的数据体记录所述结构化待过滤数据的键-值对格式(Key-Value格式)的详细信息,所述数据体例如(仅为举例,并不限于此):instanceId=AY123456,clusterId=Hangzhou,value=92,bizTime=1427041923825,unit=Percent,其中,每一等号左侧表示键(Key),每一等号右侧表示值(Value),等号左右两侧的信息组成键-值对格式的数据体,在此,所述数据体所包括的键-对可包括一个或多个,其键-对的数量并不受限制。
优选的,所述初始待过滤数据从海量数据中获取,所述步骤S11还包括:从分布式消息中间件中获取所述初始待过滤数据,通过分布式消息中间件,优选的,MetaQ(一种分布式消息中间件)是一款分布式、队列模型的消息中间件,具有以下特点:能够保证严格的消息顺序;提供丰富的消息拉取模式,高效的订阅者水平扩展能力,实时的消息订阅机制,亿级消息堆积能力,利用了MetaQ的集群数据Sharding(分片)的特性,图7示出根据本申请一优选的实施例提供的一种应用所述用于过滤数据设备的***的设备示意图,多个设备1形成多个功能完全相同的对等节点进行集群,并使使集群具备了负载均衡能力,满足在海量数据背景下的可扩展性,高可用性和性能要求。
优选的,所述步骤S11还包括:将所述结构化待过滤数据发送至阻塞队列;相应地,所述步骤S13包括:从所述阻塞队列中获取所述结构化待过滤数据。
在此,所述阻塞队列能够在队列满的时候阻塞进一步的入队操作直至所述阻塞队列的队列不满。具体地,所述步骤S11将所述结构化待过滤数据发送至阻塞队列,则所述结构化待过滤数据进入阻塞队列等待,所述步骤S13根据所述结构化待过滤数据的等待次序,依此从所述阻塞队列中获取所述结构化待过滤数据,当所述结构化待过滤数据被获取后即从所述阻塞队列删除。在此,所述阻塞队列中等待的结构化待过滤数据占满所述阻塞队列时,所述阻塞队列阻塞所述步骤S11发送过滤数据进入阻塞队列的操作,从而能够避免处理能力不足时,内存占用过大,从而在海量数据过滤过程中起到削峰填谷的作用,避免处理故障。
进一步地,在所述步骤S12中,加载过滤规则,其中,每一所述过滤规则包括:规则领域标识、规则名称及规则运算表达式,并建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表。
在此,所述规则领域标识用于表明所述过滤规则的类别,其中,所述的类别例如且不限于:主机的CPU占用率、某网站的访问延迟时间等,所述规则领域标识可以采用数据或文字等进行标识,此外,任何能够被计算机识别的标识的方式都可以作为所述数据领域标识的实施方式,并以引用的方式包含于此。优选地,所述规则领域标识的内容与所述数据领域标识的内容相同或基本相同,以便所述步骤S13根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则。其中,所述规则名称可以是全局唯一识别的规则名称,以便于过滤规则的管理维护。其中,规则运算表达式可以是数字、字符串形式组成的规则表达式,例如(仅为举例,并不限于此):instanceId='AY123456'||clusterId=hangzhou)&&value>80,规则运算表达式还可以包括非数字、字符串等原生类型组成的数据集合类型,例如(仅为举例,并不限于此):数组、哈希集合等。
进一步地,所述步骤S12包括:建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表,其中,所述第一规则列表用于为步骤S13获取过滤规则提供支持。
进一步地,在所述步骤S13中,获取所述结构化待过滤数据,并根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则。具体地,所述步骤S13根据所述数据领域标识从所述第一规则列表中获取具有与数据领域标识相对应的规则领域标识的若干过滤规则。
进一步地,在所述步骤S14中,利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算。
优选的,对于每一所述结构化待过滤数据,所述步骤S13根据其数据领域标识获取若干具有相应相同的规则领域标识的若干过滤规则,则步骤S14利用每一所获取的过滤规则对所述结构化待过滤数据进行一次匹配运算,所述步骤S14对若干所获取的过滤规则进行并行匹配计算,以充分利用多核中央处理器的性能,提高过滤效率。
具体地,所述步骤S14包括:对所获取的过滤规则进行规则编译,以建立可运行抽象语法树;将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算。
所述步骤S14实现了抽象语法树的功能,能够支持算术运算,字符串运算,关系运算,逻辑运算,正则表达式运算和集合运算等,并预留了扩展接口,可支持用户自定义的运算等。
进一步地,对所获取的过滤规则进行规则编译,以建立可运行抽象语法树(AST,Abstract Syntax Tree),在此,所述抽象语法树是是规则表达式的抽象语法结构的树状表现形式。
其中,对所获取的过滤规则进行规则编译,以建立可运行抽象语法树包括:用于对所获取的过滤规则的规则表达式进行分析,以转化为抽象语法树,具体地,可以采用Antlr(Another Tool for Language Recognition)来实现,能够将用户自定义的过滤规则表达式转化为抽象语法树;通过对规则表达式进行词法分析得到AST的Token流,Token流(令牌)包括分析识别出的字符串规则各种运算操作符,运算操作符包括但不限于例如:操作符、数字、字符串、变量、正则表达式等。
其中,运算操作符的示例代码与图1所示设备1的第四装置14转化的抽象语法树的运算操作符的示例代码的内容相同或基本相同,为简明起见,不再赘述,仅以引用的方式包含于此。
在具体的应用场景中,例如过滤规则的规则表达式为以下字符串形式的内容:
CPU>90/100and clusterId in[‘hz’,’qd’]and instanceId like‘AK47\w+’
通过编写Antlr词法分析规则,得到如图9所示的AST token流,并在***中的保存形式采用运算表达式后缀表示法来解决优先级问题,如图8所示,保存形式为:OP:操作符,Num:数字,Var:变量,Regex:正则表达式,StrArray:字符串数组。
接着,对所述抽象语法树进行预计算,以获得所述可运行抽象语法树。其中,所述预计算用于将AST token流中的常量表达式进行预先计算,以判断子表达式是否可计算,并通过预计算检查所述抽象语法树中每个元素是否为特殊类型,将其中的特殊类型的元素转换为程序语言数据结构元素,例如但不限于,将Like操作参数元素解释转化为正则表达式,将In操作参数元素解释转化为集合。通过预计算能够将AST中的常量表达式进行预先预算,从而加快运行时处理速度,并特殊类型的元素转化为程序语言数据结构元素,其中,所述特殊类型的元素是非数字、字符串组成的原生类型的元素,例如但不限于数据集合类型,例如但不限于数组、哈希map、哈希集合等。
接上例,在具体的场景中,对图9所示的所述抽象语法树进行一次预计算,计算结果为可运行抽象语法树(AST),其中,AST的token流如图10所示,其中,“0.9”、“Java.util.HashSet[‘hz’,‘qd’]”及“Java.util.regex.pattern‘AK47\W+’”为经过预计算的计算结果。
进行预计算的示例代码可以与图1所示第四装置14进行预计算的示例代码的内容相同或基本相同,为简明起见,不再赘述,仅以引用的方式包含于此。
具体地,对所述抽象语法树进行预计算包括:
根据所述抽象语法树创建运行堆栈,将所述抽象语法树中的元素传入所述运行堆栈中;当所述元素为操作符时,将操作符对应的两个操作数传出运行堆栈,计算以获得计算结果;当所述元素为特殊元素,则将所述特殊元素转换为程序语言数据结构元素后传入运行堆栈中。
进一步地,将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算的过程,利用若干所述可运行抽象语法树进行并行匹配计算运算的过程与一趟预计算相同,在正常情况下运行时AST中的所有表达式均为可计算表达式,所以最终的计算结果是一个确定的值,该值为布尔值FALSE或者TRUE,如果计算结果的布尔值为TRUE,则该结构化数据则判断为满足该过滤规则。
在此,所述利用若干所述可运行抽象语法树进行并行匹配计算通过利用所述可运行抽象语法树对所述数据进行匹配计算,例如,当本申请所述设备1被分配到了1000个过滤规则,则对于每一所述结构化待过滤数据,在所述设备1的线程池中对这1000个过滤规则并发执行匹配运算,以充分利用多核CPU的性能来并发计算过滤规则。
具体地,利用若干所述可运行抽象语法树进行并行匹配计算包括:将所述可运行抽象语法树的变量替换为所述数据体中的参数;利用所述运行堆栈对所述可运行抽象语法树进行匹配计算。
将所述可运行抽象语法树的变量替换为所述数据体中的参数的示例代码与所述图1中的设备1的第四装置14替换示例代码的内容相同或基本相同,为简明起见,不再赘述,仅以引用的方式包含于此。
对AST中的操作符节点进行相应的运算的示例代码与所述图1中的设备1的第四装置14进行相应的运算的示例代码的内容相同或基本相同,为简明起见,不再赘述,仅以引用的方式包含于此。
同样地,进行匹配计算与所述图1中的设备1的第四装置14进行匹配计算的示例代码的内容相同或基本相同,为简明起见,不再赘述,仅以引用的方式包含于此。
此后,所述方法还可以对该结构化待过滤数据进行进一步处理,例如报警等。
图5示出根据本申请一优选实施例提供的一种用于过滤数据的方法流程示意图,所述方法包括:步骤S11’、步骤S12’、步骤S13’、步骤S14’和步骤S15’。
所述步骤S11’、步骤S13’和步骤S14’的内容与图4所示的步骤S11、步骤S12和步骤S14的内容相同或基本相同,为简明起见,不再赘述,仅以引用的方式包含于此。
优选的,所述步骤S12’在引用图4所示的步骤S12的内容的基础上,所述步骤S12’还包括:建立根据所述过滤规则的规则名称为索引的所述过滤规则的第二规则列表;所述步骤S12’按照所述过滤规则的规则领域标识和所述过滤规则的规则名称为两个维度的索引建立第一规则列表和第二规则列表,其中,以所述过滤规则的规则领域标识为索引的第一规则列表供过滤数据时查找,以所述过滤规则的规则名称为索引的第二规则列表供过滤规则的管理和维护时查找。获得所述结构化待过滤数据时,根据数据领域标识匹配查找第一规则列表中的过滤规则,找到对应的过滤规则的列表,并遍历该过滤规则的列表,将格式化待过滤数据的数据体作为输入参数,对列表中的每一规则做并发匹配计算。所述第二规则列表便于对过滤规则进行管理。
在所述步骤S15’中,新增过滤规则、删除过滤规则或对已有的过滤规则进行修改编译。
具体地,所述步骤S15’包括以下至少任一项:将新增的过滤规则增加至所述第二规则列表中;从所述第二规则列表中删除相应的过滤规则;从所述第二规则列表中查找过滤规则,并对所查找的过滤规则进行修改编译,所述步骤S15’能够对过滤规则进行修改和增删操作,提高过滤规则的灵活性。
图6示出根据本申请另一优选实施例提供的一种用于过滤数据的方法流程图,其中,所述方法包括步骤S11”、步骤S12”、步骤S13”、步骤S14”、步骤S15”和步骤S16”。
其中,所述步骤S11”、步骤S12”、步骤S13”、步骤S14”和步骤S15”与图5所示的步骤S11’、步骤S12’、步骤S13’、步骤S14’和步骤S15”的内容相同或基本相同,为简明起见,不再赘述,并以引用的方式包含于此。
在此,每一所述过滤规则还包括:所述过滤规则所绑定的通知器的信息;在所述步骤S16’中,将满足相应所述过滤规则的结构化待过滤数据发送至该过滤规则所绑定的通知器,以备传输。在此,所述通知器是对预留通知接口的一组实现,可实现自定义的通知方式,比如使用不同的传输协议,不同的压缩算法,不同的序列化算法传输至下游***集群中不同的***中。其中,所述通知器可以在过滤规则创建时,即进行自由地组合装配绑定至任意过滤规则。
与现有技术相比,根据本申请一实施例所提供的用于数据过滤的设备及方法采用流式运算方式,不会在内存中缓存也不会固化数据,即每次获取初始待过滤数据后将所述初始待过滤数据转换为结构化待过滤数据,并利用相应的过滤规则实时进行匹配计算,随即得到过滤结果,解决海量流式数据的过滤的实时性问题;
进一步地,根据本申请一实施例所提供的用于数据过滤的设备及方法所述过滤数据的方法和设备支持算术运算,字符串运算,关系运算,逻辑运算,正则表达式运算,集合运算,且预留了扩展接口,并且所述过滤规则为简单的带变量的运算表达式形式,解决了过滤规则描述复杂、扩展不易及管理困难的问题;
此外,本申请根据本申请一实施例所提供的用于数据过滤的设备及方法为自主设计开发,成本相对较低,且在任意代码路径上都可以监控和调优。
经多次性能测试,得到的性能指标大致为在单台4核8G配置的虚拟机可以支撑50万过滤规则,处理流式数据TPS达到20000,过滤出有效数据TPS达到2000,***平均负载稳定在load1-4左右,CPU资源得到了有效利用。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种用于过滤数据的方法,其中,所述方法包括:
获取初始待过滤数据,并将所述初始待过滤数据转换为结构化待过滤数据,其中,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体;
加载过滤规则,其中,每一所述过滤规则包括规则领域标识、规则名称及规则运算表达式,并建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表;
获取所述结构化待过滤数据,并根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则;
利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算。
2.根据权利要求1所述的方法,其中,获取初始待过滤数据包括:
从分布式消息中间件中获取所述初始待过滤数据。
3.根据权利要求1或2所述的方法,其中,将所述初始待过滤数据转换为结构化待过滤数据还包括:
将所述结构化待过滤数据发送至阻塞队列;
获取所述结构化待过滤数据包括:
从所述阻塞队列中获取所述结构化待过滤数据。
4.根据权利要求1至3中任一项所述的方法,其中,利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算包括:
对所获取的过滤规则进行规则编译,以建立可运行抽象语法树;
将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算。
5.根据权利要求4所述的方法,其中,对所获取的过滤规则进行规则编译,以建立可运行抽象语法树包括:
对所获取的过滤规则的规则表达式进行分析,以转化为抽象语法树;
对所述抽象语法树进行预计算,以获得所述可运行抽象语法树;
其中,对所述抽象语法树进行一次预计算包括:
根据所述抽象语法树创建运行堆栈,将所述抽象语法树中的元素传入所述运行堆栈中;
当所述元素为操作符时,将所述操作符对应的两个操作数传出所述运行堆栈,计算以获得计算结果;
当所述元素为特殊元素,则将所述特殊元素转换为程序语言数据结构元素后传入所述运行堆栈中。
6.根据权利要求4或5所述的方法,其中,利用若干所述可运行抽象语法树进行并行匹配计算包括:
将所述可运行抽象语法树的变量替换为所述数据体中的参数;
利用所述运行堆栈对所述可运行抽象语法树进行匹配计算。
7.根据权利要求1至6中任一项所述的方法,其中,所述方法还包括:
新增过滤规则、删除过滤规则或对已有的过滤规则进行修改编译。
8.根据权利要求7所述的方法,其中,建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表还包括:
建立根据所述过滤规则的规则名称为索引的所述过滤规则的第二规则列表;
所述新增过滤规则、删除过滤规则或对已有的过滤规则进行修改编译包括至少以下任一项:
将新增的过滤规则增加至所述第二规则列表中;
从所述第二规则列表中删除相应的过滤规则;
从所述第二规则列表中查找过滤规则,并对所查找的过滤规则进行修改编译。
9.根据权利要求1至8中任一项所述的方法,其中,每一所述过滤规则还包括:所述过滤规则所绑定的通知器的信息;
所述方法还包括:
将满足相应所述过滤规则的结构化待过滤数据发送至该过滤规则所绑定的通知器,以备传输。
10.一种用于过滤数据的设备,其中,所述设备包括:
第一装置,用于获取初始待过滤数据,并将所述初始待过滤数据转换为结构化待过滤数据,其中,所述结构化待过滤数据包括数据领域标识和键-值对格式的数据体;
第二装置,用于加载过滤规则,其中,每一所述过滤规则包括规则领域标识、规则名称及规则运算表达式,并建立以所述过滤规则的领域标识为索引的所述过滤规则的第一规则列表;
第三装置,用于获取所述结构化待过滤数据,并根据所述数据领域标识从所述第一规则列表中获取具有与所述数据领域标识相对应的规则领域标识的若干过滤规则;
第四装置,用于利用所获取的若干过滤规则对所述结构化待过滤数据进行并行匹配运算。
11.根据权利要求10所述的设备,其中,所述第一装置包括:
从分布式消息中间件中获取所述初始待过滤数据的单元。
12.根据权利要求10或11所述的设备,其中,所述第一装置包括:
用于将所述结构化待过滤数据发送至阻塞队列的单元;
所述第三装置包括:
从所述阻塞队列中获取所述结构化待过滤数据的单元。
13.根据权利要求10至12中任一项所述的设备,其中,所述第四装置包括:
用于对所获取的过滤规则进行规则编译,以建立可运行抽象语法树的单元;
用于将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算的单元。
14.根据权利要求13所述的设备,其中,所述用于对所获取的过滤规则进行规则编译,以建立可运行抽象语法树的单元包括:
用于对所获取的过滤规则的规则表达式进行分析,以转化为抽象语法树的模块;
用于对所述抽象语法树进行预计算,以获得所述可运行抽象语法树的模块,其中,该模块用于:
根据所述抽象语法树创建运行堆栈,将所述抽象语法树中的元素传入所述运行堆栈中,
当所述元素为操作符时,将操作符对应的两个操作数传出所述运行堆栈,计算以获得计算结果,
用于当所述元素为特殊元素,则将所述特殊元素转换为程序语言数据结构元素后传入所述运行堆栈中。
15.根据权利要求13或14所述的设备,其中,所述用于将所述结构化待过滤数据的数据体作为输入参数,遍历若干所述可运行抽象语法树,并利用若干所述可运行抽象语法树进行并行匹配计算的单元包括:
用于将所述可运行抽象语法树的变量替换为所述数据体中的参数的模块;
用于利用所述运行堆栈对所述可运行抽象语法树进行匹配计算的模块。
16.根据权利要求10至15中任一项所述的设备,其中,所述设备还包括:
第五装置,用于新增过滤规则、删除过滤规则或对已有的过滤规则进行修改编译。
17.根据权利要求16所述的设备,其中,所述第二装置还包括:
建立根据所述过滤规则的规则名称为索引的所述过滤规则的第二规则列表的单元;
所述第五装置包括:
用于将新增的过滤规则增加至所述第二规则列表中的单元;
用于从所述第二规则列表中删除相应的过滤规则的单元;
用于从所述第二规则列表中查找过滤规则,并对所查找的过滤规则进行修改编译的单元。
18.根据权利要求10至17中任一项所述的设备,其中,每一所述过滤规则还包括:所述过滤规则所绑定的通知器的信息;
所述设备还包括:
第六装置,用于将满足相应所述过滤规则的结构化待过滤数据发送至该过滤规则所绑定的通知器,以备传输。
CN201510408180.1A 2015-07-13 2015-07-13 一种用于过滤数据的设备及方法 Active CN107038161B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510408180.1A CN107038161B (zh) 2015-07-13 2015-07-13 一种用于过滤数据的设备及方法
PCT/CN2016/088302 WO2017008650A1 (zh) 2015-07-13 2016-07-04 一种用于过滤数据的设备及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510408180.1A CN107038161B (zh) 2015-07-13 2015-07-13 一种用于过滤数据的设备及方法

Publications (2)

Publication Number Publication Date
CN107038161A true CN107038161A (zh) 2017-08-11
CN107038161B CN107038161B (zh) 2021-03-26

Family

ID=57757755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510408180.1A Active CN107038161B (zh) 2015-07-13 2015-07-13 一种用于过滤数据的设备及方法

Country Status (2)

Country Link
CN (1) CN107038161B (zh)
WO (1) WO2017008650A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766538A (zh) * 2017-10-28 2018-03-06 杭州安恒信息技术有限公司 基于java的数据过滤处理模块及同步、异步过滤方法
CN109189807A (zh) * 2018-09-13 2019-01-11 北京奇虎科技有限公司 一种报警数据的过滤方法和装置
WO2019061913A1 (zh) * 2017-09-29 2019-04-04 上海望友信息科技有限公司 数据类型的识别方法、***、计算机可读存储介质及设备
CN109672704A (zh) * 2017-10-16 2019-04-23 阿里巴巴集团控股有限公司 消息的处理方法、装置及电子设备
CN110287174A (zh) * 2019-05-09 2019-09-27 北京善义善美科技有限公司 一种数据过滤引擎及***和过滤方法
CN110427754A (zh) * 2019-08-12 2019-11-08 腾讯科技(深圳)有限公司 网络应用攻击检测方法、装置、设备及存储介质
CN111427915A (zh) * 2020-03-25 2020-07-17 京东数字科技控股有限公司 信息处理方法及装置、存储介质、电子设备
CN112068933A (zh) * 2020-09-02 2020-12-11 成都鱼泡科技有限公司 一种实时分布式数据监听方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565338B (zh) * 2020-11-10 2023-06-20 中国人民解放军战略支援部队信息工程大学 一种以太网报文捕获、过滤、存储、实时解析方法及***
CN115047835B (zh) * 2022-06-27 2024-06-04 中国核动力研究设计院 基于dcs***定期试验数据获取方法、装置、设备及介质
CN116383290B (zh) * 2023-03-22 2023-10-31 中国华能集团有限公司北京招标分公司 一种数据泛化解析方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953373A (zh) * 2006-09-19 2007-04-25 清华大学 一种开放式真实IPv6源地址过滤与验证方法
CN101127774A (zh) * 2007-09-19 2008-02-20 中兴通讯股份有限公司 初始过滤规则的优先级处理方法
CN101158948A (zh) * 2006-10-08 2008-04-09 中国科学院软件研究所 文本内容过滤方法和***
CN101282332A (zh) * 2008-05-22 2008-10-08 上海交通大学 面向网络安全告警关联的攻击图生成***
CN101304589A (zh) * 2008-04-14 2008-11-12 中国联合通信有限公司 利用短信网关发送垃圾短信的监控与过滤方法及***
CN101414929A (zh) * 2008-11-18 2009-04-22 华为技术有限公司 一种信息获取的方法、装置及***
CN101860531A (zh) * 2010-04-21 2010-10-13 北京星网锐捷网络技术有限公司 数据包过滤规则匹配方法及装置
CN102082728A (zh) * 2010-12-28 2011-06-01 北京锐安科技有限公司 一种网络审计***的过滤规则动态加载方法
CN102231134A (zh) * 2011-07-29 2011-11-02 哈尔滨工业大学 基于静态分析的冗余代码缺陷检测方法
CN102654864A (zh) * 2011-03-02 2012-09-05 华北计算机***工程研究所 一种面向实时数据库的独立透明型安全审计保护的方法
CN103116620A (zh) * 2013-01-29 2013-05-22 中国电力科学研究院 基于策略的非结构化数据安全过滤方法
CN103338155A (zh) * 2013-07-01 2013-10-02 安徽中新软件有限公司 一种数据包的高效过滤方法
CN103631966A (zh) * 2013-12-18 2014-03-12 用友软件股份有限公司 一种可配置的解析多值匹配字段的方法
CN103780460A (zh) * 2014-01-15 2014-05-07 珠海市佳讯实业有限公司 一种通过fpga实现tap设备硬件过滤的***
US20140282949A1 (en) * 2013-03-15 2014-09-18 Kaarya Llc System and Method for Account Access
CN104331278A (zh) * 2014-10-15 2015-02-04 南京航空航天大学 一种用于arinc661规范的指令过滤方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467561A (zh) * 2010-11-19 2012-05-23 金蝶软件(中国)有限公司 表格数据过滤方法及装置
US8949371B1 (en) * 2011-09-29 2015-02-03 Symantec Corporation Time and space efficient method and system for detecting structured data in free text
CN103034700B (zh) * 2012-12-05 2016-06-29 北京奇虎科技有限公司 富文本内容的处理方法及***
CN103618733B (zh) * 2013-12-06 2017-06-27 北京中创腾锐技术有限公司 一种应用于移动互联网的数据过滤***及方法
CN104317947B (zh) * 2014-11-07 2017-12-12 南京烽火星空通信发展有限公司 一种基于海量数据的实时结构化数据比对***

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953373A (zh) * 2006-09-19 2007-04-25 清华大学 一种开放式真实IPv6源地址过滤与验证方法
CN101158948A (zh) * 2006-10-08 2008-04-09 中国科学院软件研究所 文本内容过滤方法和***
CN101127774A (zh) * 2007-09-19 2008-02-20 中兴通讯股份有限公司 初始过滤规则的优先级处理方法
CN101304589A (zh) * 2008-04-14 2008-11-12 中国联合通信有限公司 利用短信网关发送垃圾短信的监控与过滤方法及***
CN101282332A (zh) * 2008-05-22 2008-10-08 上海交通大学 面向网络安全告警关联的攻击图生成***
CN101414929A (zh) * 2008-11-18 2009-04-22 华为技术有限公司 一种信息获取的方法、装置及***
CN101860531A (zh) * 2010-04-21 2010-10-13 北京星网锐捷网络技术有限公司 数据包过滤规则匹配方法及装置
CN102082728A (zh) * 2010-12-28 2011-06-01 北京锐安科技有限公司 一种网络审计***的过滤规则动态加载方法
CN102654864A (zh) * 2011-03-02 2012-09-05 华北计算机***工程研究所 一种面向实时数据库的独立透明型安全审计保护的方法
CN102231134A (zh) * 2011-07-29 2011-11-02 哈尔滨工业大学 基于静态分析的冗余代码缺陷检测方法
CN103116620A (zh) * 2013-01-29 2013-05-22 中国电力科学研究院 基于策略的非结构化数据安全过滤方法
US20140282949A1 (en) * 2013-03-15 2014-09-18 Kaarya Llc System and Method for Account Access
CN103338155A (zh) * 2013-07-01 2013-10-02 安徽中新软件有限公司 一种数据包的高效过滤方法
CN103631966A (zh) * 2013-12-18 2014-03-12 用友软件股份有限公司 一种可配置的解析多值匹配字段的方法
CN103780460A (zh) * 2014-01-15 2014-05-07 珠海市佳讯实业有限公司 一种通过fpga实现tap设备硬件过滤的***
CN104331278A (zh) * 2014-10-15 2015-02-04 南京航空航天大学 一种用于arinc661规范的指令过滤方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019061913A1 (zh) * 2017-09-29 2019-04-04 上海望友信息科技有限公司 数据类型的识别方法、***、计算机可读存储介质及设备
CN109672704A (zh) * 2017-10-16 2019-04-23 阿里巴巴集团控股有限公司 消息的处理方法、装置及电子设备
CN109672704B (zh) * 2017-10-16 2022-02-25 阿里巴巴集团控股有限公司 消息的处理方法、装置及电子设备
CN107766538A (zh) * 2017-10-28 2018-03-06 杭州安恒信息技术有限公司 基于java的数据过滤处理模块及同步、异步过滤方法
CN109189807A (zh) * 2018-09-13 2019-01-11 北京奇虎科技有限公司 一种报警数据的过滤方法和装置
CN110287174A (zh) * 2019-05-09 2019-09-27 北京善义善美科技有限公司 一种数据过滤引擎及***和过滤方法
CN110427754A (zh) * 2019-08-12 2019-11-08 腾讯科技(深圳)有限公司 网络应用攻击检测方法、装置、设备及存储介质
CN110427754B (zh) * 2019-08-12 2024-02-13 腾讯科技(深圳)有限公司 网络应用攻击检测方法、装置、设备及存储介质
CN111427915A (zh) * 2020-03-25 2020-07-17 京东数字科技控股有限公司 信息处理方法及装置、存储介质、电子设备
CN112068933A (zh) * 2020-09-02 2020-12-11 成都鱼泡科技有限公司 一种实时分布式数据监听方法

Also Published As

Publication number Publication date
WO2017008650A1 (zh) 2017-01-19
CN107038161B (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN107038161A (zh) 一种用于过滤数据的设备及方法
US20220335338A1 (en) Feature processing tradeoff management
US10318882B2 (en) Optimized training of linear machine learning models
US10339465B2 (en) Optimized decision tree based models
CN103678520B (zh) 一种基于云计算的多维区间查询方法及其***
US8959519B2 (en) Processing hierarchical data in a map-reduce framework
CN103003813B (zh) 记录的列状存储表示
EP2674875A1 (en) Method, controller, program and data storage system for performing reconciliation processing
Xia et al. A MapReduce‐Based Parallel Frequent Pattern Growth Algorithm for Spatiotemporal Association Analysis of Mobile Trajectory Big Data
EP3069271B1 (en) Dynamic stream computing topology
CN103793493A (zh) 一种处理车载终端海量数据的方法和***
CN110175184A (zh) 一种数据维度的下钻方法、***及电子设备
Dayarathna et al. Automatic optimization of stream programs via source program operator graph transformations
CN108062384A (zh) 数据检索的方法和装置
CN104092744A (zh) 基于记忆化服务簇映射目录的Web服务发现方法
CN109033173A (zh) 一种用于生成多维指标数据的数据处理方法及装置
Theeten et al. Chive: Bandwidth optimized continuous querying in distributed clouds
CN103324762A (zh) 基于Hadoop的索引创建方法及其索引方法
Gherissi et al. Object-centric predictive process monitoring
CN107276912B (zh) 存储器、报文处理方法及分布式存储***
Guan et al. dpSmart: a flexible group based recommendation framework for digital repository systems
CN113806466A (zh) 路径时间查询方法、装置、电子设备和可读存储介质
Wang et al. Speed up big data analytics by unveiling the storage distribution of sub-datasets
KR20180077830A (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
Wang et al. DataNet: A data distribution-aware method for sub-dataset analysis on distributed file systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant