CN112769813B

CN112769813B - 一种多前缀掩码五元组的匹配方法

Info

Publication number: CN112769813B
Application number: CN202011644568.9A
Authority: CN
Inventors: 李兴华
Original assignee: Shenzhen Dongsheng Data Co ltd
Current assignee: Shenzhen Dongsheng Data Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-10-21
Anticipated expiration: 2040-12-31
Also published as: CN112769813A

Abstract

本发明公开了一种多前缀掩码五元组的匹配方法，通过对规则进行特定的格式转换，使得每条规则转换为一条正则表达式，将正则表达式集合进行编译得到特定数据表，将该数据表导入特定的正则匹配引擎进行匹配即可得到任意多个匹配结果。实现在通用处理器平台上，进行大量的前缀掩码规则匹配，可一次得到足够多的匹配成功的结果，且取得较高性能，可应用于商业应用场景。

Description

一种多前缀掩码五元组的匹配方法

技术领域

本发明涉及网络通信技术领域，特别涉及一种多前缀掩码五元组的匹配方法。。

背景技术

多前缀掩码五元组的匹配指对一个待匹配五元组在一个规则集合中进行匹配，得到一个或多个匹配成功的结果。该规则集合可能包含数万、数十万甚至更多个规则。在一些应用场景中，需要对报文的五元组进行规则集合匹配，根据匹配结果进行相应处理。通常多前缀掩码五元组的匹配存在以下三种实现方法：

方法1、使用TCAM(ternary content addressable memory)芯片来存储规则集并对输入流量进行查找匹配。

方法2、使用通用处理器对规则集中每条规则进行逐条前缀掩码匹配，找到所有结果。

方法3、使用通用处理器对规则集中每个规则的各个元组进行拆分，每个元组进行前缀掩码匹配，匹配到每个中间结果可能对应到多条规则。最终得到5个元组匹配结果集合，整合该5个集合，即可得到最终的匹配成功的所有规则。

但是，上述方法存在如下缺陷：

方法1中，该方法必须依赖于支持TCAM的FPGA或专用ASIC芯片才能使用。匹配速度最快。但硬件需要定制、软件的灵活性存在限制，且通常条目数有限，如果需要得到任意多个匹配的结果，需要任意多个TCAM block才能实现。

方法2中，存在处理性能低等问题。该方法逐条匹配，在大多数情况下，需要的时间与规则数量成倍数增加。

方法3中，对每个元组进行单独整合处理后，降低了前缀掩码匹配的次数，但通常每个元组得到的结果集合数量很大，对结果进行整合存在很大的运算量。

发明内容

本发明的主要目的是提出一种多前缀掩码五元组的匹配方法，旨在实现在通用处理器平台上，进行大量的前缀掩码规则匹配，可一次得到足够多的匹配成功的结果，且取得较高性能，可应用于商业应用场景。

为实现上述目的，本发明提出的一种多前缀掩码五元组的匹配方法，包括如下步骤：

S1：对前缀掩码五元组规则集合内的其中一组前缀掩码五元组规则进行进制转换和逻辑处理，并得到对应的五个子正则表达式；

S2：将步骤S1中得到的五个子正则表达式分别按照一定的顺序进行拼接，并进行整理优化，得到一个规则的正则表达式；

S3：重复步骤S1和S2，求出前缀掩码五元组规则集合内，各组前缀掩码五元组规则分别对应的正则表达式，共同构成前缀掩码五元组规则集合对应的新的正则表达式集合；

S4：对上述正则表达式集合在特定的正则引擎内进行编译，得到特定数据表；

S5：将上述的特定数据表导入步骤S4中的正则引擎内；

S6：将待匹配五元组的五元分别按照步骤S1中的进制转换规则进行转换，得到五个子字符串，并将所述五个子字符串按照步骤S2中的顺序进行拼接；

S7：将步骤S6中拼接后的字符串放入步骤5中的正则引擎中进行正则匹配，得到0个或多个匹配结果，完成该五元组的匹配；

S8：重复步骤S6和S7，对多组待匹配五元组进行匹配。

优选地，五元组包括源IP、目的IP、源端口、目的端口和协议号。

优选地，步骤S1中，进制转换包括16进制或8进制或2进制，可支持IP版本包括IPv4或IPv6。

优选地，步骤S2中，拼接顺序设置为‘源IP+目的IP+源端口+目的端口+协议号’格式。

优选地，进一步将拼接顺序设置为‘^源IP+目的IP+源端口+目的端口+协议号’格式。

优选地，所述正则引擎包括Hyperscan或Lightgrep。

与现有技术相比，本发明的有益效果是：在通用处理器平台上（如X86、ARM等平台），进行大量的前缀掩码规则匹配，可一次得到足够多的匹配成功的结果，且取得较高性能，可应用于商业应用场景。通过对规则进行特定的格式转换，使得每条规则转换为一条正则表达式，将正则表达式集合进行编译得到特定数据表，将该数据表导入特定的正则匹配引擎进行匹配即可得到任意多个匹配结果。对专用硬件依赖性较低，对关键转换细节进行优化，生成的正则表达式较为简单，可使用其他平台精简正则引擎，具有较高可移植性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明匹配方法流程图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

本实施例提出的一种多前缀掩码五元组的匹配方法，包括如下步骤：

S5：将上述的特定数据表导入步骤S4中的正则引擎内；

S8：重复步骤S6和S7，对多组待匹配五元组进行匹配。

进一步地，五元组包括源IP、目的IP、源端口、目的端口和协议号。

进一步地，步骤S1中，进制转换包括16进制或8进制或2进制，可支持IP版本包括IPv4或IPv6。

以下，通过具体实施例进行说明：

如前缀掩码五元组规则集合内的某一前缀掩码五元组规则记为规则1，规则1的五元组包括源IP、目的IP、源端口、目的端口、协议号。

其中，源IP预期为192.168.0.0，源IP前缀为16；目的IP预期为110.120.208.0，目的IP前缀为19；源端口预期为65280，源端口前缀为8；目的端口预期为80，目的端口前缀为16；协议号预期为6，协议号前缀为8；

然后，对规则1进行进制转换，此处，以目的IP为例，目的IP预期转换16进制为‘6E78D000’,为该规则可匹配目的IP范围的最大值; 目的IP预期与目的IP前缀进行‘与’运算再转换为16进制为‘FFFFC000’，为该规则可匹配目的IP最小值，将最小值和最大值转换为正则表达式，其中一种写法可为‘6E78[CD][0-9A-F][0-9A-F]{2}’；根据该原理，规则1得到的五个子正则表达式为：

源IP子正则表达式：C0A8[0-9A-F] {4}

目的IP子正则表达式：6E78[CD][0-9A-F][0-9A-F]{2}

源端口子正则表达式：FF[0-9A-F]{2}

目的端口子正则表达式：0050

协议号子正则表达式：06；

将规则一对应得到的五个子正则表达式按照一定顺序进行拼接，并进行整理优化，具体地，本实施例中，拼接顺序设置为‘源IP+目的IP+源端口+目的端口+协议号’格式。从而得到拼接后的正则表达式为‘C0A8[0-9A-F] {4}6E78[CD][0-9A-F][0-9A-F]{2}FF[0-9A-F]{2}005006’，进一步对拼接顺序进行优化为‘^源IP+目的IP+源端口+目的端口+协议号’格式，得到‘^C0A8[0-9A-F]{4}6E78[CD][0-9A-F][0-9A-F]{2}FF[0-9A-F]{2}005006’，该正则表达式的字符串长度为16字节（8+8+4+4+2）。

上述正则表达式部分连续出现[0-9A-F]可进行重新整理优化。修改为‘^C0A8[0-9A-F]{4}6E78[CD][0-9A-F]{3}FF[0-9A-F]{2}005006’；

以上，为前缀掩码五元组规则集合内的某一前缀掩码五元组规则的转换过程，重复上述步骤，即可对前缀掩码五元组规则集合内的所有前缀掩码五元组规则进行转换，从而得到新的正则表达式集合。

进一步地，通过现有技术中常用的正则引擎，如Hyperscan、Lightgrep等支持多正则匹配的引擎，对上述正则表达式集合进行编译，得到特征数据表后，再导入该正则引擎中。

最后，对待匹配的五元组进行匹配，匹配时，将五元组根据上述转换规则，选择对应的进制转换规则，本实施例中，采用16进制，从而得到一字符串，并再次通过上述的拼接顺序进行拼接，得到16字节的字符串。将该字符串放入上述正则引擎中进行匹配即可得到对应的匹配结果。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多前缀掩码五元组的匹配方法，其特征在于，包括如下步骤：

S5：将上述的特定数据表导入步骤S4中的正则引擎内；

S8：重复步骤S6和S7，对多组待匹配五元组进行匹配。

2.如权利要求1所述的多前缀掩码五元组的匹配方法，其特征在于，五元组包括源IP、目的IP、源端口、目的端口和协议号。

3.如权利要求2所述的多前缀掩码五元组的匹配方法，其特征在于，步骤S1中，进制转换包括16进制或8进制或2进制，可支持IP版本包括IPv4或IPv6。

4.如权利要求2所述的多前缀掩码五元组的匹配方法，其特征在于，步骤S2中，拼接顺序设置为‘源IP+目的IP+源端口+目的端口+协议号’格式。

5.如权利要求4所述的多前缀掩码五元组的匹配方法，其特征在于，进一步将拼接顺序设置为‘^源IP+目的IP+源端口+目的端口+协议号’格式。

6.如权利要求2所述的多前缀掩码五元组的匹配方法，其特征在于，所述正则引擎包括Hyperscan或Lightgrep。