WO2017157335A1

WO2017157335A1 - 报文识别的方法及装置

Info

Publication number: WO2017157335A1
Application number: PCT/CN2017/077126
Authority: WO
Inventors: 乔伟
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-03-18
Filing date: 2017-03-17
Publication date: 2017-09-21
Also published as: CN107204891A

Abstract

一种数据报文识别的方法，所述方法包括：解析接收到的数据报文，确定所述数据报文携带的规则包括IP地址；根据所述IP地址的前16位，确定所述IP地址存在于长度为16位的子网掩码对应的第一规则列表中时，识别到所述IP地址；以及根据所述IP地址的前16位，确定所述IP地址不存在于所述第一规则列表中时，根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别。

Description

报文识别的方法及装置

技术领域

本公开涉及通信领域，例如涉及一种报文识别的方法及装置。

背景技术

本申请发明人在实现本申请实施例技术方案的过程中，发现相关技术中存在如下技术问题。

在移动通信网关中，需要对数据报文中的因特网互联协议(Internet Protocol，IP)层、传输层以及应用层进行识别匹配，根据识别结果对应的策略对报文进行相应的处理。识别匹配以及相应的处理包括：识别数据报文四层以下IP层和传输层的内容五元组，其中，内容五元组包括：源IP地址、源端口、目的IP地址、目的端口以及协议类型；以及识别应用层的内容，根据应用层的净荷指纹识别应用的类型或内容。

针对内容五元组的识别，IP地址类规则识别主要通过类传统路由包算法，例如字典树(Trie)等。可以通过正则表达式匹配的方式对应用层进行识别。当网关处于指运营商定制的多种不同的计费规则，即海量规则，识别情景下时，相关的识别方法中，网关对报文的识别性能急剧下降，不能满足网关对报文识别效率方面的要求。因此，亟需一种海量规则下报文识别的方法，提高报文识别的效率，满足网关对报文识别效率方面的要求。

发明内容

本公开提供一种报文识别的方法及装置，能够在海量规则条件下，提高聚合IP地址的识别效率。

本公开提供一种海量规则下数据报文识别的方法，所述方法包括：

解析接收到的数据报文，确定所述数据报文携带的规则包括IP地址；

根据所述IP地址的前16位，确定所述IP地址存在于长度为16位的子网掩码对应的第一规则列表中时，识别到所述IP地址；以及

根据所述IP地址的前16位，确定所述IP地址不存在于所述第一规则列表中时，根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别。

上述方案中，所述方法还可以包括：

以所述IP地址的前16位为下标，在所述第一规则列表中查找所述IP地址，当查找到所述IP地址时，确定所述IP地址存在于所述第一规则列表中。

上述方案中，所述根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别可以包括：

以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第二规则列表，其中，所述第二规则列表为长度为17至23位的子网掩码对应的长度为7的规则列表；以及

以所述子网掩码的长度减去16得到的数值为下标，在所述第二规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第三规则列表，其中，所述第三规则列表为长度为24位的子网掩码的对应的长度为256的规则列表；以及

以所述子网掩码的第17至24位为下标，在所述第三规则列表的相应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

以所述IP地址的第17至24位为下标，在所述第三规则列表的对应位置处下挂第四规则列表，其中，所述第三规则列表根据所述IP地址的前16位确定，所述第四规则列表为长度为25至31位子网掩码对应的长度为7的规则列表；以及

以子网掩码的长度减去24得到的数值为下标，在所述第四规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

上述方案中，所述方法还可以包括：当确定所述数据报文携带的规则包括IP地址或域名时，通过第一哈希算法对所述规则进行哈希运算得到第一指纹，通过第二哈希算法对所述规则进行运算得到第二指纹，根据所述第一指纹和所述第二指纹识别所述规则。

上述方案中，所述根据所述第一指纹和所述第二指纹识别所述规则可以包括：

将所述第二指纹和第一哈希列表的第一指纹对应位置存储的值做比较，当一致时，识别到所述规则。

当所述第一哈希列表的第一指纹对应位置的值为非空，且第二哈希列表的第二指纹对应位置的值大于1时，遍历所述第一哈希列表的第一指纹对应位置处的链表，当所述链表中存在所述规则时，识别到所述规则。

本公开提供的一种数据报文识别的装置，所述装置包括：解析模块和识别模块；其中，

所述解析模块设置为解析接收到的数据报文，确定所述数据报文携带的规则包括IP地址；以及

所述识别模块设置为根据所述IP地址的前16位确定所述IP地址存在于长度为16位的子网掩码对应的第一规则列表中时，识别到所述IP地址；以及根据所述IP地址的前16位确定所述IP地址不存在于所述第一规则列表中时，根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别。

上述方案中，所述识别模块可以包括：第一识别模块，设置为以所述IP地址的前16位为下标，在所述第一规则列表中查找所述IP地址，当查找到所述IP地址时，确定所述IP地址存在于所述第一规则列表中。

上述方案中，所述识别模块可以包括：

第一识别模块，设置为以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第二规则列表，其中，所述第二规则列表为长度为17至23位的子网掩码对应的长度为7的规则列表；以及

以子网掩码的长度减去16得到的数值为下标，在所述第二规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

上述方案中，所述识别模块可以包括：第一识别模块，设置为以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第三规则列表，其中，所述第三规则列表为长度为24位的子网掩码对应的长度为256的规则列表；以及

以子网掩码的第17至24位为下标，在所述第三规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

上述方案中，所述识别模块还可以包括：第二识别模块，设置为以所述IP地址的第17至24位为下标，在所述第三规则列表的对应位置处下挂第四规则列表，其中，所述第三规则列表根据所述IP地址的前16位确定，所述第四规则列表为长度为25至31位的子网掩码对应的长度为7的规则列表；以及

上述方案中，所述装置还可以包括：规则模块，设置为当确定所述数据报文携带的规则包括IP地址或域名时，通过第一哈希算法对所述规则进行哈希运算得到第一指纹，通过第二哈希算法对所述规则进行运算得到第二指纹，根据所述第一指纹和所述第二指纹识别所述规则。

本公开还提供了一种非暂态计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述方法。

本公开还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述方法。

本公开的一种数据报文识别的方法，包括：解析接收到的数据报文，确定所述数据报文携带的规则包括IP地址；根据所述IP地址的前16位，确定所述IP地址存在于长度为16位的子网掩码对应的第一规则列表中时，识别到所述IP地址；以及根据所述IP地址的前16位，确定所述IP地址不存在于所述第一规则列表中时，根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别。采用本公开的技术方案，在海量规则场景下，根据数据报文中的IP地址前16位查找长度为16位的子网掩码对应的第一规则列表，并快速找到规则在第一规则列表的位置，确定所述IP地址是否存在于第一规则列表中，如果在第一规则列表中查找到所述IP地址则查找成功，识别到该IP地址，且认为该IP地址的子网掩码为16位，识别过程结束，如果所述IP地址不存在于第一规则列表中，在与子网掩码的长度关联的除第一规则列表之外的规则列表中，对IP地址进行识别，节省识别的时间和空间，提高数据报文识别的效率。

附图说明

图1为实施例一提供的第一种数据报文识别的方法的流程示意图；

图2为实施例一提供的第二种数据报文识别的方法的流程示意图；

图3为一实施例提供的子网掩码长度为16位时规则列表的结构示意图；

图4为一实施例提供的子网掩码长度为17-23位时规则列表的结构示意图；

图5为一实施例提供的子网掩码长度为24位时规则列表的结构示意图；

图6为一实施例提供的子网掩码长度为25-31位时规则列表的结构示意图；

图7为实施例三一种数据报文识别的方法的流程示意图；

图8为实施例四提供的第一种数据报文识别的装置的结构示意图；

图9为实施例四提供的第二种海量规则下数据报文识别的装置的结构示意图；

图10为实施例四提供的第三种海量规则下数据报文识别的装置的结构示意图；以及

图11为开实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面结合附图对技术方案的实施作详细描述。

实施例一

如图1所示，实施例一提供第一种数据报文识别的方法。

在步骤110中，解析接收到的数据报文，确定所述数据报文携带的规则包括IP地址。

在步骤120中，根据所述IP地址的前16位，确定所述IP地址存在于长度为16位的子网掩码对应的第一规则列表中时，识别到所述IP地址。

本公开中N位均指N位比特，N为非负整数。

其中，子网掩码的长度为子网掩码的二进制数据中比特“1”的个数，例如，子网掩码为255.255.0.0时，子网掩码的长度为16位(比特)；子网掩码为255.255.255.0时，子网掩码的长度为24位(比特)，子网掩码为255.255.128.0时，则子网掩码的长度为17位(比特)；以及子网掩码为255.255.255.128时，子网掩码的长度为25为(比特)。

在步骤130中，根据所述IP地址的前16位，确定所述IP地址不存在于所述第一规则列表中时，根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别。

当网关接收到数据报文时，可以对数据报文携带的多种规则进行识别，以匹配运营商定制的多种不同的计费规则，进行流量细化经营。

在步骤110中，当网关接收到数据报文时，接收到的数据报文可以包括多种规则，对接收到的数据报文进行解析，解析接收到的数据报文携带的规则，当数据报文携带的规则包括IP地址时，对所述IP地址进行识别。

在长度为16位的子网掩码对应的第一规则列表中对步骤110中解析出的IP地址进行初步匹配，例如，以所述IP地址的前16位为下标在第一规则列表中查找所述IP地址，当查找到所述IP地址时，确定所述IP地址存在于第一规则列表中，此时，识别到该IP地址，若确定所述IP地址不存在于第一规则列表中，则执行步骤130。其中，当在第一规则列表中查找到该IP地址时，表明该IP地址的子网掩码的长度为16位。第一规则列表为长度为65536的线性列表，第一规则列表的下标依次从0-65535。

在步骤130中，以该IP地址的前16位为下标在第一规则列表中未查找到该IP地址时，表明该IP地址不存在于第一规则列表中，未识别到该IP地址，此时，可以根据子网掩码的长度确定相应的规则列表，查找与子网掩码长度关联的除第一规则列表之外的线性列表，对该IP地址进行识别。

所述根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别可以包括：以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第二规则列表，其中，所述第二规则列表为长度为17至23的子网掩码对应的长度为7的规则列表；以及以所述子网掩码的长度减去16得到的数值为下标，在所述第二规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

所述根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别可以包括：以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第三规则列表，其中，所述第三规则列表为长度为24位的子网掩码对应的长度为256的规则列表；以及以所述子网掩码的第17至24位为下标，在所述第三规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

所述根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别可以包括：以所述IP地址的第17至24位为下标，在所述第三列表的对应位置处下挂第四规则列表，其中，第三规则列表根据所述IP地址的前16位确定，所述第四规则列表为与长度为25至31位的子网掩码对应的长度为7的规则列表；以及以所述子网掩码的长度减去24得到的数值为下标，在所述第四规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

在该方法中，在长度为16位的子网掩码对应的第一规则列表中查找该IP地址，当第一规则列表中存在该IP地址时，识别过程结束，识别到该IP地址，且该IP地址为与长度为16位的子网掩码对应的聚合IP地址。当第一规则列表中不存在该IP地址时，根据子网掩码的长度查找相应的线性列表。

如图2所示，本方法还可以包括步骤140。在步骤140中，当确定所述数据报文携带的规则包括IP地址或域名时，通过第一哈希算法对所述规则进行哈希运算得到第一指纹，通过第二哈希算法对所述规则进行运算得到第二指纹，根据所述第一指纹和所述第二指纹识别所述规则。

IP地址可以包括聚合IP地址和精确IP地址，除了对长度为16-31位的子网掩码的聚合IP地址进行识别外，还可以对不存在子网掩码或长度为32位的子网掩码的精确IP地址进行识别，接收到的数据报文的规则还可以包括域名。

其中，聚合IP地址可以是一个IP地址段，比如，聚合IP 192.168.1.0/24代表IP地址192.168.1.0～192.168.255.255。精确IP地址可以是一个IP地址，如192.168.1.1。

如图4所示，当接收到数据报文时，对接收到的数据报文携带的规则进行识别，规则可包括IP地址以及域名等规则，但经过步骤140未识别到接收到的规则时，可根据与长度为16位的子网掩码对应的第一规则列表、与长度为17-23位的子网掩码对应的第二规则列表、与长度为24位的子网掩码对应的第三规则列表以及与长度为25-31位的子网掩码对应的第四规则列表对该IP进行识别，当识别到时，确定该IP为聚合IP。

所述根据所述第一指纹和所述第二指纹识别所述规则可包括：

(1)将所述第二指纹和第一哈希列表的第一指纹对应位置存储的值做比较，当一致时，识别到所述规则。

在规则的配置时，接收到一规则，将该规则通过第一哈希算法做哈希运算得到第一指纹(即第一哈希值X1)，并通过第二哈希算法对该规则进行运算得到第二指纹(即第二哈希值X2)，将得到的第二指纹存储在第一哈希表中的第一指纹对应位置P1处，其中，P1为对X1通过模运算P1＝X1％L1得到，L1为第一哈希表H1的长度。在接收到数据报文，对该数据报文的精确IP地址或域名等规则进行识别时，通过第一哈希算法对该规则进行哈希运算后得到第一指纹X1，通过第二哈希算法对该规则进行运算后得到第二指纹X2，对X1做模运算P1＝X1％L1得到P1，以P1为下标在第一哈希表H1的P1位置处查找是否存在X2，当存在时，则查找成功，识别到该规则。

其中，对X1通过模运算P1＝X1％L1为对通过X1除以L1后取余，比如：5％2＝1。

在规则的配置时，存储(1)中的计算结果之后，接收到一规则，将该规则通过第一哈希算法做哈希运算得到第一指纹X1，则通过第二哈希算法对该规则进行运算得到第二指纹X2，此时，得到的该规则的第一指纹和第二指纹的值和(1)中的第一指纹X1和第二指纹X2的值是否相同，不同时，根据(1)中的配置方法存储计算结果，当相同时，产生哈希冲突。此时，分别对第一指纹和第二指纹做模运算P1＝X1％L1，P2＝X2％L2，置第一哈希列表中的P1位置处为非空，且在P1位置处下挂链表L，将经哈希运算后得到的指纹的值相同的规则存储在该链表L中，同时，将第二哈希列表中的P2位置处的值加1，为2。当首次计算得到P2时，将该位置处置1。当对接收到的规则进行识别时，通过第一哈希算法对该规则进行哈希运算得到第一指纹X1，通过第二哈希算法对该规则进行运算得到第二指纹X2，当第一哈希列表的第一指纹X1对应位置P1位置处为非空，且第二哈希列表的第二指纹对应位置P2位置处大于1时，遍历第一哈希列表H1的P1位置处下挂的链表L，当在L中查找到该规则时，则匹配到该规则，表明识别到该规则。

当不存在两个以上的规则的第一指纹的值相同时，不存在哈希冲突，则可在第一哈希列表H1中查找该规则；当存在两个以上的规则的第一指纹的值相同时，此时，发生哈希冲突，则在第一哈希列表H1的第一指纹对应位置处下挂的链表中查找该规则，其中，第二哈希列表H2中的第二指纹对应位置处的数值为冲突的记录次数。

本实施例中的第一哈希算法和第二哈希算法，可以采用MurmurHash64A以及murmurHash3_32等哈希算法。可选的，第一哈希算法和第二哈希算法可选取冲突率低的哈希算法。

采用本实施例提供的方法，对IP层和传输层的五元组识别性能分析如下：

95％的报文1次查找获得结果，5％的报文2-7次获得结果(取中值4)，若采用类似Trie的路由器算法，由于32位的IP地址的每个比特(bit)都可以参与运算，即使按照子网掩码最少有16位比特计算，平均比较次数至少16次。由此可以得出算法性能的对比为(95％*1+5％*4＝0.97)∶16，也就是说提升15 倍，考虑到Trie算法的运算开销大(更多的内存寻址，更多的比较和判断)，真实场景下的识别性能与类似Trie的识别性能之间的差距在50-100倍之间。对第应用层的识别和相关正则表达式等算法进行对比，哈希指纹的计算比正则判断统一资源定位符(Uniform Resource Locator，URL)快10倍以上。两个指纹相同而应用层内容不同的误码率10^-8，三个误码率为10^-23，其中，^为幂符号。

除了通过精确的五元组与域名规则在概率上可以识别95％-98％的报文，还可以对2-5％的报文进行识别。而对这2-5％的报文进行识别，是因为配置的规则库中存在聚合IP地址，这种情况下，使用本实施例提供的数据报文的识别方法，通过聚合IP的规则识别报文中的五元组时，能够提高识别的效率。

实施例二

在该实施例中，以IP地址为192.168.1.1为例，通过该IP地址的子网掩码的长度分别为16位、17位、24位和25位为例，对本实施例中的聚合IP地址识别的过程进行详细说明。在识别之前，对规则的配置过程及存储过程进行说明，对192.168.1.1进行存储时，根据该IP地址携带的子网掩码的长度进行存储。

当子网掩码长度为16位时，创建如图3所示的第一规则列表List16，其中第一规则列表为线性列表，比如数组列表，大小为2^16即65536，第i位置处存储的数据可表示为List16[i]，0≤i≤65535。

比如，规则为IP地址192.168.1.1，子网掩码为255.255.0.0即子网掩码长度为16位，将IP地址和子网掩码做位与运算192.168.1.1&255.255.0.0得到该IP地址的前十六位192.168.0.0，将十进制数192168转换为二进制数1100000010101000，将该二进制数转换为整数49320，以49320作为下标存储在第一规则列表的List16[49320]位置处，即存储在以IP地址的前16位为下标的第一规则列表的位置处List16[IP前16位]，这个位置的指向链表的指针为空。这个位置就存储着192.168.1.1掩码长度为16位比特的这条规则。

当规则的子网掩码长度为24位，如图4所示，将该规则定位到List16[IP前16位]位置处，创建第三规则列表List24，即在该位置处下挂第三规则列表，取该规则IP地址的前面第三个8位作为List24表的下标，List24的长度为2^8即256。

比如：规则为IP地址192.168.1.1，子网掩码为255.255.255.0，子网掩码长度为24。通过IP地址的前16位二进制192.168转化为下标确定在List16数组中的位置即49320处，可表示为List16[49320]，在List16[49320]位置处下挂一个链表，即第三规则列表List24，将IP地址的第三个8位，即第17～24位比特与255的二进制数据做位与运算得到1，则在确定List24[1]的位置处存储该规则，也就是将子网掩码长度为24的IP地址存储在第三规则列表List24的List24[1]位置处。

当规则的子网掩码长度为17～23位时，如图5所示，将该规则定位到List16[IP前16位]元素节点处，在List16下面创建List17_23线性表，该线性表大小为7，元素下标为1-7(分别对应掩码17-23)，每个元素可以包括指向一个单向链表存放对应子网掩码的规则。

比如，规则为IP地址192.168.1.1，子网掩码为255.255.128.0，则子网掩码长度为17位。通过前16位二进制192.168转化为下标49320，确定List16[49320]即List16的49320处，在该位置处下挂第二规则列表List17_23线性表，如图5所示，线性表的大小为7，这样通过17-16＝1，将该IP地址存储到1位置处，即存储在List17_23[1]。

多个规则可能同时需要存储在List16[49320]处下挂的第二规则列表的1-7的每一个位置处，可在第二规则列表的List17_23的1-7的每个位置处下挂规则列表，如果再接收一条规则根据前16位确定位于List16[49320]处，且同时子网掩码长度也是17位，则在1的位置处继续***规则。如图5所示，如果子网掩码长度为19位，则19-16＝3，在3处下挂链表***规则。

当规则的子网掩码长度为25～31位时，如图6所示，在第三规则列表List24下创建长度为7的第四规则列表List25_31，下标为1-7(分别对应掩码25-31)，每个元素可以包括指向一个单向链表存放对应子网掩码的规则。

比如：规则为IP地址192.168.1.1，子网掩码为255.255.255.128，子网掩码长度为25位。通过前16位二进制192.168转化为下标确定在List16数组中的位置即49320处，通过192.168.1.1中第3个8位二级制为1，确定在第一规则列表List16[49320]位置处下挂的第三规则列表List24的List24[1]，在List24[1]位置处下挂的第四规则列表List25_31查找所述规则。在List24[1]处下挂的List25_31的下标为17(分别对应子网掩码2531)。

通过25-24＝1，确定在List25_31[1]处存储该规则。同子网掩码长度为17-23位的情况相同，多个规则可能同时需要第四规则列表的1-7的每一个位置处，因此，可在List25_31[1]位置处下挂列表存储这样的规则。

数据报文识别过程如下。

当接收到数据报文时，接收到的IP地址为192.168.1.1，在第一规则列表的List16[49320]位置处查找192.168.1.1，当查找到该IP地址时，则识别到192.168.1.1，且该IP地址的子网掩码为255.255.0.0，长度为16位。当未识别到该IP地址时，通过子网掩码的长度查找相应的规则列表。

查找子网掩码长度为17-23位对应的第二规则列表，当查找List16[49320]位置处下挂的第二规则列表List17_23，且在List17_23[1]位置处或List17_23[1]位置处下挂的线性列表中查找到该IP时，识别到该IP地址，且子网掩码255.255.128.0，子网掩码长度为17位。

查找子网掩码长度为24位的第三规则列表，当查找List16[49320]位置处下挂的第三规则列表List24，且在List24[1]位置处查找到该IP时，识别到该IP地址，且子网掩码为255.255.255.0，子网掩码长度为24位。

查找子网掩码长度为25-31位对应的第四规则列表，确定List16[49320]位置处下挂的第三规则列表List24[1]，当查找List24[1]位置处下挂的第四规则列表List25_31，且在List25_31[1]位置处或List25_31[1]位置处下挂的线性列表查找到该IP时，识别到该IP地址，且当子网掩码为255.255.255.128时，子网掩码长度为25位。

本方案中，可以依次按照第一规则列表、第三规则列表、第二规则列表以及第四规则列表的顺序进行查找，也可以依次按照第一规则列表、第二规则列表、第三规则列表以及第四规则列表的顺序进行查找，以第一规则列表为首。

IP地址是192.168.1.1为十进制的表示，当表示为二进制时为11000000.10101000.00000001.00000001，前十六位1100000010101000转换为十进制为49320，第3个8位即17-24位为1。

实施例三

在实施例三中，对本实施例提供的包括一级域名、二级域名或五元组规则等规则的识别过程进行说明。其中，规则以域名为www.***.com，采用的哈希算法为MurmurHash64A，murmurHash3_32为例进行说明。

在规则的识别之前，可以进行规则的配置，如图7所示，配置过程如下。

在步骤710中，通过第一哈希算法对规则进行哈希运算得到第一指纹，通过第二哈希算法对规则进行运算得到第二指纹。

对规则www.***.com分别通过哈希(hash)算法C1、C2进行哈希运算分别得到一个4字节的哈希值即指纹，每条规则可以存储两个指纹共计8字节。C1为第一哈希算法，可以采用MurmurHash64A，C2为第二哈希算法，可以采用murmurHash3_32。

在步骤720中，未存在哈希冲突时，将第一指纹存储在第一哈希指纹对应第一哈希列表的对应位置处。

将规则通过第一哈希算法C1MurmurHash64A计算得到无符号64位整数第一指纹X1，通过第二哈希算法C2murmurHash3_32对规则进行计算得到无符号32位整数第二指纹X2，将第一指纹X1作模运算P1＝X1％L1得到P1，将第二指纹X2存储到第一哈希表H1中，存储的位置为H1[P1]位置处。L1为第一哈希表H1的长度。

在步骤730中，存在哈希冲突图时，存储在第一哈希列表的第一指纹对应位置处下挂的链表中。

如果发生哈希冲突时，则在H1[P1]位置处下挂链表L来解决冲突。将规则存储在链表L中，并且将第二指纹X2作模运算P2＝X2％L2得到P2，将第二哈希表H2的H2[P2]的值加1。L1为第一哈希表H1的长度。

在本方案中，当不存在哈希冲突时，将规则通过第一哈希算法C1哈希算法计算得到X1，通过对X1取余P1＝X1％L1确定位置P1，其中，L1为哈希表H1长度；通过第二哈希算法C2对规则进行计算得到无符号32位整数X2，将X2存储到哈希表H1的位置P1处。存在哈希冲突时，将规则通过C1计算得到X1，通过对X1取余P＝X1％L1得到P1，将H1的P1位置处下挂链表L；将规则经过C2计算得到X2，将X2经过模运算(取余运算)得到P2，将H2的P2的位位置加1。如果有冲突记录为冲突次数比如冲突2次，就是2；存储到哈希表H1中的位置P1处。如果存在哈希冲突则通过在该位置下挂链表L解决。置存储的值代表规则是否存在。

H2的P2位置处存储的值可以代表规则是否存在。当首次计算得到P2时，将该位置处置1，如果有冲突则该位置处的记录为冲突次数比如冲突2次，该位置处置2；冲突次数5次，该位置处置5。

识别过程如下。

当数据报文经过网关，解析数据报文提取网关超文本传输协议(Hyper Text Transport Protocol，HTTP)层的主机域名，利用上述两级哈希算法即第一哈希算法和第二哈希算法，分别得到X1和X2，查找第一哈希表H1中P1位置的32位整数即(4个字节)，当H1的P1位置获取的32位整数为X2时，判断记录存在，识别到www.***.com，说明该报文匹配到此规则。如果从H1的P1位置获取的32位整数不为X2时，判断是否为空，如果不为空，且H2中的P2位置处是够大于1，当大于1时，遍历H1中P位置处下挂的链表L，当查找到www.***.com时，识别到www.***.com，说明该报文匹配到此规则。

实施例四

为实现上述方法，本实施例四提供一种海量规则下数据报文识别的装置，如图8所示，所述装置包括：解析模块801和识别模块802。

解析模块801设置为解析接收到的数据报文，确定所述数据报文携带的规则包括IP地址。

识别模块802设置为根据所述IP地址的前16位，确定所述IP地址存在于长度为16位的子网掩码对应的第一规则列表中时，识别到所述IP地址；以及根据所述IP地址的前16位，确定所述IP地址不存在于所述第一规则列表中时，根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别。

如图9所示，识别模块802可以包括第一识别模块8021。第一识别模块8021设置为以所述IP地址的前16位为下标，在所述第一规则列表中查找所述IP地址，当查找到所述IP地址时，确定所述IP地址存在于第一规则列表中。

如图9所示，识别模块802可以包括第一识别模块8021，第一识别模块8021设置为以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第二规则列表，其中，所述第二规则列表为长度为17至23位的子网掩码对应的长度为7的规则列表；以及以子网掩码的长度减去16得到的数值为下标，在所述第二规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

参见图9，识别模块802可以包括第一识别模块8021，第一识别模块8021设置为以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第三规则列表，其中，所述第三规则列表为长度为24位的子网掩码对应的长度为256的规则列表；以及以所述子网掩码的第17至24位为下标，在所述第三规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

参见图10，识别模块802可以包括第一识别模块8021和第二识别模块8022。其中，第一识别模块8021设置为以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第三规则列表，其中，所述第三规则列表为长度为24位的子网掩码对应的长度为256的规则列表；以及以所述子网掩码的第17至24位为下标，在所述第三规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

第二识别模块8022设置为以所述IP地址的第17至24位为下标，在所述第三规则列表的对应位置处下挂第四规则列表，其中，第三规则列表根据所述IP地址的前16位确定，所述第四规则列表为长度为25至31位的子网掩码对应的长度为7的规则列表；以及以子网掩码的长度减去24得到的数值为下标，在所述第四规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。

所述装置还可以包括规则模块803。规则模块803设置为当确定所述数据报文携带的规则包括IP地址或域名时，通过第一哈希算法对所述规则进行哈希运算得到第一指纹，通过第二哈希算法对所述规则进行运算得到第二指纹，根据所述第一指纹和所述第二指纹识别所述规则。

其中，所述根据所述第一指纹和所述第二指纹识别所述规则可以包括：

本公开还提供了一种非暂态计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述任一方法。

本公开还提供了一种电子设备的硬件结构示意图。参见图11，该电子设备包括：

至少一个处理器(processor)100，图11中以一个处理器100为例；和存储器(memory)101，还可以包括通信接口(Communications Interface)102和总线103。其中，处理器100、通信接口102、存储器101可以通过总线103完成相互间的通信。通信接口102可以设置为传输信息。处理器100可以调用存储器101中的逻辑指令，以执行上述方法。

此外，上述的存储器101中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器101作为一种计算机可读存储介质，可存储软件程序、计算机可执行程序，如本公开中方法对应的程序指令或模块。处理器100通过运行存储在存储器101中的软件程序、指令或模块，从而执行功能应用以及数据处理。

存储器101可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器101可以包括高速随机存取存储器，还可以包括非易失性存储器。

本公开所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

本公开的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质。

工业实用性

本公开提供的报文识别的方法及装置，能够在海量规则条件下，提高聚合IP地址的识别效率。

Claims

一种数据报文识别的方法，包括：

解析接收到的数据报文，确定所述数据报文携带的规则包括IP地址；

根据所述IP地址的前16位，确定所述IP地址存在于长度为16位的子网掩码对应的第一规则列表中时，识别到所述IP地址；以及

根据所述IP地址的前16位，确定所述IP地址不存在于所述第一规则列表中时，根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别。
根据权利要求1所述的方法，还包括：

以所述IP地址的前16位为下标，在所述第一规则列表中查找所述IP地址，当查找到所述IP地址时，确定所述IP地址存在于所述第一规则列表中。
根据权利要求1所述的方法，其中，所述根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别包括：

以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第二规则列表，其中，所述第二规则列表为长度为17至23位的子网掩码对应的长度为7的规则列表；以及

以所述子网掩码的长度减去16得到的数值为下标，在所述第二规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。
根据权利要求1所述的方法，其中，所述根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别包括：

以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第三规则列表，其中，所述第三规则列表为长度为24位的子网掩码对应的长度为256的规则列表；以及

以所述子网掩码的第17至24位为下标，在所述第三规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。
根据权利要求4所述的方法，其中，所述根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别包括：

以所述IP地址的第17至24位为下标，在所述第三规则列表的对应位置处下挂第四规则列表，其中，所述第三规则列表根据所述IP地址的前16位确定，所述第四规则列表为子网掩码的长度为25至31对应的长度为7的规则列表；以及

以子网掩码的长度减去24得到的数值为下标，在所述第四规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。
根据权利要求1所述的方法，还包括：当确定所述数据报文携带的规则包括IP地址或域名时，通过第一哈希算法对所述规则进行哈希运算得到第一指纹，通过第二哈希算法对所述规则进行运算得到第二指纹，根据所述第一指纹和所述第二指纹识别所述规则。
根据权利要求6所述的方法，其中，所述根据所述第一指纹和所述第二指纹识别所述规则包括：

将所述第二指纹和第一哈希列表的第一指纹对应位置存储的值做比较，当一致时，识别到所述规则。
根据权利要求7所述的方法，其中，所述根据所述第一指纹和所述第二指纹识别所述规则包括：

当所述第一哈希列表的第一指纹对应位置的值为非空，且第二哈希列表的第二指纹对应位置的值大于1时，遍历所述第一哈希列表的第一指纹对应位置处的链表，当所述链表中存在所述规则时，识别到所述规则。
一种数据报文识别的装置，包括：解析模块和识别模块；其中，

所述解析模块设置为解析接收到的数据报文，确定所述数据报文携带的规则包括IP地址；以及

所述识别模块设置为根据所述IP地址的前16位，确定所述IP地址存在于长度为16位的子网掩码对应的第一规则列表中时，识别到所述IP地址；以及根据所述IP地址的前16位确定所述IP地址不存在于所述第一规则列表中时，根据所述子网掩码的长度确定相应的规则列表，对所述IP地址进行识别。
根据权利要求9所述的装置，其中，所述识别模块包括：第一识别模块，设置为以所述IP地址的前16位为下标，在所述第一规则列表中查找所述IP地址，当查找到所述IP地址时，确定所述IP地址存在于所述第一规则列表中。
根据权利要求9所述的装置，其中，所述识别模块包括：

第一识别模块，设置为以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第二规则列表，其中，所述第二规则列表为长度为17至23位的子网掩码对应的长度为7的规则列表；以及

以所述子网掩码的长度减去16得到的数值为下标，在所述第二规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。
根据权利要求9所述的装置，其中，所述识别模块包括：第一识别模块，设置为以所述IP地址的前16位为下标，在所述第一规则列表的对应位置处下挂第三规则列表，其中，所述第三规则列表为长度为24位的子网掩码对应的长度为256的规则列表；以及

以子网掩码的第17至24位为下标，在所述第三规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。
根据权利要求12所述的装置，其中，所述识别模块还包括：第二识别模块，设置为以所述IP地址的第17至24位为下标，在所述第三规则列表的对应位置处下挂第四规则列表，其中，所述第三规则列表根据所述IP地址的前16 位确定，所述第四规则列表为长度为25至31位的子网掩码对应的长度为7的规则列表；以及

以子网掩码的长度减去24得到的数值为下标，在所述第四规则列表的对应位置处查找所述IP地址，当查找到所述IP地址时，识别到所述IP地址。
根据权利要求9所述的装置，还包括：规则模块，设置为当确定所述数据报文携带的规则包括IP地址或域名时，通过第一哈希算法对所述规则进行哈希运算得到第一指纹，通过第二哈希算法对所述规则进行运算得到第二指纹，根据所述第一指纹和所述第二指纹识别所述规则。
根据权利要求14所述的装置，其中，所述根据所述第一指纹和所述第二指纹识别所述规则包括：

将所述第二指纹和第一哈希列表的第一指纹对应位置存储的值做比较，当一致时，识别到所述规则。
根据权利要求14所述的装置，其中，所述根据所述第一指纹和所述第二指纹识别所述规则包括：

当所述第一哈希列表的第一指纹对应位置的值为非空，且第二哈希列表的第二指纹对应位置的值大于1时，遍历所述第一哈希列表的第一指纹对应位置处的链表，当所述链表中存在所述规则时，识别到所述规则。
一种非暂态计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行权利要求1-8中任一项的方法。