CN101714166B

CN101714166B - 一种大规模多关键词精确匹配算法的性能测试方法及***

Info

Publication number: CN101714166B
Application number: CN2009102368178A
Authority: CN
Inventors: 薛一波; 李雪
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2009-10-30
Filing date: 2009-10-30
Publication date: 2011-12-28
Anticipated expiration: 2029-10-30
Also published as: CN101714166A

Abstract

本发明提出了一种大规模多关键词精确匹配算法的性能测试***，所述***包括如下模块：测试数据产生模块，具体包括：随机关键词生成子模块，随机文本数据生成子模块；待匹配文本生成子模块；关键词集合预处理性能测试模块，具体包括：匹配算法预处理接口调用子模块，测试信息生成子模块。本发明解决了不同网络信息安全设备之间的接口标准和互操作访问问题，实现他们之间的协同工作和联动，最终实现各网络信息安全设备的无缝集成。它能够对各种多关键词精确匹配算法的性能指标进行测试。

Description

一种大规模多关键词精确匹配算法的性能测试方法及***

技术领域

本发明涉及计算机数据处理性能测试领域，尤其涉及一种大规模多关键词精确匹配算法的性能测试方法。

背景技术

多关键词匹配又称为多模式匹配，是计算机科学领域中的基本问题之一。其需要解决的问题就是快速而准确地判断待测文本或者网络内容中所有出现任意模式的位置。多模式匹配技术的应用领域非常广泛，除了已经得到广泛应用的防火墙、入侵检测与防御、病毒检测和网络内容过滤等网络安全领域，还扩展到其它学科和领域，例如信息管理、网络搜索引擎和生物信息学当中的基因序列检测等。因此，研究和发展多关键词匹配及其相关技术具有很强的学术和实际意义，被相关的学术和业界所关注。

多关键词匹配技术已经存在许多经典算法，基于跳跃的Wu-Manber算法、基于有限状态自动机思想的Aho-Corasick算法和AC-BM算法、基于因子模式的SBOM算法等等。近些年来，随着应用要求对关键词数量地不断增加和对处理速度地不断加快，又提出了很多改进的多关键词匹配算法。如此多的多关键词匹配算法，其性能评价标准都有那些呢？多关键词匹配算法一般包括两个阶段：预处理阶段和搜索阶段。各匹配算法的预处理阶段一般是要完成对关键词集合的预处理；由于各匹配算法不同，其预处理阶段要做的预处理工作有所不同，如Wu-Manber算法在预处理阶段主要就是建立三个表：跳跃表、哈希表和前缀表；而Aho-Corasick算法则是建立有限状态自动机。预处理阶段只需要执行一次，一旦关键词集合确定下来就不再改变。因此，在预处理阶段主要的性能评价标准是预处理时间和存储空间占用量。算法的搜索阶段主要完成对输入文本或实时数据的匹配工作，搜索阶段对输入文本或实时数据的处理速度，也就是算法的匹配速度是这个阶段的主要评价标准。那么总的来说，多关键词匹配算法的性能评价标准主要就是匹配速度、预处理时间和存储空间占用情况。

在已有的多关键字精确匹配算法中，有的算法具有很好的匹配速度，但随着关键词的增加，存储空间消耗呈指数级增长，如Aho-Corasick算法；有的算法虽然消耗的存储空间能够接受，预处理时间却较长，随着关键词的不断增加，预处理时间达到无法接受的程度，如SBOM算法；有的匹配算法预处理时间、空间占用和匹配速度都不错，但是存在着算法的最坏情况，当最坏情况出现时算法匹配速度非常低，如Wu-Manber算法。上面只是定性地对各算法进行大概的评价，没有一个定量的性能评价和比较。针对不同的应用，对匹配算法时间和空间特性的要求有所不同，总体上来看，绝大多数应用都会综合考虑匹配算法的时间和空间特性，选择最合适的匹配算法。那么在为应用选择匹配算法或考察新的改进算法时，如何比较各匹配算法的性能？又如何评价一个算法是否优于其他各匹配算法？到目前为止还没有一个统一的测试评价方法。

发明内容

(一)要解决的技术问题

本发明的目的是要克服现有技术的不足，提供一种统一的大规模多关键词精确匹配算法的性能测试方法及***，它能够对各种多关键词精确匹配算法的性能指标进行测试。

(二)技术方案

针对以上问题，本发明提出的了一种大规模多关键词精确匹配算法的性能测试***，所述***包括如下模块：

F1：测试数据产生模块，具体包括：

F11：随机关键词生成子模块，用于生成随机关键词集合；

F12：随机文本数据生成子模块，用于生成随机文本数据；

F13：待匹配文本生成子模块，用于将关键词集合***到文本数据中，产生待匹配文本；

F2：关键词集合预处理性能测试模块，具体包括：

F21：匹配算法预处理接口调用子模块，用于通过通用的匹配算法调用接口，调用匹配算法的预处理接口；

F22：测试信息生成子模块，用于以关键词集合作为输入文件，执行并生成关键词相应的数据结构，统计算法处理结果的关键信息，所述关键信息包括预处理时间和关键词生成的数据结构占用的最大内存信息；

其中，该***还包括如下模块：

F3：匹配算法的搜索性能测试模块，具体包括：

F31：匹配算法搜索程序接口调用子模块，用于通过通用的匹配算法调用接口，调用待测匹配算法的搜索程序接口；

F32：搜索程序扫描子模块，用于以经模块F2处理结束后生成的数据结构作为输入，执行待测匹配算法的搜索程序，对待匹配文本文件进行扫描；

F33：测试信息生成子模块，用于记录待匹配文本中出现的关键词编号和在文本中出现的位置，将这些信息保存到输出结果文件中，同时记录搜索时间和搜索过程中使用的最大内存信息；

其中，该***还包括如下模块：

F4：验证搜索结果和生成统计报告模块，具体包括：

统计结果生成子模块，用于经模块F2和F3的处理之后，把预期结果数据信息和实际测试结果数据作为输入进行比较，验证算法的正确性，然后经模块F2和F3的处理之后产生的性能信息一起作为输入，进行统计并输出测试结果。。

(三)有益效果

采用本发明的大规模多关键词精确匹配算法的性能测试***，可以产生并使用具有不同特性的关键词集合和待匹配文本数据来对不同的大规模多关键词匹配算法作测试，由于本发明建立了一个统一的架构平台，所有多关键字精确匹配算法都可以通过本平台来测试，这样便可以公平合理的对各种算法、设计的性能、效率做定量的评价。

附图说明

图1是本发明中的评估测试平台框架图；

图2是本发明中测试数据产生模块原理结构图；

图3是本发明中匹配算法测试模块模型图。

具体实施方式

本发明提出的一种大规模多关键词精确匹配算法的性能测试方法及***，结合附图和实施例说明如下。以下实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由各权利要求限定。

如图1所示为通用多关键字精确匹配算法评估测试平台框架图，测评平台由两部分组成，测试数据产生部分和匹配算法性能测试部分。测试数据产生部分由三个子模块组成，执行生成关键词集合及待匹配文本数据的功能；匹配算法性能测试部分包括三个子模块和一个通用的匹配算法调用接口。

本发明是用于文本数据或网络内容分析的统一多关键词匹配算法的评估测试平台。具体实施包括两个步骤，第一步是测试数据产生阶段，包括关键词集合和待匹配文本数据的产生。第二步是匹配算法测试阶段，通过通用接口执行匹配算法，测试匹配算法的预处理阶段和搜索阶段的性能指标，根据统计出来的性能指标得到各匹配算法实际的性能情况。下面详细说明本发明各阶段的具体内容。

首先是测试数据产生阶段，该模块原理结构图如图2所示，由三个子模块组成：关键词集生成器、随机文本生成器、测试文本合成器。关键词集生成器可根据输入的配置文件内容生成具有指定特性的关键词集合；随机文本生成器生成随机的文本信息，作为最终待匹配文本数据产生数据源；测试文本合成器根据输入的配置文件、关键词集合和随机文本生成具有某种特性的待匹配文本数据。

该阶段的详细步骤如下：

1、读入配置信息文件configure，此配置文件中可设置的参数及其含义如表1所示；

表1生成数据源的可配置参数说明表

配置项	类型	配置项说明
			randseed	整数	随机种子，产生随机数用到的整数值，默认为100
sigmasize	整数	字符集大小
			beginASC	整数	起始字符ASCII码(sigmasize+beginASC必须小于或等于256)
Function	整数	Function＝0则同时生成关键词集合和待匹配文本(相当于功能1和2的集成)Function＝1则随机生成关键词集合，文件名由patternfile参数指定；Function＝2则按patternfile读入关键词，生成待匹配文本，文本的文件名由textfile参数给出；Function＝3将已有的关键词集合文件转换为本平台统一的二进制格式
			textsizeM	整数	文本大小(单位为MB)
patternnum	整数	关键词数目(单位为个)
			patterntype	整数	patterntype＝1关键词集合中的关键词长度可变，以下五个参数起作用patterntype＝0关键词结合中的关键词长度相同，为Lminlen指定的长度
patternratio	整数	高频字节比率(％)
			Hminlen	整数	高频关键词的最小长度
Hmaxlen	整数	高频关键词的最大长度
			Lminlen	整数	其他关键词的最小长度
Lmaxlen	整数	其他关键词的最大长度
			matchtimes	整数	每个关键词在文本中的匹配次数
matchfre	整数	发生匹配的关键词数以上两个参数配置表示20％匹配，80％将matchfre改为80，300％将matchfre改为100，同时matchtimes改为3
			textfile	文本	Function＝0和2时为输出文本的存放路径，Function＝1无用
patternfile	文本	Function＝0、1和3时为输出关键词集合的存放路径，Function＝2时为欲读入关键词集合的存放路径
			verifyfile	文本	Function＝0或2时为输出待验证数据信息，Function＝1时无用

2、分析配置信息文件，根据配置文件中功能Function项设置的不同值产生不同的数据源，包括关键词集合、待匹配文本或两者同时产生。

2.1功能Function项为1，则应生成关键词集合，关键词集合的特性由配置文件中的相应项给定，生成的关键词集合保存为二进制文件，文件名是配置文件中patternfile参数给定的，默认为pattern.cfg。

(1)配置文件configure中关于产生关键词集合的参数有：字符集大小sigmasize、关键词数目patternnum、关键词是否为变长patterntype、高频关键词最小长度Hminlen和最大长度Hmaxlen、高频关键词比率patternratio、其它关键词最小长度Lminlen和最大长度Lmaxlen等。下面详细说明根据configure中关于关键词集合的各参数产生关键词集合的方法：

(1.1)判断patterntype参数项，此参数表示关键词集合中各关键词长度是否为变长，如果patterntype为0，那么产生的关键词长度相同，读入参数Lminlen的值作为关键词的长度，转入步骤(1.3)；如果patterntype为1，说明要求产生的关键词长度不等，转入(1.2)继续读取参数；

(1.2)读取Hminlen和Hmaxlen参数，分别为高频关键词的最小和最大长度，读取patternratio参数，是高频关键词在所有关键词中占有的百分比；读取Lminlen和Lmaxlen参数，为除高频关键词以外的其它关键词的最小和对大长度，然后进入下一步；

(1.3)读取sigmasize参数取得产生关键词的字符集大小(应该为1～256)，读取patternnum参数取得需要产生的关键词数目；

(1.4)根据上面读取的各参数，及patternfile参数给出的关键词集合文件名称作为关键词集生成器模块的输入，产生随机的关键词集合文件，关键词格式为“关键词编号+tab+关键词+换行符”。

产生关键词集合配置的参数示例如表2所示：

表2产生关键词集合能够配置的参数示例表

配置项	数值	配置项说明
			randseed	100	随机种子，设为默认值
sigmasize	256	字符集大小，设为256
			beginASC	0	起始字符ASCII码(sigmasize+beginASC必须小于或等于256)
Function	1	Function＝1，随机生成pattern
			patternnum	50000	关键词数目50000个
patterntype	1	关键词长度可变
			patternratio	80	高频字节比率(80％)，高频长度关键词占所有关键词总数的80％
Hminlen	8	高频关键词的最小长度8bytes
			Hmaxlen	16	高频关键词的最火长度16bytes
Lminlen	4	其他关键词的最小长度4bytes
			Lmaxlen	100	其他关键词的最大长度100bytes
patternfile	Pattern.cfg	输出关键词集合的存放文件名为pattern.cfg

(2)如果有已存在的关键词集合文件，如病毒库文件或垃圾邮件库文件，可以把配置文件中的功能Function项设为3，将关键词集合文件转换为本平台统一的二进制格式文件，文件名由patternfile参数指定。

2.2功能Function项为2，则应该生成待匹配文本，待匹配文本要根据patternfile参数指定的关键词集合文件和其它配置项产生，生成的为二进制文件，文件名由textfile参数项指定，默认为text.dat。

(1)配置文件configure中关于产生待匹配文本的参数有：字符集大小sigmasize、产生的文本大小textsizeM、关键词在文本中的匹配次数matchtimes、发生匹配的关键词占总关键词的百分比matchfre、读入关键词数目patternnum及关键词集合文件名patternfile、输出的验证文件名verifyfile等。下面详细说明根据configure中关于待匹配文本的各参数产生文本的方法：

(1.1)读取patternfile参数取得关键词集合文件名，并打开此文件；

(1.2)读取matchfre参数，按参数给定的百分比值和关键词总数计算出要抽取的关键词数。如果matchfre＜100，直接利用matchfre和patternnum计算，例如关键词数目patternnum＝5000，matchfre＝20(发生匹配的关键词数占总关键词数目的20％)，那么要从关键词集合中随机抽取1000条，用于下一步***待匹配文本中；如果matchfre＝100，那么表示要将关键词全部***到文本中，这时需要再读取匹配次数matchtimes参数，即每条关键词都要***到文本中，***次数为matchtimes次。例如matchtimes＝2，就是每条关键词***文本随机位置2次；

(1.3)读取sigmasize参数取得产生关键词的字符集大小(应该为1～256)，读取textsizeM参数得到产生的文本大小；

(1.4)由随机文本生成器模块产生随机的文本，作为产生最后带匹配文本的数据源，随机文本大小是设定文本大小textsizeM与要***关键词总大小的差；

(1.5)由测试文本合成器模块按计算出来的抽取数量，随机抽取关键词，然后在执行完(1.4)后产生的文本中随机地选取位置***关键词，***后记录***的关键词编号及其***的位置，所有关键词编号和***位置都记录在verifyfile参数指定的文件名中(默认值为toverify.dat)，以便与匹配算法输出的匹配结果对比，验证匹配算法的正确性。

产生待匹配文本的配置参数示例如表3所示：

表3产生待匹配文本能够配置的参数示例表

配置项	数值	配置项说明
			randseed	100	随机种子，设为默认值
sigmasize	256	字符集大小
			beginASC	0	起始字符ASCII码(sigmasize+beginASC必须小于或等于256)
Function	0	Function＝0则同时生成关键词集合与待匹配文本
			patternnum	50000	关键词数目50000个
textsizeM	64	文本大小(64MB)
			matchtimes	1	随机抽取的每个关键词匹配1次
matchfre	20	发生匹配的关键词数占总关键词数目的20％
			textfile	Text.dat	输出文本的存放文件名为text.dat
patternfile	Pattern.cfg	读入的关键词集合文件名为pattern.cfg
			verifyfile	Toverify.dat	输出的验证文件名为toverify.dat

2.3功能Function项为0，同时产生关键词集合与待匹配文本，关键词集合与待匹配文本的文件名分别由patternfile和textfile参数给定，二者的特性由配置文件其它参数项给出。

本步骤的执行过程就是分别执行2.1和2.2两步，最后输出关键词集合文件、待匹配文本文件和正确性验证文件。

匹配算法性能测试阶段，匹配算法性能测试模块模型图如图3所示，包括三个子模块和一个通用的匹配算法调用接口：关键词集合预处理性能测试子模块、匹配算法搜索阶段性能测试子模块、测试结果验证和数据统计子模块和可替换匹配算法的通用接口。测试主要包括两个阶段：匹配算法预处理阶段的评测和匹配算法搜索阶段的评测。详细的步骤说明如下：

1、取得需要评测的多关键词精确匹配算法、关键词集合文件和待匹配文本文件。

2、匹配算法预处理部分的评测

(2.1)关键词集合预处理性能测试子模块通过通用的匹配算法调用接口，调用匹配算法的预处理接口；

(2.2)以关键词集合作为输入文件，执行需要评测的多模式匹配算法预处理阶段；

(2.3)匹配算法预处理阶段执行完成后，生成关键词相应的数据结构，并统计算法处理结果的关键信息，这些信息包括预处理时间，关键词生成的数据结构占用的最大内存信息。

3、匹配算法的搜索阶段的评测

(3.1)匹配算法搜索阶段性能测试子模块通过通用的匹配算法调用接口，调用待测匹配算法的搜索程序接口；

(3.2)以预处理阶段执行结束后生成的数据结构作为输入，执行待测匹配算法的搜索程序，对待匹配文本文件进行扫描；

(3.3)记录待匹配文本中出现的关键词编号和在文本中出现的位置，将这些信息保存到输出结果文件中，同时记录搜索时间和搜索过程中使用的最大内存等信息。

4、验证搜索结果和生成统计报告阶段

在完成预处理阶段和搜索阶段之后，测试结果验证和统计模块把预期结果数据信息(verifyfile参数指定的文件)和实际测试结果数据作为输入进行比较，验证算法的正确性，然后把匹配算法预处理模块和匹配算法搜索模块产生的性能信息一起作为输入，由测试结果验证和统计模块进行统计并输出评测报告。报告的内容如表4所示。

5、如果分别对多个多关键词精确匹配算法进行评估测试，并分别形成了如表4的评测报告，

表4本测评平台能够产生的性能指标报告示例

可以将各评测报告输入到测试结果验证和统计模块，产生各性能指标(包括匹配算法预处理时间、存储空间占用和匹配速度)的横向比较报告。

Claims

1.一种大规模多关键词精确匹配算法的性能测试方法，其特征在于，所述方法包括如下步骤：

S1：测试数据产生步骤，具体包括：

S11：生成随机关键词集合；

S12：生成随机文本数据；

S13：将关键词集合***到文本数据中，产生待匹配文本；

S2：关键词集合预处理性能测试步骤，具体包括：

S21：通过通用的匹配算法调用接口，调用匹配算法的预处理接口；

S22：以关键词集合作为输入文件，执行并生成关键词相应的数据结构，统计算法处理结果的关键信息，所述关键信息包括预处理时间和关键词生成的数据结构占用的最大内存信息；

所述方法还包括如下步骤：

S3：匹配算法的搜索性能测试步骤，具体包括：

S31：通用的匹配算法调用接口，调用待测匹配算法的搜索程序接口；

S32：以步骤S2执行结束后生成的数据结构作为输入，执行待测匹配算法的搜索程序，对待匹配文本文件进行扫描；

S33：记录待匹配文本中出现的关键词编号和在文本中出现的位置，将这些信息保存到输出结果文件中，同时记录搜索时间和搜索过程中使用的最大内存信息；

所述方法还包括如下步骤：

S4：验证搜索结果和生成统计报告步骤，具体包括：

在完成步骤S2和S3之后，把预期结果数据信息和实际测试结果数据作为输入进行比较，验证算法的正确性，然后把步骤S2和S3产生的性能信息一起作为输入，进行统计并输出测试结果。

2.一种大规模多关键词精确匹配算法的性能测试***，其特征在于，所述***包括如下模块：