CN108446076A

CN108446076A - 基于网络摘要数据的索引创建方法和***

Info

Publication number: CN108446076A
Application number: CN201810091639.3A
Authority: CN
Inventors: 朱世文; 唐俊杰; 蔡晓华; 杨光辉; 贺晓麟; 王涛; 周育樑
Original assignee: SHANGHAI NETIS TECHNOLOGIES Co Ltd
Current assignee: SHANGHAI NETIS TECHNOLOGIES Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-08-24

Abstract

本发明提供了一种基于网络摘要数据的索引创建方法和***，包括：根据从网口抓取的实时数据流生成数据块；根据所述数据块中的关键字段生成摘要数据；根据所述摘要数据生成索引数据。本发明能够解决原始数据无法及时写入磁盘，产生数据丢失的问题；降低创建索引过程的磁盘IO冲突，提高***吞吐量，能在大数据流量下将实时数据写入磁盘；解决数据索引创建不及时的问题，只需读取少量摘要数据，降低创建索引时的磁盘开销，CPU开销；伸缩性好：***负载低时，能够利用多个CPU并行创建索引；负载高时，降低并行度，让出资源给其他模块；可以将网口实时抓包数据存储到磁盘，并且较为实时地生成对应的倒排索引数据。

Description

基于网络摘要数据的索引创建方法和***

技术领域

本发明属于性能监控领域,具体为一种基于网络摘要数据的索引创建方法和***。

背景技术

在性能监控领域，需要从网口实时抓取客户端与服务器端通讯的数据并保存到磁盘，形成原数据。同时，在性能监控的运行过程中，用户存在从保存到磁盘的数据中查询、提取部分数据的需求。

为满足用户查询、提取部分数据的需求，需要对原数据进行索引。

如果使用普通数据库，那么***带索引字段的数据时，需要经历“连接数据库”、“分析请求语句”、“***数据记录”、“***索引”、“关闭连接”等过程，整个流程耗时较长。在网口实时数据处理的应用中，遇到10Gbps以上的高流量时，数据无法及时写入数据库，在内存缓存用完的情况下不得不丢弃数据，造成数据丢失。

如果采用类似于搜索引擎的倒排索引创建方式，即先从网口抓包储存原始数据，后续从磁盘读取原始数据并创建倒排索引，会有读取原始数据的磁盘读取开销。这与实时抓包储存原始数据产生磁盘IO冲突，可导致数据写入磁盘不及时产生数据丢失的问题。而且会有解压缩分析原始数据的额外CPU开销，创建索引的实时性不高。

专利文献CN104361009A提供了一种基于倒排索引的实时索引方法，包括以下步骤：对数据进行预处理；更新内存索引库；更新磁盘索引库。该专利文献必须要有内存索引库的支持，

专利文献CN103294731A提供了一种实时索引建立、实时搜索方法及装置，用以提高实时搜索的精确性，并降低***资源的开销。其中，实时索引建立方法包括：获取源数据；在建立索引的开始时间点到达时，为所述源数据中、开始时间点之前的数据建立全量索引，将所述全量索引存储在磁盘存储器中；并为所述源数据中、开始时间点之后的数据建立内存索引，将所述内存索引存储在内存中；以及实时搜索方法，包括：接收搜索请求，所述搜索请求中携带有搜索条件；以及从所述全量索引和内存索引中，分别查找满足所述搜索条件的记录；将全量索引和内存索引中满足所述搜索条件的记录合并后返回。该专利文献直接建立内存索引，不涉及数据摘要。该专利文献的使用场景与本发明的使用场景不同。该专利文献适合使用在搜索引擎对文档做全文索引。如果该专利文献使用在本发明中的实时抓包储存并建立索引的场景中，缺点是消耗内存过大，导致程序无法正常运行，或者必须丢弃部分数据。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于网络摘要数据的索引创建方法和***。

根据本发明提供的一种基于网络摘要数据的索引创建方法，包括：

原始数据处理步骤：根据从网口抓取的实时数据流生成数据块；

数据摘要生成步骤：根据所述数据块中的关键字段生成摘要数据；

索引数据生成步骤：根据所述摘要数据生成索引数据。

优选地，所述原始数据处理步骤，包括：

连续抓取切分步骤：将从网口连续抓取的数据包流按时间段切分；

数据块获取步骤：将按时间段切分得到的数据包流切分为多个数据块，每个数据块中包含若干个数据包，并记录所述数据块，所述记录是指在内存中记录数据块编号和数据块长度，供后续生成摘要数据使用；

原始数据写入磁盘步骤：将所述数据块作为原始数据实时写入磁盘。

优选地，所述数据摘要生成步骤，包括：

数据摘要获取步骤：从所述数据块中提取一个或多个需要做索引的关键字段以及数据块编号作为摘要数据；

摘要数据写入步骤：将摘要数据写入内存的高速缓冲区和/或磁盘。

优选地，所述索引数据生成步骤，包括：

摘要数据读取步骤：从高速缓冲区和/或磁盘读出摘要数据，根据摘要数据生成倒排索引数据储存在磁盘中。

优选地，还包括：

摘要数据删除步骤：将所述索引数据写入磁盘后，删除所述摘要数据。

根据本发明提供的一种基于网络摘要数据的索引创建***，包括：

原始数据处理装置：根据从网口抓取的实时数据流生成数据块；

数据摘要生成装置：根据所述数据块中的关键字段生成摘要数据；

索引数据生成装置：根据所述摘要数据生成索引数据。

优选地，所述原始数据处理装置，包括：

连续抓取切分装置：将从网口连续抓取的数据包流按时间段切分；

数据块获取装置：将按时间段切分得到的数据包流切分为多个数据块，每个数据块中包含若干个数据包，并记录所述数据块，所述记录是指在内存中记录数据块编号和数据块长度，供后续生成摘要数据使用；

原始数据写入磁盘装置：将所述数据块作为原始数据实时写入磁盘。

优选地，所述数据摘要生成装置，包括：

数据摘要获取装置：从所述数据块中提取一个或多个需要做索引的关键字段以及数据块编号作为摘要数据；

摘要数据写入装置：将摘要数据写入内存的高速缓冲区和/或磁盘。

优选地，所述索引数据生成装置，包括：

摘要数据读取装置：从高速缓冲区和/或磁盘读出摘要数据，根据摘要数据生成倒排索引数据储存在磁盘中。

优选地，还包括：

摘要数据删除装置：将所述索引数据写入磁盘后，删除所述摘要数据。

与现有技术相比，本发明具有如下的有益效果：

1)解决原始数据无法及时写入磁盘，产生数据丢失的问题；

2)降低创建索引过程的磁盘IO冲突，提高***吞吐量，能在大数据流量下将实时数据写入磁盘；

3)解决数据索引创建不及时的问题，只需读取少量摘要数据，降低创建索引时的磁盘开销，CPU开销；

4)伸缩性好：***负载低时，能够利用多个CPU并行创建索引；负载高时，降低并行度，让出资源给其他模块。

5)通过本发明可以将网口实时抓包数据存储到磁盘，并且较为实时地生成对应的倒排索引数据。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的基于网络摘要数据的索引创建方法的步骤流程图。

图2为本发明提供的基于网络摘要数据的索引创建***的数据流向图。

图3为本发明提供的基于网络摘要数据的索引创建***中原始数据处理模块的原理示意图。

图4为本发明提供的基于网络摘要数据的索引创建***中数据摘要模块的原理示意图。

图5为本发明提供的基于网络摘要数据的索引创建***中索引生成模块的原理示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，根据本发明提供的基于网络摘要数据的索引创建方法，包括：

原始数据处理步骤：根据从网口抓取的实时数据流生成数据块；本发明并不是将实时数据流先存入磁盘，然后再从磁盘读取原始数据来生成索引，而是直接从网口抓取实时数据流，一方面作为原始数据存入磁盘，另一方面根据从网络抓取的实时数据流直接进行处理以得到摘要数据；

数据摘要生成步骤：根据提取自所述数据块中的关键字段，生成摘要数据；

索引数据生成步骤：根据所述摘要数据生成倒排索引数据；

下面对本发明进行更为具体的说明。

所述原始数据处理步骤，包括：

连续抓取切分步骤：将从网口连续抓取的数据包流按时间段切分，例如，将从当前时刻开始的15秒内。

数据块获取步骤：将按时间段切分得到的数据包流切分为多个数据块，每个数据块中包含若干个数据包，并将数据块压缩后进行储存，例如储存为磁盘上的数据文件20170325113530.dat，并记录所述数据块的数据块编号和数据块长度，供后续生成摘要数据使用；

其中，对数据块长度进行记录是为了使用索引查询数据时，找到数据块编号在原始数据文件中的偏移量。比如有三个数据块编号分别为1、2、3的数据块，这三个数据块的数据块的长度分别是：10、15、35。假设使用索引查询的结果是数据块编号1和数据块编号3符合查询条件，那么可以根据记录下来的数据块长度，直接跳转到原始数据文件的偏移量0(对应数据块编号1的第1块数据存储在文件头部，所以偏移为0)和偏移量25(0+10+15)处读取出需要的数据。在优选例中，记录的是数据块长度的累加值，即：10，25，60。

所述数据摘要生成步骤，包括：

摘要数据写入步骤：将摘要数据写入内存的高速缓冲区，优选地，如果高速缓冲区满了，则写入磁盘；当然，也可以备有足够的高速缓冲区，从而将摘要数据仅写入高速缓冲区。

所述索引数据生成步骤，包括：

摘要数据读取步骤：从高速缓冲区和/或磁盘读出摘要数据，根据摘要数据生成倒排索引数据。

根据本发明提供的基于网络摘要数据的索引创建***，包括：

索引数据生成装置：根据所述摘要数据生成索引数据；

优选地，所述原始数据处理装置，包括：

优选地，所述数据摘要生成装置，包括：

优选地，所述索引数据生成装置，包括：

具体如图2所示，实时数据流一开始经过原始数据处理模块，原始数据处理模块会将数据流按时间段切分，一段时间内的数据包流又会被切分成多个数据块，每个数据块中包含若干个数据包，其中，数据块压缩后进行储存，例如储存为磁盘上的数据文件20170325113530.dat。原始数据处理模块接着将数据包的关键字段及数据包所在数据块的数据块编号传给数据摘要生成模块。其中，当一个时间段内接收到的数据包写入当前数据文件20170325113530.dat后，则在磁盘上新建一个数据文件，假设文件名是20170325113545.dat，然后将新的一个时间段内的数据包打包成数据块压缩后写入磁盘上的数据文件20170325113545.dat。

数据摘要生成模块从数据块中取出需要创建索引的关键字段，然后将关键字段与数据块编号作为摘要数据写入为摘要数据文件20170325113530.digest，写入的位置为内存的内存盘(一种使用内存虚拟出来的文件***)高速缓冲区，当摘要数据写入高速缓冲区后删除所述数据文件20170325113530.dat释放资源。所述关键字段包括：源地址、源端口、目的地址、目的端口、协议等关键字段。其中，若分配的内存盘容量有限，则当***负载较高，内存盘空间用尽时，数据摘要生成模块会将摘要数据写入磁盘。

接着，摘要数据进入索引数据生成模块，以各个关键字段为索引key，数据块编号为索引value生成倒排索引数据。倒排索引数据写入磁盘后，删除摘要数据释放资源。

如图3所示，原始数据处理模块连续接收若干个数据包，将其作为一个数据块打包，并给数据块从1到M进行编号。当一个数据块内的数据包数量足够了，比如达到一个预设的值N时，将数据块压缩后写入数据文件。

如图4所示，数据摘要生成模块从原始数据处理模块获得数据包及其所在数据块的编号，数据摘要生成模块从数据包中摘取出需要创建索引的关键字段。将当前数据包的关键字段与当前数据包所在的数据块的编号作为摘要数据写入高速缓冲区或磁盘中。

如图5所示，数据摘要生成模块生成摘要数据后，通知索引数据生成模块开始处理。索引数据生成模块优先从高速缓冲区中读出摘要数据，如果高速缓冲区中的摘要数据已经处理完，则从磁盘读出摘要数据。将读出的摘要数据分配给一个索引生成处理任务，生成最终的索引文件并写入磁盘。多个索引生成处理任务是并行执行的。***负载高(网口流量大或者CPU负载高)时，减少并行度，将***资源让给其他模块；***负载低时，增加并行度，提高索引建立的实时性。索引生成处理任务会从如上所述20170325113530.digest摘要数据中读出的关键字段做倒排索引处理，生成最终的20170325113530.index索引文件并写入磁盘。索引文件写入磁盘后，删除20170325113530.digest摘要数据。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于网络摘要数据的索引创建方法，其特征在于，包括：

索引数据生成步骤：根据所述摘要数据生成索引数据。

2.根据权利要求1所述的基于网络摘要数据的索引创建方法，其特征在于，所述原始数据处理步骤，包括：

3.根据权利要求1所述的基于网络摘要数据的索引创建方法，其特征在于，所述数据摘要生成步骤，包括：

4.根据权利要求1所述的基于网络摘要数据的索引创建方法，其特征在于，所述索引数据生成步骤，包括：

5.根据权利要求1所述的基于网络摘要数据的索引创建方法，其特征在于，还包括：

6.一种基于网络摘要数据的索引创建***，其特征在于，包括：

索引数据生成装置：根据所述摘要数据生成索引数据。

7.根据权利要求6所述的基于网络摘要数据的索引创建***，其特征在于，所述原始数据处理装置，包括：

8.根据权利要求6所述的基于网络摘要数据的索引创建***，其特征在于，所述数据摘要生成装置，包括：

9.根据权利要求6所述的基于网络摘要数据的索引创建***，其特征在于，所述索引数据生成装置，包括：

10.根据权利要求6所述的基于网络摘要数据的索引创建***，其特征在于，还包括：