CN111130877B

CN111130877B - 一种基于nlp的网络日志处理***及方法

Info

Publication number: CN111130877B
Application number: CN201911334997.3A
Authority: CN
Inventors: 冒佳明; 赵俊峰; 曹晶; 夏飞; 夏元轶
Original assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2022-10-04
Anticipated expiration: 2039-12-23
Also published as: CN111130877A

Abstract

本发明公开一种基于NLP的网络日志处理***，包括自然语言处理组件和数据库；所述数据库内构建分类词库、预设词义库以及语言处理模型，所述分类词库设定以设备类型的特定对应的多个直译词或以分词处理后派生出的高频词为标准的关键词；所述分类词库与预设词义库映射关联，所述预设词义库与语言处理模型相关联；所述自然处理组件对设备的syslog源数据和日志文件进行归纳分类、分析并确定自然语言语句所包含的含义。本发明克服了以往基于模板的方法针对未定义日志无法分析的弱点，提高了***的可用性，提升用户的易用性。

Description

一种基于NLP的网络日志处理***及方法

技术领域

本发明涉及网络安全技术领域，特别是一种基于NLP的网络日志处理***及方法。

背景技术

在网络普及度越来越高现代社会，网络监控与管理是合理利用网络资源和信息的重要保障。网络管理者为了能够方便迅捷地对整个网络运行状态进行全方位的了解和把控，对网络中存在的问题和威胁及时作出反应，当前的通用做法是通过日志管理组件对网络日志进行集中收集和分析，向管理者提供网络中设备的实施运行状态，实现对风险的有效控制。

近年，随着人工智能技术的发展，自然语言处理（NLP）技术从众多人工智能领域中脱颖而出，成为一个重要的方向。与基于模板的传统语言生成技术相比，NLP具有很多优点，其生成技术最小化了人工的参与程度，可以自动从数据中学习输入到输出的映射。另一方面，Syslog诞生的目的正是专门用于传达设备开发者对于设备状态的说明和阐述，它本质上来说是一个离散的、象征性的、绝对的信号***，具备了自然语言的全部特征，相比于人类语言，它在绝大多数情况下可以脱离语境而孤立存在，歧义性较小。因此，通过NLP方法进行机器学习，然后对Syslog进行分析的结果会非常的精确。

目前，行业内通用的做法是使用一种在互联网协议（TCP/IP）的网上中传递消息记录的标准，即syslog协议。该协议获得较多的设备厂商及各种***平台的支持，syslog指令用于网络信息管理及网络安全审计。在报文格式方面，syslog报文格式具备一定的结构化，各类网管***或日志服务器可以通过接收syslog消息，对其内容进行解析，从而实现事件级别，事件特性的简单判断。其协议的基本理念是简单，高效，即发送端和接收端无需互相进行接口联调，即可实现日志转发。

与SNMP不同，syslog日志消息体部分并无严格的格式控制，开发者无法通过报文结构获取整体消息体长度，参数的数据类型以及参数的长度，因此，若不同厂商的标准不同，对日志的定义都会有较大差异。且在实际应用过程中，厂商对于syslog的定义背景与用户业务环境也会存在不一致的情况。综上，当前业内syslog日志组件主要存在如下缺陷：

1、由于syslog是基于设备厂商开发者的认知进行撰写的，相同含义的内容在不同厂家/型号的设备中的表述也有不小的差异。

2、syslog报文本身可读性较差，过多的专业术语导致管理人员需要具备大量专业背景知识才能理解报文的含义。

3、日志事件本身没有统一规范，导致告警级别分类和事件分类无法有效的进行类别归并，对于关联分析会造成一定的障碍。

4、现有的基于模板的传统翻译技术，灵活性，适用性较差。

所以，对于网络管理者，一种既能表达syslog撰写者意图，又不需要具备太多专业知识的网络日志处理组件的需求是极为迫切的。

发明内容

本发明的目的在于提供一种基于NLP的网络日志处理***及方法，采用本发明的方法可以有效的处理各类未知种类和格式的日志，克服了以往基于模板的方法针对未定义日志无法分析的弱点，提高了***的可用性，提升了用户的易用性。

为实现上述目的，本发明提供如下技术方案：

一种基于NLP的网络日志处理***，包括自然语言处理组件和数据库；所述数据库内构建分类词库、预设词义库以及语言处理模型，所述分类词库设定以设备类型的特定对应的多个直译词或以分词处理后派生出的高频词为标准的关键词；所述分类词库与预设词义库映射关联，所述预设词义库与语言处理模型相关联；

所述自然处理组件用于对设备的syslog源数据和日志文件进行归纳分类、分析并确定自然语言语句所包含的含义，以及获取一定数量的语句训练所述数据库的语言处理模型，自然语言处理组件根据预设词义库将语句获取有效字段进行训练学习，以生成若干个训练词作为关键词，并为关键词生成解析信息，根据关键词和对应的解析信息生成语言处理模型，所述语言处理模型采用神经网络架构。

优选地，所述自然语言处理组件还包括采集模块、分割模块以及解析模块；所述采集模块用于接收设备源的基本信息或训练语句缓存至数据库中，根据预定义规则进行分类处理，同时缓存至分类词库；

所述分割模块用于用于基于预设词义库对训练语句进行匹配并切分，分割成至少一个训练词作为关键词；

所述解析模块用于对所得的关键词进行解析并生成对应的解析信息，解析信息包括词性标注和词义注解；所述词性标注为关键词在训练语句中的词性，所述词性标注以牛津英汉词典和/或英汉双解微软计算机辞典为定义。

优选地，所述采集模块还包括设备确定模块、内容采集单元和关联分析单元，

所述设备确定模块采用设备发现技术获取网络环境中的设备信息，将设备的基本信息存入数据库的分类词库中；

所述内容采集单元从syslog日志服务器监控的网络设备中采集网络日志文件作为语言处理模型训练的数据源，同时采集待分析的语句。

所述关联分析单元用于构造获取的设备信息与syslog日志文件的属性关联关系。

优选地，该***还包括训练模块，所述训练模块用于将从解析模块获取的解析信息对语言处理模型进行更新，以更新所对应设备的语言处理模型。

优选地，所述设备包括但不限于交换机、服务器、网关、路由器和网络安全设备；所述设备网络发现的方式包括但不限于SNMP、ARP和ICMP协议。

优选地，所述设备的基本信息包括但不限于设备名、设备类型、设备IP和设备厂家。

本发明提供了一种基于NLP的网络日志处理方法，其特征在于，具体步骤如下：采集模块获取网络环境中的设备信息，记录其基本信息并作为语句采集的基础语句，同时获取syslog日志服务器中的设备的网络日志；分割模块将获取的基础语句分割为至少一个关键词，所述关键词与分类词库中的属性一一对应，解析模块参照预设词义库中的解析对所述关键词解析出对应的解析信息，导出显示信息至web页面。

在上述方法中，所述分类词库设定多个分类词，所述分类词库内设有不同类型设备的特性所对应的关键词。

在上述方法中，所述预设词义库经过深度神经网络训练后的关键词且对应的解析信息。

在上述方法中，当syslog日志上报时，自然语言处理组件将网络设备的日志提取出需要解析的日志内容分解若干个分解词，并根据训练好的语言处理模型对上述的若干分解词进行解析，提取特征后分类，进而确定Syslog内容所包含的含义，并使自然语言处理模块根据所确定的含义准确，迅速的翻译出语句内容，将原始语句翻译成用汉语描述的易于用户理解的信息，并根据日志内容确定日志的类别归属，为日志分类归属提供依据。

本发明的技术效果和优点：

（1）由于训练语句与设备的厂家开发者的个性化特点有着较强的关联性，分割后的训练词比较接近开发者的语言习惯，能够反应开发者的个性化特点。将分割后的关键词作为开发者的关键词，使自然语言处理模型学习这些关键词，可以使自然语言处理模型更接近设备开着的语言习惯和厂商风格。

（2）用户使用该***由于获取设备的厂家信息和设备类型，通常情况下，相同厂商，相同设备类型的syslog日志内容非常相似，从这一维度得到比较接近设备开发者习惯的分类，从而了解开发者的语言习惯。

（3）该***可简化语言处理模型学习过程，减低学习周期，也提高了在未知网络环境中，同厂商，同类型，不同型号或未知型号设备的syslog处理分析的准确性。

（4）通过网络设备的设备确定需要采集的网络设备，更接近网络环境的实际情况，最后通过自然语言处理机对于整体日志进行翻译和分类，使经过自然语言处理的各类型网络设备日志更加易于用户进行理解。

（5）采用本发明的方法可以有效的处理各类未知种类和格式的日志，克服了以往基于模板的方法针对未定义日志无法分析的弱点，提高了***的可用性，提升了用户的易用性。

附图说明

图1为本发明的整体结构示意图。

图2为本发明的工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1-2所示，本实施例提供了一种基于NLP的网络日志处理***，包括自然语言处理组件和数据库；所述数据库内构建分类词库、预设词义库以及语言处理模型，所述分类词库设定以设备类型的特定对应的多个直译词或以分词处理后派生出的高频词为标准的关键词；

具体地说：

第一情况：设定多个分类词，分类词覆盖了不同类型设备的不同特性所对应的关键词。

比如：路由器延伸出BGP、OSPF、CPU；服务器延伸为CPU、内存。

第二情况：分类词的处理通过基于预设词义库对于syslog进行匹配分词处理，若有预设词义库的预设词匹配的词语，则提取出来作为该分类下的类型。

又如：上文提到的目标设备的syslog是“DHCPD-4-PING_CONFLICT:DHCPaddressconflict:serverpinged172.18.44.170.”预设的关键词库中包括DHCP则可以通过进行匹配从上述目标记录信息中提取关键词，DHCP。

第三种情况：分词处理后派生出的高频词为标准的关键词的选取

首先对目标记录信息进行分词处理，提取出有实体意义的实体词，再根据提取出的实体词出现的频率确定关键词。

如果一条关键词无法匹配进入某个分类，则进行词性和语义翻译，从多至少对相同词语（预分类词）进行排序，并筛选出前预设数值的相同分类词作为目标分类词。

例如：从某型号路由器syslog提取的预分类词

包括OSPF，PING_CONFLICT，LINK，

从某型号的路由器提取出的预分类词是BGP，PING_CONFLICT,UPDOWN，

从某型号的服务器提取的预分类词是PING_CONFLICT,UPDOWN，IPACCESS。其中PING_CONFLICT的出现在不同类型，型号设备的概率是最高的。

如此，取所有型号设备的训练预分类词进行排序。提取出相同预分类词数量最多的作为分类词，然后新增进分类词库中作为分类。

如上文就是PING_CONFLICT，在通过语言处理模型处理后得到的分类词结果就是ping冲突。

其中，所述分类词库与预设词义库映射关联，所述预设词义库与语言处理模型相关联；

在上述***中，所述自然处理组件用于对设备的syslog源数据和日志文件进行归纳分类、分析并确定自然语言语句所包含的含义，以及获取一定数量的语句训练所述数据库的语言处理模型，自然语言处理组件根据预设词义库将语句获取有效字段进行训练学习，以生成若干个训练词作为关键词，并为关键词生成解析信息，根据关键词和对应的解析信息生成语言处理模型，所述语言处理模型采用神经网络架构。

所述自然语言处理组件还包括采集模块、分割模块以及解析模块；

所述采集模块用于接收设备源的基本信息或训练语句缓存至数据库中，根据预定义规则进行分类处理，同时缓存至分类词库；

在上述***中，所述采集模块还包括设备确定模块、内容采集单元和关联分析单元，

具体地说通过设置日志服务器，采用网络侦听等技术获取Syslog原始数据报文。对其进行报文解析，获取IP地址，日志级别以及日志内容，并存入数据库中。

具体地，当数据采集完成以后，通过型号、设备、IP等关联方式对于所属设备进行数据清洗与过滤，数据清洗包括剔除错误和无效数据，过滤则是按照设备范围进行日志选取，为下一步NLP训练提供数据源。

该***还包括训练模块，所述训练模块用于将从解析模块获取的解析信息对语言处理模型进行更新，以更新所对应设备的语言处理模型。

所述设备包括但不限于交换机、服务器、网关、路由器和网络安全设备；所述设备网络发现的方式包括但不限于SNMP、ARP和ICMP协议。

所述设备的基本信息包括但不限于设备名、设备类型、设备IP和设备厂家。

在网络设备发现过程中，我们获取了各个设备的厂家和设备类型和设备型号，这里我们需要把厂家，设备类型，设备型号进行映射。具体的做法是，由于在网络中设备的管理地址是惟一的，因此可以构建，厂家，设备类型，型号和IP的映射关系。

如：华为-交换机-S12700-192.168.9.1.

S9700-192.168.9.1.

华为-路由器-NE40-192.168.9.1.

NE80-192.168.9.1.

将上述记录作为数据源，存入数据库中。

本发明提供了一种基于NLP的网络日志处理方法，具体步骤如下：采集模块获取网络环境中的设备信息，记录其基本信息并作为语句采集的基础语句，同时获取syslog日志服务器中的设备基的网络日志；分割模块将获取的基础语句分割为至少一个关键词，所述关键词与分类词库中的属性一一对应，解析模块参照预设词义库中的解析对所述关键词解析出对应的解析信息，导出显示信息至web页面。

所述分类词库设定多个分类词，所述分类词库内设有不同类型设备的特性所对应的关键词。

所述预设词义库经过深度神经网络训练后的关键词且对应的解析信息。

当syslog日志上报时，自然语言处理组件将网络设备的日志提取出需要解析的日志内容分解若干个分解词，并根据训练好的语言处理模型对上述的若干分解词进行解析，提取特征后分类，进而确定Syslog内容所包含的含义，并使自然语言处理模块根据所确定的含义准确，迅速的翻译出语句内容，将原始语句翻译成用汉语描述的易于用户理解的信息，并根据日志内容确定日志的类别归属，为日志分类归属提供依据。

实施例2

为了更清晰的阐述一种基于NLP的网络日志处理方法中的设备型号和厂家提取相关的syslog日志，结合实例进行说明：

网络设备可通过syslog协议进行监控，将日志信息以用户数据报协议(UDP)方式传送到远端服务器模块，远端接收日志服务器模块必须通过syslog监听UDP端口514，并根据syslog.conf配置文件中的配置处理本机，接收访问***的日志信息，把指定的事件写入特定文件中，供后台数据库管理和响应之用。

具体实现步骤如下：

1）采集原始日志信息。

数据源：提供syslog格式日志数据的设备或***；该设备可能是防火墙、交换机、路由器、服务器及其他安装了linux类操作***的主机。

syslog日志服务器模块：采集来自设备或***的syslog格式日志数据并进一步保存其原始数据。

日志文件：保存来自syslog日志服务器处理过的syslog格式日志数据，每一行表示一条日志信息。

2）进行有用日志数据分析采集。

日志文件监控：监控日志数据收集工作，侦测到日志文件是否有数据写入，意味着有数据被采集，同时触发对该日志数据的过滤。

过滤：符合设定条件的日志数据被采用，转入相关事件调用；不符合设定条件的日志数据被抛弃，返回对日志文件的监控。这里的事件过滤条件主要是从上文提取的管理地址中去进行日志筛选。为下文的自然语言训练进行数据清洗，减少无效数据干扰。

数据库：保存过滤后的原始日志数据和经分析提取出有用信息数据。

数据分析采集：由监控程序触发，执行时序在新日志数据写入数据库之前，然后从数据库中提取原始数据，完成提取有用信息的工作，提取信息如下：事件发生的时间、事件发生时使用的协议、事件发源地、事件发生目的地、设备信息等。处理完成后将结果写入数据库，以待以后更深层次分析。

结果显示：将初步分析采集结果以Web方式或其他人性化显示。

实际上，

上述内容是提出一种采集日志数据模式：以日志服务器为中心采集原始日志信息，分别以日志文件和数据库为中心进行的日志数据分析采集有用的日志信息。

该种采集方法能保证采集工作各项事务能独立完成：syslog服务器采集原始日志数据不受后面程序分析采集、数据库读写的影响，后面的分析采集部分不受syslog服务器采集工作影响而减慢分析采集的速度。

一方面保证采集到各网络设备的日志数据不被丢失，安全信息有完整的保证；

另一方面保证网络管理***从数据采集到动作反应花费的时间短，还可以取得实时的日志信息。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于NLP的网络日志处理***，其特征在于：包括自然语言处理组件和数据库；所述数据库内构建分类词库、预设词义库以及语言处理模型，所述分类词库设定以设备类型的特定对应的多个直译词或以分词处理后派生出的高频词为标准的关键词；所述分类词库与预设词义库映射关联，所述预设词义库与语言处理模型相关联；

自然语言处理组件用于对设备的syslog源数据和日志文件进行归纳分类、分析并确定自然语言语句所包含的含义，

以及获取一定数量的语句训练所述数据库的语言处理模型，自然语言处理组件根据预设词义库将语句获取有效字段进行训练学习，以生成若干个训练词作为关键词，并为关键词生成解析信息，根据关键词和对应的解析信息生成语言处理模型，所述语言处理模型采用神经网络架构；

所述分割模块用于基于预设词义库对训练语句进行匹配并切分，分割成至少一个训练词作为关键词；

2.根据权利要求1所述的基于NLP的网络日志处理***，其特征在于：所述采集模块还包括设备确定模块、内容采集单元和关联分析单元，

所述内容采集单元从syslog日志服务器监控的网络设备中采集网络日志文件作为语言处理模型训练的数据源，同时采集待分析的语句；

关联分析单元用于构造获取的设备信息与syslog日志文件的属性关联关系。

3.根据权利要求1所述的基于NLP的网络日志处理***，其特征在于：还包括训练模块，所述训练模块用于将从解析模块获取的解析信息对语言处理模型进行更新，以更新所对应设备的语言处理模型。

4.根据权利要求1所述的基于NLP的网络日志处理***，其特征在于：所述设备包括但不限于交换机、服务器、网关、路由器和网络安全设备；所述设备网络发现的方式包括但不限于SNMP、ARP和ICMP协议。

5.根据权利要求1所述的基于NLP的网络日志处理***，其特征在于：所述设备的基本信息包括但不限于设备名、设备类型、设备IP和设备厂家。