CN117278322B

CN117278322B - Web入侵检测方法、装置、终端设备及存储介质

Info

Publication number: CN117278322B
Application number: CN202311500641.9A
Authority: CN
Inventors: 张哲宇; 董良遇; 程曦; 谢承运; 邱亚钦; 郭笑敏; 巩一凡; 吉磊; 于盟
Original assignee: China Industrial Control Systems Cyber Emergency Response Team
Current assignee: China Industrial Control Systems Cyber Emergency Response Team
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-20
Anticipated expiration: 2043-11-13
Also published as: CN117278322A

Abstract

本申请适用于网络安全检测领域，提供了一种Web入侵检测方法、装置、终端设备及存储介质，包括：对Web日志数据进行数据预处理，得到分词文本；使用归约函数对分词文本进行归约解析，获取分词文本的归约参数值，根据归约参数值判断分词文本是否为异常文本，若为异常文本，则确认为存在Web入侵，发出Web入侵警告消息；在分词文本为无异常文本的情况下，根据分词文本提取词向量，采用预设的分类器对词向量进行分类，获得分类结果，若分类结果为入侵攻击分类结果，则确认为存在Web入侵，发出Web入侵警告消息。本方法解决了现有入侵检测技术精确度低、数据量大且无法识别请求参数篡改的技术问题，提高检测率，降低误报率。

Description

Web入侵检测方法、装置、终端设备及存储介质

技术领域

本申请属于网络安全检测技术领域，尤其涉及一种Web入侵检测方法、装置、终端设备及存储介质。

背景技术

随着众多网络安全事件的发生，网络信息安全尤其是网络安全也越来越被人们重视。网络靶场是一个模拟的网络训练场地，它可进行网络攻防演练，通过跟踪***实时地展示当前的训练情况，进而提升训练人员的网络安全技能，网络靶场中的全球广域网（WorldWideWeb，Web）入侵检测是网络安全演练的重点。

现有的Web入侵检测技术主要针对所采集的页面数据中的统一资源***（Uniform Resource Locator，URL）进行特征统计，但这种方式靠规则匹配来实现，需要研判人员具备丰富的Web安全知识，并且难以应付未知的攻击，精确度有限；而通过构建词袋模型直接对URL进行处理，一方面会导致数据***式增长，另一方面也会丢失单词在URL中的出现顺序，并且，此模型在请求参数篡改的识别应用上效果不佳。

发明内容

本申请实施例提供了一种Web入侵检测方法、装置、终端设备及存储介质，可以解决现有Web入侵检测技术精确度低、数据量大且无法识别请求参数篡改的技术问题，提高检测正确率，降低误报率。

第一方面，本申请实施例提供了一种Web入侵检测方法，包括：

对Web日志数据进行数据预处理，得到分词文本；

使用归约函数对所述分词文本进行归约解析，获取所述分词文本的归约参数值，根据所述归约参数值判断所述分词文本是否为异常文本，若所述分词文本为异常文本，则确认为存在Web入侵，发出Web入侵警告消息；

在所述分词文本为无异常文本的情况下，根据所述分词文本提取词向量，采用预设的分类器对所述词向量进行分类，获得分类结果，若所述分类结果为入侵攻击分类结果，则确认为存在Web入侵，发出Web入侵警告消息。

第二方面，本申请实施例提供了一种Web入侵检测装置，包括：

获取模块，用于对Web日志数据进行数据预处理，得到分词文本；

第一检测模块，用于使用归约函数对所述分词文本进行归约解析，获取所述分词文本的归约参数值，根据所述归约参数值判断所述分词文本是否为异常文本，若所述分词文本为异常文本，则确认为存在Web入侵，发出Web入侵警告消息；

第二检测模块，用于在所述分词文本为无异常文本的情况下，根据所述分词文本提取词向量，采用预设的分类器对所述词向量进行分类，获得分类结果，若所述分类结果为入侵攻击分类结果，则确认为存在Web入侵，则发出Web入侵警告消息。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面中任一项的Web入侵检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述第一方面中任一项的Web入侵检测方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项的Web入侵检测方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

在本申请实施例中，采用映射-归约架构的异常检测模型对分词文本进行异常检测，考虑到get请求和post请求的参数值，以确保恶意攻击检测的完备性。

在本申请实施例中，采用通过word2vec进行训练得到的权重矩阵模型作为攻击语义模型，提取词向量并进行分类检测，降低计算量，提升检测正确率。

当然，实施本申请的任一产品不一定需要同时实现以上所述的所有优点。

上述说明仅仅是本申请技术方案的概述，为了能够更清楚了解本发明的技术手段，可以依照说明书的内容予以实施，并且为了让本申请的目的、特征和优点能够更加明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种Web入侵检测方法的实现流程图；

图2是本申请实施例提供的Web入侵检测方法中对Web日志数据进行数据预处理的一种方法实现流程图；

图3为本申请实施例提供的Web入侵检测方法中判断分词文本是否异常的一种方法实现流程图；

图4为本申请实施例提供的Web入侵检测方法中根据分词文本提取词向量的一种方法实现流程图；

图5为本申请实施例提供的一种Web入侵检测装置的示意图；

图6为本申请实施例提供的Web入侵检测装置中的一种细化示意图；

图7为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

请参阅图1，图1是本申请实施例提供的一种Web入侵检测方法的实现流程图。如图1所示，本申请一实施例提供的Web入侵检测方法可以包括步骤S101至步骤S103，详述如下：

步骤S101：对Web日志数据进行数据预处理，得到分词文本。

其中，Web日志数据包含了用户访问 Web 时的访问记录信息，一般而言，Web日志数据主要包括网际互连协议（Internet Protocol，IP）、识别通讯协定（Identd）、URL等多个组成部分。可选的，通过Web网站前置正向代理和反向代理（Nginx代理）获取Web日志数据。

在Web入侵检测的实际应用中，主要的网络攻击主要是针对URL的攻击，例如结构化查询语言（Structured Query Language，SQL）注入和跨站脚本（Cross Site Script，XSS）攻击。SQL注入，就是通过把SQL命令***到提交的Web表单或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令，导致数据库中的信息泄露或者更改。XSS攻击指的是将XSS代码植入到提供给其他用户使用的页面中，从而达到盗取用户信息和执行一些违法操作的目的，比如这些代码包括超文本标记语言（HyperText Mark-upLanguage，HTML）代码和客户端脚本是发生在目标用户的浏览器层面上的，当渲染文档对象模型（Document Object Model，DOM）树的过程成发生了不在预期内执行的编程语言（JavaScript，JS）代码时，就发生了XSS攻击。

本申请中，通过将URL作为文本语言处理，对URL中的组成进行分词，基于URL的语法和语义分析攻击者的意图，进而有效发现攻击。

在一些具体的实施例中，请参阅图2，图2为本申请实施例提供的Web入侵检测方法中对Web日志数据进行数据预处理的一种方法实现流程图。如图2所示，具体可以包括步骤S201至步骤S202。

步骤S201：对Web日志数据进行异常值处理，得到修正后的数据。

在一个实施例中，针对Web日志数据中各个URL的编码方式不统一、以及攻击者为了绕过网站上对特殊字符的检查而对URL中的特殊字符进行多次编码的问题，需要首先对获取的Web日志数据进行异常值的处理。异常值的处理包括删除空数据、去除中文字符、转换字符为小写、URL解码、对HTML转义字符进行处理、数字统一替换为0，以及每种样本的标签属性定义等。

其中，对于攻击的识别只需保存请求资源中的有效部分即可，为了减少计算量，将Web日志数据中的数字替换为“0"；将第三方URL连接全部替换为http://u；URL解码是指对URL中某些特殊符号的编码进行解码；转换字符为小写，是因为在特征提取工作中，URL的大小写会对特征权值产生影响，为避免大小写对模型效果的影响，因此将URL中的所有字符统一转换为小写。

步骤S202：对修正后的数据进行词粒度分词，词粒度分词保留预设特殊字符和预设攻击特征敏感词。

可以理解的是，在将URL作为文本语言处理的过程中，需要对修正后的URL数据的进行分词，也就是将URL中的服务器解析的关键词与符号进行分离，与保障在后期的特征提取选择中可以将词与词之间，符号与符号之前的特征进行有效区分。

在一个实施例中，为了有效保留URL中的信息，通过特殊符号如：？‘/“，：！@#￥&等进行词粒度分词。对在URL中出现的符号通过在符号的左右两侧加上空格对字符进行替换，可以将服务器解析的关键词和符号进行有效地分隔，并且，对于不会出现攻击代码载荷的协议类型和服务器地址可以进行有效保留。例如，将样本语句：><script>alert ( 1 )</script><进行分词后，得到的是：>，<，script，>，alerl，(，1，)，<，/，script，>，<。

需要说明的是，相对于其他采用的字符级别的分词，本申请以词粒度进行分词既可以保留特殊字符“>”，“<”的特征，又可以保留样本敏感词攻击特征如alert , script等，因此在后续对样本进行特征化提取的时候，可以保留SQL注人、XSS、命令执行等重要的样本攻击特征词汇。

可以理解的是，对修正后的数据进行词粒度分词可以采用Java开源分词算法Ansj、HanLP或结巴分词（jieba），本申请对分词所采用的具体方法不做限制。

具体地，Ansj是一个基于N-元语法(N-gram)+条件随机场（Conditional RandomField，CRF）+隐含马尔柯夫模型(Hidden Markov Model，HMM)的中文分词的java实现，具有可以提供多种分词方式，可构造多个词库以及在分词时可动态选择所要使用的词库的优点。

具体地，HanLP是一系列模型与算法组成的自然语言处理（NLP，Natural LanguageProcessing）工具包，具有自定义分词、可分出多单词的英文名称(词典数据可带空格)、可动态增删词库等优点。

具体地，jieba是一个Python 中文分词组件，具有自定义分词、词典文件添加快的优点。

步骤S102：使用归约函数对所述分词文本进行归约解析，获取所述分词文本的归约参数值，根据所述归约参数值判断所述分词文本是否为异常文本，若所述分词文本为异常文本，则确认为存在Web入侵，发出Web入侵警告消息。

在网络靶场的Web入侵检测中，主要的攻击类型不仅仅包括SQL注入和XSS攻击，也包括缓冲区溢出和路径遍历攻击等；尤其是，缓冲区溢出的字符输入长度一般明显异于正常请求，SQL注入、路径遍历攻击的字符分布明显呈现异常，也是参数篡改的重点区域。为了提高对Web入侵检测的完备性，解决未知攻击带来的漏洞问题，本申请可以利用归约函数对步骤S101所得到的分词文本进行异常检测，判断分词文本是否为异常文本。如果分词文本为异常文本，即可确认存在Web入侵，发出Web入侵警告消息。如果分词文本为无异常文本，则再对该分词文本进行进一步的入侵检测。

在一些具体的实施例中，请参阅图3，图3为本申请实施例提供的Web入侵检测方法中判断分词文本是否异常的一种方法实现流程图。如图3所示，具体可以包括步骤S301至步骤S303。

步骤S301：对分词文本进行映射解析，得到目标数据组。

在一个实施例中，构建一个映射函数，利用映射函数对分词文本中的每一条日志进行数据解析，得到数据特征描述，作为示例而非限定，可以根据***标签systemLabel、请求所在的日期day以及客户IP组合构成数据特征描述<systemLabel|day|IP>，将数据特征描述<systemLabel|day|IP>作为输出的key，并将这条日志中请求的数据作为与key对应的value，则key和value构成目标数据组。

步骤S302：对目标数据组中的请求参数串进行归约解析，获得归约参数值。

在一个实施例中，构建一个归约函数，利用归约函数对目标数据组中的请求参数串（也即key和value）进行解析，获得GET请求的URL参数值，URL参数值包括获取方法（method），IP，时间（time），请求（request），主体数据（request_body），代理（agent），状态（status）等数据的参数值，将URL参数值作为归约参数值。

在另一个实施例中，利用归约函数对目标数据组中的请求参数串（也即key和value）进行解析，在获得GET请求的URL参数值之外，检测请求参数串中是否包括有POST请求参数，若请求参数串中包括有POST请求参数，封装类型转换发放函数（jsonToMap）和键值对转换函数（keyValueToMap）解析JS对象简谱（JavaScript Object Notation, JSON）格式的请求体或者键值对形式的请求体，得到POST请求参数值。将URL参数值和POST请求参数值作为归约参数值。

与一般仅对GET请求的URL数据进行处理不同，本申请的异常检测步骤既考虑到GET请求的URL参数值，也考虑到POST请求参数值，通过对用户请求的所有数据进行在线检测，以确保恶意攻击检测的完备性。

步骤S303：对归约参数值进行检测，若归约参数值未超出预设范围值，确认所述分词文本为无异常文本；若归约参数值超出预设范围值，确认所述分词文本为异常文本。

在一个实施例中，利用训练好的第一支持向量机（support vector machines，SVM）对URL参数值进行检测，若URL参数值超出第一预设范围，则判断请求参数串中有异常数据，SVM输出分词文本为异常文本的结果。利用训练好的第二SVM对POST请求参数值进行检测，若POST请求参数值超过第二预设范围，则判断请求参数串中有异常数据，SVM输出分词文本为异常文本的结果。

可以理解的是，若SVM判断请求参数串中有异常数据，持久化提取异常数据到备份数据库中，供Web前端进行统计分析和查询。

在另一个实施例中，采用并行计算模型（MapReduce）来完成步骤S301至步骤S303。MapReduce是一种面向大规模数据处理的并行计算模型，其实现是指定一个映射函数（Map），用来把一组键值对映射成一组新的键值对，以及指定并发的归约函数（Reduce），用来保证所有映射的键值对中的每一个共享相同的键组。具体的，Map从分词文本中提取出数据的特征key和value，也就是目标数据组，在Reduce阶段看到的都是已经归纳好的数据，在此基础上，Reduce对目标数据组做进一步解析，获得GET请求的URL参数值和POST参数值，并利用训练好的分类器对GET请求的URL参数值和POST参数值进行检测，判断分词文本中是否存在异常数据。

可以理解的是，若分词文本为无异常文本，则将该无异常文本作为后续词向量提取的基础。

步骤S103：在所述分词文本为无异常文本的情况下，根据所述分词文本提取词向量，采用预设的分类器对所述词向量进行分类，获得分类结果，若所述分类结果为入侵攻击分类结果，则确认为存在Web入侵，则发出Web入侵警告消息。

在实际应用中，分词后的文本人类可以理解，但机器不能，因此要将文本中的词数字化、向量化，得到无异常文本的词向量。预设的分类器通过神经网络训练获得，采用训练好的分类器对词向量进行分类，得到分类结果。

在一些具体的实施例中，请参阅图4，图4为本申请实施例提供的Web入侵检测方法中根据分词文本提取词向量的一种方法实现流程图。如图4所示，具体可以包括步骤S401至步骤S403。

步骤S401：将分词文本转化为one-hot向量；

在一个实施例中，使用独热编码（one-hot）方法，对分词后的文本进行向量化。one-hot就是将文本中的字词表示为比较稀疏的散列向量。示例性的，XSS攻击中常用的词表有script, alert, javascript等。利用one-hot编码后就可以表示为:

script [0,0,0,0,0,0,0,0,1,……,0,0,0,0,0,0,0,0]；

alert[0,0,0,1,0,0,0,0,0,……,0,0,0,0,0,0,0,0]；

javascript [0,1,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0]。

如上述所示，script, alert和 javascript每个词都对应一个向量，并且每个向量只有一个值为1，剩余的全为0。

步骤S402：利用攻击语义模型对one-hot向量进行特征提取，根据预设词表查找one-hot向量对应的相近词的权重；

攻击语义模型为通过word2vec进行训练得到的权重矩阵模型；当权重矩阵模型在训练过程中损失函数小于预设值时，获取目标模型参数；将含有目标模型参数的权重矩阵模型作为攻击语义模型。

可以理解的是，虽然one-hot可以将词表示为一个向量，但是每个词的编码都是随机的，向量之间相互独立，观察不到每个词之间的有可能存在关联关系。例如，在一个XSS攻击语句中，<script>和</script>之间有非常紧密的关系。另一方面，直接采用one-hot的表示方法，词向量的维度会随着词表的数量增加而发生***增长，而且这样表示的矩阵非常稀疏，这会导致维度灾难，并且会过渡的消耗内存资源。

因此，在本申请的一个实施例中，采用word2vec对词向量进行降维处理，word2vec是一个语言模型，只有一个隐层的全连接神经网络，用来预测给定单词的关联度大的单词。word2vec可以将稀疏的词向量，转化为稠密的向量；并且word2vec可以通过从大量文本数据中以无监督的方法学习语义信息，即通过一个空间向量，将语义上接近的词映射到空间中的距离非常接近。例如，将XSS黑样本中的攻击字符:script, javascript,</script>就会被映射到向量空间中比较接近的位置。

具体的，在word2vec的输入层中，一个词被转化为One-Hot向量，对应的是词表中的每个单词，然后在隐藏层，输入的是一个W*x+b线性模型(其中，x是输入的词向量，W、b分别是权重和偏置参数)，输出层为每个单词的相邻词的权重。

在word2vec进行训练的这个过程中，让word2vec模型基于数据进行神经网络模型的训练，根据损失函数来确定模型是否训练好，当整个模型被训练好后，保留这些训练好的模型参数，也即目标模型参数，将含目标模型参数的权重矩阵模型作为攻击语义模型。接着重新输入数据到攻击语义模型中进行处理，获得输入数据的特征向量的表示，通过该方式可以有效保留特征向量X与其相邻词之间的语义关系。

需要说明的是，损失函数是估计次分类结果的是否达到预期结果一个非负实值函数。一般情况下，函数值越小，证明攻击行为和正常行为被正确分类的准确性越高。

本申请采用的是求解向量空间中两个异类样本到最优超平面的最大间距，所以选用求解间距最大化问题的铰链损失函数Hinge loss，Hinge loss函数的表达式为：

如果样本被正确分类，损失函数的值为0，否则为。

对于word2vec在训练的过程中，Hinge loss函数优化后为：

表达式中 x表示样本个数；表示超平面的系数；/>表示第i个样本的松弛系数；C表示惩罚系数。所以损失函数/>则为：

在训练的过程中，通过将特征提取后的样本映射到空间向量中，word2vec会尝试确定y的值，然后计算损失函数的值。如此不断迭代训练数据，直到求解出损失函数的最小值y。如果损失函数的最小值y达到预期值，则停止训练，否则通过修改相关参数来调整模型，直至损失函数的最小值y达到预期值。

当训练word2vec时，隐藏层是没有激活函数的，输入和输出的维度是一样的。假如需要训练一个有300个特征的词向量，对于隐藏层就可以表示为一个10000行*300列的权重矩阵来表示，因此最终的目的就是学习这个权重矩阵，当训练完成时就会输出该矩阵，该矩阵即为攻击语义模型。当输入一个词到攻击语义模型时，输出向量实际上是一个概率分布，也就是该输入词相近词的权重。

可以理解的是，因为输入层的向量的值唯一，隐藏层实际上只是作为查找表来操作，所以本申请采用的模型对计算机资源的消耗是比较低的。

需要说明的是，word2vec中有两个主要的训练模型分别为连续词袋模型(Continuous Bag of Words，CBOW)和中心词滑动模型（Skip_gram）,其中，CBOW是根据上下文来预测目标词，而Skip_gram是根据目标词来推测上下文，由于Skip-gram在大量的数据中训练效果更好，在本申请的实施例中，优选的训练模型为Skip_gram。具体的，Skip_gram上下文窗口大小可以设置为5，每个样本训练50个特征。

需要说明的是，此外，word2vec还有两个针对前两种模型的优化方法，分别为层次softmax函数（Hierarchical Softmax）和负采样（Negative Sampling）。考虑到速度与准确性，在本申请的实施例中，优选的优化方法选择Negative Sampling。

步骤S403：根据相近词的权重，生成分词文本的词向量。

可以理解的是，在攻击语义模型中，输入层到隐层表示对上下文词进行向量化，而隐层到输出层，表示计算上下文词与词典的每个目标词进行点积计算。当输入一个词到攻击语义模型时，输出向量实际上是一个概率分布，也就是该输入词相近词的权重。最终无异常文本将转换为数值矩阵，矩阵的行表示每一个词的词向量。

在一个实施例中，采用预设的分类器对词向量进行分类，获得第二检测结果的方法流程，具体包括以下步骤：

（1）采用训练好的第二SVM对词向量进行分类，获得词向量分类结果；

（2）将词向量分类结果与预设的词向量数据库内的入侵攻击分类结果进行比对，判断是否有与词向量分类结果属于同一分类的入侵攻击分类结果：

若有与词向量分类结果属于同一分类的入侵攻击分类结果，确认分类结果为入侵攻击分类结果；若没有与词向量分类结果属于同一分类的入侵攻击分类结果，则可以确认网络无Web入侵。

可以理解的是，第二SVM的训练方式为：将词向量以及对应入侵攻击类型作为第二SVM的输入数据，对第二SVM进行训练，得到训练好的第二SVM。

需要说明的是，此处采用的支持向量机为本申请中最优选的分类器，但本申请对分类器的选择不做限定，示例性的，分类器还可以包括K邻近分类器、LDA分类器、决策树分类器、朴素贝叶斯分类器等。

具体地，如果分词文本被确认为异常文本，则确认Web入侵检测结果为异常入侵，也即存在Web入侵，发出Web入侵警告消息。

如果分词文本被确认为无异常文本，则可以进一步地通过对分词文本分类检测，判断分词文本的分类结果是否为预设的词向量数据库内的任意一种入侵攻击分类结果，如果分类结果为某一入侵攻击分类结果，则可以确认网络存在Web入侵，发出Web入侵警告消息，此时Web入侵警告消息中标注此入侵攻击分类结果，以加快对入侵攻击做出响应。

可以理解的是，结合分词文本的异常检测和分类检测，既能够考虑到异常文本存在的可能性，从而提升恶意攻击检测的完备性，又能够降低计算量，提升Web入侵检测的正确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例的Web入侵检测方法，图5为本申请实施例提供的一种Web入侵检测装置的示意图，为了便于说明，仅示出了与本申请实施例相关的部分。参照图5，该装置包括：获取模块51、第一检测模块52和第二检测模块53。其中，获取模块51用于对Web日志数据进行数据预处理，得到分词文本。第一检测模块52用于使用归约函数对所述分词文本进行归约解析，获取所述分词文本的归约参数值，根据所述归约参数值判断所述分词文本是否为异常文本，若所述分词文本为异常文本，则确认为存在Web入侵，发出Web入侵警告消息。第二检测模块53用于在所述分词文本为无异常文本的情况下，根据所述分词文本提取词向量，采用预设的分类器对所述词向量进行分类，获得分类结果，若所述分类结果为入侵攻击分类结果，则确认为存在Web入侵，则发出Web入侵警告消息。

在一个具体的实施例中，图6为本申请实施例提供的Web入侵检测装置中的一种细化示意图，为了便于说明，仅示出了与本申请实施例相关的部分。参照图6，该装置还包括：修正子模块61和分词子模块62。其中，修正子模块61用于对Web日志数据进行异常值处理，得到修正后的数据。分词子模块62用于对所述修正后的数据进行词粒度分词，所述词粒度分词保留预设特殊字符和预设攻击特征敏感词。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图7为本申请实施例提供的一种终端设备的结构示意图。如图7所示，该实施例的终端设备7包括：至少一个处理器70(图7中仅示出一个)处理器、存储器71以及存储在存储器71中并可在至少一个处理器70上运行的计算机程序72，处理器70执行计算机程序72时实现上述任意各个Web入侵检测方法实施例中的步骤。

该终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的举例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

可以理解的是，本申请实施例提供的Web入侵检测方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

所称处理器70可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器70还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器71在一些实施例中可以是终端设备7的内部存储单元，例如终端设备7的内存。存储器71在另一些实施例中也可以是终端设备7的外部存储设备，例如终端设备7上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器71还可以既包括终端设备7的内部存储单元也包括外部存储设备。存储器71用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如计算机程序的程序代码等。存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种Web入侵检测方法，其特征在于，包括：

对Web日志数据进行数据预处理，得到分词文本，其中，所述数据预处理包括对Web日志数据进行异常值处理，得到修正后的数据；对所述修正后的数据进行词粒度分词，所述词粒度分词保留预设特殊字符和预设攻击特征敏感词；

对所述分词文本进行映射解析，得到目标数据组，使用归约函数对所述目标数据组中的请求参数进行归约解析，获取所述分词文本的归约参数值，对所述归约参数值进行检测，若归约参数值未超出预设范围值，确认所述分词文本为无异常文本；若归约参数值超出预设范围值，确认所述分词文本为异常文本；若所述分词文本为异常文本，则确认为存在Web入侵，发出Web入侵警告消息；

2.如权利要求1所述的Web入侵检测方法，其特征在于，所述根据所述分词文本提取词向量的步骤，包括：

将所述分词文本转化为one-hot向量；

利用攻击语义模型对所述one-hot向量进行特征提取，根据预设词表查找所述one-hot向量对应的相近词的权重；

根据所述相近词的权重，生成所述分词文本的词向量。

3.如权利要求2所述的Web入侵检测方法，其特征在于，所述攻击语义模型为通过word2vec进行训练得到的权重矩阵模型；当所述权重矩阵模型在训练过程中损失函数小于预设值时，获取目标模型参数；将含有目标模型参数的所述权重矩阵模型作为攻击语义模型。

4.如权利要求1所述的Web入侵检测方法，其特征在于，所述采用预设的分类器对所述词向量进行分类，获得分类结果的具体步骤，包括：

采用训练好的支持向量机对所述词向量进行分类，获得词向量分类结果；

将所述词向量分类结果与预设的词向量数据库内的入侵攻击分类结果进行比对，判断是否有与所述词向量分类结果属于同一分类的入侵攻击分类结果；

若有与所述词向量分类结果属于同一分类的入侵攻击分类结果，确认所述分类结果为所述入侵攻击分类结果。

5.一种Web入侵检测装置，其特征在于，包括：

获取模块，用于对Web日志数据进行数据预处理，得到分词文本，其中，所述数据预处理包括对Web日志数据进行异常值处理，得到修正后的数据；对所述修正后的数据进行词粒度分词，所述词粒度分词保留预设特殊字符和预设攻击特征敏感词；

第一检测模块，用于对所述分词文本进行映射解析，得到目标数据组，使用归约函数对所述目标数据组中的请求参数进行归约解析，获取所述分词文本的归约参数值，对所述归约参数值进行检测，若归约参数值未超出预设范围值，确认所述分词文本为无异常文本；若归约参数值超出预设范围值，确认所述分词文本为异常文本；若所述分词文本为异常文本，则确认为存在Web入侵，发出Web入侵警告消息；

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。