CN110674442B

CN110674442B - 页面监控方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110674442B
Application number: CN201910877369.3A
Authority: CN
Inventors: 彭中华; 华石榴; 钟彬; 裘愉锋
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2023-08-18
Anticipated expiration: 2039-09-17
Also published as: CN110674442A

Abstract

本发明公开了一种页面监控方法、装置、设备及计算机可读存储介质。其中，一种页面监控方法包括：获取待检测页面对应的待检测报文数据；确定待检测报文数据对应的第一元素分词集合；将第一元素分词集合转化为待检测页面对应的第一分词向量；利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；其中，预设向量分类模型根据历史页面对应的历史报文数据生成；在识别到目标向量分类的情况下，确定待检测页面为正常状态。根据本发明实施例，能够准确、高效地判断出网页的待检测页面是否为正常状态。

Description

页面监控方法、装置、设备及计算机可读存储介质

技术领域

本发明属于通信技术领域，尤其涉及一种页面监控方法、装置、设备及计算机可读存储介质。

背景技术

在用户访问网站时，为了能够给用户标准化体验，要求网站能够提供正确的网页内容。因此，为了保证网页内容的正确性，需要进行页面监控，从而为用户提供更好的页面服务。

已有的页面监控方法在检测网页页面是否为正常状态时，具有实现过程复杂、对监控设备的性能要求较高、页面错误识别准确性较差以及页面监控效率较低等不足，从而限制了其应用发展。

发明内容

本发明实施例提供一种页面监控方法、装置、设备及计算机可读存储介质，能够准确、高效地判断出网页的待检测页面是否为正常状态。

第一方面，本发明实施例提供了一种页面监控方法，包括：

获取待检测页面对应的待检测报文数据；

确定待检测报文数据对应的第一元素分词集合；

将第一元素分词集合转化为待检测页面对应的第一分词向量；

利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；其中，预设向量分类模型根据历史页面对应的历史报文数据生成；

在识别到目标向量分类的情况下，确定待检测页面为正常状态。

第二方面，本发明实施例提供了一种页面监控装置，装置包括：

报文数据获取模块，配置为获取待检测页面对应的待检测报文数据；

第一集合获取模块，配置为确定待检测报文数据对应的第一元素分词集合；

第一向量获取模块，配置为将第一元素分词集合转化为待检测页面对应的第一分词向量；

向量分类识别模块，配置为利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；其中，预设向量分类模型根据历史页面对应的历史报文数据生成；

页面状态确定模块，配置为在识别到目标向量分类的情况下，确定待检测页面为正常状态。

第三方面，本发明实施例提供了一种页面监控设备，设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现本发明实施例第一方面所述的页面监控方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现本发明实施例第一方面所述的页面监控方法。

本发明实施例的页面监控方法、装置、设备及计算机可读存储介质，能够利用所获取的待检测页面对应的待检测报文数据，确定待检测页面对应的第一元素分词集合，并利用第一元素分词集合生成第一分词向量，然后将第一分词向量输入根据与待检测页面的页面类型相同的历史页面对应的历史报文数据生成的预设向量分类模型，以利用预设向量分类模型，在预设向量分类中识别与第一分词向量对应的目标向量分类，只有在识别到目标向量分类时，确定待检测页面为正常状态，由于本发明实施例利用待检测页面对应的待检测报文数据和预设向量分类模型来识别待检测页面是否为正常状态，而待检测报文数据所需的数据处理量较少、数据处理方法较简单，因此，能够准确、高效、简单地识别待检测页面是否为正常状态，并且对监控设备的性能要求较低。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的页面监控方法的流程示意图；

图2是本发明另一个实施例提供的页面监控方法的流程示意图；

图3是本发明又一个实施例提供的页面监控方法的流程示意图；

图4是本发明再一个实施例提供的页面监控方法的流程示意图；

图5是本发明再一个实施例提供的页面监控方法的流程示意图；

图6是本发明一个实施例提供的网页监控过程的流程示意图；

图7是本发明一个实施例提供的页面监控装置的结构示意图；

图8是根据发明实施例的页面监控设备的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术中的问题，本发明实施例提供了一种页面监控方法、装置、设备及计算机可读存储介质。下面，首先对本发明实施例提供的页面监控方法进行说明。

图1示出了本发明一个实施例提供的页面监控方法的流程示意图。如图1所示，该页面监控方法可以包括：

S110、获取待检测页面对应的待检测报文数据；

S120、确定待检测报文数据对应的第一元素分词集合；

S130、将第一元素分词集合转化为待检测页面对应的第一分词向量；

S140、利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；其中，预设向量分类模型根据历史页面对应的历史报文数据生成；

S150、在识别到目标向量分类的情况下，确定待检测页面为正常状态。

在本发明实施例中，能够利用所获取的待检测页面对应的待检测报文数据，确定待检测页面对应的第一元素分词集合，并利用第一元素分词集合生成第一分词向量，然后将第一分词向量输入根据与待检测页面的页面类型相同的历史页面对应的历史报文数据生成的预设向量分类模型，以利用预设向量分类模型，在预设向量分类中识别与第一分词向量对应的目标向量分类，只有在识别到目标向量分类时，确定待检测页面为正常状态，由于本发明实施例利用待检测页面对应的待检测报文数据和预设向量分类模型来识别待检测页面是否为正常状态，而待检测报文数据所需的数据处理量较少、数据处理方法较简单，因此，能够准确、高效、简单地识别待检测页面是否为正常状态，并且对监控设备的性能要求较低。

可见，本发明实施例的页面监控方法采用非侵入式设计，由于无需进行页面埋点等改造，因此，可以避免对网站***的开发改造和性能影响。

本发明实施例所述的页面监控方法可以应用于网站***的后台服务器，后台服务器可以是一种高性能的电子计算器，用于存储和处理数据。

在本发明实施例的步骤S110中，当后台服务器响应于用户操作而生成网页页面后，可以将所生成的网页页面作为待检测页面，并获取待检测页面对应的待检测报文数据，以根据待检测报文数据确定待检测页面是否为正常状态。

在本发明实施例中，可以从作为数据源的后台服务器中实时或准实时采集待检测页面的待检测网页数据字段，并从待检测网页数据字段中提取待检测报文数据。其中，待检测网页数据字段如表1所示。

表1待检测网页数据字段

字段	中文
		REQUEST_ID	请求ID
REQUEST_BEGIN_TIME	请求开始时间
		REQUEST_URI	请求URI
REQUEST_METHOD	请求方法
		REQUEST_HEADER	请求头
REQUEST_PAYLOAD	请求数据
		RESPONSE_CODE	响应状态码
RESPONSE_HEADER	响应头
		RESPONSE_PAYLOAD	响应数据

在本发明一些实施例的步骤S120中，确定待检测报文数据对应的第一元素分词集合的具体方法可以包括：

删除待检测报文数据中的框架结构代码，得到待检测语料数据；

对待检测语料数据进行分词处理，得到待检测网页对应的第一元素分词集合。

在本发明一些实施例中，如果报文格式为超文本标记语言(HyperText MarkupLanguage，HTML)格式，则可以使用Python BeautifulSoup库进行HTML解析，去除待检测报文数据中的直译式脚本语言(JavaScript，JS)代码、层叠样式表(Cascading StyleSheets，CSS)代码和HTML标签等框架结构代码，并保留文本内容，作为待检测语料数据。在本发明另一些实施例中，如果报文格式为JS格式、CSS格式等静态文件，则静态文件中无框架结构代码，可以不做处理。在本发明又一些实施例中，如果报文格式为JS对象简谱(JavaScript Object Notation，JSON)格式、可扩展标记语言(eXtensible MarkupLanguage，XML)格式等，去除作为框架结构代码的注释信息，得到待检测语料数据。其中，待检测语料数据可以包括短文本和长文本中的至少一种。

在本发明实施例中，对待检测语料数据进行分词处理，得到待检测网页对应的第一元素分词集合，并记录第一元素分词集合中每个元素分词的词、句、词句位置等信息。

继续以从表1所示的待检测网页数据字段中获取的待检测报文数据为例，可以使用Python结巴分词库，提取待检测报文数据对应的待检测语料数据中的词、句等信息，得到如表2所示的第一元素分词集合。

表2第一元素分词集合表

在本发明另一些实施例的步骤S120中，确定待检测报文数据对应的第一元素分词集合的具体方法还可以为：直接对待检测报文数据进行分词处理，得到待检测报文数据对应的第一元素分词集合。

在本发明一些实施例的步骤S130中，将第一元素分词集合转化为待检测页面对应的第一分词向量的具体方法可以包括：

根据预设元素分词集合的每个元素分词在第一分词向量中的存在情况，生成待检测页面对应的第一分词向量；其中，预设元素分词集合为待检测页面的页面类型对应的元素分词集合。

在一些实施例中，待检测页面的页面类型包括统一资源标识类型和/或方法类型。

具体地，可以根据如表1中所示的待检测网页数据字段中的REQUEST_URI字段，即统一资源标识类型确定待检测页面的页面类型，也可以根据如表1中所示的待检测网页数据字段中的REQUEST_METHOD字段，即方法类型确定待检测页面的页面类型，还可以根据如表1中所示的待检测网页数据字段中的REQUEST_URI字段和REQUEST_METHOD字段确定待检测页面的页面类型。

以根据REQUEST_URI字段和REQUEST_METHOD字段确定待检测页面的页面类型为例，只有当两个网页数据字段中的REQUEST_URI字段和REQUEST_METHOD字段完全相同时，才确认两个网页数据字段对应的两个页面的页面类型相同。

在另一些实施例中，还可以根据如表1中所示的待检测网页数据字段中的REQUEST_PAYLOAD字段、REQUEST_URI字段、REQUEST_METHOD字段确定待检测页面的页面类型。

用于确定页面类型的字段越多，则页面类型的的分类越精确，使得监控结果越精确。

在本发明实施例中，预设元素分词集合为待检测页面的页面类型对应的元素分词集合，其获取方法为：获取待检测页面的页面类型对应的全部历史页面的第二元素分词集合中的全部元素分词，利用所获取的全部元素分析形成一分词集合，对所形成的的分词集合进行去重处理，得到元素分词集合。

其中，获取待检测页面的页面类型对应的全部历史页面的第二元素分词集合的具体方法将在下文中详细说明。

具体地，基于预设元素分词集合，将第一分词向量合转化为待检测页面对应的第一分词向量的方法为：

将预设元素分词集合中存在于第一分词向量中的元素分词在预设元素分词集合中所处的分词位置设置为1，将预设元素分词集合中不存在于第一分词向量中的元素分词在预设元素分词集合中所处的分词位置设置为0，生成向量维度为预设元素分词集合的分词数量的第一分词向量。

在本发明另一些实施例的步骤S130中，将第一元素分词集合转化为待检测页面对应的第一分词向量的具体方法可以包括：

删除第一元素分词集合中的目标分词，得到目标元素分词集合；其中，目标分词包括在第二元素分词集合中的出现频率低于预设频率阈值的低频词、存在于错误关键词集合中的错误关键词和存在于噪音词词典中的噪音词中的至少一种；

根据预设元素分词集合的每个元素分词在目标元素分词集合中的存在情况，生成待检测页面对应的第一分词向量；其中，预设元素分词集合为待检测页面的页面类型对应的元素分词集合。

其中，错误关键词集合中的错误关键词可以为“页面不存在”等用于提示页面内容错误的异常数据对应的关键词，噪音词词典中的噪声词可以为语言停用词、标点符号、特定词汇、特定句子等，例如“声明”“备案”等特定词汇。

继续以表2所示的第一元素分词集合为例，删除第一元素分词集合中的目标分词后，可以得到如表3所示的目标元素分词集合。

表3目标元素分词集合表

本发明实施例的步骤S140中所述的预设向量分类模型，可以在对待检测页面进行页面监控之前根据历史页面对应的历史报文数据生成。

在本发明实施例中，为了能够快速、精确地对待检测页面进行页面监控，需要确定待检测页面的页面类型，并将其输入至页面类型相同的预设向量分类模型中。

因此，在生成预设向量分类模型时，需要利用不同的页面类型的历史页面对应的历史报文数据生成不同页面类型的预设向量分类模型。

下面，将以与待检测页面的页面类型相同的预设向量分类模型的生成方法为例进行具体说明，预设向量分类模型的具体生成方法如下：

获取与待检测页面的页面类型相同的历史页面对应的历史报文数据；

确定历史报文数据对应的第二元素分词集合；

将第二元素分词集合转化为历史页面对应的第二分词向量；

对第二分词向量进行聚类处理，得到预设向量分类；

根据预设向量分类的中心向量，生成预设向量分类模型。

在本发明实施例中，可以根据上述的页面类型的确定方法，根据各个历史页面对应的历史网页数据字段，确定各个历史页面的页面类型，并且，获取预定时间段内与待检测页面的页面类型相同的历史页面对应的历史报文数据。

在一些实施例中，确定历史报文数据对应的第二元素分词集合的具体方法可以包括：

删除历史报文数据中的框架结构代码，得到历史语料数据；

对历史语料数据进行分词处理，得到历史页面对应的第二元素分词集合。

其中，删除历史报文数据中的框架结构代码的具体方法与删除待检测报文数据中的框架结构代码的具体方法相同，在此不做赘述。

在一些实施例中，将第二元素分词集合转化为历史页面对应的第二分词向量的具体方法可以包括：

删除第二元素分词集合中的目标分词，得到第三元素分词集合；其中，目标分词包括在第二元素分词集合中的出现频率低于预设频率阈值的低频词、存在于错误关键词集合中的错误关键词和存在于噪音词词典中的噪音词中的至少一种；

根据预设元素分词集合的每个元素分词在第三元素分词集合中的存在情况，生成历史页面对应的第二分词向量；其中，预设元素分词集合为待检测页面的页面类型对应的元素分词集合。

其中，生成历史页面对应的第二分词向量与生成待检测页面对应的第一分词向量的方法相同，在此不做赘述。

在本发明实施例中，删除第二元素分词集合中的目标分词，尤其是删除存在于错误关键词集合中的错误关键词，然后用得到的第三元素分词集合生成第二分词向量，以对预设向量分类模型进行训练，可以在使用历史数据进行模型训练的过程中，筛选过滤掉错误页面的页面特征，避免错误页面对页面监控的准确性造成干扰。

在本发明实施例中，对第二分词向量进行聚类处理得到预设向量分类的具体方法可以为：

利用多个第二分词向量生成向量矩阵，其中，向量矩阵中的每一行为一个第二分词向量；

基于预设邻域半径eps、预设半径内最小点数目MinPts以及预设距离算法metric，向量矩阵进行DBSCAN聚类计算，得到至少一个预设向量分类以及每个预设向量分类的中心向量。

在本发明实施例中，根据预设向量分类的中心向量生成预设向量分类模型的具体方法可以包括：

将每个预设向量分类的分类标签和中心向量关联存储，得到预设向量分类模型。

综上，在本发明实施例中，所生成的预设向量分类模型简单灵活、通用性较强，可以根据需要应用于不同的网站***，同时也可通过横向扩容的方式实现规模化使用。

在本发明另一些实施例中，还可以将第二分词向量一部分用于训练，另一部分用于测试，然后通过梯度算法改变预设频率阈值、预设邻域半径eps、预设半径内最小点数目MinPts以及预设距离算法metric，以重复利用用于训练的第二分词向量执行上述的预设向量分类模型的具体生成方法中的各个步骤，并利用用于测试的第二分词向量得到每次生成的预设向量分类模型的测试结果。其中，测试结果包括覆盖率和准确率中的至少一种。

最后，选取测试结果最优的一组参数生成的预设向量分类模型，用于进行待检测页面的页面监控，以提高页面监控的准确性。

因此，在本发明一些实施例的步骤S140中，利用预设向量分类模型识别预设向量分类中与第一分词向量对应的目标向量分类的具体方法可以包括：

计算预设向量分类模型中的预设向量分类的中心向量与第一分词向量的向量距离；

在中心向量中确定与第一分词向量的向量距离小于或等于预定距离阈值的目标中心向量；

将目标中心向量对应的预设向量分类，识别为与第一分词向量对应的目标向量分类。

在本发明一些实施例的步骤S150中，在识别到目标向量分类的情况下，可以得到目标向量分类的分类标签，由于本发明实施例中所生成的预设向量分类模型中已经将错误页面的页面特征过滤，可以视为预设向量分类模型是基于正确页面对应的历史报文数据生成的，由此，预设向量分类模型能够识别出的预设向量分类，均为正确页面的向量分类，因此，如果得到目标向量分类的分类标签，则可以确定待检测页面为正常状态，如果未识别到目标向量分类，可以确定待检测页面为异常状态。

综上，本发明实施例可以利用预设向量分类模型自动识别待检测页面是否为正常状态，避免了人工解析页面特征所带来的问题。

图2示出了本发明另一个实施例提供的页面监控方法的流程示意图。如图2所示，该页面监控方法可以包括：

S210、获取待检测页面的响应状态码；

S220、在响应状态码为异常状态码的情况下，确定待检测页面为异常状态；

S230、在状态码为正常状态码的情况下，获取待检测页面对应的待检测报文数据；

S240、确定待检测报文数据对应的第一元素分词集合；

S250、将第一元素分词集合转化为待检测页面对应的第一分词向量；

S260、利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；其中，预设向量分类模型根据历史页面对应的历史报文数据生成；

S270、在识别到目标向量分类的情况下，确定待检测页面为正常状态。

在本发明实施例中，可以从表1所示的待检测网页数据字段中，获取待检测页面的响应状态码，由于在响应状态码为异常状态码的情况下，可以直接确定待检测页面为异常状态，因此，仅在状态码为正常状态码的情况下，进一步利用预设向量分类模型监控待检测页面是否为正常状态。

本实施例中的步骤S230-S270与图1所述的实施例中的步骤S110-S150的原理相同，在此不做赘述。

由此，本发明实施例可以结合响应状态码和预设向量分类模型组合成判定树，以监控待检测页面是否为正常状态，可有效覆盖状态码正常而页面内容异常的情况，具有识别覆盖率高，识别准确度高的特点。

图3示出了本发明又一个实施例提供的页面监控方法的流程示意图。如图3所示，该页面监控方法可以包括：

S310、获取待检测页面对应的待检测信息摘要算法MD5值；

S320、在预存MD5值中存在与待检测MD5值相同的目标MD5值的情况下，确定待检测页面为正常状态；

S330、在预存MD5值中不存在与待检测MD5值相同的目标MD5值的情况下，获取待检测页面对应的待检测报文数据；

S340、确定待检测报文数据对应的第一元素分词集合；

S350、将第一元素分词集合转化为待检测页面对应的第一分词向量；

S360、利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；其中，预设向量分类模型根据历史页面对应的历史报文数据生成；

S370、在识别到目标向量分类的情况下，确定待检测页面为正常状态。

在本发明实施例中，预存MD5值可以为正常历史页面对应的MD5值，在预存MD5值中存在与待检测MD5值相同的目标MD5值的情况下，可以确定待检测页面报文与常历史页面报文的全量文本相同，则可以直接确定待检测页面为正常状态，因此，仅在预存MD5值中不存在与待检测MD5值相同的目标MD5值的情况下，进一步利用预设向量分类模型监控待检测页面是否为正常状态。

本实施例中的步骤S330-S370与图1所述的实施例中的步骤S110-S150的原理相同，在此不做赘述。

由此，本发明实施例可以结合MD5值和预设向量分类模型组合成判定树，以监控待检测页面是否为正常状态，可有效覆盖MD5值异常而页面内容正常的情况，具有识别覆盖率高，识别准确度高的特点。

图4示出了本发明再一个实施例提供的页面监控方法的流程示意图。如图4所示，该页面监控方法可以包括：

S410、获取待检测页面对应的待检测报文数据；

S420、确定待检测报文数据对应的第一元素分词集合；

S430、获取正确关键词集合和错误关键词集合；

S440、在第一元素分词集合中包括存在于正确关键词集合和错误关键词集合中的目标关键词的情况下，若目标关键词为正确关键词，则确定待检测页面为正常状态；若目标关键词为错误关键词，则确定待检测页面为异常状态；

S450、在第一元素分词集合中不包括存在于正确关键词集合和错误关键词集合中的目标关键词的情况下，将第一元素分词集合转化为待检测页面对应的第一分词向量；

S460、利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；其中，预设向量分类模型根据历史页面对应的历史报文数据生成；

S470、在识别到目标向量分类的情况下，确定待检测页面为正常状态。

在本发明实施例中，在将第一元素分词集合转化为待检测页面对应的第一分词向量之前，可以先利用正确关键词集合和错误关键词集合监控待检测页面是否为正常状态，仅在第一元素分词集合中不包括存在于正确关键词集合和错误关键词集合中的目标关键词的情况下，将第一元素分词集合转化为待检测页面对应的第一分词向量，进一步利用预设向量分类模型监控待检测页面是否为正常状态。

本实施例中的S410-S420以及步骤S350-S370与图1所述的实施例中的步骤S110-S150的原理相同，在此不做赘述。

由此，本发明实施例可以结合正确关键词集合、错误关键词集合和预设向量分类模型组合成判定树，以监控待检测页面是否为正常状态，可有效覆盖未检测到正确关键词和错误关键词的情况，具有识别覆盖率高，识别准确度高的特点。

图5示出了本发明再一个实施例提供的页面监控方法的流程示意图。如图5所示，该页面监控方法可以包括：

S510、获取待检测页面对应的待检测报文数据；

S520、确定待检测报文数据对应的第一元素分词集合；

S530、将第一元素分词集合转化为待检测页面对应的第一分词向量；

S540、利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；其中，预设向量分类模型根据历史页面对应的历史报文数据生成；

S550、在识别到目标向量分类的情况下，确定待检测页面为正常状态；

S560、若未识别到目标向量分类，则确定第一元素分词集合与待检测页面的页面类型对应的元素分词集合模板的第一相似度；其中，元素分词集合模板根据与待检测页面的页面类型对应的预设向量分类对应的模板向量和待检测页面的页面类型对应的预设元素分词集合生成，模板向量由预设向量分类中的全部向量进行按位与计算得到；

S570、在第一相似度中的最大相似度大于或等于第一相似度阈值的情况下，确定待检测页面为正常状态。

具体地，在上述的预设向量分类模型的具体生成方法中，在得到预设向量分类后，还可以根据预设向量分类的中心向量和预设邻域半径，确定每个预设向量分类对应的全部向量，并将全部向量和中心向量进行按位与计算，得到模板向量，然后利用模板向量和待检测页面的页面类型对应的预设元素分词集合，生成如表4所示的元素分词集合模板。

表4元素分词集合模板

本实施例中的S510-S550与图1所述的实施例中的步骤S110-S150的原理相同，在此不做赘述。

在本发明实施例中，可以将第一元素分词集合与待检测页面的页面类型对应的全部预设向量分类对应的元素分词集合模板进行字符串相似度比对，得到第一相似度，在第一相似度中的最大相似度大于或等于第一相似度阈值的情况下，确定待检测页面为正常状态。

由此，本发明实施例可以通过验证元素分词集合模板来避免错误历史页面造成的干扰。

在本发明一些实施例中，该页面监控方法还可以包括：

在第一相似度中的最大相似度小于第一相似度阈值的情况下，可以确定待检测页面为异常状态。

在本发明另一些实施例中，该页面监控方法还可以包括：

在第一相似度中的最大相似度小于第一相似度阈值的情况下，确定第一元素分词集合与历史页面对应的第二元素分词集合的第二相似度；

在第二相似度中的最大相似度大于或等于第二相似度阈值的情况下，确定待检测页面为正常状态；

在第二相似度中的最大相似度小于第二相似度阈值的情况下，确定待检测页面为异常状态。

其中，历史页面对应的第二元素分词集合为上述的根据与待检测页面的页面类型相同的历史页面对应的历史报文数据确定的历史报文数据对应的第二元素分词集合。

在本发明实施例中，可以将第一元素分词集合与历史页面对应的第二元素分词集合进行字符串相似度比对，得到第二相似度，在第二相似度中的最大相似度大于或等于第二相似度阈值的情况下，确定待检测页面为正常状态，在第二相似度中的最大相似度小于第二相似度阈值的情况下，确定待检测页面为异常状态。

由此，本发明实施例还可以将第一元素分词集合与历史正确报文对应的第二元素分词集合进行比较，通过验证第二元素分词集合来避免错误历史页面造成的干扰。

需要说明的是，在本发明实施例中，还可以将预设向量分类模型与响应状态码、MD5值、正确关键词集合和错误关键词集合、与待检测页面的页面类型对应的元素分词集合模板、历史页面对应的第二元素分词集合中的至少两个结合，进行页面监控，从而进一步提高监控的全面性。

图6示出了本发明一个实施例提供的网页监控过程的流程示意图。如图6所示，网页监控过程的具体步骤可以包括：

S601、获取待检测页面的待检测网页数据字段；

S602、判断待检测网页数据字段中的响应状态码是否为正常状态码，如果是，则执行步骤S603，如果不是，则确定待检测页面为异常状态，结束页面监控；

S603、判断在预存MD5值中是否存在与待检测页面的待检测MD5值相同的目标MD5值，如果不存在，则执行步骤S604，如果存在，则确定待检测页面为正常状态，结束页面监控；

S604、从待检测网页数据字段中提取待检测报文数据，并确定待检测报文数据对应的第一元素分词集合；

S605、判断第一元素分词集合中是否包括存在于正确关键词集合和错误关键词集合中的目标关键词，如果不包括，则执行步骤S606，如果包括，若目标关键词为正确关键词，则确定待检测页面为正常状态，若目标关键词为错误关键词，则确定待检测页面为异常状态，结束页面监控；

S606、将第一元素分词集合转化为待检测页面对应的第一分词向量；

S607、利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；

S608、判断是否识别到目标向量分类，如果未识别到，则执行步骤S609，如果识别到，则确定待检测页面为正常状态，结束页面监控；

S609、确定第一元素分词集合与待检测页面的页面类型对应的元素分词集合模板的第一相似度；

S610、判断第一相似度中的最大相似度是否大于或等于第一相似度阈值，如果不是，则执行步骤S611，如果是，则确定待检测页面为正常状态，结束页面监控；

S611、确定第一元素分词集合与历史页面对应的第二元素分词集合的第二相似度；

S612、判断第二相似度中的最大相似度是否大于或等于第二相似度阈值，如果是，则确定待检测页面为正常状态，如果不是，则确定待检测页面为异常状态，结束页面监控。

在本发明实施例中，根据上述的网页监控过程，可以得到如表5所示的监控结果。

表5监控结果表

本发明实施例提供的页面监控方法，能够适用于不同***版本的网站***，能够对测试环境的回放请求和网站***实际运行过程中的页面内容进行正确性识别，对页面错误识别的覆盖率较高，能够达到100％覆盖，无需进行测试脚本设计和维护，提升了页面监控效率并讲起了人力成本。

图7示出了本发明一个实施例提供的页面监控装置的结构示意图。如图7所示，该页面监控装置可以包括：

报文数据获取模块710，配置为获取待检测页面对应的待检测报文数据；

第一集合获取模块720，配置为确定待检测报文数据对应的第一元素分词集合；

第一向量获取模块730，配置为将第一元素分词集合转化为待检测页面对应的第一分词向量；

向量分类识别模块740，配置为利用预设向量分类模型，识别预设向量分类中与第一分词向量对应的目标向量分类；其中，预设向量分类模型根据历史页面对应的历史报文数据生成；

页面状态确定模块750，配置为在识别到目标向量分类的情况下，确定待检测页面为正常状态。

本发明实施例所述的页面监控装置可以应用于网站***的后台服务器，后台服务器可以是一种高性能的电子计算器，用于存储和处理数据。

在本发明一些实施例中，页面类型包括统一资源标识类型和/或方法类型。

在本发明一些实施例中，第一集合获取模块720可以具体配置为：删除待检测报文数据中的框架结构代码，得到待检测语料数据；对待检测语料数据进行分词处理，得到待检测网页对应的第一元素分词集合。

在本发明一些实施例中，第一向量获取模块730可以具体配置为：根据预设元素分词集合的每个元素分词在第一分词向量中的存在情况，生成待检测页面对应的第一分词向量；其中，预设元素分词集合为待检测页面的页面类型对应的元素分词集合。

在本发明一些实施例中，该页面监控装置还可以包括分类模型生成模块，配置为：获取与待检测页面的页面类型相同的历史页面对应的历史报文数据；确定历史报文数据对应的第二元素分词集合；将第二元素分词集合转化为历史页面对应的第二分词向量；对第二分词向量进行聚类处理，得到预设向量分类；根据预设向量分类的中心向量，生成预设向量分类模型。

在这些实施例中，向量分类识别模块740可以具体配置为：计算预设向量分类模型中的预设向量分类的中心向量与第一分词向量的向量距离；在中心向量中确定与第一分词向量的向量距离小于或等于预定距离阈值的目标中心向量；将目标中心向量对应的预设向量分类，识别为与第一分词向量对应的目标向量分类。

在本发明一些实施例中，分类模型生成模块可以具体配置为：删除历史报文数据中的框架结构代码，得到历史语料数据；对历史语料数据进行分词处理，得到历史页面对应的第二元素分词集合。

在本发明另一些实施例中，分类模型生成模块还可以具体配置为：删除第二元素分词集合中的目标分词，得到第三元素分词集合；其中，目标分词包括在第二元素分词集合中的出现频率低于预设频率阈值的低频词、存在于错误关键词集合中的错误关键词和存在于噪音词词典中的噪音词中的至少一种；根据预设元素分词集合的每个元素分词在第三元素分词集合中的存在情况，生成历史页面对应的第二分词向量；其中，预设元素分词集合为待检测页面的页面类型对应的元素分词集合。

在本发明一些实施例中，该页面监控装置还可以包括状态码获取模块，配置为：获取待检测页面的响应状态码；

在这些实施例中，报文数据获取模块710可以具体配置为：在响应状态码为正常状态码的情况下，获取待检测页面对应的待检测报文数据。

在本发明一些实施例中，该页面监控装置还可以包括MD5值获取模块，配置为：获取待检测页面对应的待检测信息摘要算法MD5值；

在这些实施例中，报文数据获取模块710可以具体配置为：在预存MD5值中不存在与待检测MD5值相同的目标MD5值的情况下，获取待检测页面对应的待检测报文数据。

在本发明一些实施例中，该页面监控装置还可以包括关键词集合获取模块，配置为：获取正确关键词集合和错误关键词集合；

其中，第一向量获取模块730可以具体配置为：在第一元素分词集合中不包括存在于正确关键词集合和错误关键词集合中的目标关键词的情况下，将第一元素分词集合转化为待检测页面对应的第一分词向量。

在本发明一些实施例中，页面状态确定模块750可以进一步配置为：

若未识别到目标向量分类，则确定第一元素分词集合与待检测页面的页面类型对应的元素分词集合模板的第一相似度；其中，元素分词集合模板根据与待检测页面的页面类型对应的预设向量分类对应的模板向量和待检测页面的页面类型对应的预设元素分词集合生成，模板向量由预设向量分类中的全部向量进行按位与计算得到；

在第一相似度中的最大相似度大于或等于第一相似度阈值的情况下，确定待检测页面为正常状态。

在本发明一些实施例中，页面状态确定模块750还可以进一步配置为：

需要说明的是，上述的各模块所实现的功能与方法实施例中的各个步骤的原理相似，能够得到的效果相同，在此不做赘述。

本发明实施例的页面监控方法和装置可以由页面监控设备来实现。图8示出了根据发明实施例的页面监控设备800的硬件结构示意图。

如图8所示，页面监控设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中，输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接，输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接，进而与页面监控备800的其他组件连接。

具体地，输入设备801接收来自外部的输入信息，并通过输入接口802将输入信息传送到中央处理器803；中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器804中，然后通过输出接口805将输出信息传送到输出设备806；输出设备806将输出信息输出到页面监控设备800的外部供用户使用。

也就是说，图8所示的页面监控设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现本发明实施例描述的页面监控方法和装置。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现本发明实施例提供的页面监控方法。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或***。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的***、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种页面监控方法，包括：

获取待检测页面对应的待检测报文数据；

确定所述待检测报文数据对应的第一元素分词集合；

将所述第一元素分词集合转化为所述待检测页面对应的第一分词向量；

利用预设向量分类模型，识别预设向量分类中与所述第一分词向量对应的目标向量分类；其中，所述预设向量分类模型根据历史页面对应的历史报文数据生成；

在识别到所述目标向量分类的情况下，确定所述待检测页面为正常状态；

其中，还包括：

获取与所述待检测页面的页面类型相同的历史页面对应的所述历史报文数据；

确定所述历史报文数据对应的第二元素分词集合；

将所述第二元素分词集合转化为所述历史页面对应的第二分词向量；

对所述第二分词向量进行聚类处理，得到预设向量分类；

根据所述预设向量分类的中心向量，生成所述预设向量分类模型，所述预设向量分类模型与所述待检测页面的页面类型相同；

所述获取待检测页面对应的待检测报文数据，包括：

采集所述待检测页面的待检测网页数据字段，并从所述待检测网页数据字段中提取待检测报文数据；

所述确定所述待检测报文数据对应的第一元素分词集合，包括：

删除所述待检测报文数据中的框架结构代码，得到待检测语料数据；

对所述待检测语料数据进行分词处理，得到所述待检测网页对应的所述第一元素分词集合。

2.根据权利要求1所述的方法，其中，所述利用预设向量分类模型，识别预设向量分类中与所述第一分词向量对应的目标向量分类，包括：

计算所述预设向量分类模型中的所述预设向量分类的中心向量与所述第一分词向量的向量距离；

在所述中心向量中确定与所述第一分词向量的向量距离小于或等于预定距离阈值的目标中心向量；

将所述目标中心向量对应的预设向量分类，识别为与所述第一分词向量对应的目标向量分类。

3.根据权利要求1所述的方法，其中，所述确定所述历史报文数据对应的第二元素分词集合，包括：

删除所述历史报文数据中的框架结构代码，得到历史语料数据；

对所述历史语料数据进行分词处理，得到所述历史页面对应的所述第二元素分词集合。

4.根据权利要求1所述的方法，其中，所述将所述第二元素分词集合转化为所述历史页面对应的第二分词向量，包括：

删除所述第二元素分词集合中的目标分词，得到第三元素分词集合；其中，所述目标分词包括在所述第二元素分词集合中的出现频率低于预设频率阈值的低频词、存在于错误关键词集合中的错误关键词和存在于噪音词词典中的噪音词中的至少一种；

根据预设元素分词集合的每个元素分词在所述第三元素分词集合中的存在情况，生成所述历史页面对应的所述第二分词向量；其中，所述预设元素分词集合为所述待检测页面的页面类型对应的元素分词集合。

5.根据权利要求1所述的方法，其中，所述页面类型包括统一资源标识类型和/或方法类型。

6.根据权利要求1所述的方法，其中，所述将所述第一元素分词集合转化为所述待检测页面对应的第一分词向量，包括：

根据预设元素分词集合的每个元素分词在所述第一分词向量中的存在情况，生成所述待检测页面对应的所述第一分词向量；其中，所述预设元素分词集合为所述待检测页面的页面类型对应的元素分词集合。

7.根据权利要求1所述的方法，其中，在所述获取待检测页面对应的待检测报文数据之前，还包括：

获取所述待检测页面的响应状态码；

其中，所述获取待检测页面对应的待检测报文数据，包括：

在所述响应状态码为正常状态码的情况下，获取所述待检测页面对应的待检测报文数据。

8.根据权利要求1所述的方法，其中，在所述获取待检测页面对应的待检测报文数据之前，还包括：

获取所述待检测页面对应的待检测信息摘要算法MD5值；

其中，所述获取待检测页面对应的待检测报文数据，包括：

在预存MD5值中不存在与所述待检测MD5值相同的目标MD5值的情况下，获取所述待检测页面对应的待检测报文数据。

9.根据权利要求1所述的方法，其中，在所述将所述第一元素分词集合转化为所述待检测页面对应的第一分词向量之前，还包括：

获取正确关键词集合和错误关键词集合；

其中，所述将所述第一元素分词集合转化为所述待检测页面对应的第一分词向量，包括：

在所述第一元素分词集合中不包括存在于所述正确关键词集合和所述错误关键词集合中的目标关键词的情况下，将所述第一元素分词集合转化为所述待检测页面对应的第一分词向量。

10.根据权利要求1所述的方法，其中，还包括：

若未识别到所述目标向量分类，则确定所述第一元素分词集合与所述待检测页面的页面类型对应的元素分词集合模板的第一相似度；其中，所述元素分词集合模板根据与所述待检测页面的页面类型对应的预设向量分类对应的模板向量和所述待检测页面的页面类型对应的预设元素分词集合生成，所述模板向量由所述预设向量分类中的全部向量进行按位与计算得到；

在所述第一相似度中的最大相似度大于或等于第一相似度阈值的情况下，确定所述待检测页面为正常状态。

11.根据权利要求10所述的方法，其中，还包括：

在所述第一相似度中的最大相似度小于所述第一相似度阈值的情况下，确定所述第一元素分词集合与所述历史页面对应的第二元素分词集合的第二相似度；

在所述第二相似度中的最大相似度大于或等于第二相似度阈值的情况下，确定所述待检测页面为正常状态；

在所述第二相似度中的最大相似度小于所述第二相似度阈值的情况下，确定所述待检测页面为异常状态。

12.一种页面监控装置，其特征在于，所述装置包括：

第一集合获取模块，配置为确定所述待检测报文数据对应的第一元素分词集合；

第一向量获取模块，配置为将所述第一元素分词集合转化为所述待检测页面对应的第一分词向量；

向量分类识别模块，配置为利用预设向量分类模型，识别预设向量分类中与所述第一分词向量对应的目标向量分类；其中，所述预设向量分类模型根据历史页面对应的历史报文数据生成；

页面状态确定模块，配置为在识别到所述目标向量分类的情况下，确定所述待检测页面为正常状态；

其中，还包括：

分类模型生成模块，配置为：

确定所述历史报文数据对应的第二元素分词集合；

对所述第二分词向量进行聚类处理，得到预设向量分类；

所述报文数据获取模块具体配置为：

所述第一集合获取模块具体配置为：

13.一种页面监控设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-11任意一项所述的页面监控方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-11任意一项所述的页面监控方法。