CN108171053B

CN108171053B - 一种规则发现的方法以及***

Info

Publication number: CN108171053B
Application number: CN201711463126.2A
Authority: CN
Inventors: 赵发全; 尹露; 刘前进; 李晓波; 牛成; 郭峰
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2020-06-12
Anticipated expiration: 2037-12-28
Also published as: CN108171053A

Abstract

本发明实施例提供了一种规则发现的方法以及***，其中所述方法包括采集基础数据，并从所述基础数据中提取一种或多种特征信息；调用预设的规则引擎的接口，确定所述一种或多种特征信息对应的一个或多个候选规则，其中，所述规则引擎包括第一规则引擎和/或第二规则引擎，所述第一规则引擎用于单独对不同种类的特征信息进行规则发现；所述第二规则引擎用于采用组合的方式结合至少两种特征信息进行规则发现；将满足预设标准的候选规则确定为目标规则。本发明实施例通过自动生成规则的方式提高了规则生成的效率，保证了生成的规则在对恶意网站进行识别时的识别准确度。

Description

一种规则发现的方法以及***

技术领域

本发明涉及数据处理的技术领域，特别是涉及一种规则发现的方法以及***。

背景技术

随着互联网的发展，各种计算机恶意程序的攻击方式变得越来越层出不穷，各种各样的恶意程序已经严重威胁到用户个人信息安全、国家信息安全和互联网健康发展，因此针对恶意程序的实施拦截是信息安全厂商的核心功能。

在具体实现时，可以构建拦截规则来对恶意程序进行拦截，维护网页的安全浏览。但在现有技术中，拦截规则一般通过人工方式进行采集并分析汇总，其设定太依赖于人工经验，导致生成规则的效率较低，准确性较差。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种规则发现的方法和相应的一种规则发现的***。

依据本发明的一个方面，提供了一种规则发现的方法，所述方法包括：

采集基础数据，并从所述基础数据中提取一种或多种特征信息；

调用预设的规则引擎的接口，确定所述一种或多种特征信息对应的一个或多个候选规则，其中，所述规则引擎包括第一规则引擎和/或第二规则引擎，所述第一规则引擎用于单独对不同种类的特征信息进行规则发现；所述第二规则引擎用于采用组合的方式结合至少两种特征信息进行规则发现；

将满足预设标准的候选规则确定为目标规则。

可选地，所述从所述基础数据中提取一种或多种特征信息的步骤包括：

按照预先设定的数据提取规则，从所述基础数据中提取对应的特征信息。

可选地，所述基础数据包括恶意网站的数据。

可选地，所述特征信息包括如下信息的至少一种：互联网协议IP数据、路径数据、关键内容数据、域名数据。

可选地，所述将满足预设标准的候选规则确定为目标规则的步骤之前，还包括判断所述候选规则是否满足预设标准的步骤，包括：

分别采用所述候选规则对指定数量的黑站点进行匹配，并统计识别出的黑站的数量；

计算所述识别出的黑站的数量与所述指定数量的比值；

若所述比值大于第一预设阈值，则判定所述候选规则满足预设标准。

可选地，所述方法还包括：

若所述比值小于第一预设阈值但大于第二预设阈值，则进入人工审核流程，其中，所述第二预设阈值小于所述第一预设阈值。

可选地，所述方法还包括：

当所述目标规则达到上线要求时，对所述目标规则进行上线产出。

可选地，所述当所述目标规则达到上线要求时，对所述目标规则进行上线产出的步骤包括：当所述目标规则达到上线要求时，采用所述目标规则识别恶意网站；

将所述目标规则同步至客户端中。

可选地，采用如下方式判断目标规则是否达到上线要求：

展示当前针对基础数据生成的所有的目标规则；

当检测到用户发起的确认操作时，判定所述目标规则达到上线要求，其中，所述确认操作为用户对所述目标规则进行抽样检测后，判定目标规则的命中率大于预设命中率阈值时执行的操作。

可选地，所述方法还包括：

针对上线产出后的目标规则，判断所述目标规则是否触发预设的误报条件；

若所述目标规则触发预设的误报条件，则将所述目标规则进行下线处理。

可选地，所述判断所述目标规则是否触发预设的误报条件的步骤包括：

获取所述目标规则在预设时间段内的误报率；

当所述误报率大于预设误报率阈值时，则判定所述目标规则触发预设的误报条件。

依据本发明的另一个方面，提供了一种规则发现的***，所述***包括：

数据采集模块，适于采集基础数据；

特征提取模块，适于从所述基础数据中提取一种或多种特征信息；

候选规则确定模块，适于调用预设的规则引擎的接口，确定所述一种或多种特征信息对应的一个或多个候选规则，其中，所述规则引擎包括第一规则引擎和/或第二规则引擎，所述第一规则引擎用于单独对不同种类的特征信息进行规则发现；所述第二规则引擎用于采用组合的方式结合至少两种特征信息进行规则发现；

目标规则确定模块，适于将满足预设标准的候选规则确定为目标规则。

可选地，所述特征提取模块还适于：

可选地，所述基础数据包括恶意网站的数据。

可选地，所述***还包括：

判断模块，适于判断所述候选规则是否满足预设标准的步骤；

所述判断模块包括：

黑站匹配子模块，适于分别采用所述候选规则对指定数量的黑站点进行匹配，并统计识别出的黑站的数量；

预设标准判断子模块，适于计算所述识别出的黑站的数量与所述指定数量的比值；若所述比值大于第一预设阈值，则判定所述候选规则满足预设标准。

可选地，所述***还包括：

人工审核模块，适于若所述比值小于第一预设阈值但大于第二预设阈值，则进入人工审核流程，其中，所述第二预设阈值小于所述第一预设阈值。

可选地，所述***还包括：

上线模块，适于当所述目标规则达到上线要求时，对所述目标规则进行上线产出。

可选地，所述上线模块包括：

恶意网站识别子模块，适于当所述目标规则达到上线要求时，采用所述目标规则识别恶意网站；

客户端同步子模块，适于将所述目标规则同步至客户端中。

可选地，所述恶意网站识别子模块包括：

目标规则展示单元，适于展示当前针对基础数据生成的所有的目标规则；

确认操作检测单元，适于当检测到用户发起的确认操作时，判定所述目标规则达到上线要求，其中，所述确认操作为用户对所述目标规则进行抽样检测后，判定目标规则的命中率大于预设命中率阈值时执行的操作。

可选地，所述***还包括：

误报条件判断模块，适于针对上线产出后的目标规则，判断所述目标规则是否触发预设的误报条件；

下线模块，适于在所述目标规则触发预设的误报条件时，则将所述目标规则进行下线处理。

可选地，所述误报条件判断模块包括：

误报率获取子模块，适于获取所述目标规则在预设时间段内的误报率；

判定子模块，适于当所述误报率大于预设误报率阈值时，则判定所述目标规则触发预设的误报条件。

依据本发明的另一个方面，提供了一种规则发现的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

依据本发明的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

在本发明实施例中，对基础数据进行挖掘得到特征信息以后，可以采用至少两种规则发现引擎对该特征信息采用设定的发现算法进行规则发现，得到多个候选规则，并将满足设定标准的候选规则作为目标规则，通过自动生成规则的方式提高了规则生成的效率，保证了生成的规则在对恶意网站进行识别时的识别准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明一个实施例的一种规则发现的方法实施例的步骤流程图；

图2示出了根据本发明另一个实施例的一种规则发现的方法实施例的步骤流程图；

图3示出了本发明一个实施例的一种规则发现的***实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了根据本发明一个实施例的一种规则发现的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，采集基础数据，并从所述基础数据中提取一种或多种特征信息；

本发明实施例可以应用于服务器中，例如，可以应用于第三方安全应用程序对应的服务器中。

服务器可以通过数据挖掘***挖掘基础数据，在具体实现中，数据挖掘***可以从黑名单站点中抓取基础数据，或者，数据挖掘***可以获取全网用户对黑站的访问日志，从该访问日志中获取基础数据，或者，数据挖掘***还可以从全网的网页数据中挖掘基础数据，本发明实施例对基础数据的挖掘方式不作限定。

作为一种示例，该基础数据可以包括恶意网站的数据。例如，恶意网站可以包括钓鱼网站、木马网站、挂载挖矿脚本的网站等等。

获取基础数据以后，可以按照预设的数据提取规则，从基础数据中提取特征信息。

在实现中，特征信息可以为能够从网页数据中提取的信息，可以从多个维度获取网页数据中的特征信息，即该特征信息的种类可以有一种或则多种，作为本发明实施例的一种优选示例，该特征信息可以包括互联网协议IP数据、路径数据、关键内容数据、域名数据等。

其中，该IP数据可以包括IP地址、IP归属地、境内境外IP类型、IPC段(IP地址的C段)等信息。

路径数据可以包括查询的路径(query path)、路径片段等信息。

关键内容数据可以包括该站点对应的URL的标题title以及关键词keyword等信息。

需要说明的是，以上对特征信息的列举仅仅是举例说明，本发明实施例对特征信息的具体内容并不作限定，本领域技术人员根据实际需求定义各种类型的特征信息均是可以的。

步骤102，调用预设的规则引擎的接口，确定所述一种或多种特征信息对应的一个或多个候选规则；

在本发明实施例中，得到特征信息以后，可以调用预设的规则引擎的接口，将该特征信息输入规则引擎中，通过规则引擎中的学习算法，输出该特征信息对应的一个或多个候选规则。

在本发明实施例中，该规则引擎有两种类型，包括第一规则引擎和/或第二规则引擎，可以采用两种规则引擎中的至少一种进行规则发现，其中，该第一规则引擎用于单独对不同种类的特征信息进行规则发现；该第二规则引擎用于采用组合的方式结合至少两种特征信息进行规则发现。

具体的，第一规则引擎又称为单规则发现引擎，第二规则引擎又称为多规则组发现引擎。

得到特征信息以后，可以分别将不同的特征信息输入单规则发现引擎，单规则发现引擎采用预设的规则发现算法分别对不同的特征信息进行规则发现，输出与每种特征信息对应的候选规则。例如，针对IP数据，可以输出IP候选规则，针对路径数据，可以输出路径候选规则或者URL候选规则，针对关键内容数据，可以输出内容候选规则，针对域名数据，可以输出域名规则。

例如，以路径数据为例，单规则发现引擎进行规则发现的方式可以包括如下过程：将路径字段内容中关键字的参数值删除，保留共性因素关键字，计算该共性因素关键字的数量作为路径规则，和/或，按照排序规则对共性因素关键字进行排序，排序后的关键字作为路径规则。

需要说明的是，可以一种特征信息对应一个单规则发现引擎，即单规则发现引擎中只有一种特征信息的规则发现算法，例如，路径数据对应路径规则发现引擎，IP数据对应IP规则发现引擎等。也可以多种特征信息均对应一个单规则发现引擎，即单规则发现引擎中包含多种特征信息的规则发现算法，例如，路径数据对应单规则发现引擎中的路径规则发现算法，IP数据对应单规则发现引擎中的IP规则发现算法等。

对于多规则组发现引擎而言，可以将不同的特征信息同时输入多规则组发现引擎，多规则组发现引擎采用组合规则发现算法对不同的特征信息组合后进行规则发现，输出组合形式的候选规则。

例如，将IP数据与路径数据组合起来作为一组，进行规则发现，可以得到包含IP数据和路径数据的候选规则。

在具体实现中，该组合规则发现算法可以包括频繁项集挖掘算法，其中，频繁项集是指有一系列集合，这些集合有些相同的元素，集合中同时出现频率高的元素形成一个子集，满足一定阈值条件，就是频繁项集。

需要说明的是，多规则组发现引擎中的特征信息以组为单位，相似的特征信息可以放在一组，在进行规则发现时，以不同组的特征信息的结合进行规则发现，防止同组误报，例如，假设IP组内有基于IP和IPC段的规则产出，由于这两个规则关联度比较大，不可以作为多规则输出。

步骤103，将满足预设标准的候选规则确定为目标规则。

得到一个或多个候选规则以后，可以进一步校验该一个或多个候选规则是否满足预设标准，并将满足预设标准的候选规则确定为目标规则进行上线产出。

参照图2，示出了根据本发明另一个实施例的一种规则发现的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，采集基础数据，并从所述基础数据中提取一种或多种特征信息；

路径数据可以包括查询的路径(query path)、路径片段等信息。

步骤202，分别调用第一规则引擎以及第二规则引擎的接口，确定所述一种或多种特征信息对应的一个或多个候选规则；

在本发明实施例中，该规则引擎至少有两种类型，包括第一规则引擎以及第二规则引擎，其中，该第一规则引擎用于单独对不同种类的特征信息进行规则发现；该第二规则引擎用于采用组合的方式结合至少两种特征信息进行规则发现。则第一规则引擎又称为单规则发现引擎，第二规则引擎又称为多规则组发现引擎。

得到特征信息以后，可以分别调用第一规则引擎以及第二规则引擎的接口，进行规则发现。

具体的，针对单规则发现引擎，服务器可以调用单规则发现引擎提供的接口，分别将不同种类的特征信息发送至单规则发现引擎，单规则发现引擎采用预设的规则发现算法分别对不同的特征信息进行规则发现，输出与每种特征信息对应的候选规则。

例如，针对IP数据，可以输出IP候选规则，针对路径数据，可以输出路径候选规则或者URL候选规则，针对关键内容数据，可以输出内容候选规则，针对域名数据，可以输出域名规则。

以路径数据为例，单规则发现引擎进行规则发现的方式可以包括如下过程：将路径字段内容中关键字的参数值删除，保留共性因素关键字，计算该共性因素关键字的数量作为路径规则，和/或，按照排序规则对共性因素关键字进行排序，排序后的关键字作为路径规则。

针对多规则组发现引擎，服务器可以调用多规则组发现引擎提供的接口，将不同种类的特征信息发送至多规则组发现引擎，多规则组发现引擎采用组合规则发现算法对不同的特征信息组合后进行规则发现，输出组合形式的候选规则。

步骤203，判断所述候选规则是否满足预设标准；

从第一规则引擎和/或第二规则引擎中得到多种候选规则以后，服务器可以将该候选规则与预设标准进行比较，从而决策出目标规则。

在本发明实施例的一种优选实施例中，步骤203可以包括如下子步骤：

子步骤S11，分别采用所述候选规则对指定数量的黑站点进行匹配，并统计识别出的黑站的数量；

得到多个候选规则以后，可以采用已知的黑站对该候选规则进行校验。具体的，针对每条候选规则，可以分别采用该候选规则识别指定数量的黑站点，并统计该候选规则能够识别出的黑站的数量。

子步骤S12，计算识别出的黑站的数量与所述指定数量的比值；

得到每个候选规则能够识别出的黑站的数量以后，计算该识别出的黑站的数量与上述指定数量的比值，作为该候选规则的覆盖率。

子步骤S13，若所述比值大于第一预设阈值，则判定所述候选规则满足预设标准。

如果候选规则的覆盖率大于第一预设阈值，则可以判定该候选规则满足预设标准，否则，如果候选规则的覆盖率小于或等于第一预设阈值，则可以判定该候选规则不满足预设标准。

需要说明的是，为了保证校验的准确度，可以将第一预设阈值设定为较大的值，例如，设定为95％。为了进一步保证校验的准确度，该指定数量的设定可以为大于数值10的数量，使得覆盖率大于95％的情况下目标规则的能够识别的黑站数量大于10条。

步骤204，将满足预设标准的候选规则确定为目标规则；

将候选规则与预设标准进行比较后，可以将符合预设标准的候选规则作为目标规则，其中，目标规则可以为待上线产出的规则。在本发明实施例的一种优选实施例中，还可以包括如下步骤：

若所述比值小于第一预设阈值但大于第二预设阈值，则进入人工审核流程。

具体的，可以设定第二预设阈值小于第一预设阈值，例如，可以设定第二预设阈值为50％。

当候选规则的覆盖率小于第一预设阈值但大于第二预设阈值时，可以进入人工审核流程，在人工审核过程中，可以在交互界面中显示每个候选规则，由人工确认该候选规则是否为目标规则。

另外，如果候选规则的覆盖率小于第二预设阈值，则表示该候选规则的识别准确度较低，此时可以丢弃该候选规则。

步骤205，当所述目标规则达到上线要求时，对所述目标规则进行上线产出；

需要说明的是，得到目标规则以后，可以直接将该目标规则上线产出，但为了确保目标规则上线后的稳定性和识别的准确度，本发明实施例可以设定上线要求，当目标规则符合上线要求时才对目标规则上线产出。

在一种实施方式中，可以采用如下方式判断目标规则是否达到上线要求：

展示当前针对基础数据生成的所有的目标规则；当检测到用户发起的确认操作时，判定所述目标规则达到上线要求，其中，所述确认操作为用户对所述目标规则进行抽样检测后，判定目标规则的命中率大于预设命中率阈值时执行的操作。

具体的，服务器中可以设定规则观察***，通过上述方法得到多个目标规则以后，可以将该多个目标规则输入规则观察***。

规则观察***将多个目标规则通过客户端的交互界面进行展示，由人工抽样对目标规则进行校验。具体的，用户可以从该多个目标规则中抽取部分的目标规则进行校验，采用抽取的目标规则对已知黑站进行识别，计算抽取的目标规则对已知黑站的命中率，例如，目标规则有20条，抽取出10条对20个黑站进行识别，如果该10条规则对20个黑站的命中率达到95％，则表示该批次的目标规则满足上线要求。此时，用户可以通过客户端的交互界面中的确定按钮，发起确认操作，规则观察***检测到该确认操作以后，对该批次的目标规则进行上线产出。

需要说明的是，在该目标规则对已知黑站的识别过程中，还可以结合防误报***进行防误报校验，以保证识别准确率。

另外，如果目标规则不符合上线要求，例如，上述抽样的命中率低于95％，则用户可以通过客户端的交互界面中的下线按钮，发起下线操作，规则观察***检测到该下线操作以后，不将该目标规则上线。

在一种实施方式中，上述上线产出的过程，可以包括如下流程：当所述目标规则达到上线要求时，采用所述目标规则识别恶意网站；将所述目标规则同步至客户端中。

具体的，当目标规则符合上线要求时，则可以采用该目标规则对用户的上网行为进行实时监测，以识别恶意网站，为用户提供安全的网络环境。

同时，还可以将该目标规则发送至客户端，以进行客户端侧的规则库的同步，在客户端侧进行病毒防御，提高了病毒防御或恶意网站检测效率。

步骤206，针对上线产出后的目标规则，判断所述目标规则是否触发预设的误报条件；若所述目标规则触发预设的误报条件，则将所述目标规则进行下线处理。

在具体实现中，本发明实施例还可以对上线后的目标规则进行监控，如果检测到上线后的目标规则触发预设的误报条件，则将该目标规则进行下线处理，以保证识别的准确度。

在本发明实施例的一种优选实施例中，判断目标规则是否触发预设的误报条件，包括：获取所述目标规则在预设时间段内的误报率；当所述误报率大于预设误报率阈值时，则判定所述目标规则触发预设的误报条件。

具体的，当目标规则上线后，当该目标规则进行站点识别时，可以统计一段时间内该目标规则识别的站点的数量以及出错的数量，计算两者的比值得到误报率。如果该误报率达到预设误报率阈值，例如高于30％，则表示该目标规则识别的准确度不高，此时，可以对该目标规则进行下线处理。

在实际中，出错的站点可以由防误报***根据预设的误报规则进行检测得到，也可以是人工报错，本发明实施例对此不作限制。

在一种实施方式中，防误报***可以采用如下方式进行防误报检测：

接收识别结果信息，所述识别结果信息包括通过目标规则识别出的恶意网站的标识信息；基于所述标识信息，获取所述恶意网站的多维特征信息；确定符合误报规则的特征信息；获取所述符合误报规则的特征信息的数量或者比例；若所述数量大于或等于第一预设阈值和/或所述比例大于或等于第二预设阈值，则判定所述识别结果信息为误报的识别结果；若所述数量小于第一预设阈值和/或所述比例小于第二预设阈值，则判定所述识别结果信息不为误报的识别结果。

在具体实现中，防误报***可以根据全网的搜索数据结合预设的黑名单数据，进行数据挖掘，得到当前恶意网站的特征信息。

在本发明实施例中，该特征信息可以是多个维度的特征信息，作为一种示例，该特征信息可以包括通过查询获得的属性信息、通过统计得到的统计信息等。

进一步的，作为一种示例，该属性信息可以包括如下信息的至少一种：所述该恶意网站的URL信息、网络内容服务商ICP(Internet Content Provider，网络内容服务商)备案信息、WHOIS信息等。

该统计信息可以包括如下信息的至少一种：

该恶意网站的页面浏览量PV和/或独立访客量UV；

该恶意网站的服务器IP地址下的黑站数量和/或黑站比例；

该恶意网站的子站数量和/或URL数量；

该恶意网站中进入搜索引擎的实际记录数；

获取WHOIS注册时间后，计算的所述WHOIS注册时间距离当前时间的注册时长。

需要说明的是，上述的特征信息只是本发明实施例的一种示例说明，本领域技术人员根据实际需求定义其他维度的特征信息均是可以的，本发明实施例对此不作限定。

在一种实施方式中，可以采用如下方式确定符合误报规则的特征信息：

方式一：判断所述属性信息是否在预置的白名单列表中；若是，则判定所述属性信息符合误报规则；若否，则判定所述属性信息不符合误报规则，例如，可以包括如下情况的至少一种或结合：

(1)判断所述ICP备案信息是否在预置的ICP备案白名单列表中；

在具体实现中，防误报***中可以设置有ICP备案白名单列表，其中包含了通过验证的ICP备案信息。

如果恶意网站的ICP备案信息在该ICP备案白名单列表中，则表示该恶意网站实际为通过验证的网站，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。如果恶意网站的ICP备案信息不在该ICP备案白名单列表中，则该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(2)判断所述WHOIS信息是否在预置的WHOIS注册白名单列表中；

在具体实现中，防误报***中可以设置有WHOIS注册白名单列表，其中包含了通过验证的域名信息。

如果恶意网站的WHOIS信息在该WHOIS注册白名单列表中，则表示该恶意网站的域名实际为通过验证的域名，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。如果恶意网站的WHOIS信息不在该WHOIS注册白名单列表中，则该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(3)判断所述URL信息是否在预置的网址白名单列表中。

在具体实现中，防误报***中可以设置有网址白名单列表，其中包含了采集的知名站点的网址信息。

如果恶意网站的URL信息在该网址白名单列表中，则表示该恶意网站实际为知名网站，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。如果恶意网站的URL信息不在该网址白名单列表中，则该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

方式二：根据所述统计信息以及对应的统计阈值的比较结果，确定所述统计信息是否符合误报规则，例如，可以包括如下情况的至少一种或结合：

(4)若所述页面浏览量大于预设浏览量阈值，和/或，所述独立访客量大于预设独立访客量阈值，则判定所述统计信息符合误报规则。

具体的，如果该恶意网站的PV和/或UV数据都较大，大于预设的阈值的情况下，表示该网站的访问量大，受欢迎的程度较高，则其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果PV或者UV数据都较低，则表示该网站受欢迎的程度较低，则该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(5)当所述服务器IP地址下的黑站数量小于预设黑站数量阈值，和/或，所述黑站比例小于预设比例值，则判定所述统计信息符合误报规则；

在具体实现中，可以设置网站黑名单列表，根据恶意网站的标识信息可以获取恶意网站下的所有子站和/或URL的信息，并将该子站和/或URL的信息与网站黑名单列表进行匹配，如果存在匹配项，则将匹配的子站或者URL作为黑站，匹配完成以后，可以计算黑站的数量，并根据黑站的数量与该恶意网站的总子站数量，计算黑站比例。

如果该黑站数量和/或黑站比例都较小，小于预设的阈值的情况下，表示该网站为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果该黑站数量和/或黑站比例都较大，则表示该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(6)当所述子站数量大于预设的子站阈值，和/或，所述URL数量大于预设的URL阈值，则判定所述统计信息符合误报规则；

如果该恶意网站下的子站数量和/或URL数量都较大，大于预设的阈值的情况下，表示该恶意网站的结构比较复杂，模仿难度大，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果恶意网站下的子站数量和/或URL数量都较少，表示该恶意网站的结构比较简单，模仿难度小，则表示该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(7)当所述进入搜索引擎的实际记录数大于预设的记录数阈值，则判定所述统计信息符合误报规则；

具体的，进入搜索引擎的实际记录数可以为该网站或其子站被搜索引擎抓取的记录的数量。如果该恶意网站下进入搜索引擎的实际记录数较大，大于预设的阈值的情况下，表示该恶意网站为比较受欢迎的网站，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果恶意网站下的进入搜索引擎的实际记录数较少，则表示该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(8)若所述注册时长大于预设的时间阈值，则判定所述统计信息符合误报规则。

具体的，注册时长大于预设的时间阈值的网站，表示其注册时间比较早，通常注册时间比较早的网站很难被攻击，所以如果该恶意网站下的注册时长大于预设的时间阈值，表示该网站注册时间比较早，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果恶意网站下的注册时长小于或等于预设的时间阈值，表示该网站注册时间比较晚，则表示该网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

需要说明的是，本发明实施例并不限于上述的特征信息的判断方式，本领域技术人员根据实际需求定义其他与特征信息匹配的误报规则均是可以的，本发明实施例对此不作限定。

为了提高防误报***的检测准确度，可以结合上述特征信息中的至少两种特征信息(包括全部)的判断结果进行最终的防误报判断，例如，如果上述(1)-(8)的情况中，可以设定阈值，当上述八种判断方式中，判定符合误报规则的特征信息的数量或者比例超过该阈值，才判定该识别结果信息为误判的结果，如果低于阈值，则判定该识别结果信息不为误判的结果。

防误报***进行防误报检测得到检测结果以后，可以将该检测结果返回该目标规则对应的客户端和/或服务器，以通知客户端和/或服务器其采用目标规则进行识别得到的识别结果是否存在误报。

在本发明实施例中，在目标规则确定以后，在上线之前，还可以进行上线条件的判断，当符合上线条件时才进行上线产出，针对上线后的目标规则，实时检测其是否触发误报条件，当触发误报条件时，对其进行下线处理，保证了目标规则的识别准确度。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了根据本发明一个实施例的一种规则发现的***实施例的结构框图，所述***可以包括如下模块：

数据采集模块301，适于采集基础数据；

特征提取模块302，适于从所述基础数据中提取一种或多种特征信息；

候选规则确定模块303，适于调用预设的规则引擎的接口，确定所述一种或多种特征信息对应的一个或多个候选规则，其中，所述规则引擎包括第一规则引擎和/或第二规则引擎，所述第一规则引擎用于单独对不同种类的特征信息进行规则发现；所述第二规则引擎用于采用组合的方式结合至少两种特征信息进行规则发现；

目标规则确定模块304，适于将满足预设标准的候选规则确定为目标规则。

在本发明实施例的一种优选实施例中，所述特征提取模块302还适于：

在本发明实施例的一种优选实施例中，所述基础数据包括恶意网站的数据。

在本发明实施例的一种优选实施例中，所述特征信息包括如下信息的至少一种：互联网协议IP数据、路径数据、关键内容数据、域名数据。

在本发明实施例的一种优选实施例中，所述***还包括：

所述判断模块包括：

在本发明实施例的一种优选实施例中，所述***还包括：

在本发明实施例的一种优选实施例中，所述上线模块包括：

客户端同步子模块，适于将所述目标规则同步至客户端中。

在本发明实施例的一种优选实施例中，所述恶意网站识别子模块包括：

在本发明实施例的一种优选实施例中，所述***还包括：

在本发明实施例的一种优选实施例中，

所述误报条件判断模块包括：

对于***实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种规则发现的设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的规则发现的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的规则发现的方法的步骤。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的规则发现的方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种规则发现的方法，所述方法包括：

将满足预设标准的候选规则确定为目标规则。

A2、如A1所述的方法，所述从所述基础数据中提取一种或多种特征信息的步骤包括：

A3、如A1或A2所述的方法，所述基础数据包括恶意网站的数据。

A4、如A3所述的方法，所述特征信息包括如下信息的至少一种：互联网协议IP数据、路径数据、关键内容数据、域名数据。

A5、如A1或A2所述的方法，所述将满足预设标准的候选规则确定为目标规则的步骤之前，还包括判断所述候选规则是否满足预设标准的步骤，包括：

计算所述识别出的黑站的数量与所述指定数量的比值；

A6、如A5所述的方法，所述方法还包括：

A7、如A1或A2所述的方法，所述方法还包括：

A8、如A7所述的方法，所述当所述目标规则达到上线要求时，对所述目标规则进行上线产出的步骤包括：当所述目标规则达到上线要求时，采用所述目标规则识别恶意网站；

将所述目标规则同步至客户端中。

A9、如A8所述的方法，采用如下方式判断目标规则是否达到上线要求：

展示当前针对基础数据生成的所有的目标规则；

A10、如A7所述的方法，所述方法还包括：

A11、如A10所述的方法，所述判断所述目标规则是否触发预设的误报条件的步骤包括：

获取所述目标规则在预设时间段内的误报率；

本发明还公开了B12、一种规则发现的***，所述***包括：

数据采集模块，适于采集基础数据；

B13、如B12所述的***，所述特征提取模块还适于：

B14、如B12或B13所述的***，所述基础数据包括恶意网站的数据。

B15、如B14所述的***，所述特征信息包括如下信息的至少一种：互联网协议IP数据、路径数据、关键内容数据、域名数据。

B16、如B12或B13所述的***，还包括：

所述判断模块包括：

B17、如B16所述的***，所述***还包括：

B18、如B12或B13所述的***，所述***还包括：

B19、如B18所述的***，所述上线模块包括：

客户端同步子模块，适于将所述目标规则同步至客户端中。

B20、如B19所述的***，所述恶意网站识别子模块包括：

B21、如B18所述的***，所述***还包括：

B22、如B21所述的***，所述误报条件判断模块包括：

本发明还公开了C23、一种规则发现的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现A1至A11任一项所述方法的步骤。

本发明还公开了D24、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现A1至A11任一项所述方法的步骤。

Claims

1.一种规则发现的方法，所述方法包括：

计算所述识别出的黑站的数量与所述指定数量的比值；

若所述比值大于第一预设阈值，则判定所述候选规则满足预设标准；

将满足预设标准的候选规则确定为目标规则。

2.如权利要求1所述的方法，其特征在于，所述从所述基础数据中提取一种或多种特征信息的步骤包括：

3.如权利要求1或2所述的方法，其特征在于，所述基础数据包括恶意网站的数据。

4.如权利要求3所述的方法，其特征在于，所述特征信息包括如下信息的至少一种：互联网协议IP数据、路径数据、关键内容数据、域名数据。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

6.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

7.如权利要求6所述的方法，其特征在于，所述当所述目标规则达到上线要求时，对所述目标规则进行上线产出的步骤包括：当所述目标规则达到上线要求时，采用所述目标规则识别恶意网站；

将所述目标规则同步至客户端中。

8.如权利要求7所述的方法，其特征在于，采用如下方式判断目标规则是否达到上线要求：

展示当前针对基础数据生成的所有的目标规则；

9.如权利要求6所述的方法，其特征在于，所述方法还包括：

10.如权利要求9所述的方法，其特征在于，所述判断所述目标规则是否触发预设的误报条件的步骤包括：

获取所述目标规则在预设时间段内的误报率；

11.一种规则发现的***，所述***包括：

数据采集模块，适于采集基础数据；

所述判断模块包括：

预设标准判断子模块，适于计算所述识别出的黑站的数量与所述指定数量的比值；若所述比值大于第一预设阈值，则判定所述候选规则满足预设标准；

12.如权利要求11所述的***，其特征在于，所述特征提取模块还适于：

13.如权利要求11或12所述的***，其特征在于，所述基础数据包括恶意网站的数据。

14.如权利要求13所述的***，其特征在于，所述特征信息包括如下信息的至少一种：互联网协议IP数据、路径数据、关键内容数据、域名数据。

15.如权利要求11所述的***，其特征在于，所述***还包括：

16.如权利要求11或12所述的***，其特征在于，所述***还包括：

17.如权利要求16所述的***，其特征在于，所述上线模块包括：

客户端同步子模块，适于将所述目标规则同步至客户端中。

18.如权利要求17所述的***，其特征在于，所述恶意网站识别子模块包括：

19.如权利要求16所述的***，其特征在于，所述***还包括：

20.如权利要求19所述的***，其特征在于，所述误报条件判断模块包括：

21.一种规则发现的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任一项所述方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10任一项所述方法的步骤。