CN111639277A

CN111639277A - 机器学习样本集的自动化提取方法和计算机可读存储介质

Info

Publication number: CN111639277A
Application number: CN202010440435.3A
Authority: CN
Inventors: 陈建勇; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: DBAPPSecurity Co Ltd; Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-08

Abstract

本申请涉及一种机器学习样本集的自动化提取方法、计算机设备和计算机可读存储介质。其中，该机器学习样本集的自动化提取方法包括：按照单位时间从网站访问日志中提取访问数据集；从访问数据集中提取出每个单位时间内源IP地址和请求URL均不同的目标访问数据；将目标访问数据标记为正常访问数据，并存入机器学习样本集。通过本申请，解决了机器学习样本的准备过程效率低下的问题，提高了机器学习样本的准备效率。

Description

机器学习样本集的自动化提取方法和计算机可读存储介质

技术领域

本申请涉及数据处理领域，特别是涉及机器学习样本集的自动化提取方法、计算机设备和计算机可读存储介质。

背景技术

当WEB应用越来越为丰富的同时，WEB服务器以其强大的计算能力、处理性能及蕴含的较高价值逐渐成为主要攻击目标。SQL注入、网页篡改、网页挂马等安全事件，频繁发生。

企业等用户一般采用防火墙作为安全保障体系的第一道防线。但是，在现实中，他们存在这样那样的问题，由此产生了Web应用防护***(Web Application Firewall，简称为WAF)。WAF代表了一类新兴的信息安全技术，用以解决诸如防火墙一类传统设备束手无策的Web应用安全问题。与传统防火墙不同，WAF 工作在应用层，因此对Web应用防护具有先天的技术优势。基于对Web应用业务和逻辑的深刻理解，WAF对来自Web应用程序客户端的各类请求进行内容检测和验证，确保其安全性与合法性，对非法的请求予以实时阻断，从而对各类网站站点进行有效防护。

当前WAF的主要防护手段，依靠的是基于规则的保护。基于规则的保护可以提供各种Web应用的安全规则，WAF生产商会维护这个规则库，并时时为其更新。用户可以按照这些规则对应用进行全方面检测。采用基于规则的防护方法，经常会出现漏报和误报。因为其本质上是基于已知的特征在网站流量中来进行匹配的，难免会带来误报和漏报。

在WAF中，使用机器学习模型来对所有访问日志的安全性进行学习，然后用学习好的机器学习模型来预测访问请求的安全性，从而实现访问请求的安全性检测是一种能够发现未知特征的安全风险的有效方式。

然而，机器学习模型的训练通常采用监督学习方法，需要使用大量的样本来训练机器学习模型，样本的数量通常在数千至数万不等。以最简单的二分类机器学习模型为例，二分类机器学习的样本可以仅使用正样本、仅使用负样本或者同时使用正样本和负样本。对于每个样本，通常都由人工判断这个样本的分类标签，并人工标记标签。

目前针对相关技术中需要人工判断样本的分类标签并进行人工标记标签导致的机器学习样本的准备需要耗费大量的人力，并且效率低下的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种机器学习样本集的自动化提取方法、计算机设备和计算机可读存储介质，以至少解决相关技术中机器学习样本的准备过程效率低下的问题。

第一方面，本申请实施例提供了一种机器学习样本集的自动化提取方法，包括：按照单位时间从网站访问日志中提取访问数据集；从所述访问数据集中提取出每个单位时间内源IP地址和请求URL均不同的目标访问数据；将所述目标访问数据标记为正常访问数据，并存入机器学习样本集。

在其中一些实施例中，按照单位时间从网站访问日志中提取访问数据集包括：从所述网站访问日志中提取一个单位时间内的访问数据，并将所述一个单位时间内的访问数据作为所述访问数据集。

在其中一些实施例中，按照单位时间从网站访问日志中提取访问数据集包括：从所述网站访问日志中提取访问数据，并将所述访问数据按照所述单位时间进行分片，得到多个访问数据集。

在其中一些实施例中，在按照单位时间从网站访问日志中提取访问数据集之后，所述方法还包括：从所述访问数据集中筛除具有预设特征的访问数据。

在其中一些实施例中，所述预设特征包括HTTP响应码为404或5XX的 HTTP访问数据；从所述访问数据集中筛除具有预设特征的访问数据包括：提取所述访问数据集中访问数据的HTTP响应码；将HTTP响应码为404或5XX的访问数据从所述访问数据集中删除。

在其中一些实施例中，所述预设特征包括访问对象为静态文件，其中，所述静态文件包括以下至少之一：图片、CSS页面、JS页面。

在其中一些实施例中，所述单位时间为8小时、12小时或24小时。

在其中一些实施例中，在将所述目标访问数据标记为正常访问数据，并存入机器学习样本集之后，所述方法还包括：判断所述机器学习样本集中的样本数量是否达到预设数量阈值；在判断到所述机器学习样本集中的样本数量未达到预设数量阈值的情况下，继续按照所述单位时间从所述网站访问日志中提取新的访问数据集，从所述新的访问数据集中提取出每个单位时间内源IP地址和请求 URL均不同的新的目标访问数据；将所述新的目标访问数据标记为正常访问数据，并存入所述机器学习样本集。

第二方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的机器学习样本集的自动化提取方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的机器学习样本集的自动化提取方法。

相比于相关技术，本申请实施例提供的机器学习样本集的自动化提取方法、计算机设备和计算机可读存储介质，通过按照单位时间从网站访问日志中提取访问数据集；从访问数据集中提取出每个单位时间内源IP地址和请求URL均不同的目标访问数据；将目标访问数据标记为正常访问数据，并存入机器学习样本集的方式，解决了机器学习样本的准备过程效率低下的问题，提高了机器学习样本的准备效率。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的机器学习样本集的自动化提取方法的流程图；

图2是根据本申请优选实施例的机器学习样本集的自动化提取方法的流程图；

图3是根据本申请实施例的计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。

术语解释：

机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习包括诸如支持向量机、随机森林等浅层学习，也包括诸如卷积神经网络、强化学习网络、生成对抗网络、循环神经网络等深度学习。

样本集：在机器学习和模式识别等领域中，可以将样本分成独立的一个或者多个样本集。按照样本的分类标签(二分类)可以分成正样本集和负样本集；按照样本的作用，可以分为训练集(train set)、验证集(validation set)和测试集(test set)等。其中训练集用来训练模型，验证集用来确定网络结构或者控制模型复杂程度的参数，而测试集则用来检验模型的性能。一个典型的划分是训练集占总样本的50％，而其它各占25％，三部分都是从样本集中随机抽取。

打标签：在机器学习中，将将样本进行分类，形成的类别就属于标签。在典型的二分类场景中，分类标签包括正标签和负标签。例如，在访问请求检测场景中，可以将访问请求分为为安全请求(打正标签)和不安全请求(打负标签)。

机器学习监督学习：监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

本实施例提供了一种机器学习样本集的自动化提取方法。图1是根据本申请实施例的机器学习样本集的自动化提取方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，按照单位时间从网站访问日志中提取访问数据集。

本实施例中的网站访问日志，可以是从Web服务器或者审计设备等直接、实时获取的在线访问日志，也可以是从数据库中获取到的离线访问日志。其中，单位时间可以根据需要设定，设定的原则是：在能够提取到的访问数据的数量越大的情况下，单位时间可以相应设置更长时间；在需要生成的样本集中样本数量越大的情况下，单位时间可以相应设置更短时间。在能够提取到的访问数据的数量和需要生成的样本集中样本数量之间折中，选取单位时间长度。通常而言，单位时间长度可以选取为24小时、12小时或者8小时。

在步骤S101中获取到的访问数据集中，通常包括多条访问数据，每条访问数据都至少包括：HTTP响应请求码、请求URL、访问源IP地址、访问时间等等数据。如果访问数据是由访问代理生成的，则可以从访问数据中的HTTP请求头中的X_Forwarded_For字段中获取访问源IP地址。

步骤S102，从访问数据集中提取出每个单位时间内源IP地址和请求URL 均不同的目标访问数据。

在步骤S102中，在每个按照单位时间划分的访问数据集中，提取目标访问数据，提取到的目标访问数据中的每条访问数据，以源IP地址和请求URL作为联合的关键词去重，即提取到目标访问数据中去除了源IP地址与请求URL均相同的访问数据，这样对于同一个IP地址对同一个URL的访问请求，在单位时间内提取的目标访问数据中只保留一次访问数据，作为网站的正常访问流量。

步骤S103，将目标访问数据标记为正常访问数据，并存入机器学习样本集。

在步骤S103中，将提取到的目标访问数据标记为正常访问数据的标签，从而得到正样本；将这些正样本存入机器学习样本集中，最终能够得到用于机器学习的样本库。

在一个正常访问的网上中，不可能所有访问源都是攻击。在一个网站中，如果在长时间内绝大多数源IP地址发起的访问请求都是攻击，这几乎是不可能的；这相当于一个网站的长时间的异常流量高于正常流量，这样其网站业务承载价值已经远远低于攻击流量的成本，这是不现实的。在本实施例中，通过源IP地址和访问URL加权，在长时间大量的访问日志数量下的稀释，提取到的日志样本中出现攻击的情况是极少的。正式基于上述原理，在本实施例中从网站访问日志中提取到的样本集中的样本，都可以认为是正常访问数据，将这些样本标记为正样本，即得到了能够用于机器学习模型训练的样本集。

通过上述步骤，解决了机器学习样本的准备过程效率低下的问题，提高了机器学习样本的准备效率。

在提取网站访问日志中的访问数据时，可以按照访问时间，逐一遍历每条访问数据。为了能够方便提取每个单位时间内的目标访问数据，在步骤S101中，可以每次从网站访问日志中提取一个单位时间内的访问数据，并将一个单位时间内的访问数据作为访问数据集。在步骤S101中，也可以每次从网站访问日志中提取长时间的访问数据，并将这些访问数据按照单位时间进行分片，得到多个访问数据集，然后在步骤S102中，分别从每个访问数据集中独立提取目标访问数据。

由于从每个访问数据集中提取到的目标访问数据的数量是不确定的，为了得到具有预设数量的样本的机器学习样本集，在步骤S103之后，可以判断机器学习样本集中的样本数量是否达到预设数量阈值；在判断到机器学习样本集中的样本数量未达到预设数量阈值的情况下，再次执行上述步骤S101～步骤S103，直至机器学习样本集中的亚昂本数量达到预设数量阈值为止。其中，在每次循环的步骤S101中提取到的访问数据集与此前的循环中提取到的访问数据集尽量不存在交集，即相同的原始数据，只提取依次访问数据集，避免相同的原始数据被多次提取。

在提取到的访问数据集中，有的访问数据是对访问请求的安全性检测没有影响的访问数据，例如HTTP响应码为404或5XX的HTTP访问数据；又例如对静态文件的访问。因此，可以根据预设特征对访问数据集中的访问数据进行预处理，筛除对访问请求的安全性检测没有影响的访问数据。上述的预设特征包括但不限于HTTP响应码为404或5XX的HTTP访问数据、访问对象为静态文件的访问数据。其中，静态文件包括但不限于以下至少之一：图片、CSS页面、JS 页面等。

其中，HTTP响应码又称为HTTP状态码。响应码404表示服务器找不到所请求的网页。响应码5XX代表了一类HTTP响应码，例如响应码500表示服务器内部错误，无法完成请求；响应码502表示服务器作为网关或代理，从上游服务器收到无效响应；响应码503表示服务器目前无法使用；响应码504表示服务器作为网关或代理，但是没有及时从上游服务器收到请求；响应码505表示服务器不支持请求中所用的HTTP协议版本。

在其中一些实施例中，预设特征包括HTTP响应码为404或5XX的HTTP 访问数据；从访问数据集中筛除具有预设特征的访问数据包括：提取访问数据集中访问数据的HTTP响应码；将HTTP响应码为404或5XX的访问数据从访问数据集中删除。

本实施例通过对网站的访问日志，按照访问源IP地址和访问URL进行加权，同一个IP对同一URL的访问，在一定的单位时间内仅记1次的访问日志到网站正常流量样本库，使用大量的历史访问日志，就可以自动化的构建好网站正常流量样本库。通过本实施例可以自动化的提取到网站的大批量正常流量数据，使得后续无论采用何种机器学习训练模型，都不用为大量的人工标记工作量担心。

下面通过优选实施例对本申请进行描述和说明。本实施例中，以网站“www.test.com”的几条访问数据来作为示例介绍。本实施例中，单位时间按经验值定为24小时，训练样本数量阈值为10万条访问数据。

图2是根据本申请优选实施例的机器学习样本集的自动化提取方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，遍历访问日志，提取基础数据。

输入的访问数据总数为4条，通过遍历每一条访问数据，提取出的HTTP响应码、请求URL、访问源IP数据、访问时间如下：

源IP	URL	状态码	时间
				183.149.70.160	/AdminCP/SubSystem/PanelMenuWeb.jsp	200	03/Aug/2016:00:11:23
115.202.252.19	/AdminCP/SubSystem/PanelMenuWeb.jsp	200	03/Aug/2016:00:11:23
				115.202.252.19	/AdminCP/SubSystem/PanelMenuWeb.jsp	200	03/Aug/2016:00:11:30
127.0.0.1	/AdminCP/generate/tpl_89143.jsp	404	03/Aug/2016:00:11:46

步骤S202，筛选符合条件的访问数据，进行运算。

筛选掉不符合条件的访问数据。去掉第4条访问日志，其状态码为404；去掉第3条日志，因其与第2条访问数据的访问源IP地址、请求URL相同，并且两次请求相隔时间为3秒，小于单位时间24小时。所以经过运算之后符合条件样本为以下2条：

源IP	URL	状态码	时间
				183.149.70.160	/AdminCP/SubSystem/PanelMenuWeb.jsp	200	03/Aug/2016:00:11:23
115.202.252.19	/AdminCP/SubSystem/PanelMenuWeb.jsp	200	03/Aug/2016:00:11:23

步骤S203，生成正常流量样本库。

经过运算之后，符合录入正常流量样本库的访问数据为上述2条。此时数量仅为2条，未达到训练样本数量阈值(100000条)，所以需要继续遍历访问日志达到阈值方走完流程。

另外，结合图1描述的本申请实施例的机器学习样本集的自动化提取方法可以由计算机设备来实现。图3为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器31以及存储有计算机程序指令的存储器32。

具体地，上述处理器31可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器35可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器35可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器35可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器35可在数据处理装置的内部或外部。在特定实施例中，存储器35是非易失性(Non-Volatile)存储器。在特定实施例中，存储器35包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(Random Access Memory，简称为RAM)。在合适的情况下，该ROM 可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory，简称为EPROM)、电可擦除PROM(ElectricallyErasable Programmable Read-Only Memory，简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-AccessMemory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器35可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器32所执行的可能的计算机程序指令。

处理器31通过读取并执行存储器32中存储的计算机程序指令，以实现上述实施例中的任意一种机器学习样本集的自动化提取方法。

在其中一些实施例中，计算机设备还可包括通信接口33和总线30。其中，如图3所示，处理器31、存储器32、通信接口33通过总线30连接并完成相互间的通信。

通信接口33用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口33还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线30包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线30包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线30可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为 FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、***组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线30 可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的机器学习样本集的自动化提取方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种机器学习样本集的自动化提取方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种机器学习样本集的自动化提取方法，其特征在于，包括：

按照单位时间从网站访问日志中提取访问数据集；

从所述访问数据集中提取出每个单位时间内源IP地址和请求URL均不同的目标访问数据；

将所述目标访问数据标记为正常访问数据，并存入机器学习样本集。

2.根据权利要求1所述的方法，其特征在于，按照单位时间从网站访问日志中提取访问数据集包括：

从所述网站访问日志中提取一个单位时间内的访问数据，并将所述一个单位时间内的访问数据作为所述访问数据集。

3.根据权利要求1所述的方法，其特征在于，按照单位时间从网站访问日志中提取访问数据集包括：

从所述网站访问日志中提取访问数据，并将所述访问数据按照所述单位时间进行分片，得到多个访问数据集。

4.根据权利要求1所述的方法，其特征在于，在按照单位时间从网站访问日志中提取访问数据集之后，所述方法还包括：

从所述访问数据集中筛除具有预设特征的访问数据。

5.根据权利要求4所述的方法，其特征在于，所述预设特征包括HTTP响应码为404或5XX的HTTP访问数据；从所述访问数据集中筛除具有预设特征的访问数据包括：

提取所述访问数据集中访问数据的HTTP响应码；

将HTTP响应码为404或5XX的访问数据从所述访问数据集中删除。

6.根据权利要求4所述的方法，其特征在于，所述预设特征包括访问对象为静态文件，其中，所述静态文件包括以下至少之一：图片、CSS页面、JS页面。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述单位时间为8小时、12小时或24小时。

8.根据权利要求1至6中任一项所述的方法，其特征在于，在将所述目标访问数据标记为正常访问数据，并存入机器学习样本集之后，所述方法还包括：

判断所述机器学习样本集中的样本数量是否达到预设数量阈值；

在判断到所述机器学习样本集中的样本数量未达到预设数量阈值的情况下，继续按照所述单位时间从所述网站访问日志中提取新的访问数据集，从所述新的访问数据集中提取出每个单位时间内源IP地址和请求URL均不同的新的目标访问数据；将所述新的目标访问数据标记为正常访问数据，并存入所述机器学习样本集。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的机器学习样本集的自动化提取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的机器学习样本集的自动化提取方法。