CN111814192B

CN111814192B - 训练样本生成方法及装置、敏感信息检测方法及装置

Info

Publication number: CN111814192B
Application number: CN202010888434.5A
Authority: CN
Inventors: 林博
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2021-04-27
Anticipated expiration: 2040-08-28
Also published as: CN111814192A

Abstract

本说明书实施例提供了用于敏感信息检测的训练样本生成方法及装置、敏感信息检测方法及装置。该训练样本生成方法包括：通过采样获得多条请求信息,请求信息具有对应的响应信息;利用预设的多个正则表达式，对各条响应信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，各正则表达式对应不同的敏感类别；对于提取出的至少部分上下文信息，根据其涉及的疑似敏感信息所属的敏感类别，确定对应的敏感类别标签；从而生成标记有敏感类别标签的训练样本,如此生成的训练样本用于敏感信息检测，从而防止用户隐私数据泄露，保护隐私数据的安全。

Description

训练样本生成方法及装置、敏感信息检测方法及装置

技术领域

本说明书实施例涉及计算机技术领域，具体地，涉及用于敏感信息检测的训练样本生成方法及装置、敏感信息检测模型的训练方法及装置、保护隐私的敏感信息检测方法及装置。

背景技术

敏感信息（也可称为隐私信息）检测是数据流转监控和风险感知的重要环节。由于网络请求的数量非常庞大，待检测的敏感信息类型又非常多，如果采用一般的检测算法，例如针对每个网络请求对应的响应信息进行敏感信息检测，通常会占用较多的计算资源，执行效率也很低，难以满足实时对抗的需求。

因而，需要一种合理、可靠的敏感信息检测方案，能够满足实时对抗的需求。

发明内容

本说明书实施例提供了用于敏感信息检测的训练样本生成方法及装置、敏感信息检测模型的训练方法及装置、保护隐私的敏感信息检测方法及装置。

第一方面，本说明书实施例提供了一种用于敏感信息检测的训练样本生成方法，包括：通过采样获得多条请求信息,其中,请求信息具有对应的响应信息;利用预设的多个正则表达式，对所述多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，所述多个正则表达式对应不同的敏感类别；对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签；对于所述至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本, 训练样本用于敏感信息检测，从而防止隐私数据泄露。

在一些实施例中，所述通过采样获得多条请求信息，包括：从预先划分的至少一个时间分区对应的各条请求信息中，采样出部分请求信息。

在一些实施例中，在所述从预先划分的至少一个时间分区对应的各条请求信息中，采样出部分请求信息之前，所述方法还包括：对预先划分的多个时间分区进行采样，得到采样出的所述至少一个时间分区。

在一些实施例中，所述多个时间分区包括，通过对一天的时段进行划分而得的各个时间分区，每个时间分区的时长为预设时长。

在一些实施例中，请求信息包括HTTP请求报文，响应信息包括HTTP响应报文。

在一些实施例中，敏感类别包括以下中的多种：身份证、密码、工资金额、缴费金额、银行卡、验证码。

在一些实施例中，所述从预先划分的至少一个时间分区对应的各条请求信息中，采样出部分请求信息，包括：从所述各条请求信息中的每条请求信息中，提取出至少一项请求内容；根据提取出的请求内容，对所述各条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

在一些实施例中，所述至少一项请求内容包括域名信息和以下至少一项：路径信息、目标键值对，所述目标键值对中的值不属于发送请求信息的用户的个人信息；以及所述根据提取出的请求内容，对所述各条请求信息进行聚类，包括：对所述各条请求信息进行分组，其中，将包含相同域名信息的请求信息划分到同一组；对于划分出的每个请求信息组，根据从该请求信息组中的请求信息中提取出的除域名信息以外的请求内容，对该请求信息组中的请求信息进行聚类。

在一些实施例中，响应信息的组成部分包括响应正文；以及所述对所述多条请求信息对应的各条响应信息,进行疑似敏感信息检测，包括：对所述各条响应信息的响应正文进行疑似敏感信息检测。

在一些实施例中，在所述对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签之前，所述方法还包括：对于所述多条请求信息中的至少部分请求信息，利用所述多个正则表达式，对所述至少部分请求信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。

在一些实施例中，所述对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签，包括：向样本标注人员输出，所述至少部分上下文信息，以及所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，以使所述样本标注人员进行类别修正；接收所述样本标注人员提供的类别修正结果；对于所述至少部分上下文信息中的上下文信息，若所述类别修正结果包括所述样本标注人员针对该上下文信息添加的敏感类别标签，则将该添加的敏感类别标签确定为该上下文信息对应的敏感类别标签；若所述类别修正结果不包括所述样本标注人员针对该上下文信息添加的敏感类别标签，则将该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定为该上下文信息对应的敏感类别标签。

在一些实施例中，所述对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签，包括：根据提取出的各条上下文信息，对所述各条上下文信息对应的各条请求信息进行采样，得到二次采样出的请求信息；对于所述二次采样出的请求信息对应的上下文信息，根据该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该上下文信息对应的敏感类别标签；以及所述对于所述至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本，包括：对于所述二次采样出的请求信息对应的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本。

在一些实施例中，所述根据提取出的各条上下文信息，对所述各条上下文信息对应的各条请求信息进行采样，包括：根据所述各条上下文信息，对所述各条上下文信息对应的各条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

第二方面，本说明书实施例提供了一种敏感信息检测模型的训练方法，包括：获取训练样本集，其中，训练样本标记有上下文信息和敏感类别标签，所述上下文信息是，响应于利用预设的多个正则表达式，从预先收集的请求信息或响应信息中检测到疑似敏感信息，而提取的疑似敏感信息的上下文信息；根据所述训练样本集，对待训练的检测模型进行训练，得到敏感信息检测模型，该敏感信息检测模型用于检测敏感信息，防止隐私数据泄露。

在一些实施例中，所述待训练的检测模型的组成部分包括以下中的多个：用于提取强正则特征的正则模型、用于提取统计特征的树模型、用于提取语义特征的深度学习模型，其中，所述强正则特征包括，所述正则表达式中所涉及的特征项。

在一些实施例中，所述树模型包括以下任一项：随机森林模型、极端梯度提升模型；所述深度学习模型包括以下任一项：长短期记忆网络LSTM、卷积神经网络CNN、BERT模型。

第三方面，本说明书实施例提供了一种保护隐私的敏感信息检测方法，包括：从目标时间分区对应的多条请求信息中，采样出部分请求信息，其中，请求信息具有对应的响应信息；利用预设的多个正则表达式，对采样所得的各条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，所述多个正则表达式对应不同的敏感类别；确定提取出的各条上下文信息是否包含在检测结果信息集合中，其中，检测结果信息包括上下文信息和敏感类别标签；若所述各条上下文信息中存在包含在所述检测结果信息集合中的第一上下文信息，则根据该第一上下文信息对应的敏感类别标签，确定该第一上下文信息对应的第一检测结果；若所述各条上下文信息中存在未包含在所述检测结果信息集合中的第二上下文信息，则利用采用如第二方面中的实现方式描述的方法训练所得的敏感信息检测模型，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，得到第二检测结果。

在一些实施例中，所述从目标时间分区对应的多条请求信息中，采样出部分请求信息，包括：从所述多条请求信息中的每条请求信息中，提取出至少一项请求内容；根据提取出的请求内容，对所述多条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

在一些实施例中，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，包括：根据所述各条第二上下文信息，对其对应的各条请求信息进行采样，得到二次采样出的请求信息；对于所述二次采样出的请求信息对应的第二上下文信息，利用所述敏感信息检测模型，对该第二上下文信息进行敏感信息检测。

在一些实施例中，在所述确定提取出的各条上下文信息是否包含在检测结果信息集合中之前，所述方法还包括：对于所述采样所得的各条请求信息中的至少部分请求信息，利用所述多个正则表达式，对所述至少部分请求信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。

第四方面，本说明书实施例提供了一种用于敏感信息检测的训练样本生成装置，包括：获取单元，被配置成通过采样获得多条请求信息,其中,请求信息具有对应的响应信息;提取单元，被配置成利用预设的多个正则表达式，对所述多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，所述多个正则表达式对应不同的敏感类别；确定单元，被配置成对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签；生成单元，被配置成对于所述至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本, 训练样本用于敏感信息检测，从而防止隐私数据泄露。

第五方面，本说明书实施例提供了一种敏感信息检测模型的训练装置，包括：获取单元，被配置成获取训练样本集，其中，训练样本标记有上下文信息和敏感类别标签，所述上下文信息是，响应于利用预设的多个正则表达式，从预先收集的请求信息或响应信息中检测到疑似敏感信息，而提取的疑似敏感信息的上下文信息；模型训练单元，被配置成根据所述训练样本集，对待训练的检测模型进行训练，得到敏感信息检测模型，该敏感信息检测模型用于检测敏感信息，防止隐私数据泄露。

第六方面，本说明书实施例提供了一种保护隐私的敏感信息检测装置，包括：获取单元，被配置成从目标时间分区对应的多条请求信息中，采样出部分请求信息，其中，请求信息具有对应的响应信息；提取单元，被配置成利用预设的多个正则表达式，对采样所得的各条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，所述多个正则表达式对应不同的敏感类别；确定单元，被配置成确定提取出的各条上下文信息是否包含在检测结果信息集合中，其中，检测结果信息包括上下文信息和敏感类别标签；第一检测单元，被配置成若所述各条上下文信息中存在包含在所述检测结果信息集合中的第一上下文信息，则根据该第一上下文信息对应的敏感类别标签，确定该第一上下文信息对应的第一检测结果；第二检测单元，被配置成若所述各条上下文信息中存在未包含在所述检测结果信息集合中的第二上下文信息，则利用采用如第二方面中的实现方式描述的方法训练所得的敏感信息检测模型，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，得到第二检测结果。

第七方面，本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令该计算机执行如第一方面、第二方面和第三方面中任一实现方式描述的方法。

第八方面，本说明书实施例提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现如第一方面、第二方面和第三方面中任一实现方式描述的方法。

本说明书的上述实施例提供的用于敏感信息检测的训练样本生成方法及装置，先通过采样获得多条请求信息，可以避免后续针对全部请求信息对应的响应信息进行分析，能减少正则算法的运行次数，由此能减少对计算资源的占用。而后，通过利用预设的多个正则表达式，对该多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，然后对于提取出的至少部分上下文信息，根据该至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该至少部分上下文信息分别对应的敏感类别标签，以便针对该至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本,以用于敏感信息检测。由此，针对多种敏感类别分别设置简单的用于疑似敏感信息检测的正则表达式，通过对该正则表达式的有效利用，便可以快速地获得用于敏感信息检测的训练样本，从而能防止隐私数据泄露。

此外，如前所述的训练样本还可以用于训练得到敏感信息检测模型。并且，可以将训练样本所标记的上下文信息和敏感类别标签组成检测结果信息，并进行存储。在实际应用中，可以结合已有的检测结果信息集合和训练所得的敏感信息检测模型，针对从目标时间分区对应的多条请求信息中采样出的部分请求信息所对应的响应信息，进行敏感信息检测。由此，本说明书的上述实施例提供的保护隐私的敏感信息检测方法，在实际应用中不仅能减少对计算资源的占用，而且可以减少运行模型的次数，以及提升执行效率，防止隐私数据泄露，因而能够满足实时对抗的需求。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本说明书的一些实施例可以应用于其中的一个示例性***架构图；

图2是根据本说明书的用于敏感信息检测的训练样本生成方法的一个实施例的流程图；

图3是根据本说明书的敏感信息检测模型的训练方法的一个实施例的流程图；

图4是待训练的检测模型的组成结构的一个示意图；

图5是根据本说明书的保护隐私的敏感信息检测方法的一个实施例的流程图；

图6是用于敏感信息检测的训练样本生成方法、敏感信息检测模型的训练方法和保护隐私的敏感信息检测方法的执行过程的一个示意图；

图7是根据本说明书的用于敏感信息检测的训练样本生成装置的一个结构示意图；

图8是根据本说明书的敏感信息检测模型的训练装置的一个结构示意图；

图9是根据本说明书的保护隐私的敏感信息检测装置的一个结构示意图。

具体实施方式

下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本说明书中的实施例及实施例中的特征可以相互组合。

如前所述，由于网络请求的数量非常庞大，待检测的敏感信息类型又非常多，如果采用一般的检测算法，例如针对每个网络请求对应的响应信息进行敏感信息检测，通常会占用较多的计算资源，执行效率也很低，难以满足实时对抗的需求。

基于此，本说明书的一些实施例提供了用于敏感信息检测的训练样本生成方法、敏感信息检测模型的训练方法和保护隐私的敏感信息检测方法。其中，本说明书提供的方案可以分为三个阶段，即样本准备阶段、模型训练阶段和预测阶段。该训练样本生成方法适用于样本准备阶段，该训练方法适用于模型训练阶段，该敏感信息检测方法适用于预测阶段。

具体地，图1示出了适用于这些实施例的示例性***架构图。

如图1所示，其示出了样本管理***、模型训练***和敏感信息检测***。其中，这三种***可以分别体现为服务器或服务器集群。该服务器可以包括云服务器或物理服务器等。可选地，这三种***中的至少一个***也可以体现为客户端。可选地，这三种***可以是同一个***，也可以是不同的***，在此不做具体限定。

在样本准备阶段，样本管理***可以通过采样获得多条请求信息，其中，请求信息具有对应的响应信息。需要说明的是，本说明书中的请求信息可以包括采用各种网络传输协议的请求信息，例如可以包括但不限于采用HTTP（HyperText Transfer Protocol，超文本传输协议）的请求信息等。实践中，采用HTTP的请求信息可称为HTTP请求报文，该请求信息对应的响应信息可称为HTTP响应报文。

样本管理***可以对获得的多条请求信息对应的各条响应信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。之后，可以确定提取出的至少部分上下文信息分别对应的敏感类别标签。然后，可以根据该至少部分上下文信息和其对应的敏感类别标签，生成训练样本。其中，训练样本可以用于敏感信息检测，还可以用于训练得到敏感信息检测模型。

具体地，可以将训练样本所标记的上下文信息和敏感类别标签组成检测结果信息，并进行存储，以使得敏感信息检测***在预测阶段中，利用由所存储的检测结果信息所形成的检测结果信息集合，进行敏感信息检测。

在模型训练阶段，模型训练***可以获取如前所述的训练样本所形成的训练样本集，并利用该训练样本集，对待训练的检测模型进行训练，得到敏感信息检测模型。该敏感信息检测模型可以应用于敏感信息检测***，以使得敏感信息检测***在预测阶段中，利用该敏感信息检测模型进行敏感信息检测。

在预测阶段，敏感信息检测***可以对目标时间分区对应的多条请求信息进行采样，并对采样所得的各条请求信息对应的各条响应信息进行疑似敏感信息检测，以及提取出检测到的疑似敏感信息的上下文信息。而后，敏感信息检测***可以利用敏感信息检测模型和如前所述的检测结果信息集合，对所提取的上下文信息进行敏感信息检测，得到检测结果。

下面，结合具体的实施例，描述上述方法的具体实施步骤。

首先，先介绍适用于样本准备阶段的用于敏感信息检测的训练样本生成方法。

参看图2，其示出了用于敏感信息检测的训练样本生成方法的一个实施例的流程200。该方法的执行主体可以为如图1所示的样本管理***。该方法包括以下步骤：

步骤201，通过采样获得多条请求信息,其中,请求信息具有对应的响应信息;

步骤203，利用预设的多个正则表达式，对多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，多个正则表达式对应不同的敏感类别；

步骤205，对于提取出的至少部分上下文信息，根据至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定至少部分上下文信息分别对应的敏感类别标签；

步骤207，对于至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本,以用于敏感信息检测。

下面，对步骤201-207进行说明。

在步骤201中，可以通过随机采样获得多条请求信息，后续针对采样所得的该多条请求信息进行分析等处理，以减少计算量，进而减少对计算资源的占用。其中，请求信息可以包括但不限于HTTP请求报文等。当该请求信息包括HTTP请求报文时，该请求信息对应的响应信息包括HTTP响应报文。

实践中，上述执行主体可以采用各种处理手段进行采样。

例如，可以对预先收集的请求信息集合中的请求信息进行随机采样，以从该请求信息集合中采样出部分请求信息。

再例如，可以从预先划分的至少一个时间分区对应的各条请求信息中，采样出部分请求信息。其中，该至少一个时间分区例如可以是预先划分出的多个时间分区。对于任意一个时间分区，该时间分区对应的请求信息包括，发送时间或接收时间处于该时间分区内的请求信息。可选地，该至少一个时间分区也可以是，通过对该多个时间分区进行采样而得到的。例如，在上述从预先划分的至少一个时间分区对应的各条请求信息中，采样出部分请求信息之前，可以对预先划分的多个时间分区进行采样，得到采样出的该至少一个时间分区。

上述多个时间分区可以包括，通过对一天的时段（例如00：00-23:59）进行划分而得的各个时间分区。每个时间分区的时长为预设时长。其中，时间分区也可称为小时分区。预设时长可以为15分钟、30分钟或1个小时等，在此不做具体限定。

需要说明的是，不同时间分区对应的请求信息可能具有不同的特点，通过预先划分出多个时间分区，并对所划分出的时间分区所对应的请求信息进行采样，可以获得较为全面、较为丰富的请求信息样本。

可选地，为了进一步获得更为全面、更为丰富的请求信息样本，对于上述至少一个时间分区对应的各条请求信息，可以从该各条请求信息中的每条请求信息中提取出至少一项请求内容，根据提取出的请求内容，对该各条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

其中，所提取的请求内容属于不同请求信息中的通用信息，可用于聚类。例如，该至少一项请求内容可以包括域名信息。可选地，该至少一项请求内容在包括域名信息的同时，还可以包括以下至少一项：路径信息、目标键值对等。目标键值对中的值不属于发送请求信息的用户的个人信息。

若上述至少一项请求内容仅包括域名信息，聚类可以理解为分组。例如，上述根据提取出的请求内容，对该各条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息，可以包括：对该各条请求信息进行分组，其中，将包含相同域名信息的请求信息划分到同一组；从划分出的各个请求信息组中分别采样出部分请求信息。

若上述至少一项请求内容包括域名信息和以下至少一项：路径信息、目标键值对等，则上述根据提取出的请求内容，对该各条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息，可以包括：对该各条请求信息进行分组，其中，将包含相同域名信息的请求信息划分到同一组；对于划分出的每条请求信息组，根据从该请求信息组中的请求信息中提取出的除域名信息以外的请求内容，对该请求信息组中的请求信息进行聚类。可选地，对于该请求信息组中的每条请求信息，可以将从该请求信息中提取出的除域名信息以外的请求内容组成向量。而后，可以采用对所组成的向量进行聚类的方式，实现对该请求信息组中的请求信息的聚类。

需要说明的是，在对该请求信息组中的请求信息进行聚类时，可以采用各种适用的聚类算法，例如可以包括但不限于K-MEANS（K均值）聚类算法、用高斯混合模型（GaussianMixed Model，GMM）的最大期望（Estimation Maximization，EM）聚类等。应该理解，聚类算法可以根据实际需求设置，在此不做具体限定。

在步骤203中，可以利用预设的用于疑似敏感信息检测的多个正则表达式，对采样所得的上述多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。其中，该多个正则表达式对应不同的敏感类别。敏感类别例如可以包括以下中的多种：身份证、密码、工资金额、缴费金额、银行卡、验证码等等。应该理解，本说明书不对敏感类别的种类做具体限定。

实践中，在执行上述流程200之前，可以设置多种敏感类别，并为每种敏感类别设置较为简单的正则表达式，使得该正则表达式用于该敏感类别的信息的检测。其中，由于正则表达式较为简单，其检测结果可能不准确，因而利用该正则表达式检测出的敏感信息可称为疑似敏感信息。

通常，响应信息的组成部分可以包括响应正文（也可称为响应体），响应正文中存在用户所请求的数据。该数据可以是JSON（JavaScript Object Notation，JavaScript对象表示法）、XML（eXtensible Markup Language，可扩展标记语言）或HTML等树状结构类型的数据，或者可以是SQL（Structured Query Language，结构化查询语言）中的序列结构类型的数据，或者可以是键值对形式的数据，在此不做具体限定。

在利用上述多个正则表达式，对上述多条请求信息对应的各条响应信息进行疑似敏感信息检测时，可以对该各条响应信息的响应正文进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。其中，上下文信息包括，与疑似敏感信息有紧密联系的上下文关键信息。作为示例，假设在采用键值对形式的数据中检测到身份证号“410***2525”，可以提取出该身份证号所在的键值对，例如“身份证号=410***2525”，其中，“身份证号”可称为键（key），“410***2525”可称为值（value）。

可选地，当响应正文中的数据采用树状结构时，可以提取出疑似敏感信息所在的最小子树等。当响应正文中的数据采用序列结构时，可以提取出疑似敏感信息所在的记录等。在此不做具体限定。

可选地，在执行步骤205之前，还可以对采样所得的请求信息进行疑似敏感信息检测。具体地，对于采样所得的上述多条请求信息中的至少部分请求信息，可以利用上述多个正则表达式，对该至少部分请求信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。其中，该至少部分请求信息的组成部分可以包括请求正文（也可称为请求体），可以对该至少部分请求信息的请求正文进行疑似敏感信息检测。

在步骤205中，对于提取出的至少部分上下文信息，可以根据该至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该至少部分上下文信息分别对应的敏感类别标签。其中，疑似敏感信息所属的敏感类别具体为，检测到该疑似敏感信息的正则表达式所对应的敏感类别。

敏感类别标签可以示出任意一种敏感类别（例如前文中罗列的任意一种敏感类别），或者示出非敏感类别。对于任一条上下文信息，若其对应的敏感类别标签示出一种敏感类别，则可以表示该上下文信息包括属于该敏感类别的敏感信息。若该上下文信息对应的敏感类别标签示出非敏感类别，则可以表示该上下文信息不包括敏感信息。

上述至少部分上下文信息可以包括提取出的各条上下文信息，或者该各条上下文信息中的部分上下文信息。在针对该部分上下文信息，确定其分别对应的敏感类别标签时，可以进一步减少对计算资源的占用，以及节约时间成本。可选地，该部分上下文信息可以包括，在下文中描述的二次采样出的请求信息对应的上下文信息。

在针对上述至少部分上下文信息，确定其分别对应的敏感类别标签时，可以采用多种确定方法。

作为一种实现方式，对于上述至少部分上下文信息中的上下文信息，可以直接将该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定为该上下文信息对应的敏感类别标签。

作为另一种实现方式，为了提高所确定的敏感类别标签的准确度，可以采用人工修正方式，对上下文信息所涉及的疑似敏感信息所属的敏感类别进行类别修正。

具体地，可以向样本标注人员输出，上述至少部分上下文信息，以及上述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，以使样本标注人员进行类别修正。而后，可以接收样本标注人员提供的类别修正结果。对于上述至少部分上下文信息中的上下文信息，若类别修正结果包括样本标注人员针对该上下文信息添加的敏感类别标签，则可以将该添加的敏感类别标签确定为该上下文信息对应的敏感类别标签。若类别修正结果不包括样本标注人员针对该上下文信息添加的敏感类别标签，则可以将该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定为该上下文信息对应的敏感类别标签。

由此，通过疑似敏感信息预检测和人工进行类别修正相结合的方式，可以在较短的时间内获得较为准确的敏感类别标签，可以有效地节约时间成本，以及减轻样本标注人员的工作压力。

可选地，为了进一步减少对计算资源的占用，以及减少模型训练阶段的模型运行次数，以提升执行效率，可以根据提取出的各条上下文信息，对该各条上下文信息对应的各条请求信息进行采样，得到二次采样出的请求信息。而后，对于二次采样出的请求信息对应的上下文信息，可以根据该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该上下文信息对应的敏感类别标签。

在对提取出的各条上下文信息所对应的各条请求信息进行采样时，可以对该各条请求信息进行分组，其中，将包含相同域名信息的请求信息划分到同一组。而后，对于划分出的每个请求信息组，根据该请求信息组中的请求信息对应的上下文信息，对该请求信息组中的请求信息进行聚类，并从聚类所得的各个类簇中采样出部分请求信息。

其中，对于该请求信息组中的每条请求信息，该请求信息对应的上下文信息来源于该请求信息和/或该请求信息对应的响应信息。在对该请求信息组中的请求信息进行聚类时，可以先将该请求信息组中的每条请求信息所对应的各条上下文信息组成向量。而后，可以采用对所组成的向量进行聚类的方式，实现对该请求信息组中的请求信息的聚类。

可选地，对于该请求信息组中的每条请求信息，可以将该请求信息所对应的各条上下文信息合并为上下文信息组，并将该上下文信息组和该请求信息所属的类簇的类簇标识进行对应存储。由此，后续的预测阶段中，进行初次聚类、采样时，所存储的上下文信息组和类簇标识，可以作为初次聚类时的参考数据，有助于提升聚类的准确性。

在步骤207中，可以针对上述至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本,该训练样本用于敏感信息检测，从而防止隐私数据泄露。其中，可以将所生成的训练样本存储到样本管理***本地，也可以存储到其他服务器中，在此不做具体限定。

实践中，可以将训练样本所标记的上下文信息和敏感类别标签组成检测结果信息，并进行存储，以用于敏感信息检测。如此，后续的预测阶段中，可以参考由已存储的检测结果信息所形成的检测结果信息集合，以提升敏感信息检测速度。

此外，所生成的训练样本还可以用于训练得到敏感信息检测模型。关于该模型的训练方法，可参看下文中的与模型训练阶段有关的内容。

本说明书的上述实施例提供的用于敏感信息检测的训练样本生成方法，通过采样获得多条请求信息，可以避免后续针对全部请求信息对应的响应信息进行分析，能减少正则算法的运行次数，由此能减少对计算资源的占用。而后，通过利用预设的多个正则表达式，对该多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，然后对于提取出的至少部分上下文信息，根据该至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该至少部分上下文信息分别对应的敏感类别标签，以便针对该至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本,以用于敏感信息检测。由此，针对多种敏感类别分别设置简单的用于疑似敏感信息检测的正则表达式，通过对该正则表达式的有效利用，便可以快速地获得用于敏感信息检测的训练样本，从而能防止隐私数据泄露。

以上介绍了适用于样本准备阶段的用于敏感信息检测的训练样本生成方法，下面介绍适用于模型训练阶段的敏感信息检测模型的训练方法。

参看图3，其示出了敏感信息检测模型的训练方法的一个实施例的流程300。该方法的执行主体可以为如图1所示的模型训练***。该方法包括以下步骤：

步骤301，获取训练样本集，其中，训练样本标记有上下文信息和敏感类别标签，上下文信息是，响应于利用预设的多个正则表达式，从预先收集的请求信息或响应信息中检测到疑似敏感信息，而提取的疑似敏感信息的上下文信息；

步骤303，根据训练样本集，对待训练的检测模型进行训练，得到敏感信息检测模型。

其中，在步骤301中，训练样本集可以包括采用图2对应的实施例描述的方法生成的训练样本。

在步骤303中，待训练的检测模型可以基于多种特征进行检测，该多种特征可以包括以下中的多个：强正则特征、统计特征、语义特征。

进一步地，待训练的检测模型的组成部分可以包括以下中的多个：用于提取强正则特征的正则模型、用于提取统计特征的树模型、用于提取语义特征的深度学习模型等。

如图4所示，其示出了待训练的检测模型的组成结构的一个示意图。在图4中，待训练的检测模型包括如前所述的正则模型、树模型和深度学习模型。应该理解，待训练的检测模型除了包括图4示出的三种模型外，还可以包括其他的组成部分，该其他的组成部分例如可以包括但不限于输入层、输出层等。

强正则特征可以理解为，用正则表达式容易提取的特征。例如，强正则特征包括，上述多个正则表达式中所涉及的特征项。统计特征可以理解为经统计而得的特征，例如可以包括但不限于数量、出现次数、数据位数等等。

树模型例如可以包括随机森林（Random Forest，RF）模型或极端梯度提升（eXtreme Gradient Boosting，XGBoost）模型等。深度学习模型例如可以包括长短期记忆网络（Long Short-Term Memory，LSTM）、卷积神经网络（Convolutional Neural Network，CNN）或BERT模型等。

实践中，可以将训练样本集中的训练样本所包括的上下文信息输入待训练的检测模型，使得该检测模型对输入的上下文信息进行特征提取，并根据提取出的特征进行敏感信息检测，以及输出检测结果。而后，可以对该上下文信息对应的敏感类别标签和该检测结果进行比较，并根据比较结果调整该检测模型的参数。

需要指出的是，当待训练的检测模型不包括用于提取统计特征的树模型时，在模型训练过程中，可以每次输入一条或多条上下文信息。当该检测模型包括该树模型时，在模型训练过程中，每次输入多条上下文信息。其中，多条上下文信息可以包括，训练样本集中的全部或部分训练样本所标记的上下文信息。

需要说明的是，由于待训练的检测模型可以基于上述多种特征进行检测，因而可以使得训练所得的敏感信息检测模型具有较高的检测准确度，能输出具有较高准确度的检测结果。后续，可以将该敏感信息检测模型应用于不同的场景，例如数据流转监控场景、风控场景等，有助于进行风险感知，降低风险。

本实施例提供的敏感信息检测模型的训练方法，通过获取如前所述的训练样本集，并根据该训练样本集，对待训练的检测模型进行训练，可以快速获得具有较高检测准确度的敏感信息检测模型，该敏感信息检测模型用于检测敏感信息，防止隐私数据泄露。

实践中，在训练得到敏感信息检测模型后，便可以将该模型部署上线，应用于实际场景中，以进行敏感信息检测。通常，可认为已应用于实际场景中的模型处于预测阶段。

下面，介绍适用于预测阶段的敏感信息检测方法。

参看图5，其示出了保护隐私的敏感信息检测方法的一个实施例的流程500。该方法的执行主体可以为如图1所示的敏感信息检测***。该方法包括以下步骤：

步骤501，从目标时间分区对应的多条请求信息中，采样出部分请求信息，其中，请求信息具有对应的响应信息；

步骤503，利用预设的多个正则表达式，对采样所得的各条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，多个正则表达式对应不同的敏感类别；

步骤505，确定提取出的各条上下文信息是否包含在检测结果信息集合中，其中，检测结果信息包括上下文信息和敏感类别标签；

步骤507，若提取出的各条上下文信息中存在包含在检测结果信息集合中的第一上下文信息，则根据第一上下文信息对应的敏感类别标签，确定该第一上下文信息对应的第一检测结果；

步骤509，若提取出的各条上下文信息中存在未包含在检测结果信息集合中的第二上下文信息，则利用敏感信息检测模型，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，得到第二检测结果。

下面，对步骤501-509进行说明。

在步骤501中，目标时间分区是实际运行的时间分区。具体地，目标时间分区可以是当天的时段中的一个子时段。目标时间分区的时长可以为在图2对应实施例中描述的预设时长。此外，目标时间分区可以是当前时间点所在的时间分区。可选地，目标时间分区也可以是当前时间点所在的时间分区的上一个时间分区。

目标时间分区对应的多条请求信息可以包括，发送时间或接收时间处于目标时间分区的请求信息。请求信息可以包括但不限于HTTP请求报文等。当该请求信息包括HTTP请求报文时，该请求信息对应的响应信息包括HTTP响应报文。

可选地，上述执行主体可以定期地执行上述流程500。具体地，当目标时间分区是当前时间点所在的时间分区的上一个时间分区时，上述执行主体例如可以在目标时间分区的下一个时间分区的起始时间点执行上述流程500。当目标时间分区是当前时间点所在的时间分区时，在目标时间分区内，上述执行主体可以每隔第一设定时长（例如20秒、30秒、50秒、1分钟、2分钟等）执行一次上述流程500。应该理解，第一设定时长可以根据实际需求设置，在此不做具体限定。

可选地，上述执行主体也可以实时地执行上述流程500。例如，上述执行主体可以响应于接收到与目标时间分区有关的敏感信息检测请求而执行上述流程500。

实践中，上述执行主体可以采用各种处理手段进行请求信息采样。例如，可以直接从目标时间分区对应的多条请求信息中，采样出部分请求信息。

再例如，可以从目标时间分区对应的多条请求信息中的每条请求信息中，提取出至少一项请求内容，根据提取出的请求内容，对该多条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。其中，在进行聚类时，可以采用在图2对应的实施例中描述的聚类方法。

可选地，为了提升聚类的准确性，也可以根据提取出的请求内容，以及预设的多个上下文信息组和该多个上下文信息组分别对应的类簇标识，对目标时间分区对应的多条请求信息进行聚类。其中，该多个上下文信息组和其分别对应的类簇标识，在图2对应的实施例中描述过。

需要说明的是，可以直接对目标时间分区对应的多条请求信息进行聚类。或者，也可以先对该多条请求信息进行分组，然后对每个请求信息组中的请求信息聚类。

以先分组后聚类为例，上述至少一项请求内容可以包括，在前文中描述的域名信息和以下至少一项：路径信息、目标键值对等。可以先对目标时间分区对应的多条请求信息进行分组，其中，将包含相同域名信息的请求信息划分到同一组。而后，对于划分出的每个请求信息组，根据从该请求信息组中的请求信息中提取出的除域名信息以外的请求内容，以及上述多个上下文信息组和其对应的类簇标识，对该请求信息组中的请求信息进行聚类。

其中，在对请求信息组中的请求信息进行聚类时，可以执行以下步骤A-C：

A、针对请求信息组中的每条请求信息，确定上述多个上下文信息组中是否存在满足以下条件的目标上下文信息组：所包括的各条上下文信息分别包含在该请求信息或该请求信息对应的响应信息中。若存在目标上下文信息组，则将目标上下文信息组对应的类簇标识分配给该请求信息；

B、若请求信息组中存在分配有相同类簇标识的至少两条第一请求信息，则将该至少两条第一请求信息归入同一个类簇；

C、若请求信息组中存在未经聚类的第二请求信息，则根据从各条第二请求信息中提取出的除域名信息以外的请求内容，对该各条第二请求信息进行聚类。

此外，在直接对目标时间分区对应的多条请求信息进行聚类时，可以参考上述步骤A-C。其中，可将请求信息组适应性地调整为目标时间分区对应的多条请求信息，以及将步骤C中的“提取出的除域名信息以外的请求内容”适应性地调整为“提取出的各项请求内容”。

对于步骤503，可参考图2对应实施例中的步骤203的相关说明。

可选地，在执行步骤505和步骤507之前，还可以对采样所得的请求信息进行疑似敏感信息检测。具体地，对于采样所得的各条请求信息中的至少部分请求信息，可以利用上述多个正则表达式，对该至少部分请求信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。其中，该至少部分请求信息的组成部分可以包括请求正文，可以对该至少部分请求信息的请求正文进行疑似敏感信息检测。

在步骤505中，对于提取出的每条上下文信息，可以将该上下文信息与检测结果信息集合中的上下文信息进行比较，以确定提取出的每条上下文信息是否包含在检测结果信息集合中。之后，可以执行步骤507和/或步骤509。

其中，检测结果信息集合中可以存在，来源于图2对应的实施例中所生成的训练样本的检测结果信息。可选地，若敏感信息检测模型不是初次运行，则检测结果信息集合中还可以存在，来源于敏感信息检测模型的历史检测结果的检测结果信息。

在步骤507中，若提取出的各条上下文信息中存在包含在检测结果信息集合中的第一上下文信息，则可以根据该第一上下文信息对应的敏感类别标签（包含该第一上下文信息的检测结果信息中的敏感类别标签），确定该第一上下文信息对应的第一检测结果。其中，可以将该敏感类别标签确定为该第一检测结果，或者，可以将该第一上下文信息和该敏感类别标签组成该第一检测结果。

在步骤509中，若提取出的各条上下文信息中存在未包含在检测结果信息集合中的第二上下文信息，则可以利用采用图3对应的实施例描述的方法训练所得的敏感信息检测模型，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，得到第二检测结果。其中，该至少部分第二上下文信息包括，该各条第二上下文信息中的全部或部分上下文信息。

第二检测结果可以示出，针对输入的第二上下文信息预测的类别。可选地，第二检测结果可以示出，输入的第二上下文信息，以及针对该第二上下文信息预测的类别。其中，对于第二预测结果示出的每个类别，该类别可以为非敏感类别或者某种具体的敏感类别（例如身份证、密码、工资金额、缴费金额、银行卡或验证码等）。

需要指出的是，当敏感信息检测模型不包括用于提取统计特征的树模型时，在往敏感信息检测模型输入第二上下文信息时，每次可以输入一条或多条第二上下文信息。当敏感信息检测模型包括该树模型时，在往敏感信息检测模型输入第二上下文信息时，每次可以输入多条第二上下文信息。其中，多条第二上下文信息可以包括，上述至少部分第二上下文信息中的全部或部分第二上下文信息。

可选地，为了减少模型运行次数，提升执行效率，在上述对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测之前，可以对在步骤501中采样出的请求信息进行二次采样。具体地，可以根据各条第二上下文信息，对其对应的各条请求信息进行采样，得到二次采样出的请求信息。而后，对于二次采样出的请求信息对应的第二上下文信息，利用敏感信息检测模型，对该第二上下文信息进行敏感信息检测。关于二次采样方法，可参考图2对应实施例中的相关说明。

可选地，在得到第二检测结果后，可以根据第二检测结果生成检测结果信息，并存储该检测结果信息，以用于敏感信息检测。其中，所存储的检测结果信息可以归入上述检测结果信息集合。

实践中，若第二检测结果示出上下文信息和该上下文信息对应的类别，则可以将该类别作为敏感类别标签，并将该上下文信息和该敏感类别标签组成检测结果信息。若第二检测结果仅示出其对应的上下文信息的类别，则可以将该第二检测结果示出的类别作为敏感类别标签，并将该第二检测结果对应的该上下文信息和该敏感类别标签组成检测结果信息。

需要说明的是，本说明书中的“第一”、“第二”仅用于信息区分，不用于任何限定。

本实施例提供的保护隐私的敏感信息检测方法，通过从目标时间分区对应的多条请求信息中采样出部分请求信息，可以避免后续针对该多条请求信息中的全部请求信息对应的响应信息进行分析，能减少正则算法的运行次数，由此能减少对计算资源的占用。而后利用多个正则表达式进行敏感信息初筛，之后结合已有的检测结果信息集合和敏感信息检测模型，对初筛出的涉及疑似敏感信息的上下文信息进行敏感信息检测，不仅可以获得具有较高准确度的检测结果，还可以提升执行效率，能够满足实时对抗的需求。

下面，以HTTP请求报文和HTTP响应报文为例，描述用于敏感信息检测的训练样本生成方法、敏感信息检测模型的训练方法和保护隐私的敏感信息检测方法的执行过程。如图6所示，其示出了该执行过程的一个示意图。在该执行过程中，如前所述的时间分区称为小时分区。

具体地，在步骤601中，样本管理***从预先划分的多个小时分区中采样出至少一个小时分区；

在步骤603中，样本管理***从至少一个小时分区对应的各条HTTP请求报文中，采样出部分HTTP请求报文；

在步骤605中，样本管理***利用预设的多个正则表达式，对采样出的各条HTTP请求报文对应的各条HTTP响应报文，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，多个正则表达式对应不同的敏感类别；

在步骤607中，样本管理***根据提取出的各条上下文信息，对该各条上下文信息对应的各条HTTP请求报文进行采样，得到二次采样出的HTTP请求报文；

在步骤609中，对于二次采样出的HTTP请求报文对应的上下文信息，样本管理***根据该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该上下文信息对应的敏感类别标签；

在步骤611中，对于二次采样出的HTTP请求报文对应的上下文信息，样本管理***生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本；

在步骤613中，模型训练***获取训练样本集，其中，训练样本集包括在步骤611中生成的训练样本；

在步骤615中，模型训练***根据训练样本集，对待训练的检测模型进行训练，得到敏感信息检测模型；

在步骤617中，敏感信息检测***从目标小时分区对应的多条HTTP请求报文中，采样出部分HTTP请求报文；

在步骤619中，敏感信息检测***利用预设的多个正则表达式，对采样所得的各条请求HTTP请求报文对应的各条HTTP响应报文，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，多个正则表达式对应不同的敏感类别；

在步骤621中，敏感信息检测***确定提取出的各条上下文信息是否包含在检测结果信息集合中，其中，检测结果信息包括上下文信息和敏感类别标签；

在步骤623中，若提取出的各条上下文信息中存在包含在检测结果信息集合中的第一上下文信息，则敏感信息检测***根据该第一上下文信息对应的敏感类别标签，确定该第一上下文信息对应的第一检测结果；

在步骤625中，若提取出的各条上下文信息中存在未包含在检测结果信息集合中的第二上下文信息，则敏感信息检测***根据各条第二上下文信息，对其对应的各条HTTP请求报文进行采样，得到二次采样出的HTTP请求报文；

在步骤627中，对于二次采样出的HTTP请求报文对应的第二上下文信息，利用敏感信息检测模型，对该第二上下文信息进行敏感信息检测，得到第二检测结果。

可选地，在步骤607之前，对于在步骤603中采样出的各条HTTP请求报文中的至少部分HTTP请求报文，样本管理***可以利用如前所述的多个正则表达式，对该至少部分HTTP请求报文进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。

可选地，在步骤621之前，对于在步骤617中采样出的各条HTTP请求报文中的至少部分HTTP请求报文，敏感信息检测***可以利用上述多个正则表达式，对该至少部分HTTP请求报文进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。

需要说明的是，关于上述执行过程中的各个步骤的详细解释，可参考前文中的相关说明，在此不再细述。

另外，图6仅示出了与HTTP请求报文和HTTP响应报文有关的执行过程，对于采用其他网络传输协议的请求信息和响应信息的执行过程，可以根据图6示出的内容类推得到，在此不再一一举例。

进一步参考图7，作为对以上一些图所示方法的实现，本说明书提供了一种用于敏感信息检测的训练样本生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置可以应用于如图1所示的样本管理***。

如图7所示，本实施例的用于敏感信息检测的训练样本生成装置700包括：获取单元701、提取单元703、确定单元705和生成单元707。其中，获取单元701被配置成通过采样获得多条请求信息,其中,请求信息具有对应的响应信息;提取单元703被配置成利用预设的多个正则表达式，对该多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，该多个正则表达式对应不同的敏感类别；确定单元705被配置成对于提取出的至少部分上下文信息，根据该至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该至少部分上下文信息分别对应的敏感类别标签；生成单元707被配置成对于该至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本,以用于敏感信息检测。

在本实施例中，获取单元701、提取单元703、确定单元705和生成单元707的具体处理及其带来的技术效果可分别参考图2对应实施例中步骤201、步骤203、步骤205和步骤207的相关说明，在此不再赘述。

可选地，获取单元701可以进一步被配置成：从预先划分的至少一个时间分区对应的各条请求信息中，采样出部分请求信息。

可选地，获取单元701还可以被配置成：在从预先划分的至少一个时间分区对应的各条请求信息中，采样出部分请求信息之前，对预先划分的多个时间分区进行采样，得到采样出的该至少一个时间分区。

可选地，上述多个时间分区可以包括，通过对一天的时段进行划分而得的各个时间分区，每个时间分区的时长为预设时长。

可选地，请求信息可以包括HTTP请求报文，响应信息可以包括HTTP响应报文。

可选地，敏感类别可以包括以下中的多种：身份证、密码、工资金额、缴费金额、银行卡、验证码。

可选地，获取单元701可以进一步被配置成：从上述各条请求信息中的每条请求信息中，提取出至少一项请求内容；根据提取出的请求内容，对上述各条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

可选地，上述至少一项请求内容可以包括域名信息和以下至少一项：路径信息、目标键值对，目标键值对中的值不属于发送请求信息的用户的个人信息；以及获取单元701可以进一步被配置成：对上述各条请求信息进行分组，其中，将包含相同域名信息的请求信息划分到同一组；对于划分出的每个请求信息组，根据从该请求信息组中的请求信息中提取出的除域名信息以外的请求内容，对该请求信息组中的请求信息进行聚类。

可选地，响应信息的组成部分包括响应正文；以及提取单元703可以进一步被配置成：对上述各条响应信息的响应正文进行疑似敏感信息检测。

可选地，提取单元703还可以被配置成：对于上述多条请求信息中的至少部分请求信息，利用上述多个正则表达式，对该至少部分请求信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。

可选地，确定单元705可以进一步被配置成：向样本标注人员输出，上述至少部分上下文信息，以及上述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，以使样本标注人员进行类别修正；接收样本标注人员提供的类别修正结果；对于上述至少部分上下文信息中的上下文信息，若类别修正结果包括样本标注人员针对该上下文信息添加的敏感类别标签，则将该添加的敏感类别标签确定为该上下文信息对应的敏感类别标签；若类别修正结果不包括样本标注人员针对该上下文信息添加的敏感类别标签，则将该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定为该上下文信息对应的敏感类别标签。

可选地，确定单元705可以进一步被配置成：根据提取出的各条上下文信息，对该各条上下文信息对应的各条请求信息进行采样，得到二次采样出的请求信息；对于二次采样出的请求信息对应的上下文信息，根据该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该上下文信息对应的敏感类别标签；对于二次采样出的请求信息对应的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本。

可选地，确定单元705可以进一步被配置成：根据上述各条上下文信息，对上述各条上下文信息对应的各条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

本实施例提供的用于敏感信息检测的训练样本生成装置，通过获取单元通过采样获得多条请求信息，可以避免后续针对全部请求信息对应的响应信息进行分析，能减少正则算法的运行次数，由此能减少对计算资源的占用。而后，通过提取单元利用预设的多个正则表达式，对该多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，然后通过确定单元对于提取出的至少部分上下文信息，根据该至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该至少部分上下文信息分别对应的敏感类别标签，以便生成单元针对该至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本,以用于敏感信息检测。由此，针对多种敏感类别分别设置简单的用于疑似敏感信息检测的正则表达式，通过对该正则表达式的有效利用，便可以快速地获得用于敏感信息检测的训练样本，从而能防止隐私数据泄露。

进一步参考图8，作为对以上一些图所示方法的实现，本说明书提供了一种敏感信息检测模型的训练装置的一个实施例，该装置实施例与图3所示的方法实施例相对应，该装置可以应用于如图1所示的模型训练***。

如图8所示，本实施例的敏感信息检测模型的训练装置800包括：获取单元801和模型训练单元803。其中，获取单元801被配置成获取训练样本集，其中，训练样本标记有上下文信息和敏感类别标签，上下文信息是，响应于利用预设的多个正则表达式，从预先收集的请求信息或响应信息中检测到疑似敏感信息，而提取的疑似敏感信息的上下文信息；模型训练单元803被配置成根据训练样本集，对待训练的检测模型进行训练，得到敏感信息检测模型。

在本实施例中，获取单元801和模型训练单元803的具体处理及其带来的技术效果可分别参考图3对应实施例中步骤301和步骤303的相关说明，在此不再赘述。

可选地，待训练的检测模型的组成部分可以包括以下中的多个：用于提取强正则特征的正则模型、用于提取统计特征的树模型、用于提取语义特征的深度学习模型，其中，强正则特征包括，上述正则表达式中所涉及的特征项。

可选地，树模型可以包括以下任一项：随机森林模型、极端梯度提升模型等。深度学习模型可以包括以下任一项：长短期记忆网络LSTM、卷积神经网络CNN、BERT模型等。

本实施例提供的敏感信息检测模型的训练装置，通过获取单元获取如前所述的训练样本集，而后通过模型训练单元根据训练样本集，对待训练的检测模型进行训练，可以快速获得具有较高检测准确度的敏感信息检测模型，该敏感信息检测模型用于检测敏感信息，防止隐私数据泄露。

进一步参考图9，作为对以上一些图所示方法的实现，本说明书提供了一种保护隐私的敏感信息检测装置的一个实施例，该装置实施例与图5所示的方法实施例相对应，该装置可以应用于如图1所示的敏感信息检测***。

如图9所示，本实施例的保护隐私的敏感信息检测装置900包括：获取单元901、提取单元903、确定单元905、第一检测单元907和第二检测单元909。其中，获取单元901被配置成从目标时间分区对应的多条请求信息中，采样出部分请求信息，其中，请求信息具有对应的响应信息；提取单元903被配置成利用预设的多个正则表达式，对采样所得的各条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，该多个正则表达式对应不同的敏感类别；确定单元905被配置成确定提取出的各条上下文信息是否包含在检测结果信息集合中，其中，检测结果信息包括上下文信息和敏感类别标签；第一检测单元907被配置成若该各条上下文信息中存在包含在检测结果信息集合中的第一上下文信息，则根据该第一上下文信息对应的敏感类别标签，确定该第一上下文信息对应的第一检测结果；第二检测单元909被配置成若该各条上下文信息中存在未包含在检测结果信息集合中的第二上下文信息，则利用采用如图3对应的实施例描述的方法训练所得的敏感信息检测模型，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，得到第二检测结果。

在本实施例中，获取单元901、提取单元903、确定单元905、第一检测单元907和第二检测单元909的具体处理及其带来的技术效果可分别参考图5对应实施例中步骤501、步骤503、步骤505步骤507和步骤509的相关说明，在此不再赘述。

可选地，获取单元901可以进一步被配置成：从上述多条请求信息中的每条请求信息中，提取出至少一项请求内容；根据提取出的请求内容，对上述多条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

可选地，第二检测单元909可以进一步被配置成：根据上述各条第二上下文信息，对其对应的各条请求信息进行采样，得到二次采样出的请求信息；对于二次采样出的请求信息对应的第二上下文信息，利用敏感信息检测模型，对该第二上下文信息进行敏感信息检测。

可选地，提取单元903还可以被配置成：对于上述采样所得的各条请求信息中的至少部分请求信息，利用上述多个正则表达式，对该至少部分请求信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。

本实施例提供的保护隐私的敏感信息检测装置，通过获取单元从目标时间分区对应的多条请求信息中采样出部分请求信息，可以避免后续针对该多条请求信息中的全部请求信息对应的响应信息进行分析，能减少正则算法的运行次数，由此能减少对计算资源的占用。而后通过提取单元利用预设的多个正则表达式，对采样所得的各条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，然后通过确定单元确定提取出的各条上下文信息是否包含在检测结果信息集合中，其中，检测结果信息包括上下文信息和敏感类别标签，以便通过第一检测单元响应于该各条上下文信息中存在包含在检测结果信息集合中的第一上下文信息，根据该第一上下文信息对应的敏感类别标签，确定该第一上下文信息对应的第一检测结果，以及通过第二检测单元响应于该各条上下文信息中存在未包含在检测结果信息集合中的第二上下文信息，利用采用如图3对应的实施例描述的方法训练所得的敏感信息检测模型，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，得到第二检测结果。由此，通过结合已有的检测结果信息集合和敏感信息检测模型，对涉及疑似敏感信息的上下文信息进行敏感信息检测，不仅可以获得具有较高准确度的检测结果，还可以提升检测效率，能够满足实时对抗的需求。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令计算机执行以上各方法实施例分别所示的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现以上各方法实施例分别所示的方法。

本说明书实施例还提供了一种计算机程序产品，当在数据处理设备上执行时，使得数据处理设备实现以上各方法实施例分别所示的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种用于敏感信息检测的训练样本生成方法，包括：

通过采样获得多条请求信息,其中,请求信息具有对应的响应信息;

利用预设的多个正则表达式，对所述多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，所述多个正则表达式对应不同的敏感类别；

对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签，该疑似敏感信息所属的敏感类别具体为，检测到该疑似敏感信息的正则表达式所对应的敏感类别；

对于所述至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本,所述训练样本用于敏感信息检测，从而防止隐私数据泄露；

其中，所述通过采样获得多条请求信息，包括：

对预先划分的各个时间分区进行采样，得到采样出的多个时间分区；

从所述多个时间分区对应的各条请求信息中，采样出部分请求信息。

2.根据权利要求1所述的方法，其中，所述各个时间分区包括，通过对一天的时段进行划分而得的各个时间分区，每个时间分区的时长为预设时长。

3.根据权利要求1所述的方法，其中，请求信息包括HTTP请求报文，响应信息包括HTTP响应报文。

4.根据权利要求1所述的方法，其中，敏感类别包括以下中的多种：身份证、密码、工资金额、缴费金额、银行卡、验证码。

5.根据权利要求1所述的方法，其中，所述从所述多个时间分区对应的各条请求信息中，采样出部分请求信息，包括：

从所述各条请求信息中的每条请求信息中，提取出至少一项请求内容；

根据提取出的请求内容，对所述各条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

6.根据权利要求5所述的方法，其中，所述至少一项请求内容包括域名信息和以下至少一项：路径信息、目标键值对，所述目标键值对中的值不属于发送请求信息的用户的个人信息；以及

所述根据提取出的请求内容，对所述各条请求信息进行聚类，包括：

对所述各条请求信息进行分组，其中，将包含相同域名信息的请求信息划分到同一组；

对于划分出的每个请求信息组，根据从该请求信息组中的请求信息中提取出的除域名信息以外的请求内容，对该请求信息组中的请求信息进行聚类。

7.根据权利要求1所述的方法，其中，响应信息的组成部分包括响应正文；以及

所述对所述多条请求信息对应的各条响应信息，进行疑似敏感信息检测，包括：

对所述各条响应信息的响应正文进行疑似敏感信息检测。

8.根据权利要求1所述的方法，其中，在所述对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签之前，所述方法还包括：

对于所述多条请求信息中的至少部分请求信息，利用所述多个正则表达式，对所述至少部分请求信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。

9.根据权利要求1所述的方法，其中，所述对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签，包括：

向样本标注人员输出，所述至少部分上下文信息，以及所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，以使所述样本标注人员进行类别修正；

接收所述样本标注人员提供的类别修正结果；

对于所述至少部分上下文信息中的上下文信息，若所述类别修正结果包括所述样本标注人员针对该上下文信息添加的敏感类别标签，则将该添加的敏感类别标签确定为该上下文信息对应的敏感类别标签；若所述类别修正结果不包括所述样本标注人员针对该上下文信息添加的敏感类别标签，则将该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定为该上下文信息对应的敏感类别标签。

10.根据权利要求1-9之一所述的方法，其中，所述对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签，包括：

根据提取出的各条上下文信息，对所述各条上下文信息对应的各条请求信息进行采样，得到二次采样出的请求信息；

对于所述二次采样出的请求信息对应的上下文信息，根据该上下文信息所涉及的疑似敏感信息所属的敏感类别，确定该上下文信息对应的敏感类别标签；以及

所述对于所述至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本，包括：

对于所述二次采样出的请求信息对应的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本。

11.根据权利要求10所述的方法，其中，所述根据提取出的各条上下文信息，对所述各条上下文信息对应的各条请求信息进行采样，包括：

根据所述各条上下文信息，对所述各条上下文信息对应的各条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

12.一种敏感信息检测模型的训练方法，包括：

获取训练样本集，其中，训练样本标记有上下文信息和敏感类别标签，所述上下文信息是，响应于利用预设的多个正则表达式，从预先收集的请求信息或响应信息中检测到疑似敏感信息，而提取的疑似敏感信息的上下文信息,所述敏感类别标签，根据所述上下文信息所涉及的疑似敏感信息所属的敏感类别而确定，所述多个正则表达式对应不同的敏感类别，该疑似敏感信息所属的敏感类别具体为，检测到该疑似敏感信息的正则表达式所对应的敏感类别；

根据所述训练样本集，对待训练的检测模型进行训练，得到敏感信息检测模型，该敏感信息检测模型用于检测敏感信息，防止隐私数据泄露，其中，所述待训练的检测模型基于多种特征进行检测，所述多种特征包括以下中的多个：强正则特征、统计特征、语义特征，所述强正则特征是所述正则表达式中所涉及的特征项。

13.根据权利要求12所述的方法，其中，所述待训练的检测模型的组成部分包括以下中的多个：用于提取强正则特征的正则模型、用于提取统计特征的树模型、用于提取语义特征的深度学习模型。

14.根据权利要求13所述的方法，其中，

所述树模型包括以下任一项：随机森林模型、极端梯度提升模型；

所述深度学习模型包括以下任一项：长短期记忆网络LSTM、卷积神经网络CNN、BERT模型。

15.一种保护隐私的敏感信息检测方法，包括：

从目标时间分区对应的多条请求信息中，采样出部分请求信息，其中，请求信息具有对应的响应信息；

利用预设的多个正则表达式，对采样所得的各条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，所述多个正则表达式对应不同的敏感类别；

确定提取出的各条上下文信息是否包含在检测结果信息集合中，其中，检测结果信息包括上下文信息和敏感类别标签；

若所述各条上下文信息中存在包含在所述检测结果信息集合中的第一上下文信息，则根据该第一上下文信息对应的敏感类别标签，确定该第一上下文信息对应的第一检测结果；

若所述各条上下文信息中存在未包含在所述检测结果信息集合中的第二上下文信息，则利用采用如权利要求12所述的方法训练所得的敏感信息检测模型，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，得到第二检测结果。

16.根据权利要求15所述的方法，其中，所述从目标时间分区对应的多条请求信息中，采样出部分请求信息，包括：

从所述多条请求信息中的每条请求信息中，提取出至少一项请求内容；

根据提取出的请求内容，对所述多条请求信息进行聚类，并从聚类所得的各个类簇中分别采样出部分请求信息。

17.根据权利要求15所述的方法，其中，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，包括：

根据所述各条第二上下文信息，对其对应的各条请求信息进行采样，得到二次采样出的请求信息；

对于所述二次采样出的请求信息对应的第二上下文信息，利用所述敏感信息检测模型，对该第二上下文信息进行敏感信息检测。

18.根据权利要求15-17之一所述的方法，其中，在所述确定提取出的各条上下文信息是否包含在检测结果信息集合中之前，所述方法还包括：

对于所述采样所得的各条请求信息中的至少部分请求信息，利用所述多个正则表达式，对所述至少部分请求信息进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息。

19.一种用于敏感信息检测的训练样本生成装置，包括：

获取单元，被配置成通过采样获得多条请求信息,其中,请求信息具有对应的响应信息;

提取单元，被配置成利用预设的多个正则表达式，对所述多条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，所述多个正则表达式对应不同的敏感类别；

确定单元，被配置成对于提取出的至少部分上下文信息，根据所述至少部分上下文信息所涉及的疑似敏感信息所属的敏感类别，确定所述至少部分上下文信息分别对应的敏感类别标签，该疑似敏感信息所属的敏感类别具体为，检测到该疑似敏感信息的正则表达式所对应的敏感类别；

生成单元，被配置成对于所述至少部分上下文信息中的上下文信息，生成标记有该上下文信息和该上下文信息对应的敏感类别标签的训练样本,所述训练样本用于敏感信息检测，从而防止隐私数据泄露；

其中，所述获取单元进一步被配置成：

20.一种敏感信息检测模型的训练装置，包括：

获取单元，被配置成获取训练样本集，其中，训练样本标记有上下文信息和敏感类别标签，所述上下文信息是，响应于利用预设的多个正则表达式，从预先收集的请求信息或响应信息中检测到疑似敏感信息，而提取的疑似敏感信息的上下文信息,所述敏感类别标签，根据所述上下文信息所涉及的疑似敏感信息所属的敏感类别而确定，所述多个正则表达式对应不同的敏感类别，该疑似敏感信息所属的敏感类别具体为，检测到该疑似敏感信息的正则表达式所对应的敏感类别；

模型训练单元，被配置成根据所述训练样本集，对待训练的检测模型进行训练，得到敏感信息检测模型，该敏感信息检测模型用于检测敏感信息，防止隐私数据泄露，其中，所述待训练的检测模型基于多种特征进行检测，所述多种特征包括以下中的多个：强正则特征、统计特征、语义特征，所述强正则特征是所述正则表达式中所涉及的特征项。

21.一种保护隐私的敏感信息检测装置，包括：

获取单元，被配置成从目标时间分区对应的多条请求信息中，采样出部分请求信息，其中，请求信息具有对应的响应信息；

提取单元，被配置成利用预设的多个正则表达式，对采样所得的各条请求信息对应的各条响应信息，进行疑似敏感信息检测，并提取出检测到的疑似敏感信息的上下文信息，其中，所述多个正则表达式对应不同的敏感类别；

确定单元，被配置成确定提取出的各条上下文信息是否包含在检测结果信息集合中，其中，检测结果信息包括上下文信息和敏感类别标签；

第一检测单元，被配置成若所述各条上下文信息中存在包含在所述检测结果信息集合中的第一上下文信息，则根据该第一上下文信息对应的敏感类别标签，确定该第一上下文信息对应的第一检测结果；

第二检测单元，被配置成若所述各条上下文信息中存在未包含在所述检测结果信息集合中的第二上下文信息，则利用采用如权利要求12所述的方法训练所得的敏感信息检测模型，对各条第二上下文信息中的至少部分第二上下文信息进行敏感信息检测，得到第二检测结果。

22.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-18中任一项的所述的方法。

23.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-18中任一项所述的方法。