CN113672976A

CN113672976A - 敏感信息检测方法及装置

Info

Publication number: CN113672976A
Application number: CN202110889223.8A
Authority: CN
Inventors: 张安蒙
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-11-19

Abstract

本说明书实施例提供一种敏感信息检测方法，该方法包括：先获取待检测的字段的字段信息，其中包括字段属性和多个字段值；接着利用预设规则对所述字段信息进行敏感性判别；进而在判别出所述字段信息疑似某个敏感类别的情况下，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定所述某个敏感类别对应的检测算法；再利用所述检测算法处理所述字段信息，得到处理结果，该处理结果指示所述字段是否属于所述某个敏感类别。

Description

敏感信息检测方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习技术领域，尤其涉及一种敏感信息检测方法及装置。

背景技术

随着各行业向数字化转型，线上数据时刻都在增长。例如，用户在网络平台中进行操作而产生各种操作数据，如浏览数据、点击数据、支付数据、注册信息，等等。庞大的数据中或多或少存在一些敏感数据，一旦泄露将威胁用户或企业等的隐私安全，造成财产等方面的损失，甚至危害社会安定，因此，数据安全已成为社会各界关注的交点。

然而，目前对敏感数据进行检测的方式较为单一，难以满足实际应用中的需求。因此，需要一种检测方案，可以有效提升对敏感信息的检测效率和准确度。

发明内容

本说明书一个或多个实施例描述了一种敏感信息检测方法及装置，针对待检测的字段，先利用预设规则对其进行预判别，再调用与预判别结果指示的疑似敏感类别对应的检测算法进行检测，从而高效、快捷地得到精准的敏感检测结果。

根据第一方面，提供一种敏感信息检测方法，包括：获取待检测的字段的字段信息，其中包括字段属性和多个字段值；利用预设规则对所述字段信息进行敏感性判别；在判别出所述字段信息疑似某个敏感类别的情况下，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定所述某个敏感类别对应的检测算法；利用所述检测算法处理所述字段信息，得到处理结果，该处理结果指示所述字段是否属于所述某个敏感类别。

在一个实施例中，所述字段属性包括以下中的至少一项：字段名称、字段注释、字段类型、字段所属表格的表名、表注释。

在一个实施例中，获取待检测的字段的字段信息，包括：针对所述字段的字段值分别进行第一采样和第二采样，得到对应的多个第一字段值和多个第二字段值；基于所述多个第一字段值和多个第二字段值，评估所述第一采样的第一采样质量；在所述第一采样质量达到预设标准的情况下，基于所述多个第一字段值，确定所述多个字段值。

在一个具体的实施例中，基于所述多个第一字段值和多个第二字段值，评估所述第一采样的第一采样质量，包括：计算所述多个第一字段值对应的第一字段值分布，与所述多个第二字段值对应的第二字段值分布之间的差异程度；在所述差异程度小于预设阈值的情况下，判定所述第一采样质量达到预设标准。

在一个实施例中，获取待检测的字段的字段信息，包括：针对所述字段的字段值进行第一采样，得到多个第一字段值；确定所述多个第一字段值对应的多个编码向量，并计算基于该多个编码向量组成的多对编码向量间的多个相似度；在所述多个相似度反映所述多个编码向量之间的相似性小于预设程度的情况下，基于所述多个第一字段值，确定所述多个字段值。

在一个具体的实施例中，基于所述多个第一字段值，确定所述多个字段值，包括：通过对所述多个第一字段值进行去重处理，得到所述多个字段值。

在一个实施例中，所述预设规则包括针对若干备选敏感类别的敏感类规则，以及针对若干非敏感类别的非敏感类规则；其中，利用预设规则对所述字段信息进行判别，包括：对所述字段信息进行特征提取，得到对应多个预设特征项的多个特征值；利用所述非敏感类规则，对所述多个特征值进行判别；在判别出其不属于若干非敏感类别中任一敏感类别的情况下，利用所述敏感类规则对所述多个特征值进行判别，得到所述某个敏感类别。

在一个实施例中，在利用预设规则对所述字段信息进行判别之后，所述方法还包括：在判别出所述字段信息属于某个非敏感类别的情况下，舍弃所述字段。

在一个实施例中，在所述映射关系中，任一备选敏感类别对应一个或多个备选检测算法，该一个或多个备选检测算法涉及以下算法类型中的一种或多种：规则、正则表达式、机器学习模型。

在一个实施例中，所述检测算法包括针对所述某个敏感类别的第一机器学习模型，其中包括属性表征层、值表征层、融合层和全连接层；其中，利用所述检测算法处理所述字段信息，得到处理结果，包括：利用所述属性表征层，对所述字段属性进行表征处理，得到属性表征向量；利用值表征层，分别对所述多个字段值进行表征处理，得到多个值表征向量；利用融合层，将所述属性表征向量分别与所述多个值表征向量进行融合处理，得到多个融合向量；利用所述全连接层，分别对所述多个融合向量进行处理，得到多个检测结果；基于所述多个检测结果，确定所述处理结果。

在一个具体的实施例中，所述某个敏感类别为以下中的一种：用户姓名、用户地址、公司名称。

在一个具体的实施例中，各个检测结果中包括指示对应的字段属性-字段值对被识别为所述某个敏感类别的概率；其中，基于所述多个检测结果，确定所述处理结果，包括：计算所述多个检测结果中多个概率的平均概率；在所述平均概率大于预设概率的情况下，判定所述字段属于所述某个敏感类别，并将该判定结果作为所述处理结果。

在一个实施例中，所述检测算法包括针对所述某个敏感类别的第二机器学习模型，以及，针对字段属性的若干第一规则和/或若干第一正则表达式，针对字段值的若干第二规则和/或若干第二正则表达式；其中，利用所述检测算法处理所述字段信息，得到处理结果，包括：基于所述字段的字段属性，利用所述若干第一规则和/或若干第一正则表达式，得到若干属性特征值；基于所述多个字段值，利用所述若干第二规则和/或若干第二正则表达式，得到若干统计特征值；将所述若干属性特征值和若干统计特征值输入所述第二机器学习模型中，得到所述处理结果。

在一个实施例中，还包括：在所述处理结果指示对应字段属于所述某个敏感类别的情况下，基于预先设定的备选字段与备选敏感等级之间的映射关系，确定该字段对应的敏感等级。

根据第二方面，提供一种敏感信息检测方法，包括：获取待检测的多个字段的多个字段信息，各个字段信息中包括对应字段的字段属性和多个字段值；基于所述多个字段信息，根据针对非敏感类别设定的第一判别规则，以及针对敏感类别设定的第二判别规则，过滤掉所述多个字段中的非敏感字段，并得到若干疑似敏感字段中各个疑似敏感字段疑似的敏感类别；针对所述各个疑似敏感字段，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定该疑似敏感字段疑似的敏感类别所对应的检测算法；利用所述检测算法处理该疑似敏感字段的字段信息，得到处理结果，该处理结果指示该疑似敏感字段是否属于其疑似的敏感类别。

根据第三方面，提供一种敏感信息检测装置，包括：字段信息获取单元，配置为获取待检测的字段的字段信息，其中包括字段属性和多个字段值；预判别单元，配置为利用预设规则对所述字段信息进行敏感性判别；算法确定单元，配置为在判别出该字段信息疑似某个敏感类别的情况下，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定所述某个敏感类别对应的检测算法；字段信息处理单元，配置为利用所述检测算法处理所述字段信息，得到处理结果，该处理结果指示所述字段是否属于所述某个敏感类别。

根据第四方面，提供一种敏感信息检测装置，包括：字段信息获取单元，配置为获取待检测的多个字段的多个字段信息，各个字段信息中包括对应字段的字段属性和多个字段值；预判别单元，配置为基于所述多个字段信息，根据针对非敏感类别设定的第一判别规则，以及针对敏感类别设定的第二判别规则，过滤掉所述多个字段中的非敏感字段，并得到若干疑似敏感字段中各个疑似敏感字段疑似的敏感类别；算法确定单元，配置为针对所述各个疑似敏感字段，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定该疑似敏感字段疑似的敏感类别所对应的检测算法；字段信息处理单元，配置为利用所述检测算法处理该疑似敏感字段的字段信息，得到处理结果，该处理结果指示该疑似敏感字段是否属于其疑似的敏感类别。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

采用本说明书实施例提供的方法和装置，首先，基于数据库中的数据表采集字段样本，字段样本中可以包括对应字段的字段名称，多个字段值等字段信息；然后，利用预先设定的简单规则对字段样本进行预判别；进一步，如果判别结果为疑似某个敏感类别，则调用与该某个敏感类别对应的高置信度检测算法，对字段样本进行检测，从而得到可信度更高、更加精准的检测结果，其指示字段样本是否属于该某个敏感类别。如此，可以有效提高检测效率以及检测结果的精准度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的敏感信息检测方法的实施架构示意图；

图2示出根据一个实施例的敏感信息检测方法的流程示意图；

图3示出根据一个实施例的第一机器学习模型的模型结构示意图；

图4示出根据另一个实施例的敏感信息检测方法的流程示意图；

图5示出根据一个实施例的敏感信息检测装置的结构示意图；

图6示出根据另一个实施例的敏感信息检测装置的结构示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，需要检测数据库或数据记录表中的敏感信息。常用的检测方式完全依赖于复杂的规则和正则表达式，存在维护成本高、算法升级困难、人工运营成本大等问题，并且，对于没有规则的敏感数据无法识别，而过于复杂的规则和正则表达式导致检测性能堪忧，特别是面对海量数据扫描的时候，扫描效率难以保证。

基于上述观察和分析，发明人提出一种敏感信息检测方法。图1示出根据一个实施例的敏感信息检测方法的实施架构示意图，如图1所示，首先，基于数据库中的数据表采集字段样本，字段样本中可以包括对应字段的字段名称，多个字段值等字段信息；然后，利用预先设定的简单规则对字段样本进行预判别，得到的判别结果可能是其为非敏感字段，或者，其对应字段疑似某个敏感类别；进一步，如果判别结果为疑似某个敏感类别，则调用与该某个敏感类别对应的检测算法，对字段样本进行专项检测，得到可信度更高、更加精准的检测结果，该检测结果指示字段样本是否属于该某个敏感类别。如此，可以有效提高检测效率以及检测结果的精准度。

为便于直观理解，假定采集了1万个字段样本，并且，预先针对10个敏感类别对应配置10个检测算法，若不采用本方案，则为了检测这1万个字段样本，需要进行10万次的检测算法处理，而通过实施本方案，因预判别中采用的规则较为简单，计算量较少，假定1万个字段样本中有1百个字段样本疑似为敏感字段，并且，因为已预判出疑似敏感类别，接着仅需进行1百次检测算法处理，相较10万次减少了三个数量级。

下面结合实施例，对上述方法的实施步骤进行介绍。

图2示出根据一个实施例的敏感信息检测方法的流程示意图，所述方法的执行主体可以为任何具有计算、处理能力的服务器、装置或设备集群。如图2所示，所述方法包括以下步骤：

步骤S210，获取待检测的字段的字段信息，其中包括字段属性和多个字段值；步骤S220，利用预设规则对所述字段信息进行敏感性判别；步骤S230，在判别出所述字段信息疑似某个敏感类别的情况下，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定所述某个敏感类别对应的检测算法；步骤S240，利用所述检测算法处理所述字段信息，得到处理结果，该处理结果指示所述字段是否属于所述某个敏感类别。

以上步骤展开介绍如下：

步骤S210，获取待检测的字段的字段信息，其中包括字段属性和多个字段值。需理解，对字段的数据源不作限定，例如，字段可以来自数据库中的数据表，或者，可以来自其他存储设备或存储单元中的数据表，又或者，可以来自网络平台或网络服务器中的数据记录。

在一个实施例中，字段属性可以包括以下中的一项或多项：字段名称、字段注释、表名称、表注释和字段类型。在一个具体的实施例中，字段名称和字段注释分别为字段的英文名称和中文译名，例如，username和用户姓名。在另一个具体的实施例中，字段名称和字段注释分别为字段的中文名称和中文描述信息，例如，用户标识，且其中文描述信息为：身份证号。在又一个具体的实施例中，字段名称和字段注释分别为字段的唯一编号和描述信息，例如，编号89757，描述信息为：最喜欢听的歌曲的名称。

在一个具体的实施例中，字段所属表格的表名称和表注释分别为表格的英文名称和中文译名，例如，userinfo和用户信息。在另一个具体的实施例中，字段名称和字段注释分别为字段的中文名称和中文描述信息，例如，用户信息，且其中文描述信息为：用户姓名、手机号、身份证号等个人信息。在又一个具体的实施例中，表名称和表注释分别为表格的唯一序列号和描述信息，例如，a678g，描述信息为：与用户相关。

在一个具体的实施例中，字段类型可以包括二进制数据类型，如Binary、Varbinary、Image等，字符数据类型，如Char、Varchar和Text等，数字数据类型，如正数和负数、小数和整数等。

对于上述多个字段值，需理解，一个字段下通常具有大量字段值，例如，对于某个省的学生名单，若该省有20万学生，则在名称为学号的字段中会包含20万个字段值，如果对这些字段值进行全量采样，将会对存储空间和计算资源造成极大的消耗。因此，需针对字段进行字段值的适量采样。在一种实施方式中，可以基于预设采样数量(如150个字段值)进行随机采样或分层采样，并将随机采样或分层采样得到的字段值作为组成上述字段信息的多个字段值。

在另一种实施方式中，还可以对采样的字段值进行质量评估，使得最终用于构建上述字段信息的字段值达到预设标准。在一个实施例中，可以基于一批次采样得到的字段值进行批次内评估。在一个具体的实施例中，希望采样的字段值之间尽可能具有较大的差异性，由此，可以将多样性作为质量评估指标。

相应，针对字段的字段值进行首次采样，得到多个第一字段值，接着，确定该多个第一字段值对应的多个编码向量，并计算基于该多个编码向量组成的多对编码向量间的多个相似度；在该多个相似度反映该多个编码向量之间的相似性小于预设程度的情况下，基于该多个第一字段值，确定上述多个字段值。

进一步，对于上述第一字段值的编码向量的确定，在一个例子中，假定第一字段值对应文本，则可以通过文本编码模型，得到其编码向量，例如，预训练的bert模型等。在另一个例子中，假定第一字段值对应图片，则可以通过图片编码模型，得到其编码向量，例如，卷积神经网络等。

对于上述多个编码向量之间相似性是否小于预设程度的判断，在一个例子中，基于上述多个编码向量进行编码向量组对，得到多对编码向量，从而通过计算向量间的余弦相似度或欧式距离等，得到该多对编码向量对应的多个相似度，之后，计算该多个相似度的平均值，或确定该多个相似度的中位数，并确定该平均值或中位数是否小于预设阈值(如0.3或0.4等)，若小于，则判定上述相似性小于预设程度，首次采样达标，反之认为未达标。

在另一个具体的实施例中，希望采样的字段值之间互不相同，由此可以将唯一性作为质量评估指标。相应，针对字段的字段值进行首次采样，得到多个第一字段值，接着，确定该多个第一字段值中的重复个数，若重复个数小于预定阈值(如2个或5个等)，则判定首次采样达标，否则认为未达标。

需理解，上述多样性指标和唯一性指标可以择一使用，也可以结合使用。例如，在多样性指标和唯一性指标均达标的情况下，才判定采样质量达到预设标准。

如此，可以基于某一批次内的采样字段值，实现对采样质量的评估。进一步，在上述首次采样的多个第一字段值的质量达到预设标准的情况下，可以停止采样，并基于该多个第一字段值确定上述用于构建字段信息的多个字段值。在一个具体的实施例中，可以对该多个第一字段值进行去重处理，从而得到多个字段值。在另一个具体的实施例中，可以直接将该多个第一字段值确定为上述多个字段值。否则，若首次采样的采样指令未达标，则继续采样及进行采样质量评估，直到某次采样的质量达标，进而基于该某次采样的字段值确定出上述多个字段值。

在另一个实施例中，还可以基于不同采样批次的字段值，实现对采样质量的评估。考虑到希望采样的字段值能够贴近全量字段值的真实分布，需要对分布贴近程度进行评估，但是，如果基于采样的字段值和全量字段值进行评估，将对存储空间和计算量造成巨大压力，因此，采用多次采样的方式，评估不同批次采样的字段值分布之间的相近程度，若足够相近，则间接判定采样的字段值贴近其真实分布，采样质量达标。

基于此，在一个实施例中，可以针对需检测字段的字段值分别进行两次采样，分别得到多个第一字段值和多个第二字段值；然后，基于这些字段值，评估这两次采样的质量。进而在这两次采样质量达到预设标准的情况下，基于其中任一次采样的字段值，确定用于构建字段信息的多个字段值。在一个具体的实施例，计算多个第一字段值对应的第一字段值分布以及多个第二字段值对应的第二字段值分布之间的差异程度，在该差异程度小于预设阈值的情况下，判定第一采样质量达到预设标准。在一个例子中，计算差异程度的方式可以采用KL散度或交叉熵。

进一步，在这两次采样质量达到预设标准的情况下，可以基于任一次采样的字段值，确定上述多个字段值。例如，直接将任一批次采样的字段值作为上述多个字段值，或者，进行去重处理后得到上述多个字段值。而在这两次采样质量未达标预设标准的情况下，需理解，实际可能是其中一次未达标或者两次均未达标，此时，再进行额外的采样，例如，再采样一次，并评估这三次采样中任意两次采样之间的分布差异程度，若存在分布差异程度小于预设阈值，则判定其对应的两次采样质量达到标准。

如此，可以基于多批次的采样字段值，实现对采样质量的评估。需理解，对于批次内评估指标和批次间评估指标，可以择一使用，也可以结合使用。例如，针对两次采样得到的第一批次字段值和第二批次字段值，若第一批次字段值的多样性指标和唯一性指标均达标，并且，两批次字段值之间分布的差异程度小于预设阈值，则判定采样质量达到预设标准，否则判定未达到，并继续采样及进行采样质量评估，直到某次采样的质量达标，进而基于该某次采样的字段值确定出上述多个字段值。

由上，可以确定多个字段值，并将之包含在字段信息中。接着，在S220，利用预设规则对该字段信息进行敏感性判别。在一个实施例中，预设规则包括针对若干备选敏感类别的敏感类判别规则(或称敏感类规则)，由此，可以判别出字段属性疑似涉及该若干备选敏感类别中的一个或多个敏感类别，或者，判别出字段信息未涉及该若干备选敏感类别。进一步，在一个具体的实施例中，预设规则还包括针对若干非敏感类别的非敏感类判别规则(或称非敏感类规则)，由此，可以判别出字段属性疑似涉及该若干备选敏感类别中的一个或多个敏感类别，或者，判别出字段属性涉及该若干非敏感类别中的一个或多个非敏感类别。需理解，文中的若干指代一个或多个，并且，预设规则用于对字段信息进行初步判断，因此，其较为简单，如此，通过计算量较少的预判别可以滤除部分非敏感信息，以及实现对敏感字段所涉及敏感类别的初步判断。

根据一个具体的实施例，先对上述字段信息进行特征提取，得到对应多个预设特征项的多个特征值；再利用上述非敏感类判别规则，对该多个特征值进行判别；在判别出该字段信息不涉及若干非敏感类别中任一敏感类别的情况下，利用上述敏感类判别规则对该多个特征值进行判别，得到其涉及的一个或多个敏感类别，若涉及多个敏感类别，则将其中每个分别作为判别出的上述某个敏感类别。

进一步，在一个例子中，上述多个预设特征项可以包括针对字段属性的特征项，例如，字段名称，还可以包括针对字段值的特征项，例如，字段值的长度或位数。在一个例子中，非敏感类规则可以包括：若字段名称为时间戳，则对应字段为非敏感字段。在一个例子中，敏感类规则可以包括：若字段值为11位数字，则其疑似手机号，和/或，若字段值为18位数字，则其意思身份证号。

根据另一个具体的实施例，在提取出字段信息对应的多个特征值后，利用由非敏感类规则和非敏感类规则组成的规则树，对该多个特征值进行判别，从而得到判别结果。

如此，可以实现对字段信息敏感性的预判别。进一步，在判别出该字段信息整体属于某个或某几个非敏感类别，和/或，并未疑似任何一个备选敏感类别的情况下，可以判定其属于非敏感信息，从而终止当前检测流程，或舍弃该字段信息所对应的字段。

而在判别出该字段信息疑似某个敏感类别的情况下，执行步骤S230，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定所述某个敏感类别对应的检测算法。

需理解，备选检测算法用于对是否属于某个备选敏感类别进行高置信度的判别，而对于不同备选敏感类别，其敏感特征存在差异，因而使用的算法类别不同，例如，身份号适合用规则进行判断，邮箱适合用正则表达式进行判断，姓名适合用机器学习模型判断等。

对于单个备选敏感类别，可以为其设计一个或多个备选检测算法(或者，还可以将备选检测算法称为备选检测方案)，并且，一个备选检测算法所涉及的算法类型可以是一种或多种，比如，设计一个备选检测算法，其中依次用到正则表达式进行特征提取，以及使用机器学习模型进行预测，或者，其中用到规则和正则表达式，又或者，其中仅用到机器学习模型。此外，对于上述映射关系，其中的备选敏感类别、还有备选检测算法中涉及的规则和正则表达式可以是工作人员或专家根据经验设定的，而涉及的机器学习模型可以是根据采集的训练样本进行训练而得到。

基于上述映射关系，可以确定上述字段信息疑似的某个敏感类别对应的检测算法，并且，该检测算法可以是一个或多个。在一个实施例中，假定该某个敏感类别是邮箱，可以确定出其对应的检测算法包括两个，一是邮箱判别规则，另一个中包括用于确定统计特征的邮箱判别正则表达式和邮箱判别模型。在另一个实施例中，假定该某个敏感类别是用户姓名，可以确定出其对应的检测算法是姓名判别模型。此外，若上述字段信息疑似涉及的敏感类别包括多个，则可针对其中各个疑似敏感类别，分别确定对应的检测算法。

在确定出字段疑似的某个敏感类别所对应的检测算法后，在步骤S240，利用该检测算法处理字段信息，得到处理结果，该处理结果指示上述字段是否属于该某个敏感类别。

在一个实施例中，对应该某个敏感类别的检测算法包括第一机器学习模型，如图3所示，该第一机器学习模型中包括属性表征层310、值表征层320、融合层330和全连接层340。相应地，本步骤中包括：利用属性表征层310，对上述字段信息中的字段属性进行表征处理，得到属性表征向量；利用值表征层320，对上述字段信息中的多个字段值分别进行表征处理，得到多个值表征向量；利用融合层330，将属性表征向量分别与多个值表征向量进行融合处理，得到多个融合向量；利用全连接层340，分别对该多个融合向量进行处理，得到多个检测结果。

在一个具体的实施例中，上述某个敏感类别可以是用户姓名、用户地址、或公司名称。

在一个具体的实施例中，属性表征层310中可以包括第一词嵌入子层和第一表征子层。在一个示例中，其中第一词嵌入子层可以实现为预训练的Bert模型或Word2vec模型等。

在一个示例中，第一表征子层可以采用深度神经网络DNN或循环神经网络RNN等。

在一个具体的实施例中，如果字段值对应图片，则值表征层320可以实现为卷积神经网络CNN或深度神经网络DNN等。在另一个具体的实施例中，如果字段值对应数字，则值表征层320可以实现为编码子层和第二表征子层。在一个例子中，其中编码子层可以采用查表或者独热编码算法。在一个例子中，其中第二表征子层可以采用DNN网络等。在又一个具体的实施例中，如果字段值对应文本，则值表征层可以包括第二词嵌入子层和第二表征子层。在一个例子中，其中第二词嵌入子层可以实现为预训练的Bert模型或Word2vec模型等。在一个例子中，第二表征子层可以采用DNN网络或RNN网络等。

在一个具体的实施例中，融合层330对属性表征向量和值表征向量进行融合处理的方式可以包括：拼接处理、加权求和处理(包括直接相加和求平均)、对位相乘处理等。在另一个具体的实施例中，还可以引入attention机制进行融合处理。

在一个具体的实施例中，全连接层340可以实现为一层或多层全连接网络。根据一个示例，最后一个全连接层中采用sigmoid函数进行二分类。

如此，针对上述字段属性和上述多个字段值组成的多个字段属性-字段值对，可以得到对应的多个检测结果，进而基于该多个检测结果，确定上述处理结果。在一个具体的实施例中，各个检测结果中指示对应的字段属性-字段值对是否属于该某个敏感类别，相应，可以采用投票的方式确定上述多个处理结果，例如，统计多个检测结果中指示属于该某个敏感类别的结果数，若其占比超过预设阈值(如0.5或0.6)，则将上述字段属于该某个敏感类别作为处理结果，否则，将上述字段不属于该某个敏感类别作为处理结果。

在另一个具体的实施例中，各个检测结果中包括指示对应的字段属性-字段值对被识别为该某个敏感类别的概率，相应，可以计算多个检测结果中多个概率的平均概率，进一步，在该平均概率大于预设概率(如0.5或0.6等)的情况下，判定上述字段属于该某个敏感类别，并将该判定结果作为上述处理结果，否则，将上述字段不属于该某个敏感类别作为上述处理结果。

如此，可以利用上述第一机器学习模型处理字段信息，从而得到处理结果。

在另一个实施例中，上述某个敏感类别对应的检测算法包括第二机器学习模型，以及以下中的任一项：针对字段属性的若干第一规则，针对字段属性的若干第一正则表达式，针对字段值的若干第二规则，针对字段值的若干第二正则表达式。基于此，处理结果的确定可以包括：基于上述字段的字段属性，利用上述若干第一规则和/或若干第一正则表达式，得到若干属性特征值；以及，基于上述多个字段值，利用上述若干第二规则和/或若干第二正则表达式，得到若干统计特征值。

根据一个具体的实施例，上述某个敏感类别为用户姓名；上述针对字段属性设定的第一规则可以包括：如果字段类型是字符，则对应属性特征项的特征值取1，否则取0；多个第一正则表达式分别对应：字段名称中包括name，字段注释中包括姓名，进一步，针对其中各个第一正则表达式，若其被命中，则对应属性特征项的特征值取1，否则取0；上述针对字段值设定的第一正则表达式对应：字符个数大于2且小于4，由此，可以统计多个字段值中命中该第一正则表达式的个数，作为对应统计特征项的特征值。在一个例子中，确定出的若干属性特征值包括1，1，0，确定出的统计特征值包括80，46。

进一步，可以将上述得到的若干属性特征值和若干统计特征值输入上述第二机器学习模型中，得到对应的处理结果。在一个具体的实施例中，除了将上述若干属性特征值和若干特征值输入上述第二机器学习模型以外，还可以将上述字段属性和多个字段值共同输入第二机器学习模型。在一个具体的实施例中，第二机器学习模型可以采用DNN网络、CNN网络或RNN网络等实现。

如此，可以利用第二机器学习模型处理以及针对字段信息设定的规则和/或正则表达式，处理需检测字段的字段信息，从而的得到处理结果。

在还一个实施例中，上述某个敏感类别对应的检测算法包括第三机器学习模型，由此，可以将字段信息输入该第三机器学习模型中，从而得到对应的处理结果。在一个具体的实施例中，该某个敏感类别可以包括用户姓名、用户邮箱、身份证号、用户年收入、家庭住址、公司部门营业额等。在一个具体的实施例中，第三机器学习模型可以采用DNN网络、CNN网络或RNN网络等实现。

另一方面，在一种实施情况下，上述某个敏感类别对应多个检测算法，此时，可以择一使用，或者，分别利用该多个检测算法处理上述字段信息，得到多个处理结果，进而根据该多个处理结果得到综合处理结果。在一个例子中，可以利用投票机制，得到综合处理结果。

由上，可以通过调用与上述某个敏感类别对应的检测算法，处理上述字段的字段信息，从而得到处理结果，其指示该字段是否属于该某个敏感类别。进一步，在一个实施例中，在所述处理结果指示对应字段属于该某个敏感类别的情况下，可以基于预先设定的备选字段与备选敏感等级之间的映射关系，确定该字段对应的敏感等级(可参见图1)。更进一步地，还可以调用与该敏感等级对应的安全策略，对上述字段进行安全处理，例如，禁止大批量传输或在传输前进行脱敏处理，等等。

综上，采用本说明书实施例披露的敏感信息检测方法，首先，基于数据库中的数据表采集字段样本，字段样本中可以包括对应字段的字段名称，多个字段值等字段信息；然后，利用预先设定的简单规则对字段样本进行预判别；进一步，如果判别结果为疑似某个敏感类别，则调用与该某个敏感类别对应的高置信度检测算法，对字段样本进行检测，从而得到可信度更高、更加精准的检测结果，其指示字段样本是否属于该某个敏感类别。如此，可以有效提高检测效率以及检测结果的精准度。

根据另一方面的实施例，本说明书还披露另一种敏感信息检测方法。图4示出根据另一个实施例的敏感信息检测方法的流程示意图，所述方法的执行主体可以为任何具有计算、处理能力的服务器、装置或设备集群。如图4所示，所述方法包括以下步骤：

步骤S410，获取待检测的多个字段的多个字段信息，各个字段信息中包括对应字段的字段属性和多个字段值；步骤S420，基于所述多个字段信息，根据针对非敏感类别设定的第一判别规则，以及针对敏感类别设定的第二判别规则，过滤掉所述多个字段中的非敏感字段，并得到若干疑似敏感字段中各个疑似敏感字段疑似的敏感类别；步骤S430，针对所述各个疑似敏感字段，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定该疑似敏感字段疑似的敏感类别所对应的检测算法，从而利用所述检测算法处理该疑似敏感字段的字段信息，得到处理结果，该处理结果指示该疑似敏感字段是否属于其疑似的敏感类别。

针对以上步骤，在一个实施例中，上述步骤S420可以实施为：先利用针对非敏感类别设定的第一判别规则，基于所述多个字段信息，过滤掉所述多个字段中的非敏感字段，得到若干疑似敏感字段；再利用针对敏感类别设定的第二判别规则，基于所述若干疑似敏感字段的若干字段信息，确定其中各个疑似敏感字段疑似的敏感类别。

需要说明的是，对于上述步骤的描述，还可以参见前述实施例中的相关描述。

综上，采用本说明书实施例披露的敏感信息检测方法，首先，基于数据库中的数据表采集多个字段样本，其中各个字段样本中可以包括对应字段的字段名称，多个字段值等字段信息；然后，利用预先设定的简单规则对多个字段样本进行预判别；进一步，对于被判别为疑似敏感的字段样本，调用与其所疑似的某个敏感类别对应的高置信度检测算法，对其进行检测，从而得到可信度更高、更加精准的检测结果，其指示对应字段样本是否属于该某个敏感类别。如此，可以实现对上述多个字段的敏感检测，检测出其中的敏感字段以及对应的敏感类别，并且，有效提高检测效率以及检测结果的精准度。

与上述检测方法相对应的，本说明书实施例还披露检测装置，具体如下：

图5示出根据一个实施例的敏感信息检测装置的结构示意图，所述装置可以实现为任何具有计算、处理能力的服务器或设备集群等。如图5所示，装置500包括以下单元：

字段信息获取单元510，配置为获取待检测的字段的字段信息，其中包括字段属性和多个字段值；预判别单元520，配置为利用预设规则对所述字段信息进行敏感性判别；算法确定单元530，配置为在判别出所述字段信息疑似某个敏感类别的情况下，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定所述某个敏感类别对应的检测算法；字段信息处理单元540，配置为利用所述检测算法处理所述字段信息，得到处理结果，该处理结果指示所述字段是否属于所述某个敏感类别。

在一个实施例中，所述字段信息获取单元510包括：采样模块511，配置为针对所述字段的字段值分别进行第一采样和第二采样，得到对应的多个第一字段值和多个第二字段值；评估模块512，配置为基于所述多个第一字段值和多个第二字段值，评估所述第一采样的第一采样质量；确定模块513，配置为在所述第一采样质量达到预设标准的情况下，基于所述多个第一字段值，确定所述多个字段值。

在一个具体的实施例中，所述评估模块512具体配置为：计算所述多个第一字段值对应的第一字段值分布，与所述多个第二字段值对应的第二字段值分布之间的差异程度；在所述差异程度小于预设阈值的情况下，判定所述第一采样质量达到预设标准。

在一个具体的实施例中，所述确定模块513具体配置为：通过对所述多个第一字段值进行去重处理，得到所述多个字段值。

在一个实施例中，所述字段信息获取单元510具体配置为：针对所述字段的字段值进行第一采样，得到多个第一字段值；确定所述多个第一字段值对应的多个编码向量，并计算基于该多个编码向量组成的多对编码向量间的多个相似度；在所述多个相似度反映所述多个编码向量之间的相似性小于预设程度的情况下，基于所述多个第一字段值，确定所述多个字段值。

在一个实施例中，所述预设规则包括针对若干备选敏感类别的敏感类规则，以及针对若干非敏感类别的非敏感类规则；其中，所述预判别单元520具体配置为：对所述字段信息进行特征提取，得到对应多个预设特征项的多个特征值；利用所述非敏感类规则，对所述多个特征值进行判别；在判别出其不属于若干非敏感类别中任一敏感类别的情况下，利用所述敏感类规则对所述多个特征值进行判别，得到所述某个敏感类别。

在一个实施例中，装置500中还包括字段舍弃单元550，配置为在判别出所述字段信息属于某个非敏感类别的情况下，舍弃所述字段。

在一个实施例中，所述检测算法包括针对所述某个敏感类别的第一机器学习模型，其中包括属性表征层、值表征层、融合层和全连接层；其中，所述字段信息处理单元540具体配置为：利用所述属性表征层，对所述字段属性进行表征处理，得到属性表征向量；利用值表征层，分别对所述多个字段值进行表征处理，得到多个值表征向量；利用融合层，将所述属性表征向量分别与所述多个值表征向量进行融合处理，得到多个融合向量；利用所述全连接层，分别对所述多个融合向量进行处理，得到多个检测结果；基于所述多个检测结果，确定所述处理结果。

在一个具体的实施例中，上述某个敏感类别为以下中的一种：用户姓名、用户地址、公司名称。

在一个具体的实施例中，各个检测结果中包括指示对应的字段属性-字段值对被识别为所述某个敏感类别的概率；字段信息处理单元540基于所述多个检测结果，确定所述处理结果，具体包括：计算所述多个检测结果中多个概率的平均概率；在所述平均概率大于预设概率的情况下，判定所述字段属于所述某个敏感类别，并将该判定结果作为所述处理结果。

在一个实施例中，所述检测算法包括针对所述某个敏感类别的第二机器学习模型，以及，针对字段属性的若干第一规则和/或若干第一正则表达式，针对字段值的若干第二规则和/或若干第二正则表达式；所述字段信息处理单元540具体配置为：基于所述字段的字段属性，利用所述若干第一规则和/或若干第一正则表达式，得到若干属性特征值；基于所述多个字段值，利用所述若干第二规则和/或若干第二正则表达式，得到若干统计特征值；将所述若干属性特征值和若干统计特征值输入所述第二机器学习模型中，得到所述处理结果。

在一个实施例中，装置500还包括敏感等级确定单元560，配置为：在所述处理结果指示对应字段属于所述某个敏感类别的情况下，基于预先设定的备选字段与备选敏感等级之间的映射关系，确定该字段对应的敏感等级。

图6示出根据另一个实施例的敏感信息检测装置的结构示意图，所述装置可以实现为任何具有计算、处理能力的服务器或设备集群等。如图6所示，装置600包括以下单元：

字段信息获取单元610，配置为获取待检测的多个字段的多个字段信息，各个字段信息中包括对应字段的字段属性和多个字段值；预判别单元620，配置为基于所述多个字段信息，根据针对非敏感类别设定的第一判别规则，以及针对敏感类别设定的第二判别规则，过滤掉所述多个字段中的非敏感字段，并得到若干疑似敏感字段中各个疑似敏感字段疑似的敏感类别；算法确定单元630，配置为针对所述各个疑似敏感字段，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定该疑似敏感字段疑似的敏感类别所对应的检测算法；字段信息处理单元640，配置为利用所述检测算法处理该疑似敏感字段的字段信息，得到处理结果，该处理结果指示该疑似敏感字段是否属于其疑似的敏感类别。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图4所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图4所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种敏感信息检测方法，包括：

获取待检测的字段的字段信息，其中包括字段属性和多个字段值；

利用预设规则对所述字段信息进行敏感性判别；

在判别出所述字段信息疑似某个敏感类别的情况下，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定所述某个敏感类别对应的检测算法；

利用所述检测算法处理所述字段信息，得到处理结果，该处理结果指示所述字段是否属于所述某个敏感类别。

2.根据权利要求1所述的方法，其中，所述字段属性包括以下中的至少一项：字段名称、字段注释、字段类型、字段所属表格的表名、表注释。

3.根据权利要求1所述的方法，其中，获取待检测的字段的字段信息，包括：

针对所述字段的字段值分别进行第一采样和第二采样，得到对应的多个第一字段值和多个第二字段值；

基于所述多个第一字段值和多个第二字段值，评估所述第一采样的第一采样质量；

在所述第一采样质量达到预设标准的情况下，基于所述多个第一字段值，确定所述多个字段值。

4.根据权利要求3所述的方法，其中，基于所述多个第一字段值和多个第二字段值，评估所述第一采样的第一采样质量，包括：

计算所述多个第一字段值对应的第一字段值分布，与所述多个第二字段值对应的第二字段值分布之间的差异程度；

在所述差异程度小于预设阈值的情况下，判定所述第一采样质量达到预设标准。

5.根据权利要求1所述的方法，其中，获取待检测的字段的字段信息，包括：

针对所述字段的字段值进行第一采样，得到多个第一字段值；

确定所述多个第一字段值对应的多个编码向量，并计算基于该多个编码向量组成的多对编码向量间的多个相似度；

在所述多个相似度反映所述多个编码向量之间的相似性小于预设程度的情况下，基于所述多个第一字段值，确定所述多个字段值。

6.根据权利要求3或5所述的方法，其中，基于所述多个第一字段值，确定所述多个字段值，包括：

通过对所述多个第一字段值进行去重处理，得到所述多个字段值。

7.根据权利要求1所述的方法，其中，所述预设规则包括针对若干备选敏感类别的敏感类规则，以及针对若干非敏感类别的非敏感类规则；其中，利用预设规则对所述字段信息进行判别，包括：

对所述字段信息进行特征提取，得到对应多个预设特征项的多个特征值；

利用所述非敏感类规则，对所述多个特征值进行判别；

在判别出其不属于若干非敏感类别中任一敏感类别的情况下，利用所述敏感类规则对所述多个特征值进行判别，得到所述某个敏感类别。

8.根据权利要求1所述的方法，其中，在利用预设规则对所述字段信息进行判别之后，所述方法还包括：

在判别出所述字段信息属于某个非敏感类别的情况下，舍弃所述字段。

9.根据权利要求1所述的方法，其中，在所述映射关系中，任一备选敏感类别对应一个或多个备选检测算法，该一个或多个备选检测算法涉及以下算法类型中的一种或多种：规则、正则表达式、机器学习模型。

10.根据权利要求1所述的方法，其中，所述检测算法包括针对所述某个敏感类别的第一机器学习模型，其中包括属性表征层、值表征层、融合层和全连接层；

其中，利用所述检测算法处理所述字段信息，得到处理结果，包括：

利用所述属性表征层，对所述字段属性进行表征处理，得到属性表征向量；

利用值表征层，分别对所述多个字段值进行表征处理，得到多个值表征向量；

利用融合层，将所述属性表征向量分别与所述多个值表征向量进行融合处理，得到多个融合向量；

利用所述全连接层，分别对所述多个融合向量进行处理，得到多个检测结果；

基于所述多个检测结果，确定所述处理结果。

11.根据权利要求10所述的方法，所述某个敏感类别为以下中的一种：用户姓名、用户地址、公司名称。

12.根据权利要求10所述的方法，其中，各个检测结果中包括指示对应的字段属性-字段值对被识别为所述某个敏感类别的概率；其中，基于所述多个检测结果，确定所述处理结果，包括：

计算所述多个检测结果中多个概率的平均概率；

在所述平均概率大于预设概率的情况下，判定所述字段属于所述某个敏感类别，并将该判定结果作为所述处理结果。

13.根据权利要求1所述的方法，其中，所述检测算法包括针对所述某个敏感类别的第二机器学习模型，以及，针对字段属性的若干第一规则和/或若干第一正则表达式，针对字段值的若干第二规则和/或若干第二正则表达式；

基于所述字段的字段属性，利用所述若干第一规则和/或若干第一正则表达式，得到若干属性特征值；

基于所述多个字段值，利用所述若干第二规则和/或若干第二正则表达式，得到若干统计特征值；

将所述若干属性特征值和若干统计特征值输入所述第二机器学习模型中，得到所述处理结果。

14.根据权利要求1所述的方法，还包括：

在所述处理结果指示对应字段属于所述某个敏感类别的情况下，基于预先设定的备选字段与备选敏感等级之间的映射关系，确定该字段对应的敏感等级。

15.一种敏感信息检测方法，包括：

获取待检测的多个字段的多个字段信息，各个字段信息中包括对应字段的字段属性和多个字段值；

基于所述多个字段信息，根据针对非敏感类别设定的第一判别规则，以及针对敏感类别设定的第二判别规则，过滤掉所述多个字段中的非敏感字段，并得到若干疑似敏感字段中各个疑似敏感字段疑似的敏感类别；

针对所述各个疑似敏感字段，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定该疑似敏感字段疑似的敏感类别所对应的检测算法；利用所述检测算法处理该疑似敏感字段的字段信息，得到处理结果，该处理结果指示该疑似敏感字段是否属于其疑似的敏感类别。

16.一种敏感信息检测装置，包括：

字段信息获取单元，配置为获取待检测的字段的字段信息，其中包括字段属性和多个字段值；

预判别单元，配置为利用预设规则对所述字段信息进行敏感性判别；

算法确定单元，配置为在判别出所述字段信息疑似某个敏感类别的情况下，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定所述某个敏感类别对应的检测算法；

字段信息处理单元，配置为利用所述检测算法处理所述字段信息，得到处理结果，该处理结果指示所述字段是否属于所述某个敏感类别。

17.根据权利要求16所述的装置，其中，所述字段信息获取单元包括：

采样模块，配置为针对所述字段的字段值分别进行第一采样和第二采样，得到对应的多个第一字段值和多个第二字段值；

评估模块，配置为基于所述多个第一字段值和多个第二字段值，评估所述第一采样的第一采样质量；

确定模块，配置为在所述第一采样质量达到预设标准的情况下，基于所述多个第一字段值，确定所述多个字段值。

18.根据权利要求17所述的装置，其中，所述评估模块具体配置为：

19.根据权利要求16所述的装置，其中，所述字段信息获取单元具体配置为：

20.根据权利要求16所述的装置，其中，所述预设规则包括针对若干备选敏感类别的敏感类规则，以及针对若干非敏感类别的非敏感类规则；其中，所述预判别单元具体配置为：

利用所述非敏感类规则，对所述多个特征值进行判别；

21.根据权利要求16所述的装置，其中，所述检测算法包括针对所述某个敏感类别的第一机器学习模型，其中包括属性表征层、值表征层、融合层和全连接层；

其中，所述字段信息处理单元具体配置为：

基于所述多个检测结果，确定所述处理结果。

22.根据权利要求1所述的装置，其中，所述检测算法包括针对所述某个敏感类别的第二机器学习模型，以及，针对字段属性的若干第一规则和/或若干第一正则表达式，针对字段值的若干第二规则和/或若干第二正则表达式；

所述字段信息处理单元具体配置为：

23.一种敏感信息检测装置，包括：

字段信息获取单元，配置为获取待检测的多个字段的多个字段信息，各个字段信息中包括对应字段的字段属性和多个字段值；

预判别单元，配置为基于所述多个字段信息，根据针对非敏感类别设定的第一判别规则，以及针对敏感类别设定的第二判别规则，过滤掉所述多个字段中的非敏感字段，并得到若干疑似敏感字段中各个疑似敏感字段疑似的敏感类别；

算法确定单元，配置为针对所述各个疑似敏感字段，基于预先建立的备选检测算法和备选敏感类别之间的映射关系，确定该疑似敏感字段疑似的敏感类别所对应的检测算法；

字段信息处理单元，配置为利用所述检测算法处理该疑似敏感字段的字段信息，得到处理结果，该处理结果指示该疑似敏感字段是否属于其疑似的敏感类别。

24.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-15中任一项所述的方法。

25.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-15中任一项所述的方法。