CN116090006B

CN116090006B - 一种基于深度学习的敏感识别方法及***

Info

Publication number: CN116090006B
Application number: CN202310049401.5A
Authority: CN
Inventors: 金震; 张京日; 穆宇浩
Original assignee: Beijing SunwayWorld Science and Technology Co Ltd
Current assignee: Beijing SunwayWorld Science and Technology Co Ltd
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-09-08
Anticipated expiration: 2043-02-01
Also published as: CN116090006A

Abstract

本发明提供了一种基于深度学习的敏感识别方法及***，其方法包括：S1：基于用户设置的每个敏感等级的所有字段属性集合，生成每个敏感等级的每个字段属性的初始模型；S2：利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果；S3：基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型；S4：将待识别数据库中的所有数据表输入至所有最终敏感识别模型，获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果；用以将深度学习和敏感识别结合，使得用户只需上传样本数据，即可自动深度学习并训练测试出符合要求的敏感识别模型，与传统的敏感识别方式相比，识别准确率和效率都有所提高。

Description

一种基于深度学习的敏感识别方法及***

技术领域

本发明涉及敏感识别技术领域，特别涉及一种基于深度学习的敏感识别方法及***。

背景技术

目前，在数据安全中，需要对数据库中的数据进行敏感识别，识别出不同敏感等级的字段数据，进而进行标签化或者二次处理，传统的敏感识别是基于规则的，如黑白名单、正则表达式等。此类方法对于简单的敏感识别任务比较适用。

但当数据量较大，敏感规则复杂的场景，配置黑白名单，制定正则表达式将是一件很繁琐、很低效，甚至于无法完成的任务，例如，对姓名字段属性的数据进行敏感识别时，传统的正则表达式和黑白名单无法定义姓名的字段数据，所以，无法完成敏感识别任务。

因此，本发明提出一种基于深度学习的敏感识别方法及***。

发明内容

本发明提供一种基于深度学习的敏感识别方法及***，用以将深度学习和敏感识别结合，使得用户只需上传样本数据，即可自动深度学习并训练测试出符合要求的敏感识别模型，与传统的敏感识别方式相比，识别准确率和效率都有所提高。

本发明提供一种基于深度学习的敏感识别方法，包括：

S1：基于用户设置的每个敏感等级的所有字段属性集合，生成每个敏感等级的每个字段属性的初始模型；

S2：利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果；

S3：基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型；

S4：将待识别数据库中的所有数据表输入至所有最终敏感识别模型，获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。

优选的，所述的一种基于深度学习的敏感识别方法，S2：利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果，包括：

S201：将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本；

S202：利用训练样本训练对应敏感等级的对应字段属性的初始模型，获得每个敏感等级的每个字段属性的敏感识别模型；

S203：基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型，获得测试结果。

优选的，所述的一种基于深度学习的敏感识别方法，S201：将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本，包括：

获取包含用户上传的每个敏感等级的每个字段属性的样本数据中的所有第一子样本数据的所有完整数据表，并将每个完整数据表中包含的样本数据中的所有第一子样本数据进行标记，获得多个样本标记数据表；

对所有样本数据表进行排序，获得样本数据表的第一序数，基于统一排序方式对所有样本数据表中包含的单位数据进行排序，获得每个样本数据表中每个第一子样本数据的第二序数；

基于每个样本数据表的第一序数和每个样本数据表中每个第一子样本数据的第二序数，生成样本数据中所有第一子样本数据的第一序列；

基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数，获得每个敏感等级的每个字段属性的初始样本数据；

将初始样本数据划分为训练样本和测试样本。

优选的，所述的一种基于深度学习的敏感识别方法，基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数，获得每个敏感等级的每个字段属性的初始样本数据，包括：

基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻前一第一子样本数据的第二序数以及对应第一子样本数据的第二序数，生成对应第一子样本数据的第一三维分布坐标；

基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数，生成对应第一子样本数据的第二三维分布坐标；

基于第一三维分布坐标和第二三维分布坐标，获得每个敏感等级的每个字段属性的初始样本数据。

优选的，所述的一种基于深度学习的敏感识别方法，基于第一三维分布坐标点和第二三维坐标点，获得每个敏感等级的每个字段属性的初始样本数据，包括：

基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的第一位置分布特征向量；

将第一位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定，获得每个敏感等级的每个字段属性的初始样本数据。

优选的，所述的一种基于深度学习的敏感识别方法，将初始样本数据划分为训练样本和测试样本，包括：

基于预设比例，将每个敏感等级的每个字段属性的初始样本数据中的正样本数据和负样本数据划分为正训练样本数据和负训练样本数据以及正测试样本数据和负测试样本数据；

将正训练样本数据和负训练样本数据汇总，获得训练样本；

将正测试样本数据和负测试样本数据汇总，获得测试样本。

优选的，所述的一种基于深度学习的敏感识别方法，S203：基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型，获得测试结果，包括：

将测试样本输入至对应敏感等级的对应字段属性的敏感识别模型中，获得每个敏感等级的每个字段属性的测试敏感识别结果；

基于用户输入的对测试敏感识别结果的识别正误性判断结果，确定出每个敏感识别模型的测试识别准确率；

将所有敏感识别模型的测试识别准确率当作测试结果。

优选的，所述的一种基于深度学习的敏感识别方法，基于用户输入的对测试敏感识别结果的识别正误性判断结果，确定出每个敏感识别模型的测试识别准确率，包括：

基于用户输入的对测试敏感识别结果的识别正误性判断结果，确定出每个敏感识别模型的测试样本中识别正确的单位数据的第一总数；

将第一总数和对应敏感识别模型的测试样本中包含的所有单位数据的第二总数的比值作为初始识别准确率；

确定出每个敏感识别模型的正训练样本数据中每个第一子样本数据的第一位置分布特征向量和每个敏感识别模型的正测试样本数据中每个第一子样本数据的第二位置分布特征向量；

基于正训练样本数据中所有第一子样本数据在对应的第一序列中的顺序，对所有第一位置分布特征向量进行排序，获得第二序列；

基于正测试样本数据中所有第一子样本数据在对应的第一序列中的顺序，对所有第二位置分布特征向量进行排序，获得第三序列；

基于第二序列和第三序列，计算出每个敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率；

基于初始识别准确率和分布差别率，计算出对应敏感识别模型的测试识别准确率。

优选的，所述的一种基于深度学习的敏感识别方法，S3：基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型，包括：

判断测试结果中的所有敏感识别模型的测试识别准确率是否不小于准确率阈值，若是，则将每个敏感等级的每个字段属性的敏感识别模型当作对应敏感等级的对应字段属性的最终敏感识别模型；

否则，基于重新接收的对应敏感等级的对应字段属性的样本数据对对应初始模型进行重新训练和测试，直至最新获得的敏感识别模型的测试识别准确率不小于准确率阈值时，则将最新获得的敏感识别模型当作对应敏感等级的对应字段属性的最终敏感识别模型。

本发明提供一种基于深度学习的敏感识别***，包括：

第一生成模块，用于基于用户设置的每个敏感等级的所有字段属性集合，生成每个敏感等级的每个字段属性的初始模型；

模型训练模块，用于利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果；

第二生成模块，用于基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型；

敏感识别模块，用于将待识别数据库中的所有数据表输入至所有最终敏感识别模型，获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于深度学习的敏感识别方法流程图；

图2为本发明实施例中又一种基于深度学习的敏感识别方法流程图；

图3为本发明实施例中一种基于深度学习的敏感识别***示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

本发明提供了一种基于深度学习的敏感识别方法，参考图1，包括：

该实施例中，敏感等级即为需要被敏感识别出的数据的敏感等级，例如有：绝密、保密、涉密等级别。

该实施例中，字段属性集合即为用户设置的不同敏感等级的字段属性构成的集合，例如：将数据表A中的字段属性为“姓名”和“年收入”的数据设置为涉密等级。

该实施例中，初始模型即为基于用户设置的初始模型配置生成的用于基于用户输入的样本数据训练测试后生成可识别出用户设置的每个敏感等级的所有字段属性集合对应的数据的模型。

该实施例中，样本数据即为用户上传的用于对初始模型进行训练并测试的样本数据，其中，包含正样本(例如1000个姓名样本)和负样本(例如1000个非姓名样本)。

该实施例中，测试结果即为利用用户上传的每个敏感等级的每个字段属性的样本数据对初始模型进行训练并测试后获得的结果，包含每个训练后的敏感识别模型对测试样本中的敏感数据的测试识别准确率。

该实施例中，最终敏感识别模型即为基于测试结果判断训练后的敏感识别模型是否满足要求，若是，则将敏感识别模型当作最终敏感识别模型，否则，基于重新输入的样本数据对初始模型进行重新训练和测试，直至测试出训练后的敏感识别模型满足要就是，则将敏感识别模型当作最终敏感识别模型。

该实施例中，待识别数据库即为包含所有需要被敏感识别的数据表的数据库。

该实施例中，敏感数据即为利用最终敏感识别模型在待识别数据库中识别出的每个敏感等级的每个字段属性的数据作为对应敏感等级的敏感数据。

该实施例中，最终敏感识别结果即为利用最终识别模型在待识别数据库中识别出的包含每个敏感等级的每个字段属性的敏感数据的结果。

该实施例中，本发明通过用户输入的每个敏感等级(例如涉密)的每个字段属性(例如姓名，即用户提前设置数据表中字段属性为“姓名”的数据为涉密等级)的样本数据对初始模型进行训练(利用样本数据中的训练样本)测试(利用样本数据中的测试样本)后获得的可以识别出对应字段属性(例如姓名)的敏感数据，实现对不同敏感等级的不同字段属性的敏感数据的准确高效识别。

以上技术的有益效果为：将深度学习和敏感识别结合，使得用户只需上传样本数据，即可自动深度学习并训练测试出符合要求的敏感识别模型，基于训练测试出的最终敏感识别模型去识别待识别数据库中的敏感数据，与传统的敏感识别方式相比，识别准确率和效率都有所提高。

实施例2：

在实施例1的基础上，所述的一种基于深度学习的敏感识别方法，S2：利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果，参考图2，包括：

该实施例中，训练样本即为由用户上传的每个敏感等级的每个字段属性的样本数据划分获得的用于训练对应敏感等级的对应字段属性的初始模型的数据。

该实施例中，测试样本即为由用户上传的每个敏感等级的每个字段属性的样本数据划分获得的用于测试对应敏感等级的对应字段属性的敏感识别模型的数据。

该实施例中，敏感识别模型即为利用训练样本训练对应敏感等级的对应字段属性的初始模型后获得的模型。

以上技术的有益效果为：通过将用户上传的每个敏感等级的字段属性的样本数据划分为训练样本和测试样本，并基于训练样本和测试样本对初始模型分别进行训练和测试，不仅生成可识别敏感数据的敏感识别模型，并实现对敏感识别模型的测试识别。

实施例3：

在实施例2的基础上，所述的一种基于深度学习的敏感识别方法，S201：将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本，包括：

将初始样本数据划分为训练样本和测试样本。

该实施例中，第一子样本数据即为用户上传的每个敏感等级的每个字段属性的样本数据中的单位数据。

该实施例中，完整数据表即为包含第一子样本数据的完整的数据表(即最原始状态的数据表)。

该实施例中，本标记数据表即为将每个完整数据表中包含的样本数据中的所有第一子样本数据进行标记后获得的数据表。

该实施例中，第一序数即为对所有样本数据表进行排序(例如按照数据规模排序，或者按照数据表的实体的预设顺序对样本数据表进行排序)后确定出的样本数据表的序数。

该实施例中，统一排序方式即为对每个样本数据表中包含的单位数据进行排序的方式，例如，可采用行优先的原则进行排序，例如：第一行的数据比第二行的数据的顺序靠前，当行序数一致时，利用列序数进行排序的方法。

该实施例中，第二序数即为基于统一排序方式对所有样本数据表中包含的单位数据进行排序后确定出的子样本数据在所在的样本数据表中的序数，这样获得的第一子样本数据的第二序数可能相邻也可能不相邻，因为是对所有样本数据表中包含的单位数据进行排序后确定出的第二序数，而不是对所有第一子样本数据排序后确定出的第二序数。

该实施例中，第一序列即为基于每个样本数据表的第一序数和每个样本数据表中每个第一子样本数据的第二序数生成的由样本数据中所有第一子样本数据构成的序列，例如：第一序数在前的第一子样本数据在第一序列中的序数更靠前，当两个第一子样本数据的第一序数一致时，则第二序数靠前的第一子样本数据在第一序列中的序数更靠前。

该实施例中，初始样本数据即为基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数确定出的初始的样本数据，即将基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数确定出表征每个第一子样本数据的位置分布特征的数据进行对应绑定后获得的样本数据。

以上技术的有益效果为：通过确定出包含样本数据中的第一子样本数据的完整数据表的顺序以及第一子样本数据在完整数据表中的顺序，便于后续表示出每个第一子样本数据在完整数据表中的分布位置，将其与样本数据进行结合，可以在训练初始模型时，使得训练出的敏感识别模型在识别敏感数据时可以综合考虑到敏感数据在完整数据表中的分布位置(因为某一字段属性的数据在完整数据表中的分布位置多存在规律，例如以列分布，因此，识别时结合数据的分布位置可以大大提高敏感识别的准确性)，进而使得训练出的敏感识别模型的识别准确率更高。

实施例4：

在实施例2的基础上，所述的一种基于深度学习的敏感识别方法，基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数，获得每个敏感等级的每个字段属性的初始样本数据，包括：

该实施例中，基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻前一第一子样本数据的第二序数以及对应第一子样本数据的第二序数，生成对应第一子样本数据的第一三维分布坐标，第一三维分布坐标即为(x₁,y₁,z₁)，式中，x₁为第一子样本数据所在的样本数据表的第一序数，y₁为第一子样本数据对应相邻前一第一子样本数据的第二序数，z₁为第一子样本数据的第二序数。

该实施例中，基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数，生成对应第一子样本数据的第二三维分布坐标，第二三维分布坐标即为(x₂,y₂,z₂)，式中，x₂为第一子样本数据所在的样本数据表的第一序数，y₂为第一子样本数据对应相邻后一第一子样本数据的第二序数，z₂为第一子样本数据的第二序数。

以上技术的有益效果为：基于第一序列中每个第一子样本数据所在的样本数据表的第一序数、对应相邻前一第一子样本数据的第二序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数，生成第一子样本数据的第一三维分布坐标和第二三维分布坐标，实现基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数确定出每个样本数据在完整数据表中的分布特征。

实施例5：

在实施例4的基础上，所述的一种基于深度学习的敏感识别方法，基于第一三维分布坐标点和第二三维坐标点，获得每个敏感等级的每个字段属性的初始样本数据，包括：

基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的位置分布特征向量；

将位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定，获得每个敏感等级的每个字段属性的初始样本数据。

该实施例中，位置分布特征向量即为将第一三维分布坐标指向第二三维分布坐标的向量，也是表征第一子样本数据在样本数据表中与前一第一子样本数据以及后一第一子样本数据之间的相对位置关系的向量。

以上技术的有益效果为：基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的位置分布特征向量，并将位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定，获得表征每个第一子样本数据的位置特征的向量和对应的样本数据。

实施例6：

在实施例2的基础上，所述的一种基于深度学习的敏感识别方法，将初始样本数据划分为训练样本和测试样本，包括：

将正训练样本数据和负训练样本数据汇总，获得训练样本；

将正测试样本数据和负测试样本数据汇总，获得测试样本。

该实施例中，预设比例即为预先设置的将用户上传的样本数据划分为训练样本和测试样本的比例，例如：9比1，训练样本数据的数据规模为样本数据的数据规模的0.9倍，测试样本数据的数据规模为样本数据的数据规模的0.1倍。

该实施例中，正样本数据即为每个敏感等级的每个字段属性的初始样本数据中的正样本。

该实施例中，负样本数据即为每个敏感等级的每个字段属性的初始样本数据中的负样本。

该实施例中，正训练样本数据即为由每个敏感等级的每个字段属性的初始样本数据划分获得的用于训练初始模型的正样本数据。

该实施例中，负训练样本数据即为由每个敏感等级的每个字段属性的初始样本数据划分获得的用于训练初始模型的负样本数据。

该实施例中，正测试样本数据即为由每个敏感等级的每个字段属性的初始样本数据划分获得的用于测试初始模型的正样本数据。

该实施例中，负测试样本数据即为由每个敏感等级的每个字段属性的初始样本数据划分获得的用于测试初始模型的负样本数据。

以上技术的有益效果为：基于预设比例将每个敏感等级的每个字段属性的初始样本数据中的正样本数据和负样本数据划分为正训练样本数据和负训练样本数据以及正测试样本数据和负测试样本数据，获得训练样本和测试样本，进而获得训练并测试初始模型的样本数据。

实施例7：

在实施例2的基础上，所述的一种基于深度学习的敏感识别方法，S203：基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型，获得测试结果，包括：

将所有敏感识别模型的测试识别准确率当作测试结果。

该实施例中，测试敏感识别结果即为将测试样本输入至对应敏感等级的对应字段属性的敏感识别模型中后敏感识别模型在测试样本中识别出的敏感数据。

该实施例中，识别正误性判断结果即为用户输入的对测试敏感识别结果中识别正误的标记判断结果，即用户标记出敏感识别模型识别出的测试数据中的敏感数据的正误性。

该实施例中，测试识别准确率即为敏感识别模型对测试样本中的敏感数据识别的准确率。

以上技术的有益效果为：通过将测试样本输入至对应敏感等级的对应字段属性的敏感识别模型中，并基于用户输入的对测试敏感识别结果的识别正误性判断结果，确定出每个敏感识别模型的测试识别准确率，实现对敏感识别模型的测试过程。

实施例8：

在实施例7的基础上，所述的一种基于深度学习的敏感识别方法，基于用户输入的对测试敏感识别结果的识别正误性判断结果，确定出每个敏感识别模型的测试识别准确率，包括：

该实施例中，第一总数即为每个敏感识别模型对测试样本中包含的敏感数据识别正确的总数。

该实施例中，第二总数即为测试样本中包含的单位数据的总数。

该实施例中，初始识别准确率即为对应敏感识别模型的测试样本的第一总数和第二总数的比值。

该实施例中，第一位置分布特征向量即为正训练样本数据中的每个第一子样本数据的位置分布特征向量。

该实施例中，第二位置分布特征向量即为正测试样本数据中每个第一子样本数据的位置分布特征向量。

该实施例中，第二序列即为基于正训练样本数据中所有第一子样本数据在对应的第一序列中的顺序对所有第一位置分布特征向量进行排序后获得的序列。

该实施例中，基于正测试样本数据中每个第一子样本数据的完整数据表的顺序和每个第一子样本数据在对应完整数据表中的第三序数，确定出包含所有第一子样本数据的第三序列

该实施例中，第三序列即为基于正测试样本数据中所有第一子样本数据在对应的第一序列中的顺序对所有第二位置分布特征向量进行排序后获得的序列。

该实施例中，基于第二序列和第三序列，计算出每个敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率，包括：

式中，γ_fb为敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率，i为第二序列中的第i个第一位置分布特征向量和第三序列中的第i个第二位置分布特征向量，n为第二序列中包含的第一位置分布特征向量的总数和第三序列中的第二位置分布特征向量的总数中的较大值，A_1i为第二序列中的第i个第一位置分布特征向量，A_2i为第三序列中的第i个第二位置分布特征向量，|A_1i|为第二序列中的第i个第一位置分布特征向量的模，|A_2i|为第三序列中的第i个第二位置分布特征向量的模，α_1i,2i为第二序列中的第i个第一位置分布特征向量和第三序列中的第i个第二位置分布特征向量之间的夹角，cosα_1i,2i为第二序列中的第i个第一位置分布特征向量和第三序列中的第i个第二位置分布特征向量之间的夹角余弦值；

当第二序列中不存在第i个第一位置分布特征向量或第三序列中不存在第i个第二位置分布特征向量时，则将对应的第一位置分布特征向量或第二位置分布特征向量设置为零向量(例如，第二序列中包含的第一位置分布特征向量总数为10，第三序列中包含的第二位置分布特征向量总数为8，则基于上述公式计算时将第三序列中包含的第9至10个第二位置分布特征向量设置为零向量)；

基于上述公式可以准确计算出敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率。

该实施例中，基于初始识别准确率和分布差别率，计算出对应敏感识别模型的测试识别准确率，包括：

θ＝γ_fb+β_c

式中，θ为敏感识别模型的测试识别准确率，γ_fb为分布差别率，β_c为初始识别准确率；

基于上述公式可以综合考虑敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率，准确计算出敏感识别模型的测试识别准确率。

以上技术的有益效果为：通过统计出的敏感识别模型正确识别出测试样本中的敏感数据的总数和测试样本中的敏感数据的总数，计算出初始识别准确率，并基于正训练样本中每个第一子样本数据的第一位置分布特征向量构成的序列和正测试样本中每个第一子样本数据的第二位置分布特征向量构成的序列，实现综合子样本数据在正训练样本和正测试样本中的分布特征，计算出敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率，并结合计算出的初始识别准确率，使得计算出的敏感识别模型的测试识别准确率更加准确。

实施例9：

在实施例1的基础上，所述的一种基于深度学习的敏感识别方法，S3：基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型，包括：

该实施例中，准确率阈值即为当判定敏感识别模型满足要求时(即可当作最终敏感识别模型时)应该满足的最小测试识别准确率。

以上技术的有益效果为：实现基于测试结果中敏感识别模型的测试识别准确率判断出敏感识别模型是否满足要求，进而获得识别准确率高且识别效率高的最终敏感识别模型。

实施例10：

本发明提供了一种基于深度学习的敏感识别***，参考图3，包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的敏感识别方法，其特征在于，包括：

S4：将待识别数据库中的所有数据表输入至所有最终敏感识别模型，获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果；

步骤S2：利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果，包括：

S203：基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型，获得测试结果；

步骤S201：将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本，包括：

将初始样本数据划分为训练样本和测试样本；

其中，基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数，获得每个敏感等级的每个字段属性的初始样本数据，包括：

基于第一三维分布坐标和第二三维分布坐标，获得每个敏感等级的每个字段属性的初始样本数据；

其中，基于第一三维分布坐标点和第二三维分布坐标点，获得每个敏感等级的每个字段属性的初始样本数据，包括：

2.根据权利要求1所述的一种基于深度学习的敏感识别方法，其特征在于，将初始样本数据划分为训练样本和测试样本，包括：

将正训练样本数据和负训练样本数据汇总，获得训练样本；

将正测试样本数据和负测试样本数据汇总，获得测试样本。

3.根据权利要求1所述的一种基于深度学习的敏感识别方法，其特征在于，S203：基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型，获得测试结果，包括：

将所有敏感识别模型的测试识别准确率当作测试结果。

4.根据权利要求3所述的一种基于深度学习的敏感识别方法，其特征在于，基于用户输入的对测试敏感识别结果的识别正误性判断结果，确定出每个敏感识别模型的测试识别准确率，包括：

5.根据权利要求1所述的一种基于深度学习的敏感识别方法，其特征在于，S3：基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型，包括：

6.一种基于深度学习的敏感识别***，其特征在于，用于执行权利要求1至5中任一所述的基于深度学习的敏感识别方法，包括：