CN110909224B

CN110909224B - 一种基于人工智能的敏感数据自动分类识别方法及***

Info

Publication number: CN110909224B
Application number: CN201911155467.2A
Authority: CN
Inventors: 马新强; 刘勇; 杨建党; 刘丽娜; 钟保权; 黄羿
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2022-06-10
Anticipated expiration: 2039-11-22
Also published as: CN110909224A

Abstract

本发明提供一种基于人工智能的敏感数据自动分类识别方法及***，涉及数据安全技术领域，其中一种基于人工智能的敏感数据自动分类识别方法，包括以下步骤：S1：获取数据训练集；S2：分类建立敏感数据集；S3：对具体敏感数据进行识别；S4：获取测试数据并输入至所述敏感数据自动分类模型，对敏感数据进行分类，再输入敏感数据识别模型，生成特征识别结果。本发明一种基于人工智能的敏感数据自动分类识别方法及***将人工智能技术应用于敏感数据和关联关系识别阶段，有效解决传统正则方式性能与准确性不可兼得的痛点，并且也可省去专业人员对于正则识别规则的维护，真正达到免配置和自动功能的实现，为用户带来价值提升。

Description

一种基于人工智能的敏感数据自动分类识别方法及***

技术领域

本发明涉及数据安全技术领域，

尤其是，本发明涉及一种基于人工智能的敏感数据自动分类识别方法及***。

背景技术

随着大数据时代的到来，数据中蕴藏的巨大价值得以挖掘，同时也带来了隐私信息与关键性敏感数据保护方面的困难。如何在实现数据高效共享的同时，保护敏感信息不被泄露，已成为数据安全智能开发的关键环节。首先就是如何识别敏感数据，敏感数据的定义是什么，有哪些依赖，应用程序是十分复杂并且完整的。知道敏感信息在哪，并且知道哪些数据参考了这些敏感数据是非常困难的。现有两种方式来识别敏感数据。第一种是通过人工指定，比如通过正则来指定敏感数据的格式；第二种方式就是自动识别。比如基于数据特征学习和自然语言处理等技术进行敏感数据识别的自动识别方案。敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容，在这一过程中明确，用于脱敏策略制定的依据。

当前国内外数据安全解决方案提供商的研究主要集中在以下两点：一是敏感数据智能准确识别技术；二是数据脱敏算法与规则的优化。目前国内外还没有能提供成熟完善的敏感数据智能准确分类和识别的解决方案。随着人工智能技术的不断发展，同样需要顺应信息化到智能化发展的需要，开展各种智能识别、数据安全智能技术的研发工作。

所以，如何设计一种基于人工智能的敏感数据自动分类识别方法或者***，成为我们当前急需要解决的问题。

发明内容

本发明的目的在于提供一种简单实用，将人工智能技术应用于敏感数据和关联关系识别阶段，有效解决传统正则方式性能与准确性不可兼得的痛点，并且也可省去专业人员对于正则识别规则的维护，真正达到免配置和自动功能的实现，为用户带来价值提升的基于人工智能的敏感数据自动分类识别方法。

为达到上述目的，本发明采用如下技术方案得以实现的：

一种基于人工智能的敏感数据自动分类识别方法，该方法包括以下步骤：

S1：获取数据训练集；

S2：使用数据训练集用敏感数据自动分类模型训练，分类建立敏感数据集；

S3：使用分类建立好的敏感数据集，使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别；

S4：获取测试数据并输入至所述敏感数据自动分类模型，对敏感数据进行分类，再输入敏感数据识别模型，生成特征识别结果。

作为本发明的优选，执行步骤S1具体包括：

S11：获取相关企业及政府部分的各类数据；

S12：清洗所有数据，获得所需数据；

S13：将所需数据整理为训练数据集。

作为本发明的优选，执行步骤S2具体包括：

S21：设置分类学习模型结构为两种模型，包含决策树和支持向量机模型：

决策树模型，根据训练数据集，从根结点开始，根据基尼指数最小的特征，递归地对每个结点进行CART决策树生成算法操作，构建二叉决策树，对决策树进行剪枝，得到用于分类的最优子树；

支持向量机模型，对有N个数据的训练数据集，选取适当的核函数

和适当的参数C，构造并求解最优化问题：

求得最优解

，再构造决策函数，得到用于分类的支持向量机；

S22：界定安全标，包括：***运行安全、交易安全、经营安全、个人账户安全和个人信息安全；

S23：安全子目标分解，达到对安全标的影响分析，需要对安全保障目标进行安全要素分解，分解成能够跟信息***中的数据项对应的安全子标；

S24：影响因素分析，针对上述安全标的每一安全子目标，分析其影响因素，影响因素匹配到信息***中的数据项，即数据项集合。同时，对于影响到多个安全子目标的数据项，列为重点敏感数据项；

S25：敏感数据分类确认，对多个安全子目标的影响因素分解结果对应的***数据项和数据项集合，根据敏感性从高到低进行排序，并确认为敏感数据项，对分类好的敏感数据建立敏感数据集，用于后续具体敏感数据的识别。

作为本发明的优选，执行步骤S3具体包括：

S31：设置敏感数据识别学习模型结构为双向长短期记忆网络（Bi-LSTM）和条件随机场（CRF）结合，Bi-LSTM设置为双向学习序列关联关系，捕捉序列之间的依赖关系，CRF定义一个特征函数集，该函数集内的每个特征函数以标注序列作为输入，提取的特征作为输出；

S32：读取步骤S25获得的敏感数据所属的种类，使用识别学习模型分析内部结构；

S33：向识别模型输入分类好的数据集，对敏感数据进行识别，输出识别好的敏感数据。

作为本发明的优选，执行步骤S4具体包括：

S41：将所述测试数据进行预处理，生成能够用于训练的数据；

S42：将所述测试数据输入分类学习模型，确定敏感数据及其分类；

S43：将所述测试数据按类别输入敏感数据识别模型，对敏感数据进行识别；

S44：输出测试数据的特征识别结果。

另一方面，本发明中另外还提供一种基于人工智能的敏感数据自动分类识别***，该***包括：

训练数据生成模块，用于获取需要分类和识别的数据，并整理为训练数据和测试数据；

数据分类模型训练模块，通过训练数据的训练得到能够对敏感数据进行分类的分类器；

数据识别模型训练模块，通过训练数据的训练得到能够对敏感数据进行识别的识别器；

敏感数据自动分类和识别模块，用于输入测试数据至分类器和识别器中，输出识别好的敏感数据；

训练数据生成模块获取数据训练集，数据分类模型训练模块使用数据训练集用敏感数据自动分类模型训练，分类建立敏感数据集，数据识别模型训练模块使用分类建立好的敏感数据集，使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别，敏感数据自动分类和识别模块获取测试数据并输入至所述敏感数据自动分类模型，对敏感数据进行分类，再输入敏感数据识别模型，生成特征识别结果。

作为本发明的优选，本发明一种基于人工智能的敏感数据自动分类识别***中，训练数据生成模块包括：

数据获取模块，用于获取相关企业及政府部分的各类数据；

数据清洗模块，用于清洗所有数据，获得所需数据；

数据整理模块，用于将所需数据整理为训练数据集。

作为本发明的优选，本发明一种基于人工智能的敏感数据自动分类识别***中，数据分类模型训练模块包括：

分类模型预设模块，用于设置分类学习模型结构，包含决策树和支持向量机模型；

安全标界定模块，用于界定安全标包括：***运行安全、交易安全、经营安全、个人账户安全和个人信息安全；

安全子目标分解模块，用于达到对安全标的影响分析，需要对安全保障目标进行安全要素分解，分解成能够跟信息***中的数据项对应的安全子标；

影响因素分析模块，用于针对上述安全标的每一安全子目标，分析其影响因素，影响因素匹配到信息***中的数据项，即数据项集合。同时，对于影响到多个安全子目标的数据项，列为重点敏感数据项；

敏感数据分类确认模块，用于对多个安全子目标的影响因素分解结果对应的***数据项和数据项集合，根据敏感性从高到低进行排序，并确认为敏感数据项，对分类好的敏感数据建立敏感数据集，用于后续具体敏感数据的识别。

作为本发明的优选，本发明一种基于人工智能的敏感数据自动分类识别***中，数据识别模型训练模块包括：

识别模型预设模块，用于设置敏感数据识别学习模型结构为双向长短期记忆网络（Bi-LSTM）和条件随机场（CRF）结合，Bi-LSTM设置为双向学习序列关联关系，捕捉序列之间的依赖关系，CRF定义一个特征函数集，该函数集内的每个特征函数以标注序列作为输入，提取的特征作为输出；

结构分析模块，用于根据敏感数据分类确认模块获得敏感数据所属的种类，使用识别学习模型分析内部结构；

敏感数据识别确认模块，用于向识别模型输入分类好的数据集，对敏感数据进行识别，输出识别好的敏感数据。

作为本发明的优选，本发明一种基于人工智能的敏感数据自动分类识别***中，敏感数据自动分类和识别模块包括：

测试数据预处理模块，用于将所述测试数据进行预处理，生成能够用于训练的数据；

测试数据分类模块，用于将所述测试数据输入分类学习模型，确定敏感数据及其分类；

测试敏感数据识别模块，将所述测试数据按类别输入敏感数据识别模型，对敏感数据进行识别；

测试数据结果输出模块，用于输出测试数据的特征识别结果。

本发明一种基于人工智能的敏感数据自动分类识别方法及***有益效果在于：简单实用，将人工智能技术应用于敏感数据和关联关系识别阶段，有效解决传统正则方式性能与准确性不可兼得的痛点，并且也可省去专业人员对于正则识别规则的维护，真正达到免配置和自动功能的实现，为用户带来价值提升，且解决了现有技术存在的实际运用中需要专业人员对正则识别规则维护，敏感数据识别率差的技术问题。

附图说明

图1为本发明一种基于人工智能的敏感数据自动分类识别方法的流程示意图；

图2为本发明一种基于人工智能的敏感数据自动分类识别方法的整体网络架构示意图；

图3为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S1的具体流程示意图；

图4为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S2的具体流程示意图；

图5为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S3的具体流程示意图；

图6为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S4的具体流程示意图；

图7为本发明一种基于人工智能的敏感数据自动分类识别***的模块连接示意图。

具体实施方式

以下是本发明的具体实施例，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的模块和步骤的相对布置和步骤不限制本发明的范围。

同时，应当明白，为了便于描述，附图中的流程并不仅仅是单独进行，而是多个步骤相互交叉进行。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法及***可能不作详细讨论，但在适当情况下，技术、方法及***应当被视为授权说明书的一部分。

实施例一

如图1至6所示，仅为本发明的其中一个实施例，本发明提供一种基于人工智能的敏感数据自动分类识别方法，

参阅图1和图2，本方法通过人工智能的思想，对相关企业和政府地敏感数据进行分类学习，并对其分类，分类好的数据进行识别学习，得到识别后地敏感数据，本方法包括以下步骤：

S1：获取数据训练集；

合法合规的获取相关企业及政府部分的各类数据，对这部分数据进行清洗，获得模型训练需要的数据，并将所需数据整理为训练数据集

首先设置分类学习模型结构为两种模型，包含决策树和支持向量机模型。得到分类模型后，人为的界定安全标，然后对安全子目标进行分解，再进行影响因素分析，最后对敏感数据分类确认。

设置敏感数据识别学习模型结构为双向长短期记忆网络（Bi-LSTM）和条件随机场（CRF）结合，获得敏感数据所属的种类以及内部结构，向识别模型输入分类好的数据集，对敏感数据进行识别，输出识别好的敏感数据。

如图3所示，执行步骤S1具体包括：

S11：获取相关企业及政府部分的各类数据；在这里应当合法合规的获取相关企业及政府部分的各类数据；

S12：清洗所有数据，获得所需数据；清洗数据为获取的所有相关企业及政府部分的各类数据，取出有价值的数据信息，获得模型训练需要的数据。；

S13：将所需数据整理为训练数据集。

如图4所示，执行步骤S2具体包括：

S21：设置分类学习模型结构，为两种模型，包含决策树和支持向量机模型：

其中决策树模型，根据训练数据集，从根结点开始，根据基尼指数最小的特征，递归地对每个结点进行CART决策树生成算法操作，构建二叉决策树，对决策树进行剪枝，得到用于分类的最优子树；

另外支持向量机模型，对有N个数据的训练数据集，选取适当的核函数

和适当的参数C，构造并求解最优化问题：

求得最优解

，再构造决策函数，得到用于分类的支持向量机；

S22：人为的界定安全标，包括：***运行安全、交易安全、经营安全、个人账户安全和个人信息安全；

S23：对安全子目标进行分解，达到对安全标的影响分析，需要对安全保障目标进行安全要素分解，分解成能够跟信息***中的数据项对应的安全子标，如个人信息安全，可以分解为：用户姓名、家庭住址、身份证号和手机号等；

S24：影响因素分析，针对上述安全标的每一安全子目标，分析其影响因素，影响因素匹配到信息***中的数据项，即数据项集合。同时，对于影响到多个安全子目标的数据项，列为重点敏感数据项，在这里影响目标越多的数据项敏感性越高；

如图5所示，执行步骤S3具体包括：

S31：设置敏感数据识别学习模型结构为双向长短期记忆网络（Bi-LSTM）和条件随机场（CRF）结合，Bi-LSTM设置为双向学习序列关联关系，依靠神经网络超强的非线性拟合能力，在训练时将样本通过高维空间中的复杂非线性变换，学习到从样本到标注的函数，之后使用这个函数为指定的样本预测每个token的标注，CRF通过引入自定义的特征函数，不仅可以表达观测之间的依赖，还可表示当前观测与前后多个状态之间的复杂依赖；

其中Bi-LSTM设置为双向学习序列关联关系，捕捉序列之间的依赖关系，CRF定义一个特征函数集，该函数集内的每个特征函数以标注序列作为输入，提取的特征作为输出，具体表达如下：

假设该函数集为

，其中

表示观测序列，

表示状态序列，CRF使用对数线性模型来计算给定观测序列下状态序列的条件概率：

，训练CRF模型对参数w估计，通过极大似然得到最优的w参数估计；

S32：读取步骤S25获得的敏感数据所属的种类，使用识别学习模型分析内部结构，通过学习到内部结构特征对敏感数据进行识别；

如图6所示，执行步骤S4具体包括：

S44：输出测试数据的特征识别结果。

本发明一种基于人工智能的敏感数据自动分类识别方法简单实用，将人工智能技术应用于敏感数据和关联关系识别阶段，有效解决传统正则方式性能与准确性不可兼得的痛点，并且也可省去专业人员对于正则识别规则的维护，真正达到免配置和自动功能的实现，为用户带来价值提升。

实施例三

如图7所示，本发明还提供一种基于人工智能的敏感数据自动分类识别***，该***包括：

在本发明一种基于人工智能的敏感数据自动分类识别***中，训练数据生成模块包括：

数据获取模块，用于获取相关企业及政府部分的各类数据；

数据清洗模块，用于清洗所有数据，获得所需数据；

数据整理模块，用于将所需数据整理为训练数据集。

在这里，数据获取模块、数据清洗模块和数据整理模块依次相连。

在本发明一种基于人工智能的敏感数据自动分类识别***中，数据分类模型训练模块包括：

决策树和支持向量机模型这两模型同时接受输入的训练输出，同时输出分类结果，根据一个联合决策规则，输出最终的分类结果。

同样的，分类模型预设模块、安全标界定模块、安全子目标分解模块、影响因素分析模块和敏感数据分类确认模块依次相连。

在本发明一种基于人工智能的敏感数据自动分类识别***中，数据识别模型训练模块包括：

识别模型预设模块，用于设置敏感数据识别学习模型结构为双向长短期记忆网络（Bi-LSTM）和条件随机场（CRF）结合，Bi-LSTM设置为双向学习序列关联关系，捕捉序列之间的依赖关系，CRF定义一个特征函数集，训练CRF模型对参数w估计，通过极大似然得到最优的w参数估计，该函数集内的每个特征函数以标注序列作为输入，提取的特征作为输出；

当然的，识别模型预设模块、结构分析模块和敏感数据识别确认模块依次相连。

在本发明一种基于人工智能的敏感数据自动分类识别***中，敏感数据自动分类和识别模块包括：

显而易见的，测试数据预处理模块、测试数据分类模块、测试敏感数据识别模块和测试数据结果输出模块依次相连。

本发明一种基于人工智能的敏感数据自动分类识别方法及***简单实用，将人工智能技术应用于敏感数据和关联关系识别阶段，有效解决传统正则方式性能与准确性不可兼得的痛点，并且也可省去专业人员对于正则识别规则的维护，真正达到免配置和自动功能的实现，为用户带来价值提升。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围，本发明所属技术领域的技术人员可以对所描述的具体实施例来做出各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的方向或者超越所附权利要求书所定义的范围。本领域的技术人员应该理解，凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于人工智能的敏感数据自动分类识别方法，其特征在于，包括以下步骤：

S1：获取数据训练集；

S4：获取测试数据并输入至所述敏感数据自动分类模型，对敏感数据进行分类，再输入敏感数据识别模型，生成特征识别结果；

执行步骤S2具体包括：

支持向量机模型，对有N个数据的训练数据集，选取适当的核函数K(x,z)和适当的参数C，构造并求解最优化问题：

0≤α_i≤C,i＝1,2,...,N

求得最优解

再构造决策函数，得到用于分类的支持向量机；

S24：影响因素分析，针对上述安全标的每一安全子目标，分析其影响因素，影响因素匹配到信息***中的数据项，即数据项集合，同时，对于影响到多个安全子目标的数据项，列为重点敏感数据项；

2.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法，其特征在于：

执行步骤S1具体包括：

S11：获取相关企业及政府部门的各类数据；

S12：清洗所有数据，获得所需数据；

S13：将所需数据整理为训练数据集。

3.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法，其特征在于：执行步骤S3具体包括：

S31：设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合，Bi-LSTM设置为双向学习序列关联关系，捕捉序列之间的依赖关系，CRF定义一个特征函数集，该函数集内的每个特征函数以标注序列作为输入，提取的特征作为输出；

4.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法，其特征在于：执行步骤S4具体包括：

S44：输出测试数据的特征识别结果。

5.一种基于人工智能的敏感数据自动分类识别***，其特征在于，包括：

训练数据生成模块获取数据训练集，数据分类模型训练模块使用数据训练集用敏感数据自动分类模型训练，分类建立敏感数据集，数据识别模型训练模块使用分类建立好的敏感数据集，使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别，敏感数据自动分类和识别模块获取测试数据并输入至所述敏感数据自动分类模型，对敏感数据进行分类，再输入敏感数据识别模型，生成特征识别结果；

其中数据分类模型训练模块包括：

影响因素分析模块，用于针对上述安全标的每一安全子目标，分析其影响因素，影响因素匹配到信息***中的数据项，即数据项集合，同时，对于影响到多个安全子目标的数据项，列为重点敏感数据项；

6.根据权利要求5所述的一种基于人工智能的敏感数据自动分类识别***，其特征在于：训练数据生成模块包括：

数据获取模块，用于获取相关企业及政府部门的各类数据；

数据清洗模块，用于清洗所有数据，获得所需数据；

数据整理模块，用于将所需数据整理为训练数据集。

7.根据权利要求5所述的一种基于人工智能的敏感数据自动分类识别***，其特征在于：数据识别模型训练模块包括：

识别模型预设模块，用于设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合，Bi-LSTM设置为双向学习序列关联关系，捕捉序列之间的依赖关系，CRF定义一个特征函数集，该函数集内的每个特征函数以标注序列作为输入，提取的特征作为输出；

8.根据权利要求5所述的一种基于人工智能的敏感数据自动分类识别***，其特征在于：敏感数据自动分类和识别模块包括：