CN113590698A

CN113590698A - 基于人工智能技术的数据资产分类建模与分级保护方法

Info

Publication number: CN113590698A
Application number: CN202110725975.0A
Authority: CN
Inventors: 石凯; 张锋军; 牛作元; 许杰; 李庆华
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-11-02
Anticipated expiration: 2041-06-29
Also published as: CN113590698B

Abstract

本发明公开了一种基于人工智能技术的数据资产分类建模与分级保护方法，包括以下步骤：确定数据源：数据源选择存储数据资产的数据库和大数据平台；数据采样：确认数据源的连接信息，采用MDBC、ODBC和数据库驱动与数据源建立连接，对数据按照既定的采样策略进行抽取；数据属类建模：建立数据资产的分类模型；数据安全分级：根据数据使用过程中的敏感程度和属性类别对数据进行不同级别的划分；数据安全策略的制定和下发：依据数据的安全级别自动适配相应的数据安全策略。本发明利用数据属类模型确定数据资产的安全等级，实现可视化操作下的数据智能分级分类，达到将数据安全策略及时下发的目的，从而为数据差异化分级安全防护奠定基础。

Description

基于人工智能技术的数据资产分类建模与分级保护方法

技术领域

本发明涉及电数字数据处理技术领域，尤其涉及一种基于人工智能技术的数据资产分类建模与分级保护方法。

背景技术

随着互联网的飞速发展和信息***的迅速扩张建设以及云和大数据技术体系的应用，各行各业的大数据***都积累了大量的数据并已形成相应的数据资产，不论是在数据的种类还是数据量上都达到了较大的规模，如果针对所有的数据进行统一的、无差别的数据安全防护策略则会出现要么降低数据的安全防护等级，要么降低数据的使用效率，无法在数据的业务使用和安全防护中间实现较好的平衡。因此，数据资产不管从业务属性还是从安全防护的等级都有着不同的需求。

在数据安全治理的理念中存在“1990原则”，即核心数据1％、重要数据9％、一般数据90％，所以在通过安全属类和分级的基础上，可以针对10％的核心数据和重要数据设置高等级的数据安全防护策略，针对90％的一般数据设置普通等级的数据安全防护策略，这样既可以保证高等级敏感数据的安全性，又能够从整体上保证数据使用的效率和便利性，从而实现数据安全防护和数据业务利用的动态平衡。

目前，为解决大数据***的数据资产有效地分级分类保护的问题，其思路普遍是基于大数据场景下的数据特征，认为数据从整体上都是敏感的，但要将不同种类的数据资产区分为不同的安全属类，从而进行敏感度分级。最终，在安全属类和分级的基础上针对不同属类和不同分级的数据制定不同的安全防护标准和防护策略。

基于此解决思路，目前业界数据分类分级多数属于数据资产管理***的一个功能点，大多数实现方式都是自动发现敏感数据，再结合人工方式进行分级，虽然可以帮助相关人员快速发现敏感数据，但数据分类分级主观占比较重，针对主观数据还是力不从心，分级方式不灵活，不能适应各种组织的数据安全分级需要。而当前技术成果主要面向的是敏感数据的识别和分级分类，其中以个人信息、财务信息等为主，数据类型主要是文本等结构化数据，而缺乏对视频、音频、图片等非结构化数据和xml、json等半结构化数据的分类分级，无法适用于大数据***的数据资产，所以需要为不同类型的数据资产专门构建安全属类模型，并采取相应的分级保护措施。

现有技术存在如下技术问题：

(1)敏感数据资产发现能力较弱，敏感数据发现是数据分类分级的基础，也是客观判断的前期条件，如对电话、身份证号码、社保***、银行账号等多种数据进行判断，及时发现组织内部敏感数据，但是当前的敏感数据发现存在支持的数据类型较少和准确率较低。

(2)在典型大数据应用场景中由于存在海量异构数据，导致针对不同数据类型的不同粒度数据安全保密策略的动态调整难。

(3)采用分级标签关联数据属类的传统匹配方式误匹配率较高，再以人工的方式进行纠正将耗费大量的人力和时间成本。

发明内容

为了解决上述问题，本发明提出一种基于人工智能技术的数据资产分类建模与分级保护方法，包括以下步骤：

S1.确定数据源：数据源选择存储数据资产的数据库和大数据平台，包括传统关系型数据库和以Hadoop为代表的大数据平台；

S2.数据采样：确认数据源的连接信息，采用MDBC、ODBC和数据库驱动这三种方式与数据源建立连接，对数据按照既定的采样策略进行抽取，采样策略信息包括是否全量采样、采样数量、采样间隔和采样并发；所述数据源的连接信息包括IP地址、端口号、账号名和/或访问方式；

S3.数据属类建模：建立数据资产的分类模型，以实现数据资产的分类，基于分类的结果进行后续的数据安全分级；针对特征比较明显且具体的数据，采用包括正则表达式的方式进行数据属类特征的描述和基于数据项内容的模式识别；针对大多数的数据，采用基于机器学习的知识库学习引擎自动学习数据属类的特征，并且自动关联数据分级和智能识别后的数据类型；

S4.数据安全分级：根据数据使用过程中的敏感程度和属性类别对数据进行不同级别的划分，以实现差异化的数据保护；

S5.数据安全策略的制定和下发：依据数据的安全级别自动适配相应的数据安全策略，适配方案能够进行调整或修正，所述数据安全策略根据数据的安全等级和/或数据消费者的等级预先制定。

进一步的，步骤S3所述的数据属类建模包括特征定义、特征学习、自动关联和模式识别四个子步骤，其中：

所述特征定义包括：对于已经识别出来的具有具体特征的数据，通过包括正则表达式的方式对数据的特征进行描述和定义；对于具有校验算法的数据项定义出具体的校验算法，通过校验算法加强数据特征的定义；对于具有有限集合的数据类，通过特征库的方式辅助数据特征的定义。

所述特征学***台中的结构化数据的每一列自动进行特征扫描和生成，以在海量的数据集中进行每一项数据特征的生成和归类，从而实现属类建模的自动化。

所述自动关联包括：基于所述特征定义和所述特征学习的结果，对于具有相似特征的数据字段进行自动聚合，根据聚合的结果识别出同一类型数据的集合，针对这一集合进行后续分级的自动分配。

所述模式识别是通过对不同类型的数据进行甄别，识别其中存在的敏感数据及其所属的数据类型，包括以下子步骤：

采用包括分词的技术建立特征库，对训练数据集进行预处理，从中获得词汇集；剔除词汇集中无意义的词汇获得一个有实际意义的特征集，并对特征集进行处理，当一个特征在所有训练数据集中出现的频率越高时，这个特征的重要性就越高，也表明这个特征的向量权值越高，计算出每个特征的向量权值，完成特征库的建立；

在获得特征库后，对特征库进行识别和分类，选取具有代表性和可被标示敏感数据的特征，形成敏感特征库；对分类和识别目标提取特征是将目标数据采用分词技术进行分词处理；然后将提取的特征与敏感特征库进行匹配，当匹配命中时记录敏感词分类和敏感词权值，当某一类敏感词权值累加值越高时，该目标数据越倾向这个类别，按照敏感词权值累加值由高到低，对分类进行排序。

进一步的，步骤S4所述的数据安全分级包括级别定义、属类对应、分级修正和分级关联四个子步骤，其中：

所述级别定义包括：对数据资产涉及到的各类密级进行定义，定义的内容包括级别名称和级别描述。

所述属类对应包括：通过提供一个可视化的数据资源目录，在数据资源目录的基础上将数据属类与数据分级的级别进行关联，属类对应通过机器学习实现自动关联，或通过手动方式进行选择。

所述分级修正包括：通过机器学习的方式对属类与分级级别的对应关系进行反馈的学习和积累，通过对于关联关系的学习实现数据分级关联的自动化，通过对于手动修正的学习实现整个关联的持续完善和优化。

所述分级关联包括：设置基于机器学习的自动化数据分级关联引擎，通过基于机器学习的分级关联映射功能实现数据项的特征与级别的自动对应，以提高数据分级的效率；所述数据分级关联引擎所采用的机器学习技术包括基本分类器和集成分类器，所述基本分类器包括K近邻法、支持向量机、决策树、朴素贝叶斯和/或深度学习技术中的神经网络以及逻辑回归；所述集成分类器包括bagging、boosting和/或stacking。

进一步的，步骤S5所述的数据安全策略的制定和下发通过展现层、策略管理层和分析层实现：

所述展现层通过可视化的数据分级操作界面对数据进行前期的属类关联和分级，并能够对自动匹配中需要修正的匹配项进行修正；

所述策略管理层包括数据采样策略管理、分类策略管理和分级策略管理，所述数据采样策略管理的管理内容是针对包括数据资产、数据安全调整建议和数据安全事件进行采样的策略；所述数据分类策略管理的管理内容是依据数据安全属类模型对数据安全属类进行分类的策略；所述数据分级策略管理的管理内容是依据数据属类与密级的管理进行分级的策略；

所述分析层通过数据属类建模和数据安全分级进行数据的分类分级。

本发明的有益效果在于：

(1)通过特征定义和知识库学***台和数据库进行数据资产的探测，全面盘点数据资产，形成数据资产地图，为数据的安全分析及应用夯实基础。

(2)在数据资产安全属类建模的基础上进行数据的分级，通过工具辅助管理员对不同数据类型进行安全分级。实现数据资产的集中展现、数据敏感级别的定义、数据的自动分级和手动分级，可以支撑数据安全策略的快速下发，提升综合安全治理的防护效能。

(3)针对不同分级的数据设置差异化的数据安全防护策略，实现基于数据安全属类的数据安全策略大规模自动调整和数据资产高效精确化安全管控，缩短数据安全策略生效时间，提升数据安全治理决策效率。

综上所述，本发明面向典型大数据的应用场景，针对各行各业的数据资产规模大、数据更新频率高、数据安全属性发现难、数据安全策略不能及时下发、数据分级分类能力不够等问题，研究数据资产属类的分析建模、基于数据资产的安全分级等技术。利用数据属类模型确定数据资产的安全等级，实现可视化操作下的数据智能分级分类，达到将数据安全策略及时下发的目的，从而为数据的差异化分级安全防护奠定基础。提供智能化辅助数据资产的分级分类保护能力，实现多来源、多种类、多密级、多种安全保密防护要求以及不同网络环境的数据资产的综合防护能力。

附图说明

图1是本发明实施例1的基于人工智能技术的数据资产分类建模与分级保护方法的流程图；

图2是本发明实施例1的数据属类建模的流程图；

图3是本发明实施例1的数据安全分级的流程图；

图4是本发明实施例1的数据安全策略的制定和下发的流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提供了一种基于人工智能技术的数据资产分类建模与分级保护方法，包括以下步骤：

S2.数据采样：确认数据源的连接信息，采用MDBC、ODBC和数据库驱动这三种方式与数据源建立连接，对数据按照既定的采样策略进行抽取，采样策略信息包括是否全量采样、采样数量、采样间隔和采样并发；数据源的连接信息包括IP地址、端口号、账号名和/或访问方式；

S3.数据属类建模：建立数据资产的分类模型，以实现数据资产的分类，基于分类的结果进行后续的数据安全分级；针对特征比较明显且具体的数据，采用包括正则表达式的方式进行数据属类特征的描述和基于数据项内容的模式识别；针对大多数的数据，采用基于机器学习的知识库学习引擎自动学习数据属类的特征，并且自动关联数据分级和智能识别后的数据类型，从而降低人工进行特征定义的工作量和识别的误匹配率；

S5.数据安全策略的制定和下发：依据数据的安全级别自动适配相应的数据安全策略，适配方案能够进行调整或修正，数据安全策略根据数据的安全等级和/或数据消费者的等级预先制定。

其中，数据属类建模、数据安全分级、数据安全策略的制定和下发是本发明的重点。

步骤S3中，数据属类建模利用较少的数据建立数据类别的模型，利用该模型可以快速将后续未分类的数据进行归类。优选的，如图2所示，数据属类建模包括特征定义、特征学习、自动关联和模式识别四个子步骤，其中：

特征定义：对于已经识别出来的具有具体特征的数据，通过包括正则表达式的方式对数据的特征进行描述和定义；对于具有校验算法的数据项定义出具体的校验算法，通过校验算法加强数据特征的定义；对于具有有限集合的数据类，通过特征库的方式辅助数据特征的定义。

特征学***台中的结构化数据的每一列自动进行特征扫描和生成，以在海量的数据集中进行每一项数据特征的生成和归类，从而实现属类建模的自动化，降低人工和时间成本的占用，提高属类建模的效率。

自动关联：用于针对数据库和大数据平台中相似数据字段的自动发现和关联。基于特征定义和特征学习的结果，对于具有相似特征的数据字段进行自动聚合，根据聚合的结果识别出同一类型数据的集合，针对这一集合进行后续分级的自动分配。

模式识别：属类建模的重要内容，通过对不同类型的数据进行甄别，识别其中存在的敏感数据及其所属的数据类型。为提高模式识别的精准度，在原有字典匹配分析方法上进行优化，具体包括以下子步骤：

(1)采用包括分词的技术建立特征库，对训练数据集进行预处理，从中获得词汇集；剔除词汇集中无意义的词汇获得一个有实际意义的特征集，并对特征集进行处理，当一个特征在所有训练数据集中出现的频率越高时，这个特征的重要性就越高，也表明这个特征的向量权值越高，计算出每个特征的向量权值，完成特征库的建立。特征库既可以由特征定义这一步中通过人工进行定义，也可以在特征学习这一步中通过机器学习算法自动在数据集中提取。

(2)在获得特征库后，对特征库进行识别和分类，选取具有代表性和可被标示敏感数据的特征，形成敏感特征库；对分类和识别目标提取特征是将目标数据采用分词技术进行分词处理；然后将提取的特征与敏感特征库进行匹配，当匹配命中时记录敏感词分类和敏感词权值，当某一类敏感词权值累加值越高时，该目标数据越倾向这个类别，按照敏感词权值累加值由高到低，对分类进行排序。

步骤S4中，数据安全分级依据前期的属类关联和分级，将数据属类和数据密级自动匹配，并对自动匹配中需要修正的匹配项进行修正。优选的，如图3所示，数据安全分级包括级别定义、属类对应、分级修正和分级关联四个子步骤，其中：

级别定义：对数据资产涉及到的各类密级进行定义，定义的内容包括级别名称和级别描述。

属类对应：通过提供一个可视化的数据资源目录，在数据资源目录的基础上将数据属类与数据分级的级别进行关联，属类对应通过机器学习实现自动关联，或通过手动方式进行选择。

分级修正：通过机器学习的方式对属类与分级级别的对应关系进行反馈的学习和积累，通过对于关联关系的学习实现数据分级关联的自动化，通过对于手动修正的学习实现整个关联的持续完善和优化。

分级关联：设置基于机器学习的自动化数据分级关联引擎，通过基于机器学习的分级关联映射功能实现数据项的特征与级别的自动对应，以提高数据分级的效率，降低其中人力与时间的投入。数据分级关联引擎所采用的机器学习技术包括基本分类器和集成分类器，基本分类器包括K近邻法、支持向量机、决策树、朴素贝叶斯和/或深度学习技术中的神经网络以及逻辑回归；集成分类器包括bagging、boosting和/或stacking。

步骤S5中，在数据资产分类分级后，结合数据安全策略对相应数据安全策略进行下发，实现方便快捷、有针对性的采取不同策略来管理、保护数据，同时也是数据安全管理生命周期的重要组成部分，能够确保组织可以快速安全地访问和共享数据资产。优选的，如图4所示，数据安全策略的制定和下发通过展现层、策略管理层和分析层实现：

展现层包含元数据、数据安全属类、数据密级、数据属性、数据安全策略等可视化视图。通过可视化的数据分级操作界面对数据进行前期的属类关联和分级，并能够对自动匹配中需要修正的匹配项进行修正，以实现多场景数据资产可视化呈现，保证数据资产信息合理传递和高效管理。

策略管理层包括数据采样策略管理、分类策略管理和分级策略管理，数据采样策略管理的管理内容是针对包括数据资产、数据安全调整建议和数据安全事件进行采样的策略；数据分类策略管理的管理内容是依据数据安全属类模型对数据安全属类进行分类的策略；数据分级策略管理的管理内容是依据数据属类与密级的管理进行分级的策略。

分析层通过数据属类建模和数据安全分级进行数据的分类分级。

实施例2

本实施例在实施例1的基础上：

本实施例提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现实施例1的基于人工智能技术的数据资产分类建模与分级保护方法的步骤。

其中，计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间形式等。

实施例3

本实施例在实施例1的基础上：

本实施例提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现实施例1的基于人工智能技术的数据资产分类建模与分级保护方法的步骤。

其中，计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间形式等。存储介质包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，存储介质不包括电载波信号和电信信号。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

需要说明的是，对于前述的方法实施例，为了简便描述，故将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

Claims

1.一种基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，步骤S3所述的数据属类建模包括特征定义、特征学习、自动关联和模式识别四个子步骤；

3.根据权利要求2所述的基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，所述特征学***台中的结构化数据的每一列自动进行特征扫描和生成，以在海量的数据集中进行每一项数据特征的生成和归类，从而实现属类建模的自动化。

4.根据权利要求3所述的基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，所述自动关联包括：基于所述特征定义和所述特征学习的结果，对于具有相似特征的数据字段进行自动聚合，根据聚合的结果识别出同一类型数据的集合，针对这一集合进行后续分级的自动分配。

5.根据权利要求4所述的基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，所述模式识别是通过对不同类型的数据进行甄别，识别其中存在的敏感数据及其所属的数据类型，包括以下子步骤：

6.根据权利要求1-5任一项所述的基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，步骤S4所述的数据安全分级包括级别定义、属类对应、分级修正和分级关联四个子步骤，所述级别定义包括：对数据资产涉及到的各类密级进行定义，定义的内容包括级别名称和级别描述。

7.根据权利要求6所述的基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，所述属类对应包括：通过提供一个可视化的数据资源目录，在数据资源目录的基础上将数据属类与数据分级的级别进行关联，属类对应通过机器学习实现自动关联，或通过手动方式进行选择。

8.根据权利要求6所述的基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，所述分级修正包括：通过机器学习的方式对属类与分级级别的对应关系进行反馈的学习和积累，通过对于关联关系的学习实现数据分级关联的自动化，通过对于手动修正的学习实现整个关联的持续完善和优化。

9.根据权利要求6所述的基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，所述分级关联包括：设置基于机器学习的自动化数据分级关联引擎，通过基于机器学习的分级关联映射功能实现数据项的特征与级别的自动对应，以提高数据分级的效率；所述数据分级关联引擎所采用的机器学习技术包括基本分类器和集成分类器，所述基本分类器包括K近邻法、支持向量机、决策树、朴素贝叶斯和/或深度学习技术中的神经网络以及逻辑回归；所述集成分类器包括bagging、boosting和/或stacking。

10.根据权利要求1-5任一项所述的基于人工智能技术的数据资产分类建模与分级保护方法，其特征在于，步骤S5所述的数据安全策略的制定和下发通过展现层、策略管理层和分析层实现：