CN114398676A - 基于人工智能的数据安全分级方法、装置、设备及介质 - Google Patents
基于人工智能的数据安全分级方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114398676A CN114398676A CN202210044184.6A CN202210044184A CN114398676A CN 114398676 A CN114398676 A CN 114398676A CN 202210044184 A CN202210044184 A CN 202210044184A CN 114398676 A CN114398676 A CN 114398676A
- Authority
- CN
- China
- Prior art keywords
- field
- security
- data
- level
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能和数据安全领域,提供一种基于人工智能的数据安全分级方法,包括:获取数据仓库中的数据运营层内的原始数据,对原始数据中的字段进行安全分级,得到各字段的多个候选安全等级;根据各字段的多个候选安全等级,生成字段分级报告,并向分级审核人员的用户账号发送字段分级报告;根据确认后的字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级;根据数据仓库的数据血缘关系网络和各字段的目标安全等级,确定数据仓库中的其余层级内的字段的安全等级。本申请提高了数据安全分级的效率和准确性。本申请还涉及区块链领域,上述数据安全分级模型可存储在区块链中。
Description
技术领域
本申请涉及数据安全领域,尤其涉及一种基于人工智能的数据安全分级方法、装置、设备及计算机可读存储介质。
背景技术
随着大数据云存储普及程度越来越高,而无疑其信息的私密性也有被泄漏的风险,由此引起的数据安全问题是不容忽视的。数据安全分级在数据安全治理过程中至关重要,企业能够根据数据的不同安全级别,对数据进行不同的安全防护措施。目前企业大部分采用人工标注数据的安全级别或者使用正则表达式对数据进行安全分级,但这些方法存在自动化程度不高,需要花费大量的时间成本,准确性也较低。因此,如何提高数据安全分级的效率和准确性是目前亟待解决的问题。
发明内容
本申请实施例提供一种基于人工智能的数据安全分级方法、装置、设备及计算机可读存储介质,旨在提高基于人工智能的数据安全分级的准确性。
第一方面,本申请实施例提供一种基于人工智能的数据安全分级方法,包括:
获取数据仓库中的数据运营层内的原始数据,对所述原始数据中的字段进行安全分级,得到各字段的多个候选安全等级;
根据各所述字段的多个候选安全等级,生成字段分级报告,并向分级审核人员的用户账号发送所述字段分级报告,由所述分级审核人员进行确认;
根据确认后的所述字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级;
根据所述数据仓库的数据血缘关系网络和各所述字段的目标安全等级,确定所述数据仓库中的其余层级内的字段的安全等级。
第二方面,本申请实施例还提供一种基于人工智能的数据安全分级装置,所述基于人工智能的数据安全分级装置包括:
获取模块,用于获取数据仓库中的数据运营层内的原始数据;
第一安全分级模块,用于对所述原始数据中的字段进行安全分级,得到各字段的多个候选安全等级;
分级审核模块,用于根据各所述字段的多个候选安全等级,生成字段分级报告,并向分级审核人员的用户账号发送所述字段分级报告,由所述分级审核人员进行确认;
确定模块,用于根据确认后的所述字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级;
第二安全分级模块,用于根据所述数据仓库的数据血缘关系网络和各所述字段的目标安全等级,确定所述数据仓库中的其余层级内的字段的安全等级。
第三方面,本申请实施例还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的基于人工智能的数据安全分级方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的基于人工智能的数据安全分级方法的步骤。
本申请实施例提供一种基于人工智能的数据安全分级方法、装置、设备及计算机可读存储介质,该方法通过对数据仓库中的数据运营层内的原始数据进行字段级别的安全分级,得到各字段的多个候选安全级别,再基于各字段的多个候选安全级别生成字段分级报告,由分级审核人员进行人工确认,然后根据确认后的字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级,并根据数据仓库的数据血缘关系网络和各字段的目标安全等级,对数据仓库中的其余层级内的数据进行安全分级,从而极大地提高了数据安全分级的效率和准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于人工智能的数据安全分级方法的流程示意图;
图2是图1中的基于人工智能的数据安全分级方法的子步骤流程示意图;
图3是本申请实施例提供的一种基于人工智能的数据安全分级装置的示意性框图;
图4是图3中的基于人工智能的数据安全分级装置的子模块的示意性框图;
图5是本申请实施例提供的一种计算机设备的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参阅附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供一种基于人工智能的数据安全分级方法、装置、计算机设备及计算机可读存储介质。其中,该基于人工智能的数据安全分级方法可应用于服务器,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种基于人工智能的数据安全分级方法的流程示意图。
如图1所示,该基于人工智能的数据安全分级方法包括步骤S101至步骤S104。
步骤S101、获取数据仓库中的数据运营层内的原始数据,对原始数据中的字段进行安全分级,得到各字段的多个候选安全等级。
其中,原始数据包括至少一个数据表,数据表包括至少一个字段,数据表的安全级别可以为其包含的所有字段的安全级别的最高级。数据库的安全级别可以为其包含的所有数据表的安全级别的最高级。数据仓库包括数据运营层(ODS,Operational Data Store),也称为贴源层、数据细节层(DWD,Data Warehouse Details)、数据中间层(DWM,DataWarehouse Middle)、数据服务层(DWS,Data Warehouse Service)、数据应用层(ADS,Application Data Service),ODS层用于为DWD层提供原始数据。字段的安全等级可以包括5级。其中,1级最低,5级最高,即安全级别从高到低可以划分为5级、4级、3级、2级、1级。
在一实施例中,预设数据安全分级模型包括标准字段库和所述标准字段库中的各标准字段与安全等级之间的映射关系表和/或目标神经网络模型,所述目标神经网络模型为预先基于样本数据集训练得到的神经网络模型,所述样本数据集中的样本数据包括样本字段和标注的真实安全等级。其中,预设数据安全分级模型可以存储在区块链中,用于保证数据安全分级模型的安全。
在一实施例中,如图2所示,步骤S101包括:子步骤S1011至子步骤S1012。
子步骤S1011,对原始数据中的全部字段进行去重处理,得到目标字段库。
示例性的,将原始数据拆分为多个字段,并对多个字段进行去重处理,得到目标字段库。通过对字段进行去重,可以减少需要进行安全分级的字段,可以提高字段分级效率。
子步骤S1012、对目标字段库中的各字段进行安全分级,得到各字段的多个候选安全等级。
示例性的,将目标字段库中的每个字段与预设标准字段库中的各标准字段进行模糊匹配,得到每个字段与各标准字段之间的模糊匹配评分;根据每个字段与各标准字段之间的模糊匹配评分,确定各字段匹配的多个候选标准字段;根据预存的标准字段与安全等级之间的映射关系表以及各字段匹配的多个候选标准字段,确定各字段的多个候选安全等级。其中,预设标准字段库和预存的标准字段与安全等级之间的映射关系表是提前建立好,并预先存储在服务器中的。
示例性的,按照待分级字段与各标准字段之间的模糊匹配评分的大小顺序,对标准字段库中的各标准字段进行排序,得到待分级字段的模糊匹配字段队列;将待分级字段的模糊匹配字段队列中靠前的3个或2个标准字段确定为待分级字段匹配的候选标准字段;将映射关系表中的候选标准字段对应的安全等级确定为待分级字段的候选安全等级,从而得到待分级字段的多个候选安全等级。其中,待分级字段包括目标字段库中的各字段。
例如,待分级字段为字段A,标准字段库包括字段B、字段C、字段D、字段E、字段F、字段G,且字段B、字段C、字段D、字段E、字段F、字段G的安全等级分别为2级、4级、1级、2级、2级、5级,通过模糊匹配,可以得到字段A与字段B、字段C、字段D、字段E、字段F、字段G之间的模糊匹配评分分别为90、70、20、40、30、65,则可以确定字段A匹配的候选标准字段包括字段B、字段C和字段G,因此,字段A的候选安全等级包括字段B、字段C和字段G分别对应的安全等级2级、4级和5级。
在一实施例中,获取样本数据集,其中,样本数据集包括多个样本数据,样本数据包括样本字段和标注的真实安全等级;从样本数据集中选择一个样本数据作为目标样本数据;将目标样本数据中的样本字段输入神经网络模型进行处理,得到该样本字段的安全等级分别为5级安全等级的预测概率;利用交叉熵损失函数,基于该样本字段的安全等级分别为5级安全等级的预测概率和标注的真实安全等级,计算神经网络模型的模型损失值;在模型损失值大于或等于预设损失值中,更新神经网络模型的模型参数,然后返回执行从样本数据集中选择一个样本数据作为目标样本数据的步骤,直至模型损失值小于预设损失值,得到数据安全分级模型。
示例性的,将目标字段库中的各字段输入数据安全分级模型,得到各字段的安全等级分别为各预设安全等级的预测概率;根据各字段的安全等级分别为各预设安全等级的预测概率,从各预设安全等级中确定各字段的多个候选安全等级。其中,预设安全等级包括5个,从高到低分别为5级、4级、3级、2级、1级。例如,待分级字段为字段A,将字段A输入数据安全分级模型,可以得到字段A的安全等级为5级、4级、3级、2级、1级的预测概率是0.5、0.32、0.8、0.75、0.6,若从5个安全等级中选取预测概率靠前的三个安全等级作为字段A的候选安全等级,则字段A的候选安全等级包括3级、2级和1级。
在一实施例中,将目标字段库中的每个字段与预设标准字段库中的各标准字段进行模糊匹配,得到每个字段与各标准字段之间的模糊匹配评分;根据每个字段与各标准字段之间的模糊匹配评分,确定各字段的安全等级分别为各预设安全等级的第一预测概率;将目标字段库中的各字段输入数据安全分级模型,得到各字段的安全等级分别为各预设安全等级的第二预测概率;根据各字段的安全等级分别为各预设安全等级的第一预测概率和第二预测概率,从各预设安全等级中确定各字段的多个候选安全等级。
示例性的,按照待分级字段与各标准字段之间的模糊匹配评分的大小顺序,对标准字段库中的各标准字段进行排序,得到待分级字段的模糊匹配字段队列;将待分级字段的模糊匹配字段队列中靠前的3个或2个标准字段确定为待分级字段匹配的候选标准字段;从映射关系表中获取候选标准字段对应的安全等级,并根据候选标准字段对应的模糊匹配评分和获取到的安全等级,确定待分级字段的安全等级为各预设安全等级的第一预测概率。
例如,字段B的候选标准字段包括候选标准字段A1、候选标准字段A2和候选标准字段A3,且候选标准字段A1、候选标准字段A2和候选标准字段A3对应的安全等级分别为2级、3级和5级,且字段B与候选标准字段A1、候选标准字段A2和候选标准字段A3之间的模糊匹配评分分别为65、95和70,则字段B的安全等级为5级、4级、3级、2级、1级的预测概率是0.7(70除100)、0、0.95、0.65、0。
示例性的,对待分级字段的安全等级分别为各预设安全等级的第一预测概率和第二预测概率进行求和,得到待分级字段的安全等级分别为各预设安全等级的目标预测概率;根据待分级字段的安全等级分别为各预设安全等级的目标预测概率,确定待分级字段的多个候选安全等级。例如,字段B的安全等级为5级、4级、3级、2级、1级的第一预测概率是0.7、0、0.95、0.65、0,为5级、4级、3级、2级、1级的第一预测概率是0.5、0.32、0.8、0.75、0.6,则为5级、4级、3级、2级、1级的目标预测概率为1.2、0.32、1.75、1.4、0,若从5个安全等级中选取目标预测概率靠前的三个安全等级作为字段B的候选安全等级,则字段B的候选安全等级包括3级、2级和1级。
步骤S102、根据各字段的多个候选安全等级,生成字段分级报告,并向分级审核人员的用户账号发送字段分级报告,由分级审核人员进行确认。
示例性的,将字段的多个候选安全等级中模糊匹配评分或预测概率最高所对应的候选安全等级确定为基准安全等级,并将基准安全等级相同的字段划分为一组,得到多个字段组;根据每个字段组中的各字段的多个候选安全等级,生成每个字段组各自对应的字段分级报告;将每个字段组各自对应的字段分级报告,发送给每个基准安全等级各自对应的分级审核人员的用户账号,由每个基准安全等级各自对应的分级审核人员审核。通过本实施例的方案,可以提高字段分级报告的审核效率和安全性。
例如,字段1的基准安全等级为1级,字段2的基准安全等级为1级,字段3的基准安全等级为2级,字段4的基准安全等级为2级,字段5的基准安全等级为3级,字段6的基准安全等级为3级,字段7的基准安全等级为4级,字段8的基准安全等级为4级,字段9的基准安全等级为5级,字段10的基准安全等级为5级,则可以得到1级安全等级对应的字段组[字段1,字段2],2级安全等级对应的字段组为[字段3,字段4],3级安全等级对应的字段组[字段5,字段6],4级安全等级对应的字段组[字段7,字段8],5级安全等级对应的字段组[字段9,字段10],因此,可以生成5个字段分级报告,生成1级安全等级对应的第一字段分级报告、2级安全等级对应的第二字段分级报告、3级安全等级对应的第三字段分级报告、4级安全等级对应的第四字段分级报告、5级安全等级对应的第五字段分级报告,则将第一字段分级报告推送给分级审核人员A进行审核,将第二字段分级报告推送给分级审核人员B进行审核,将第三字段分级报告推送给分级审核人员C进行审核,将第四字段分级报告推送给分级审核人员D进行审核,将第五字段分级报告推送给分级审核人员E进行审核。
步骤S103、根据确认后的字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级。
示例性的,根据确认后的字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级的方式可以为:针对确认后的字段分级报告中的每个字段,将字段的多个候选安全等级中携带有预设标识的候选安全等级确定为字段的目标安全等级。其中,预设标识可以基于实际情况进行设置,本实施例对此不做具体限定。例如,预设标识为√、*等。
步骤S104、根据数据仓库的数据血缘关系网络和各字段的目标安全等级,确定数据仓库中的其余层级内的字段的安全等级。
其中,数据仓库中的其余层级包括数据细节层、数据中间层、数据服务层、数据应用层。数据仓库的数据血缘关系网络用于表征数据仓库中的数据之间的继承关系,数据仓库的数据血缘关系网络是提前建立好并存储在存储器中的,数据血缘关系网络包括数据仓库中的各层级之间的字段加工逻辑。
在一实施例中,根据数据血缘关系网络,确定数据运营层与数据细节层之间的第一字段加工逻辑信息;从字段加工逻辑信息中获取数据运营层中的第一字段、数据细节层中的第二字段及第一字段与第二字段之间的第一加工逻辑;在第一加工逻辑为加密处理逻辑时,将第一字段的目标安全等级降低第一预设等级后的安全等级确定为第二字段的安全等级;在第一加工逻辑为脱敏处理逻辑时,将第一字段的目标安全等级降低第二预设等级后的安全等级确定为第二字段的安全等级。通过字段加工逻辑和数据运营层中的各字段的目标安全等级能够自动准确地确定数据细节层中的各字段的安全等级。
其中,第一预设等级和第二预设等级可基于实际情况进行设置,本实施例对此不做具体限定。例如,第一预设等级为1级,第二预设等级为2级。即经过加密处理后的字段的安全等级降低1级,经过脱敏处理后的字段的安全等级降低2级。
在一实施例中,根据数据血缘关系网络,确定数据细节层与目标层之间的第二字段加工逻辑信息,其中,目标层包括所述数据中间层、所述数据服务层和/或所述数据应用层;从第二字段加工逻辑信息中获取数据细节层中的第二字段、目标层中的第三字段及第二字段与第三字段之间的第二加工逻辑;根据第二加工逻辑和第二字段的安全等级,确定第三字段的安全等级。通过数据细节层与目标层之间的字段加工逻辑信息和数据细节层中的各字段的安全等级,能够自动准确地确定数据细节层中的各字段的安全等级。
示例性的,在第二加工逻辑的逻辑类型为第一逻辑类型或第二逻辑类型时,将第二字段的安全等级确定为第三字段的安全等级;在第二加工逻辑的逻辑类型为第三逻辑类型时,若第二加工逻辑位于第三逻辑类型的第一加工逻辑库,则将第二字段的安全等级确定为第三字段的安全等级;若第二加工逻辑位于第三逻辑类型的第二加工逻辑库,则将第二字段的安全等级降低第二预设等级后的安全等级确定为第三字段的安全等级。
示例性的,第一逻辑类型可以为UDF函数,第二逻辑类型可以为UDAF函数,第三逻辑类型可以为UDTF函数,第一加工逻辑库包括明细聚合函数,例如nvl、case when thenelse end,concat,concat_ws等,第二加工逻辑库包括汇总计算函数,例如sum函数,avg函数等。即在加工函数属于UDF函数或UDAF函数时,字段的安全等级不发生变化,而在加工函数属于UDTF函数时,若加工函数位于第一加工逻辑库,则字段的安全等级不发生变化,若加工函数位于第二加工逻辑库,则字段的安全等级降低两级。
上述实施例提供的基于人工智能的数据安全分级方法,通过对数据仓库中的数据运营层内的原始数据进行字段级别的安全分级,得到各字段的多个候选安全级别,再基于各字段的多个候选安全级别生成字段分级报告,由分级审核人员进行人工确认,然后根据确认后的字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级,并根据数据仓库的数据血缘关系网络和各字段的目标安全等级,对数据仓库中的其余层级内的数据进行安全分级,从而极大地提高了数据安全分级的效率和准确性。
请参阅图3,图3是本申请实施例提供的一种基于人工智能的数据安全分级装置的示意性框图。
如图3所示,该基于人工智能的数据安全分级装置200,包括:
获取模块210,用于获取数据仓库中的数据运营层内的原始数据;
第一安全分级模块220,用于对所述原始数据中的字段进行安全分级,得到各字段的多个候选安全等级;
分级审核模块230,用于根据各所述字段的多个候选安全等级,生成字段分级报告,并向分级审核人员的用户账号发送所述字段分级报告,由所述分级审核人员进行确认;
确定模块240,用于根据确认后的所述字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级;
第二安全分级模块250,用于根据所述数据仓库的数据血缘关系网络和各所述字段的目标安全等级,确定所述数据仓库中的其余层级内的字段的安全等级。
在一实施例中,如图4所示,所述第一安全分级模块220包括:
去重子模块221,用于对所述原始数据中的全部字段进行去重处理,得到目标字段库;
安全分级子模块222,用于对所述目标字段库中的各字段进行安全分级,得到各字段的多个候选安全等级。
在一实施例中,所述安全分级子模块222还用于:
将所述目标字段库中的每个字段与预设标准字段库中的各标准字段进行模糊匹配,得到每个所述字段与各所述标准字段之间的模糊匹配评分;
根据每个所述字段与各所述标准字段之间的模糊匹配评分,确定各所述字段匹配的多个候选标准字段;
根据预存的标准字段与安全等级之间的映射关系表以及各所述字段匹配的多个候选标准字段,确定各所述字段的多个候选安全等级。
在一实施例中,所述安全分级子模块222还用于:
将所述目标字段库中的各字段输入数据安全分级模型,得到各所述字段的安全等级分别为各预设安全等级的预测概率;
根据各所述字段的安全等级分别为各预设安全等级的预测概率,从各预设安全等级中确定各所述字段的多个候选安全等级;
其中,所述数据安全分级模型为预先基于样本数据集训练得到的神经网络模型,所述样本数据集中的样本数据包括样本字段和标注的真实安全等级。
在一实施例中,所述数据仓库中的其余层级包括数据细节层、数据中间层、数据服务层、数据应用层,所述第二安全分级模块250还用于:
根据所述数据血缘关系网络,确定所述数据运营层与所述数据细节层之间的第一字段加工逻辑信息;
从所述字段加工逻辑信息中获取所述数据运营层中的第一字段、所述数据细节层中的第二字段及所述第一字段与所述第二字段之间的第一加工逻辑;
在所述第一加工逻辑为加密处理逻辑时,将所述第一字段的目标安全等级降低第一预设等级后的安全等级确定为所述第二字段的安全等级;
在所述第一加工逻辑为脱敏处理逻辑时,将所述第一字段的目标安全等级降低第二预设等级后的安全等级确定为所述第二字段的安全等级。
在一实施例中,所述第二安全分级模块250还用于:
根据所述数据血缘关系网络,确定所述数据细节层与目标层之间的第二字段加工逻辑信息,其中,所述目标层包括所述数据中间层、所述数据服务层和/或所述数据应用层;
从所述第二字段加工逻辑信息中获取所述数据细节层中的第二字段、所述目标层中的第三字段及所述第二字段与所述第三字段之间的第二加工逻辑;
根据所述第二加工逻辑和所述第二字段的安全等级,确定所述第三字段的安全等级。
在一实施例中,所述第二安全分级模块250还用于:
在所述第二加工逻辑的逻辑类型为第一逻辑类型或第二逻辑类型时,将所述第二字段的安全等级确定为所述第三字段的安全等级;
在所述第二加工逻辑的逻辑类型为第三逻辑类型时,若所述第二加工逻辑位于所述第三逻辑类型的第一加工逻辑库,则将所述第二字段的安全等级确定为所述第三字段的安全等级;
若所述第二加工逻辑位于所述第三逻辑类型的第二加工逻辑库,则将所述第二字段的安全等级降低第二预设等级后的安全等级确定为所述第三字段的安全等级。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述基于人工智能的数据安全分级方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器。
如图5所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作***和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种基于人工智能的数据安全分级方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现以下步骤:
获取数据仓库中的数据运营层内的原始数据,对所述原始数据中的字段进行安全分级,得到各字段的多个候选安全等级;
根据各所述字段的多个候选安全等级,生成字段分级报告,并向分级审核人员的用户账号发送所述字段分级报告,由所述分级审核人员进行确认;
根据确认后的所述字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级;
根据所述数据仓库的数据血缘关系网络和各所述字段的目标安全等级,确定所述数据仓库中的其余层级内的字段的安全等级。
在一实施例中,所述处理器在实现对所述原始数据中的字段进行安全分级,得到各字段的多个候选安全等级时,用于实现:
对所述原始数据中的全部字段进行去重处理,得到目标字段库;
对所述目标字段库中的各字段进行安全分级,得到各字段的多个候选安全等级。
在一实施例中,所述处理器在实现对所述目标字段库中的各字段进行安全分级,得到各字段的多个候选安全等级时,用于实现:
将所述目标字段库中的每个字段与预设标准字段库中的各标准字段进行模糊匹配,得到每个所述字段与各所述标准字段之间的模糊匹配评分;
根据每个所述字段与各所述标准字段之间的模糊匹配评分,确定各所述字段匹配的多个候选标准字段;
根据预存的标准字段与安全等级之间的映射关系表以及各所述字段匹配的多个候选标准字段,确定各所述字段的多个候选安全等级。
在一实施例中,所述处理器在实现对所述目标字段库中的各字段进行安全分级,得到各字段的多个候选安全等级时,用于实现:
将所述目标字段库中的各字段输入数据安全分级模型,得到各所述字段的安全等级分别为各预设安全等级的预测概率;
根据各所述字段的安全等级分别为各预设安全等级的预测概率,从各预设安全等级中确定各所述字段的多个候选安全等级;
其中,所述数据安全分级模型为预先基于样本数据集训练得到的神经网络模型,所述样本数据集中的样本数据包括样本字段和标注的真实安全等级。
在一实施例中,所述数据仓库中的其余层级包括数据细节层、数据中间层、数据服务层、数据应用层,所述处理器在实现根据所述数据仓库的数据血缘关系网络和各所述字段的目标安全等级,确定所述数据仓库中的其余层级内的字段的安全等级时,用于实现:
根据所述数据血缘关系网络,确定所述数据运营层与所述数据细节层之间的第一字段加工逻辑信息;
从所述字段加工逻辑信息中获取所述数据运营层中的第一字段、所述数据细节层中的第二字段及所述第一字段与所述第二字段之间的第一加工逻辑;
在所述第一加工逻辑为加密处理逻辑时,将所述第一字段的目标安全等级降低第一预设等级后的安全等级确定为所述第二字段的安全等级;
在所述第一加工逻辑为脱敏处理逻辑时,将所述第一字段的目标安全等级降低第二预设等级后的安全等级确定为所述第二字段的安全等级。
在一实施例中,所述处理器还用于实现以下步骤:
根据所述数据血缘关系网络,确定所述数据细节层与目标层之间的第二字段加工逻辑信息,其中,所述目标层包括所述数据中间层、所述数据服务层和/或所述数据应用层;
从所述第二字段加工逻辑信息中获取所述数据细节层中的第二字段、所述目标层中的第三字段及所述第二字段与所述第三字段之间的第二加工逻辑;
根据所述第二加工逻辑和所述第二字段的安全等级,确定所述第三字段的安全等级。
在一实施例中,所述处理器在实现根据所述第二加工逻辑和所述第二字段的安全等级,确定所述第三字段的安全等级时,用于实现:
在所述第二加工逻辑的逻辑类型为第一逻辑类型或第二逻辑类型时,将所述第二字段的安全等级确定为所述第三字段的安全等级;
在所述第二加工逻辑的逻辑类型为第三逻辑类型时,若所述第二加工逻辑位于所述第三逻辑类型的第一加工逻辑库,则将所述第二字段的安全等级确定为所述第三字段的安全等级;
若所述第二加工逻辑位于所述第三逻辑类型的第二加工逻辑库,则将所述第二字段的安全等级降低第二预设等级后的安全等级确定为所述第三字段的安全等级。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的计算机设备的具体工作过程,可以参考前述基于人工智能的数据安全分级方法实施例中的对应过程,在此不再赘述。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参阅本申请基于人工智能的数据安全分级方法的各个实施例。
其中,所述计算机可读存储介质可以是易失性的,也可以是非易失性的。所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于人工智能的数据安全分级方法,其特征在于,包括:
获取数据仓库中的数据运营层内的原始数据,对所述原始数据中的字段进行安全分级,得到各字段的多个候选安全等级;
根据各所述字段的多个候选安全等级,生成字段分级报告,并向分级审核人员的用户账号发送所述字段分级报告,由所述分级审核人员进行确认;
根据确认后的所述字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级;
根据所述数据仓库的数据血缘关系网络和各所述字段的目标安全等级,确定所述数据仓库中的其余层级内的字段的安全等级。
2.根据权利要求1所述的基于人工智能的数据安全分级方法,其特征在于,所述对所述原始数据中的字段进行安全分级,得到各字段的多个候选安全等级,包括:
对所述原始数据中的全部字段进行去重处理,得到目标字段库;
对所述目标字段库中的各字段进行安全分级,得到各字段的多个候选安全等级。
3.根据权利要求2所述的基于人工智能的数据安全分级方法,其特征在于,所述对所述目标字段库中的各字段进行安全分级,得到各字段的多个候选安全等级,包括:
将所述目标字段库中的每个字段与预设标准字段库中的各标准字段进行模糊匹配,得到每个所述字段与各所述标准字段之间的模糊匹配评分;
根据每个所述字段与各所述标准字段之间的模糊匹配评分,确定各所述字段匹配的多个候选标准字段;
根据预存的标准字段与安全等级之间的映射关系表以及各所述字段匹配的多个候选标准字段,确定各所述字段的多个候选安全等级。
4.根据权利要求2所述的基于人工智能的数据安全分级方法,其特征在于,所述对所述目标字段库中的各字段进行安全分级,得到各字段的多个候选安全等级,包括:
将所述目标字段库中的各字段输入数据安全分级模型,得到各所述字段的安全等级分别为各预设安全等级的预测概率;
根据各所述字段的安全等级分别为各预设安全等级的预测概率,从各预设安全等级中确定各所述字段的多个候选安全等级;
其中,所述数据安全分级模型为预先基于样本数据集训练得到的神经网络模型,所述样本数据集中的样本数据包括样本字段和标注的真实安全等级。
5.根据权利要求1-4中任一项所述的基于人工智能的数据安全分级方法,其特征在于,所述数据仓库中的其余层级包括数据细节层、数据中间层、数据服务层、数据应用层,所述根据所述数据仓库的数据血缘关系网络和各所述字段的目标安全等级,确定所述数据仓库中的其余层级内的字段的安全等级,包括:
根据所述数据血缘关系网络,确定所述数据运营层与所述数据细节层之间的第一字段加工逻辑信息;
从所述字段加工逻辑信息中获取所述数据运营层中的第一字段、所述数据细节层中的第二字段及所述第一字段与所述第二字段之间的第一加工逻辑;
在所述第一加工逻辑为加密处理逻辑时,将所述第一字段的目标安全等级降低第一预设等级后的安全等级确定为所述第二字段的安全等级;
在所述第一加工逻辑为脱敏处理逻辑时,将所述第一字段的目标安全等级降低第二预设等级后的安全等级确定为所述第二字段的安全等级。
6.根据权利要求5所述的基于人工智能的数据安全分级方法,其特征在于,所述方法还包括:
根据所述数据血缘关系网络,确定所述数据细节层与目标层之间的第二字段加工逻辑信息,其中,所述目标层包括所述数据中间层、所述数据服务层和/或所述数据应用层;
从所述第二字段加工逻辑信息中获取所述数据细节层中的第二字段、所述目标层中的第三字段及所述第二字段与所述第三字段之间的第二加工逻辑;
根据所述第二加工逻辑和所述第二字段的安全等级,确定所述第三字段的安全等级。
7.根据权利要求6所述的基于人工智能的数据安全分级方法,其特征在于,所述根据所述第二加工逻辑和所述第二字段的安全等级,确定所述第三字段的安全等级,包括:
在所述第二加工逻辑的逻辑类型为第一逻辑类型或第二逻辑类型时,将所述第二字段的安全等级确定为所述第三字段的安全等级;
在所述第二加工逻辑的逻辑类型为第三逻辑类型时,若所述第二加工逻辑位于所述第三逻辑类型的第一加工逻辑库,则将所述第二字段的安全等级确定为所述第三字段的安全等级;
若所述第二加工逻辑位于所述第三逻辑类型的第二加工逻辑库,则将所述第二字段的安全等级降低第二预设等级后的安全等级确定为所述第三字段的安全等级。
8.一种基于人工智能的数据安全分级装置,其特征在于,所述基于人工智能的数据安全分级装置包括:
获取模块,用于获取数据仓库中的数据运营层内的原始数据;
第一安全分级模块,用于对所述原始数据中的字段进行安全分级,得到各字段的多个候选安全等级;
分级审核模块,用于根据各所述字段的多个候选安全等级,生成字段分级报告,并向分级审核人员的用户账号发送所述字段分级报告,由所述分级审核人员进行确认;
确定模块,用于根据确认后的所述字段分级报告中各字段的多个候选安全等级,确定各字段的目标安全等级;
第二安全分级模块,用于根据所述数据仓库的数据血缘关系网络和各所述字段的目标安全等级,确定所述数据仓库中的其余层级内的字段的安全等级。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的基于人工智能的数据安全分级方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的基于人工智能的数据安全分级方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210044184.6A CN114398676A (zh) | 2022-01-14 | 2022-01-14 | 基于人工智能的数据安全分级方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210044184.6A CN114398676A (zh) | 2022-01-14 | 2022-01-14 | 基于人工智能的数据安全分级方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398676A true CN114398676A (zh) | 2022-04-26 |
Family
ID=81231788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210044184.6A Pending CN114398676A (zh) | 2022-01-14 | 2022-01-14 | 基于人工智能的数据安全分级方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398676A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502277A (zh) * | 2023-06-30 | 2023-07-28 | 中科乐约健康科技(深圳)有限公司 | 一种基于区块链的医疗数据安全处理方法、***及装置 |
-
2022
- 2022-01-14 CN CN202210044184.6A patent/CN114398676A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502277A (zh) * | 2023-06-30 | 2023-07-28 | 中科乐约健康科技(深圳)有限公司 | 一种基于区块链的医疗数据安全处理方法、***及装置 |
CN116502277B (zh) * | 2023-06-30 | 2024-03-26 | 中科乐约健康科技(深圳)有限公司 | 一种基于区块链的医疗数据安全处理方法、***及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
US11727203B2 (en) | Information processing system, feature description method and feature description program | |
CN107368468B (zh) | 一种运维知识图谱的生成方法及*** | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN101231651A (zh) | 计算计算机网络上电子文档的重要性的计算机装置和方法 | |
CN112347226A (zh) | 文档知识抽取方法、装置、计算机设备及可读存储介质 | |
CN111435367B (zh) | 知识图谱的构建方法、***、设备及存储介质 | |
CN113343677B (zh) | 一种意图识别方法、装置、电子设备及存储介质 | |
CN113836038A (zh) | 测试数据构造方法、装置、设备及存储介质 | |
CN111813946A (zh) | 医疗信息反馈方法、装置、设备及可读存储介质 | |
CA3169288A1 (en) | Knowledge graph based reasoning recommendation system and method | |
CN115455151A (zh) | 一种ai情绪可视化识别方法、***及云平台 | |
CN114398676A (zh) | 基于人工智能的数据安全分级方法、装置、设备及介质 | |
CN114372082A (zh) | 基于人工智能的数据查询方法、装置、电子设备及介质 | |
CN114020892A (zh) | 基于人工智能的答案选取方法、装置、电子设备及介质 | |
CN117911039A (zh) | 售后服务***的控制方法、设备及存储介质 | |
EP3605362A1 (en) | Information processing system, feature value explanation method and feature value explanation program | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
CN113626605B (zh) | 信息分类方法、装置、电子设备及可读存储介质 | |
CN112115212B (zh) | 参数识别方法、装置和电子设备 | |
CN112308440B (zh) | 工单处理方法、装置、计算机设备及计算机可读存储介质 | |
CN112287005B (zh) | 一种数据处理方法、装置、服务器及介质 | |
CN114417828A (zh) | 一种服务器告警日志描述文本的实体关系抽取方法及*** | |
CN114238768A (zh) | 资讯信息的推送方法、装置、计算机设备和存储介质 | |
CN114092057A (zh) | 一种项目模型的构建方法、装置、终端设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |