CN116681086A - 数据分级方法、***、设备及存储介质 - Google Patents
数据分级方法、***、设备及存储介质 Download PDFInfo
- Publication number
- CN116681086A CN116681086A CN202310945859.9A CN202310945859A CN116681086A CN 116681086 A CN116681086 A CN 116681086A CN 202310945859 A CN202310945859 A CN 202310945859A CN 116681086 A CN116681086 A CN 116681086A
- Authority
- CN
- China
- Prior art keywords
- field
- sensitive word
- matrix
- classified
- grading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000011159 matrix material Substances 0.000 claims abstract description 184
- 230000002776 aggregation Effects 0.000 claims abstract description 25
- 238000004220 aggregation Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 58
- 238000010276 construction Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013523 data management Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据治理技术领域,并公开了一种数据分级方法、***、设备及存储介质,该方法包括:构建敏感词库,并确定敏感词库中敏感词字段的敏感词字段级别;通过文本语义匹配的方式构建待分级字段和敏感词字段的相似度关联矩阵;基于敏感词字段、敏感词字段级别和待分级字段将相似度关联矩阵转换为目标二维表;根据目标二维表中敏感词字段级别进行聚合运算,获得待分级字段各分级级别对应的得分值;通过得分值确定待分级字段对应的分级级别。相比现有技术,本发明有效提高了数据分级的准确率和效率。
Description
技术领域
本发明涉及数据治理技术领域,尤其涉及一种数据分级方法、***、设备及存储介质。
背景技术
当前数据分级的主要思路是自动发现敏感词数据,再结合人工方式进行分级操作,虽可帮助相关人员快速发现敏感词数据,但针对主观数据还是不从心,分级方式不灵活,不能适应各种组织的数据安全分级需要。
由于业界数据分级没有统一的标准,多数解决方式是利用具有行业、业务、安全等多方面经验的人员进行梳理,特点是准确性高、效果好但效率低、周期长、无规范依据。
因此,亟需一种数据分级方法,解决如何有效提高数据分级的准确率和效率的技术问题。
发明内容
本发明的主要目的在于提供了一种数据分级方法、***、设备及存储介质,旨在解决如何有效提高数据分级的准确率和效率的技术问题。
为实现上述目的,本发明提供了一种数据分级方法,所述方法包括以下步骤:
构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别;
通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;
基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;
根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值;
通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。
可选地,所述通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵的步骤,包括:
基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量,获得待分级字段矩阵和敏感词字段矩阵;
对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
可选地,所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤,包括:
根据预设方式对所述待分级字段矩阵和所述敏感词字段矩阵分别增加维度,获得第一矩阵和第二矩阵;
利用Numpy/Tensor的广播机制对所述第一矩阵中对应的词向量和所述第二矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
可选地,所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤,还包括:
根据所述待分级字段的数量和所述敏感词字段的数量,确定待分级字段批次值和敏感词字段批次值;
按照所述待分级字段批次值将所述待分级字段矩阵拆分为多个目标待分级字段矩阵;
按照所述敏感词字段批次值将所述敏感词字段矩阵拆分为多个目标敏感词字段矩阵;
根据所述预设方式对所述目标待分级字段矩阵和所述目标敏感词字段矩阵分别增加维度,获得第三矩阵和第四矩阵;
利用Numpy/Tensor的广播机制对所述第三矩阵中对应的词向量和所述第四矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
可选地,所述基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表的步骤之后,还包括:
通过机器学习算法以所述敏感词字段作为输入,所述敏感词字段对应的敏感词级别作为输出进行监督学习训练,获得多分类模型;
根据所述多分类模型,确定相似度临界阈值;
将所述目标二维表中小于所述相似度临界阈值的相似度用缺失值替换,获得新的目标二维表。
可选地,所述根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值的步骤,具体包括:
基于所述目标二维表中敏感词字段级别按均值进行聚合运算,获得所述待分级字段各分级级别对应的得分值。
可选地,所述通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别的步骤,包括:
将所述待分级字段各分级级别对应的得分值进行比较,获得比较结果;
根据所述比较结果确定所述待分级字段对应的分级级别。
此外,为实现上述目的,本发明还提出一种数据分级***,所述***包括:
词库构建模块,用于构建敏感词库,并确定所述敏感词库中的敏感词字段的敏感词字段级别;
矩阵构建模块,用于通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;
矩阵转换模块,用于基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;
聚合运算模块,用于根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值;
级别确定模块,用于通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。
此外,为实现上述目的,本发明还提出一种数据分级设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据分级程序,所述数据分级程序配置为实现如上文所述的数据分级方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有数据分级程序,所述数据分级程序被处理器执行时实现如上文所述的数据分级方法的步骤。
本发明通过构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别;通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值;通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。由于本发明是通过构建敏感词库并确定敏感词字段级别,通过文本语义匹配的方式构建待分级字段和敏感词字段的相似度关联矩阵,然后将相似度关联矩阵转换为目标二维表,根据目标二维表中敏感词字段级别进行聚合运算,获得待分级字段各分级级别对应的得分值;通过得分值确定所述待分级字段对应的分级级别,相比于现有技术,有效提高了数据分级的准确率和效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的数据分级设备的结构示意图;
图2为本发明数据分级方法第一实施例的流程示意图;
图3为敏感词字段与待分级字段示意图;
图4为本发明数据分级方法第二实施例的流程示意图;
图5为本发明数据分级方法第三实施例的流程示意图;
图6为本发明数据分级***的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1是本发明实施例方案涉及的硬件运行环境的数据分级设备的结构示意图。
如图1所示,该数据分级设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对数据分级设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及数据分级程序。
在图1所示的数据分级设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明数据分级设备中的处理器1001、存储器1005可以设置在数据分级设备中,所述数据分级设备通过处理器1001调用存储器1005中存储的数据分级程序,并执行本发明实施例提供的数据分级方法。
本发明实施例提供了一种数据分级方法,参照图2,图2为本发明数据分级方法第一实施例的流程示意图。
本实施例中,所述数据分级方法包括以下步骤:
步骤S10:构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别。
需要说明的是,本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备,例如服务器、平板电脑、个人电脑、手机等,或者是一种能够实现上述功能的电子设备、数据分级设备等。以下以数据分级设备为例,对本实施例及下述各实施例进行举例说明。
需要解释的是,通过构建敏感词库,并为敏感词库中每一个敏感词字段标记一个敏感词字段级别,例如如L5、L4、L3等。另一方面,对数据库中待分级的数据表字段,提取表头字段的文本信息,构造待分级字段文本列表,所述待分级字段文本列表中包含多个待分级字段。
在具体实现中,构建敏感词库,对敏感词库中每一个敏感词字段给定分级级别,即敏感词字段级别。例如,参考图3,图3为敏感词字段与待分级字段示意图,标椎库敏感字段中敏感字段text为工资、薪酬、奖金对应分级级别(grade)为L5;手机、电话、邮箱分级级别为L4;性别、年龄分级级别为L3。假设待分级字段text(待识别和分级字段)为员工收入、项目奖金、联系方式、电子邮件、性别年龄、出生年月、家庭住址,“?”表示还未确定分级级别,数据分级的任务是给这些待分级的字段赋予适当的分级级别。
步骤S20:通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵。
可理解的是,文本语义匹配,通俗来讲就是判断两个文本的语义是否相同。文本语义匹配是自然语言处理中最基本的任务之一,语义匹配在搜索匹配、智能客服、新闻推荐等都有广泛的应用。
需要说明的是,上述文本语义匹配的方式是基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量,如“工资”对应的词向量为:[-0.04097468 0.029010880.01454205 0.04620046 0.03558226 ……], “员工收入”对应的词向量为:[-0.005273540.03050051 0.02337652 0.05430245 0.07561858 ……]。两个词向量之间的相似度,表示两个短文本语义间的匹配程度。相似度介于0和1之间,数值越大,表示短文本语义匹配程度越高。词向量的相似度定义为哈达玛乘积运算并将结果求和。如,,哈达玛积为:/>,相似度对应为:/>=。
在具体实现中,基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量,获得待分级字段矩阵和敏感词字段矩阵;然后对所述待分级字段矩阵和所述敏感词字段矩阵进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
需要说明的是,待分级字段和敏感词字段成千上万,二层循环遍历计算任意两个字段短文本向量的相似度效率极低。因此,可以基于批量计算的方式显著提高计算的性能,例如,根据预设方式对所述待分级字段矩阵和所述敏感词字段矩阵分别增加维度,获得第一矩阵和第二矩阵,然后利用Numpy/Tensor的广播机制对所述待分级字段矩阵和所述敏感词字段矩阵进行哈达玛乘积批量运算,获得获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
假设待分级字段数量为n,即有n个待分级字段向量,则对应的待分级字段矩阵为(n,768),沿着axis=1的方向增加一个维度变为第一矩阵为(n, 1, 768)。敏感词字段数量为m,即有m个敏感词字段向量,则对应的敏感词字段矩阵为(m,768),沿着axis=0的方向增加一个维度变为第二矩阵(1, m, 768)。然后再利用Numpy/Tensor的广播机制沿axis=2的方向进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵为(n, m)。
步骤S30:基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表。
参考表1,基于敏感词字段(text)和敏感词字段级别(grade)构建多层索引,然后再基于所述待分级字段将所述相似度关联矩阵转换为目标二维表。
表1 目标二维表
步骤S40:根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值。
在具体实现中,基于所述目标二维表中敏感词字段级别按均值进行聚合运算,获得所述待分级字段各分级级别对应的得分值,如表2所示。
表2 待分级字段各分级级别对应的得分值
步骤S50:通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。
需要说明的是,获得所述待分级字段各分级级别对应的得分值后将所述待分级字段各分级级别对应的得分值进行比较,获得比较结果;根据所述比较结果确定所述待分级字段对应的分级级别。
通过对每一行取最大值score和最大值对应的分级级别level,得到每一个待分级字段的分级级别,如表3所示。
表3 每一个待分级字段的分级级别表
本实施例通过构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别;通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;基于所述目标二维表中敏感词字段级别按均值进行聚合运算,获得所述待分级字段各分级级别对应的得分值;通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。由于本发明是通过构建敏感词库并确定敏感词字段级别,通过文本语义匹配的方式构建待分级字段和敏感词字段的相似度关联矩阵,然后将相似度关联矩阵转换为目标二维表,根据目标二维表中敏感词字段级别进行聚合运算,获得待分级字段各分级级别对应的得分值;通过将所述待分级字段各分级级别对应的得分值进行比较,获得比较结果,根据所述比较结果确定所述待分级字段对应的分级级别,相比于现有技术,有效提高了数据分级的准确率和效率。
参考图4,图4为本发明数据分级方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S20,包括:
步骤S201:基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量,获得待分级字段矩阵和敏感词字段矩阵。
应解释的是,基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量,如“工资”对应的词向量为:[-0.04097468 0.02901088 0.01454205 0.046200460.03558226 ……], “员工收入”对应的词向量为:[-0.00527354 0.03050051 0.023376520.05430245 0.07561858 ……]。
步骤S202:对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
可理解的是,上述待分级字段矩阵中对应的词向量是待分级字段基于BERT模型转换的768维的词向量,即待分级字段向量;上述敏感词字段矩阵中对应的词向量是敏感词字段基于BERT模型转换的768维的词向量,即敏感词字段向量。
在具体实现中,可以根据预设方式对所述待分级字段矩阵和所述敏感词字段矩阵分别增加维度,获得第一矩阵和第二矩阵;然后利用Numpy/Tensor的广播机制对所述第一矩阵中对应的词向量和所述第二矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
需要说明的是,上述预设方式可以是,假设待分级字段数量为n,即有n个待分级字段向量,则对应的待分级字段矩阵为(n,768),沿着axis=1的方向增加一个维度变为第一矩阵为(n, 1, 768)。敏感词字段数量为m,即有m个敏感词字段向量,则对应的敏感词字段矩阵为(m,768),沿着axis=0的方向增加一个维度变为第二矩阵(1, m, 768)。然后再利用Numpy/Tensor的广播机制沿axis=2的方向进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵为(n, m)。
但是,由于n和m的数值很大,一次性批量计算相似度关联矩阵将出现内存溢出的问题,因此需要进行小批量矩阵运算。例如,待分级字段批次大小为bs1,敏感词字段批次大小为bs2,每个小批次计算得到(bs1,bs2)大小的相似度矩阵。在进行小批量矩阵计算前,将待分级字段矩阵(n,768)拆分为个(bs1, 768)的小矩阵,将敏感词字段矩阵(m,768)拆分为/>个(bs2, 768)的小矩阵。
因此,在具体实现中,可以根据所述待分级字段的数量和所述敏感词字段的数量,确定待分级字段批次值和敏感词字段批次值;按照所述待分级字段批次值将所述待分级字段矩阵拆分为多个目标待分级字段矩阵;按照所述敏感词字段批次值将所述敏感词字段矩阵拆分为多个目标敏感词字段矩阵;根据所述预设方式对所述目标待分级字段矩阵和所述目标敏感词字段矩阵分别增加维度,获得第三矩阵和第四矩阵;利用Numpy/Tensor的广播机制对所述第三矩阵中对应的词向量和所述第四矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
可理解的是,可以选用Numpy、Paddle和Pytorch框架实现小批量矩阵运算,单个批量计算所耗时长随着批次大小的增加而增长。若取n=m=4500,完成全量相似度矩阵运算,Numpy和PyTorch所耗总时长受批次大小影响很小,建议选择Numpy框架实现相似度矩阵计算,批次大小可设置为1000左右。
本实施例根据所述待分级字段的数量和所述敏感词字段的数量,确定待分级字段批次值和敏感词字段批次值;按照所述待分级字段批次值将所述待分级字段矩阵拆分为多个目标待分级字段矩阵;按照所述敏感词字段批次值将所述敏感词字段矩阵拆分为多个目标敏感词字段矩阵;根据所述预设方式对所述目标待分级字段矩阵和所述目标敏感词字段矩阵分别增加维度,获得第三矩阵和第四矩阵;利用Numpy/Tensor的广播机制对所述第三矩阵中对应的词向量和所述第四矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵,相比于现有技术,本发明选择Numpy框架实现相似度关联矩阵计算有效提高了数据分级的效率。
参考图5,图5为本发明数据分级方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,所述步骤S30之后,还包括:
步骤S301:通过机器学习算法以所述敏感词字段作为输入,所述敏感词字段对应的敏感词级别作为输出进行监督学习训练,获得多分类模型。
步骤S302:根据所述多分类模型,确定相似度临界阈值。
需要说明的是,上述机器学习算法可以是贝叶斯算法,也可以决策树算法,也可以是其他分类算法,本实施例对此不加以限制。
在具体实现中,通过机器学习的方法训练相似度临界阈值,以敏感词字段作为输入,敏感词字段对应的敏感词级别作为输出,构造训练样本数据集。基于监督学习的方法训练得到一个多分类模型,然后根据所述多分类模型,确定相似度临界阈值。
通过机器学习算法训练得到相似度临界阈值,相似度小于该相似度临界阈值时,表示短文本语义间匹配程度低,进一步用缺失值填充相似度关联矩阵。
步骤S303:将所述目标二维表中小于所述相似度临界阈值的相似度用缺失值替换,获得新的目标二维表。
参考表4,建设获得的相似度临界阈值为0.6,则将所述目标二维表中小于0.6的相似度用缺失值替换,获得新的目标二维表。
表4 新的目标二维表
然后,根据新的目标二维表中敏感词字段级别按均值进行聚合运算,并对新的二维表每一行取最大值和最大值索引,得到优化后的分级级别,减少了数据量,提高了数据分级的效率,例如,参考表5 。
表5优化后的分级级别表
由表5可知,员工收入和项目奖金可赋予分级级别为L5;联系方式、电子邮件可赋予分级级别为L4;性别年龄可赋予分级级别为L3;而出生年月和家庭住址的敏感词字段级别为None,其对应的分级级别应该低于上述敏感词字段级别,可赋予的数据分级级别应该为L2或L1。
本实施例通过构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别;通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;通过机器学习算法以所述敏感词字段作为输入,所述敏感词字段对应的敏感词级别作为输出进行监督学习训练,获得多分类模型;根据所述多分类模型,确定相似度临界阈值;将所述目标二维表中小于所述相似度临界阈值的相似度用缺失值替换,获得新的目标二维表;根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值;通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。由于本发明是通过构建敏感词库并确定敏感词字段级别,通过文本语义匹配的方式构建待分级字段和敏感词字段的相似度关联矩阵,然后将相似度关联矩阵转换为目标二维表,然后将所述目标二维表中小于所述相似度临界阈值的相似度用缺失值替换,获得新的目标二维表,根据目标二维表中敏感词字段级别进行聚合运算,获得待分级字段各分级级别对应的得分值;通过得分值确定所述待分级字段对应的分级级别,相比于现有技术,本发明有效提高了数据分级的准确率和效率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有数据分级程序,所述数据分级程序被处理器执行时实现如上文所述的数据分级方法的步骤。
参照图6,图6为本发明数据分级***的结构框图。
如图6所示,本发明实施例提出的数据分级***包括:词库构建模块601、矩阵构建模块602、矩阵转换模块603、聚合运算模块604和级别确定模块605。
所述词库构建模块601,用于构建敏感词库,并确定所述敏感词库中的敏感词字段的敏感词字段级别。
所述矩阵构建模块602,用于通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵。
所述矩阵转换模块603,用于基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表。
所述聚合运算模块604,用于根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值。
所述级别确定模块605,用于通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。
本***通过构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别;通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值;通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。由于本发明是通过构建敏感词库并确定敏感词字段级别,通过文本语义匹配的方式构建待分级字段和敏感词字段的相似度关联矩阵,然后将相似度关联矩阵转换为目标二维表,根据目标二维表中敏感词字段级别进行聚合运算,获得待分级字段各分级级别对应的得分值;通过得分值确定所述待分级字段对应的分级级别,相比于现有技术,有效提高了数据分级的准确率和效率。
基于本发明上述数据分级***第一实施例,提出本发明数据分级***的第二实施例。
在本实施例中,所述矩阵构建模块602,还用于基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量,获得待分级字段矩阵和敏感词字段矩阵;对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
所述矩阵构建模块602,还用于根据预设方式对所述待分级字段矩阵和所述敏感词字段矩阵分别增加维度,获得第一矩阵和第二矩阵;利用Numpy/Tensor的广播机制对所述第一矩阵中对应的词向量和所述第二矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
所述矩阵构建模块602,还用于根据所述待分级字段的数量和所述敏感词字段的数量,确定待分级字段批次值和敏感词字段批次值;按照所述待分级字段批次值将所述待分级字段矩阵拆分为多个目标待分级字段矩阵;按照所述敏感词字段批次值将所述敏感词字段矩阵拆分为多个目标敏感词字段矩阵;根据所述预设方式对所述目标待分级字段矩阵和所述目标敏感词字段矩阵分别增加维度,获得第三矩阵和第四矩阵;利用Numpy/Tensor的广播机制对所述第三矩阵中对应的词向量和所述第四矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
本发明数据分级***的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据分级方法,其特征在于,所述数据分级方法包括以下步骤:
构建敏感词库,并确定所述敏感词库中敏感词字段的敏感词字段级别;
通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;
基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;
根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值;
通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。
2.如权利要求1所述的数据分级方法,其特征在于,所述通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵的步骤,包括:
基于BERT模型将待分级字段和所述敏感词字段转换为768维的词向量,获得待分级字段矩阵和敏感词字段矩阵;
对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
3.如权利要求2所述的数据分级方法,其特征在于,所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤,包括:
根据预设方式对所述待分级字段矩阵和所述敏感词字段矩阵分别增加维度,获得第一矩阵和第二矩阵;
利用Numpy/Tensor的广播机制对所述第一矩阵中对应的词向量和所述第二矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
4.如权利要求3所述的数据分级方法,其特征在于,所述对所述待分级字段矩阵中对应的词向量和所述敏感词字段矩阵中对应的词向量进行哈达玛乘积运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵的步骤,还包括:
根据所述待分级字段的数量和所述敏感词字段的数量,确定待分级字段批次值和敏感词字段批次值;
按照所述待分级字段批次值将所述待分级字段矩阵拆分为多个目标待分级字段矩阵;
按照所述敏感词字段批次值将所述敏感词字段矩阵拆分为多个目标敏感词字段矩阵;
根据所述预设方式对所述目标待分级字段矩阵和所述目标敏感词字段矩阵分别增加维度,获得第三矩阵和第四矩阵;
利用Numpy/Tensor的广播机制对所述第三矩阵中对应的词向量和所述第四矩阵中对应的词向量进行哈达玛乘积批量运算,获得所述待分级字段和所述敏感词字段的相似度关联矩阵。
5.如权利要求1所述的数据分级方法,其特征在于,所述基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表的步骤之后,还包括:
通过机器学习算法以所述敏感词字段作为输入,所述敏感词字段对应的敏感词级别作为输出进行监督学习训练,获得多分类模型;
根据所述多分类模型,确定相似度临界阈值;
将所述目标二维表中小于所述相似度临界阈值的相似度用缺失值替换,获得新的目标二维表。
6.如权利要求1所述的数据分级方法,其特征在于,所述根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值的步骤,具体包括:
基于所述目标二维表中敏感词字段级别按均值进行聚合运算,获得所述待分级字段各分级级别对应的得分值。
7.如权利要求1所述的数据分级方法,其特征在于,所述通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别的步骤,包括:
将所述待分级字段各分级级别对应的得分值进行比较,获得比较结果;
根据所述比较结果确定所述待分级字段对应的分级级别。
8.一种数据分级***,其特征在于,所述数据分级***包括:
词库构建模块,用于构建敏感词库,并确定所述敏感词库中的敏感词字段的敏感词字段级别;
矩阵构建模块,用于通过文本语义匹配的方式构建待分级字段和所述敏感词字段的相似度关联矩阵;
矩阵转换模块,用于基于所述敏感词字段、所述敏感词字段级别和所述待分级字段将所述相似度关联矩阵转换为目标二维表;
聚合运算模块,用于根据所述目标二维表中敏感词字段级别进行聚合运算,获得所述待分级字段各分级级别对应的得分值;
级别确定模块,用于通过所述待分级字段各分级级别对应的得分值确定所述待分级字段对应的分级级别。
9.一种数据分级设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据分级程序,所述数据分级程序配置为实现如权利要求1至7中任一项所述的数据分级方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有数据分级程序,所述数据分级程序被处理器执行时实现如权利要求1至7任一项所述的数据分级方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310945859.9A CN116681086B (zh) | 2023-07-31 | 2023-07-31 | 数据分级方法、***、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310945859.9A CN116681086B (zh) | 2023-07-31 | 2023-07-31 | 数据分级方法、***、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116681086A true CN116681086A (zh) | 2023-09-01 |
CN116681086B CN116681086B (zh) | 2024-04-02 |
Family
ID=87782243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310945859.9A Active CN116681086B (zh) | 2023-07-31 | 2023-07-31 | 数据分级方法、***、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681086B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977222A (zh) * | 2019-03-05 | 2019-07-05 | 广州海晟科技有限公司 | 数据敏感行为的识别方法 |
CN110826319A (zh) * | 2019-10-30 | 2020-02-21 | 维沃移动通信有限公司 | 应用信息的处理方法及终端设备 |
CN111767394A (zh) * | 2020-06-24 | 2020-10-13 | 中国工商银行股份有限公司 | 一种基于人工智能专家***的摘要提取方法及装置 |
CN113139379A (zh) * | 2020-01-20 | 2021-07-20 | 中国电信股份有限公司 | 信息识别方法和*** |
US20210224481A1 (en) * | 2017-04-07 | 2021-07-22 | Ping An Technology(Shenzhen) Co., Ltd. | Method and apparatus for topic early warning, computer equipment and storage medium |
CN114491018A (zh) * | 2021-12-23 | 2022-05-13 | 天翼云科技有限公司 | 敏感信息检测模型的构建方法、敏感信息检测方法及装置 |
CN115879455A (zh) * | 2022-12-29 | 2023-03-31 | 华润数字科技有限公司 | 词语情感极性预测方法及其装置、电子设备及存储介质 |
CN116049397A (zh) * | 2022-12-29 | 2023-05-02 | 北京霍因科技有限公司 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
CN116150349A (zh) * | 2021-11-18 | 2023-05-23 | 上海数据交易中心有限公司 | 一种数据产品安全合规性检查方法、装置及服务器 |
-
2023
- 2023-07-31 CN CN202310945859.9A patent/CN116681086B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210224481A1 (en) * | 2017-04-07 | 2021-07-22 | Ping An Technology(Shenzhen) Co., Ltd. | Method and apparatus for topic early warning, computer equipment and storage medium |
CN109977222A (zh) * | 2019-03-05 | 2019-07-05 | 广州海晟科技有限公司 | 数据敏感行为的识别方法 |
CN110826319A (zh) * | 2019-10-30 | 2020-02-21 | 维沃移动通信有限公司 | 应用信息的处理方法及终端设备 |
CN113139379A (zh) * | 2020-01-20 | 2021-07-20 | 中国电信股份有限公司 | 信息识别方法和*** |
CN111767394A (zh) * | 2020-06-24 | 2020-10-13 | 中国工商银行股份有限公司 | 一种基于人工智能专家***的摘要提取方法及装置 |
CN116150349A (zh) * | 2021-11-18 | 2023-05-23 | 上海数据交易中心有限公司 | 一种数据产品安全合规性检查方法、装置及服务器 |
CN114491018A (zh) * | 2021-12-23 | 2022-05-13 | 天翼云科技有限公司 | 敏感信息检测模型的构建方法、敏感信息检测方法及装置 |
CN115879455A (zh) * | 2022-12-29 | 2023-03-31 | 华润数字科技有限公司 | 词语情感极性预测方法及其装置、电子设备及存储介质 |
CN116049397A (zh) * | 2022-12-29 | 2023-05-02 | 北京霍因科技有限公司 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
Non-Patent Citations (1)
Title |
---|
黄炜 等: "基于广度学习的异构社交网络敏感实体识别模型研究", 情报学报, vol. 39, no. 06, pages 579 - 588 * |
Also Published As
Publication number | Publication date |
---|---|
CN116681086B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11315032B2 (en) | Method and system for recommending content items to a user based on tensor factorization | |
US7756535B1 (en) | Lightweight content filtering system for mobile phones | |
US9817885B2 (en) | Method and apparatus for grouping network service users | |
US11748452B2 (en) | Method for data processing by performing different non-linear combination processing | |
CN111639247B (zh) | 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质 | |
CN111611514B (zh) | 一种基于用户登录信息的页面展示方法、装置和电子设备 | |
US8560466B2 (en) | Method and arrangement for automatic charset detection | |
CN112328909A (zh) | 信息推荐方法、装置、计算机设备及介质 | |
CN112015562A (zh) | 基于迁移学习的资源分配方法、装置及电子设备 | |
CN111179055B (zh) | 授信额度调整方法、装置和电子设备 | |
CN111190967B (zh) | 用户多维度数据处理方法、装置及电子设备 | |
US11947617B2 (en) | Assigning variants of content to users while maintaining a stable experimental population | |
CN111626783B (zh) | 用于实现事件转化概率预测的离线信息设置方法和装置 | |
CN116681086B (zh) | 数据分级方法、***、设备及存储介质 | |
CN111626898B (zh) | 用于实现事件归因的方法、装置、介质和电子设备 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN114266255B (zh) | 基于聚类模型的语料分类方法、装置、设备及存储介质 | |
WO2022213662A1 (zh) | 应用推荐方法、***、终端以及存储介质 | |
CN113612777B (zh) | 训练方法、流量分级方法、装置、电子设备以及存储介质 | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN110880013A (zh) | 识别文本的方法及装置 | |
CN113327133B (zh) | 数据推荐方法、数据推荐装置、电子设备及可读存储介质 | |
US11983152B1 (en) | Systems and methods for processing environmental, social and governance data | |
JP7355322B1 (ja) | メール要素設定システム及びメール件名設定支援システム | |
US20240220902A1 (en) | Systems and methods for automatic handling of score revision requests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |