CN116257759A - 一种深度神经网络模型的结构化数据智能分类分级*** - Google Patents

一种深度神经网络模型的结构化数据智能分类分级*** Download PDF

Info

Publication number
CN116257759A
CN116257759A CN202310215953.9A CN202310215953A CN116257759A CN 116257759 A CN116257759 A CN 116257759A CN 202310215953 A CN202310215953 A CN 202310215953A CN 116257759 A CN116257759 A CN 116257759A
Authority
CN
China
Prior art keywords
data
attribute
classification
model
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310215953.9A
Other languages
English (en)
Inventor
史扬
曹凌云
刘文懋
高翔
尤扬
李一珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Nsfocus Technologies Group Co Ltd
Original Assignee
Tongji University
Nsfocus Technologies Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University, Nsfocus Technologies Group Co Ltd filed Critical Tongji University
Priority to CN202310215953.9A priority Critical patent/CN116257759A/zh
Publication of CN116257759A publication Critical patent/CN116257759A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种深度神经网络模型的结构化数据智能分类分级***,包含模块:Ⅰ、结构化数据处理模块;Ⅱ、数据标签化处理模块;Ⅲ、属性列数据窗口化转换模块;Ⅳ、自编码特征提取器构建与训练模块;Ⅴ、窗口化属性数据特征变换模块;Ⅵ、数据分类神经网络构建与训练模块;Ⅶ、数据分级多层感知机回归模型构建与训练模块;Ⅷ、数据分类分级预测模块。本发明利用已构建规则化方法和关键词词库对拟输入模型训练的数据进行标签化处理解决全依赖人工标签化处理的问题。人工特征和深度神经网络自动化特征相结合,为结构化数据属性列特征提取提供了思路,并能有效完成数据分类分级。

Description

一种深度神经网络模型的结构化数据智能分类分级***
技术领域
本发明涉及数据分类分级预测技术。
背景技术
国家先后出台《网络安全法》和《数据安全法》,要求对数据进行分类分级管理。相关行业应关注国家法规、加强数据规范化管控。数据就是资产,数据安全关系法人、个体,也关系公共和国家利益。随着大数据时代的到来,数据的管理越来越重要。数据分类分级是数据安全管控的基础。如果没有数据以类别存储,会导致相关域数据混合、糅杂,不能完成对数据的安全管理,严重会引发数据的丢失和泄露问题。
深度学习是机器学习领域一个重点研究方向,其在多个方面取得了突破性进展[1-8].深度神经网络以建立模型模拟人类大脑的神经连接结构,在处理各种输入信号时,通过多个神经元对数据特征进行描述,进而给出数据的解释。深度神经网络的机器学习方法在类别区分中表现的高准确率为数据分级分类提供了新思路、新设想。数据分类方法众多,其中,基于规则的分类方法[9,10]等,要求对数据流有宏观的把控性,在数据流向过程中对数据进行按规则筛选,其规则主要以相关规定的标准为依据。此类方法,根据数据的复杂性往往要设计多个***或者方法完成对数据的筛选判别。而对于机器学习的方法,其能够通过对数据的特征学习实现对相关数据的类别判断。有监督、无监督的机器学习方法[11]都能在一定程度上完成数据的分类。相较于传统的基于规则的数据分类分级方法,机器学习方法要求人为参与程度更低,依赖的规则相对较少,而规则的数据分类分级方法可扩展性较差,对于新数据集往往需要重新制定规则,并重新构建判别***。
尽管现有数据分类方法多样,但是大多数数据的分类方法依然基于规则构建,其往往关注于具体的规则、方法,同时关注的域较为有限,变更数据需要重新构建规则。同时规则变更在软件层面上往往抽象为不同***或者不同功能的函数变更,这也意味着基于规则的方法扩展能力较差。虽然现阶段利用机器学习方法实现数据分类分级的探究[12-15]不断深入,但是其过程依然存在以下缺陷:(1)、数据的标签化过程仍严重依赖人工方式,处理大批量数据较为耗时;(2)、数据分类分级方法中对属性列数据使用不充分,往往只关注属性名;(3)、基于机器学习方法的列数据识别特征提取较为困难。
与本申请最接近的现有技术
接近现有技术中,“一种基于机器学习算法的元数据分级分类方法”的技术方案[13]提出的一种机器学习算法的元数据分级分类方法,利用金融领域敏感原始元数据集创建频繁项词库,并利用该词库将对应数据集中的类文本字段的特征转化为数值型特征。再构建二分类模型,对元数据进行敏感判别,最后利用多分类模型完成对数据的细分。该方法能够解决数据分级分类对人工的依赖性,提高分类的效率。具体方案流程如图1。
上述技术方案不足在于:(1)、利用词集的方法对类文本数据进行特征向量化,考虑的文本特征仅仅表现在数据的频率,未能够关注类文本数据的其它数据特征。(2)、频繁词集构建类文本数据的特征向量相对来说具有局限性,需要尽可能收集该域全部数据才能做到对拟特征化数据的精确向量化。(3)、频繁项词库构建关注的词组合为三种类型,关注类型可以再适当扩展。
接近现有技术中,“基于数据安全和隐私保护的数据分级分类***与方法”技术方案[16]利用规则和行业标准相结合的方法,完成对数据的分级分类。该方案包含多个子***,有数据接收子***、数据识别子***、数据筛选子***、数据分类子***以及数据分级子***;数据接收子***完成数据接收;数据识别子***识别行业数据;数据筛选子***筛选行业数据;数据分类子***利用行业标准完成数据分类;数据分级子***利用行业标准完成数据分级。该方案能够实现数据分级分类,并且可根据行业标准完成数据分类分级的细化。具体方案流程如图2。
上述“基于数据安全和隐私保护的数据分级分类***与方法”技术方案不足在于:(1)、该方案分类分级方法按行业标准实施,由于规则标准的实施以***为主,部分***可能随着规则标准改变而改变,可扩展性在一定程度上较差。(2)、人工依赖性较大,需要利用人工输入标准参数。(3)、***关注和处理的场景数据相对固定,往往和行业标准紧密结合。
发明内容
本申请所解决的技术问题
综合现有技术存在的缺点,总结本发明要解决的技术问题如下:
(一)现有数据分类分级方法存在人工判别和标签化处理时间过长等问题,判别过程中不仅依赖人工判别,还依赖于用户长时间对***访问的数据信息等,分类分级框架构建过程长,十分耗时。
(二)数据利用不充分,现有方法主要关注于利用数据属性构建分类分级模型,忽略属性的元数据,导致数据信息浪费。
(三)属性列数据特征提取的方法较为单一,更多模型主要利用数据属性名进行建模和提取属性名特征。
本发明旨在解决上述相关方法应用于数据分类分级流程上的痛点,以及将深度神经网络方法同数据分类分级架构相结合,更充分地利用数据信息,完成对数据的分类分级。
本发明技术方案概括为:
一种深度神经网络模型的结构化数据智能分类分级***,其特征在于,包含模块:Ⅰ、结构化数据处理模块;Ⅱ、数据标签化处理模块;III、属性列数据窗口化转换模块;Ⅳ、自编码特征提取器构建与训练模块;Ⅴ、窗口化属性数据特征变换模块;VI、数据分类神经网络模型构建与训练模块;VII、数据分级多层感知机回归模型构建与训练模块;Ⅷ、数据分类分级预测模块。
本发明的主要发明要点概述
结合上述问题,本发明的主要创新技术点总结如下:
(一)提供关键词词库、规则化方法对已存在属性名的列进行类别区分判断,以及对拟输入模型的数据进行半人工标签化处理,解决全人工判别和标签化处理时间长问题。
(二)提出基于滑动窗口实例化属性列数据的方法,将单属性列转换为多实例表示,构建关于属性列数据的统计特征和自编码特征提取器相结合的特征提取方案充分地利用属性列数据信息,挖掘属性列数据的潜在信息。
(三)设计构建数据分类深度神经网络和数据分级多层感知机回归模型,完成数据分类分级。
本申请的有益效果:
1)对于现有数据分级分类方法依赖人工判别和标签化处理问题,本发明利用已构建规则化方法和关键词词库对属性名进行类别区分判断,以及对拟输入模型训练的数据进行标签化处理解决依赖人工标签化处理的问题。方便快捷,减少人工判别和标签化处理时间,降低技术人员负担。
2)对于现有机器学习方法数据利用不充分的问题,本发明设计滑动窗口采样方法将属性列数据实例化,并在实例基础上训练自编码特征提取器,利用此预训练自编码器向量化实例,结合实例人工统计特征提取方法,充分挖掘实例内部数据特征。
3)考虑实际应用场景,人工特征和深度神经网络自动化特征相结合,为结构化数据属性列特征提取提供了思路,并能有效完成数据分类分级。
附图说明
图1为现有技术1一种基于机器学习算法的元数据分级分类方法的技术方案流程图
图2为现有技术2基于数据安全和隐私保护的数据分级分类***与方法方案流程图
图3为本发明总体技术方案***模块示意图
图4为本发明总体技术方案流程示意图
图5为有关结构化数据标签化、实例化和特征提取相关模块的具体模型示意图
图6为数据分类分级模型构建、训练与预测模块的具体模型示意图
具体实施方式
结合附图3、图4,描述总体技术方案的实现过程
一种深度神经网络模型的结构化数据智能分类分级***,见图3,方案包含模块:Ⅰ、结构化数据处理模块;Ⅱ、数据标签化处理模块;III、属性列数据窗口化转换模块;Ⅳ、自编码特征提取器构建与训练模块;Ⅴ、窗口化属性数据特征变换模块;VI、数据分类神经网络模型构建与训练模块;VII、数据分级多层感知机回归模型构建与训练模块;Ⅷ、数据分类分级预测模块。
以下介绍各个模块的实现方式。
Ⅰ、结构化数据处理模块:包含步骤S0、S1,其中,
步骤S0:结构化数据的形成,利用构建域原始数据集合,采用ETL,流数据处理、人工录入的方式,将分散存储的数据整合形成结构化数据,完成数据的抽取、加载。
步骤S1:结构化数据集处理过程中检查结构化数据完整性、规范性,并对异常行数据进行处理。
Ⅱ、数据标签化处理模块:包含步骤S2、S3、S4、S5、S6、S7、S8,其中,
步骤S2:对数据集中属性列数据的属性名进行提取;
步骤S3:利用数据属性识别规则对提取属性名进行匹配,匹配成功则标签化属性列;
步骤S4:如未标签化,则利用步骤S5构建的属性关键词词库完成属性列标签化,如标签化,则进入S8;
步骤S5:利用关键词词库对提取属性名进行检索,检索成功则标签化属性列;
步骤S6:如未标签化,则利用步骤S7人工方法对属性列标签化;如标签化,则进入步骤S8形成标签化属性数据集。
上述在数据标签化处理模块中,经过步骤S3、S4、S5、S6、S7形成步骤S8标签化属性数据集。其中属性名关键词词库S5构建,利用以自然语言处理技术为主,头脑风暴为辅的方法扩充关键词词库,完备单一属性名的近义名、相似名,并标识各属性族所属属性名、属性安全等级,形成关键词词库。标签化规则S3构建基于关键词词库,将关键词词库中的各属性族转化为正则表达式,为各属性族正则表达式设置所属属性名和属性安全等级。
III、属性列数据窗口化转换模块:步骤S9、S10、S11,其中,
步骤S9:设置窗口包含对窗口大小和窗口步长的设置;
步骤S10:利用窗口大小以窗口步长为滑动距离,提取属性列数据;
步骤S11:结合该列标签,得到标签化实例集合。
Ⅳ、自编码特征提取器构建与训练模块:包含步骤S14、S15、S16、S18,其中,
步骤S14:实例归一化对步骤S10中实例按属性列进行归一化处理;
步骤S15:构建自编码特征提取器;
步骤S16:利用步骤S14中归一化的实例训练步骤S15中构建的自编码特征提取器;
步骤S18:得到预训练自编码特征提取器模型。
其中步骤S15自编码特征提取器模型构建,具体为:
1)编码器描述为:
令h0=I′,有:
Figure SMS_1
编码器输出表示为
Figure SMS_2
2)令
Figure SMS_3
解码器表示为:
Figure SMS_4
3)令
Figure SMS_5
损失函数表示为:
Figure SMS_6
(编码器部分I′表示归一化实例;网络参数中Wi e表示编码权重、bi e表示编码器偏置,σi e表示编码器激活函数,Le表示编码器神经网络层数;解码器部分网络参数中Wi d表示解码权重,bi d表示解码偏置,σi d表示编码器激活函数,Ld表示解码器神经网络层数;ζ表示惩罚系数。)
Ⅴ、窗口化属性数据特征变换模块:包含步骤S12、S13,和步骤S17、S18、S19,其中,
步骤S12:实例统计特征提取利用专家知识设计基础统计特征及其转换来表征该实例。
步骤S13:对于实例转化统计特征,对属性列数据实例统计特征进行归一化处理。
步骤S17:在实例向量化之前,对实例进行归一化处理,提供给S18;
步骤S18:利用预训练自编码特征提取器模型,进入S19;
步骤S19:将归一化实例利用预训练自编码特征提取器对标签化且归一化的实例进行编码。
在上述窗口化属性数据特征变换模块中,步骤S12、S13、S17、S19将同一实例变换为统计特征和自编码器向量化特征表示。其中步骤S12中统计特征为:算术均值、中位数、众数、四分位数(3个数)、四分位差、极差、标准差(自由度为n)、偏度、峰度、变异系数、标准差(自由度为n-1)、异众比率、中程数。
VI、数据分类神经网络构建与训练模块:包含步骤S20、S21、S24,其中,
步骤S20:构建数据分类深度神经网络模型,为进入步骤S21训练;
步骤S21:将步骤S13中的实例归一化统计特征输入统计特征学习层和将步骤S19中的标签化实例向量输入编码实例学习层,将统计特征学习层和编码实例学习层学习到的两类向量融合,输入融合特征学习层,以融合特征学习层输出的预测实例属性类别和实际实例属性类别在损失函数为交叉熵下调整模型参数,完成对数据分类神经网络模型训练。训练过程中引入温度系数作用于模型,调整数据分类神经网络模型对不同分类的适应程度。
步骤S24:得到训练后的数据分类深度神经网络模型,用于进入步骤S26。
其中S20数据分类深度神经网络模型,具体为:
1)统计特征学习层学习函数为
Figure SMS_7
模型学习实例统计特性特征,并将m维实例统计特征转化为k维向量。
2)编码实例学习层学习函数为
Figure SMS_8
模型在此处调整编码向量对模型的影响。
3)融合特征学习层学习函数为
Figure SMS_9
模型从实例特征向量和统计特征向量的融合特征向量中学习分类函数κ,实现对两类转化向量的学习和分类,完成数据的类别判断。
4)模型优化问题为:
Figure SMS_10
Figure SMS_11
(y为分类器预测类别集,θ123分别为对应模型的超参数,y′为原始类别集,T为温度系数,M为标签个数,N为样本实例个数。)
VII、数据分级多层感知机回归模型构建模块:包含步骤S22、S23、S25,其中,
步骤S22:构建数据分级多层感知机回归模型,为进入步骤S23训练;
步骤S23:将步骤S13中的实例归一化统计特征和步骤S19中的标签化实例向量进行拼接以此表示实例转换特征,将此实例转换特征输入模型,利用模型预测属性实例安全等级和实际属性实例安全等级,在损失函数为平方误差下完成训练步骤S22中构建的数据分级多层感知机回归模型,进入步骤S25。
步骤S25:得到训练后的数据分级多层感知机回归模型,用于进入步骤S26。
其中S22数据分级多层感知机回归模型每一层神经网络定义为:
Figure SMS_12
(
Figure SMS_13
为激活函数,L为神经网络层数,n(l)为第l层神经元个数,Oi (l)表示第l层第i个神经网络的输出,wj,i (l)、w0,i (l)分别为神经元对应的权重参数、偏置参数。)
Ⅷ、数据分级分类预测模块:包含步骤S26,其中,
步骤S26:以S24数据分类神经网络模型输出属性类别的最多次数为最终判别属性类别;在属性安全等级判断中以S25数据分级多层感知机回归模型输出属性安全等级的最多次数为最终判别属性安全等级,输出结果,程序结束。
对于需要预测的属性列数据,按步骤S9、S10生成属性列实例,利用步骤S14得到归一化实例,将归一化实例输入S18自编码特征提取器得到向量化实例。对于在步骤S9、S10中生成的属性列实例,利用步骤S12生成实例统计特征,并在步骤S13中归一化实例统计特征。将步骤S13中归一化实例统计特征和经过S18自编码特征提取器生成的向量化实例分别输入S24数据分类神经网络模型完成实例的属性类别判断,输入S25数据分级多层感知机回归模型完成实例的属性安全等级判断。在属性类别判断中以S24数据分类神经网络模型输出属性类别的最多次数为最终判别属性类别;在属性安全等级判断中以S25数据分级多层感知机回归模型输出属性安全等级的最多次数为最终判别属性安全等级。
以下进一步详述***中的重要模块的技术细节。
如图5所示,结构化数据处理模块和数据标签化处理模块的详细实现过程:
1)采用ETL,流数据处理、人工录入的方式,将分散存储的数据整合形成S0结构化数据集合SD={(attr0,x′0),...,(attrd,x′d)}。在步骤S1中对结构化数据集SD中的属性列数据x′={x′0,...,x′d}进行完整性和规范性检测,删除其中的异常数据行、缺失值数据行得到x={x0,...,xd}。则处理后结构化数据集为D={(attr0,x0),...,(attrd,xd)}。
2)取结构化数据集D中的属性集合A={attr0,...,attrd},将A中属性依次利用由正则表达式构建的S3标签化规则进行匹配,若匹配成功,则将属性和标签化规则中对应的标签tag,添加到属性标签化集合ATpart,否则将属性输入S5关键词词库进行搜索,若搜索成功,则将属性和关键词词库中对应的标签tag添加到ATpart中,否则利用人工方法完成标识,融合ATpart得到AT={(attr0,tag0),...,(attrd,tagd)}。此阶段结合x={x0,...,xd}和AT得到S8标签化属性数据集DTag={(attr0,x0,tag0),...,(attrd,xd,tagd)}。(其中ATpart={(attri,tagi),...,(attrj,tagj)|0≤i,j≤m,i≤j},标签tag包含两部分,一部分是结构化属性名所对应的属性族族名,另一部分是结构化属性名所对应的属性族安全等级。)
3)步骤S9中设置窗口大小为w,窗口步长为s。步骤S10中取DTag中属性列数据xi,对xi中数据,截取窗口大小w数据为实例;移动步长s,重复选取实例;结合DTag中标签对实例进行标签化,得到S11标签化实例集合ITag={(I0,tag0),...,(Id,tagd)}。
如图5所示,属性列数据窗口化转换模块、自编码特征提取器构建与训练模块和窗口化属性数据特征变换模块的详细实现过程:
1)标签化实例集合ITag中实例集合I={I0,...,Id}在步骤S14、S17中归一化方法为:取属性列数据x={x0,...,xd},对每一列数据求最大绝对值,得到CL=[m0,...,md]。将属性列实例集合I0中所有数据除以最大绝对值m0,得到归一化实例集合I0′。重复上述步骤,直到所有属性列实例归一化完毕,得到所有属性归一化实例集合I′={I′0,....,I′d}。
2)S15自编码特征提取器模型构建中编、解码器激活函数为tanh,损失函数为MSE,优化器为SGD。步骤S16在训练集上训练模型,在验证集上找最优模型,在测试集上完成最优模型验证。训练过程中引入惩罚系数ζ来调整模型。
3)对标签化实例集合ITag中任意实例(Ij,i,tagj,i),将Ij,i按步骤S17描述方法归一化,在步骤S19中利用已训练S18自编码特征提取器将Ij,i编码为Ej,i;步骤S12中利用专家知识,提取实例Ij,i中实例基础统计特征添加并转换成Sj,i,设置实例向量化特征Ej,i和实例基础特征Sj,i的标签为tagj,i。重复上述步骤直至所有标签化实例转化为实例统计特征和实例向量化特征,记为ESTag={(E0,S0,tag0),...,(Ed,Sd,tagd)}。此处专家知识为构建的描述数据分布的基础统计特征及其转换,将偏度、峰度、变异系数、异众比率作为实例转化统计特征,其余统计值两两相除所得结果也作为实例的转化统计特征。
4)步骤S13中归一化方法为:将集合ESTag中属性列统计特征Si纵向拼接为VS,对VS中每一列数据求最大绝对值,得到SL=[m0,...,mv]。将Si中每一列数据分别除以SL中对应的最大绝对值,得到统计特征归一化集合S′i。重复上述步骤,直至所有属性列统计特征归一化完成,得到ES′Tag={(E0,S′0,tag0),...,(Ed,S′d,tagd)}。
如图6所示,数据分类分级模型构建、训练与预测模块的详细实现过程:
1)步骤S20中构建的数据分类神经网络模型中统计特征学习层学习函数
Figure SMS_14
编码实例学习层学习函数φ、融合特征学习层学习函数κ为多层全连接神经网络堆叠而成。其中隐藏层激活函数为relu,分类器层激活函数为softmax,损失函数使用交叉熵,优化器为SGD。结合步骤S13和步骤S19得到的属性列特征集合ES′Tag={(E0,S′0,tag0),...,(Ed,S′d,tagd)}和S20数据分类深度神经网络模型,步骤S21中模型训练过程描述如下:将数据集合分为训练集、验证集、测试集。对于表征该属性列的实例特征(Ei,j,S′i,j,tagi,j),将Ei,j输入函数φ,S′i,j输入函数/>
Figure SMS_15
将结果φ(Ei,j)和/>
Figure SMS_16
拼接输入函数κ。分类器层中,在数据经过损失函数softmax之前除以温度系数T,以此来调整模型。在训练集上训练模型,验证集上找最优模型,测试集上完成最优模型验证。
2)步骤S22中构建的数据分级多层感知机回归模型中激活函数为relu,优化器为Adam。结合步骤S13和步骤S19得到的属性列特征集合ES′Tag和S22数据分级多层感知机回归模型,步骤S23中模型训练过程描述如下:将数据集分为训练集、测试集。对于表征该属性列的实例特征(Ei,j,S′i,j,tagi,j),将Ei,j和S′i,j拼接输入模型,利用tagi,j中对应的属性安全等级,完成模型参数更新。在训练集上训练模型,测试集上找最优模型。
3)步骤S26中模型预测过程为:
(1)对于预测列数据,通过步骤S9、S10得到表征该列的多个实例集合Ipre
(2)利用步骤S12、S13、步骤S14、S18、S19,将所有实例Ipre转化为实例统计特征归一化集合S′pre和实例向量化集合Epre
(3)将(Epre,S′pre)输入S24数据分类深度神经网络模型得到预测结果Cpre,统计Cpre中预测的分类情况,选取最多预测分类所对应的属性为最终判别属性。
(4)将(Epre,S′pre)输入S25数据分级多层感知机回归模型得到预测结果Levelpre,将预测分级结果中所有数据四舍五入取整得到Level′pre。统计Level′pre中预测的分级情况,选取最多预测分级为最终判别安全等级。
本申请关键创新技术点包括:
1)利用先验知识,完成域数据属性名关键词和规则化方法构建,对数据属性列进行半自动化标签,更少依赖人为标签化过程,对数据的分类分级、训练模型数据的标签化起引导作用。
2)建立属性列数据到实例,实例到向量和基础特征的转化模型,为属性列数据转化提供方法。转化模型包含属性列数据窗口化、窗口化实例向量化、窗口化实例统计特征提取。其中窗口化实例统计特征提取利用场景专家知识,使特征提取更符合场景,特征更能表现数据特性。
3)人工特征和深度神经网络自动化特征提取相结合以融合场景知识和数据潜在信息。
4)数据分类和数据分级两部分模型构建,有效利用数据的重要信息特征完成数据分类分级。
有助于理解本发明技术的已有文献资料
[1]COVINGTON P,ADAMS J,SARGIN E.Deep neural networks for youtuberecommendations.ACM conference on recommender systems.New York,NY,USA:Association for Computing Machinery.2016:191-198.
[2]LAROCHELLE H,BENGIO Y,LOURADOUR J,et al.Exploring strategies fortraining deep neural networks.Journal of Machine Learning Research,2009,10(1):1-40.
[3]MONTAVON G,SAMEK W,MüLLER K-R.Methods for interpreting andunderstanding deep neural networks.Digital Signal Processing,2018,73:1-15.
[4]MONTUFAR G F,PASCANU R,CHO K,et al.On the number of linear regionsof deep neural networks.International Conference on Neural InformationProcessing Systems.Cambridge,MA,United States:MIT Press.2014:2924-2932
[5]MOOSAVI DEZFOOLI S M,FAWZI A,FROSSARD P.Deepfool:a simple andaccurate method to fool deep neural networks.the IEEE conference on computervision and pattern recognition.Las Vegas,NV,USA:IEEE Press.2016:2574-2582
[6]SZE V,CHEN Y-H,YANG T-J,et al.Efficient processing of deep neuralnetworks:A tutorial and survey.Proceedings of the IEEE 2017,105(12):2295-2329.
[7]SZEGEDY C,TOSHEV A,ERHAN D.Deep neural networks for objectdetection.International Conference on Neural Information ProcessingSystems.Red Hook,NY,United States Curran Associates Inc.2013:2553-2561.
[8]YOSINSKI J,CLUNE J,BENGIO Y,et al.How transferable are features indeep neural networks?Proceedings of the 27th International Conference onNeural Information Processing Systems.Cambridge,MA,United States:MITPress.2014:3320-3328
[9]高磊,赵章界,林野丽,et al.基于《数据安全法》的数据分类分级方法研究.信息安全研究,2021,
7(10):933-940
[10]宋少鸿陈张.一种基于金融业数据安全的数据分级分类方法:中国,申请日CN202111539492.2021.12.15
[11]何文竹,彭长根,王毛妮,et al.面向结构化数据集的敏感属性识别与分级算法.计算机应用研究,
2020,37(10):3077-3082.
[12]卢洪太.基于深度学习聚类算法的城市数据分类分级方法.工业技术创新,2021,8(4):73-78.
[13]吴明光,郭慧茹,刘琼,et al.一种基于机器学习算法的元数据分级分类方法:中国,
CN202210300625.申请日2022.03.25
[14]ZHANG Q,ZHANG C,NI J,et al.Data Sensitivity Measurement andClassification Model of PowerIOT based on Information Entropy and BP NeuralNetwork.International Conference on AdvancedAlgorithms and ControlEngineering.IOP Publishing Ltd.2021.
[15]俞艺涵,付钰,吴晓平.基于Shannon信息熵与BP神经网络的隐私数据度量与分级模型.通信学报,2018,39(12):10-17.
[16]金华松,何颖,赖孝友,et al.基于数据安全和隐私保护的数据分级分类***与方法:中国,CN202110923721.申请日2021.8.12
缩略语和关键术语定义
ETL过程:数据经过数据抽取、转换和加载处理进入数据仓库的整个过程。
深度神经网络:通常将具有两层或两层以上隐藏层的神经网络叫做深度神经网络。
流数据:指由数千个数据源持续生成的数据,通常也同时以数据记录的形式发送,规模较小。
正则表达式:对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式。
自然语言处理:使用机器学习来剖析文本的结构和含义。借助自然语言处理应用,组织可以分析文本并提取关于人物、地点和事件的信息,以更好地理解社交媒体内容的情感和客户对话。
训练集:指用于训练的样本集合,主要用来训练神经网络中的参数。
验证集:用于验证模型性能的样本集合。
测试集:用于测试模型性能的样本集合。
特征提取:从一个初始测量的资料集合中开始做,然后建构出富含资讯性而且不冗余的导出值,称为特征值。
数据库:结构化信息或数据(一般以电子形式存储在计算机***中)的有组织的集合,通常由数据库管理***来控制。
分类器:数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
Dense:常用的全连接层,所实现的运算是output=activation(dot(input,kernel)+bias。其中activation是逐元素计算的激活函数,kernel是本层的权值矩阵,bias为偏置向量。
激活函数:在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。
损失函数:将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
优化器:在深度学习反向传播过程中,指引损失函数(目标函数)的各个参数往正确的方向更新合适的大小,使得更新后的各个参数让损失函数(目标函数)值不断逼近全局最小。
温度系数:作用于softmax激活函数,调节对困难样本的关注程度:越小的温度系数越关注于将本样本和最相似的其他样本分开。
交叉熵:Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。
MSE:均方误差是反映估计量与被估计量之间差异程度的一种度量。设t是根据子样确定的总体参数θ的一个估计量,(θ-t)2的数学期望,称为估计量t的均方误差。它等于σ2+b2,其中σ2与b分别是t的方差与偏倚。

Claims (9)

1.一种深度神经网络模型的结构化数据智能分类分级***,其特征在于,包含模块:
Ⅰ、结构化数据处理模块;
Ⅱ、数据标签化处理模块;
Ⅲ、属性列数据窗口化转换模块;
Ⅳ、自编码特征提取器构建与训练模块;
Ⅴ、窗口化属性数据特征变换模块;
Ⅵ、数据分类神经网络模型构建与训练模块;
Ⅶ、数据分级多层感知机回归模型构建与训练模块;
Ⅷ、数据分类分级预测模块。
2.如权利要求1所述的智能分类分级***,其特征在于,所述结构化数据处理模块:包含步骤S0、S1,其中,
步骤S0:结构化数据的形成,利用构建域原始数据集合,采用ETL,流数据处理、人工录入的方式,将分散存储的数据整合形成结构化数据,完成数据的抽取、加载;
步骤S1:结构化数据集处理过程中检查结构化数据完整性、规范性,并对异常行数据进行处理。
3.如权利要求1所述的智能分类分级***,其特征在于,所述数据标签化处理模块:包含步骤S2、S3、S4、S5、S6、S7、S8,其中,
步骤S2:对数据集中属性列数据的属性名进行提取;
步骤S3:利用数据属性识别规则对提取属性名进行匹配,匹配成功则标签化属性列;
步骤S4:如未标签化,则利用步骤S5构建的属性关键词词库完成属性列标签化,如标签化,则进入S8;
步骤S5:利用关键词词库对提取属性名进行检索,检索成功则标签化属性列;
步骤S6:如未标签化,则利用步骤S7人工方法对属性列标签化;如标签化,则进入步骤S8形成标签化属性数据集;
上述在数据标签化处理模块中,经过步骤S3、S4、S5、S6、S7形成步骤S8标签化属性数据集。
4.如权利要求1所述的智能分类分级***,其特征在于,所述属性列数据窗口化转换模块:步骤S9、S10、S11,其中,
步骤S9:设置窗口包含对窗口大小和窗口步长的设置;
步骤S10:利用窗口大小以窗口步长为滑动距离,提取属性列数据;
步骤S11:结合该列标签,得到标签化实例集合。
5.如权利要求1所述的智能分类分级***,其特征在于,所述自编码特征提取器构建与训练模块:包含步骤S14、S15、S16、S18,其中,
步骤S14:实例归一化对步骤S10中实例按属性列进行归一化处理;
步骤S15:构建自编码特征提取器;
步骤S16:利用步骤S14中归一化的实例训练步骤S15中构建的自编码特征提取器;
步骤S18:得到预训练自编码特征提取器模型;
所述步骤S15自编码特征提取器模型构建,具体为:
编码器描述为:
令h0=I′,有:
hi=σi e(Wi e*hi-1+bi e),1≤i≤Le <1>
编码器输出表示为
Figure QLYQS_1
令o0=hLe,解码器表示为:
oi=σi d(Wi d*oi-1+bi d),1≤i≤Ld <2>
Figure QLYQS_2
损失函数表示为:
Figure QLYQS_3
编码器部分I′表示归一化实例;网络参数中Wi e表示编码权重、bi e表示编码器偏置,σi e表示编码器激活函数,Le表示编码器神经网络层数;解码器部分网络参数中Wi d表示解码权重,bi d表示解码偏置,σi d表示编码器激活函数,Li d表示解码器神经网络层数;ζ表示惩罚系数。
6.如权利要求1所述的智能分类分级***,其特征在于,所述窗口化属性数据特征变换模块:包含步骤S12、S13,和步骤S17、S18、S19,其中,
步骤S12:实例统计特征提取利用专家知识设计基础统计特征及其转换来表征该实例;
步骤S13:对于实例转化统计特征,对属性列数据实例统计特征进行归一化处理;
步骤S17:在实例向量化之前,对实例进行归一化处理,提供给S18;
步骤S18:利用预训练自编码特征提取器模型,进入S19;
步骤S19:将归一化实例利用预训练自编码特征提取器对标签化且归一化的实例进行编码;
在上述窗口化属性数据特征变换模块中,步骤S12、S13、S17、S19将同一实例变换为统计特征和自编码器向量化特征表示。
7.如权利要求1所述的智能分类分级***,其特征在于:所述数据分类神经网络模型构建与训练模块:包含步骤S20、S21、S24,其中,
步骤S20:构建数据分类深度神经网络模型,为进入步骤S21训练;
步骤S21:将步骤S13中的实例归一化统计特征输入统计特征学习层和将步骤S19中的标签化实例向量输入编码实例学习层,将统计特征学习层和编码实例学习层学习到的两类向量融合,输入融合特征学习层,以融合特征学习层输出的预测实例属性类别和实际实例属性类别在损失函数为交叉熵下调整模型参数,完成对数据分类神经网络模型训练;
步骤S24:得到训练后的数据分类深度神经网络模型;
所述步骤S20数据分类深度神经网络模型,具体为:
1)统计特征学习层学习函数为
Figure QLYQS_4
模型学习实例统计特性特征,并将m维实例统计特征转化为k维向量;
2)编码实例学习层学习函数为
Figure QLYQS_5
模型在此处调整编码向量对模型的影响;
3)融合特征学习层学习函数为
Figure QLYQS_6
模型从实例特征向量和统计特征向量的融合特征向量中学习分类函数κ,实现对两类转化向量的学习和分类,完成数据的类别判断;
4)模型优化问题为:
Figure QLYQS_7
/>
Figure QLYQS_8
y为分类器预测类别集,θ123分别为对应模型的超参数,y′为原始类别集,T为温度系数,M为标签个数,N为样本实例个数。
8.如权利要求1所述的智能分类分级***,其特征在于,所述数据分级多层感知机回归模型构建模块:包含步骤S22、S23、S25,其中,
步骤S22:构建数据分级多层感知机回归模型,为进入步骤S23训练;
步骤S23:将步骤S13中的实例归一化统计特征和步骤S19中的标签化实例向量进行拼接以此表示实例转换特征,将此实例转换特征输入模型,利用模型预测属性实例安全等级和实际属性实例安全等级,在损失函数为平方误差下完成训练步骤S22中构建的数据分级多层感知机回归模型,进入步骤S25;
步骤S25:得到训练后的数据分级多层感知机回归模型
其中S22数据分级多层感知机回归模型每一层神经网络定义为:
Figure QLYQS_9
Figure QLYQS_10
为激活函数,L为神经网络层数,n(l)为第l层神经元个数,Oi (l)表示第l层第i个神经网络的输出,wj,i (l)、w0,i (l)分别为神经元对应的权重参数、偏置参数。
9.如权利要求1所述的智能分类分级***,其特征在于,所述数据分级分类预测模块,包含步骤S26,其中,
步骤S26:以S24数据分类神经网络模型输出属性类别的最多次数为最终判别属性类别;在属性安全等级判断中以S25数据分级多层感知机回归模型输出属性安全等级的最多次数为最终判别属性安全等级,输出结果,程序结束;
将步骤S13中归一化实例统计特征和经过S18自编码特征提取器生成的向量化实例分别输入S24数据分类神经网络模型完成实例的属性类别判断,输入S25数据分级多层感知机回归模型完成实例的属性安全等级判断;
在属性类别判断中以S24数据分类神经网络模型输出属性类别的最多次数为最终判别属性类别;
在属性安全等级判断中以S25数据分级多层感知机回归模型输出属性安全等级的最多次数为最终判别属性安全等级。
CN202310215953.9A 2023-03-08 2023-03-08 一种深度神经网络模型的结构化数据智能分类分级*** Pending CN116257759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310215953.9A CN116257759A (zh) 2023-03-08 2023-03-08 一种深度神经网络模型的结构化数据智能分类分级***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310215953.9A CN116257759A (zh) 2023-03-08 2023-03-08 一种深度神经网络模型的结构化数据智能分类分级***

Publications (1)

Publication Number Publication Date
CN116257759A true CN116257759A (zh) 2023-06-13

Family

ID=86687723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310215953.9A Pending CN116257759A (zh) 2023-03-08 2023-03-08 一种深度神经网络模型的结构化数据智能分类分级***

Country Status (1)

Country Link
CN (1) CN116257759A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195253A (zh) * 2023-08-24 2023-12-08 南京证券股份有限公司 一种个人信息安全保护方法和***
CN117539948A (zh) * 2024-01-10 2024-02-09 西安羚控电子科技有限公司 基于深度神经网络的业务数据检索方法及装置
CN117633605A (zh) * 2024-01-25 2024-03-01 浙江鹏信信息科技股份有限公司 数据安全分类分级能力成熟度评估方法、***及可读介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195253A (zh) * 2023-08-24 2023-12-08 南京证券股份有限公司 一种个人信息安全保护方法和***
CN117539948A (zh) * 2024-01-10 2024-02-09 西安羚控电子科技有限公司 基于深度神经网络的业务数据检索方法及装置
CN117539948B (zh) * 2024-01-10 2024-04-05 西安羚控电子科技有限公司 基于深度神经网络的业务数据检索方法及装置
CN117633605A (zh) * 2024-01-25 2024-03-01 浙江鹏信信息科技股份有限公司 数据安全分类分级能力成熟度评估方法、***及可读介质
CN117633605B (zh) * 2024-01-25 2024-04-12 浙江鹏信信息科技股份有限公司 数据安全分类分级能力成熟度评估方法、***及可读介质

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN110889556B (zh) 一种企业经营风险特征数据信息提取方法和提取***
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN113779272B (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN116257759A (zh) 一种深度神经网络模型的结构化数据智能分类分级***
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及***
CN116610816A (zh) 一种基于图卷积神经网络的人员画像知识图谱分析方法及***
Xu et al. Data-driven causal knowledge graph construction for root cause analysis in quality problem solving
CN114331122A (zh) 重点人员风险等级评估方法及相关设备
Ciaburro et al. Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets
CN116842194A (zh) 一种电力语义知识图谱***及方法
CN116610818A (zh) 一种输变电工程项目知识库的构建方法及***
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN114662652A (zh) 一种基于多模态信息学习的专家推荐方法
Du et al. Image recommendation algorithm combined with deep neural network designed for social networks
Sarang Thinking Data Science: A Data Science Practitioner’s Guide
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及***
CN117371481A (zh) 一种基于元学习的神经网络模型检索方法
CN117474507A (zh) 一种基于大数据应用技术的智能招聘匹配方法及***
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
CN115391548A (zh) 基于场景图和概念网相结合的检索知识图谱库生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination