CN110909224B - 一种基于人工智能的敏感数据自动分类识别方法及*** - Google Patents
一种基于人工智能的敏感数据自动分类识别方法及*** Download PDFInfo
- Publication number
- CN110909224B CN110909224B CN201911155467.2A CN201911155467A CN110909224B CN 110909224 B CN110909224 B CN 110909224B CN 201911155467 A CN201911155467 A CN 201911155467A CN 110909224 B CN110909224 B CN 110909224B
- Authority
- CN
- China
- Prior art keywords
- data
- sensitive data
- sensitive
- module
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000012360 testing method Methods 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000013145 classification model Methods 0.000 claims abstract description 27
- 238000003066 decision tree Methods 0.000 claims description 20
- 230000002457 bidirectional effect Effects 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 230000035945 sensitivity Effects 0.000 claims description 7
- 238000000556 factor analysis Methods 0.000 claims description 4
- 244000141353 Prunus domestica Species 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000012423 maintenance Methods 0.000 abstract description 6
- 238000011161 development Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000000586 desensitisation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于人工智能的敏感数据自动分类识别方法及***,涉及数据安全技术领域,其中一种基于人工智能的敏感数据自动分类识别方法,包括以下步骤:S1:获取数据训练集;S2:分类建立敏感数据集;S3:对具体敏感数据进行识别;S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。本发明一种基于人工智能的敏感数据自动分类识别方法及***将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升。
Description
技术领域
本发明涉及数据安全技术领域,
尤其是,本发明涉及一种基于人工智能的敏感数据自动分类识别方法及***。
背景技术
随着大数据时代的到来,数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息与关键性敏感数据保护方面的困难。如何在实现数据高效共享的同时,保护敏感信息不被泄露,已成为数据安全智能开发的关键环节。首先就是如何识别敏感数据,敏感数据的定义是什么,有哪些依赖,应用程序是十分复杂并且完整的。知道敏感信息在哪,并且知道哪些数据参考了这些敏感数据是非常困难的。现有两种方式来识别敏感数据。第一种是通过人工指定,比如通过正则来指定敏感数据的格式;第二种方式就是自动识别。比如基于数据特征学习和自然语言处理等技术进行敏感数据识别的自动识别方案。敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容,在这一过程中明确,用于脱敏策略制定的依据。
当前国内外数据安全解决方案提供商的研究主要集中在以下两点:一是敏感数据智能准确识别技术;二是数据脱敏算法与规则的优化。目前国内外还没有能提供成熟完善的敏感数据智能准确分类和识别的解决方案。随着人工智能技术的不断发展,同样需要顺应信息化到智能化发展的需要,开展各种智能识别、数据安全智能技术的研发工作。
所以,如何设计一种基于人工智能的敏感数据自动分类识别方法或者***,成为我们当前急需要解决的问题。
发明内容
本发明的目的在于提供一种简单实用,将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升的基于人工智能的敏感数据自动分类识别方法。
为达到上述目的,本发明采用如下技术方案得以实现的:
一种基于人工智能的敏感数据自动分类识别方法,该方法包括以下步骤:
S1:获取数据训练集;
S2:使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集;
S3:使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别;
S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
作为本发明的优选,执行步骤S1具体包括:
S11:获取相关企业及政府部分的各类数据;
S12:清洗所有数据,获得所需数据;
S13:将所需数据整理为训练数据集。
作为本发明的优选,执行步骤S2具体包括:
S21:设置分类学习模型结构为两种模型,包含决策树和支持向量机模型:
决策树模型,根据训练数据集,从根结点开始,根据基尼指数最小的特征,递归地对每个结点进行CART决策树生成算法操作,构建二叉决策树,对决策树进行剪枝,得到用于分类的最优子树;
S22:界定安全标,包括:***运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
S23:安全子目标分解,达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息***中的数据项对应的安全子标;
S24:影响因素分析,针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息***中的数据项,即数据项集合。同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
S25:敏感数据分类确认,对多个安全子目标的影响因素分解结果对应的***数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
作为本发明的优选,执行步骤S3具体包括:
S31:设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
S32:读取步骤S25获得的敏感数据所属的种类,使用识别学习模型分析内部结构;
S33:向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
作为本发明的优选,执行步骤S4具体包括:
S41:将所述测试数据进行预处理,生成能够用于训练的数据;
S42:将所述测试数据输入分类学习模型,确定敏感数据及其分类;
S43:将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
S44:输出测试数据的特征识别结果。
另一方面,本发明中另外还提供一种基于人工智能的敏感数据自动分类识别***,该***包括:
训练数据生成模块,用于获取需要分类和识别的数据,并整理为训练数据和测试数据;
数据分类模型训练模块,通过训练数据的训练得到能够对敏感数据进行分类的分类器;
数据识别模型训练模块,通过训练数据的训练得到能够对敏感数据进行识别的识别器;
敏感数据自动分类和识别模块,用于输入测试数据至分类器和识别器中,输出识别好的敏感数据;
训练数据生成模块获取数据训练集,数据分类模型训练模块使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集,数据识别模型训练模块使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别,敏感数据自动分类和识别模块获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
作为本发明的优选,本发明一种基于人工智能的敏感数据自动分类识别***中,训练数据生成模块包括:
数据获取模块,用于获取相关企业及政府部分的各类数据;
数据清洗模块,用于清洗所有数据,获得所需数据;
数据整理模块,用于将所需数据整理为训练数据集。
作为本发明的优选,本发明一种基于人工智能的敏感数据自动分类识别***中,数据分类模型训练模块包括:
分类模型预设模块,用于设置分类学习模型结构,包含决策树和支持向量机模型;
安全标界定模块,用于界定安全标包括:***运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
安全子目标分解模块,用于达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息***中的数据项对应的安全子标;
影响因素分析模块,用于针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息***中的数据项,即数据项集合。同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
敏感数据分类确认模块,用于对多个安全子目标的影响因素分解结果对应的***数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
作为本发明的优选,本发明一种基于人工智能的敏感数据自动分类识别***中,数据识别模型训练模块包括:
识别模型预设模块,用于设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
结构分析模块,用于根据敏感数据分类确认模块获得敏感数据所属的种类,使用识别学习模型分析内部结构;
敏感数据识别确认模块,用于向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
作为本发明的优选,本发明一种基于人工智能的敏感数据自动分类识别***中,敏感数据自动分类和识别模块包括:
测试数据预处理模块,用于将所述测试数据进行预处理,生成能够用于训练的数据;
测试数据分类模块,用于将所述测试数据输入分类学习模型,确定敏感数据及其分类;
测试敏感数据识别模块,将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
测试数据结果输出模块,用于输出测试数据的特征识别结果。
本发明一种基于人工智能的敏感数据自动分类识别方法及***有益效果在于:简单实用,将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升,且解决了现有技术存在的实际运用中需要专业人员对正则识别规则维护,敏感数据识别率差的技术问题。
附图说明
图1为本发明一种基于人工智能的敏感数据自动分类识别方法的流程示意图;
图2为本发明一种基于人工智能的敏感数据自动分类识别方法的整体网络架构示意图;
图3为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S1的具体流程示意图;
图4为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S2的具体流程示意图;
图5为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S3的具体流程示意图;
图6为本发明一种基于人工智能的敏感数据自动分类识别方法中步骤S4的具体流程示意图;
图7为本发明一种基于人工智能的敏感数据自动分类识别***的模块连接示意图。
具体实施方式
以下是本发明的具体实施例,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的模块和步骤的相对布置和步骤不限制本发明的范围。
同时,应当明白,为了便于描述,附图中的流程并不仅仅是单独进行,而是多个步骤相互交叉进行。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法及***可能不作详细讨论,但在适当情况下,技术、方法及***应当被视为授权说明书的一部分。
实施例一
如图1至6所示,仅为本发明的其中一个实施例,本发明提供一种基于人工智能的敏感数据自动分类识别方法,
参阅图1和图2,本方法通过人工智能的思想,对相关企业和政府地敏感数据进行分类学习,并对其分类,分类好的数据进行识别学习,得到识别后地敏感数据,本方法包括以下步骤:
S1:获取数据训练集;
合法合规的获取相关企业及政府部分的各类数据,对这部分数据进行清洗,获得模型训练需要的数据,并将所需数据整理为训练数据集
S2:使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集;
首先设置分类学习模型结构为两种模型,包含决策树和支持向量机模型。得到分类模型后,人为的界定安全标,然后对安全子目标进行分解,再进行影响因素分析,最后对敏感数据分类确认。
S3:使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别;
设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,获得敏感数据所属的种类以及内部结构,向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
如图3所示,执行步骤S1具体包括:
S11:获取相关企业及政府部分的各类数据;在这里应当合法合规的获取相关企业及政府部分的各类数据;
S12:清洗所有数据,获得所需数据;清洗数据为获取的所有相关企业及政府部分的各类数据,取出有价值的数据信息,获得模型训练需要的数据。;
S13:将所需数据整理为训练数据集。
如图4所示,执行步骤S2具体包括:
S21:设置分类学习模型结构,为两种模型,包含决策树和支持向量机模型:
其中决策树模型,根据训练数据集,从根结点开始,根据基尼指数最小的特征,递归地对每个结点进行CART决策树生成算法操作,构建二叉决策树,对决策树进行剪枝,得到用于分类的最优子树;
S22:人为的界定安全标,包括:***运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
S23:对安全子目标进行分解,达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息***中的数据项对应的安全子标,如个人信息安全,可以分解为:用户姓名、家庭住址、身份证号和手机号等;
S24:影响因素分析,针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息***中的数据项,即数据项集合。同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项,在这里影响目标越多的数据项敏感性越高;
S25:敏感数据分类确认,对多个安全子目标的影响因素分解结果对应的***数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
如图5所示,执行步骤S3具体包括:
S31:设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,依靠神经网络超强的非线性拟合能力,在训练时将样本通过高维空间中的复杂非线性变换,学习到从样本到标注的函数,之后使用这个函数为指定的样本预测每个token的标注,CRF通过引入自定义的特征函数,不仅可以表达观测之间的依赖,还可表示当前观测与前后多个状态之间的复杂依赖;
其中Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出,具体表达如下:
S32:读取步骤S25获得的敏感数据所属的种类,使用识别学习模型分析内部结构,通过学习到内部结构特征对敏感数据进行识别;
S33:向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
如图6所示,执行步骤S4具体包括:
S41:将所述测试数据进行预处理,生成能够用于训练的数据;
S42:将所述测试数据输入分类学习模型,确定敏感数据及其分类;
S43:将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
S44:输出测试数据的特征识别结果。
本发明一种基于人工智能的敏感数据自动分类识别方法简单实用,将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升。
实施例三
如图7所示,本发明还提供一种基于人工智能的敏感数据自动分类识别***,该***包括:
训练数据生成模块,用于获取需要分类和识别的数据,并整理为训练数据和测试数据;
数据分类模型训练模块,通过训练数据的训练得到能够对敏感数据进行分类的分类器;
数据识别模型训练模块,通过训练数据的训练得到能够对敏感数据进行识别的识别器;
敏感数据自动分类和识别模块,用于输入测试数据至分类器和识别器中,输出识别好的敏感数据;
训练数据生成模块获取数据训练集,数据分类模型训练模块使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集,数据识别模型训练模块使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别,敏感数据自动分类和识别模块获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
在本发明一种基于人工智能的敏感数据自动分类识别***中,训练数据生成模块包括:
数据获取模块,用于获取相关企业及政府部分的各类数据;
数据清洗模块,用于清洗所有数据,获得所需数据;
数据整理模块,用于将所需数据整理为训练数据集。
在这里,数据获取模块、数据清洗模块和数据整理模块依次相连。
在本发明一种基于人工智能的敏感数据自动分类识别***中,数据分类模型训练模块包括:
分类模型预设模块,用于设置分类学习模型结构,包含决策树和支持向量机模型;
决策树和支持向量机模型这两模型同时接受输入的训练输出,同时输出分类结果,根据一个联合决策规则,输出最终的分类结果。
安全标界定模块,用于界定安全标包括:***运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
安全子目标分解模块,用于达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息***中的数据项对应的安全子标;
影响因素分析模块,用于针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息***中的数据项,即数据项集合。同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
敏感数据分类确认模块,用于对多个安全子目标的影响因素分解结果对应的***数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
同样的,分类模型预设模块、安全标界定模块、安全子目标分解模块、影响因素分析模块和敏感数据分类确认模块依次相连。
在本发明一种基于人工智能的敏感数据自动分类识别***中,数据识别模型训练模块包括:
识别模型预设模块,用于设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,训练CRF模型对参数w估计,通过极大似然得到最优的w参数估计,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
结构分析模块,用于根据敏感数据分类确认模块获得敏感数据所属的种类,使用识别学习模型分析内部结构;
敏感数据识别确认模块,用于向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
当然的,识别模型预设模块、结构分析模块和敏感数据识别确认模块依次相连。
在本发明一种基于人工智能的敏感数据自动分类识别***中,敏感数据自动分类和识别模块包括:
测试数据预处理模块,用于将所述测试数据进行预处理,生成能够用于训练的数据;
测试数据分类模块,用于将所述测试数据输入分类学习模型,确定敏感数据及其分类;
测试敏感数据识别模块,将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
测试数据结果输出模块,用于输出测试数据的特征识别结果。
显而易见的,测试数据预处理模块、测试数据分类模块、测试敏感数据识别模块和测试数据结果输出模块依次相连。
本发明一种基于人工智能的敏感数据自动分类识别方法及***简单实用,将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围,本发明所属技术领域的技术人员可以对所描述的具体实施例来做出各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的方向或者超越所附权利要求书所定义的范围。本领域的技术人员应该理解,凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。
Claims (8)
1.一种基于人工智能的敏感数据自动分类识别方法,其特征在于,包括以下步骤:
S1:获取数据训练集;
S2:使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集;
S3:使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别;
S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果;
执行步骤S2具体包括:
S21:设置分类学习模型结构为两种模型,包含决策树和支持向量机模型:
决策树模型,根据训练数据集,从根结点开始,根据基尼指数最小的特征,递归地对每个结点进行CART决策树生成算法操作,构建二叉决策树,对决策树进行剪枝,得到用于分类的最优子树;
支持向量机模型,对有N个数据的训练数据集,选取适当的核函数K(x,z)和适当的参数C,构造并求解最优化问题:
0≤αi≤C,i=1,2,...,N
S22:界定安全标,包括:***运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
S23:安全子目标分解,达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息***中的数据项对应的安全子标;
S24:影响因素分析,针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息***中的数据项,即数据项集合,同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
S25:敏感数据分类确认,对多个安全子目标的影响因素分解结果对应的***数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
2.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:
执行步骤S1具体包括:
S11:获取相关企业及政府部门的各类数据;
S12:清洗所有数据,获得所需数据;
S13:将所需数据整理为训练数据集。
3.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:执行步骤S3具体包括:
S31:设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
S32:读取步骤S25获得的敏感数据所属的种类,使用识别学习模型分析内部结构;
S33:向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
4.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:执行步骤S4具体包括:
S41:将所述测试数据进行预处理,生成能够用于训练的数据;
S42:将所述测试数据输入分类学习模型,确定敏感数据及其分类;
S43:将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
S44:输出测试数据的特征识别结果。
5.一种基于人工智能的敏感数据自动分类识别***,其特征在于,包括:
训练数据生成模块,用于获取需要分类和识别的数据,并整理为训练数据和测试数据;
数据分类模型训练模块,通过训练数据的训练得到能够对敏感数据进行分类的分类器;
数据识别模型训练模块,通过训练数据的训练得到能够对敏感数据进行识别的识别器;
敏感数据自动分类和识别模块,用于输入测试数据至分类器和识别器中,输出识别好的敏感数据;
训练数据生成模块获取数据训练集,数据分类模型训练模块使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集,数据识别模型训练模块使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别,敏感数据自动分类和识别模块获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果;
其中数据分类模型训练模块包括:
分类模型预设模块,用于设置分类学习模型结构,包含决策树和支持向量机模型;
安全标界定模块,用于界定安全标包括:***运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
安全子目标分解模块,用于达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息***中的数据项对应的安全子标;
影响因素分析模块,用于针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息***中的数据项,即数据项集合,同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
敏感数据分类确认模块,用于对多个安全子目标的影响因素分解结果对应的***数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
6.根据权利要求5所述的一种基于人工智能的敏感数据自动分类识别***,其特征在于:训练数据生成模块包括:
数据获取模块,用于获取相关企业及政府部门 的各类数据;
数据清洗模块,用于清洗所有数据,获得所需数据;
数据整理模块,用于将所需数据整理为训练数据集。
7.根据权利要求5所述的一种基于人工智能的敏感数据自动分类识别***,其特征在于:数据识别模型训练模块包括:
识别模型预设模块,用于设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
结构分析模块,用于根据敏感数据分类确认模块获得敏感数据所属的种类,使用识别学习模型分析内部结构;
敏感数据识别确认模块,用于向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
8.根据权利要求5所述的一种基于人工智能的敏感数据自动分类识别***,其特征在于:敏感数据自动分类和识别模块包括:
测试数据预处理模块,用于将所述测试数据进行预处理,生成能够用于训练的数据;
测试数据分类模块,用于将所述测试数据输入分类学习模型,确定敏感数据及其分类;
测试敏感数据识别模块,将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
测试数据结果输出模块,用于输出测试数据的特征识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911155467.2A CN110909224B (zh) | 2019-11-22 | 2019-11-22 | 一种基于人工智能的敏感数据自动分类识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911155467.2A CN110909224B (zh) | 2019-11-22 | 2019-11-22 | 一种基于人工智能的敏感数据自动分类识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909224A CN110909224A (zh) | 2020-03-24 |
CN110909224B true CN110909224B (zh) | 2022-06-10 |
Family
ID=69818810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911155467.2A Active CN110909224B (zh) | 2019-11-22 | 2019-11-22 | 一种基于人工智能的敏感数据自动分类识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909224B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860767B (zh) * | 2020-06-08 | 2023-07-25 | 华南师范大学 | 善恶分明的人工智能伦理规则实现方法、***和机器人 |
CN111860580B (zh) * | 2020-06-09 | 2024-02-20 | 北京百度网讯科技有限公司 | 识别模型获取及类别识别方法、装置及存储介质 |
CN112507376B (zh) * | 2020-12-01 | 2024-01-05 | 浙商银行股份有限公司 | 一种基于机器学习的敏感数据检测方法及装置 |
CN113569293B (zh) * | 2021-08-12 | 2024-06-07 | 明品云(北京)数据科技有限公司 | 一种相似用户的获取方法、***、电子设备及介质 |
CN113743542B (zh) * | 2021-11-05 | 2022-03-01 | 北京广通优云科技股份有限公司 | 一种基于加密流量的网络资产识别方法与*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及*** |
CN101359372A (zh) * | 2008-09-26 | 2009-02-04 | 腾讯科技(深圳)有限公司 | 分类器的训练方法及装置、识别敏感图片的方法及装置 |
CN101470897A (zh) * | 2007-12-26 | 2009-07-01 | 中国科学院自动化研究所 | 基于音视频融合策略的敏感影片检测方法 |
CN107491541A (zh) * | 2017-08-24 | 2017-12-19 | 北京丁牛科技有限公司 | 文本分类方法及装置 |
CN108319666A (zh) * | 2018-01-19 | 2018-07-24 | 国网浙江省电力有限公司电力科学研究院 | 一种基于多模态舆情分析的供电服务评估方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095911B (zh) * | 2015-07-31 | 2019-02-12 | 小米科技有限责任公司 | 敏感图片识别方法、装置以及服务器 |
US20190354718A1 (en) * | 2018-05-16 | 2019-11-21 | Microsoft Technology Licensing, Llc. | Identification of sensitive data using machine learning |
-
2019
- 2019-11-22 CN CN201911155467.2A patent/CN110909224B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及*** |
CN101470897A (zh) * | 2007-12-26 | 2009-07-01 | 中国科学院自动化研究所 | 基于音视频融合策略的敏感影片检测方法 |
CN101359372A (zh) * | 2008-09-26 | 2009-02-04 | 腾讯科技(深圳)有限公司 | 分类器的训练方法及装置、识别敏感图片的方法及装置 |
CN107491541A (zh) * | 2017-08-24 | 2017-12-19 | 北京丁牛科技有限公司 | 文本分类方法及装置 |
CN108319666A (zh) * | 2018-01-19 | 2018-07-24 | 国网浙江省电力有限公司电力科学研究院 | 一种基于多模态舆情分析的供电服务评估方法 |
Non-Patent Citations (1)
Title |
---|
"采用运动传感器的人体运动识别深度模型";滕千礼等;《西安交通大学学报》;20180830;60-66 * |
Also Published As
Publication number | Publication date |
---|---|
CN110909224A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909224B (zh) | 一种基于人工智能的敏感数据自动分类识别方法及*** | |
CN107944874B (zh) | 基于迁移学习的风控方法、装置及*** | |
CN107835496B (zh) | 一种垃圾短信的识别方法、装置和服务器 | |
CN109492026B (zh) | 一种基于改进的主动学习技术的电信欺诈分类检测方法 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及*** | |
CN110348214B (zh) | 对恶意代码检测的方法及*** | |
CN110351301B (zh) | 一种http请求双层递进式异常检测方法 | |
CN107590224B (zh) | 基于大数据的用户偏好分析方法与装置 | |
CN109871954B (zh) | 训练样本生成方法、异常检测方法及装置 | |
CN108229588B (zh) | 一种基于深度学习的机器学习识别方法 | |
CN112307472A (zh) | 基于智能决策的异常用户识别方法、装置及计算机设备 | |
CN111737493A (zh) | 基于决策树的异常数据源输出方法、装置和计算机设备 | |
CN109344258A (zh) | 一种智能化自适应敏感数据识别***及方法 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
WO2019242442A1 (zh) | 基于多模型特征的恶意软件识别方法、***及相关装置 | |
CN113254649B (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN110675269A (zh) | 文本审核方法以及装置 | |
CN110276587A (zh) | 项目审批的方法、装置、计算设备及计算机可读存储介质 | |
CN111582315B (zh) | 样本数据处理方法、装置及电子设备 | |
CN110009045A (zh) | 物联网终端的识别方法和装置 | |
CN113742763A (zh) | 一种基于政务敏感数据混淆加密方法及*** | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN113283222A (zh) | 自动化报表生成方法、装置、计算机设备及存储介质 | |
CN113283232A (zh) | 自动解析文本中隐私信息的方法和装置 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |