CN106295400A - 蒙版式数据脱敏方法及相关设备 - Google Patents
蒙版式数据脱敏方法及相关设备 Download PDFInfo
- Publication number
- CN106295400A CN106295400A CN201610632177.2A CN201610632177A CN106295400A CN 106295400 A CN106295400 A CN 106295400A CN 201610632177 A CN201610632177 A CN 201610632177A CN 106295400 A CN106295400 A CN 106295400A
- Authority
- CN
- China
- Prior art keywords
- data
- desensitization
- sensitive field
- masking
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种数据库技术,具体说是一种蒙版式数据脱敏方法及相关设备。包括建立敏感字段生成规则库、定位敏感字段、生成脱敏数据蒙版、调用脱敏数据等步骤。可以实现大批量、高仿真的数据脱敏处理,用于优化处理进程、提高数据处理效率和仿真度,在大数据处理和利用的同时实现敏感隐私数据的可靠保护。
Description
技术领域
本发明涉及一种数据库技术,具体说是一种蒙版式数据脱敏方法及相关设备。
背景技术
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的数据。[在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反***规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、***、客户号等个人信息都需要进行数据脱敏。中国专利2013107503350公开了一种《数据脱敏和反脱敏方法及相关设备》,其步骤包括检测对移动终端的数据写操作、对要写入移动终端的数据执行脱敏操作、对脱敏后的数据进行验证、如果脱敏后的数据符合预定义的要求则将脱敏后的数据写入到移动终端中。该方法仅适合在移动终端处理少量数据的情况,并且由于其采用数据变换的方法替换原始数据,变换后的数据不符合原有数据的生成规则,其仿真性不高,容易被设备误认出错,无法进行二次识别。例如,对于身份证号码,采用该方法脱敏后的数据完全丧失了身份证号码的特征,此时如果需要对脱敏后的数据进行二次处理,则设备无法识别此处是身份证号码。
发明内容
本发明的目的是提供一种大批量、高仿真的蒙版式数据脱敏方法及相关设备,用于优化处理进程、提高数据处理效率和仿真度,在大数据处理和利用的同时实现敏感隐私数据的可靠保护。
本发明所述蒙版式数据脱敏方法,包括如下步骤:
A)建立敏感字段生成规则库;制定敏感字段生成的规则,将该规则存入敏感字段生成规则库;
B)定位敏感字段;读取原始数据中的信息,识别并定位其中的敏感字段;所述原始数据中的信息包括数据本身以及数据结构信息;所述定位敏感字段是指获取并记录敏感字段在数据结构中的位置信息;
C)生成脱敏数据蒙版;获取敏感字段在数据结构中的位置信息,调取敏感字段生成规则库,利用该库中对应的敏感字段生成规则生成不同于敏感字段的新生字段,将新生字段与敏感字段在数据结构中的位置信息关联,直到原始数据中的全部敏感字段均通过敏感字段生成规则库生成新生字段,并且该新生字段均与敏感字段在数据结构中的位置信息关联,最终获得包含全部新生字段及其关联的位置信息的脱敏数据蒙版;
D)脱敏数据的调用;读取原始数据的同时,以脱敏数据蒙版为过滤条件,向输出端输出过滤后的脱敏数据。
所述原始数据是数据库、文件、数据仓库中的一种或者多种。
在步骤D)所述以脱敏数据蒙版为条件的过滤是保留原始数据中非敏感字段部分,同时采用脱敏数据蒙版中的新生字段替换具有相同位置信息的脱敏字段,向输出端输出脱敏数据。
在步骤B),采用正则表达式或者java规则算法识别并定位敏感字段。
在步骤B)和步骤C)均建立工作日志,用于记录实时工作状态和工作进度;工作条件不具备的情况下,中止定位敏感字段或者生成脱敏数据蒙版的进程,同时将包括中止时间、中止位置信息的断点信息记载在工作日志中,恢复进程时首先调取工作日志,读取其中的断点信息,从中止前的断点处继续进行。
在步骤B)和步骤C)均采用多线程并行处理方式。
蒙版式数据脱敏相关设备,包括:
源数据存储器,用于存储原始数据;
敏感字段生成规则库,用于存储敏感字段生成的规则,并在敏感字段生成的规则与敏感字段的类型之间建立映射关系;
脱敏数据蒙版存储器,用于存储脱敏后的脱敏数据蒙版;
脱敏处理器,用于读取原始数据中的信息,识别并定位其中的敏感字段以及进行脱敏处理。
所述原始数据是数据库、文件、数据仓库中的一种或者多种;所述脱敏数据是数据库、文件、数据仓库中的一种或者多种。
由于采用上述技术方案,本发明可以实现大批量、高仿真的数据脱敏处理,用于优化处理进程、提高数据处理效率和仿真度,在大数据处理和利用的同时实现敏感隐私数据的可靠保护。
具体实施方式
本发明所述蒙版式数据脱敏方法包括如下步骤:
A)建立敏感字段生成规则库;制定敏感字段生成的规则,将该规则存入敏感字段生成规则库;该敏感字段生成的规则可以完全等同原始数据中敏感字段的生成规则,如身份证号的生成规则、日期的生成规则、公司名称的生成规则等等,这样可以实现完全的高仿真,使人无法直接通过新生字段本身识别其真伪,能够通过身份证识别器等各种外部设备的识别;另外,也可以在原始数据中敏感字段的生成规则基础上增加区别特征,例如在身份证号的生成规则的基础上,规定:生成后的号码中的某一位数字变换为特殊符号,或者在生成后的身份证号的基础上增加一位识别码。这样做的好处是:生成的新生字段保留了原始数据中的敏感字段的全部生成规则,仍然可以通过技术手段通过其他设备的识别,同时可以通过识别码判断真伪。例如,对于身份证号,如果识别设备检测除识别码以外的其他号码均符合原有身份证号码的生成规则,则可以将其识别为新生字段。其他设备对脱敏后的数据进行二次处理的时候仍然可以将新生字段识别为身份证号,不会造成识别错误。
B)定位敏感字段;定位敏感字段;读取原始数据中的信息,识别并定位其中的敏感字段;所述原始数据中的信息包括数据本身以及数据结构信息;所述定位敏感字段是指获取并记录敏感字段在数据结构中的位置信息;识别方法可以采用正则表达式或者java规则算法,也可以将两者结合使用,例如,对于出生日期、身份证号等数字型敏感字段采用正则表达式的识别方法,对姓名、地址等文字型敏感字段采用java规则算法。针对用户名、网名等复杂的敏感字段,既有数据也有文字、甚至包含特殊字符,可以先后采用正则表达式和java规则算法两种识别手段综合判断,以提高识别准确率。
C)生成脱敏数据蒙版;获取敏感字段在数据结构中的位置信息,调取敏感字段生成规则库,利用该库中对应的敏感字段生成规则生成不同于敏感字段的新生字段,例如,对于身份证号,可以利用身份证号生成器形成一个新的身份证号作为新生字段;对于公司名称,可以利用工商行政管理部门的名称核准的规则生成一个新的公司名称作为新生字段;将新生字段与敏感字段在数据结构中的位置信息关联,直到原始数据中的全部敏感字段均通过敏感字段生成规则库生成新生字段,并且该新生字段均与敏感字段在数据结构中的位置信息关联,最终获得包含全部新生字段及其关联的位置信息的脱敏数据蒙版。该脱敏数据蒙版相当于建立了一个只有新生字段和位置关系的透明蒙版,将蒙版覆盖在原始数据上的时候,底层的非敏感数据可以透过蒙版清晰显示,而敏感数据则被具有相同位置信息的新生字段替代;脱敏数据蒙版不包括大量的非敏感数据,因此其数据量大为减小,不仅减小了数据存储空间,还可以减轻调取脱敏数据过程中处理器的负担。
D)脱敏数据的调用;读取原始数据的同时,以脱敏数据蒙版为过滤条件,向输出端输出过滤后的脱敏数据。该步骤是保留原始数据中非敏感字段部分,同时采用脱敏数据蒙版中的新生字段替换具有相同位置信息的脱敏字段,向输出端输出脱敏数据。
所述原始数据是数据库、文件、数据仓库中的一种或者多种。相应地,上述敏感字段的位置信息不仅包括其在数据结构中的位置信息,还包括其所处的数据库、文件、数据仓库的题录信息。
作为本发明的另一实施例,在上述步骤B)和步骤C)均采用多线程并行处理方式,并建立工作日志,用于记录实时工作状态和工作进度;工作条件不具备的情况下,中止定位敏感字段或者生成脱敏数据的进程,同时将包括中止时间、中止位置信息的断点信息记载在工作日志中,恢复进程时首先调取工作日志,读取其中的断点信息,从中止前的断点处继续进行。
用于上述蒙版式数据脱敏方法的相关设备,包括:
源数据存储器,用于存储原始数据;
敏感字段生成规则库,用于存储敏感字段生成的规则,并在敏感字段生成的规则与敏感字段的类型之间建立映射关系;例如,敏感字段生成规则库中包含有身份证号生成规则、中国人名生成规则、外国人名生成规则、日期生成规则、国名生成规则、信用***生成规则、电话号码生成规则、地址生成规则等等,上述这些生成规则分别与身份证号敏感字段、中国人名敏感字段、外国人名敏感字段、日期敏感字段、国名敏感字段、信用***敏感字段、电话号码敏感字段、地址敏感字段建立映射关系。需要生成哪种类型的新生字段就调用哪个生成规则。
脱敏数据蒙版存储器,用于存储脱敏后的脱敏数据蒙版;
脱敏处理器,用于读取原始数据中的信息,识别并定位其中的敏感字段以及进行脱敏处理。
所述原始数据是数据库、文件、数据仓库中的一种或者多种。
Claims (9)
1.蒙版式数据脱敏方法,其特征在于包括如下步骤:
A)建立敏感字段生成规则库;制定敏感字段生成的规则,将该规则存入敏感字段生成规则库;
B)定位敏感字段;读取原始数据中的信息,识别并定位其中的敏感字段;所述原始数据中的信息包括数据本身以及数据结构信息;所述定位敏感字段是指获取并记录敏感字段在数据结构中的位置信息;
C)生成脱敏数据蒙版;获取敏感字段在数据结构中的位置信息,调取敏感字段生成规则库,利用该库中对应的敏感字段生成规则生成不同于敏感字段的新生字段,将新生字段与敏感字段在数据结构中的位置信息关联,直到原始数据中的全部敏感字段均通过敏感字段生成规则库生成新生字段,并且该新生字段均与敏感字段在数据结构中的位置信息关联,最终获得包含全部新生字段及其关联的位置信息的脱敏数据蒙版;
D)脱敏数据的调用;读取原始数据的同时,以脱敏数据蒙版为过滤条件,向输出端输出过滤后的脱敏数据。
2.根据权利要求1所述的蒙版式数据脱敏方法,其特征在于:所述原始数据是数据库、文件、数据仓库中的一种或者多种。
3.根据权利要求1所述的蒙版式数据脱敏方法,其特征在于:在步骤D)所述以脱敏数据蒙版为条件的过滤是保留原始数据中非敏感字段部分,同时采用脱敏数据蒙版中的新生字段替换具有相同位置信息的脱敏字段,向输出端输出脱敏数据。
4.根据权利要求1或2或3所述的蒙版式数据脱敏方法,其特征在于:在步骤B),采用正则表达式或者java规则算法识别并定位敏感字段。
5.根据权利要求1或2或3所述的蒙版式数据脱敏方法,其特征在于:在步骤B)和步骤C)均建立工作日志,用于记录实时工作状态和工作进度;工作条件不具备的情况下,中止定位敏感字段或者生成脱敏数据蒙版的进程,同时将包括中止时间、中止位置信息的断点信息记载在工作日志中,恢复进程时首先调取工作日志,读取其中的断点信息,从中止前的断点处继续进行。
6.根据权利要求4所述的蒙版式数据脱敏方法,其特征在于:在步骤B)和步骤C)均建立工作日志,用于记录实时工作状态和工作进度;工作条件不具备的情况下,中止定位敏感字段或者生成脱敏数据的进程,同时将包括中止时间、中止位置信息的断点信息记载在工作日志中,恢复进程时首先调取工作日志,读取其中的断点信息,从中止前的断点处继续进行。
7.根据权利要求1或2或3所述的蒙版式数据脱敏方法,其特征在于:在步骤B)和步骤C)均采用多线程并行处理方式。
8.蒙版式数据脱敏相关设备,其特征在于包括:
源数据存储器,用于存储原始数据;
敏感字段生成规则库,用于存储敏感字段生成的规则,并在敏感字段生成的规则与敏感字段的类型之间建立映射关系;
脱敏数据蒙版存储器,用于存储脱敏后的脱敏数据蒙版;
脱敏处理器,用于读取原始数据中的信息,识别并定位其中的敏感字段以及进行脱敏处理。
9.根据权利要求8所述的蒙版式数据脱敏相关设备,其特征在于:所述原始数据是数据库、文件、数据仓库中的一种或者多种;所述脱敏数据是数据库、文件、数据仓库中的一种或者多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610632177.2A CN106295400A (zh) | 2016-08-04 | 2016-08-04 | 蒙版式数据脱敏方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610632177.2A CN106295400A (zh) | 2016-08-04 | 2016-08-04 | 蒙版式数据脱敏方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106295400A true CN106295400A (zh) | 2017-01-04 |
Family
ID=57665117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610632177.2A Pending CN106295400A (zh) | 2016-08-04 | 2016-08-04 | 蒙版式数据脱敏方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106295400A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN108256350A (zh) * | 2017-12-29 | 2018-07-06 | 上海上讯信息技术股份有限公司 | 一种基于敏感信息类型关联的信息复合脱敏方法 |
CN108984625A (zh) * | 2018-06-19 | 2018-12-11 | 平安科技(深圳)有限公司 | 信息过滤方法、装置、计算机设备及存储介质 |
CN109388965A (zh) * | 2018-09-10 | 2019-02-26 | 全球能源互联网研究院有限公司 | 一种混合数据的脱敏方法及*** |
CN110532799A (zh) * | 2019-07-31 | 2019-12-03 | 平安科技(深圳)有限公司 | 数据脱敏控制方法、电子装置及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778380A (zh) * | 2013-12-31 | 2014-05-07 | 网秦(北京)科技有限公司 | 数据脱敏和反脱敏方法及相关设备 |
CN104123370A (zh) * | 2014-07-24 | 2014-10-29 | 杭州安恒信息技术有限公司 | 数据库敏感信息探测方法及*** |
CN104966032A (zh) * | 2015-07-22 | 2015-10-07 | 浙江大学 | 一种云端数据库中敏感信息随机化拟态方法 |
CN105471823A (zh) * | 2014-09-03 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种敏感信息处理方法、装置、服务器及安全判定*** |
CN105653981A (zh) * | 2015-12-31 | 2016-06-08 | 中国电子科技网络信息安全有限公司 | 大数据平台的数据流通与交易的敏感数据保护***及方法 |
-
2016
- 2016-08-04 CN CN201610632177.2A patent/CN106295400A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778380A (zh) * | 2013-12-31 | 2014-05-07 | 网秦(北京)科技有限公司 | 数据脱敏和反脱敏方法及相关设备 |
CN104123370A (zh) * | 2014-07-24 | 2014-10-29 | 杭州安恒信息技术有限公司 | 数据库敏感信息探测方法及*** |
CN105471823A (zh) * | 2014-09-03 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种敏感信息处理方法、装置、服务器及安全判定*** |
CN104966032A (zh) * | 2015-07-22 | 2015-10-07 | 浙江大学 | 一种云端数据库中敏感信息随机化拟态方法 |
CN105653981A (zh) * | 2015-12-31 | 2016-06-08 | 中国电子科技网络信息安全有限公司 | 大数据平台的数据流通与交易的敏感数据保护***及方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN108256350A (zh) * | 2017-12-29 | 2018-07-06 | 上海上讯信息技术股份有限公司 | 一种基于敏感信息类型关联的信息复合脱敏方法 |
CN108984625A (zh) * | 2018-06-19 | 2018-12-11 | 平安科技(深圳)有限公司 | 信息过滤方法、装置、计算机设备及存储介质 |
CN109388965A (zh) * | 2018-09-10 | 2019-02-26 | 全球能源互联网研究院有限公司 | 一种混合数据的脱敏方法及*** |
CN109388965B (zh) * | 2018-09-10 | 2022-02-08 | 全球能源互联网研究院有限公司 | 一种混合数据的脱敏方法及*** |
CN110532799A (zh) * | 2019-07-31 | 2019-12-03 | 平安科技(深圳)有限公司 | 数据脱敏控制方法、电子装置及计算机可读存储介质 |
CN110532799B (zh) * | 2019-07-31 | 2023-03-24 | 平安科技(深圳)有限公司 | 数据脱敏控制方法、电子装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106203145A (zh) | 数据脱敏方法及相关设备 | |
CN106295400A (zh) | 蒙版式数据脱敏方法及相关设备 | |
US7249261B2 (en) | Method for securely supporting password change | |
CN106572117B (zh) | 一种WebShell文件的检测方法和装置 | |
CN106959955A (zh) | 一种数据库的数据处理方法及装置 | |
JP2015053735A5 (zh) | ||
CN106599322A (zh) | 数据脱敏的方法及设备 | |
CN104537290A (zh) | 基于多重指纹识别的密码***及其实现方法 | |
CN112883405B (zh) | 一种数据脱敏方法、装置、设备及存储介质 | |
CN109711189B (zh) | 数据脱敏方法及装置、存储介质、终端 | |
CN106161095B (zh) | 数据泄露的预警方法及装置 | |
CN102501647A (zh) | 一种用于票据识别***的***使用过程数字化防伪***与方法 | |
JP4733142B2 (ja) | 変更済バイオメトリック特徴によってユーザを識別する方法およびその方法を実現するためのデータベース | |
US20110264631A1 (en) | Method and system for de-identification of data | |
CN111107074B (zh) | 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置 | |
CN106997320A (zh) | 代码评审过程中的代码显示方法和装置 | |
CN107294981B (zh) | 一种认证的方法和设备 | |
CN112433936A (zh) | 测试方法、装置及存储介质 | |
JP2017174458A (ja) | 情報匿名化方法 | |
TW202119403A (zh) | 資料去識別處理裝置及方法 | |
US10403392B1 (en) | Data de-identification methodologies | |
CN115571533A (zh) | 保密档案存放管理方法、装置、设备及可读存储介质 | |
CN115600201A (zh) | 一种电网***软件的用户账户信息安全处理方法 | |
CN113177233A (zh) | 一种敏感数据识别方法及装置 | |
CN106407350A (zh) | 错误日志信息过滤方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 850000 Tibet Lhasa autonomous region, Liu Wu New District international headquarters city 3 buildings 1 units, 9 stories, 3 rooms. Applicant after: Net wisdom Tianyuan science and technology group Limited by Share Ltd Address before: 100048 Beijing Haidian District West Sanhuan North Road 87, 14 story 1-1401-171 Applicant before: BEIJING WISEWEB TECHNOLOGY CO., LTD. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |
|
RJ01 | Rejection of invention patent application after publication |