CN110084053A - 数据脱敏方法、装置、电子设备及存储介质 - Google Patents

数据脱敏方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110084053A
CN110084053A CN201910375356.6A CN201910375356A CN110084053A CN 110084053 A CN110084053 A CN 110084053A CN 201910375356 A CN201910375356 A CN 201910375356A CN 110084053 A CN110084053 A CN 110084053A
Authority
CN
China
Prior art keywords
data
desensitization
regular expression
report
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910375356.6A
Other languages
English (en)
Inventor
朱卫东
谢敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Manyun Software Technology Co Ltd
Original Assignee
Jiangsu Manyun Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Manyun Software Technology Co Ltd filed Critical Jiangsu Manyun Software Technology Co Ltd
Priority to CN201910375356.6A priority Critical patent/CN110084053A/zh
Publication of CN110084053A publication Critical patent/CN110084053A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种数据脱敏方法、装置、电子设备及存储介质。该方法包括:根据查询请求获取第一数据;根据候选敏感数据正则表达式和第一数据确定第二数据;根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式;根据脱敏正则表达式处理第二数据,得到脱敏的第三数据。通过设置的候选敏感数据正则表达式能够准确的筛选出第二数据,使用脱敏正则表达式对第二数据进行脱敏,能够实现根据使用需求控制脱敏程度,实现数据自动脱敏。接收的查询请求可以由其他***发出,进而提高***兼容性,实现与其他***对接,提高数据脱敏易用性。

Description

数据脱敏方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及数据安全技术,尤其涉及一种数据脱敏方法、装置、电子设备及存储介质。
背景技术
随着信息化时代的到来,不论企业还是政府单位,每天都在有意无意地收集、存储、共享数据,且规模越来越大。处理各类数据称为现代企业成长的必经之路,但是敏感数据泄露的风险也与日俱增。
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。目前已有各种商业的脱敏产品,各企业也在研发各自的数据脱敏工具或***,以保护企业自身的数据安全,无法与其他***配合使用,易用性差。
发明内容
本发明提供一种数据脱敏方法、装置、电子设备及存储介质,以实现数据自动脱敏,同时可与其他***对接,提高数据脱敏易用性。
第一方面,本发明实施例提供了一种数据脱敏方法,包括:
根据查询请求获取第一数据;
根据候选敏感数据正则表达式和第一数据确定第二数据;
根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式;
根据脱敏正则表达式处理第二数据,得到脱敏的第三数据。
第二方面,本发明实施例还提供了一种数据脱敏装置,包括:
第一数据获取模块,用于根据查询请求获取第一数据;
第二数据确定模块,用于根据候选敏感数据正则表达式和第一数据获取模块获取的第一数据确定第二数据;
脱敏表达式确定模块,用于根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式;
脱敏模块,用于根据脱敏表达式确定模块确定的脱敏正则表达式处理第二数据,得到脱敏的第三数据。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面所示的数据脱敏方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所示的数据脱敏方法。
本发明实施例提供的数据脱敏方法、装置、电子设备及存储介质,根据查询请求获取第一数据;根据候选敏感数据正则表达式和第一数据确定第二数据;根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式;根据脱敏正则表达式处理第二数据,得到脱敏的第三数据。通过设置的候选敏感数据正则表达式能够准确的筛选出第二数据,使用脱敏正则表达式对第二数据进行脱敏,能够实现根据使用需求控制脱敏程度,实现数据自动脱敏。接收的查询请求可以由其他***发出,进而提高***兼容性,实现与其他***对接,提高数据脱敏易用性。
附图说明
图1是本发明实施例适用的***架构示意图;
图2是本发明实施例中的一个数据脱敏方法的流程图;
图3是本发明实施例中的另一个数据脱敏方法的流程图;
图4是本发明实施例中的一个使用场景中的数据脱敏方法的流程图;
图5是本发明实施例中的另一个数据脱敏方法的流程图;
图6是本发明实施例中的另一个数据脱敏方法的流程图;
图7是本发明实施例中的一个数据脱敏装置的结构示意图;
图8是本发明实施例中的另一个数据脱敏装置的结构示意图;
图9是本发明实施例中的一个电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
随着信息化时代的到来,不论企业还是政府单位,每天都在有意无意地收集、存储、共享数据,且规模越来越大。处理各类数据称为现代企业成长的必经之路,但是敏感数据泄露的风险也与日俱增。数据脱敏用于对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。目前已有各种商业的脱敏产品,各企业也在研发各自的数据脱敏工具或***,以保护企业自身的数据安全,但无法与其他***配合使用,易用性差。
图1为本发明实施例提供适用的数据处理***架构示意图,包括:导数模块001、审批模块002、数据提取模块003以及脱敏模块004。其中,导数模块001:数据使用者在数据报表平台申请数据查询/下载权限,提交至审批模块002进行权限的审核审批。导数模块可以为用户提供数据魔方以及BI报表服务。用户通过导数模块可发起查询或下载请求。
审批模块002:此模块功能主要为数据使用者申请数据查询/下载权限所用,数据的审批需要经过数据使用人部门管理人员、数据Owner审批,遵守数据使用权限最小化原则,审核审批通过方可使用。审批模块审批发起查询或下载请求的用户是否具有相应权限。审批模块核准后,用户可以进行脱敏下载或明文下载。审批模块中的OA审批模块用于执行用户权限鉴权。审批模块将审批通过的消息发送至处理平台,由处理平台向数据提取模块发送数据提取请求。
数据提取模块003:此模块作为数据的源头,数据使用者申请了查询/下载权限后,此报表平台上才能为其开通数据的查询、下载权限,下载后的数据发送给脱敏模块004进行数据脱敏。数据提取模块003提供的数据魔方报表平台可以用于提供数据魔方报表。数据提取模块003提供的数据分析决策平台可以为用户提供数据分析平台。数据提取模块003在接收到数据提取请求后,将相应数据文件传输至脱敏模块004。
脱敏模块004:脱敏模块004获得由数据报表平台发送的文件,根据脱敏策略自动化识别文件中的数据,如果与数据的特征与脱敏策略中的规则相匹配,则对数据进行脱敏处理,脱敏完成后将数据文件发送给数据使用者。脱敏策略中的规则可以通过正则表达式约定。脱敏模块通过文件服务器接收数据提起模块发送的数据文件,脱敏管理单元通过文件服务器中读取文件数据,并进行脱敏管理,脱敏完成后,将脱敏结果返回值处理平台。除了平台将脱敏数据或明文数据反馈给用户。脱敏模块用于还用于实现数据发现、分级管理以及任务监控。其中数据发现用于发现敏感信息所在文件。分级管理用于对不同数据表进行敏感数据扫面及标识,标识用于表示安全等级。
图2为本发明实施例提供的数据脱敏方法的流程图,本实施例可适用于对数据进行脱敏的情况,该方法可以由电子设备来执行,该电子设备在图1所示***架构中可作为脱敏模块运行,脱敏模块可以由个人电脑、平板电脑、平板电脑或智能手机执行,该方法具体包括如下步骤:
步骤110、根据查询请求获取第一数据。
查询请求由用户通过导数模块001发起,该模块可以位于用户可使用的终端上。查询请求包括用于查询数据的请求或下载数据的请求。不论用于查询数据亦或下载数据,用户可以指定需要选择的内容。该内容可以为用户根据存储位置指定的数据,也可以为用户根据数据报表的名称请求的数据。数据提取模块003根据查询请求提取第一数据,并将第一数据发送给脱敏模块004。第一数据为查询请求指向存储于数据魔方(或数据库)中的数据。
步骤120、根据候选敏感数据正则表达式和第一数据确定第二数据。
在执行步骤110之前可以由工程师为敏感数据配置敏感数据正则表达式。根据敏感数据本身的数据特征,可以设置不同的候选敏感数据正则表达式以准确的从第一数据中识别出第二数据。第二数据为敏感数据。第一数据的形式可以有多重,包括但不限于数据报表、数据单体或数据集合等。
在一种实现方式中,第一数据为数据报表;此时,步骤120、根据候选敏感数据正则表达式和第一数据确定第二数据,可以通过下述方式进行实施:
首先,获取数据报表中每个表项中的表项数据;然后,判断第一敏感数据正则表达式与第一表项数据是否匹配。如果第一敏感数据正则表达式与第一表项数据匹配,则将第一表项数据确定为第二数据,第一敏感数据正则表达式为候选敏感数据正则表达式集合中的任意一个候选敏感数据正则表达式,第一表项数据为数据报表中的任意一个表项数据。
数据报表包括多个表项数据。依次读取数据报表中的表项数据,使用候选敏感数据正则表达式集合中的各个表达式分别于当前表项数据比较,判断二者是否匹配。如果匹配,则将当前表项数据作为第二数据。
需要说明的是,可以按照一定顺序将当前表项数据与候选敏感数据正则表达式集合中的多个表达式依次比较,当遇到匹配的敏感数据正则表达式,则退出当前表项数据的判断。读取当前表项数据的下一个表项数据,并判断候选敏感数据正则表达式集合中是否有读取的该表项数据匹配的敏感数据正则表达式。以此类推,扫描数据报表中的全部表项数据。在读取表项数据时,可以按照行号有小到大,行号相同时按照列号有小到大的顺序依次读取表项数据。
通过将数据报表的表项数据与候选敏感数据正则表达式集合中的候选敏感数据正则表达式进行匹配,能够从数据报表中确定第二数据。
进一步的,根据第一敏感数据正则表达式确定第一表项数据的安全等级;根据数据报表包含的表项数据的安全等级,确定数据报表的安全等级。
在配置第一敏感数据正则表达式时,为第一敏感数据正则表达式配置相应安全等级。当识别到与第一表项数据匹配的第一敏感数据正则表达式时,读取第一敏感数据正则表达式的安全等级,将该第一敏感数据正则表达式的安全等级确定为第一表项数据的安全等级。
随着敏感数据的敏感程度不同,敏感数据进行脱敏的程度也不尽相同。敏感程度越高,其脱敏程度越高。例如,用户密码的全部位数均需要进行脱敏,而用户的手机号码可以显示收尾部分字段。为了使用户能够更加直观的了解当前数据的敏感程度,可以为第二数据进行打标,以标识第二数据的敏感程度。
安全等级的评定标准如表1所示,从低到高划分为司机,分别为外部公开(L1)、内部使用(L2)、机密(L3)、绝密(L4)。
表1
其中,L4绝密数据为数据保密等级最高的以及,此类数据一旦被泄露、破坏或更改会对企业或者员工造成非常严重的损害。此类数据通常会对竞争对手提供重大的帮助,对公司造成严重的财务、声誉影响。此类数据必须在公司内部严格保护,仅限少数人使用。
L3机密数据时公司和员工从法律要求、社会义务等层面上要求得到保护的数据。该类数据只能在公司内部特定的用户组中进行使用。此类数据一旦被泄露、破坏或更改会对企业或员工造成较严重的影响。
L2内部使用数据指由于技术或商业上的要求,限于内部员工或某些合作方使用的数据。此类数据仅限在公司内部使用,一旦被泄露、破坏或更改不会对企业、客户或合伙人造成严重影响。
L1外部公开数据为被批准公开发布的数据,该类数据的泄露、破坏或更改不会对企业或员工造成明显的影响。
在上述实现方式中,当第一数据为数据报表时,其包含的多个第二数据可能存在不同的安全等级。例如,数据报表中含有L1级别和L4级别的第二数据。此时,从数据报表包含的多个第二数据中,查找最高的安全等级,作为数据报表的安全等级。
步骤130、根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式。
可以预先配置敏感数据正则表达式以及与其对应的脱敏正则表达式。在步骤130中根据根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式。脱敏正则表达式用于将第二数据中的敏感信息进行屏蔽,替换为预设字符,实现脱敏。
步骤140、根据脱敏正则表达式处理第二数据,得到脱敏的第三数据。
脱敏正则表达式的定义格则和敏感数据正则表达式相同,使用相同的公式识别逻辑,可确定对第二数据中的具体字段进行替换。
在一种实现方式中,根据第二数据对应的脱敏正则表达式,确定待屏蔽字节数量和位置信息;根据待屏蔽字节数量和位置信息,将第二数据中相应字符替换为预设字符,得到第三数据。
可以构造预设函数执行脱敏操作,预设函数的输入参数为脱敏正则表达式,脱敏正则表达式包括待脱敏字节的位置信息以及替换字符。后续实施例中使用value.replaceAll作为预设函数的一个名称。
进一步的,在步骤110、根据查询请求获取第一数据之前,还包括:
根据预设表项的字符特征分别确定敏感数据正则表达式,预设表项为手机号、身份证号、邮箱、通讯地址或固定电话;根据待屏蔽字节数量和位置确定脱敏正则表达式。
工程师可以根据待脱敏数据本身的数据特征设计敏感数据正则表达式。对于手机号,可以对其中的部分字段进行脱敏。名称可以保留用户的姓氏,对名进行脱敏,或者对名中的部分文字进行脱敏。身份证号,可以对身份证号中对应用户生日的字段进行脱敏。用户名称可以保留用户名称的首个字符,对其余字符进行脱敏。对于密码可以对密码全文进行脱敏。地址信息可以保留省市级别的字段,对区县一下字段进行脱敏。
示例性的,脱敏正则表达式可以为:手机号:(\+\d+)?1[3456759]\d{9}$
身份证号:
(^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|(^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$)
邮箱:
^[\w-.\u4e00-\u9fa5]+@[\w&&[^_]][\w-&&[^_]]+(\.[\w-&&[^_]]+[\w&&[^_]])+$
通讯地址:^([\u4E00-\u9FA5A-Za-z0-9_]+(省|市|区|县|道|路|街|号)){2,}[\w\W]*$
固定电话:(\d{3,4}\-)\d{7,8}$
相应的,对应上述实施例,其对应的脱敏规则算法如下:
手机号:value.replaceAll("(\\d{3})\\d{4}(\\d{4})","\$1****\$2")
身份证号:value.replaceAll("(?<=\\w{4})\\w(?=\\w{3})","*")
邮箱:
value.replaceAll("(^[\\w-.\\u4e00-\\u9fa5]{1,2})[\\w-.\\u4e00-\\u9fa5]+(@[\\w&&[^_]][\\w-&&[^_]]+(\\.[\\w-&&[^_]]+[\\w&&[^_]])+\$)","\$1****\$2")
通讯地址:value.replaceAll("(^([\\u4E00-\\u9FA5A-Za-z0-9_]+(省|市|区|县|道|路|街|号)){2,})[\\w\\W]*\$","\$1****")
固定电话:value.replaceAll("(\\d{3,4}\\-\\d{1})\\d{4}(\\d{2})","\$1****\$2")
申请数据导出的申请人在导数模块上选择脱敏下载后,下载的文件将自动发送给数据处理平台,数据处理平台根据定义的脱敏规则:手机号、身份证号、邮箱、通讯地址、固定电话,脱敏规则通过正则表达式进行规则的匹配,对数据报表内命中脱敏规则的数据进行脱敏。数据导出记录和权限清单将记录所有数据使用人的数据下载记录和相应的权限,便于事后对下载数据的流转进行跟踪审计。
本发明实施例提供的数据脱敏方法,根据查询请求获取第一数据;根据候选敏感数据正则表达式和第一数据确定第二数据;根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式;根据脱敏正则表达式处理第二数据,得到脱敏的第三数据。通过设置的候选敏感数据正则表达式能够准确的筛选出第二数据,使用脱敏正则表达式对第二数据进行脱敏,能够实现根据使用需求控制脱敏程度,实现数据自动脱敏。接收的查询请求可以由其他***发出,进而提高***兼容性,实现与其他***对接,提高数据脱敏易用性。
数据脱敏在保留数据原始特征的条件下,对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在不违反***规则条件下,对真实数据进行改造并提供测使用,如身份证号、手机号、联系电话、邮箱等个人信息都需要进行数据脱敏。只有授权的管理员或用户,在必须知晓的情况下,才可通过特定程序与工具访问数据的真实值,从而降低重要数据在共享、移动时的风险。在数据脱敏***的帮助下,单位企业能够按照数据使用目标,通过定义精确、灵活的脱敏策略,按照用户的权限等级,针对不同类别的数据以不同方式脱敏,实现跨工具、应用程序和环境的迅速、一致性的访问限制。
图3为本发明实施例提供的一种数据脱敏方法的流程图,作为对上述实施例的进一步说明,该方法具体包括如下步骤:
步骤201、接收用户通过数据中心发送的权限申请信息。
数据中心可以为数据魔方,用户可以使用自己的账号和密码登录数据魔方,用户登录到数据魔方后,发起权限申请。数据魔方将权限申请信息发送到数据处理平台。权限申请信息包括用户标识以及请求的数据标识。
步骤202、根据权限申请信息对用户鉴权。
数据处理平台在接收到申请信息后,判断用户标识是否具有查询或下载数据标识对应数据的权限。如果鉴权成功,则执行步骤203.如果鉴权失败,则向用户发送反馈信息。
步骤203、若鉴权成功,则接收用户发送的查询请求。
如图4所示,在一个使用场景中,如果鉴权成功,将权限申请信息同步发送至工单***。工单***运行于数据提取模块。工单***接收到鉴权成功信息后,用户可登录到工单***进行数据查询。工单***提供多种查询方式,可以按照角色查询报表,也可以按关键字查询报表。工单***将查询结果发送至数据处理平台后,数据处理平台对查询的数据进行脱敏。BI报表查询角色下的报表或者根据关键字查询报表。同时,数据处理平台将脱敏后的数据发送至工单***,工单***将脱敏后的数据反馈给用户。进一步的,数据处理平台可以与工单***进行数据交互,同步申请信息和用户鉴权结果。进一步的,数据处理平台可以将用户鉴权结果同步到数据魔方,数据魔方根据鉴权结果开通用户的相应权限。或者,数据处理平台获取用于线下鉴权的权限信息,并将该权限信息发送至数据魔方,由数据魔方侧工程师进行线下鉴权。线下鉴权完毕后,数据魔方将鉴权结果发送至数据处理平台。
步骤204、根据查询请求获取第一数据。
步骤205、根据候选敏感数据正则表达式和第一数据确定第二数据。
步骤206、根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式。
步骤207、根据脱敏正则表达式处理第二数据,得到脱敏的第三数据。
用户默认是无业务***的数据查询、下载权限的,需要通过权限申请入口提交数据报表查询、下载权限申请流程,业务平台会(即数据魔方)发送权限申请信息至安全平台(即数据处理平台),通过安全平台将所要申请的权限类型、报表名称、安全等级等信息同步至工单***,进行线上审批,审批通过后由业务***管理员为用户开通相应权限。
本发明实施例提供更多数据脱敏方法能够对用户发起的查询请求进行鉴权,通过线上审核线下开通权限的方式,能够将机器处理与人工审核进行结合,不仅提高响应速度还可以提高审核的准确性。
图5为本发明实施例提供的一种数据脱敏方法的流程图,作为对上述实施例的进一步说明,该方法具体包括如下步骤:
步骤301、接收第四数据,第四数据为新建的报表样本数据或更新的报表样本数据。
在进行脱敏之前,程序员可以将新建的报表样本数据或更新的报表样本数据发送至数据处理***。在一种实现方式中,用户可以对报表进行定级,此时,用户登录到数据魔方后,将新建或更新的报表提交到数据魔方。数据魔方将新建的报表样本数据或更新的报表样本数据发送至数据处理平台,数据处理平台对新建的报表样本数据或更新的报表样本数据进行定级。
步骤302、根据第四数据的内容确定第四数据的安全等级。
可以参照表1内容确定第四数据的安全等级。
步骤303、根据安全等级确定,第四数据的敏感数据正则表达式和脱敏正则表达式。
步骤304、根据查询请求获取第一数据。
步骤305、根据候选敏感数据正则表达式和第一数据确定第二数据。
步骤306、根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式。
步骤307、根据脱敏正则表达式处理第二数据,得到脱敏的第三数据。
可选的,数据报表***在新建、更新某张报表时候会将样本数据推送至数据处理平台,数据处平台根据样本数据对此报表进行定级,并将安全等级回调给数据报表***,自动将数据报表进行定级,为防止数据报表定级的遗漏,安全平台还会每周进行全报表的扫描,发现未定级数据,对数据报表的级别进行更新并进行安全等级打标。
本发明实施例提供的数据脱敏方法,能够在新建或更新报表时,将数据报表样本发送到数据处理平台,进而为数据报表样本中的第二数据建立相应的敏感数据正则表达式确定脱敏正则表达式。
图6为本发明实施例提供的一种数据脱敏方法的流程图,作为对上述实施例的进一步说明,该方法还包括如下步骤:
步骤401、根据预设监测周期获取全部报表数据。
在上述实施例的实现过程中,可能出现数据表格的漏报。基于此需要周期性的检测全部数据报表。
步骤402、根据全部报表数据以及报表数据的安全等级,确定遗漏报表数据,遗漏报表数据为未设置安全等级的报表数据。
可选的,获取每个数据报表的更新时间,如果更新时间大于安全等级对应的预设更新时间,或者发现缺少相应报表,则确定漏报报表数据,此时获取数据报表的样本数据。
步骤403、根据遗漏报表数据确定遗漏报表数据的安全等级。
根据获取的遗漏报表数据,对遗漏报表数据设置安全等级。
步骤404、根据安全等级,确定遗漏报表数据的敏感数据正则表达式和脱敏正则表达式。
进一步的,用户可以访问数据魔方,周期性的订阅报表数据。当需要下载定语的报表数据时,数据魔方向数据处理平台发送数据下载信息,数据处理平台根据下载的数据报表的安全等级进行脱敏,将脱敏后的数据反馈给用户。
上述步骤可以在步骤110之前执行,也可以在步骤110之后执行。
本发明实施例提供的数据脱敏方法,能够周期性的检测报表数据是否具备相应的安全级别,保证数据稳定性。在企业内部,数据的使用很频繁,特别是敏感数据的安全管控更为重要。本发明实施例可以通过对企业敏感数据使用过程中的脱敏,基于脱敏算法模型,实现自动化的脱敏,对数据事前、事中、事后的监管及审计。实现与企业大数据平台(如数据魔方等)的对接,用户在进行业务数据下载时,就所下载的数据进行脱敏处理,并定期对数仓内进行敏感数据扫描,识别未标识的数据,实现数据的分类分级管理。平台实现脱敏的敏感数据包括:手机号、固定电话、证件号、邮箱、通讯地址等。并在使用过程中对脱敏数据进行监控审计,以保证数据的安全性,降低数据外泄的风险。
图7为本发明实施例提供的一种数据脱敏装置的结构示意图,该装置可以位于电子设备上,电子设备包括个人计算机、笔记本电脑、平板电脑、智能手机等,该装置包括第一数据获取模块51、第二数据确定模块52、脱敏表达式确定模块53和脱敏模块54。
第一数据获取模块51,用于根据查询请求获取第一数据;
第二数据确定模块52,用于根据候选敏感数据正则表达式和第一数据获取模块51获取的第一数据确定第二数据;
脱敏表达式确定模块53,用于根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式;
脱敏模块54,用于根据脱敏表达式确定模块53确定的脱敏正则表达式处理第二数据,得到脱敏的第三数据。
进一步的,如图8所示,还包括鉴权模块55、样本报表处理模块56、遗漏报表处理模块57、报表安全等级处理模块58以及表达式确定模块59。
鉴权模块55用于:接收用户通过数据中心发送的权限申请信息;
根据权限申请信息对用户鉴权;
若鉴权成功,则接收用户发送的查询请求。
进一步的,样本报表处理模块56用于:
接收第四数据,第四数据为新建的报表样本数据或更新的报表样本数据;
根据第四数据的内容确定第四数据的安全等级;
根据安全等级确定,第四数据的敏感数据正则表达式和脱敏正则表达式。
进一步的,遗漏报表处理模块57用于:
根据预设监测周期获取全部报表数据;
根据全部报表数据以及报表数据的安全等级,确定遗漏报表数据,遗漏报表数据为未设置安全等级的报表数据;
根据遗漏报表数据确定遗漏报表数据的安全等级;
根据安全等级,确定遗漏报表数据的敏感数据正则表达式和脱敏正则表达式。
进一步的,第一数据为数据报表;相应的,第二数据确定模块52用于:获取数据报表中每个表项中的表项数据;
如果第一敏感数据正则表达式与第一表项数据匹配,则将第一表项数据确定为第二数据,第一敏感数据正则表达式为候选敏感数据正则表达式集合中的任意一个候选敏感数据正则表达式,第一表项数据为数据报表中的任意一个表项数据。
进一步的,报表安全等级处理模块58用于:
根据第一敏感数据正则表达式确定第一表项数据的安全等级;
根据数据报表包含的表项数据的安全等级,确定数据报表的安全等级。
进一步的,表达式确定模块59用于:
根据预设表项的字符特征分别确定敏感数据正则表达式,预设表项为手机号、身份证号、邮箱、通讯地址或固定电话;
根据待屏蔽字节数量和位置确定脱敏正则表达式。
进一步的,脱敏模块54用于:
根据第二数据对应的脱敏正则表达式,确定待屏蔽字节数量和位置信息;
根据待屏蔽字节数量和位置信息,将第二数据中相应字符替换为预设字符,得到第三数据。
本发明实施例提供的数据脱敏装置,第一数据获取模块51根据查询请求获取第一数据;第二数据确定模块52根据候选敏感数据正则表达式和第一数据获取模块51获取的第一数据确定第二数据;脱敏表达式确定模块53根据第二数据对应的敏感数据正则表达式确定脱敏正则表达式;脱敏模块54根据脱敏表达式确定模块53确定的脱敏正则表达式处理第二数据,得到脱敏的第三数据。通过设置的候选敏感数据正则表达式能够准确的筛选出第二数据,使用脱敏正则表达式对第二数据进行脱敏,能够实现根据使用需求控制脱敏程度,实现数据自动脱敏。接收的查询请求可以由其他***发出,进而提高***兼容性,实现与其他***对接,提高数据脱敏易用性。
上述装置可执行本发明前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。
图9为本发明实施例提供的一种电子设备的结构示意图。图9示出了适于用来实现本发明实施方式的电子设备312的框图。图9显示的电子设备312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备312典型的是用于进行数据脱敏的个人电脑、平板电脑、平板电脑或智能手机。
如图9所示,电子设备312以通用计算设备的形式表现。电子设备312的组件可以包括但不限于:一个或者多个处理器316,存储装置328,连接不同***组件(包括存储装置328和处理器316)的总线318。
总线318表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、多媒体电子标准协会(Video Electronics Standards Association,VESA)局域总线以及***组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备312典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置328可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory,RAM)330和/或高速缓存存储器332。电子设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***334可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储装置328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块326的程序336,可以存储在例如存储装置328中,这样的程序模块326包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块326通常执行本发明所描述的实施例中的功能和/或方法。
电子设备312也可以与一个或多个外部设备314(例如键盘、指向设备、摄像头、显示器324等)通信,还可与一个或者多个使得用户能与该电子设备312交互的设备通信,和/或与使得该电子设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且,电子设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器320通过总线318与电子设备312的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备312使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)***、磁带驱动器以及数据备份存储***等。
处理器316通过运行存储在存储装置328中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的数据脱敏方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的数据脱敏方法。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上所示的方法操作,还可以执行本发明任意实施例所提供的数据脱敏方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种数据脱敏方法,其特征在于,包括:
根据查询请求获取第一数据;
根据候选敏感数据正则表达式和所述第一数据确定第二数据;
根据所述第二数据对应的敏感数据正则表达式确定脱敏正则表达式;
根据所述脱敏正则表达式处理所述第二数据,得到脱敏的第三数据。
2.根据权利要求1所述的数据脱敏方法,其特征在于,在根据查询请求获取第一数据之前,包括:
接收用户通过数据中心发送的权限申请信息;
根据所述权限申请信息对所述用户鉴权;
若鉴权成功,则接收所述用户发送的查询请求。
3.根据权利要求1所述的数据脱敏方法,其特征在于,在根据查询请求获取第一数据之前,包括:
接收第四数据,所述第四数据为新建的报表样本数据或更新的报表样本数据;
根据所述第四数据的内容确定所述第四数据的安全等级;
根据所述安全等级确定,所述第四数据的敏感数据正则表达式和脱敏正则表达式。
4.根据权利要求3所述的数据脱敏方法,其特征在于,还包括:
根据预设监测周期获取全部报表数据;
根据所述全部报表数据以及报表数据的安全等级,确定遗漏报表数据,所述遗漏报表数据为未设置安全等级的报表数据;
根据所述遗漏报表数据确定所述遗漏报表数据的安全等级;
根据所述安全等级,确定所述遗漏报表数据的敏感数据正则表达式和脱敏正则表达式。
5.根据权利要求1所述的数据脱敏方法,其特征在于,所述第一数据为数据报表;相应的,所述根据候选敏感数据正则表达式和所述第一数据确定第二数据,包括:
获取数据报表中每个表项中的表项数据;
如果第一敏感数据正则表达式与第一表项数据匹配,则将所述第一表项数据确定为第二数据,所述第一敏感数据正则表达式为候选敏感数据正则表达式集合中的任意一个候选敏感数据正则表达式,所述第一表项数据为所述数据报表中的任意一个表项数据。
6.根据权利要求5所述的数据脱敏方法,其特征在于,在如果第一敏感数据正则表达式与第一表项数据匹配,则将所述第一表项数据确定为第二数据之后,还包括:
根据所述第一敏感数据正则表达式确定所述第一表项数据的安全等级;
根据所述数据报表包含的表项数据的安全等级,确定所述数据报表的安全等级。
7.根据权利要求1所述的数据脱敏方法,其特征在于,在根据查询请求获取第一数据之前,还包括:
根据预设表项的字符特征分别确定敏感数据正则表达式,所述预设表项为手机号、身份证号、邮箱、通讯地址或固定电话;
根据待屏蔽字节数量和位置确定脱敏正则表达式。
8.根据权利要求1-7中任一项所述的数据脱敏方法,其特征在于,所述根据所述脱敏正则表达式处理所述第二数据,得到脱敏的第三数据,包括:
根据所述第二数据对应的脱敏正则表达式,确定待屏蔽字节数量和位置信息;
根据所述待屏蔽字节数量和位置信息,将第二数据中相应字符替换为预设字符,得到第三数据。
9.一种数据脱敏装置,其特征在于,包括:
第一数据获取模块,用于根据查询请求获取第一数据;
第二数据确定模块,用于根据候选敏感数据正则表达式和所述第一数据获取模块获取的所述第一数据确定第二数据;
脱敏表达式确定模块,用于根据所述第二数据对应的敏感数据正则表达式确定脱敏正则表达式;
脱敏模块,用于根据所述脱敏表达式确定模块确定的所述脱敏正则表达式处理所述第二数据,得到脱敏的第三数据。
10.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的数据脱敏方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的数据脱敏方法。
CN201910375356.6A 2019-05-07 2019-05-07 数据脱敏方法、装置、电子设备及存储介质 Withdrawn CN110084053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910375356.6A CN110084053A (zh) 2019-05-07 2019-05-07 数据脱敏方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910375356.6A CN110084053A (zh) 2019-05-07 2019-05-07 数据脱敏方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110084053A true CN110084053A (zh) 2019-08-02

Family

ID=67419024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910375356.6A Withdrawn CN110084053A (zh) 2019-05-07 2019-05-07 数据脱敏方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110084053A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851864A (zh) * 2019-11-08 2020-02-28 国网浙江省电力有限公司信息通信分公司 一种敏感数据自动识别和处理方法及***
CN110889134A (zh) * 2019-11-11 2020-03-17 北京中电飞华通信股份有限公司 一种数据脱敏方法、装置与电子设备
CN111008377A (zh) * 2019-10-12 2020-04-14 中国平安财产保险股份有限公司 账号监控方法、装置、计算机设备和存储介质
CN112100664A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 基于正则表达式验证的电力用户信息静态数据脱敏方法
WO2021051612A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 数据授权脱敏自动化方法、***、装置及存储介质
CN112613069A (zh) * 2020-12-23 2021-04-06 国家电网有限公司大数据中心 一种基于负面清单数据资源的自动脱敏方法
CN112667657A (zh) * 2020-12-24 2021-04-16 国泰君安证券股份有限公司 基于计算机软件实现数据脱敏的***、方法、装置、处理器及其存储介质
CN112685771A (zh) * 2020-12-28 2021-04-20 平安普惠企业管理有限公司 日志脱敏方法、装置、设备及存储介质
CN113127929A (zh) * 2021-04-30 2021-07-16 平安普惠企业管理有限公司 数据脱敏方法、脱敏规则处理方法、装置、设备及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051612A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 数据授权脱敏自动化方法、***、装置及存储介质
CN111008377A (zh) * 2019-10-12 2020-04-14 中国平安财产保险股份有限公司 账号监控方法、装置、计算机设备和存储介质
CN111008377B (zh) * 2019-10-12 2024-07-16 中国平安财产保险股份有限公司 账号监控方法、装置、计算机设备和存储介质
CN110851864A (zh) * 2019-11-08 2020-02-28 国网浙江省电力有限公司信息通信分公司 一种敏感数据自动识别和处理方法及***
CN110889134A (zh) * 2019-11-11 2020-03-17 北京中电飞华通信股份有限公司 一种数据脱敏方法、装置与电子设备
CN110889134B (zh) * 2019-11-11 2024-01-23 北京中电飞华通信股份有限公司 一种数据脱敏方法、装置与电子设备
CN112100664A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 基于正则表达式验证的电力用户信息静态数据脱敏方法
CN112613069A (zh) * 2020-12-23 2021-04-06 国家电网有限公司大数据中心 一种基于负面清单数据资源的自动脱敏方法
CN112667657A (zh) * 2020-12-24 2021-04-16 国泰君安证券股份有限公司 基于计算机软件实现数据脱敏的***、方法、装置、处理器及其存储介质
CN112685771A (zh) * 2020-12-28 2021-04-20 平安普惠企业管理有限公司 日志脱敏方法、装置、设备及存储介质
CN113127929A (zh) * 2021-04-30 2021-07-16 平安普惠企业管理有限公司 数据脱敏方法、脱敏规则处理方法、装置、设备及存储介质
CN113127929B (zh) * 2021-04-30 2024-03-01 天翼安全科技有限公司 数据脱敏方法、脱敏规则处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110084053A (zh) 数据脱敏方法、装置、电子设备及存储介质
US11729198B2 (en) Mapping a vulnerability to a stage of an attack chain taxonomy
EP3788533B1 (en) Protecting personally identifiable information (pii) using tagging and persistence of pii
EP4375908A1 (en) Blockchain-based identity and transaction platform
US11165793B2 (en) Method and system for detecting credential stealing attacks
US11038862B1 (en) Systems and methods for enhanced security based on user vulnerability
US11256825B2 (en) Systems and methods for securing data in electronic communications
WO2020182005A1 (zh) 数字资产凭证继承转移中的信息处理方法、和相关装置
EP1610201A2 (en) System and method for secure execution of an application
US20090077640A1 (en) System and method for validating user identification
US10474836B1 (en) Systems and methods for a generated fraud sandbox
US20240163279A1 (en) Systems and methods for securing login access
US10445514B1 (en) Request processing in a compromised account
EP3991074A1 (en) Security certificate identity analysis
CN114021184A (zh) 一种数据管理方法、装置、电子设备及存储介质
US20200233907A1 (en) Location-based file recommendations for managed devices
JP2022027416A (ja) データ保護問合せインターフェース
US20200210565A1 (en) System and method of changing the password of an account record under a threat of unlawful access to user data
US9430625B1 (en) Method and system for voice match based data access authorization
US11748515B2 (en) System and method for secure linking of anonymized data
CN114915453A (zh) 访问响应方法以及装置
CN114626084A (zh) 用于控制对数据的访问的安全智能容器
CN113037743A (zh) 一种云端服务器文件的加密方法及***
US12045459B2 (en) Using a virtual keyboard to enter particular input
US11741213B2 (en) Systems for enhanced bilateral machine security

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190802