CN110472434B - 数据脱敏方法、***、介质和电子设备 - Google Patents

数据脱敏方法、***、介质和电子设备 Download PDF

Info

Publication number
CN110472434B
CN110472434B CN201910628442.3A CN201910628442A CN110472434B CN 110472434 B CN110472434 B CN 110472434B CN 201910628442 A CN201910628442 A CN 201910628442A CN 110472434 B CN110472434 B CN 110472434B
Authority
CN
China
Prior art keywords
data
value
operation type
field
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910628442.3A
Other languages
English (en)
Other versions
CN110472434A (zh
Inventor
江国洲
谭典雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Douyin Vision Beijing Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201910628442.3A priority Critical patent/CN110472434B/zh
Publication of CN110472434A publication Critical patent/CN110472434A/zh
Application granted granted Critical
Publication of CN110472434B publication Critical patent/CN110472434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种数据脱敏方法、***、介质及电子设备。所述方法包括:在离线数据库中提取用户数据;处理所述用户数据,获取用户在对文档编辑的一段时间内产生的增量数据及当前的版本快照内容;判断所述增量数据中的操作类型是否存在于操作类型白名单;当所述增量数据中的操作类型存在于所述操作类型白名单时,对所述操作类型对应的值的不同数据结构进行脱敏处理。所述方法通过脱敏规则对用户数据中的敏感信息进行数据的变形,实现敏感隐私数据的可靠保护。

Description

数据脱敏方法、***、介质和电子设备
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据脱敏方法、***、介质和电子设备。
背景技术
随着产品的快速迭代,在迭代的过程中经常会发生问题,为了解决发生的问题,通常会采用后台调试工具(Debug)来定位问题,获取到信息后再进行更加深层次的调试。然而,在定位问题的过程中,用户数据中的敏感信息会发生暴露,容易造成用户数据的泄露。
因此,在长期的研发当中,发明人对调试定位问题过程中的数据敏感性问题进行了大量的研究,提出了一种数据脱敏方法,以解决上述技术问题之一。
发明内容
本发明的目的在于提供一种数据脱敏方法、***、介质和电子设备,能够解决上述提到的至少一个技术问题。具体方案如下:
根据本发明的具体实施方式,第一方面,本发明提供一种数据脱敏方法,包括:在离线数据库中提取用户数据;处理所述用户数据,获取用户在对文档编辑的一段时间内产生的增量数据及当前的版本快照内容;判断所述增量数据中的操作类型是否存在于操作类型白名单;当所述增量数据中的操作类型存在于所述操作类型白名单时,对所述操作类型对应的值的不同数据结构进行脱敏处理。
根据本发明的具体实施方式,第二方面,本发明提供一种数据脱敏***,包括:提取模块,用于在离线数据库中提取用户数据;处理模块,用于处理所述用户数据,获取用户在对文档编辑的一段时间内产生的增量数据及当前的版本快照内容;判断模块,用于判断所述增量数据中的操作类型是否存在于操作类型白名单;脱敏模块,用于当所述增量数据中的操作类型存在于所述操作类型白名单时,对所述操作类型对应的值的不同数据结构进行脱敏处理。
根据本发明的具体实施方式,第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上任一项所述的数据脱敏方法。
根据本发明的具体实施方式,第四方面,本发明提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上任一项所述的数据脱敏方法。
本发明实施例的上述方案与现有技术相比,至少具有以下有益效果:
第一,通过脱敏规则对用户数据中的敏感信息进行数据的变形,实现敏感隐私数据的可靠保护;
第二,在保护用户数据***露的情况下,能够保证后台调试工具定位问题的能力。
第三,通过设立黑白名单机制,当用户数据出现未知的数据结构及字段时,能够进行屏蔽。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本发明实施例的一种数据脱敏的方法流程图;
图2示出了根据本发明实施例的当所述数据结构包括公式字段时,对所述公式字段进行脱敏处理的方法流程图;
图3示出了根据本发明实施例的一种数据脱敏***的结构示意图;
图4示出了根据本发明的实施例的电子设备连接结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
实施例1
请参阅图1,本发明实施例提供一种数据脱敏方法,该方法包括如下步骤:
S100,在离线数据库中提取用户数据。
具体的,从线上服务的离线数据库中提取所述用户数据,该用户数据包括用户每次对文档编辑的一段时间内产生的增量数据及当前版本快照。
S110,处理所述用户数据,获取用户在对文档编辑的一段时间内产生的增量数据及当前的版本快照内容。
具体的,先对上述步骤S100提取的用户数据进行解密、解压缩及序列化等操作,得到具体的结构化数据;再从所述结构化数据中剥离出用户在对文档编辑的一段时间内产生的增量数据(Changeset)及当前版本快照内容(Snapshot)。
其中,所述增量数据是用户每次在对文档编辑的一段时间内生成的,所述增量数据中包含有不同的操作类型(Action),所述操作类型用来表明所述文档编辑操作属于的操作类型。所操作类型包括但不限于隐藏、复制及粘贴。所述版本快照包括所述文档在某个具体时间的全部数据,所述版本快照能够展现一个完整的在线表格。比如,当0到n个版本的增量数据应用到文档上,就会生成一个n版本的快照,但为了节省储存空间,不是每个版本的增量数据都会立即生成一张版本快照。
S120,判断所述增量数据中的操作类型是否存在于操作类型白名单。
具体的,对上述步骤S110获取的增量数据进行序列化处理后,判断所述增量数据中包含的操作类型是否存在于操作类型白名单中。其中,所述白名单由常量字典存储,包括现有服务存在的所有合法的操作类型值。
S130,当所述增量数据中的操作类型存在于操作类型白名单时,对所述操作类型对应的值的不同数据结构进行脱敏处理;其中,当所述数据结构包括值、样式及版本快照字段时,所述脱敏处理包括:当所述值、样式及版本快照字段的数据类型为整数型或浮点型时,则将所述值、样式及版本快照字段转换为统一数字。
具体的,当所述操作类型存在于所述操作类型白名单,则开始对所述增量数据进行脱敏处理。由于所述增量数据中存在很多不同的操作类型,每个操作类型的值由不同的数据结构定义,经过全面判断和评估,存在敏感数据的数据结构包括公式(Formula)、值(Value)、样式(Style)、表格名称(Sheet Name)、版本快照(Snapshot)等字段。具体的,当所述数据结构包括值、样式及版本快照字段时,判断所述值、样式及版本快照字段所属的数据类型,再针对不同的数据类型进行不同的脱敏处理。其中,所述数据类型包括整数类型、浮点类型、字符串、数组泛型([]interface{})及其他类型。所述对不同数据类型的脱敏处理方法包括以下三种情况:
第一种,当所述值、样式及版本快照字段的数据类型为整数型或浮点型时,则将所述值、样式及版本快照字段转换为统一数字。例如,将数据123.342全部转换为111.111,将123123213全部转换为111111111。
第二种,当所述值、样式及版本快照字段的数据类型为字符串时,且所述字符串不是内部网页地址时,遍历所述字符串,并根据所述字符串的类型进行相应的脱敏处理。具体的,将所述字符串通过正则匹配规则进行转换,并判断转换之后的字符串是否为公司内部网址(URL),从而进行相应的脱敏处理。
当所述字符串不是内部网页地址时,遍历所述字符串,并根据所述字符串的类型进行相应的脱敏处理。具体的,所述根据所述字符串的类型进行相应的脱敏处理,包括:当所述字符串为大写英文字母时,将所述字符串转换为统一固定的大写字母;或,当所述字符串为小写英文字母时,将所述字符串转换为统一固定的小写字母;或,当所述字符串为汉字时,则将所述字符串转换为“汉”;或,当所述字符串为特殊字符集时,则所述字符串保留不变;或,当所述字符串为其它时,则将所述字符串转换为“未知数据”或字符“?”;或,当所述字符串为业务需求时,则对所述字符串进行特殊处理。
另一实施例中,当所述字符串为内部网址时,根据正则匹配规则取出所述内部网址中的用户标识(Token),通过加密函数加密所述用户标识并替换原始用户标识。本发明实施例中,判断所述字符串是否为公司内部网址的目的是方便能够得知不同产品之间的关联;在另一实施例中,不用区分所述字符串是否为公司内部网址,可采用统一的脱敏规则。
第三种,当所述值、样式及版本快照字段的数据类型为数组泛型(map[string]interface{})时,则获取所述增量数据中关键值为类型时对应的字段值,并根据所述字段值的数据类型对所述字段值进行脱敏处理。其中,根据所述字段值的类型对所述字段值进行递归式的脱敏处理,具体包括:
当所述字段值的类型包括链接或图片时,则将所述链接及图片所属链接(Link)、图片中的值字段(Value)进行转换;或,当所述字段值的类型包括通知时,则将所述通知发送对象的用户唯一标识(Token)、文本内容(Text)及链接字段(Link)进行转换;或,当所述字段值的类型包括文本时,则将所述文本字段(Text)进行转换;或,当所述字段值的类型包括其它时,则将所述字段值转换为未知数(Unknownmsg)。具体的,所述转换的方式根据本发明说明书记载的对整数类型、浮点类型、字符串、数组泛型([]interface{})及其他类型的转换方式进行转换,在此不再一一陈述。
另一实施例中,当所述值、样式及版本快照字段的数据类型不是数组泛型时,将所述数组泛型中的值(Value)转换为未知数据(Unknownmsg)。
进一步,请参阅图2,所述对所述操作类型对应的值的不同数据结构进行脱敏处理,包括:当所述数据结构包括公式字段时,对所述公式字段进行脱敏处理,包括:
S131,根据正则匹配规则获取所述公式名称。其中,所述公式名称包括求和、求平均数等。
S132,判断所述公式名称是否存在于现有公式白名单中。其中,所述现有公式白名单包括对服务现有的所有合法公式建立白名单机制。
S133,当所述公式名称存在于所述现有公式白名单中时,根据所述正则匹配规则匹配所述公式中的值。具体的,根据正则匹配规则将所述公式中的值进行转化。另一实施例中,当所述公式名称不存在于所述现有公式白名单时,将所述公式中的值统一设为一固定格式,如Sum(1,99)格式,以便标记这个位置存在公式,且不影响服务及泄露数据。
S134,根据所述值的数据类型对所述值进行转换处理。具体的,对所述步骤S133转换之后的值根据所述值的数据类型进行相应的转化。该转化方式根据本发明说明书记载的对整数类型、浮点类型、字符串、数组泛型及其他类型的转换方式进行转换,在此不再一一陈述。
进一步,所述对所述操作类型对应的值的不同数据结构进行脱敏处理,包括:当所述数据结构包括表格名称字段时,根据MD5加密算法对所述表格名称进行脱敏处理。其中,所述MD5加密算法是对原来为明文的文件或数据按某种算法进行处理,使其成为不可读的一段代码,即生成密文。通过所述MD5加密算法能够实现保护数据不被非法窃取、阅读的目的。
另一实施例中,当判断所述操作类型不存在于所述操作类型白名单时,生成非法操作日志,以便提醒管理员,并将所述增量数据对应的值(Value)转换为未知数据(Unknownmsg),此时脱敏流程结束。
本发明实施例提供的数据脱敏方法能够实现敏感隐私数据的可靠保护,确保***露用户的敏感数据;通过设立黑白名单机制,当某数据存在未知的数据结构及字段时能够进行屏蔽;对敏感信息通过统一可扩展的脱敏规则进行数据变形,既保护了用户的敏感隐私数据,又不会削弱在数据脱敏后调试工具定位问题的能力。
实施例2
请参阅图3,本发明实施例提供一种数据脱敏***300,该***300包括:提取模块310,处理模块320、判断模块330及脱敏模块340。
所述提取模块310,用于在离线数据库中提取用户数据。具体的,所述提取模块310从线上服务的离线数据库中提取所述用户数据,该用户数据包括用户每次对文档编辑的一段时间内产生的增量数据及当前的版本快照内容。
所述处理模块320,用于处理所述用户数据,获取用户在对文档编辑的一段时间内产生的增量数据及当前的版本快照内容。具体的,所述处理模块320先对所述提取模块310提取的用户数据进行解密、解压缩及序列化等操作,得到具体的结构化数据;再从所述结构化数据中剥离出用户在对文档编辑的一段时间内产生的增量数据(Changeset)及当前版本快照内容(Snapshot)。
其中,所述增量数据是用户每次在对文档编辑的一小段时间内生成的,所述增量数据中包含有不同的操作类型(Action),所述操作类型用来表明所述文档编辑操作属于的操作类型。所操作类型包括但不限于隐藏、复制及粘贴。所述版本快照对应的就是这篇文档在某个具体时间的全部数据,所述版本快照能够展现一个完整的在线表格。比如,当0到n个版本的增量数据应用到文档上,就会生成一个n版本的快照,但为了节省储存空间,不是每个版本的增量数据都会立即生成一张版本快照。
所述判断模块330,用于判断所述增量数据中的操作类型是否存在于操作类型白名单。
具体的,对所述处理模块320获取的增量数据进行序列化处理后,所述判断模块330判断所述增量数据中包含的操作类型是否存在于操作类型白名单中。其中,所述白名单由常量字典存储,包括现有服务存在的所有合法的操作类型值。
所述脱敏模块340,用于当所述增量数据中的操作类型存在于白名单时,对所述操作类型对应的值的不同数据结构进行脱敏处理;其中,当所述数据结构包括值、样式及版本快照字段,且所述值、样式及版本快照字段的数据类型为整数型或浮点型时,所述脱敏模块将所述值、样式及版本快照字段转换为统一数字。
具体的,当所述操作类型存在于所述操作类型白名单,则所述脱敏模块340开始对所述增量数据进行脱敏处理。由于所述增量数据中存在很多不同的操作类型,每个操作类型的值由不同的数据结构定义,经过全面判断和评估,存在敏感数据的数据结构包括公式(Formula)、值(Value)、样式(Style)、表格名称(Sheet Name)、版本快照(Snapshot)等字段。具体的,当所述数据结构包括值、样式及版本快照字段时,所述脱敏模块340先判断所述值、样式及版本快照字段所属的数据类型,再针对不同的数据类型进行不同的脱敏处理。其中,所述数据类型包括整数类型、浮点类型、字符串、数组泛型([]interface{})及其他类型。所述脱敏模块340对不同数据类型的脱敏处理方法包括以下三种:
第一种,当所述值、样式及版本快照字段的数据类型为整数型或浮点型时,所述脱敏模块340将所述值、样式及版本快照字段转换为统一数字。例如,将数据123.342全部转换为111.111,将123123213全部转换为111111111。
第二种,当所述值、样式及版本快照字段的数据类型为字符串时,且所述字符串不是内部网页地址时,所述脱敏模块340遍历所述字符串,并根据所述字符串的类型进行相应的脱敏处理。具体的,所述脱敏模块340将所述字符串通过正则匹配规则进行转换,并判断转换之后的字符串是否为公司内部网址(URL),从而进行相应的脱敏处理。
当所述字符串不是内部网页地址时,所述脱敏模块340遍历所述字符串,并根据所述字符串的类型进行相应的脱敏处理。具体的,所述脱敏模块340根据所述字符串的类型进行相应的脱敏处理的规则包括:当所述字符串为大写英文字母时,将所述字符串转换为统一固定的大写字母;或,当所述字符串为小写英文字母时,将所述字符串转换为统一固定的小写字母;或,当所述字符串为汉字时,则将所述字符串转换为“汉”;或,当所述字符串为特殊字符集时,则所述字符串保留不变;或,当所述字符串为其它时,则将所述字符串转换为“未知数据”或字符“?”;或,当所述字符串为业务需求时,则对所述字符串进行特殊处理。
另一实施例中,当所述字符串为内部网址时,所述脱敏模块340根据正则匹配规则取出所述内部网址中的用户标识(Token),通过加密函数加密所述用户标识并替换原始用户标识。本发明实施例中,判断所述字符串是否为公司内部网址的目的是方便能够得知不同产品之间的关联;在另一实施例中,不用区分所述字符串是否为公司内部网址,可采用统一的脱敏规则。
第三种,当所述值、样式及版本快照字段的数据类型为数组泛型(map[string]interface{})时,所述脱敏模块340获取所述增量数据中关键值为类型时对应的字段值,并根据所述字段值的数据类型对所述字段值进行脱敏处理。其中,所述脱敏模块340根据所述字段值的类型对所述字段值进行递归式的脱敏处理,具体的脱敏规则包括:
当所述字段值的类型包括链接或图片时,则将所述链接及图片所属链接(Link)、图片中的值字段(Value)进行转换;或,当所述字段值的类型包括通知时,则将所述通知发送对象的用户唯一标识(Token)、文本内容(Text)及链接字段(Link)进行转换;或,当所述字段值的类型包括文本时,则将所述文本字段(Text)进行转换;或,当所述字段值的类型包括其它时,则将所述字段值转换为未知数(Unknownmsg)。具体的,所述转换的方式根据本说明记载的对整数类型、浮点类型、字符串、数组泛型([]interface{})及其他类型的转换方式进行转换,在此不再一一陈述。
另一实施例中,当所述值、样式及版本快照字段的数据类型不是数组泛型(map[string]interface{})时,所述脱敏模块340将所述数组泛型中的值(Value)转换为未知数据(Unknownmsg)。
进一步,所述脱敏模块340还用于:当所述数据结构包括公式字段时,对所述公式字段进行脱敏处理。具体的,所述脱敏模块340进一步包括:
获取子模块341,用于根据正则匹配规则获取所述公式名称。其中,所述公式名称包括求和、求平均数等。
名单判断子模块342,用于判断所述公式名称是否存在于现有公式白名单中。其中,所述现有公式白名单包括对服务现有的所有合法公式建立白名单机制。
匹配子模块343,用于当所述公式名称存在于所述现有公式白名单中时,根据所述正则匹配规则匹配所述公式中的值。具体的,根据正则匹配规则将所述公式中的值进行转化。另一实施例中,当所述公式名称不存在于所述现有公式白名单时,所述匹配子模块343将所述公式中的值统一设为一固定格式,如Sum(1,99)格式,以便标记这个位置存在公式,且不影响服务及泄露数据。
转换子模块344,用于根据所述值的数据类型对所述值进行转换处理。具体的,对所述匹配子模块343转换之后的值根据所述值的数据类型进行相应的转化。该转化方式根据本发明说明书记载的对整数类型、浮点类型、字符串、数组泛型及其他类型的转换方式进行转换,在此不再一一陈述。
进一步,所述脱敏模块340还用于:当所述数据结构包括表格名称字段时,根据MD5加密算法对所述表格名称进行脱敏处理。其中,所述MD5加密算法是对原来为明文的文件或数据按某种算法进行处理,使其成为不可读的一段代码,即生成密文。通过所述MD5加密算法能够实现保护数据不被非法窃取、阅读的目的。
另一实施例中,当判断所述操作类型不存在于所述操作类型白名单时,所述脱敏模块340生成非法操作日志,以便提醒管理员,并将所述增量数据对应的值(Value)转换为未知数据(Unknownmsg),此时脱敏流程结束。
本发明实施例提供的数据脱敏***能够实现敏感隐私数据的可靠保护,确保***露用户的敏感数据;通过设立黑白名单机制,当某数据存在未知的数据结构及字段时能够进行屏蔽;对敏感信息通过统一可扩展的脱敏规则进行数据变形,既保护了用户的敏感隐私数据,又不会削弱在数据脱敏后调试工具定位问题的能力。
实施例3
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的对数据进行脱敏的方法。
实施例4
本公开实施例提供一种电子设备,该设备用于数据脱敏方法,所述电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
在离线数据库中提取用户数据;
处理所述用户数据,获取用户在对文档编辑的一段时间内产生的增量数据及当前的版本快照内容;
判断所述增量数据中的操作类型是否存在于操作类型白名单;
当所述增量数据中的操作类型存在于所述操作类型白名单时,对所述操作类型对应的值的不同数据结构进行脱敏处理;其中,当所述数据结构包括值、样式及版本快照字段时,对所述值、样式及版本快照字段进行脱敏处理,包括:
当所述值、样式及版本快照字段的数据类型为整数型或浮点型时,则将所述值、样式及版本快照字段转换为统一数字。
实施例5
下面参考图4,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

Claims (11)

1.一种数据脱敏方法,其特征在于,包括:
在离线数据库中提取用户数据;
处理所述用户数据,获取用户在对文档编辑的时间内产生的增量数据及当前的版本快照内容;
判断所述增量数据中的操作类型是否存在于操作类型白名单,其中,所述操作类型包括用来表明所述文档编辑操作属于的操作类型,所述操作类型白名单包括现有服务存在的所有合法的操作类型值;
当所述增量数据中的操作类型存在于所述操作类型白名单时,对所述操作类型对应的值的不同数据结构进行脱敏处理。
2.根据权利要求1所述的方法,其特征在于,当所述数据结构包括值、样式及版本快照字段时,对所述值、样式及版本快照字段进行脱敏处理,包括:
当所述值、样式及版本快照字段的数据类型为整数型或浮点型时,则将所述值、样式及版本快照字段转换为统一数字。
3.根据权利要求2所述的方法,其特征在于,所述对所述值、样式及版本快照字段进行脱敏处理,进一步包括:当所述值、样式及版本快照字段的数据类型为字符串,且所述字符串不是内部网页地址时,遍历所述字符串,并根据所述字符串的类型进行相应的脱敏处理。
4.根据权利要求2所述的方法,其特征在于,所述对所述值、样式及版本快照字段进行脱敏处理,进一步包括:当所述值、样式及版本快照字段的数据类型为数组泛型时,则获取所述增量数据中关键值为类型时对应的字段值,并根据所述字段值的数据类型对所述字段值进行脱敏处理。
5.根据权利要求4所述的方法,其特征在于,所述根据所述字段值的数据类型对所述字段值进行脱敏处理,包括:
当所述字段值的类型包括链接或图片时,则将所述链接及图片所属链接、图片中的值字段进行转换;或,
当所述字段值的类型包括通知时,则将所述通知对应的用户标识、文本内容及链接字段进行转换;或,
当所述字段值的类型包括文本时,则将所述文本字段进行转换。
6.根据权利要求3所述的方法,其特征在于,所述根据所述字符串的类型进行相应的脱敏处理,包括:
当所述字符串为大写英文字母时,将所述字符串转换为统一固定的大写字母;或,
当所述字符串为小写英文字母时,将所述字符串转换为统一固定的小写字母;或,
当所述字符串为汉字时,则将所述字符串转换为汉;或,
当所述字符串为特殊字符集时,则所述字符串保留不变。
7.根据权利要求1所述的方法,其特征在于,所述对所述操作类型对应的值的不同数据结构进行脱敏处理,进一步包括:当所述数据结构包括公式字段时,对所述公式字段进行脱敏处理,包括:
根据正则匹配规则获取所述公式名称;
判断所述公式名称是否存在于现有公式白名单中;
当所述公式名称存在于所述现有公式白名单中时,根据所述正则匹配规则匹配所述公式中的值;
根据所述值的数据类型对所述值进行转换处理。
8.根据权利要求1所述的方法,其特征在于,所述对所述操作类型对应的值的不同数据结构进行脱敏处理,进一步包括:当所述数据结构包括表格名称字段时,根据MD5加密算法对所述表格名称进行脱敏处理。
9.一种数据脱敏***,其特征在于,包括:
提取模块,用于在离线数据库中提取用户数据;
处理模块,用于处理所述用户数据,获取用户在对文档编辑的一段时间内产生的增量数据及当前的版本快照内容;
判断模块,用于判断所述增量数据中的操作类型是否存在于操作类型白名单,其中,所述操作类型包括用来表明所述文档编辑操作属于的操作类型,所述操作类型白名单包括现有服务存在的所有合法的操作类型值;
脱敏模块,用于当所述增量数据中的操作类型存在于所述操作类型白名单时,对所述操作类型对应的值的不同数据结构进行脱敏处理。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8中任一项所述的方法。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至8中任一项所述的方法。
CN201910628442.3A 2019-07-12 2019-07-12 数据脱敏方法、***、介质和电子设备 Active CN110472434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910628442.3A CN110472434B (zh) 2019-07-12 2019-07-12 数据脱敏方法、***、介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910628442.3A CN110472434B (zh) 2019-07-12 2019-07-12 数据脱敏方法、***、介质和电子设备

Publications (2)

Publication Number Publication Date
CN110472434A CN110472434A (zh) 2019-11-19
CN110472434B true CN110472434B (zh) 2021-09-14

Family

ID=68508065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910628442.3A Active CN110472434B (zh) 2019-07-12 2019-07-12 数据脱敏方法、***、介质和电子设备

Country Status (1)

Country Link
CN (1) CN110472434B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026763A (zh) * 2019-12-13 2020-04-17 中国建设银行股份有限公司 一种数据处理方法、装置、设备及存储介质
CN111444538B (zh) * 2020-03-25 2024-04-23 北京奇艺世纪科技有限公司 一种信息脱敏方法、装置、电子设备及存储介质
CN111898340A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 文件的处理方法、设备及可读存储介质
CN114491612A (zh) * 2020-10-27 2022-05-13 华为技术有限公司 文件脱敏方法、装置及存储介质
CN113360947B (zh) * 2021-06-30 2022-07-26 杭州网易再顾科技有限公司 数据脱敏方法及装置、计算机可读存储介质、电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226466A (zh) * 2013-04-26 2013-07-31 浪潮集团山东通用软件有限公司 一种高效的增量数据捕获方法
CN106529329A (zh) * 2016-10-11 2017-03-22 中国电子科技网络信息安全有限公司 一种用于大数据的脱敏***及脱敏方法
CN106611129A (zh) * 2016-12-27 2017-05-03 东华互联宜家数据服务有限公司 数据脱敏方法、装置及***
CN107315968A (zh) * 2017-06-29 2017-11-03 国信优易数据有限公司 一种数据处理方法及设备
CN107392051A (zh) * 2017-07-28 2017-11-24 北京明朝万达科技股份有限公司 一种大数据处理方法和***
CN107992771A (zh) * 2017-12-20 2018-05-04 北京明朝万达科技股份有限公司 一种数据脱敏方法和装置
CN109460676A (zh) * 2018-10-30 2019-03-12 全球能源互联网研究院有限公司 一种混合数据的脱敏方法、脱敏装置及脱敏设备
CN109597843A (zh) * 2018-12-19 2019-04-09 北京锐安科技有限公司 大数据环境的数据管理方法、装置、存储介质及电子设备
CN109815742A (zh) * 2019-02-22 2019-05-28 蔷薇智慧科技有限公司 数据脱敏方法及装置
CN109918944A (zh) * 2019-03-01 2019-06-21 维沃移动通信有限公司 一种信息保护方法、装置、移动终端及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090132419A1 (en) * 2007-11-15 2009-05-21 Garland Grammer Obfuscating sensitive data while preserving data usability
US9323948B2 (en) * 2010-12-14 2016-04-26 International Business Machines Corporation De-identification of data
CN105260402A (zh) * 2015-09-18 2016-01-20 久盈世纪(北京)科技有限公司 用于数据管理的方法与设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226466A (zh) * 2013-04-26 2013-07-31 浪潮集团山东通用软件有限公司 一种高效的增量数据捕获方法
CN106529329A (zh) * 2016-10-11 2017-03-22 中国电子科技网络信息安全有限公司 一种用于大数据的脱敏***及脱敏方法
CN106611129A (zh) * 2016-12-27 2017-05-03 东华互联宜家数据服务有限公司 数据脱敏方法、装置及***
CN107315968A (zh) * 2017-06-29 2017-11-03 国信优易数据有限公司 一种数据处理方法及设备
CN107392051A (zh) * 2017-07-28 2017-11-24 北京明朝万达科技股份有限公司 一种大数据处理方法和***
CN107992771A (zh) * 2017-12-20 2018-05-04 北京明朝万达科技股份有限公司 一种数据脱敏方法和装置
CN109460676A (zh) * 2018-10-30 2019-03-12 全球能源互联网研究院有限公司 一种混合数据的脱敏方法、脱敏装置及脱敏设备
CN109597843A (zh) * 2018-12-19 2019-04-09 北京锐安科技有限公司 大数据环境的数据管理方法、装置、存储介质及电子设备
CN109815742A (zh) * 2019-02-22 2019-05-28 蔷薇智慧科技有限公司 数据脱敏方法及装置
CN109918944A (zh) * 2019-03-01 2019-06-21 维沃移动通信有限公司 一种信息保护方法、装置、移动终端及存储介质

Also Published As

Publication number Publication date
CN110472434A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472434B (zh) 数据脱敏方法、***、介质和电子设备
US9824212B2 (en) Method and system for recognizing advertisement plug-ins
CN110909320B (zh) 一种网页水印防篡改的方法、装置、介质和电子设备
CN110084034B (zh) 一种基于弱口令检测的密码设置方法、存储介质及电子设备
US9280665B2 (en) Fast and accurate identification of message-based API calls in application binaries
US10176327B2 (en) Method and device for preventing application in an operating system from being uninstalled
US10754717B2 (en) Fast and accurate identification of message-based API calls in application binaries
CN111813641B (zh) 崩溃信息收集的方法、装置、介质和设备
CN105187632B (zh) 一种手机号码的确定方法及装置
CN111259409A (zh) 一种信息加密方法、装置、电子设备及存储介质
CN111708680A (zh) 报错信息解析方法、装置、电子设备及存储介质
CN111459822B (zh) ***组件数据的提取方法、装置、设备及可读介质
CN110858247A (zh) 安卓恶意应用检测方法、***、设备及存储介质
CN110138776B (zh) 基于命令监控的docker入侵检测方法、装置及介质
CN109902726B (zh) 简历信息处理方法及装置
CN111460448B (zh) 一种恶意软件家族检测方法及装置
CN110908860B (zh) 一种Java线程的获取方法、装置、介质和电子设备
CN110348226A (zh) 一种工程文件的扫描方法、装置、电子设备及存储介质
CN110618967B (zh) 应用程序运行方法、安装包生成方法、装置、设备及介质
CN111258797B (zh) 一种内存泄露的检测方法、装置、介质和电子设备
CN113987471A (zh) 可执行文件执行方法、装置、电子设备和计算机可读介质
CN115348472A (zh) 视频识别方法、装置、可读介质及电子设备
CN111274057B (zh) 一种内存泄露链路的处理方法、装置、介质和电子设备
CN111291379A (zh) 基于Android的车载***应用检测方法、装置及电子设备
CN114039776B (zh) 流量检测规则的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: Tiktok vision (Beijing) Co.,Ltd.

CP01 Change in the name or title of a patent holder