CN112262388A - 使用个人身份信息(pii)的标记和持久性来保护pii - Google Patents
使用个人身份信息(pii)的标记和持久性来保护pii Download PDFInfo
- Publication number
- CN112262388A CN112262388A CN201980039002.2A CN201980039002A CN112262388A CN 112262388 A CN112262388 A CN 112262388A CN 201980039002 A CN201980039002 A CN 201980039002A CN 112262388 A CN112262388 A CN 112262388A
- Authority
- CN
- China
- Prior art keywords
- document
- personally identifiable
- information
- identifiable information
- personal identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002688 persistence Effects 0.000 title description 2
- 238000013475 authorization Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 31
- 230000008520 organization Effects 0.000 claims description 28
- 230000006855 networking Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 239000003795 chemical substances by application Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000009471 action Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 230000033228 biological regulation Effects 0.000 description 3
- 230000001010 compromised effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0894—Escrow, recovery or storing of secret information, e.g. secret key escrow or cryptographic key storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2113—Multi-level security, e.g. mandatory access control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
***包括配置为将记录存储在客户端数据库中的电子处理器。该记录包括与实体相关联的个人身份信息和与每个个人相关联的客户端标识符参考,可以基于与用户相关联的授权级别访问个人身份信息。电子处理器还被配置为接收包含非个人身份信息和个人身份信息二者的文档,解析该文档以确定文档中是否存在个人身份信息,验证文档阅读者的访问权限,将该文档中包含的个人身份信息与存储在客户端数据库中的记录匹配,将该文档中包含的个人身份信息替换为引用客户端数据库的相对应的客户端标识符参考,并生成包含相对应的客户端标识符参考的该文档的人类易读视图。
Description
技术领域
本申请中描述的实施例涉及保护与数字内容相关联的个人身份信息。
背景技术
保护个人身份信息(PII)是政府法律法规所要求的。即使在不需要保护的情况下,出于各种原因(诸如与客户/用户建立信任或将法律风险降至最低),组织也可能会积极地来保护个人身份信息。在日益协作和电子化的世界中,个人身份和敏感信息的管理变得尤为重要。尽管以防止未授权访问的方式来管理此类信息通常主要集中在安全性上,但必须做出同样重要的努力来帮助防止用户通过简单交换电子文档而意外泄露此类信息。无论出于何种原因,保护个人身份信息在资源上都是昂贵的,最终会为组织带来财务成本。
发明内容
下面给出了本公开内容的一个或多个实施方式的简化概述,以提供对这种实施方式的基本理解。该概述不是所有预期实现的广泛概述,并且既不旨在识别所有实施方式的关键或重要元素,也不旨在描绘任何或所有实施方式的范围。该概述的唯一目的是以简化的形式呈现本公开内容的一个或多个实施方式的一些概念,作为稍后呈现的更详细描述的序言。
随着政府法规(例如,通用数据保护法规(GDPR))的实施,组织需要能够有效地检索和(应要求)删除包含个人身份信息的内容和文档。处理个人身份信息的现有方法包括执行内部审计(audit),其中客户将与该客户的个人身份信息相关联的请求提交给组织。通常,为该组织工作的个人对所有客户文档执行批量查询,然后对每个文档进行分析以确定该文档是否包括个人身份信息。个人身份信息的编辑是手动执行的。整个过程可能需要几天,几周或几个月的时间。
除其它之外,本申请中描述的实施例包括软件应用(例如,它可以是本地独立应用程序或基于服务器的客户端应用程序),该软件应用使得组织内的用户能够创建、保存并共享文档。“文档”一词用于表示数据库记录、word文档、电子表格、演示文稿、便携式文档格式(PDF)、声音文件、图像文件,视频等。本申请中所描述的实施例通过利用该组织的允许通过使用该组织的电子邮件服务或生产力套件(例如,Sharepoint之类的文档存储套件)或在操作***级别(例如,使用具有访问控制信息的基于云的用户目录,诸如Azure ActiveDirectory)在组织中创建账户或订阅来创建和存储数据的软件服务来保护个人身份信息。在一些实施例中,除其它之外,本申请中讨论的***和方法能够在创作文档时对命名的个人进行即时标记,从而能够更快地并且在某些情况下几乎即时检索与该个人有关的所有文档。所讨论的***和方法还使客户的删除请求能够导致原始文档被编辑而不是被删除。这样可以确保在共享文档时,只有授权的收件人才能看到与该客户相关联的个人身份信息。此外,发送到信任边界之外的任何文档都可能会被自动删除,或者会自动删除PII。
示例实施例包括一种用于保护与概念(例如,诸如关于太空或国防计划的讨论的主题等)和/或包括个人、团体、组织等的实体相关联的信息的计算机***。该计算机***包括配置为将记录存储在一个或多个客户端数据库中的电子处理器,其中,所述记录包括与实体(诸如但不限于个人、团体、组织、对象、概念等)相关联的信息(例如,个人身份信息),以及与每个实体相关联的特定特征(例如,名字、出生日期、出生地点、电子邮件地址、电话号码、传真号码、特定内容、社交网络凭证、生物特征信息、金融账号、组织签发的身份证件、政府签发的身份证件等)相关联的客户端标识符参考。基于与用户相关联的授权级别可以访问个人身份信息。该电子处理器还被配置为接收包含非个人身份信息和个人身份信息二者的文档,并解析该文档以确定该文档中个人身份信息的存在。电子处理器还被配置为将该文档中包括的个人身份信息与存储在一个或多个客户端数据库中的记录进行匹配,将该文档中包括的个人身份信息替换为存储在该客户端数据库中的相对应的客户端标识符参考,并生成包含相对应的客户端标识符参考的该文档的人类易读视图。在一些实施例中,***可以使用机器学习来改写(reword)客户端标识符参考以适合句子结构。例如,德语中有特定词来指代女性与男性。说“eine[客户端标识符参考]”会立即将该人识别为女性。***100可以替代地自动编辑来自该文档的“eine”,以便不公开该人的性别。
另一个示例实施例包括一种用于保护个人身份信息(PII)的计算机***。该计算机***包括配置为存储与有权访问文档中的个人身份信息的用户相关联的加密密钥的电子处理器。该电子处理器还被配置为接收包含未加密的非个人身份信息和加密的个人身份信息的文档。该电子处理器还被配置为解析该文档以确定个人身份信息的存在并检测该文档中的加密部分。该电子处理器还被配置为基于使用该加密密钥对加密部分进行解密来检索个人身份信息。该电子处理器还被配置为显示该文档的人类易读视图。
另一示例实施例包括一种用于保护个人的个人身份信息的方法。该方法包括将记录存储在客户端数据库中。该记录包括与个人相关联的个人身份信息以及与每个个人相关联的客户端标识符参考。基于与用户或特定用户所属的团体相关联的授权级别可以访问个人身份信息。该方法还包括接收包含一个或多个个人的非个人身份信息和个人身份信息二者的文档,以及解析该文档以确定该文档中包括的个人身份信息的存在。该方法还包括将该文档中包括的个人身份信息与存储在客户端数据库中的记录进行匹配。该方法还包括将该文档中包括的个人身份信息替换为存储在客户端数据库中的相对应的客户端标识符参考,以及生成包含相对应的客户端标识符参考的该文档的人类易读视图。
另一示例实施例包括一种包含指令的非暂时性计算机可读介质,当该指令由一个或多个电子处理器执行时使该一个或多个电子处理器执行动作集,包括将记录存储在客户端数据库中,其中,该记录包括与个人相关联的个人身份信息以及与每个个人相关联的客户端标识符参考,以及基于与用户或特定用户所属的团体相关联的授权级别可以访问个人身份信息,接收包含一个或多个个人的非个人身份信息和个人身份信息二者的文档,解析该文档以确定该文档中包括的个人身份信息的存在,将该文档中包括的个人身份信息与存储在客户端数据库中的记录进行匹配,将该文档中包括的个人身份信息替换为存储在客户端数据库中的相对应的客户端标识符参考,以及生成包含相对应的客户端标识符参考的该文档的人类易读视图。
通过使用本申请中公开的技术,一个或多个设备可以被配置为,除其它之外,在功率资源、存储器资源、通信带宽资源、处理资源和/或其它资源方面节省资源,同时提供控制和删除文档中个人身份信息的机制。从本申请中公开的技术的实施方式还可以实现除本申请中提到的那些以外的技术效果。
附图说明
从下面参照附图的详细描述将更好地理解本公开内容,其中,相同的附图标记在附图描述中用于指示相同的部件。
图1说明了个人身份信息保护***的一个示例。
图2是图1中示出的示例计算设备的框图。
图3是根据一些实施例示出图2中示出的计算设备的存储器中存储的若干个软件程序的框图。
图4是根据一些实施例的图1中示出的服务器的框图。
图5是可以在其中实践本申请中提供的实施例的分布式计算***的框图。
图6和图7是根据一些实施例说明用于保护个人身份信息的方法的流程图。
图8根据一些实施例示出要被清除以移除PII的示例文本。
图9是根据一些实施例说明用于使用加密保护个人身份信息的方法的流程图。
具体实施方式
本申请中描述了用于保护个人身份信息(PII)的***和方法的实施例。个人身份信息保护***被配置为基于提供给***的基于授权级别的规则来检测并移除文档中的个人身份信息。
在使用软件应用(例如,使用诸如文字处理应用程序或电子邮件应用程序之类的生产力工具)创建和编辑电子文档时,通常会以该文档中的内容的形式或以元数据的形式创建各种形式的数据(例如,个人身份信息)。控制对后续用户和文档收件人的访问可以保护个人的个人身份信息,并确保用户的隐私。如本申请中所使用的,个人身份信息(PII)包括具体识别特定实体(例如,用户、组织或内容等)的任何信息。这可能意味着收集的关于用户或由用户提供的任何数据,除非他们明确授权组织共享该信息。个人身份信息的一些常见示例包括名字、出生日期、生物特征信息、政府签发的身份号码(例如,社会安全号码(SSN)、驾照号码等),金融账户信息(例如,银行账号、信用***等)、个人电话号码和邮寄地址。可以被视为PII的其它数据包括互联网协议(IP)地址、公司名称和位置信息。PII也可以以自由格式的数据合并,例如文档名称、电子邮件标题或可用于确定关于一个实体(例如,用户、组织或特定内容)的详细信息的任何其它聚合数据。在一些实施例中,该***被配置为最初将一些PII数据保留在文档中,但是一旦超过项目数量的阈值,便能够移除所有PII数据。每个项目可以具有与之相关联的不同权重。例如,当仅使用名字并且不使用其它信息时—名字可以在文档中保留。但是,当在该文档中提供了与该名字相关联的出生日期,使读者更容易确定该个人的身份时,***将删除与该个人PII相关的所有数据。
图1说明了个人身份信息保护***100的示例。在示出的示例中,***100包括经由网络103访问服务器104的客户端设备120a,120b,120c。服务器104连接至客户端数据库106、共享存储108、目录服务110(例如,数据库或提供文档以及用于查看文档中个人身份信息的相关联授权级别的应用程序)、规则和上下文数据库112以及加密密钥数据库114。目录服务110提供了一种数据结构来管理用户102的几种类别,包括管理各个用户102用于查看个人身份信息的访问凭证。***100可以在本地或在分布式环境中操作,诸如在客户端-服务器或云服务架构中。***100的任何分布式组件可以彼此通信或者可以通过至少一个计算机网络来访问,诸如但不限于互联网、内联网、局域网或广域网。
术语“客户”、“消费者”、“顾客”或“订户”在本申请中可以互换使用,以指代使用***100提供的服务的用户102。一个或多个用户102可以订阅,或以其它方式注册,作为该软件应用的“用户”访问一个或多个软件应用。在一些实施例中,用户可以包括单个用户102或一组多个用户(例如,图1中所示的用户组A、用户组B或用户组C)。用户组A可以包括一组用户,这些用户可以访问、查看或创建个人身份信息受到完全保护的文档。用户组B可以包括一组用户,这些用户可以访问、查看或创建某些个人身份信息受到保护而其它个人身份信息也可能被暴露的文档。用户组C可以包括一组用户,这些用户可以访问、查看或创建完全暴露个人身份信息的文档。
客户端计算设备120(有时在本申请中称为“客户端设备120”)可以被实现为任何数量的计算设备,包括但不限于个人计算机、膝上型计算机、台式计算机、便携式通信设备(例如,移动电话或平板电脑)或其它可以通过网络103发送和/或接收数据的电子设备。网络103代表很多不同类型的网络,并且包括使***100中的各个实体之间能够进行通信的有线和/或无线网络。在一些配置中,网络103可以包括互联网、局域网(LAN)、广域网(WAN)、移动电话网络(MTN)和其它类型的网络(可能相互结合使用)以促进服务器104和客户端设备120之间的通信。尽管在基于网络的***的上下文中描述了一些配置,但是可以使用其它类型的基于客户端/服务器的通信和相关联的应用程序逻辑。
图2是图1中示出的计算设备120的示例框图。计算设备120包括麦克风121、扬声器122、显示器123、通信接口124、用户接口125、电子处理器126和耦合到数据总线129的存储器128。
通信接口124向计算设备120提供与外部网络(例如,无线网络、因特网等)的通信网关。通信接口124可以包括例如以太网卡或适配器或无线局域网(WLAN)卡或适配器(例如,IEEE标准802.11a/b/g/n)。通信接口124可以包括地址、控制和/或数据连接,以使得能够在外部网络上进行适当的通信。
用户界面125提供诸如键盘之类的输入机制,该键盘可以是物理键盘或在触摸屏显示器上生成的“软”键盘。用户界面125被配置为接收用户输入以访问存储在存储器128中的一个或多个软件应用并与之交互。
电子处理器126可以包括至少一个处理器或微处理器,其解释并执行存储在存储器128中的一组指令。存储器128包括操作***130和软件应用132。在所示的示例中,操作***130包括图形用户界面生成器131,其在显示器123上创建图形用户界面。软件程序132除其它外被配置为实现本申请中所描述的方法。存储器128包括易失性存储元件(例如,随机访问存储器(RAM))、非易失性存储元件(例如,ROM)及其组合。在一些实施例中,存储器128具有分布式架构,其中各种组件彼此远离放置,但是可以由电子处理器126访问。
数据总线129或其它组件互连允许计算设备120的组件之间进行通信。数据总线129可以具有为简单起见而省略的其它元素,诸如控制器、缓冲区(例如,缓存)、驱动程序,转发器和接收器或其它类似组件以启用通信。数据总线129还可以包括地址、控制、数据连接或前述的组合,以使得能够在前述组件之间进行适当的通信。在一些实施例中,电子处理器126被配置为对与PII相关联的数据进行加密并将加密后的数据存储在存储器128中。
图3是根据一些实施例示出存储在图2中所示的计算设备的存储器中的几个软件应用132的框图。在一些实施例中,软件应用132包括文字处理应用程序310、电子表格应用程序320和其它应用程序330。软件应用还包括保存代理340和清除代理350。文档保存代理340和清除代理350是使用计算设备120中的电子处理器126运行的。在一个实施例中,文档保存代理310负责提供客户端访问和使用***100保存文档的能力。在一些实施例中,文档保存代理310还保存与访问文档时客户的成功(或失败)事件相关联的日志。在一些实施例中,目录服务110负责向客户端提供对***100的组件的适当访问。
在一些实施例中,文档保存代理310处理包含从用户102收集的个人身份信息的数据,作为出于商业目的而常规记录的数据的一部分。可以保存的数据类型的示例包括但不限于词语集、格式、任何嵌入式图像、文档内的图表、与安全相关的事件(例如,登录尝试和用户授权)、输入/输出事件(例如,网络或文件***事务,包括查看、编辑和保存文件)等。
清除代理350基于存储在规则数据库112中的规则来处理保存的数据。清除代理350可以是独立应用程序或另一个应用程序的组成部分。尽管被图示和描述为在单个计算设备中运行,但是文档保存代理310和清除代理350可以跨越很多计算设备分布和/或运行。在一些实施例中,清除代理350和/或清除应用程序320包括对文档执行不同类型的动作的不同引擎。在各种实施例中,清除代理350和/或清除应用程序320包括解析引擎(例如,以识别可能的PII)和处理引擎(例如,以使用来自数据库112的规则将纯文本存储的PII转换为参考)。解析引擎执行负责以下任务的处理动作,这些任务包括但不限于解析文档中包含个人身份信息的字段或将识别出的字段转发给子解析器,子解析器可以将该字段分解为较小的分量(例如,子字段或名称/值对)。在一些实施例中,提供了执行过滤动作的过滤引擎,该过滤动作确定是否需要处理文档中的字段(例如,确定是否需要处理文档中的音频或视频分量)。
文字处理应用程序330为用户102提供一个平台来撰写、编辑、格式化和打印文档,包括包含个人身份信息的文档。在一些实施例中,文字处理应用程序330包括扩展或特征,其允许文字处理应用程序330访问客户端数据库106以检索与用户102访问的文档中的个人身份信息相关联的客户端标识符参考。在一些实施例中,***100被设计为识别可能的PII(例如,识别个人或组织的通用名称)。在一些实施例中,当网络连接不可用或在没有中央数据库106可用的架构中时,可以将文档中的个人身份信息加密并与该文档一起保存,而不是将加密的个人身份信息存储在集中式客户端数据库中。
图4是根据一些实施例的图1中所示的服务器104的框图。服务器104包括电子处理器410和包括一个或多个软件应用的存储器420。计算设备120通过网络103访问服务器104的存储器420中的软件应用。软件应用可以包括但不限于图像和视频处理应用430、音频处理应用440、文本处理应用450、清除应用420和其它程序470。在一些实施例中,图像和视频处理应用430包括能够处理静态或视频图像并确定文档中是否存在包含与客户相关联的个人身份信息的图像的软件程序。
在一些实施例中,文本处理应用450包括能够处理文本数据并确定文档中是否存在包括与客户相关联的个人身份信息的任何文本信息的软件程序。在一些实施例中,清除应用420使用存储在规则和上下文数据库112中的规则和上下文信息来定位和替换文档中的个人身份信息。在一些实施例中,清除应用420本身是能够打开文档文件并且使用户能够通过定位和替换特定文本来浏览文档内容以清除文档中的信息(例如,PII)的独特应用。当清除应用420中的解析过程识别出PII时,执行后处理操作以准备用于存储在数据存储中(例如,共享存储108)的消息。在一些实施例中,后处理操作包括注释操作,该注释操作用在将该文档添加到数据存储中时适当地解释文档中的数据所需的附加信息来对文档进行注释(例如,在文档之前尚未被清除过的情况下)。在一些实施例中,当文档被不具有注释操作的应用接收时,该应用使用先前的注释(例如,存储在数据库/存储器中)并将其应用于这些文档。
在一些实施例中,客户端标识符包括多个分段以指示若干条信息。例如,第一段可以与个人相关联,而第二段可以与组织相关联。第三段可以与团体或公司相关联(具有某种层级结构的),或者第四段可以与客户端数据库查询***相关联(例如,检查护照号码)。
可以添加到文档中的其它信息包括诸如文档源(例如,服务器标识符)之类的信息。在一些实施例中,执行受保护的记录存储操作,该操作将具有PII的清除后的文档以受保护的格式发送到数据存储库(例如,共享存储108)。进入数据存储库后,已清除的文档可供数据的各种使用者使用。
图5是可以在其中实践本申请中提供的实施例的分布式计算***的框图。可以存储并从不同的服务器、通信信道或其它存储类型中检索与软件应用132相关联地开发、交互或编辑的内容。例如,可以使用目录服务110、Web门户510、邮箱服务520或社交网络服务530来存储各种文档。软件应用132可以使用这些类型的***等中的任何一种来实现如本申请中所描述的数据利用。服务器104还可以通过网络103在网络上向客户端提供软件应用132。举例而言,客户端计算设备可以被实现为计算设备120并且体现在个人计算设备120-1、平板计算机中120-2和/或移动计算设备(例如,智能电话)120-3中。客户端设备的这些实施例中的任何一个都可以从共享存储器108获得内容。
图6和图7是根据一些实施例说明用于保护个人身份信息的方法的流程图。在块610处,服务器104中的电子处理器410将记录(例如,与个人和客户端标识符相关联的个人身份信息)存储在客户端数据库106中。客户端数据库106中的每个记录包含名称或其它信息(例如,识别一个实体(例如,个人、团体或组织等)),但也可以包含客户的头衔、名字、中间名和姓氏以及昵称/缩写中的一个或多个。可以存储额外的信息以帮助***和组织消除个人与其他人之间的歧义。这可以包括电子邮件地址、家庭住址、电话号码、他们所拥有或被雇用的组织的名称、与他们在该组织中一起工作的个人(例如,特定的老师、医生)、孩子的名字。这里提供的场景仅作为示例,并且可以根据存储关于客户的数据的组织的性质而有所不同。
在块620处,电子处理器410从共享存储器108接收包含一个或多个个人的非个人身份信息和个人身份信息二者的文档。在块630处,电子处理器410解析该文档以确定该文档中包括的个人身份信息的存在。在一些实施例中,解析文档包括分析文档中的文本串并将该文本转换成可用于确定个人身份信息的存在的逻辑句法分量
在块640处,电子处理器410将个人身份信息与存储在客户端数据库106中的记录进行匹配。在一些实施例中,电子处理器410将文档的各个部分(例如,单词、句子、行等)与客户端数据库106中的条目进行比较以验证那些部分是否包括任何个人身份信息。在一些实施例中,电子处理器410确定文档中的个人身份信息是否与一条记录完全匹配(在块710处)。当个人身份信息与一条记录完全匹配时,将该个人身份信息从文档中移除(在块720处),并用相对应的客户端标识符替换(在块730处)。在一些实施例中,电子处理器410确定(在块740处)个人身份信息是否与客户端数据库106中的一个以上记录匹配。当该个人身份信息与客户端数据库106中的一个以上记录匹配时,***100提示(在块750处)用户102潜在候选者的按优先级列表。在这种情况下,用户102基于查看从显示给用户102的客户端数据库106的匹配选择来选择最合适的匹配。在一些实施例中,***100使用并列的信息(例如,出生日期)来自动推断用户。在其它实施例中,如果***100不需要严格地准确,则做出最佳猜测。在一些实施例中,电子处理器410确定个人身份信息是否与客户端数据库106中的记录都不匹配。在这种情况下,使用先前不具有对应匹配的个人身份信息来更新客户端数据库106。在一些情况下,还可以将新的个人识别个人或实体的方式添加到客户端数据库106。在一些实施例中,当识别到PII和/或个人或实体时,可以提示作者提供关于个人或实体的更多信息以确认已经发现什么类型的PII。
在块640处,电子处理器410将该文档中包括的个人身份信息替换为存储在客户端数据库106中的相对应的客户端标识符。在块660处,电子处理器410生成包含该相对应的客户端标识符的该文档的人类易读视图。
在一些实施例中,当用户102(例如,具有电子邮件标识符为“[email protected]”的John Smith)使用组织的电子邮件服务和/或生产力工具来检索或删除存储的关于他们的信息时,与该电子邮件服务和/或生产力工具相关联的各种软件工具可以被用于检索用户标识为“[email protected]”的所有记录。但是,在很多情况下,信息以更难以检索的方式存储。例如,如果政府机构(例如,医疗保健、执法或教育)的雇员正在写有关某个特定人物的文章,则该文档的作者与所引用的人物不是同一个人。此外,在某些场景中,该文档可能会提到多个人,例如,诸如银行之类的商业机构可能会引用各种个人客户的行为和/或历史记录来更改内部政策,或者销售团队可能拥有营销文档,其具有引用了各种客户的“客户证据”。在一些实施例中,文档包括昵称(例如Dave/David),或仅使用名字等,这可能导致混乱,因为多个个人可能具有相同的名字。因此,当客户要求即时检索和删除关于他们的所有文档时,该请求可能需要进一步确定适当的个人。在一些实施例中,与该文档相关联的特征(例如,文档被创建、编辑或删除的时间)可以用于确定***中可用的多个选择中的适当个人的身份。
本申请中提供的一些实施例使用客户端数据库106来枚举可以在文档中引用的客户(例如,用户、个人、客户、企业等)的完整列表。每条记录指代一个单独的客户。在一个实施例中,记录可以促进在线交互,并因此包含用户名(可以是电子邮件地址)和某种形式的密码(例如,键入的字符、基于电话的认证、指纹等)。其它实施方式可能针对客户遇到组织的代理人(例如,银行柜台的业务员),因此业务员可以出示实物证明(例如,政府ID)以向该代理人确认其身份的情形。
在一些实施例中,当文档的作者希望提及客户时,他们可以使用显式的“客户选择器”从数据库拉取客户名称并***文档中。然而,更频繁地,用户102可以简单地在句子中将客户的名称键入文档中。通过这一隐式输入客户的名字,软件将使用后台进程来检测是否输入了某人的名字。这可以通过查询用户102在客户端数据库中键入的每个单词来实现。在拉丁字母的情况下,大写是在文档中输入专有名词的一个强烈理由。可以使用其它信号,诸如头衔(例如,“先生”或“女士”或“博士”)、通用名称或前置词(诸如“名字:”),或者作者已在字段中键入了一些内容,对于***公知的是该内容经常包含客户名字(例如,“顾客”或“患者”)。本领域技术人员知道,在计算语言学和计算机科学中有许多已建立的方法来检测文档中的名称。
在一些实施例中,电子处理器410被配置为通过提示用户102用该名称或文档中的其它识别信息(例如地址)来确认身份,从而提供隐式的客户识别。在一些情况下,可能并非如此。对于这种情况,向作者提供提示,以从一组潜在的匹配中显式选择作者所设想的那个人。在一些实施例中,基于与用户的相关性对潜在匹配进行排序。在其它情况下,例如,如果确定作者具有低级别的访问权限,则可以存储个人的所有潜在匹配并且不将其显示给用户。另外,在删除文档时,在那些情况下,必须询问每个潜在的匹配关于所指的用户是否是实际用户。在一些实施例中,在何时文档被输入到***中和何时文档被删除之间,数据库中可能存在关于用户的额外数据记录。在这种情况下,***100被配置为基于文档中的信息来确定个人的身份。在一些实施例中,文档的删除时间可以用于确定用户所设想的个人的身份。在一些实施例中,当存在两个潜在的个体匹配项时,其中一个已经要求从***删除其所有数据,则***可以基于这一信息来确定该个体的身份。
在一些情况下,出于数据保护的原因,作者可能无法立即访问看到指定的个人。例如,作者可能键入“Mary Brown”,而他们实际上意味的是“Mary Jane Brown”。但是,客户端数据库中可能有两条记录(“Mary Jane Brown”和“Mary Hanna Brown”)。因此,当作者想提及“Mary Jane Brown”的存在时,他们可能不得不寻求批准(例如,从经理或内部管理机构),以撰写有关“Mary Jane Brown”的文件,然后他们的文档才能被保存、共享、发布(例如,用于测试功能的暂存环境、生成报纸文章然后发送到其他人可以查看信息的生产/发布环境)、捕捉(例如,使用屏幕快照)、打印或通过电子邮件发送等等。
在其它情况下,作者可能正在写有关尚未记录在客户端数据库中的客户的信息,并且因此可能需要创建此记录。这也可能触发其它工作流程,诸如批准可以创建新客户,或者向客户发出通知等。
在一些实施例中,文档被标记为包含潜在名称。如此标记的文档可能会受到进一步的手动或自动审核。例如,“Sam”一词可以指代指定的个人或Samantha或新加坡美术馆。由于很多名称分析技术都有向给定实体是否为名称分配概率可能性的算法,因此本领域技术人员将认识到,用于审阅的文档列表将被给予分配等级。可以采用其它技术来检测特定文档模板在完成时将始终包含对客户的引用,但是文档中尚未识别出任何客户。另外,在文档中,通常会先提供对实体的完整引用,然后使用更简短的引用对实体进行后续引用,例如,仅头衔和姓氏一起(例如Brown女士),或者在非正式文件中的给定名称(例如Mary)。因此,最常见的情况是文档对至少一个人有多个引用。在这种情况下,通常使用代词(例如,使用“他”或“她”)或抽象表示(例如,“该患者”)进一步指代该个人的活动。在一些情况下,“他”或“她”的编辑可能会被跳过。例如,在所有人都是男性的环境中(诸如75年前的军事文件),可以跳过对“他”的编辑。在一些实施例中,如果在整个文档中散布着“他”和“她”,则很难推断代词所指的是哪个人。在这种情况下,清除应用420可以使用关于用户指定语言的语法的知识,或者从文档内容中推断出的知识,来分析句子并确定实体(例如,个人、主题、团体、组织等)。
通过以上处理,由电子处理器410执行的软件确定该文档在文档中的某些点处包含某些指定的客户。一旦作者准备好保存或共享该文档,则由电子处理器410执行的软件允许作者查看客户参考。在一些实施例中,文档模板包含用于指示针对一种文档类型作者必须执行审阅(而针对其它文档类型,审阅可以不是强制性的)的元数据。
在一些实施例中,当保存具有存储为文本的客户名称的文档时,电子处理器410使用标签来扩大客户名称。例如,标签可以被放置在文本周围(例如,“患者<CLIENT ID=12381289>Mary Brown</CLIENT>将她自己呈现给我”)。这将在文档中记录已经提到了一个特定的高度识别的客户。在一些实施例中,文档被去除所有个人身份信息,仅留下参考。例如,文档可以包含“患者<CLIENT ID=12381289TEXT=FIRST_NAME/></CLIENT ID=12381289TEXT=LAST_NAME/>将她自己呈现给我”。在这种实施方式中,个人身份信息位于该组织的集中式服务中,而不是存储为纯文本。电子处理器410执行进一步的处理以呈现该文档。它可以调用来针对该客户检索字段“名字”和“姓氏”。为此,使用了身份验证和授权。在一些实施例中,使用目录服务(例如,Microsoft Azure Active Directory)来确认雇员的电子身份。确认客户身份后,身份和所请求的个人身份信息列表将被传递给中间服务(例如,PII检索服务),该中间服务确定该员工是否有权访问所请求的客户的个人身份信息。
在一些情况下,组织中的所有雇员都可以访问所有客户的个人身份信息。在其它情况下,访问可能更加精细,甚至在组织内部也可以分配(或阻止)不同的查看/编辑权限。例如,当电子处理器410接收到Bob [email protected]希望访问<CLIENT ID=12381289TEXT=FIRST_Name/>和<CLIENT ID=12381289TEXT=LAST_NAME/>的请求时,PII检索服务可以确认Bob拥有对Mary的数据的查看特权,因此根据用户是仅访问名字、仅访问姓氏还是访问名字和姓氏,通过该软件来检索“Mary”和/或“Brown”。此时,电子处理器410将标签转换回文本,使其能够呈现“患者Mary Brown将她自己呈现给我”。当另一位员工JoeSchmidt尝试查看同一文档时,他可能会看到相同的文档,但部分已涂黑(已编辑过)。
在一些实施例中,当原始文档的作者指示文本的一部分包括个人身份信息(例如,诸如“由于我所代表的客户居住在FabrikamSoft的总经理附近的房屋中并且…”)但其类型不属于客户端数据库中常规字段的一部分时,则可以使用额外的数据存储,或者可以将此新数据作为新字段的一部分写入客户端数据库。可以为所选择的个人身份信息创建一条记录(例如,“与FabrikamSoft的总经理是邻居”,并且可以给它一个新的标识符,诸如GUID=18923101218209812)。可替代地,该标识符可以是文档ID和个人身份信息实例ID等。因此,该文档可以最终包含“由于我所代表的客户居住在房屋<CLIENT ID=78910121ADHOCTEXTIP=18923101218209812>并且…”。同样,很多不同实施方式和将数据存储在哪里的选择都是可能的。
在一些实施例中,客户端可以使用与该客户端相关联的加密密钥,并且所有文本被加密并存储在该文档本身中,而不是存储在集中式数据存储中。在操作中,当首先打开用户的客户端应用(用于管理文档中嵌入的PII)时,它检测到本地没有存储密钥,并向加密密钥数据库114发送请求以获取本地加密密钥。服务器104根据用户的授权级别将客户端有权使用的所有密钥发回。一旦客户端检测到密钥已过期(尽管在这种情况下只需要取回单个密钥),确定使用存储的元数据作为该密钥的一部分,则通过查询加密密钥数据库114以获取该并在本地记录这些细节或通过类似的方法来执行相同的过程。
在一些实施例中,用户的客户端应用还可以具有嵌入在应用程序中的初始密钥。这允许用户在没有网络请求密钥的情况下启动应用程序。在一些实施例中,向客户端应用交付的服务器为特定用户准备该应用程序,在这种情况下,用户将接收到他们有权使用的密钥。
脱机时,客户端应用可以使用保留的加密密钥对文档中的元数据进行加密和解密。该元数据可以直接在文档中或经由通过在线服务提供的元数据包含关于解密所需密钥的信息,该元数据包括将标识符映射到加密密钥的表。在任何一种情况下,当用户没有必需的密钥时,该信息将以编辑后的显示给用户。
在联机时,客户端应用可以继续使用保留的密钥,或者可以从加密密钥数据库114请求新的密钥。可以通过使用保留的密钥来实现性能提升,并且新的密钥可以是异步请求的,作为确保密钥保持最新的后台任务。在一些实施例中,当以在线模式操作时,还可以恢复到在服务器104(或一些其它端点)上执行解密。
当加密密钥被泄漏(有意或无意)时,由于可以解密PII,因此将导致安全事件。在这种情况下,客户端应用下次连接到数据库时,将被交付新的密钥以替换旧的受影响密钥。这些将被标记为优先的,以便客户端应用将立即使用旧密钥来解密包含用这些旧密钥加密的PII的所有文档,然后再使用新密钥来重新加密数据。此时,旧密钥将被删除。该任务也将在正常的安排好的密钥循环期间执行,该任务可以在密钥泄漏但未检测到的情况下执行。
在上述情况下,那些已经删除了旧密钥副本的客户端无法读取其它发送使用旧密钥加密的文档的客户端。为了实现更无缝的操作,该客户端可以将旧的无效密钥保留一段固定的时间,例如30天。在一些实施例中,可以建立要求客户端以规则的、定义的间隔连接到数据库的策略,以确保以规则的间隔检索新的密钥。这可以将受损的密钥快速移出所有客户端应用。在一些实施例中,可以将密钥的失效日期设置为比通常的更短的持续时间,以便规则地改变密钥并且减轻任何未知泄漏的影响。这缓解了与将密钥分发给多个实体相关联的问题,这些问题可能不像集中式***(或仅分发给少量端点的***)那么容易保持安全。
在一些实施例中,文档可以由其它软件应用查看,这些软件应用具有与个人身份信息检索服务有限的兼容性。这样的应用程序可能仅呈现文档的纯文本,但可能无法调用个人身份信息检索服务,并因此无法显示或解密个人身份信息。在一些实施例中,当文档被发送到组织边界之外时(例如,从一个律师事务所发送到另一律师事务所),接收律师可能没有登录访问权限以能够访问用于创建参考的客户端数据库。因此,他们看到编辑过的文本。在其它示例中,接收律师能够从发送律师请求访问权限。在一些实施例中,这可以通过在目录服务中创建新的用户身份并将相关的客户记录与该用户身份相关联并与接收律师共享该新的用户身份来授予访问权限。
在一些实施例中,已被清除的个人身份信息可以显示在仪表板上,其允许用户102查看或删除引用该用户或其他客户的文档。图8根据一些实施例示出了被清除以移除PII的原始文档中的文本的示例。该文档由John Wash(律师)发送给Hilda Higgins(律师)。原始文档包括以下文本(如块802中所示):
<BODY>昨天我与Tom Smith谈了谈此案。Tom(和他的女儿Maria Smith)对这一消息感到惊讶。<BODY>
上面的文本是使用清除应用程序420清除后的原始文档的一部分。输出的清除后文档包括以下文本(如块804中所示):
<BODY>“昨天我与[Ref ID=1321/1Val=给定名称][Ref ID=1321/1Val=姓氏]谈了谈此案。[Ref ID=1321/1Val=给定名称](和他的女儿[Ref ID=1321/1Val=女儿全 名])对这一消息感到惊讶。</BODY>
如上所示,PII被提取并替换为参考(例如,客户端标识符参考)。图8还示出了各种用户基于其用户访问权限看到的文本部分。例如,John Wash(律师)可以看到以下内容(如块806中所示):
“昨天我与Tom Smith谈了谈此案。Tom(和他的女儿Maria Smith)对这一消息感到惊讶。”
从John Wash接收文档的Hilda Higgins(律师)看到以下内容(如块808中所示):
可以通过利用搜索服务来实现上述示例,该搜索服务扫描与John Wash和HildaHiggins相关联的每个组织所使用的各种数据存储库。例如,用户可以使用他们的电子身份登录以进行认证。由于这一电子身份与他们的客户端标识符绑定(或与其相同),因此搜索将检索包含其客户端标识符的所有文档。然后,用户可以查看包含对其的引用的所有文档。如果他们阅读的文档也包含对其他客户的引用,则与其他客户有关的个人身份信息可能会被编辑掉。在一些实施例中,由于可能触发进一步的工作流,因此用户102可能不会立即在显示器123上看到所有这些,其可以包括动态地验证策略(例如,根据规则数据库中提供的规则)或法律允许给定文档被发布给客户,或未遭受法律诉讼。在其它示例中,工作流可以包括对通过个人身份信息检索服务检索到的信息的最终手动审查。在一些实施例中,本申请中提供的***100存储包含特定客户端标识符的所有文档。当用户请求时,这有助于提供与用户相关联的所有数据。如果服务器104不知道文档的存在,这还防止了具有特定PII标记的文档从服务器104获取该PII,从而防止恶意用户将随机的客户端标识符***文档中,以期试图获取大规模数据访问。在一些实施例中,用户102(例如,职员)可以亲自与客户一起工作,以给予他们与客户有关的并且其他客户的所有PII从文档中被编辑掉的所有文档的打印输出。在一些实施例中,客户可以请求在与组织或机构相关联的所有文档中删除客户的PII信息。在这种情况下,个人身份信息保护***可以确保其余文档保持完整,同时仅从每个文档编辑掉该PII。进一步的注释(例如,在文档模板级别或由文档创建者手动进行)可以确定是删除完整文档还是对其进行简单编辑。另外,在客户端数据库级别或通过操作***分组策略,可以将用于保护文档中PII的设置推送到一个或多个作者的应用程序(例如,文字处理应用程序)中。
图9是根据一些实施例说明用于使用加密保护个人身份信息的方法的流程图。在块910处,电子处理器126被配置为存储与能够访问文档中的个人身份信息的用户相关联的加密密钥。在块920处,电子处理器126还被配置为接收包含未加密的非个人身份信息和加密的个人身份信息的文档。在块930处,电子处理器126还被配置为解析该文档以确定个人身份信息的存在并检测文档中的加密部分。在块940处,电子处理器126还被配置为基于使用加密密钥对加密部分进行解密来检索个人身份信息。在块950处,电子处理器126被配置为显示文档的人类易读视图。
在以上描述和附图中描述和说明的实施例不限于本申请中提供的特定细节,而是可以以各种方式进行修改。此外,可能存在本申请中未描述的其它实施例。而且,本申请中描述为由一个组件执行的功能可以由多个组件以分布式方式执行。同样,多个组件执行的功能可以被合并并由单个组件执行。
在所提供的实施例中,被描述为执行特定功能的组件也可以执行本申请中未描述的附加功能。例如,以某种方式“配置”的设备或结构至少以这种方式配置,但是也可以以未列出的方式配置。此外,本申请中描述的一些实施例可以包括一个或多个电子处理器,其被配置为通过执行存储在非暂时性计算机可读介质中的指令来执行所描述的功能。类似地,本申请中描述的实施例可以被实现为存储可由一个或多个电子处理器执行以执行所描述的功能的指令的非暂时性计算机可读介质。如本申请中所使用的,“非暂时性计算机可读介质”包括所有计算机可读介质,但是不包括暂时性的传播信号。因此,非暂时性计算机可读介质可以包括例如硬盘、CD-ROM、光存储设备、磁存储设备、ROM(只读存储器)、RAM(随机访问存储器)、寄存器存储器、处理器高速缓存或其任何组合。
另外,本申请中使用的措辞和术语是出于描述的目的,而不应被认为是限制性的。例如,本申请中“包括”、“包含”、“由…组成”、“具有”及其变型的使用意味着涵盖其后列出的项目及其等同物以及附加项目。术语“连接”和“耦合”被广泛地使用,并且涵盖直接和间接的连接和耦合。此外,“连接”和“耦合”不限于物理或机械连接或耦接,而是可以包括直接或间接的电连接或耦接。另外,可以使用有线连接、无线连接或其组合来执行电子通信和通知,并且可以在各种类型的网络、通信信道和连接上直接地或通过一个或多个中间设备来发送电子通信和通知。此外,诸如第一和第二、顶部和底部等的关系术语在本申请中中可以仅用于将一个实体或动作与另一实体或动作区分开,而不必要求或暗示实体或动作之间的任何实际这种关系或顺序。
在下面的权利要求中提出了一些实施例的各种特征和优势。
Claims (14)
1.一种用于保护与实体相关联的信息的计算机***,所述计算机***包括:
电子处理器,其被配置为:
将记录存储在客户端数据库中,所述记录包括与实体相关联的个人身份信息以及与所述实体中的每个实体相关联的客户端标识符参考,所述个人身份信息可基于与用户相关联的授权级别而访问;
接收包含非个人身份信息和个人身份信息二者的文档;
解析所述文档以确定所述文档中的个人身份信息的存在;
将所述文档中包括的所述个人身份信息与存储在所述客户端数据库中的记录进行匹配;
将所述文档中包括的所述个人身份信息替换为存储在所述客户端数据库中的相对应的客户端标识符参考;以及
生成包含所述相对应的客户端标识符参考的所述文档的人类易读视图。
2.根据权利要求1所述的计算机***,其中,所述实体是从由个人、团体、组织和内容组成的组中选择的项目。
3.根据权利要求1所述的计算机***,其中,所述电子处理器还被配置为:
将与有权访问个人身份信息的所述用户相关联的加密密钥存储在所述文档中。
4.根据权利要求1所述的计算机***,其中,所述电子处理器还被配置为:
生成具有基于对所述文档中包括的实体的所述个人身份信息的访问权限而编辑的所述文档的一部分的所述文档的所述人类易读视图。
5.根据权利要求1所述的计算机***,其中,所述电子处理器还被配置为:
响应于第一个人身份信息仅与所述客户端数据库中的一个记录匹配,从所述文档移除所述第一个人身份信息,并且将所述第一个人身份信息替换为第一客户端标识符参考;
响应于第一个人身份信息与所述客户端数据库中的多个记录匹配,提供对所述客户端数据库中的匹配记录的选择;以及
响应于第一个人身份信息与所述客户端数据库中的所述记录均不匹配,利用新记录来更新所述客户端数据库,并且生成与所述第一个人身份信息相关联的新客户端标识符参考。
6.根据权利要求1所述的计算机***,其中,所述电子处理器还被配置为:
确定第一个人身份信息与在所述客户端数据库中没有记录的实体相关联;以及
添加与所述个人身份信息关联的记录。
7.根据权利要求1所述的计算机***,其中,所述个人身份信息包括从由以下各项所组成的组中选择的项目:名字、出生日期、出生地点、电子邮件地址、电话号码、传真号码、特定内容、社交网络凭证、生物特征信息、金融账号、组织颁发的身份证明、以及政府颁发的身份证明。
8.根据权利要求1所述的计算机***,其中,所述电子处理器还被配置为:
删除包含与个人相关联的个人身份信息的所有文档。
9.一种用于保护实体的个人身份信息的方法,所述方法包括:
将记录存储在客户端数据库中,所述记录包括与实体相关联的个人身份信息以及与所述实体中的每个实体相关联的客户端标识符参考,所述个人身份信息可基于与用户相关联的授权级别而访问;
接收包含一个或多个实体的非个人身份信息和个人身份信息二者的文档;
解析所述文档以确定所述文档中包括的个人身份信息的存在;
将所述文档中包括的所述个人身份信息与存储在所述客户端数据库中的记录进行匹配;
将所述文档中包括的所述个人身份信息替换为存储在所述客户端数据库中的相对应的客户端标识符参考;
生成包含所述相对应的客户端标识符参考的所述文档的人类易读视图;
响应于第一个人身份信息仅与所述客户端数据库中的一条记录匹配,从所述文档移除所述第一个人身份信息并且将所述第一个人身份信息替换为第一客户端标识符参考;
响应于所述第一个人身份信息与所述客户端数据库中的多个记录匹配,提供对所述客户端数据库中的匹配记录的选择;以及
响应于所述第一个人身份信息与所述客户端数据库中的所述记录均不匹配,利用新记录来更新所述客户端数据库并且生成与所述第一个人身份信息相关联的新客户端标识符参考。
10.根据权利要求9所述的方法,还包括:
确定第一个人身份信息与在所述客户端数据库中没有记录的实体相关联;以及
添加与所述个人身份信息相关联的记录。
11.根据权利要求9所述的方法,还包括:
检索包含与个人相关联的个人身份信息的所有文档。
12.根据权利要求9所述的方法,还包括:
删除包含与所述个人相关联的个人身份信息的所有文档。
13.根据权利要求9所述的方法,还包括:
将与有权访问个人身份信息的所述用户相关联的加密密钥存储在所述文档中。
14.一种用于保护个人身份信息(PII)的计算机***,所述计算机***包括:
电子处理器,其被配置为
将与有权访问个人身份信息的用户相关联的加密密钥存储在所述文档中;
接收包含未加密的非个人身份信息和已加密的个人身份信息的所述文档;
解析所述文档以确定个人身份信息的存在并且检测所述文档中的加密部分;
基于使用所述加密密钥对所述加密部分进行解密来检索所述个人身份信息;以及
显示所述文档的人类易读视图。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/003,739 US10885225B2 (en) | 2018-06-08 | 2018-06-08 | Protecting personally identifiable information (PII) using tagging and persistence of PII |
US16/003,739 | 2018-06-08 | ||
PCT/US2019/034774 WO2019236389A1 (en) | 2018-06-08 | 2019-05-31 | Protecting personally identifiable information (pii) using tagging and persistence of pii |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112262388A true CN112262388A (zh) | 2021-01-22 |
Family
ID=66867857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980039002.2A Pending CN112262388A (zh) | 2018-06-08 | 2019-05-31 | 使用个人身份信息(pii)的标记和持久性来保护pii |
Country Status (4)
Country | Link |
---|---|
US (1) | US10885225B2 (zh) |
EP (1) | EP3788533B1 (zh) |
CN (1) | CN112262388A (zh) |
WO (1) | WO2019236389A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114911763A (zh) * | 2021-02-09 | 2022-08-16 | 安讯士有限公司 | 存储包含个人数据的媒体和擦除个人数据的设备和方法 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10320716B2 (en) * | 2016-07-19 | 2019-06-11 | American Innovative Applications Corporation | Multi-functional integrated communications system application |
US10839104B2 (en) * | 2018-06-08 | 2020-11-17 | Microsoft Technology Licensing, Llc | Obfuscating information related to personally identifiable information (PII) |
US10885225B2 (en) * | 2018-06-08 | 2021-01-05 | Microsoft Technology Licensing, Llc | Protecting personally identifiable information (PII) using tagging and persistence of PII |
CN109561066B (zh) * | 2018-10-15 | 2022-02-01 | 达闼机器人有限公司 | 数据处理方法、装置、终端及接入点计算机 |
US11113409B2 (en) * | 2018-10-26 | 2021-09-07 | Pure Storage, Inc. | Efficient rekey in a transparent decrypting storage array |
US11030349B2 (en) * | 2018-10-26 | 2021-06-08 | International Business Machines Corporation | Secure data display |
US20200175094A1 (en) * | 2018-12-03 | 2020-06-04 | Bank Of America Corporation | Document visualization and distribution layering system |
US10824894B2 (en) | 2018-12-03 | 2020-11-03 | Bank Of America Corporation | Document content identification utilizing the font |
US11340863B2 (en) * | 2019-03-29 | 2022-05-24 | Tata Consultancy Services Limited | Systems and methods for muting audio information in multimedia files and retrieval thereof |
EP3726412B1 (en) * | 2019-04-18 | 2022-04-06 | Sap Se | Selectively verifying personal data |
US11089092B1 (en) * | 2020-03-31 | 2021-08-10 | EMC IP Holding Company LLC | N-tier workload and data placement and orchestration |
US11636078B2 (en) * | 2020-04-24 | 2023-04-25 | Servicenow, Inc. | Personally identifiable information storage detection by searching a metadata source |
US20210342541A1 (en) * | 2020-05-01 | 2021-11-04 | Salesforce.Com, Inc. | Stable identification of entity mentions |
US11755848B1 (en) | 2020-05-14 | 2023-09-12 | Wells Fargo Bank, N.A. | Processing structured and unstructured text to identify sensitive information |
US11496446B1 (en) * | 2020-05-21 | 2022-11-08 | NortonLifeLock Inc. | Protecting personally identifiable information submitted through a browser |
US20210409204A1 (en) * | 2020-06-30 | 2021-12-30 | Bank Of America Corporation | Encryption of protected data for transmission over a web interface |
US11870757B1 (en) | 2021-04-14 | 2024-01-09 | Wells Fargo Bank, N.A. | Protecting customer personal information in application pipeline |
JP2023019795A (ja) * | 2021-07-29 | 2023-02-09 | 株式会社日立製作所 | データ流通仲介装置およびデータ流通仲介方法 |
US20230362148A1 (en) * | 2022-05-03 | 2023-11-09 | Capital One Services, Llc | Aggregating Permissions Across Multiple Platforms with Co-Signers |
KR20230159087A (ko) * | 2022-05-13 | 2023-11-21 | 주식회사 헤세그 | 조합된 정보가 저장된 블록체인 상의 토큰 이용 방법 및 그 시스템 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050132070A1 (en) * | 2000-11-13 | 2005-06-16 | Redlich Ron M. | Data security system and method with editor |
CN1725226A (zh) * | 2003-03-11 | 2006-01-25 | 微软公司 | 保护身份信息的***和方法 |
CN101084642A (zh) * | 2003-10-23 | 2007-12-05 | 微软公司 | 用于身份识别的方法和*** |
US20150213288A1 (en) * | 2014-01-30 | 2015-07-30 | Microsoft Corporation | Scrubber to Remove Personally Identifiable Information |
US20160239668A1 (en) * | 2015-02-13 | 2016-08-18 | Konica Minolta Laboratory U.S.A., Inc. | Document redaction with data retention |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10326798B2 (en) * | 1998-07-16 | 2019-06-18 | Grid7, LLC | System and method for secure data transmission and storage |
US6275824B1 (en) | 1998-10-02 | 2001-08-14 | Ncr Corporation | System and method for managing data privacy in a database management system |
US6397224B1 (en) | 1999-12-10 | 2002-05-28 | Gordon W. Romney | Anonymously linking a plurality of data records |
US20050065824A1 (en) | 2003-07-15 | 2005-03-24 | Mark Kohan | Data privacy management systems and methods |
US7302569B2 (en) | 2003-08-19 | 2007-11-27 | International Business Machines Corporation | Implementation and use of a PII data access control facility employing personally identifying information labels and purpose serving functions sets |
US20060143459A1 (en) | 2004-12-23 | 2006-06-29 | Microsoft Corporation | Method and system for managing personally identifiable information and sensitive information in an application-independent manner |
US9355273B2 (en) | 2006-12-18 | 2016-05-31 | Bank Of America, N.A., As Collateral Agent | System and method for the protection and de-identification of health care data |
US7904471B2 (en) | 2007-08-09 | 2011-03-08 | International Business Machines Corporation | Method, apparatus and computer program product for preserving privacy in data mining |
US7711749B2 (en) | 2007-08-20 | 2010-05-04 | International Business Machines Corporation | Privacy ontology for identifying and classifying personally identifiable information and a related GUI |
AU2011201369A1 (en) | 2010-03-25 | 2011-10-13 | Rl Solutions | Systems and methods for redacting sensitive data entries |
GB2485783A (en) | 2010-11-23 | 2012-05-30 | Kube Partners Ltd | Method for anonymising personal information |
EP2691950A4 (en) * | 2011-03-28 | 2015-03-18 | Ambientz | PROCEDURES AND SYSTEMS FOR SEARCH OPERATIONS WITH THE HELP OF AN ACOUSTIC CONTEXT |
US20130266127A1 (en) | 2012-04-10 | 2013-10-10 | Raytheon Bbn Technologies Corp | System and method for removing sensitive data from a recording |
US10771247B2 (en) * | 2013-03-15 | 2020-09-08 | Commerce Signals, Inc. | Key pair platform and system to manage federated trust networks in distributed advertising |
WO2015105994A1 (en) | 2014-01-08 | 2015-07-16 | Callminer, Inc. | Real-time conversational analytics facility |
US20160283473A1 (en) * | 2015-03-26 | 2016-09-29 | Gnoetics, Inc. | Method and Computer Program Product for Implementing an Identity Control System |
US9684798B2 (en) | 2015-05-01 | 2017-06-20 | International Business Machines Corporation | Audience-based sensitive information handling for shared collaborative documents |
US11616825B2 (en) * | 2015-12-18 | 2023-03-28 | Aetna Inc. | System and method of aggregating and interpreting data from connected devices |
US9886584B2 (en) | 2016-02-25 | 2018-02-06 | International Business Machines Corporation | Optimized redaction system |
US11019101B2 (en) * | 2016-03-11 | 2021-05-25 | Netskope, Inc. | Middle ware security layer for cloud computing services |
US10242282B2 (en) * | 2017-03-20 | 2019-03-26 | Conduent Business Services, Llc | Video redaction method and system |
US11153331B2 (en) * | 2017-04-24 | 2021-10-19 | HeFei HoloNet Security Technology Co.. Ltd. | Detection of an ongoing data breach based on relationships among multiple network elements |
US10929561B2 (en) * | 2017-11-06 | 2021-02-23 | Microsoft Technology Licensing, Llc | Removing personally identifiable data before transmission from a device |
US10839104B2 (en) | 2018-06-08 | 2020-11-17 | Microsoft Technology Licensing, Llc | Obfuscating information related to personally identifiable information (PII) |
US10885225B2 (en) * | 2018-06-08 | 2021-01-05 | Microsoft Technology Licensing, Llc | Protecting personally identifiable information (PII) using tagging and persistence of PII |
-
2018
- 2018-06-08 US US16/003,739 patent/US10885225B2/en active Active
-
2019
- 2019-05-31 CN CN201980039002.2A patent/CN112262388A/zh active Pending
- 2019-05-31 EP EP19731098.0A patent/EP3788533B1/en active Active
- 2019-05-31 WO PCT/US2019/034774 patent/WO2019236389A1/en unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050132070A1 (en) * | 2000-11-13 | 2005-06-16 | Redlich Ron M. | Data security system and method with editor |
CN1725226A (zh) * | 2003-03-11 | 2006-01-25 | 微软公司 | 保护身份信息的***和方法 |
CN101084642A (zh) * | 2003-10-23 | 2007-12-05 | 微软公司 | 用于身份识别的方法和*** |
US20150213288A1 (en) * | 2014-01-30 | 2015-07-30 | Microsoft Corporation | Scrubber to Remove Personally Identifiable Information |
US20160239668A1 (en) * | 2015-02-13 | 2016-08-18 | Konica Minolta Laboratory U.S.A., Inc. | Document redaction with data retention |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114911763A (zh) * | 2021-02-09 | 2022-08-16 | 安讯士有限公司 | 存储包含个人数据的媒体和擦除个人数据的设备和方法 |
US11809598B2 (en) | 2021-02-09 | 2023-11-07 | Axis Ab | Devices and methods for safe storage of media containing personal data and erasure of stored personal data |
Also Published As
Publication number | Publication date |
---|---|
EP3788533B1 (en) | 2023-05-03 |
US10885225B2 (en) | 2021-01-05 |
US20190377900A1 (en) | 2019-12-12 |
WO2019236389A1 (en) | 2019-12-12 |
EP3788533A1 (en) | 2021-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3788533B1 (en) | Protecting personally identifiable information (pii) using tagging and persistence of pii | |
EP3803668B1 (en) | Obfuscating information related to personally identifiable information (pii) | |
McGregor et al. | Investigating the computer security practices and needs of journalists | |
US20200394327A1 (en) | Data security compliance for mobile device applications | |
US11256825B2 (en) | Systems and methods for securing data in electronic communications | |
US9235629B1 (en) | Method and apparatus for automatically correlating related incidents of policy violations | |
CN102959558B (zh) | 用于文档策略实施的***和方法 | |
US8127149B1 (en) | Method and apparatus for content based encryption | |
US10127401B2 (en) | Redacting restricted content in files | |
US8499152B1 (en) | Data positioning and alerting system | |
US20200082111A1 (en) | Security Application for Data Security Formatting, Tagging and Control | |
EP3427436A1 (en) | Management of workflows | |
US8881307B2 (en) | Electronic file security management platform | |
US20170149568A1 (en) | Generating Enhanced Digital Signatures for Artifacts | |
JP2008160485A (ja) | 文書管理システム及び文書管理方法、文書管理サーバ、作業端末、並びにプログラム | |
US20210357410A1 (en) | Method for managing data of digital documents | |
US11507686B2 (en) | System and method for encrypting electronic documents containing confidential information | |
JP2005141483A (ja) | 文書提供サーバ装置 | |
Salama et al. | Metadata based forensic analysis of digital information in the web | |
Rosenberg | Returning to Plato's Cave: Metadata's Shadows in the Courtroom | |
RU2791954C1 (ru) | Способ, система и машиночитаемый носитель для подачи анонимных корпоративных жалоб | |
US11768950B2 (en) | Method for data protection across sharing platforms | |
US20230283620A1 (en) | Systems and methods for monitoring anomalous messages based on relevance to a process | |
JP2010097343A (ja) | 情報拡散システム、情報拡散装置、情報拡散方法、および情報拡散プログラム | |
EP3864558A1 (en) | Method for managing data of digital documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |