CN113283232A - 自动解析文本中隐私信息的方法和装置 - Google Patents

自动解析文本中隐私信息的方法和装置 Download PDF

Info

Publication number
CN113283232A
CN113283232A CN202110601345.2A CN202110601345A CN113283232A CN 113283232 A CN113283232 A CN 113283232A CN 202110601345 A CN202110601345 A CN 202110601345A CN 113283232 A CN113283232 A CN 113283232A
Authority
CN
China
Prior art keywords
text
privacy
word
words
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110601345.2A
Other languages
English (en)
Inventor
鲍梦瑶
刘佳伟
章鹏
刘新源
张谦
贾茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110601345.2A priority Critical patent/CN113283232A/zh
Publication of CN113283232A publication Critical patent/CN113283232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种自动解析文本中隐私信息的方法和装置,方法包括:获取待解析文本;对所述待解析文本进行分词处理,得到包含若干个词语的词序列;对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。能够提升文本的解析效果。

Description

自动解析文本中隐私信息的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及自动解析文本中隐私信息的方法和装置。
背景技术
隐私数据(private data)或秘密数据,是指不想被他人或无关人等获知的信息,从隐私的所有者的角度,可以将隐私数据分为个人隐私数据和共同隐私数据,其中个人隐私数据包括可以用来定位或者识别个人的信息(如电话号码、地址、信用***等)和敏感信息(如个人健康情况、财务信息、公司重要文件等)。共同隐私数据主要以家庭隐私为主,如家庭年收入情况等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。为了防止隐私数据的泄露和滥用,常常会涉及自动解析文本中隐私信息。
现有技术中,利用提前标注的数据构建命名实体模型,而后利用命名实体模型从文本中抽取隐私信息。由于需要大量的标注数据,标注难度大,且模型计算复杂,对文本的解析效果不佳。
因此,希望能有改进的方案,能够提升文本的解析效果。
发明内容
本说明书一个或多个实施例描述了一种自动解析文本中隐私信息的方法和装置,能够提升文本的解析效果。
第一方面,提供了一种自动解析文本中隐私信息的方法,方法包括:
获取待解析文本;
对所述待解析文本进行分词处理,得到包含若干个词语的词序列;
对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;
根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;
将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;
根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。
在一种可能的实施方式中,所述对所述待解析文本进行分词处理,包括:
将所述待解析文本拆分为多个语句;
将所述多个语句中的任一语句作为目标语句,将所述目标语句输入迁移学习模型,通过所述迁移学习模型对所述目标语句进行分词处理,得到包含若干个词语的词序列。
在一种可能的实施方式中,所述对所述词序列进行基于上下文的编码,包括:
将所述词序列输入深度学习模型的编码层,通过所述编码层对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。
进一步地,所述根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率,包括:
将所述词向量输入所述深度学习模型的分类层,通过所述分类层输出其对应的词语分别属于多个隐私信息类别的各概率。
在一种可能的实施方式中,所述根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果,包括:
根据词语的归属类别和该词语在所述词序列中的位置,检查所述待解析文本中相邻位置的多个词语是否为同一归属类别;
合并同一归属类别的相邻位置的多个词语,作为一个结果单元,将结果单元对应的归属类别和其在所述词序列中的位置确定为所述待解析文本的解析结果。
在一种可能的实施方式中,所述待解析文本为应用程序的隐私声明文本;
所述多个隐私信息类别包括:不含隐私信息和隐私声明合规信息的非隐私类别,以及对应于若干个预设种类的隐私声明合规信息的若干个隐私类别。
进一步地,所述若干个预设种类的隐私声明合规信息包括以下至少一种:
隐私信息存储期限、隐私信息超期处理方式、隐私信息存放地域、申诉和反馈渠道、应用程序运营者基本情况、隐私信息保护负责人联系方式。
在一种可能的实施方式中,所述待解析文本为应用程序的隐私声明文本;
所述确定所述待解析文本的解析结果之后,所述方法还包括:
获取所述应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;
根据所述待解析文本的解析结果,确定所述隐私声明文本声明采集的隐私信息类别构成的第二类别集合;
当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。
第二方面,提供了一种自动解析文本中隐私信息的装置,装置包括:
获取单元,用于获取待解析文本;
分词单元,用于对所述获取单元获取的待解析文本进行分词处理,得到包含若干个词语的词序列;
编码单元,用于对所述分词单元得到的词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;
概率确定单元,用于根据所述编码单元得到的词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;
类别确定单元,用于将所述概率确定单元得到的各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;
结果确定单元,用于根据所述类别确定单元得到的词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取待解析文本;然后对所述待解析文本进行分词处理,得到包含若干个词语的词序列;接着对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;再根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;接着将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;最后根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。由上可见,本说明书实施例,先对待解析文本进行分词处理,然后确定各词语的归属类别,不仅可以得到文本中包含的词语的隐私信息类别,还可以获得各隐私信息类别的词语在文本中出现的位置,上述位置是通过分词得到的词序列中自然形成的位置,无需通过人工标注的位置数据训练模型,能够提升文本的解析效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的自动解析文本中隐私信息的方法流程图;
图3示出根据一个实施例的针对文本示例的解析过程图;
图4示出根据另一个实施例的针对文本示例的解析过程图;
图5示出根据一个实施例的多分类模型结构示意图;
图6示出根据一个实施例的隐私合规的整体架构示意图;
图7示出根据一个实施例的自动解析文本中隐私信息的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及自动解析文本中隐私信息,其中,待解析文本可以为应用程序(application,App)的隐私声明文本,通过解析隐私声明文本,可以获知该隐私声明文本声明采集的隐私信息类别,以及相应隐私信息出现的位置。参照图1,待解析文本通常为长文本,包括多个语句,例如,图1中以句号分隔的多个语句,各语句中可能包括隐私信息以及非隐私信息,为了突出表示文本中的隐私信息,图中非隐私信息用*表示,通过解析隐私声明文本,可以获知该隐私声明文本声明采集的隐私信息包括隐私信息1、隐私信息2、隐私信息3、隐私信息4和隐私信息5,其中,隐私信息1属于隐私信息类别1,其在隐私声明文本中的位置为位置1,隐私信息2属于隐私信息类别2,其在隐私声明文本中的位置为位置2,隐私信息3属于隐私信息类别3,其在隐私声明文本中的位置为位置3,隐私信息4属于隐私信息类别1,其在隐私声明文本中的位置为位置4,隐私信息5属于隐私信息类别2,其在隐私声明文本中的位置为位置5。可以理解的是,不同的隐私信息可以具有相同的隐私信息类别,比如隐私信息1和隐私信息4均属于隐私信息类别1,隐私信息2和隐私信息5均属于隐私信息类别2,该隐私声明文本声明采集的隐私信息类别包括隐私信息类别1、隐私信息类别2和隐私信息类别3,后续可以根据隐私声明文本的解析结果判断相应的应用程序是否合规,上述合规包括符合法律法规中允许所述应用程序采集的隐私信息类别。
隐私信息通常比较具体,隐私信息类别相对于隐私信息范围更广,通常地,一个隐私信息类别对应有多个隐私信息。表一为本说明书实施例提供的隐私信息与隐私信息类别的对应关系表。
表一:隐私信息与隐私信息类别的对应关系表
Figure BDA0003092794170000041
Figure BDA0003092794170000051
需要说明的是,本说明书实施例提供了一种文本解析方法,其应用场景非常广泛,可以应用于各种文本解析场景。例如,除了应用于自动解析文本中隐私信息,还可以应用于自动解析文本中颜色信息,得到文本中包括的颜色类别及颜色信息在文本中的位置,上述颜色信息可以包括红色、蓝色等,上述颜色类别可以包括冷色调、暖色调等;或者,自动解析文本中地域信息,得到文本中包括的地域类别及地域信息在文本中的位置,上述地域信息可以包括北京、纽约等,上述地域类别可以包括中国、美国等;或者,自动解析文本中价格信息,得到文本中包括的价格类别及价格信息在文本中的位置,上述价格信息可以包括5元、100元等,上述价格类别可以包括分别对应于各价格区间的类别;或者,自动解析文本中商品信息,得到文本中包括的商品类别及商品信息在文本中的位置,上述商品信息可以包括铅笔、洗衣机等,上述商品类别可以包括文具类、电器类等。本说明书实施例,在各种文本解析场景中均能够得出信息的类别和其在文本中出现的位置。此外,待解析文本也并不限定为应用程序的隐私声明文本,例如,待解析文本可以为商品的说明书等。
图2示出根据一个实施例的自动解析文本中隐私信息的方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中自动解析文本中隐私信息的方法包括以下步骤:步骤21,获取待解析文本;步骤22,对所述待解析文本进行分词处理,得到包含若干个词语的词序列;步骤23,对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;步骤24,根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;步骤25,将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;步骤26,根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取待解析文本。可以理解的是,上述待解析文本通常为长文本,包括多个语句,其中包括隐私信息。
在一个示例中,所述待解析文本为应用程序的隐私声明文本。
应用程序在发布时,需要配上文字版的隐私声明,也就是隐私声明文本,其中应列出企业宣称采集和不采集的各种隐私信息,包括但不限于个人位置信息、个人生物信息等。
然后在步骤22,对所述待解析文本进行分词处理,得到包含若干个词语的词序列。可以理解的是,词序列包含的若干个词语具有自然形成的前后顺序,各词语在词序列中具有特定的位置。
在一个示例中,所述对所述待解析文本进行分词处理,包括:
将所述待解析文本拆分为多个语句;
将所述多个语句中的任一语句作为目标语句,将所述目标语句输入迁移学习模型,通过所述迁移学习模型对所述目标语句进行分词处理,得到包含若干个词语的词序列。
迁移学习(transfer learning)是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。
给定一个字符长度为n的语句{t1,…,tn},经过分词处理后,获得包含m个词语的词序列{w1,…,wm},其中,m通常小于n,也就是说,分词处理后,存在多个字符被划分为一个词语的情况。举例来说,语句为“当您注册、登录并使用相关服务时”,经过分词处理后得到“当/您/注册/、/登录/并/使用/相关/服务/时”,其中,相邻的两个分词之间用/进行分隔,可以看出,注册、登录等分词包括两个字符,而当、您等分词包括一个字符。
接着在步骤23,对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。可以理解的是,词语与词向量是一一对应的,如果词序列包括m个词语,则上述编码后会得到m个向量。
在一个示例中,所述对所述词序列进行基于上下文的编码,包括:
将所述词序列输入深度学习模型的编码层,通过所述编码层对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。
其中,上述编码层可以基于卷积神经网络(convolutional neural networks,CNN)或长短时记忆网络(long short-term memory,LSTM)等实现,适配性好。
如果包含m个词语的词序列表示为{w1,…,wm},则得到各个词语对应的词向量表示为{hw1,…,hwm}。
再在步骤24,根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率。可以理解的是,预先划分了多个隐私信息类别,例如,隐私信息类别1、隐私信息类别2、隐私信息类别3,通过该步骤确定分别确定词语属于隐私信息类别1的概率1,词语属于隐私信息类别2的概率2,词语属于隐私信息类别3的概率3。
在一个示例中,所述根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率,包括:
将所述词向量输入所述深度学习模型的分类层,通过所述分类层输出其对应的词语分别属于多个隐私信息类别的各概率。
分词wi属于隐私信息类别cq的概率可以表示为p(cq\wi)=softmax(W*hwi),其中,hwi为分词wi对应的词向量,W为全连接矩阵,softmax为归一化指数函数,该函数用于将k维向量的每一个元素的范围都控制在(0,1)之间,并且该向量的所有元素的和为1。
在一个示例中,所述待解析文本为应用程序的隐私声明文本;所述多个隐私信息类别包括:不含隐私信息和隐私声明合规信息的非隐私类别,以及对应于若干个预设种类的隐私声明合规信息的若干个隐私类别。
进一步地,所述若干个预设种类的隐私声明合规信息包括以下至少一种:
隐私信息存储期限、隐私信息超期处理方式、隐私信息存放地域、申诉和反馈渠道、应用程序运营者基本情况、隐私信息保护负责人联系方式。可以理解的是,法律法规中除了对应用程序采集的隐私信息类别作出规定之外,还可以对隐私声明文本中包括的上述隐私声明合规信息作出规定,例如,法律法规中规定隐私声明文本中应当包括上述至少一种隐私声明合规信息。表二为本说明书实施例提供的隐私声明合规信息与隐私信息类别的对应关系表。
表二:隐私声明合规信息与隐私信息类别的对应关系表
Figure BDA0003092794170000071
可以理解的是,通常的隐私信息类别包括表一中所列举的个人基本资料、个人身份信息等具体隐私信息对应的隐私类别,本说明书实施例,在此基础上还可以包括隐私信息存储期限、隐私信息超期处理方式等隐私声明合规信息对应的隐私类别,从而提升了对隐私声明文本解析的全面性,便于后续依据解析结果进行合规性检查的全面性。
接着在步骤25,将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别。可以理解的是,词语对应于某一隐私信息类别的概率越大,则该词语越可能属于该隐私信息类别。
举例来说,预先划分的多个隐私信息类别分别为隐私信息类别1、隐私信息类别2和隐私信息类别3,词语1对应于隐私信息类别1的概率为p1,词语1对应于隐私信息类别2的概率为p2,词语1对应于隐私信息类别3的概率为p3,若p1<p2<p3,则确定隐私信息类别3为词语1的归属类别。
最后在步骤26,根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。可以理解的是,可以直接将词语的归属类别和该词语在所述词序列中的位置作为所述待解析文本的解析结果,或者,将词语的归属类别和该词语在所述词序列中的位置作为中间结果,对该中间结果继续分析处理后得到所述待解析文本的解析结果。
在一个示例中,所述根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果,包括:
根据词语的归属类别和该词语在所述词序列中的位置,检查所述待解析文本中相邻位置的多个词语是否为同一归属类别;
合并同一归属类别的相邻位置的多个词语,作为一个结果单元,将结果单元对应的归属类别和其在所述词序列中的位置确定为所述待解析文本的解析结果。
图3示出根据一个实施例的针对文本示例的解析过程图。参照图3,图中涉及的隐私信息类别有O(其他,即不含目标信息)、BI(个人基本资料,为目标信息之一)、III(网络身份标识信息,为目标信息之一),可以理解的是,目标信息即需要从待解析文本中提取的信息,包括隐私信息和隐私声明合规信息。待解析文本中的目标语句首先经迁移学习模型后得到各分词构成的词序列,再对词序列中的每个词语利用深度学习模型进行分类,最终获得待解析文本中涉及的所有隐私信息和隐私合规信息及其在词序列中的位置作为解析结果,例如图3中的手机号属于的隐私信息类别为BI,位置是分词后的词序列中第15个元素。
图4示出根据另一个实施例的针对文本示例的解析过程图。参照图4,图中涉及的隐私信息类别有O(其他,即不含目标信息)、STP(个人信息存储期限,为目标信息之一)和ODP(个人信息超期处理方式,为目标信息之一)。待解析文本中的目标语句首先经迁移学习模型后得到各分词构成的词序列,再对词序列中的每个词语利用深度学习模型进行分类,获得待解析文本中涉及的所有隐私信息和隐私声明合规信息及其在词序列中的位置作为中间结果,图4展示了当隐私信息或隐私声明合规信息是由多个词语构成时,深度学习模型会将这多个词语预测为同一隐私信息类别,之后对位置相邻的同一隐私信息类别(即除隐私信息类别O以外的隐私信息类别)的词语进行合并操作,以得到最终的解析结果,例如图4中“不少”、“于”、“六个月”合并为“不少于六个月”,获得完整的个人信息保存期限信息。
本说明书实施例,采用多分类模型进行文本解析,多分类模型利用了深度学习、迁移学习等手段,自动判断应用程序的隐私声明文本中声明了哪些种类的敏感信息以及相应敏感信息出现的位置,其中,上述敏感信息即为前述隐私信息或隐私声明合规信息。
多分类模型(multi-classification)是有监督学习(supervised learning)的一种,其主要目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。多分类模型具体是根据已知的训练集提供的样本数据,通过计算选择特征参数,创建判别函数对样本进行分类。
有监督学习是机器学习的一种方法,指给定事先标记过的训练示例,对输入的数据进行分类或拟合。
深度学习(deep learning)是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。
图5示出根据一个实施例的多分类模型结构示意图。参照图5,该多分类模型是基于词粒度的词序列分类模型,首先将待解析文本中的句子输入迁移学习模型,通过迁移学习模型对句子进行分词处理,得到多个词语构成的词序列,例如图中的词序列包括词语1,…,词语m,然后将上述词序列输入深度学习模型的编码层,通过该编码层对各词语进行编码,得到各词语分别对应的词向量,例如,词语1对应于词向量1,…,词语m对应于词向量m,接着,将各词向量输入深度学习模型的分类层,通过该分类层得到词序列中的每个词语分别对应于各类别的概率,例如,词语1对应于类别1的概率,…,词语1对应于类别m的概率,根据每个词语分别对应于各类别的概率,可以得到该词语的预测类别,再对相邻位置的属于同一预测类别的词语进行合并处理,从而得到句子中的敏感信息及其所在位置,上述敏感信息可以为隐私信息或隐私声明合规信息。
本说明书实施例提供的方法,还可以与其他的文本解析方式相结合,例如,可以使用正则表达式匹配的方式,获得例如申诉和反馈渠道(电子邮箱、电话、地址)等有显著格式特征的隐私声明合规信息。
本说明书实施例使用端到端的方案,无需提前预判空白句,使用方便,识别效率高。由于基于词粒度,可以在得知文本包含的隐私信息类别的同时,也能获得隐私信息出现的位置,精细化程度高。
在一个示例中,所述待解析文本为应用程序的隐私声明文本;
所述确定所述待解析文本的解析结果之后,所述方法还包括:
获取所述应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;
根据所述待解析文本的解析结果,确定所述隐私声明文本声明采集的隐私信息类别构成的第二类别集合;
当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。
本说明书实施例,针对应用程序的隐私合规检查主要包括:解析法律法规,形成应用程序类别与法律法规允许采集的隐私信息之间的映射。解析应用程序的隐私声明文本,提取隐私声明文本中宣称采集的隐私信息。解析应用程序的代码,提取代码中真实采集的隐私信息。综合上述提取的信息,判断应用程序是否存在违规采集隐私信息的情况。
图6示出根据一个实施例的隐私合规的整体架构示意图。参照图6,决策模块会输入来自三方的数据分析,包括App隐私声明文本中提取出的声明采集的隐私信息,APP代码解析结果指示的实际采集的隐私信息,法律法规解析结果指示的允许采集的隐私信息,最终通过比对三者得出合规报告。本说明书实施例主要针对隐私声明文本的解析提出解决方案,利用了多分类模型实现文本解析,主要分为两个阶段,训练阶段利用提前标注好的数据训练多分类模型。测试阶段,给定某个App的隐私声明文本,首先对文本进行分句分词,将分词之后的结果依次输入到训练好的多分类模型中进行预测,将预测的结果汇总到声明采集的隐私数据集合中,声明采集的隐私数据集合维护了该App隐私声明文本中声明采集的所有隐私信息及相应位置。
通过本说明书实施例提供的方法,首先获取待解析文本;然后对所述待解析文本进行分词处理,得到包含若干个词语的词序列;接着对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;再根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;接着将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;最后根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。由上可见,本说明书实施例,先对待解析文本进行分词处理,然后确定各词语的归属类别,不仅可以得到文本中包含的词语的隐私信息类别,还可以获得各隐私信息类别的词语在文本中出现的位置,上述位置是通过分词得到的词序列中自然形成的位置,无需通过人工标注的位置数据训练模型,能够提升文本的解析效果。
根据另一方面的实施例,还提供一种自动解析文本中隐私信息的装置,该装置用于执行本说明书实施例提供的自动解析文本中隐私信息的方法。图7示出根据一个实施例的自动解析文本中隐私信息的装置的示意性框图。如图7所示,该装置700包括:
获取单元71,用于获取待解析文本;
分词单元72,用于对所述获取单元71获取的待解析文本进行分词处理,得到包含若干个词语的词序列;
编码单元73,用于对所述分词单元72得到的词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;
概率确定单元74,用于根据所述编码单元73得到的词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;
类别确定单元75,用于将所述概率确定单元74得到的各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;
结果确定单元76,用于根据所述类别确定单元75得到的词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。
可选地,作为一个实施例,所述分词单元72包括:
语句拆分子单元,用于将所述待解析文本拆分为多个语句;
分词子单元,用于将所述语句拆分子单元得到的多个语句中的任一语句作为目标语句,将所述目标语句输入迁移学习模型,通过所述迁移学习模型对所述目标语句进行分词处理,得到包含若干个词语的词序列。
可选地,作为一个实施例,所述编码单元73,具体用于将所述词序列输入深度学习模型的编码层,通过所述编码层对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。
进一步地,所述概率确定单元74,具体用于将所述词向量输入所述深度学习模型的分类层,通过所述分类层输出其对应的词语分别属于多个隐私信息类别的各概率。
可选地,作为一个实施例,所述结果确定单元76包括:
检查子单元,用于根据词语的归属类别和该词语在所述词序列中的位置,检查所述待解析文本中相邻位置的多个词语是否为同一归属类别;
合并子单元,用于合并所述检查子单元得到的同一归属类别的相邻位置的多个词语,作为一个结果单元,将结果单元对应的归属类别和其在所述词序列中的位置确定为所述待解析文本的解析结果。
可选地,作为一个实施例,所述待解析文本为应用程序的隐私声明文本;
所述多个隐私信息类别包括:不含隐私信息和隐私声明合规信息的非隐私类别,以及对应于若干个预设种类的隐私声明合规信息的若干个隐私类别。
进一步地,所述若干个预设种类的隐私声明合规信息包括以下至少一种:
隐私信息存储期限、隐私信息超期处理方式、隐私信息存放地域、申诉和反馈渠道、应用程序运营者基本情况、隐私信息保护负责人联系方式。
可选地,作为一个实施例,所述待解析文本为应用程序的隐私声明文本;
所述装置还包括:
结果获取单元,用于在所述结果确定单元76确定所述待解析文本的解析结果之后,获取所述应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;
集合确定单元,用于根据所述待解析文本的解析结果,确定所述隐私声明文本声明采集的隐私信息类别构成的第二类别集合;
合规确定单元,用于当所述结果获取单元得到的第一类别集合与所述集合确定单元得到的第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。
通过本说明书实施例提供的装置,首先获取单元71获取待解析文本;然后分词单元72对所述待解析文本进行分词处理,得到包含若干个词语的词序列;接着编码单元73对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;概率确定单元74再根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;接着类别确定单元75将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;最后结果确定单元76根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。由上可见,本说明书实施例,先对待解析文本进行分词处理,然后确定各词语的归属类别,不仅可以得到文本中包含的词语的隐私信息类别,还可以获得各隐私信息类别的词语在文本中出现的位置,上述位置是通过分词得到的词序列中自然形成的位置,无需通过人工标注的位置数据训练模型,能够提升文本的解析效果。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (18)

1.一种自动解析文本中隐私信息的方法,所述方法包括:
获取待解析文本;
对所述待解析文本进行分词处理,得到包含若干个词语的词序列;
对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;
根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;
将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;
根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。
2.如权利要求1所述的方法,其中,所述对所述待解析文本进行分词处理,包括:
将所述待解析文本拆分为多个语句;
将所述多个语句中的任一语句作为目标语句,将所述目标语句输入迁移学习模型,通过所述迁移学习模型对所述目标语句进行分词处理,得到包含若干个词语的词序列。
3.如权利要求1所述的方法,其中,所述对所述词序列进行基于上下文的编码,包括:
将所述词序列输入深度学习模型的编码层,通过所述编码层对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。
4.如权利要求3所述的方法,其中,所述根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率,包括:
将所述词向量输入所述深度学习模型的分类层,通过所述分类层输出其对应的词语分别属于多个隐私信息类别的各概率。
5.如权利要求1所述的方法,其中,所述根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果,包括:
根据词语的归属类别和该词语在所述词序列中的位置,检查所述待解析文本中相邻位置的多个词语是否为同一归属类别;
合并同一归属类别的相邻位置的多个词语,作为一个结果单元,将结果单元对应的归属类别和其在所述词序列中的位置确定为所述待解析文本的解析结果。
6.如权利要求1所述的方法,其中,所述待解析文本为应用程序的隐私声明文本;
所述多个隐私信息类别包括:不含隐私信息和隐私声明合规信息的非隐私类别,以及对应于若干个预设种类的隐私声明合规信息的若干个隐私类别。
7.如权利要求6所述的方法,其中,所述若干个预设种类的隐私声明合规信息包括以下至少一种:
隐私信息存储期限、隐私信息超期处理方式、隐私信息存放地域、申诉和反馈渠道、应用程序运营者基本情况、隐私信息保护负责人联系方式。
8.如权利要求1所述的方法,其中,所述待解析文本为应用程序的隐私声明文本;
所述确定所述待解析文本的解析结果之后,所述方法还包括:
获取所述应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;
根据所述待解析文本的解析结果,确定所述隐私声明文本声明采集的隐私信息类别构成的第二类别集合;
当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。
9.一种自动解析文本中隐私信息的装置,所述装置包括:
获取单元,用于获取待解析文本;
分词单元,用于对所述获取单元获取的待解析文本进行分词处理,得到包含若干个词语的词序列;
编码单元,用于对所述分词单元得到的词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;
概率确定单元,用于根据所述编码单元得到的词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;
类别确定单元,用于将所述概率确定单元得到的各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;
结果确定单元,用于根据所述类别确定单元得到的词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。
10.如权利要求9所述的装置,其中,所述分词单元包括:
语句拆分子单元,用于将所述待解析文本拆分为多个语句;
分词子单元,用于将所述语句拆分子单元得到的多个语句中的任一语句作为目标语句,将所述目标语句输入迁移学习模型,通过所述迁移学习模型对所述目标语句进行分词处理,得到包含若干个词语的词序列。
11.如权利要求9所述的装置,其中,所述编码单元,具体用于将所述词序列输入深度学习模型的编码层,通过所述编码层对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。
12.如权利要求11所述的装置,其中,所述概率确定单元,具体用于将所述词向量输入所述深度学习模型的分类层,通过所述分类层输出其对应的词语分别属于多个隐私信息类别的各概率。
13.如权利要求9所述的装置,其中,所述结果确定单元包括:
检查子单元,用于根据词语的归属类别和该词语在所述词序列中的位置,检查所述待解析文本中相邻位置的多个词语是否为同一归属类别;
合并子单元,用于合并所述检查子单元得到的同一归属类别的相邻位置的多个词语,作为一个结果单元,将结果单元对应的归属类别和其在所述词序列中的位置确定为所述待解析文本的解析结果。
14.如权利要求9所述的装置,其中,所述待解析文本为应用程序的隐私声明文本;
所述多个隐私信息类别包括:不含隐私信息和隐私声明合规信息的非隐私类别,以及对应于若干个预设种类的隐私声明合规信息的若干个隐私类别。
15.如权利要求14所述的装置,其中,所述若干个预设种类的隐私声明合规信息包括以下至少一种:
隐私信息存储期限、隐私信息超期处理方式、隐私信息存放地域、申诉和反馈渠道、应用程序运营者基本情况、隐私信息保护负责人联系方式。
16.如权利要求9所述的装置,其中,所述待解析文本为应用程序的隐私声明文本;
所述装置还包括:
结果获取单元,用于在所述结果确定单元确定所述待解析文本的解析结果之后,获取所述应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;
集合确定单元,用于根据所述待解析文本的解析结果,确定所述隐私声明文本声明采集的隐私信息类别构成的第二类别集合;
合规确定单元,用于当所述结果获取单元得到的第一类别集合与所述集合确定单元得到的第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项的所述的方法。
CN202110601345.2A 2021-05-31 2021-05-31 自动解析文本中隐私信息的方法和装置 Pending CN113283232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110601345.2A CN113283232A (zh) 2021-05-31 2021-05-31 自动解析文本中隐私信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110601345.2A CN113283232A (zh) 2021-05-31 2021-05-31 自动解析文本中隐私信息的方法和装置

Publications (1)

Publication Number Publication Date
CN113283232A true CN113283232A (zh) 2021-08-20

Family

ID=77282723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110601345.2A Pending CN113283232A (zh) 2021-05-31 2021-05-31 自动解析文本中隐私信息的方法和装置

Country Status (1)

Country Link
CN (1) CN113283232A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742773A (zh) * 2021-08-31 2021-12-03 平安普惠企业管理有限公司 一种隐私弹框检测方法、装置、设备及存储介质
CN115168901A (zh) * 2022-07-22 2022-10-11 中国电信股份有限公司 合规判别方法、装置、存储介质及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436198A (zh) * 2008-12-12 2009-05-20 腾讯科技(深圳)有限公司 提高搜索准确率的方法和装置
CN108153734A (zh) * 2017-12-26 2018-06-12 北京嘉和美康信息技术有限公司 一种文本处理方法及装置
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质
CN110427610A (zh) * 2019-06-25 2019-11-08 平安科技(深圳)有限公司 文本分析方法、装置、计算机装置及计算机存储介质
CN110532391A (zh) * 2019-08-30 2019-12-03 网宿科技股份有限公司 一种文本词性标注的方法及装置
CN110807314A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 文本情感分析模型训练方法、装置、设备及可读存储介质
CN111400705A (zh) * 2020-03-04 2020-07-10 支付宝(杭州)信息技术有限公司 一种应用程序的检测方法、装置及设备
CN112257114A (zh) * 2020-12-02 2021-01-22 支付宝(杭州)信息技术有限公司 一种应用程序隐私合规检测方法、装置、设备和介质
CN112287664A (zh) * 2020-12-28 2021-01-29 望海康信(北京)科技股份公司 文本指标数据解析方法、***及相应设备和存储介质
CN112364167A (zh) * 2020-11-20 2021-02-12 携程计算机技术(上海)有限公司 基于深度学习的意图识别方法、***、设备及存储介质
CN112699679A (zh) * 2021-03-25 2021-04-23 北京沃丰时代数据科技有限公司 情绪识别方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436198A (zh) * 2008-12-12 2009-05-20 腾讯科技(深圳)有限公司 提高搜索准确率的方法和装置
CN108153734A (zh) * 2017-12-26 2018-06-12 北京嘉和美康信息技术有限公司 一种文本处理方法及装置
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质
CN110427610A (zh) * 2019-06-25 2019-11-08 平安科技(深圳)有限公司 文本分析方法、装置、计算机装置及计算机存储介质
CN110532391A (zh) * 2019-08-30 2019-12-03 网宿科技股份有限公司 一种文本词性标注的方法及装置
CN110807314A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 文本情感分析模型训练方法、装置、设备及可读存储介质
WO2021051598A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 文本情感分析模型训练方法、装置、设备及可读存储介质
CN111400705A (zh) * 2020-03-04 2020-07-10 支付宝(杭州)信息技术有限公司 一种应用程序的检测方法、装置及设备
CN112364167A (zh) * 2020-11-20 2021-02-12 携程计算机技术(上海)有限公司 基于深度学习的意图识别方法、***、设备及存储介质
CN112257114A (zh) * 2020-12-02 2021-01-22 支付宝(杭州)信息技术有限公司 一种应用程序隐私合规检测方法、装置、设备和介质
CN112287664A (zh) * 2020-12-28 2021-01-29 望海康信(北京)科技股份公司 文本指标数据解析方法、***及相应设备和存储介质
CN112699679A (zh) * 2021-03-25 2021-04-23 北京沃丰时代数据科技有限公司 情绪识别方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742773A (zh) * 2021-08-31 2021-12-03 平安普惠企业管理有限公司 一种隐私弹框检测方法、装置、设备及存储介质
CN115168901A (zh) * 2022-07-22 2022-10-11 中国电信股份有限公司 合规判别方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
EP3588279B1 (en) Automated extraction of rules embedded in software application code using machine learning
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
US20210240682A1 (en) Automatic entity resolution with rules detection and generation system
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及***
CN110348214B (zh) 对恶意代码检测的方法及***
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN111444723A (zh) 信息抽取模型训练方法、装置、计算机设备和存储介质
CN109885597B (zh) 基于机器学习的用户分群处理方法、装置及电子终端
CN111461681B (zh) 审核方法以及装置
CN112613917A (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN111460250A (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN113283232A (zh) 自动解析文本中隐私信息的方法和装置
CN109783805B (zh) 一种网络社区用户识别方法、装置和可读存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN113326536A (zh) 应用程序的合规性判别方法和装置
CN111190946A (zh) 报告生成方法、装置、计算机设备和存储介质
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN116070019A (zh) 一种基于大数据的智能招商推荐方法、***和可读存储介质
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN113268588A (zh) 文本摘要提取方法、装置、设备、存储介质及程序产品
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN114491010A (zh) 信息抽取模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination