CN115630357A

CN115630357A - 一种应用程序越界收集个人信息行为的判定方法

Info

Publication number: CN115630357A
Application number: CN202211320374.2A
Authority: CN
Inventors: 黄诚; 陈俊任; 王子岩
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-20
Anticipated expiration: 2042-10-26
Also published as: CN115630357B

Abstract

本发明公开了一种应用程序越界收集个人信息行为的判定方法，包括：训练Word2vector词嵌入模型；训练命名实体识别模型；训练文本分类模型；确定每种类型的应用程序的基本业务和必要个人信息，形成合规三元组。形成待检测隐私政策文本的XML树结构；计算XML树中节点的title属性值与预定义文本的相似度，若相似度大于阈值，则将该节点中的文本内容作为第二信息；从所述第二信息中提取出业务内容和个人信息类别；利用文本分类模型预测业务内容的业务种类，形成待检测三元组；根据待检测应用程序的类型获取对应的合规三元组，将合规三元组与待检测三元组进行对比。本发明的方法极大提高了对隐私政策文本的解析速度和准确率。

Description

一种应用程序越界收集个人信息行为的判定方法

技术领域

本发明涉及信息安全技术领域，特别是涉及一种应用程序越界收集个人信息行为的判定方法。

背景技术

随着国内移动应用程序数量与手机上网网民数量的爆发式增长，用户数据泄漏、个人信息越界收集等问题越发严重，严重威胁了广大用户的个人信息安全。虽然目前已有一些针对移动应用程序行为分析的方法，但是这些方法仍然存在一些不足。例如，隐私政策文本虽然是非结构化数据，但是大多隐私政策通常是隐含一定的结构特征的，例如通常会以序号、小标题等形式来进行分块和引导，每一块描述隐私政策的不同内容，如图1所示，现有方法没有利用这样的结构特征，可能会导致机器学习模型对文本语义的理解出现偏差、模型准确率较低的问题；且现有方法大多使用深度学习模型，可能造成计算量大、效率较低等问题。

发明内容

本发明的目的在于克服现有技术的一项或多项不足，提供一种应用程序越界收集个人信息行为的判定方法。

本发明的目的是通过以下技术方案来实现的：一种应用程序越界收集个人信息行为的判定方法，包括：

S100.获取原始语料库，并基于所述原始语料库训练Word2vector词嵌入模型，所述原始语料库为应用程序市场中各应用程序的隐私政策文本；

S200.基于第一信息进行训练得到用于识别命名实体的命名实体识别模型，所述第一信息为所述原始语料库中关于个人信息收集与使用的描述内容，所述命名实体包括业务内容和个人信息类别；

S300.利用预先标注的数据集训练文本分类模型；

S400.根据预设规则确定每种类型的应用程序的基本业务和必要个人信息，并形成各类应用程序的合规三元组，所述合规三元组包括应用程序类型、基本业务和必要个人信息。

S500.提取待检测隐私政策文本中的序号和小标题作为节点，形成所述待检测隐私政策文本的XML树结构，其中，所述序号作为所述XML树结构中节点的mark属性值，所述小标题作为XML树结构中节点的title属性值；

S600.利用所述Word2vector词嵌入模型计算所述XML树中节点的title属性值与预定义文本的相似度，若相似度大于阈值，则将该节点中的文本内容作为第二信息；S700.利用所述命名实体识别模型从所述第二信息中提取出业务内容和个人信息类别，并形成二元组，所述二元组包括业务内容和个人信息类别；

S800.获取待检测隐私政策文本中包括所述业务内容的描述文本，基于所述描述文本、利用文本分类模型预测所述业务内容的业务种类，并形成待检测三元组，所述待检测三元组包括业务内容、业务种类和个人信息类别；

S900.根据待检测应用程序的类型获取对应的合规三元组，并将获取到的合规三元组与待检测三元组进行对比，判断应用程序是否越界收集个人信息。

优选的，所述命名实体识别模型为LSTM+CRF模型、BiLSTM+CRF模型或ID-CNN+CRF模型。

优选的，所述文本分类模型为SVM模型、LSTM+softmax模型、BiLSTM+sofmax模型或TextCNN模型。

优选的，利用预先标注的数据集训练文本分类模型，包括：

S310.获取基本业务的描述语句样本和附加业务的描述语句样本；

S320.对所述描述语句样本进行第一预处理；

S330.将经第一预处理后的描述语句样本输入TextCNN模型，所述TextCNN模型的输出为所述描述语句样本属于基本业务和附加业务两个类别的概率向量，然后利用所述描述语句样本的真实类别标签对TextCNN模型进行训练、直至TextCNN模型收敛，最终得到文本分类模型。

优选的，对所述描述语句样本进行第一预处理，包括：

S321.对所述描述语句样本进行分词；

S322.对分词后的描述语句样本去除停用词；

S323.根据预先定义的值对去除停用词后的描述语句样本的文本长度进行填充和截断，以使所有描述语句样本的文本长度相同；

S324.将进行填充和截断后的描述语句样本中的词语转换为向量。

优选的，利用所述Word2vector词嵌入模型将所述描述语句样本中的词语转换为向量。

优选的，所述XML树结构的生成方法包括：

S510.将待检测隐私政策文本进行第二预处理，并根据句号和回车符对所述待检测隐私政策文本进行分句；

S520.利用预先设置的正则表达式提取所述待检测隐私政策文本中各句子的序号，生成待检测隐私政策文本的序号列表；

S530.创建XML树结构的根节点；

S540.遍历所述序号列表，分别判断各序号是否为起始序号：若所述序号为起始序号，则创建新的子节点，并将该序号作为该子节点的mark属性值，将该序号对应的小标题作为该子节点的title属性值；若所述序号不是起始序号，则寻找该序号的前序号，并获取该前序号的父节点，为该父节点创建新的子节点，将该序号作为该子节点的mark属性值，将该序号对应的小标题作为该子节点的title属性值；

S550.为每个节点填充文本内容，形成XML树结构。

优选的，所述预定义文本为：个人信息收集与使用。

优选的，生成待检测三元组时利用相似度计算算法将对同一事物的不同描述方式进行实体对齐。

优选的，将获取到的合规三元组与待检测三元组进行对比，判断应用程序是否越界收集个人信息，包括：

从待检测三元组中提取应用程序所声明的必要个人信息，并将待检测三元组中的必要个人信息作为第一集合；

将合规三元组中的必要个人信息作为第二集合；

判断第一集合是否为第二集合的子集，若第一集合为第二集合的子集，则所述应用程序未越界收集个人信息；若第一集合不是第二集合的子集，则所述应用程序越界收集个人信息。

本发明的有益效果是：

(1)本发明的方法利用隐私政策文本中隐含的结构特征，根据隐私政策文本中的序号和小标题实现从非结构化文本到结构化数据的自动化转换，摒弃了当前大多使用深度学习模型将隐私政策文本中大段文本或句子进行分类的方法；本发明在将隐私政策文本转换为结构化数据后，通过更高效的向量相似度计算方法，仅需对XML树中节点的title属性值进行相似度计算、实现对隐私政策文本中的小标题进行语义理解，便可将隐私政策文本进行分块，实现高效的结构解析与信息提取，极大提高了对隐私政策文本的解析速度和准确率，提高了冗长的隐私政策文本的可读性；

(2)本发明结合《常见类型移动互联网应用程序必要个人信息范围规定》中对每一种类型的应用程序限制必要个人信息收集范围的规定，以“应用类型”来划分大量的应用程序，确立了不同类型应用程序的基本业务和必要个人信息，以定义合规三元组；合规三元组的定义符合国家的个人信息收集规定，由于现有技术没有以“应用类型”来确立应用程序的基本业务与必要个人信息，因此相较于现有技术，本发明基于合规三元组来评估应用程序是否存在越界收集行为，能够更加完整地对应用程序合规性进行评估；

(3)本发明利用文本分类模型对隐私政策文本中关于业务的描述进行分类，将每一项业务划分为“基本业务”或“附加业务”，同时结合命名实体识别模型生成待检测三元组，从而通过将合规三元组与待检测三元组进行对比，最终输出对应用程序越界收集个人信息行为的判定结果，实现了对隐私政策文本更加高效、更加准确判定；

(4)本发明利用在多个应用程序市场所收集得到的隐私政策文本训练获得针对中文隐私政策的Word2vec词嵌入模型，同时利用文本分类模型和命名实体识别模型自动化识别隐私政策文本中所描述的基本业务和附加业务，并抽取出不同业务所对应的个人信息收集声明，进而对应用程序越界收集个人信息行为进行判定；通过这样的方式，本发明可以精确地定位出应用程序所存在的越界收集个人信息行为，弥补当前环境下应用程序个人信息保护审查工具的空缺，为国家网络空间安全和公民个人信息保护做出贡献。

附图说明

图1为隐私政策文本的一个示意图；

图2为本发明中应用程序越界收集个人信息行为的判定方法的一种实施例的流程图；

图3为隐私政策文本进行结构化解析前后的一个对比示意图；

图4为生成XML树结构的一个案例的示意图。

具体实施方式

下面将结合实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1-图4，本实施例提供了一种应用程序越界收集个人信息行为的判定方法：

如图2所示，一种应用程序越界收集个人信息行为的判定方法，包括：

S100.获取原始语料库，并基于所述原始语料库训练Word2vector词嵌入模型，所述原始语料库为应用程序市场中各应用程序的隐私政策文本。

例如，在多个应用程序市场(如华为应用市场、小米应用市场、豌豆荚等)，按照各应用程序市场所划分的应用类型(如影音娱乐、出行导航等)分别爬取各应用程序的隐私政策文本作为原始语料库。

S200.基于第一信息进行训练得到用于识别命名实体的命名实体识别模型，所述第一信息为所述原始语料库中关于个人信息收集与使用的描述内容，所述命名实体包括业务内容和个人信息类别。

具体的，获取S100中隐私政策文本中对“个人信息与使用”的描述内容，并利用标注的命名实体(命名实体包括业务内容(如导航)和个人信息类别(如位置信息))进行训练，得到命名实体模型，所述命名实体模型用于抽取隐私政策文本中描述的“业务内容”以及实现该业务内容所需要收集的“个人信息类别”。

例如，隐私政策文本中描述“当您注册账号时，我们会收集您的手机号码”，则将“注册账号”标注为“业务内容”，将“手机号码”标注为“个人信息类别”。重点关注的“个人信息类别”可以为《信息安全技术个人信息安全规范》附录中的“个人信息示例”和“个人敏感信息判定”。

在一个实施例中，所述命名实体识别模型可以为LSTM+CRF、BiLSTM+CRF、ID-CNN+CRF等模型。

S300.利用预先标注的数据集训练文本分类模型。

所述S300中的数据集为对“基本业务”和“附加业务”的描述语句。所述文本分类模型用于分类“基本业务”和“附加业务”。

所述文本分类模型用于根据每一种业务类型的相关描述文本预测其业务种类，所述业务种类包括基本业务和附加业务。

例如，隐私政策文本中描述“为实现向您提供产品和服务的基本功能，包括导航服务等，您须授权我们收集、使用以下必要的信息。如您拒绝提供相应信息，您将无法正常使用我们的产品及/或服务”，则将该文本标注为“基本业务”；如隐私政策文本中描述“您可以通过***授权关闭相机权限，以停止对您的相关信息的收集，但您可能将无法获得相关服务或功能，或者无法达到相关服务拟达到的效果，但不会影响基本功能的使用”，则将该文本标注为“附加业务”。

在一个实施例中，所述文本分类模型在训练和预测过程可以使用S100中获得的Word2vec词嵌入模型进行词嵌入，所述文本分类模型可以使用SVM、LSTM+softmax、BiLSTM+sofmax、TextCNN等模型。

在一个实施例中，利用预先标注的数据集训练文本分类模型，包括：

S310.获取基本业务的描述语句样本以及附加业务的描述语句样本。

例如，从原始语料库中收集描述语句样本，若描述语句样本为“我们的产品与/或服务包括一些核心功能，这些功能包含了实现网上购物所必须的功能及保障交易安全所必须的功能。我们可能会收集、保存和使用下列与您有关的信息才能实现上述这些功能。如果您不提供相关信息，您将无法享受我们提供的产品与/或服务”，则该描述语句样本属于基本业务的描述语句样本。若描述语句样本为“当您使用账户增强保护功能时，您可以选择提交面部识别信息或者声纹以开启扫脸验证、声音验证，拒绝提供前述敏感个人信息仅会使您无法使用相应功能，但不影响您正常使用其它功能”，则该描述语句样本属于附加业务的描述语句样本。

S320.对所述描述语句样本进行第一预处理。

所述第一预处理包括分词、去除停用词、根据预先定义的值对所述描述语句样本的文本长度进行填充和截断、以及将所述描述语句样本中的词语转换为向量，所述预先定义的值为所有样本长度的均值取整后得到的值。通过对所述描述语句样本的文本长度进行填充和截断，使得所有描述语句样本的文本长度相同，所述文本长度为描述语句样本中词语的数量。

一般的，对描述语句样本进行分词可以使用jieba等分词工具实现；去除停用词可以使用哈工大停用词表和百度停用词表等实现。

在一个实施例中，利用所述Word2vector词嵌入模型将所述描述语句样本中的词语转换为向量。

例如，根据《常见类型移动互联网应用程序必要个人信息范围规定》中的条例确定每种类型的应用程序的基本业务和必要个人信息。

例如，某个应用程序的合规三元组为<地图导航类，定位和导航，[位置信息，出发地，到达地]>。

S500.提取待检测隐私政策文本中的序号和小标题作为节点，形成所述待检测隐私政策文本的XML树结构，其中，所述序号作为所述XML树结构中节点的mark属性值，所述小标题作为XML树结构中节点的title属性值。

本实施例中S500的作用是将原本非结构化的待检测隐私政策文本转化为结构化的XML树结构，从而实现对隐私政策文本进行结构解析。如图3所示，解析前非结构化的待检测隐私政策文本中包含“1、”、“1.1”、“1.2”、“2、”等序号及其对应的小标题“我们如何收集和使用个人信息”、“基本业务功能”、“附加业务功能”、“Cookie相关”等；在解析后的结构化数据中，以XML树结构的形式进行表示，其中每个序号及其对应的小标题分别作为一个单独节点的“mark”与“title”属性值，本实施例中通过提取待检测隐私政策文本中的序号并判断序号与序号间的关系(如序号“1、”与序号“1.1”为父子关系，序号“1.1”与序号“1.2”为同级的前后关系)，从而生成准确的XML树结构。

在一个实施例中，如图4所示，所述XML树结构的生成方法包括：

S520.利用预先设置的正则表达式提取所述待检测隐私政策文本中各句子的序号，生成待检测隐私政策文本的序号列表。

例如，如针对“二、”一类序号，通过正则表达式“(一|二|三|四|五|六|七|八|九|十|十一|十二|十三|十四|十五|十六|十七|十八|十九|二十)、”进行匹配；针对“1.2.3”一类序号，通过正则表达式“\d+\.\d+\.\d+”进行匹配；提取完句子中的序号后，便能够获取隐私政策文本的序号列表。

S530.创建XML树结构的根节点；

S540.遍历所述序号列表，分别判断各序号是否为起始序号：若所述序号为起始序号，则创建新的子节点，并将该序号作为该子节点的mark属性值，将该序号对应的小标题作为该子节点的title属性值；若所述序号不是起始序号，则寻找该序号的前序号，并获取该前序号的父节点，为该父节点创建新的子节点，将该序号作为该子节点的mark属性值，将该序号对应的小标题作为该子节点的title属性值。

一般的，若一个序号为“2、”，则其前序号为“1、”。

S550.为每个节点填充文本内容，形成XML树结构。

即，为所有序号构建好XML树后，为每个节点填充文本内容。

S600.利用所述Word2vector词嵌入模型计算所述XML树中节点的title属性值与预定义文本的相似度，若相似度大于阈值，则将该节点中的文本内容作为第二信息。

在一个实施例中，计算title属性值与预定义文本的相似度时，先去除预定义词语(如“我们”、“您的”、“如何”等)，然后在进行相似度计算。例如，将title属性值“我们如何收集和使用信息”去除预预定义词语“我们”、“如何”后得到用于与预定义文本进行相似度计算的文本“收集和使用信息”。

在一个实施例中，所述预定义文本为“个人信息收集与使用”。

例如，将“个人信息收集与使用”与S500中获得的XML树结构中节点的title属性值进行相似度计算(计算过程为：首先利用S100中已训练好的Wordvec词嵌入模型将文本转化为向量，然后使用余弦相似度、Simhash相似度、Jacard相似度、欧几里得距离等相似度算法进行计算，也可以使用编辑距离进行计算，计算结果超过某一阈值则判定为相似文本)，如图3中的例子中，“个人信息收集与使用”与节点title属性值“我们如何收集和使用个人信息”的相似度计算结果将会大于预先设定的阈值，于是取该节点及其子节点中的文本内容作为隐私政策文本对“个人信息收集与使用”的描述内容。同样的，也可以对XML树中节点的title属性值与诸如“未成年人个人信息保护”等进行相似度计算，从而获得隐私政策文本中对“未成年人个人信息保护”等的描述内容。

S700.利用所述命名实体识别模型从所述第二信息中提取出业务内容和个人信息类别，并形成二元组，所述二元组包括业务内容和个人信息类别。

S800.获取待检测隐私政策文本中包括所述业务内容的描述文本，基于所述描述文本、利用文本分类模型预测所述业务内容的业务种类，并形成待检测三元组，所述待检测三元组包括业务内容、业务种类和个人信息类别。

例如，如通过命名实体识别模型获得的其中一个二元组为<定位和导航，[位置信息，身份证号]>，然后在待检测隐私政策文本中搜索包含“定位和导航”内容的句子/段落，使用文本分类模型对句子/段落进行预测，若预测结果为“基本业务”，则获得<定位和导航，基本业务，[位置信息，身份证号]>三元组。最终对待检测隐私政策文本的分析结果可能为<定位和导航，基本业务，[位置信息，身份证号]>，<注册账号，基本业务，手机号码>，<搜索功能，附加业务，搜索关键词>，将其作为待检测三元组。同时，由于可能存在描述方式的不同，如隐私政策文本对“位置信息”的描述内容可能为“定位信息”等，因此可以使用S600中的相似度计算方法，将对同一事物的不同描述方式进行实体对齐。

在一个实施例中，将获取到的合规三元组与待检测三元组进行对比，判断应用程序是否越界收集个人信息，包括：从待检测三元组中提取应用程序所声明的必要个人信息，并将待检测三元组中的必要个人信息作为第一集合；将合规三元组中的必要个人信息作为第二集合；判断第一集合是否为第二集合的子集，若第一集合为第二集合的子集，则所述应用程序未越界收集个人信息；若第一集合不是第二集合的子集，则所述应用程序越界收集个人信息。

进一步的，将获取到的合规三元组与待检测三元组进行对比，判断应用程序是否越界收集个人信息，还包括：从待检测三元组中提取应用程序所声明的基本业务，并将待检测三元组中的基本业务作为第三集合；将合规三元组中的基本业务作为第四集合；判断第三集合是否为第四集合的子集，若第三集合为第四集合的子集，则所述应用程序未越界声明基本业务；若第三集合不是第四集合的子集，则所述应用程序越界声明基本业务。

例如，待检测隐私政策文本所对应的应用程序类型为“地图导航”类，则获取其合规三元组<地图导航类，定位和导航，[位置信息，出发地，到达地]>，再通过S800中具体例子的分析结果进行比对，发现其将“注册账号”作为其基本业务并越界收集了“手机号码”，且在声明其基本业务“定位和导航”时，越界收集了“身份证号”信息，因此判定其有越界收集行为。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种应用程序越界收集个人信息行为的判定方法，其特征在于，包括：

S300.利用预先标注的数据集训练文本分类模型；

S600.利用所述Word2vector词嵌入模型计算所述XML树中节点的title属性值与预定义文本的相似度，若相似度大于阈值，则将该节点中的文本内容作为第二信息；

S700.利用所述命名实体识别模型从所述第二信息中提取出业务内容和个人信息类别，并形成二元组，所述二元组包括业务内容和个人信息类别；

2.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法，其特征在于，所述命名实体识别模型为LSTM+CRF模型、BiLSTM+CRF模型或ID-CNN+CRF模型。

3.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法，其特征在于，所述文本分类模型为SVM模型、LSTM+softmax模型、BiLSTM+sofmax模型或TextCNN模型。

4.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法，其特征在于，利用预先标注的数据集训练文本分类模型，包括：

S320.对所述描述语句样本进行第一预处理；

5.根据权利要求4所述的一种应用程序越界收集个人信息行为的判定方法，其特征在于，对所述描述语句样本进行第一预处理，包括：

S321.对所述描述语句样本进行分词；

S322.对分词后的描述语句样本去除停用词；

6.根据权利要求5所述的一种应用程序越界收集个人信息行为的判定方法，其特征在于，利用所述Word2vector词嵌入模型将所述描述语句样本中的词语转换为向量。

7.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法，其特征在于，所述XML树结构的生成方法包括：

S530.创建XML树结构的根节点；

S550.为每个节点填充文本内容，形成XML树结构。

8.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法，其特征在于，所述预定义文本为：个人信息收集与使用。

9.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法，其特征在于，生成待检测三元组时利用相似度计算算法将对同一事物的不同描述方式进行实体对齐。

10.根据权利要求1所述的一种应用程序越界收集个人信息行为的判定方法，其特征在于，将获取到的合规三元组与待检测三元组进行对比，判断应用程序是否越界收集个人信息，包括：

将合规三元组中的必要个人信息作为第二集合；