CN117896732A

CN117896732A - 一种基于大语言模型的app隐私数据使用目的一致性分析方法

Info

Publication number: CN117896732A
Application number: CN202410291322.XA
Authority: CN
Inventors: 张伟; 徐天辰; 陈云芳
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-04-16
Anticipated expiration: 2044-03-14
Also published as: CN117896732B

Abstract

本发明公开一种基于大语言模型的APP隐私数据使用目的一致性分析方法，该方法包括如下步骤：使用大语言模型对隐私政策文本进行语句级分析，生成数据收集三元组和数据使用三元组，并分析元组间是否存在冲突以检测隐私政策文本内部数据处理规则是否满足一致性；利用大语言模型生成可触发数据处理行为的具体任务，将大语言模型和测试输入生成器结合以自动化完成该任务，使用网络分析工具捕获操作过程中产生的网络数据流量，分析数据使用目的，提取数据流三元组；对比数据收集三元组、数据使用三元组和数据流三元组，生成移动APP隐私数据使用目的和隐私政策文本是否一致的判别结果。

Description

一种基于大语言模型的APP隐私数据使用目的一致性分析方法

技术领域

本发明属于隐私数据安全技术领域，尤其涉及一种基于大语言模型的APP隐私数据使用目的一致性分析方法。

背景技术

移动设备已经走进了生活的方方面面，形形色色的移动应用已然成为人们日常生活、工作、出行密不可分的一部分。然而，伴随着移动应用软件功能日益繁多，隐私泄露问题也变得更加严重，个人信息泄露事件屡见不鲜，隐私保护问题亟待解决。

为了保护移动用户的数据安全，以往工作主要关注移动应用软件获取的隐私数据种类，少有关于隐私数据使用目的研究。移动应用的隐私政策文本与应用实际行为分析主要存在以下几种问题：

1）大部分隐私政策文本为人工编写，不同移动应用软件的隐私政策文本编写风格和表达模式不同，传统的自然语言处理技术实现隐私政策文本自动化分析较为复杂且存在困难；

2）隐私政策文本存在矛盾，对于一份隐私政策文本，可能存在前一部分声明不会收集某类隐私数据，在其他部分声明出于某类功能需要收集该类隐私数据，导致应用是否有权收集该隐私数据存在冲突；

3）现有的应用实际行为分析，一般采用测试输入生成器随机点击移动应用软件选项触发应用收集隐私数据行为，然而这种方式可能无法覆盖所有隐私数据收集行为；

4）虽然隐私政策文本向用户披露了隐私数据收集的目的，但应用实际行为中的数据使用并不总是符合其数据收集目的，很少有相关工作聚焦于隐私数据使用目的方面。

发明内容

发明目的，为了解决上述技术问题，本发明提出一种基于大语言模型的APP隐私数据使用目的一致性分析方法，提高分析效率和准确率。

技术方案，为了实现上述发明目的，本发明提出一种基于大语言模型的APP隐私数据使用目的一致性分析方法，该方法包括以下步骤：

步骤S101，对于待测软件S，获取其隐私政策文本，对隐私政策文本进行预处理,获得数据行为相关的隐私政策句子W；

步骤S102，定义数据收集和数据使用三元组提取规则，表示数据接收者r对数据对象d的收集情况，c表示是否收集，/>表示数据对象d是否用于使用目的p，k代表是否使用，使用大语言模型从数据行为相关的隐私政策句子W中生成数据收集三元组dc和数据使用三元组du；

步骤S103，使用大语言模型检测数据收集三元组dc或数据使用三元组du是否冲突，若存在冲突，则判定待测软件S的隐私政策文本内部数据处理规则不一致；

步骤S104，针对各个数据行为相关的隐私政策句子W，使用大语言模型生成能够触发数据处理行为的任务，记生成任务清单为L；

步骤S105，用测试输入生成器模拟用户点击移动APP界面，向大语言模型逐一输入任务清单L中的任务，根据大语言模型输出的指令，测试输入生成器分析操作指令并执行相应动作，不断循环执行直至待测软件S中完成相应任务，使用网络分析工具捕获操作过程中产生的网络数据流量；

步骤S106，从网络数据流量中提取数据流三元组df，表示实际行为中数据接收者r收集数据对象d，并用于使用目的p；

步骤S107，将步骤S102获得的数据收集三元组dc和数据使用三元组du与步骤S106获得的数据流三元组df进行比较，如果数据流三元组df中数据接收者r收集数据对象d行为未出现在数据收集三元组dc中，则判定待测软件S隐私数据收集行为和隐私政策文本不一致；如果数据流三元组df中数据对象d用于使用目的p行为未出现在数据使用三元组du中，则判定待测软件S隐私数据使用目的和隐私政策文本不一致。

进一步的，所述步骤S101具体方法如下：

步骤S201，对于待测软件S，获取其隐私政策文本；

步骤S202，根据标点符号将隐私政策文本中的句子进行分割，并将相互独立的句子保存到文件A中；

步骤S203，根据隐私政策文本中数据收集或使用动作出现的词汇词频，创建动词词汇清单，根据动词词汇清单对文件A进行动词匹配，筛选出数据行为相关的隐私政策句子W。动词包括如“收集”、“使用”。

进一步的，所述步骤S102具体方法为：

向大语言模型发送数据收集和数据使用三元组提取规则，并发送示例模板作为示例供大语言模型学习，大语言模型根据数据行为相关的隐私政策句子W生成数据收集三元组dc和数据使用三元组du，处理涉及多种数据对象时，划分成多个只包含一种数据对象的数据处理元组。定义数据接收者r、是否收集c、是否用于k、使用目的p内容分别为应用提供方/外部合作方、收集/不收集、用于/不用于、提供基础服务/提供个性化服务/安全保护/提供广告/个性化广告。

示范案例如下：“如您使用实时更新天气功能，为了及时更新您所处位置的天气，我们会在您的设备处于静默状态时收集您的位置信息和设备信息”，对应的数据收集三元组=(第一方应用提供方,收集,位置信息)，/>=（应用提供方，收集，设备信息），数据使用三元组/>=(位置信息，用于，提供基础服务)，/>=(设备信息，用于，提供基础服务)。

进一步的，所述步骤S103具体方法如下：

步骤S401，将数据收集三元组dc发送给大语言模型，检测是否存在数据收集行为冲突，如果其中一个数据收集三元组dc中数据接收者r1收集数据对象d1，另一个数据收集三元组dc中数据接收者r1不收集数据对象d1，则二者为第一冲突；如果其中一个数据收集三元组dc中数据接收者r2收集数据对象d2，另一个数据收集三元组dc中数据接收者r2不收集数据对象d3，并且，如果d3包括d2，则二者为第二冲突；如果第一冲突和第二冲突至少存在一个，则判定待测软件S的隐私政策文本内部数据收集规则不一致。

例如以下案例，=（应用提供方，收集，AndroidID），/>=（应用提供方，不收集，设备信息），设备信息包含AndroidID等信息，/>和/>之间存在第二冲突。

步骤S402，将数据使用三元组du发送给大语言模型，检测是否存在数据使用行为冲突，如果其中一个数据使用三元组du中数据对象d4用于使用目的p1，另一个数据使用三元组du中数据对象d4不用于使用目的p1，则二者为第三冲突；如果其中一个数据使用三元组du中数据对象d5用于使用目的p2，另一个数据使用三元组du中数据对象d6不用于使用目的p2，如果d6包括d5，则二者为第四冲突；如果第三冲突和第四冲突至少存在一个，判定待测软件S的隐私政策文本W内部数据使用规则不一致。

例如以下案例，=（AndroidID，用于，提供个性化服务），/>=（设备信息，不用于，提供个性化服务），设备信息包含AndroidID等信息，/>和/>之间存在第二冲突。

步骤S403，对比数据收集三元组dc中所有收集的数据对象与数据使用三元组du中所有使用的数据对象，若数据使用三元组du使用了未在数据收集三元组dc中的数据对象，认为存在超界使用数据类型冲突，若存在超界使用数据类型冲突，判定待测软件S的隐私政策文本W超界使用数据类型不一致。

例如以下案例，数据收集三元组dc中所有收集的数据对象不包含“AndroidID”，数据使用三元组du中所有使用的数据对象包含“设备信息”或“AndroidID”，数据使用三元组du使用了未在数据收集三元组dc中声明的数据对象，存在超界使用数据类型冲突。

进一步的，所述步骤S105具体方法如下：

步骤S501，测试输入生成器通过随机点击模拟用户对待测软件S屏幕界面上的按钮的点击操作，将每次点击操作的结果记录下来，包括点击的按钮、界面元素、以及执行的操作，构建一个UI转换图UTG；

步骤S502，测试输入生成器遍历UI转换图中所有UI元素，并记录选项信息；

步骤S503，从任务清单L中选择一个任务，将UI状态和操作转化为具有结构化信息的HTML格式，将任务、当前UI界面状态描述以及与任务相关的选项信息发送给大语言模型，大语言模型根据输入给出下一步操作指令；

步骤S504，测试输入生成器分析操作指令并执行相应动作，执行完毕后，将任务、当前UI界面状态描述、执行任务的历史动作及与任务相关的选项信息发送给大语言模型，循环执行步骤S503，直至大语言模型返回任务完成指令；

步骤S505，使用网络分析工具捕获操作过程中产生的网络数据流量包。

进一步的，所述步骤S106方法如下：

步骤S601，使用网络分析工具分析步骤S505捕获的网络数据流量包，识别并提取流量包中的结构化数据，针对识别到的结构化数据格式进行解析，提取其中key-value形式的数据以生成键值对；

例如以下案例：用户身份信息请求示例中，URL为https://api.example.com/user/profile?user_id=123456&[email protected]，生成的键值对为user_id:123456，email:[email protected]，如下是一个POST请求注册新设备示例，Endpoint: /device/register，Request Body:{"device_id": "abcdef123456", "os_version": "Android 11", "device_model": "Samsung GalaxyS21" }，生成的键值对为device_id:abcdef123456，os_version: Android 11，device_model: Samsung Galaxy S21；

步骤S602：将预设信息字符串作对步骤S601获得的键值对进行匹配，提取匹配成功的键值对，将键值对中的key值记录为数据对象d，预设信息字符串包括用户的个人身份信息、设备标识符、地理位置信息、支付信息等，如“user_id”、“IMEI”、“ip_address”；

步骤S603：根据网络数据流量中的目的地URL、发送数据和应用包名称获取数据接收者r与使用目的p以生成数据流三元组df。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

1）本发明利用大语言模型对不同领域的移动应用软件隐私政策文本进行自动化分析，相比于人工审核隐私政策文本或以往自然语言处理技术分析隐私政策文本，效率和准确率有所提高。

2）本发明结合大语言模型和测试输入生成器触发软件数据收集行为，相比于测试输入生成器随机触发软件数据收集行为，提高了触发的完整性。

3）本发明提供了一种检测移动应用软件使用隐私数据目的是否与隐私政策文本所述一致的思路，将大语言模型应用在隐私政策文本检测环节与软件动态分析环节，是新兴自然语言处理技术在软件安全领域的应用。

附图说明

图1为本发明一种基于大语言模型的APP隐私数据使用目的一致性分析方法的整体流程图。

图2为本发明判定移动APP隐私政策文本内部数据处理规则一致性的方法流程图。

具体实施方式

如图1所示，本发明提出一种基于大语言模型的APP隐私数据使用目的一致性分析方法，该方法包括以下步骤：

进一步的，所述步骤S101具体方法如下：

步骤S201，对于待测软件S，获取其隐私政策文本；

进一步的，所述步骤S102具体方法为：

向大语言模型发送数据收集和数据使用三元组提取规则，并发送示例模板作为示例供大语言模型学习，大语言模型根据数据行为相关的隐私政策句子W生成数据收集三元组dc和数据使用三元组du，处理涉及多种数据对象时，划分成多个只包含一种数据对象的数据处理元组。

制定数据收集三元组dc和数据使用三元组du的提取规则如下：

定义数据接收者r、是否收集c、是否用于k、使用目的p内容分别为应用提供方/外部合作方、收集/不收集、用于/不用于、提供基础服务/提供个性化服务/安全保护/提供广告/个性化广告；

进一步的，图2为判定移动APP隐私政策文本内部数据处理规则一致性的方法流程图，所述步骤S103具体方法如下：

例如以下案例，=（应用提供方，收集，AndroidID），/>=（应用提供方，不收集，设备信息），设备信息包含AndroidID等信息，/>和/>之间存在第二冲突；

进一步的，所述步骤S105具体方法如下：

进一步的，所述步骤S106方法如下：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于大语言模型的APP隐私数据使用目的一致性分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法，其特征在于，所述步骤S101具体方法如下：

步骤S201，对于待测软件S，获取其隐私政策文本；

步骤S203，根据隐私政策文本中数据收集或使用动作出现的词汇词频，创建动词词汇清单，根据动词词汇清单对文件A进行动词匹配，筛选出数据行为相关的隐私政策句子W。

3.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法，其特征在于，所述步骤S102具体方法为：向大语言模型发送数据收集和数据使用三元组提取规则，并发送示例模板作为示例供大语言模型学习，大语言模型根据数据行为相关的隐私政策句子W生成数据收集三元组dc和数据使用三元组du，处理涉及多种数据对象时，划分成多个只包含一种数据对象的数据处理元组。

4.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法，其特征在于，所述步骤S103具体方法如下：

步骤S401，将数据收集三元组dc发送给大语言模型，检测是否存在数据收集行为冲突，如果其中一个数据收集三元组dc中数据接收者r1收集数据对象d1，另一个数据收集三元组dc中数据接收者r1不收集数据对象d1，则二者为第一冲突；如果其中一个数据收集三元组dc中数据接收者r2收集数据对象d2，另一个数据收集三元组dc中数据接收者r2不收集数据对象d3，并且，如果d3包括d2，则二者为第二冲突；如果第一冲突和第二冲突至少存在一个，则判定待测软件S的隐私政策文本内部数据收集规则不一致；

步骤S402，将数据使用三元组du发送给大语言模型，检测是否存在数据使用行为冲突，如果其中一个数据使用三元组du中数据对象d4用于使用目的p1，另一个数据使用三元组du中数据对象d4不用于使用目的p1，则二者为第三冲突；如果其中一个数据使用三元组du中数据对象d5用于使用目的p2，另一个数据使用三元组du中数据对象d6不用于使用目的p2，如果d6包括d5，则二者为第四冲突；如果第三冲突和第四冲突至少存在一个，判定待测软件S的隐私政策文本W内部数据使用规则不一致；

5.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法，其特征在于，所述步骤S105具体方法如下：

6.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法，其特征在于，所述步骤S106方法如下：

步骤S601，使用网络分析工具分析步骤S505捕获的网络数据流量包，识别并提取流量包中的结构化数据，对识别到的结构化数据格式进行解析，提取其中key-value形式的数据以生成键值对；

步骤S602：将预设信息字符串作对步骤S601获得的键值对进行匹配，提取匹配成功的键值对，将键值对中的key值记录为数据对象d；