CN117896732A - 一种基于大语言模型的app隐私数据使用目的一致性分析方法 - Google Patents

一种基于大语言模型的app隐私数据使用目的一致性分析方法 Download PDF

Info

Publication number
CN117896732A
CN117896732A CN202410291322.XA CN202410291322A CN117896732A CN 117896732 A CN117896732 A CN 117896732A CN 202410291322 A CN202410291322 A CN 202410291322A CN 117896732 A CN117896732 A CN 117896732A
Authority
CN
China
Prior art keywords
data
triplet
language model
usage
large language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410291322.XA
Other languages
English (en)
Other versions
CN117896732B (zh
Inventor
张伟
徐天辰
陈云芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202410291322.XA priority Critical patent/CN117896732B/zh
Publication of CN117896732A publication Critical patent/CN117896732A/zh
Application granted granted Critical
Publication of CN117896732B publication Critical patent/CN117896732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/121Wireless intrusion detection systems [WIDS]; Wireless intrusion prevention systems [WIPS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Storage Device Security (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种基于大语言模型的APP隐私数据使用目的一致性分析方法,该方法包括如下步骤:使用大语言模型对隐私政策文本进行语句级分析,生成数据收集三元组和数据使用三元组,并分析元组间是否存在冲突以检测隐私政策文本内部数据处理规则是否满足一致性;利用大语言模型生成可触发数据处理行为的具体任务,将大语言模型和测试输入生成器结合以自动化完成该任务,使用网络分析工具捕获操作过程中产生的网络数据流量,分析数据使用目的,提取数据流三元组;对比数据收集三元组、数据使用三元组和数据流三元组,生成移动APP隐私数据使用目的和隐私政策文本是否一致的判别结果。

Description

一种基于大语言模型的APP隐私数据使用目的一致性分析 方法
技术领域
本发明属于隐私数据安全技术领域,尤其涉及一种基于大语言模型的APP隐私数据使用目的一致性分析方法。
背景技术
移动设备已经走进了生活的方方面面,形形色色的移动应用已然成为人们日常生活、工作、出行密不可分的一部分。然而,伴随着移动应用软件功能日益繁多,隐私泄露问题也变得更加严重,个人信息泄露事件屡见不鲜,隐私保护问题亟待解决。
为了保护移动用户的数据安全,以往工作主要关注移动应用软件获取的隐私数据种类,少有关于隐私数据使用目的研究。移动应用的隐私政策文本与应用实际行为分析主要存在以下几种问题:
1)大部分隐私政策文本为人工编写,不同移动应用软件的隐私政策文本编写风格和表达模式不同,传统的自然语言处理技术实现隐私政策文本自动化分析较为复杂且存在困难;
2)隐私政策文本存在矛盾,对于一份隐私政策文本,可能存在前一部分声明不会收集某类隐私数据,在其他部分声明出于某类功能需要收集该类隐私数据,导致应用是否有权收集该隐私数据存在冲突;
3)现有的应用实际行为分析,一般采用测试输入生成器随机点击移动应用软件选项触发应用收集隐私数据行为,然而这种方式可能无法覆盖所有隐私数据收集行为;
4)虽然隐私政策文本向用户披露了隐私数据收集的目的,但应用实际行为中的数据使用并不总是符合其数据收集目的,很少有相关工作聚焦于隐私数据使用目的方面。
发明内容
发明目的,为了解决上述技术问题,本发明提出一种基于大语言模型的APP隐私数据使用目的一致性分析方法,提高分析效率和准确率。
技术方案,为了实现上述发明目的,本发明提出一种基于大语言模型的APP隐私数据使用目的一致性分析方法,该方法包括以下步骤:
步骤S101,对于待测软件S,获取其隐私政策文本,对隐私政策文本进行预处理,获得数据行为相关的隐私政策句子W;
步骤S102,定义数据收集和数据使用三元组提取规则,表示数据接收者r对数据对象d的收集情况,c表示是否收集,/>表示数据对象d是否用于使用目的p,k代表是否使用,使用大语言模型从数据行为相关的隐私政策句子W中生成数据收集三元组dc和数据使用三元组du;
步骤S103,使用大语言模型检测数据收集三元组dc或数据使用三元组du是否冲突,若存在冲突,则判定待测软件S的隐私政策文本内部数据处理规则不一致;
步骤S104,针对各个数据行为相关的隐私政策句子W,使用大语言模型生成能够触发数据处理行为的任务,记生成任务清单为L;
步骤S105,用测试输入生成器模拟用户点击移动APP界面,向大语言模型逐一输入任务清单L中的任务,根据大语言模型输出的指令,测试输入生成器分析操作指令并执行相应动作,不断循环执行直至待测软件S中完成相应任务,使用网络分析工具捕获操作过程中产生的网络数据流量;
步骤S106,从网络数据流量中提取数据流三元组df,表示实际行为中数据接收者r收集数据对象d,并用于使用目的p;
步骤S107,将步骤S102获得的数据收集三元组dc和数据使用三元组du与步骤S106获得的数据流三元组df进行比较,如果数据流三元组df中数据接收者r收集数据对象d行为未出现在数据收集三元组dc中,则判定待测软件S隐私数据收集行为和隐私政策文本不一致;如果数据流三元组df中数据对象d用于使用目的p行为未出现在数据使用三元组du中,则判定待测软件S隐私数据使用目的和隐私政策文本不一致。
进一步的,所述步骤S101具体方法如下:
步骤S201,对于待测软件S,获取其隐私政策文本;
步骤S202,根据标点符号将隐私政策文本中的句子进行分割,并将相互独立的句子保存到文件A中;
步骤S203,根据隐私政策文本中数据收集或使用动作出现的词汇词频,创建动词词汇清单,根据动词词汇清单对文件A进行动词匹配,筛选出数据行为相关的隐私政策句子W。动词包括如“收集”、“使用”。
进一步的,所述步骤S102具体方法为:
向大语言模型发送数据收集和数据使用三元组提取规则,并发送示例模板作为示例供大语言模型学习,大语言模型根据数据行为相关的隐私政策句子W生成数据收集三元组dc和数据使用三元组du,处理涉及多种数据对象时,划分成多个只包含一种数据对象的数据处理元组。定义数据接收者r、是否收集c、是否用于k、使用目的p内容分别为应用提供方/外部合作方、收集/不收集、用于/不用于、提供基础服务/提供个性化服务/安全保护/提供广告/个性化广告。
示范案例如下:“如您使用实时更新天气功能,为了及时更新您所处位置的天气,我们会在您的设备处于静默状态时收集您的位置信息和设备信息”,对应的数据收集三元组=(第一方应用提供方,收集,位置信息),/>=(应用提供方,收集,设备信息),数据使用三元组/>=(位置信息,用于,提供基础服务),/>=(设备信息,用于,提供基础服务)。
进一步的,所述步骤S103具体方法如下:
步骤S401,将数据收集三元组dc发送给大语言模型,检测是否存在数据收集行为冲突,如果其中一个数据收集三元组dc中数据接收者r1收集数据对象d1,另一个数据收集三元组dc中数据接收者r1不收集数据对象d1,则二者为第一冲突;如果其中一个数据收集三元组dc中数据接收者r2收集数据对象d2,另一个数据收集三元组dc中数据接收者r2不收集数据对象d3,并且,如果d3包括d2,则二者为第二冲突;如果第一冲突和第二冲突至少存在一个,则判定待测软件S的隐私政策文本内部数据收集规则不一致。
例如以下案例,=(应用提供方,收集,AndroidID),/>=(应用提供方,不收集,设备信息),设备信息包含AndroidID等信息,/>和/>之间存在第二冲突。
步骤S402,将数据使用三元组du发送给大语言模型,检测是否存在数据使用行为冲突,如果其中一个数据使用三元组du中数据对象d4用于使用目的p1,另一个数据使用三元组du中数据对象d4不用于使用目的p1,则二者为第三冲突;如果其中一个数据使用三元组du中数据对象d5用于使用目的p2,另一个数据使用三元组du中数据对象d6不用于使用目的p2,如果d6包括d5,则二者为第四冲突;如果第三冲突和第四冲突至少存在一个,判定待测软件S的隐私政策文本W内部数据使用规则不一致。
例如以下案例,=(AndroidID,用于,提供个性化服务),/>=(设备信息,不用于,提供个性化服务),设备信息包含AndroidID等信息,/>和/>之间存在第二冲突。
步骤S403,对比数据收集三元组dc中所有收集的数据对象与数据使用三元组du中所有使用的数据对象,若数据使用三元组du使用了未在数据收集三元组dc中的数据对象,认为存在超界使用数据类型冲突,若存在超界使用数据类型冲突,判定待测软件S的隐私政策文本W超界使用数据类型不一致。
例如以下案例,数据收集三元组dc中所有收集的数据对象不包含“AndroidID”,数据使用三元组du中所有使用的数据对象包含“设备信息”或“AndroidID”,数据使用三元组du使用了未在数据收集三元组dc中声明的数据对象,存在超界使用数据类型冲突。
进一步的,所述步骤S105具体方法如下:
步骤S501,测试输入生成器通过随机点击模拟用户对待测软件S屏幕界面上的按钮的点击操作,将每次点击操作的结果记录下来,包括点击的按钮、界面元素、以及执行的操作,构建一个UI转换图UTG;
步骤S502,测试输入生成器遍历UI转换图中所有UI元素,并记录选项信息;
步骤S503,从任务清单L中选择一个任务,将UI状态和操作转化为具有结构化信息的HTML格式,将任务、当前UI界面状态描述以及与任务相关的选项信息发送给大语言模型,大语言模型根据输入给出下一步操作指令;
步骤S504,测试输入生成器分析操作指令并执行相应动作,执行完毕后,将任务、当前UI界面状态描述、执行任务的历史动作及与任务相关的选项信息发送给大语言模型,循环执行步骤S503,直至大语言模型返回任务完成指令;
步骤S505,使用网络分析工具捕获操作过程中产生的网络数据流量包。
进一步的,所述步骤S106方法如下:
步骤S601,使用网络分析工具分析步骤S505捕获的网络数据流量包,识别并提取流量包中的结构化数据,针对识别到的结构化数据格式进行解析,提取其中key-value形式的数据以生成键值对;
例如以下案例:用户身份信息请求示例中,URL为https://api.example.com/user/profile?user_id=123456&[email protected],生成的键值对为user_id:123456,email:[email protected],如下是一个POST请求注册新设备示例,Endpoint: /device/register,Request Body:{"device_id": "abcdef123456", "os_version": "Android 11", "device_model": "Samsung GalaxyS21" },生成的键值对为device_id:abcdef123456,os_version: Android 11,device_model: Samsung Galaxy S21;
步骤S602:将预设信息字符串作对步骤S601获得的键值对进行匹配,提取匹配成功的键值对,将键值对中的key值记录为数据对象d,预设信息字符串包括用户的个人身份信息、设备标识符、地理位置信息、支付信息等,如“user_id”、“IMEI”、“ip_address”;
步骤S603:根据网络数据流量中的目的地URL、发送数据和应用包名称获取数据接收者r与使用目的p以生成数据流三元组df。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
1)本发明利用大语言模型对不同领域的移动应用软件隐私政策文本进行自动化分析,相比于人工审核隐私政策文本或以往自然语言处理技术分析隐私政策文本,效率和准确率有所提高。
2)本发明结合大语言模型和测试输入生成器触发软件数据收集行为,相比于测试输入生成器随机触发软件数据收集行为,提高了触发的完整性。
3)本发明提供了一种检测移动应用软件使用隐私数据目的是否与隐私政策文本所述一致的思路,将大语言模型应用在隐私政策文本检测环节与软件动态分析环节,是新兴自然语言处理技术在软件安全领域的应用。
附图说明
图1为本发明一种基于大语言模型的APP隐私数据使用目的一致性分析方法的整体流程图。
图2为本发明判定移动APP隐私政策文本内部数据处理规则一致性的方法流程图。
具体实施方式
如图1所示,本发明提出一种基于大语言模型的APP隐私数据使用目的一致性分析方法,该方法包括以下步骤:
步骤S101,对于待测软件S,获取其隐私政策文本,对隐私政策文本进行预处理,获得数据行为相关的隐私政策句子W;
步骤S102,定义数据收集和数据使用三元组提取规则,表示数据接收者r对数据对象d的收集情况,c表示是否收集,/>表示数据对象d是否用于使用目的p,k代表是否使用,使用大语言模型从数据行为相关的隐私政策句子W中生成数据收集三元组dc和数据使用三元组du;
步骤S103,使用大语言模型检测数据收集三元组dc或数据使用三元组du是否冲突,若存在冲突,则判定待测软件S的隐私政策文本内部数据处理规则不一致;
步骤S104,针对各个数据行为相关的隐私政策句子W,使用大语言模型生成能够触发数据处理行为的任务,记生成任务清单为L;
步骤S105,用测试输入生成器模拟用户点击移动APP界面,向大语言模型逐一输入任务清单L中的任务,根据大语言模型输出的指令,测试输入生成器分析操作指令并执行相应动作,不断循环执行直至待测软件S中完成相应任务,使用网络分析工具捕获操作过程中产生的网络数据流量;
步骤S106,从网络数据流量中提取数据流三元组df,表示实际行为中数据接收者r收集数据对象d,并用于使用目的p;
步骤S107,将步骤S102获得的数据收集三元组dc和数据使用三元组du与步骤S106获得的数据流三元组df进行比较,如果数据流三元组df中数据接收者r收集数据对象d行为未出现在数据收集三元组dc中,则判定待测软件S隐私数据收集行为和隐私政策文本不一致;如果数据流三元组df中数据对象d用于使用目的p行为未出现在数据使用三元组du中,则判定待测软件S隐私数据使用目的和隐私政策文本不一致。
进一步的,所述步骤S101具体方法如下:
步骤S201,对于待测软件S,获取其隐私政策文本;
步骤S202,根据标点符号将隐私政策文本中的句子进行分割,并将相互独立的句子保存到文件A中;
步骤S203,根据隐私政策文本中数据收集或使用动作出现的词汇词频,创建动词词汇清单,根据动词词汇清单对文件A进行动词匹配,筛选出数据行为相关的隐私政策句子W。动词包括如“收集”、“使用”。
进一步的,所述步骤S102具体方法为:
向大语言模型发送数据收集和数据使用三元组提取规则,并发送示例模板作为示例供大语言模型学习,大语言模型根据数据行为相关的隐私政策句子W生成数据收集三元组dc和数据使用三元组du,处理涉及多种数据对象时,划分成多个只包含一种数据对象的数据处理元组。
制定数据收集三元组dc和数据使用三元组du的提取规则如下:
定义数据接收者r、是否收集c、是否用于k、使用目的p内容分别为应用提供方/外部合作方、收集/不收集、用于/不用于、提供基础服务/提供个性化服务/安全保护/提供广告/个性化广告;
示范案例如下:“如您使用实时更新天气功能,为了及时更新您所处位置的天气,我们会在您的设备处于静默状态时收集您的位置信息和设备信息”,对应的数据收集三元组=(第一方应用提供方,收集,位置信息),/>=(应用提供方,收集,设备信息),数据使用三元组/>=(位置信息,用于,提供基础服务),/>=(设备信息,用于,提供基础服务)。
进一步的,图2为判定移动APP隐私政策文本内部数据处理规则一致性的方法流程图,所述步骤S103具体方法如下:
步骤S401,将数据收集三元组dc发送给大语言模型,检测是否存在数据收集行为冲突,如果其中一个数据收集三元组dc中数据接收者r1收集数据对象d1,另一个数据收集三元组dc中数据接收者r1不收集数据对象d1,则二者为第一冲突;如果其中一个数据收集三元组dc中数据接收者r2收集数据对象d2,另一个数据收集三元组dc中数据接收者r2不收集数据对象d3,并且,如果d3包括d2,则二者为第二冲突;如果第一冲突和第二冲突至少存在一个,则判定待测软件S的隐私政策文本内部数据收集规则不一致。
例如以下案例,=(应用提供方,收集,AndroidID),/>=(应用提供方,不收集,设备信息),设备信息包含AndroidID等信息,/>和/>之间存在第二冲突;
步骤S402,将数据使用三元组du发送给大语言模型,检测是否存在数据使用行为冲突,如果其中一个数据使用三元组du中数据对象d4用于使用目的p1,另一个数据使用三元组du中数据对象d4不用于使用目的p1,则二者为第三冲突;如果其中一个数据使用三元组du中数据对象d5用于使用目的p2,另一个数据使用三元组du中数据对象d6不用于使用目的p2,如果d6包括d5,则二者为第四冲突;如果第三冲突和第四冲突至少存在一个,判定待测软件S的隐私政策文本W内部数据使用规则不一致。
例如以下案例,=(AndroidID,用于,提供个性化服务),/>=(设备信息,不用于,提供个性化服务),设备信息包含AndroidID等信息,/>和/>之间存在第二冲突。
步骤S403,对比数据收集三元组dc中所有收集的数据对象与数据使用三元组du中所有使用的数据对象,若数据使用三元组du使用了未在数据收集三元组dc中的数据对象,认为存在超界使用数据类型冲突,若存在超界使用数据类型冲突,判定待测软件S的隐私政策文本W超界使用数据类型不一致。
例如以下案例,数据收集三元组dc中所有收集的数据对象不包含“AndroidID”,数据使用三元组du中所有使用的数据对象包含“设备信息”或“AndroidID”,数据使用三元组du使用了未在数据收集三元组dc中声明的数据对象,存在超界使用数据类型冲突。
进一步的,所述步骤S105具体方法如下:
步骤S501,测试输入生成器通过随机点击模拟用户对待测软件S屏幕界面上的按钮的点击操作,将每次点击操作的结果记录下来,包括点击的按钮、界面元素、以及执行的操作,构建一个UI转换图UTG;
步骤S502,测试输入生成器遍历UI转换图中所有UI元素,并记录选项信息;
步骤S503,从任务清单L中选择一个任务,将UI状态和操作转化为具有结构化信息的HTML格式,将任务、当前UI界面状态描述以及与任务相关的选项信息发送给大语言模型,大语言模型根据输入给出下一步操作指令;
步骤S504,测试输入生成器分析操作指令并执行相应动作,执行完毕后,将任务、当前UI界面状态描述、执行任务的历史动作及与任务相关的选项信息发送给大语言模型,循环执行步骤S503,直至大语言模型返回任务完成指令;
步骤S505,使用网络分析工具捕获操作过程中产生的网络数据流量包。
进一步的,所述步骤S106方法如下:
步骤S601,使用网络分析工具分析步骤S505捕获的网络数据流量包,识别并提取流量包中的结构化数据,针对识别到的结构化数据格式进行解析,提取其中key-value形式的数据以生成键值对;
例如以下案例:用户身份信息请求示例中,URL为https://api.example.com/user/profile?user_id=123456&[email protected],生成的键值对为user_id:123456,email:[email protected],如下是一个POST请求注册新设备示例,Endpoint: /device/register,Request Body:{"device_id": "abcdef123456", "os_version": "Android 11", "device_model": "Samsung GalaxyS21" },生成的键值对为device_id:abcdef123456,os_version: Android 11,device_model: Samsung Galaxy S21;
步骤S602:将预设信息字符串作对步骤S601获得的键值对进行匹配,提取匹配成功的键值对,将键值对中的key值记录为数据对象d,预设信息字符串包括用户的个人身份信息、设备标识符、地理位置信息、支付信息等,如“user_id”、“IMEI”、“ip_address”;
步骤S603:根据网络数据流量中的目的地URL、发送数据和应用包名称获取数据接收者r与使用目的p以生成数据流三元组df。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于大语言模型的APP隐私数据使用目的一致性分析方法,其特征在于,包括以下步骤:
步骤S101,对于待测软件S,获取其隐私政策文本,对隐私政策文本进行预处理,获得数据行为相关的隐私政策句子W;
步骤S102,定义数据收集和数据使用三元组提取规则, 表示数据接收者r对数据对象d的收集情况,c表示是否收集,/>表示数据对象d是否用于使用目的p,k代表是否使用,使用大语言模型从数据行为相关的隐私政策句子W中生成数据收集三元组dc和数据使用三元组du;
步骤S103,使用大语言模型检测数据收集三元组dc或数据使用三元组du是否冲突,若存在冲突,则判定待测软件S的隐私政策文本内部数据处理规则不一致;
步骤S104,针对各个数据行为相关的隐私政策句子W,使用大语言模型生成能够触发数据处理行为的任务,记生成任务清单为L;
步骤S105,用测试输入生成器模拟用户点击移动APP界面,向大语言模型逐一输入任务清单L中的任务,根据大语言模型输出的指令,测试输入生成器分析操作指令并执行相应动作,不断循环执行直至待测软件S中完成相应任务,使用网络分析工具捕获操作过程中产生的网络数据流量;
步骤S106,从网络数据流量中提取数据流三元组df,表示实际行为中数据接收者r收集数据对象d,并用于使用目的p;
步骤S107,将步骤S102获得的数据收集三元组dc和数据使用三元组du与步骤S106获得的数据流三元组df进行比较,如果数据流三元组df中数据接收者r收集数据对象d行为未出现在数据收集三元组dc中,则判定待测软件S隐私数据收集行为和隐私政策文本不一致;如果数据流三元组df中数据对象d用于使用目的p行为未出现在数据使用三元组du中,则判定待测软件S隐私数据使用目的和隐私政策文本不一致。
2.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法,其特征在于,所述步骤S101具体方法如下:
步骤S201,对于待测软件S,获取其隐私政策文本;
步骤S202,根据标点符号将隐私政策文本中的句子进行分割,并将相互独立的句子保存到文件A中;
步骤S203,根据隐私政策文本中数据收集或使用动作出现的词汇词频,创建动词词汇清单,根据动词词汇清单对文件A进行动词匹配,筛选出数据行为相关的隐私政策句子W。
3.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法,其特征在于,所述步骤S102具体方法为:向大语言模型发送数据收集和数据使用三元组提取规则,并发送示例模板作为示例供大语言模型学习,大语言模型根据数据行为相关的隐私政策句子W生成数据收集三元组dc和数据使用三元组du,处理涉及多种数据对象时,划分成多个只包含一种数据对象的数据处理元组。
4.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法,其特征在于,所述步骤S103具体方法如下:
步骤S401,将数据收集三元组dc发送给大语言模型,检测是否存在数据收集行为冲突,如果其中一个数据收集三元组dc中数据接收者r1收集数据对象d1,另一个数据收集三元组dc中数据接收者r1不收集数据对象d1,则二者为第一冲突;如果其中一个数据收集三元组dc中数据接收者r2收集数据对象d2,另一个数据收集三元组dc中数据接收者r2不收集数据对象d3,并且,如果d3包括d2,则二者为第二冲突;如果第一冲突和第二冲突至少存在一个,则判定待测软件S的隐私政策文本内部数据收集规则不一致;
步骤S402,将数据使用三元组du发送给大语言模型,检测是否存在数据使用行为冲突,如果其中一个数据使用三元组du中数据对象d4用于使用目的p1,另一个数据使用三元组du中数据对象d4不用于使用目的p1,则二者为第三冲突;如果其中一个数据使用三元组du中数据对象d5用于使用目的p2,另一个数据使用三元组du中数据对象d6不用于使用目的p2,如果d6包括d5,则二者为第四冲突;如果第三冲突和第四冲突至少存在一个,判定待测软件S的隐私政策文本W内部数据使用规则不一致;
步骤S403,对比数据收集三元组dc中所有收集的数据对象与数据使用三元组du中所有使用的数据对象,若数据使用三元组du使用了未在数据收集三元组dc中的数据对象,认为存在超界使用数据类型冲突,若存在超界使用数据类型冲突,判定待测软件S的隐私政策文本W超界使用数据类型不一致。
5.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法,其特征在于,所述步骤S105具体方法如下:
步骤S501,测试输入生成器通过随机点击模拟用户对待测软件S屏幕界面上的按钮的点击操作,将每次点击操作的结果记录下来,包括点击的按钮、界面元素、以及执行的操作,构建一个UI转换图UTG;
步骤S502,测试输入生成器遍历UI转换图中所有UI元素,并记录选项信息;
步骤S503,从任务清单L中选择一个任务,将UI状态和操作转化为具有结构化信息的HTML格式,将任务、当前UI界面状态描述以及与任务相关的选项信息发送给大语言模型,大语言模型根据输入给出下一步操作指令;
步骤S504,测试输入生成器分析操作指令并执行相应动作,执行完毕后,将任务、当前UI界面状态描述、执行任务的历史动作及与任务相关的选项信息发送给大语言模型,循环执行步骤S503,直至大语言模型返回任务完成指令;
步骤S505,使用网络分析工具捕获操作过程中产生的网络数据流量包。
6.根据权利要求1所述的一种基于大语言模型的APP隐私数据使用目的一致性分析方法,其特征在于,所述步骤S106方法如下:
步骤S601,使用网络分析工具分析步骤S505捕获的网络数据流量包,识别并提取流量包中的结构化数据,对识别到的结构化数据格式进行解析,提取其中key-value形式的数据以生成键值对;
步骤S602:将预设信息字符串作对步骤S601获得的键值对进行匹配,提取匹配成功的键值对,将键值对中的key值记录为数据对象d;
步骤S603:根据网络数据流量中的目的地URL、发送数据和应用包名称获取数据接收者r与使用目的p以生成数据流三元组df。
CN202410291322.XA 2024-03-14 2024-03-14 一种基于大语言模型的app隐私数据使用目的一致性分析方法 Active CN117896732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410291322.XA CN117896732B (zh) 2024-03-14 2024-03-14 一种基于大语言模型的app隐私数据使用目的一致性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410291322.XA CN117896732B (zh) 2024-03-14 2024-03-14 一种基于大语言模型的app隐私数据使用目的一致性分析方法

Publications (2)

Publication Number Publication Date
CN117896732A true CN117896732A (zh) 2024-04-16
CN117896732B CN117896732B (zh) 2024-05-28

Family

ID=90643082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410291322.XA Active CN117896732B (zh) 2024-03-14 2024-03-14 一种基于大语言模型的app隐私数据使用目的一致性分析方法

Country Status (1)

Country Link
CN (1) CN117896732B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062490A (zh) * 2019-12-13 2020-04-24 支付宝(杭州)信息技术有限公司 一种包含隐私数据的网络数据的处理方法及装置
CN115630357A (zh) * 2022-10-26 2023-01-20 四川大学 一种应用程序越界收集个人信息行为的判定方法
CN116595977A (zh) * 2023-05-21 2023-08-15 深圳市元世界软件科技有限公司 一种在大语言模型中个人信息检测保护的方法
WO2023161630A1 (en) * 2022-02-22 2023-08-31 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
CN116821960A (zh) * 2023-06-20 2023-09-29 西安交通大学 一种小程序隐私保护政策展示性违规检测方法
CN116933316A (zh) * 2023-07-24 2023-10-24 中国人民解放军战略支援部队信息工程大学 智能终端应用敏感行为与隐私政策一致性分析方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062490A (zh) * 2019-12-13 2020-04-24 支付宝(杭州)信息技术有限公司 一种包含隐私数据的网络数据的处理方法及装置
WO2023161630A1 (en) * 2022-02-22 2023-08-31 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
CN115630357A (zh) * 2022-10-26 2023-01-20 四川大学 一种应用程序越界收集个人信息行为的判定方法
CN116595977A (zh) * 2023-05-21 2023-08-15 深圳市元世界软件科技有限公司 一种在大语言模型中个人信息检测保护的方法
CN116821960A (zh) * 2023-06-20 2023-09-29 西安交通大学 一种小程序隐私保护政策展示性违规检测方法
CN116933316A (zh) * 2023-07-24 2023-10-24 中国人民解放军战略支援部队信息工程大学 智能终端应用敏感行为与隐私政策一致性分析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何培育;王潇睿;: "智能手机用户隐私安全保障机制研究――基于第三方应用程序"隐私条款"的分析", 情报理论与实践, no. 10, 9 May 2018 (2018-05-09) *

Also Published As

Publication number Publication date
CN117896732B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
US10755178B2 (en) System and method for determining credibility of information based on many remarks on a network, and non-transitory computer readable storage medium having stored thereon computer program therefor
Wiese et al. Who is who in the mailing list? comparing six disambiguation heuristics to identify multiple addresses of a participant
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN105205000B (zh) 定位软件开发中代码受影响范围的方法及***
CN105530265B (zh) 一种基于频繁项集描述的移动互联网恶意应用检测方法
CN103793372A (zh) 从电子文档中的表格结构提取语义关系
US20130035929A1 (en) Information processing apparatus and method
CN108011928A (zh) 一种信息推送方法、终端设备及计算机可读介质
CN110880142B (zh) 一种风险实体获取方法及装置
Wong et al. Design of a crawler for online social networks analysis
CN109903122A (zh) 房产交易信息处理方法、装置、设备及存储介质
CN103079180B (zh) 一种远程协助的方法及***
CN117896732B (zh) 一种基于大语言模型的app隐私数据使用目的一致性分析方法
Nieto Becoming JUDAS: correlating users and devices during a digital investigation
CN109559121A (zh) 交易路径调用异常分析方法、装置、设备及可读存储介质
CN116049808B (zh) 一种基于大数据的设备指纹采集***及方法
JP2019101889A (ja) テスト実行装置及びプログラム
WO2023060664A1 (zh) 异常设备识别方法、装置、计算机设备和存储介质
US20150032749A1 (en) Method of creating classification pattern, apparatus, and recording medium
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
CN105677827B (zh) 一种表单的获取方法及装置
CN103778210A (zh) 一种待分析文件的文件具体类型的判断方法及装置
CN113190458A (zh) 自动埋点数据分析的方法、装置、计算机设备和存储介质
CN111259050A (zh) 用户操作轨迹记录方法、装置、计算机设备及存储介质
KR20000012490A (ko) 인터넷 사용자의 인구통계학적 특성에 근거한 인터넷 설문조사 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant