CN110826006A - 基于隐私数据保护的异常采集行为识别方法和装置 - Google Patents

基于隐私数据保护的异常采集行为识别方法和装置 Download PDF

Info

Publication number
CN110826006A
CN110826006A CN201911158814.7A CN201911158814A CN110826006A CN 110826006 A CN110826006 A CN 110826006A CN 201911158814 A CN201911158814 A CN 201911158814A CN 110826006 A CN110826006 A CN 110826006A
Authority
CN
China
Prior art keywords
lightweight
applications
data
target
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911158814.7A
Other languages
English (en)
Other versions
CN110826006B (zh
Inventor
徐文浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911158814.7A priority Critical patent/CN110826006B/zh
Publication of CN110826006A publication Critical patent/CN110826006A/zh
Priority to TW109115226A priority patent/TWI743773B/zh
Priority to PCT/CN2020/111725 priority patent/WO2021098327A1/zh
Application granted granted Critical
Publication of CN110826006B publication Critical patent/CN110826006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种基于隐私数据保护的异常采集行为识别以及场景分类模型的训练方法、装置及电子设备,该方法包括:获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。

Description

基于隐私数据保护的异常采集行为识别方法和装置
技术领域
本文件涉及计算机软件技术领域,尤其涉及一种基于隐私数据保护的异常采集行为识别方法、装置及电子设备。
背景技术
随着移动互联网技术的快速发展,应用程序的应用越来越广泛,小程序等轻量应用由于其能够被嵌入到第三方应用程序中,且无需下载安装,随时可用,也受到越来越广泛的应用。然而,现有的小程序在被打开时,往往会采集用户的隐私数据,且有些小程序还存在过度采集用户隐私数据的情况。
目前,对于这种情况,往往需要运营人员在接到用户对某一小程序的举报的前提下,或者通过***发现了存在异常采集行为的小程序之后,通过运营人员人工判别这些小程序是否存在过度采集用户隐私数据的情况。因此,亟需一种针对小程序等轻量应用的异常采集行为的判别方法,以应对现有技术的上述问题。
发明内容
本说明书实施例的目的是提供一种基于隐私数据保护的异常采集行为识别以及场景分类模型的训练方法、装置及电子设备,以避免小程序等轻量应用对用户的隐私数据的过度采集情况。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提出了一种基于隐私数据保护的异常采集行为识别方法,包括:
获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
第二方面,提出了一种场景分类模型的训练方法,包括:
获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,所述场景分类模型用于预测轻量应用的使用场景类别。
第三方面,提出了一种基于隐私数据保护的异常采集行为识别装置,包括:
获取单元,获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
预测单元,将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
确定单元,基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
第四方面,提出了一种场景分类模型的训练单元,包括:
数据获取单元,获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
特征提取单元,从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
模型训练单元,基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,所述场景分类模型用于预测轻量应用的使用场景类别。
第五方面,提出了一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
第六方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
第七方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,所述场景分类模型用于预测轻量应用的使用场景类别。
第八方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,所述场景分类模型用于预测轻量应用的使用场景类别。
由以上本说明书实施例提供的技术方案可见,本说明书实施例方案至少具备如下一种技术效果:
本说明书提供的一种或多个实施例,能够获取目标轻量应用的页面内容数据、用户行为数据和目标轻量应用申请采集的隐私数据列表,再将目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过场景分类模型预测目标轻量应用的使用场景类别,并能够基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表,确定目标轻量应用是否存在异常采集行为。将小程序等轻量应用的异常采集行为的识别由被动核查转变为主动识别,且使用场景分类模型来识别使用场景类别,一方面提高了识别效率;另一方面保护了用户的隐私,给用户带来更安心的服务体验。
本说明书提供的一种或多个实施例,能够获取多个轻量应用的页面内容数据、用户行为数据以及多个轻量应用的使用场景标签,再从这多个轻量应用的页面内容数据和用户行为数据中,并能够基于多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型。这样再使用训练得到的场景分类模型对小程序等轻量应用的使用场景进行识别,一方面能够提高对小程序使用场景的识别效率,另一方面也节省了不必要的人力资源。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书的一个实施例提供的一种基于隐私数据保护的异常采集行为识别方法的实施流程示意图。
图2是本说明书的一个实施例提供的一种场景分类模型的训练方法的实施流程示意图。
图3是本说明书的一个实施例提供的场景分类模型的训练方法应用在一种实际场景中的流程示意图。
图4是本说明书的一个实施例提供的一种基于隐私数据保护的异常采集行为识别装置的结构示意图。
图5是本说明书的一个实施例提供的一种场景分类模型的训练装置的结构示意图。
图6是本说明书的一个实施例提供的一种电子设备的结构示意图。
图7是本说明书的一个实施例提供的另一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本文件一部分实施例,而不是全部的实施例。基于本文件中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文件保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
为避免小程序等轻量应用对用户的隐私数据的过度采集情况,本说明书一个或多个实施例提供一种基于隐私数据保护的异常采集行为识别方法,能够获取目标轻量应用的页面内容数据、用户行为数据和目标轻量应用申请采集的隐私数据列表,再将目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过场景分类模型预测目标轻量应用的使用场景类别,并能够基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表,确定目标轻量应用是否存在异常采集行为。
这样便将小程序等轻量应用的基于隐私数据保护的异常采集行为识别由被动核查转变为主动识别,且使用场景分类模型来识别使用场景类别,一方面提高了识别效率;另一方面保护了用户的隐私,给用户带来更安心的服务体验。
应理解,本说明书实施例提供的基于隐私数据保护的异常采集行为识别方法的执行主体,可以但不限于服务器、电脑等能够被配置为执行本说明书实施例提供的该方法用户终端中的至少一种,或者,该方法的执行主体,还可以是能够执行该方法的客户端本身。
为便于描述,下文以该方法的执行主体为能够执行该方法的服务器为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为服务器只是一种示例性的说明,并不应理解为对该方法的限定。
图1是本说明书的一个实施例提供的一种基于隐私数据保护的异常采集行为识别方法的实施流程示意图。图1的方法可包括:
S110,获取目标轻量应用的页面内容数据、用户行为数据和目标轻量应用申请采集的隐私数据列表;
其中,目标轻量应用具体可以包括快应用、小程序、H5应用等即用户无需安装即可使用的轻量级应用程序。
其中,目标轻量应用的页面内容数据包括目标轻量应用的页面中的文字信息、实体类型以及对应的实体数量,该实体类型可以是页面中的各种物体,比如猫、狗、房子、车等实体。目标轻量应用中的用户行为数据包括用户在目标轻量应用的页面中的点击、滑动、支付、转发、输入等行为数据、以及用户所在的城市、用户的学历、年龄、职业等特征数据。目标轻量应用申请采集的隐私数据列表具体可以是目标轻量应用在被用户使用时,实际采集的用户的隐私数据列表,比如可以包括用户的身份证号、用户的手机号码、用户的性别、用户的头像、昵称等隐私数据。
S120,将目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过场景分类模型预测目标轻量应用的使用场景类别;
应理解,小程序等轻量应用在用户打开使用时,往往会采集用户的隐私数据,比如在聊天应用中打开购物类小程序时,则会提示用户将为其提供采集用户在该聊天应用中的头像、昵称、联系方式等隐私数据的权限。通常情况下,用户在打开小程序时,不会在意其打开的小程序是否会过度采集用户的隐私数据,这就导致很多小程序可能存在过度采集用户隐私数据的意图,从而恶意利用或贩卖用户的隐私数据达到额外获利的目的。
在这种情况下,为了避免用户的隐私数据被过度采集和利用,本说明书一个或多个实施例,可预先基于多个轻量应用的页面内容数据、用户行为数据和这些轻量应用的使用场景标签,训练得到场景分类模型,通过场景分类模型预测目标轻量应用的使用场景类别,并基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表,确定目标轻量应用是否存在异常采集行为。
S130,基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表,确定目标轻量应用是否存在异常采集行为。
其中,轻量应用的使用场景类别可包括购物类使用场景、购买火车票的使用场景、共享单车类使用场景、学习工具类的使用场景,等等,通常不同使用场景类别的轻量应用需要采集的用户隐私数据也会不同。比如购物类的轻量应用通常需要采集用户的购物账号、联系方式等隐私数据;购买火车票类的轻量应用则需要采集用户的身份证号、购票账号、联系方式等隐私数据;共享单车类轻量应用需要采集用户的登录账号、联系方式等隐私数据;学习工具类的轻量应用可能只需要采集用户的登录账号等隐私数据。
也就是说,依据不同使用场景类别的轻量应用实际申请采集的隐私数据列表、以及对应于不同使用场景类别的轻量应用可采集的隐私数据列表,便可以判断出轻量应用是否存在过度采集用户隐私数据的情况。
可选地,基于目标轻量应用申请采集的隐私数据列表和目标隐私数据采集列表,确定目标轻量应用是否存在异常采集行为,包括:
若目标轻量应用申请采集的隐私数据列表和目标隐私数据采集列表一致,则确定目标轻量应用不存在异常采集行为;
若目标轻量应用申请采集的隐私数据列表和目标隐私数据采集列表不一致,则确定目标轻量应用存在异常采集行为。
可选地,为了避免目标轻量应用过度采集用户的隐私数据,在确定目标轻量应用存在异常采集行为之后,该方法还包括:
拦截目标轻量应用的隐私数据发送请求。
以目标轻量应用为购物类轻量应用为例,这类轻量应用在被用户打开并使用时,通常只需要采集用户的购物账号、联系方式、收货地址等隐私数据信息,显然,在用户进行购物时,通常情况下是不需要出示用户本人的身份信息的,比如身份证号码。若该购物应用又额外采集了用户的身份证号码这一隐私数据,则可以在基于目标轻量应用申请采集的隐私数据列表和目标隐私数据采集列表,确定目标轻量应用存在异常采集行为之后,拦截目标轻量应用针对其额外采集的隐私数据发送请求,或者拦截目标轻量应用的所有隐私数据的发送请求。
本说明书提供的一种或多个实施例,能够获取目标轻量应用的页面内容数据、用户行为数据和目标轻量应用申请采集的隐私数据列表,再将目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过场景分类模型预测目标轻量应用的使用场景类别,并能够基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表,确定目标轻量应用是否存在异常采集行为。将小程序等轻量应用的异常采集行为的识别由被动核查转变为主动识别,且使用场景分类模型来识别使用场景类别,一方面提高了识别效率;另一方面保护了用户的隐私,给用户带来更安心的服务体验。
图2是本说明书的一个实施例提供的一种场景分类模型的训练方法的实施流程示意图,包括:
S210,获取多个轻量应用的页面内容数据、用户行为数据以及多个轻量应用的使用场景标签;
其中,多个轻量应用的页面内容数据包括这多个轻量应用的页面中的文字信息、实体类型以及对应的实体数量,该实体类型可以是页面中的各种物体,比如猫、狗、房子、车等实体。多个轻量应用中的用户行为数据包括多个用户在这多个轻量应用的页面中的点击、滑动、支付、转发、输入等行为数据、以及这多个用户所在的城市、用户的学历、年龄、职业等特征数据。
多个轻量应用的使用场景标签为场景分类模型训练之前,通过人工或者机器打标的方式,对这多个轻量应用的使用场景标记对应的使用场景标签,比如购物类、购票类、学习工具类等等使用场景标签。
S220,从多个轻量应用的页面内容数据和用户行为数据中,提取多个轻量应用的使用场景特征;
应理解,轻量应用的页面内容数据中通常会包括文字类数据和图像类数据,为便于从文字类数据和图像类数据提取出对应的特征数据,本说明书一个或多个实施例可将图像类数据转换为文字类数据,再将所有的文字类数据进行拼接得到一个文本字段。具体地,从多个轻量应用的页面内容数据和用户行为数据中,提取多个轻量应用的使用场景特征,包括:
从多个轻量应用的页面内容数据中,分别获取多个轻量应用的页面中的多个文字信息、以及多个轻量应用的页面中的实体类型和数量;
分别将多个轻量应用的页面中的多个文字信息、以及多个轻量应用的页面中的实体类型和数量进行拼接,得到多个轻量应用对应的多个文本字段,其中,一个文本字段中由对应的轻量应用中的多个文字信息、实体类型的名称和对应的实体数量拼接得到;
从多个轻量应用对应的多个文本字段和用户行为数据中,提取多个轻量应用的使用场景特征。
可选地,从多个轻量应用对应的多个文本字段和用户行为数据中,提取多个轻量应用的使用场景特征,包括:
分别对多个轻量应用对应的多个文本字段进行数据预处理;
分别将数据预处理操作后的多个轻量应用对应的多个文本字段,转换为对应的多个词向量;
从多个词向量和所述多个轻量应用对应的用户行为数据中,提取多个轻量应用的使用场景特征;
其中,数据预处理操作包括剔除停用词操作。
由于合并得到的多个文本字段中通常会存在一些没有实际意义的词和符合,比如“的”、“即使”、“以便”这种连接词,这些词对场景分类过程没有过多的价值和意义,这类词还会增加分类的计算量,因此,本说明书一个或多个实施例,在将多个应用对应的多个文本字段,转换为对应的多个词向量之前,还可以对这多个文本字段进行剔除停用词等数据预处理操作。
其中,分别将数据预处理操作后的多个轻量应用对应的多个文本字段,转换为对应的多个词向量,具体可以使用语料训练得到的词向量字典,或者开源版本的词向量字典,将数据预处理操作后的多个文本字段换换为对应的多个词向量。该词向量字典中包括多个词与词向量之间的映射关系,一个词向量对应于一组特征向量。
其中,用户行为数据对应的行为特征数据可通过统计分析的方式得到。从多个轻量应用对应的多个文本字段和用户行为数据中,提取多个轻量应用的使用场景特征,具体可以将多个文本字段对应的多个词向量和用户行为数据对应的行为特征数据进行合并,得到多个轻量应用的使用场景特征。
可选地,为了避免遗漏轻量应用的页面中的特征,本说明书一个或多个实施例可基于多个轻量应用的页面中的实体类型的名称和对应的数量,将各个实体类型的名称重复对应的数量的次数,再与轻量应用的页面中的文字信息进行拼接,得到各轻量应用的文本字段。具体地,分别将多个轻量应用的页面中的多个文字信息、以及多个轻量应用的页面中的实体类型和数量进行拼接,得到多个轻量应用对应的多个文本字段,包括:
基于多个轻量应用的页面中的实体类型的名称和对应的数量,分别获取与多个轻量应用的页面中的实体类型相对应的文本字段,一个轻量应用的页面中的一个实体类型对应的文本字段包括对应的数量的实体类型的名称;
基于分别将多个轻量应用的页面中的多个文字信息、以及与多个轻量应用的页面中的实体类型相对应的文本字段进行拼接,得到多个轻量应用对应的多个文本字段。
S230,基于多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,该场景分类模型用于预测轻量应用的使用场景类别。
可选地,基于多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,包括:
通过多分类模型基于多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型。
其中,多分类模型具体可以包括xgboost模型,该xgboost模型具体是一种梯度提升树模型的开源实现,能够用于分类和回归任务。
下面以轻量应用为小程序为例,并结合图3所示的场景分类模型和场景分类模型的应用方法流程示意图,对本说明书实施例提供的场景分类模型的训练方法和基于隐私数据保护的异常采集行为识别方法进行详细介绍,包括:
S301,获取多个小程序的页面内容数据,该页面内容数据包括小程序页面中显示的文字信息和图像类数据,其中图像类数据中包括小程序页面中显示的实体类型和对应的数量;
S302,获取多个小程序的用户行为数据,该用户行为数据包括用户对小程序页面的点击、滑动、跳转、输入、付款等行为数据;
S303,分别将这多个小程序的页面中的多个文字信息、以及多个小程序的页面中的实体类型和数量进行拼接,得到多个小程序对应的多个文本字段,并对这多个文本字段进行剔除停用词操作,以剔除这多个文本字段中的冗余信息,再基于预先设置的词向量字典将这多个文本字段转换为对应的多个词向量;
其中,一个文本字段中由对应的小程序中的多个文字信息、实体类型的名称和对应的实体数量拼接得到,词向量字典中包括多个文本字段与词向量之间的对应关系,一个词向量对应于一组特征向量。
S304,基于多个小程序的用户行为数据,构造对应的多个行为特征数据;
具体可以基于多个小程序的用户行为数据,统计分析得到用户的平均操作频次、操作时间段等特征数据,以及用户所在的城市、用户的年龄、学历职业等特征数据。
S305,对这多个小程序的使用场景数据进行人工打标,得到这多个小程序的使用场景标签,该使用场景标签用于表征小程序的使用场景类别相关的信息;
S306,通过xgboost多分类模型基于多个小程序对应的多个词向量和行为特征数据,训练得到场景分类模型;
S307,将目标小程序的页面内容数据和用户行为数据作为场景分类模型的输入,以通过场景分类模型预测目标小程序的使用场景类别;
S308,确定目标小程序的使用场景类别对应的隐私数据采集列表;
S309,确定目标小程序申请采集的隐私数据列表;
S310,将目标小程序的使用场景类别对应的隐私数据采集列表与其申请采集的隐私数据列表进行对比,判断出目标小程序是否存在异常采集行为;
S311,若目标小程序的使用场景类别对应的隐私数据采集列表与其申请采集的隐私数据列表不一致,则确定目标小程序存在异常采集行为,并拦截目标小程序的隐私数据发送请求。
以目标小程序为购物类的小程序为例,该目标小程序的使用场景类别对应的隐私数据列表包括用户的手机号这一敏感信息,而若该目标小程序申请采集的隐私数据列表还包括身份证号等敏感信息时,则可以确定该目标小程序存在异常采集行为。在这种情况下,当目标小程序发送用户的隐私数据时,则可以拦截该目标小程序的隐私数据发送请求,从而避免其对用户的隐私数据的过度采集。
本说明书提供的一种或多个实施例,能够获取多个轻量应用的页面内容数据、用户行为数据以及多个轻量应用的使用场景标签,再从这多个轻量应用的页面内容数据和用户行为数据中,并能够基于多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型。这样再使用训练得到的场景分类模型对小程序等轻量应用的使用场景进行识别,一方面能够提高对小程序使用场景的识别效率,另一方面也节省了不必要的人力资源。
图4是本说明书的一个实施例提供的一种基于隐私数据保护的异常采集行为识别装置400的结构示意图。请参考图4,在一种软件实施方式中,基于隐私数据保护的异常采集行为识别装置400可包括:
获取单元401,获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
预测单元402,将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
确定单元403,基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
可选地,在一种实施方式中,所述确定单元403,用于:
若所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表一致,则确定所述目标轻量应用不存在异常采集行为;
若所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表不一致,则确定所述目标轻量应用存在异常采集行为。
可选地,在一种实施方式中,在所述确定单元403确定所述目标轻量应用存在异常采集行为之后,所述装置还包括:
拦截单元404,拦截所述目标轻量应用的隐私数据发送请求。
基于隐私数据保护的异常采集行为识别装置400能够实现图1的方法实施例的方法,具体可参考图1所示实施例的基于隐私数据保护的异常采集行为识别方法,不再赘述。
图5是本说明书的一个实施例提供的一种场景分类模型的训练装置500的结构示意图。请参考图5,在一种软件实施方式中,场景分类模型的训练装置500可包括:
数据获取单元501,获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
特征提取单元502,从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
模型训练单元503,基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,所述场景分类模型用于预测轻量应用的使用场景类别。
可选地,在一种实施方式中,所述特征提取单元502,用于:
从所述多个轻量应用的页面内容数据中,分别获取所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量;
分别将所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量进行拼接,得到所述多个轻量应用对应的多个文本字段,其中,一个文本字段中由对应的轻量应用中的多个文字信息、实体类型的名称和对应的实体数量拼接得到;
从所述多个轻量应用对应的多个文本字段和用户行为数据中,提取所述多个轻量应用的使用场景特征。
可选地,在一种实施方式中,所述特征提取单元502,用于:
分别对所述多个轻量应用对应的多个文本字段进行数据预处理;
分别将所述数据预处理操作后的所述多个轻量应用对应的多个文本字段,转换为对应的多个词向量;
从所述多个词向量和所述多个轻量应用对应的用户行为数据中,提取所述多个轻量应用的使用场景特征;
其中,所述数据预处理操作包括剔除停用词操作。
可选地,在一种实施方式中,所述特征提取单元502,用于:
基于所述多个轻量应用的页面中的实体类型的名称和对应的数量,分别获取与所述多个轻量应用的页面中的实体类型相对应的文本字段,一个轻量应用的页面中的一个实体类型对应的文本字段包括对应的数量的实体类型的名称;
基于分别将所述多个轻量应用的页面中的多个文字信息、以及与所述多个轻量应用的页面中的实体类型相对应的文本字段进行拼接,得到所述多个轻量应用对应的多个文本字段。
可选地,在一种实施方式中,所述模型训练单元503,用于:
通过多分类模型基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型。
场景分类模型的训练装置500能够实现图2~图3的方法实施例的方法,具体可参考图2~图3所示实施例的场景分类模型的训练方法,不再赘述。
图6是本说明书的一个实施例电子设备的结构示意图。请参考图6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成基于隐私数据保护的异常采集行为识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
上述如本说明书图1~图3所示实施例揭示的基于隐私数据保护的异常采集行为识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现基于隐私数据保护的异常采集行为识别装置在图1所示实施例的功能,本说明书实施例在此不再赘述。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
图7是本说明书的一个实施例电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成场景分类模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型。
上述如本说明书图2和图3所示实施例揭示的场景分类模型的训练装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图2和图3的方法,并实现场景分类模型的训练装置在图2和图3所示实施例的功能,本说明书实施例在此不再赘述。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图2所示实施例的方法,并具体用于执行以下操作:
获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (14)

1.一种基于隐私数据保护的异常采集行为识别方法,包括:
获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
2.如权利要求1所述的方法,基于所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表,确定所述目标轻量应用是否存在异常采集行为,包括:
若所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表一致,则确定所述目标轻量应用不存在异常采集行为;
若所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表不一致,则确定所述目标轻量应用存在异常采集行为。
3.如权利要求2所述的方法,在确定所述目标轻量应用存在异常采集行为之后,所述方法还包括:
拦截所述目标轻量应用的隐私数据发送请求。
4.一种场景分类模型的训练方法,包括:
获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,所述场景分类模型用于预测轻量应用的使用场景类别。
5.如权利要求4所述的方法,从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征,包括:
从所述多个轻量应用的页面内容数据中,分别获取所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量;
分别将所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量进行拼接,得到所述多个轻量应用对应的多个文本字段,其中,一个文本字段中由对应的轻量应用中的多个文字信息、实体类型的名称和对应的实体数量拼接得到;
从所述多个轻量应用对应的多个文本字段和用户行为数据中,提取所述多个轻量应用的使用场景特征。
6.如权利要求5所述的方法,从所述多个轻量应用对应的多个文本字段和用户行为数据中,提取所述多个轻量应用的使用场景特征,包括:
分别对所述多个轻量应用对应的多个文本字段进行数据预处理;
分别将所述数据预处理操作后的所述多个轻量应用对应的多个文本字段,转换为对应的多个词向量;
从所述多个词向量和所述多个轻量应用对应的用户行为数据中,提取所述多个轻量应用的使用场景特征;
其中,所述数据预处理操作包括剔除停用词操作。
7.如权利要求5所述的方法,分别将所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量进行拼接,得到所述多个轻量应用对应的多个文本字段,包括:
基于所述多个轻量应用的页面中的实体类型的名称和对应的数量,分别获取与所述多个轻量应用的页面中的实体类型相对应的文本字段,一个轻量应用的页面中的一个实体类型对应的文本字段包括对应的数量的实体类型的名称;
基于分别将所述多个轻量应用的页面中的多个文字信息、以及与所述多个轻量应用的页面中的实体类型相对应的文本字段进行拼接,得到所述多个轻量应用对应的多个文本字段。
8.如权利要求4所述的方法,基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,包括:
通过多分类模型基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型。
9.一种基于隐私数据保护的异常采集行为识别装置,包括:
获取单元,获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
预测单元,将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
确定单元,基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
10.一种场景分类模型的训练装置,包括:
数据获取单元,获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
特征提取单元,从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
模型训练单元,基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,所述场景分类模型用于预测轻量应用的使用场景类别。
11.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
12.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表;
将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入,以通过所述场景分类模型预测所述目标轻量应用的使用场景类别;
基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表,确定所述目标轻量应用是否存在异常采集行为。
13.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,所述场景分类模型用于预测轻量应用的使用场景类别。
14.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签;
从所述多个轻量应用的页面内容数据和用户行为数据中,提取所述多个轻量应用的使用场景特征;
基于所述多个轻量应用的使用场景特征和对应的使用场景标签,训练得到场景分类模型,所述场景分类模型用于预测轻量应用的使用场景类别。
CN201911158814.7A 2019-11-22 2019-11-22 基于隐私数据保护的异常采集行为识别方法和装置 Active CN110826006B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911158814.7A CN110826006B (zh) 2019-11-22 2019-11-22 基于隐私数据保护的异常采集行为识别方法和装置
TW109115226A TWI743773B (zh) 2019-11-22 2020-05-07 基於隱私資料保護的異常採集行為識別方法和裝置
PCT/CN2020/111725 WO2021098327A1 (zh) 2019-11-22 2020-08-27 基于隐私数据保护的异常采集行为识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911158814.7A CN110826006B (zh) 2019-11-22 2019-11-22 基于隐私数据保护的异常采集行为识别方法和装置

Publications (2)

Publication Number Publication Date
CN110826006A true CN110826006A (zh) 2020-02-21
CN110826006B CN110826006B (zh) 2021-03-19

Family

ID=69558415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911158814.7A Active CN110826006B (zh) 2019-11-22 2019-11-22 基于隐私数据保护的异常采集行为识别方法和装置

Country Status (3)

Country Link
CN (1) CN110826006B (zh)
TW (1) TWI743773B (zh)
WO (1) WO2021098327A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400705A (zh) * 2020-03-04 2020-07-10 支付宝(杭州)信息技术有限公司 一种应用程序的检测方法、装置及设备
CN112491815A (zh) * 2020-11-11 2021-03-12 恒安嘉新(北京)科技股份公司 信息监测方法、装置、设备及介质
CN112765654A (zh) * 2021-01-07 2021-05-07 支付宝(杭州)信息技术有限公司 一种基于隐私数据调用的管控方法及装置
CN112835902A (zh) * 2021-02-01 2021-05-25 上海上讯信息技术股份有限公司 一种数据资产识别及使用的方法及设备
WO2021098327A1 (zh) * 2019-11-22 2021-05-27 支付宝(杭州)信息技术有限公司 基于隐私数据保护的异常采集行为识别方法和装置
CN112948835A (zh) * 2021-03-26 2021-06-11 支付宝(杭州)信息技术有限公司 小程序风险检测方法和装置
CN113297609A (zh) * 2021-07-27 2021-08-24 支付宝(杭州)信息技术有限公司 针对小程序进行隐私采集行为监控的方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434847B (zh) * 2021-06-25 2023-10-27 深圳赛安特技术服务有限公司 应用程序的隐私模块处理方法、装置、电子设备及介质
CN113792341B (zh) * 2021-09-15 2023-10-13 百度在线网络技术(北京)有限公司 应用程序的隐私合规自动化检测方法、装置、设备及介质
CN114793269A (zh) * 2022-03-25 2022-07-26 岚图汽车科技有限公司 摄像头的控制方法及相关设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101539841B1 (ko) * 2013-05-30 2015-07-28 제주대학교 산학협력단 스마트그리드 전력 네트워크에서 정책기반 정보보호 서비스 방법 및 시스템
CN104966031A (zh) * 2015-07-01 2015-10-07 复旦大学 安卓应用程序中非权限相关隐私数据的识别方法
CN107958154A (zh) * 2016-10-17 2018-04-24 中国科学院深圳先进技术研究院 一种恶意软件检测装置及方法
CN109495727A (zh) * 2019-01-04 2019-03-19 京东方科技集团股份有限公司 智能监控方法及装置、***、可读存储介质
CN109933503A (zh) * 2019-02-13 2019-06-25 平安科技(深圳)有限公司 用户操作风险系数确定方法、装置及存储介质、服务器
CN109960753A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 上网设备用户的检测方法、装置、存储介质及服务器
CN110213236A (zh) * 2019-05-05 2019-09-06 深圳市腾讯计算机***有限公司 确定业务安全风险的方法、电子设备及计算机存储介质
CN110428091A (zh) * 2019-07-10 2019-11-08 平安科技(深圳)有限公司 基于数据分析的风险识别方法及相关设备
CN110457694A (zh) * 2019-07-29 2019-11-15 腾讯科技(深圳)有限公司 消息提醒方法及装置、场景类型识别提醒方法及装置
CN110475014A (zh) * 2018-05-11 2019-11-19 北京三星通信技术研究有限公司 用户场景的识别方法及终端设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070111603A (ko) * 2006-05-18 2007-11-22 이상규 클라이언트 및 서버의 보안시스템
US20130297256A1 (en) * 2012-05-04 2013-11-07 Jun Yang Method and System for Predictive and Conditional Fault Detection
CN105550584A (zh) * 2015-12-31 2016-05-04 北京工业大学 一种Android平台下基于RBAC的恶意程序拦截及处置方法
US11347871B2 (en) * 2018-01-16 2022-05-31 International Business Machines Corporation Dynamic cybersecurity protection mechanism for data storage devices
CN109344042B (zh) * 2018-08-22 2022-02-18 北京中测安华科技有限公司 异常操作行为的识别方法、装置、设备及介质
CN109829300A (zh) * 2019-01-02 2019-05-31 广州大学 App动态深度恶意行为检测装置、方法及***
CN109766488B (zh) * 2019-01-16 2022-09-16 南京工业职业技术学院 一种基于Scrapy的数据采集方法
CN110087099B (zh) * 2019-03-11 2020-08-07 北京大学 一种保护隐私的监控方法和***
CN110826006B (zh) * 2019-11-22 2021-03-19 支付宝(杭州)信息技术有限公司 基于隐私数据保护的异常采集行为识别方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101539841B1 (ko) * 2013-05-30 2015-07-28 제주대학교 산학협력단 스마트그리드 전력 네트워크에서 정책기반 정보보호 서비스 방법 및 시스템
CN104966031A (zh) * 2015-07-01 2015-10-07 复旦大学 安卓应用程序中非权限相关隐私数据的识别方法
CN107958154A (zh) * 2016-10-17 2018-04-24 中国科学院深圳先进技术研究院 一种恶意软件检测装置及方法
CN110475014A (zh) * 2018-05-11 2019-11-19 北京三星通信技术研究有限公司 用户场景的识别方法及终端设备
CN109495727A (zh) * 2019-01-04 2019-03-19 京东方科技集团股份有限公司 智能监控方法及装置、***、可读存储介质
CN109933503A (zh) * 2019-02-13 2019-06-25 平安科技(深圳)有限公司 用户操作风险系数确定方法、装置及存储介质、服务器
CN109960753A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 上网设备用户的检测方法、装置、存储介质及服务器
CN110213236A (zh) * 2019-05-05 2019-09-06 深圳市腾讯计算机***有限公司 确定业务安全风险的方法、电子设备及计算机存储介质
CN110428091A (zh) * 2019-07-10 2019-11-08 平安科技(深圳)有限公司 基于数据分析的风险识别方法及相关设备
CN110457694A (zh) * 2019-07-29 2019-11-15 腾讯科技(深圳)有限公司 消息提醒方法及装置、场景类型识别提醒方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021098327A1 (zh) * 2019-11-22 2021-05-27 支付宝(杭州)信息技术有限公司 基于隐私数据保护的异常采集行为识别方法和装置
CN111400705A (zh) * 2020-03-04 2020-07-10 支付宝(杭州)信息技术有限公司 一种应用程序的检测方法、装置及设备
CN111400705B (zh) * 2020-03-04 2023-03-14 支付宝(杭州)信息技术有限公司 一种应用程序的检测方法、装置及设备
CN112491815A (zh) * 2020-11-11 2021-03-12 恒安嘉新(北京)科技股份公司 信息监测方法、装置、设备及介质
CN112765654A (zh) * 2021-01-07 2021-05-07 支付宝(杭州)信息技术有限公司 一种基于隐私数据调用的管控方法及装置
CN112765654B (zh) * 2021-01-07 2022-09-20 支付宝(杭州)信息技术有限公司 一种基于隐私数据调用的管控方法及装置
CN112835902A (zh) * 2021-02-01 2021-05-25 上海上讯信息技术股份有限公司 一种数据资产识别及使用的方法及设备
CN112948835A (zh) * 2021-03-26 2021-06-11 支付宝(杭州)信息技术有限公司 小程序风险检测方法和装置
CN112948835B (zh) * 2021-03-26 2022-07-19 支付宝(杭州)信息技术有限公司 小程序风险检测方法和装置
CN113297609A (zh) * 2021-07-27 2021-08-24 支付宝(杭州)信息技术有限公司 针对小程序进行隐私采集行为监控的方法及装置

Also Published As

Publication number Publication date
CN110826006B (zh) 2021-03-19
TW202121215A (zh) 2021-06-01
TWI743773B (zh) 2021-10-21
WO2021098327A1 (zh) 2021-05-27

Similar Documents

Publication Publication Date Title
CN110826006B (zh) 基于隐私数据保护的异常采集行为识别方法和装置
CN110874440A (zh) 一种信息推送及其模型训练的方法、装置及电子设备
CN110956275B (zh) 风险预测和风险预测模型的训练方法、装置及电子设备
CN108550046B (zh) 一种资源和营销推荐方法、装置及电子设备
CN108399482B (zh) 合同的评估方法、装置和电子设备
CN113383362B (zh) 用户识别方法及相关产品
CN109271611B (zh) 一种数据校验方法、装置及电子设备
CN112184143B (zh) 一种合规审核规则中的模型训练方法、装置和设备
CN113420229B (zh) 一种基于大数据的社交媒体信息推送方法和***
CN114758327A (zh) 识别码图像中的风险的方法、装置以及设备
US20230410222A1 (en) Information processing apparatus, control method, and program
CN111598122B (zh) 数据校验方法、装置、电子设备和存储介质
CN110334936B (zh) 一种信贷资质评分模型的构建方法、装置和设备
CN109195154B (zh) 物联网窜卡用户识别方法和装置
CN111353784A (zh) 一种转账处理方法、***、装置和设备
CN111275071B (zh) 预测模型训练、预测方法、装置及电子设备
CN109120509B (zh) 一种信息收集的方法及装置
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及***
CN110262938B (zh) 一种内容监控方法和装置
CN113111153A (zh) 一种数据分析方法、装置、设备及存储介质
CN111311372A (zh) 一种用户识别方法和装置
CN112101308B (zh) 一种基于语言模型的文本框的合并方法、装置及电子设备
CN113127767A (zh) 手机号码提取方法、装置、电子设备及存储介质
CN113988483B (zh) 风险操作行为的管控及其模型的训练方法及电子设备
CN112165456B (zh) 一种劫持流量识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant