CN111107074B - 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置 - Google Patents

一种防止网络爬虫窃取隐私数据的方法、训练方法及装置 Download PDF

Info

Publication number
CN111107074B
CN111107074B CN201911284559.0A CN201911284559A CN111107074B CN 111107074 B CN111107074 B CN 111107074B CN 201911284559 A CN201911284559 A CN 201911284559A CN 111107074 B CN111107074 B CN 111107074B
Authority
CN
China
Prior art keywords
data
api
web crawler
sample
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911284559.0A
Other languages
English (en)
Other versions
CN111107074A (zh
Inventor
宗志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911284559.0A priority Critical patent/CN111107074B/zh
Publication of CN111107074A publication Critical patent/CN111107074A/zh
Application granted granted Critical
Publication of CN111107074B publication Critical patent/CN111107074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种防止网络爬虫窃取隐私数据的方法、训练方法及装置。防止网络爬虫窃取隐私数据的方法包括:从目标客户端的网络流量数据中提取目标客户端在预设时间段内的应用程序接口API访问记录。基于目标客户端的API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的目标客户端在预设时间段内的API访问二维图。将待识别数据输入至网络爬虫识别模型,以得到所目标客户端的网络识别结果,其中,网络爬虫识别模型是基于样本数据和样本数据的网络爬虫分类标签训练得到的,样本数据包括以时间和API访问量为维度的样本用户在预设时间段内的API访问二维图。对目标客户端执行与网络爬虫识别结果相匹配的隐私数据保护措施。

Description

一种防止网络爬虫窃取隐私数据的方法、训练方法及装置
技术领域
本文件涉及数据安全技术领域,尤其涉及一种防止网络爬虫窃取隐私数据的方法、训练方法及装置。
背景技术
互联网公司在向用户提供服务的同时,也为信息爬取提供了机会。网络爬虫只需要编写好自动化脚本,并在用户有意识或无意识授权下,即可在各个互联网公司中过度采集用户的隐私数据。这些用户个人的敏感信息被存储在爬取公司,很容易导致大规模的数据泄露发生。
为此,当前迫切需要一种能够自动识别网络爬虫,并防止网络爬虫窃取隐私数据的技术方案。
发明内容
本说明书实施例目的是提供一种方法防止网络爬虫窃取隐私数据的方法、训练方法及装置、装置及电子设备,能够机械化识别网络爬虫,并防止网络爬虫窃取隐私数据。
为了实现上述目的,本说明书实施例是这样实现的:
第一方面,提供一种防止网络爬虫窃取隐私数据的方法,包括:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
第二方面,网络爬虫识别模型的训练方法,包括:
从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练。
第三方面,提供一种防止网络爬虫窃取隐私数据的装置,包括:
记录提取模块,从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
图像生成模块,基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
爬虫识别模块,将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
数据保护模块,对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
第四方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
第五方面,提供一种算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
第六方面,提供一种网络爬虫识别模型的训练方法,包括:
记录提取模块,从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
图像生成模块,基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
模型训练模块,基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练。
第七方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练。
第八方面,提供一种算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练。
本说明书实施例的方案从网络流量数据中提取API访问记录,并使用时间和API访问量的二维图像进行表征,从而利用样本数据的API访问二维图像对网络爬虫识别模型进行训练,使网络爬虫识别模型学习获得网络爬虫发起API访问的节奏序列。在需要判断目标客户端是否为网络爬虫时,可以将目标客户端的网络流量数据转化API访问二维图像,并输入至网络爬虫识别模型以进行识别,从而根据网络爬虫识别结果对目标客户端执行相匹配的隐私数据保护措施,可有效防止网络爬虫窃取隐私数据。此外,由于训练过程不需要对样本客户端进行特征提取,因此可以减少特征信息的丢失,并提高训练效率,使得训练完成的网络爬虫识别模型具有更高的准确率和召回率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的防止网络爬虫窃取隐私数据的方法的流程示意图。
图2为本说明书实施例提供的网络爬虫识别模型的训练方法的流程示意图。
图3为本说明书实施例提供的防止网络爬虫窃取隐私数据的装置的结构示意图。
图4为本说明书实施例提供的网络爬虫识别模型的训练装置的结构示意图。
图5为本说明书实施例提供的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
目前很多数据公司利用网络爬虫窃取用户的隐私数据。这一过程即便得到了用户授权(很多情况下是用户无意识授权),也依然存在过度采集的问题。而这些数据爬去公司窃取用户的敏感信息就是为了进行利用,很容易发生大规模的数据泄露,严重危害了用户的隐私安全。
在此背景下,本文件旨在提供一种基于深度学习模型识别网络爬虫,并防止网络爬虫窃取隐私数据的技术方案。
图1是本说明书实施例防止网络爬虫窃取隐私数据的方法的流程图。图1所示的方法可以由下文相对应的装置执行,包括:
步骤S102,从目标客户端的网络流量数据中提取目标客户端在预设时间段内的应用程序接口API访问记录。
具体地,本步骤可以从目标客户端的网络流量日志,获取目标客户端在预设时间段内的应用程序接口API访问记录,API访问记录可以但不限于包括目标客户端在预设时间段内每次访问的API以及对应的时间。
步骤S104,基于目标客户端在预设时间段内的应用程序接口API访问记录,生成待识别数据,待识别数据包括以时间和API访问量为维度的目标客户端在预设时间段内的API访问二维图。
应理解,API访问二维图在时间和API访问量这个两个维度上体现出目标客户在预设时间段内进行API访问的记录,因此可以呈现出目标客户端发起API访问的节奏。
步骤S106,将待识别数据输入至网络爬虫识别模型,以得到目标客户端的网络识别结果,其中,网络爬虫识别模型是基于样本数据和样本数据的网络爬虫分类标签训练得到的,样本数据包括以时间和API访问量为维度的样本用户在预设时间段内的API访问二维图。
应理解,网络爬虫是基于编写好的自动化脚本窃取隐私数据的,因此发起API访问的节奏会呈现一定规律,通过样本数据训练网络爬虫识别模型可以使网络爬虫识别模型学习获得网络爬虫发起API访问的节奏,从而具有准确识别网络爬虫的能力。
步骤S108,对目标客户端执行与网络爬虫识别结果相匹配的隐私数据保护措施。
需要说明的是,本说明书实施例不对隐私数据保护措施作具体限定。作为示例性介绍,本步骤中,若网络爬虫识别结果指示所述目标客户端属于网络爬虫,则可以将目标客户端添置黑名单以阻止进行API访问,或者,在每天指定时段阻止目标客户端进行API访问。
基于图1所示的方法,本说明书实施例的方案从网络流量数据中提取API访问记录,并使用时间和API访问量的二维图像进行表征,从而利用样本数据的API访问二维图像对网络爬虫识别模型进行训练,使网络爬虫识别模型学习获得网络爬虫发起API访问的节奏序列。在需要判断目标客户端是否为网络爬虫时,可以将目标客户端的网络流量数据转化API访问二维图像,并输入至网络爬虫识别模型以进行识别,从而根据网络爬虫识别结果对目标客户端执行相匹配的隐私数据保护措施,可有效防止网络爬虫窃取隐私数据。
与上述防止网络爬虫窃取隐私数据的方法相对应地,本说明书实施例还提供一种网络爬虫识别模型的训练方法。图2是本说明书实施例防止网络爬虫窃取隐私数据的方法的流程图。图2所示的方法可以由下文相对应的装置执行,包括:
步骤S202,从样本客户端的网络流量数据中提取样本客户端在预设时间段内的应用程序接口API访问记录。
在本说明书实施例中,样本客户端可以包括白样本和黑样本两个分类。黑样本是指已经确定为网络爬虫的客户端,白样本是指已确定为非网络爬虫的客户端,也就是正常用户的客户端。黑样本和白样本通过标注的网络爬虫分类标志进行区分。
具体地,本步骤可以从样本客户端的网络流量日志中,获取样本客户端在预设时间段内的API访问记录,API访问记录可以但不限于包括样本客户端在预设时间段内每次访问的API以及对应的时间。
步骤S204,基于样本客户端在预设时间段内的应用程序接口API访问记录,生成样本数据,其中,样本数据包括以时间和API访问量为维度的样本客户端在预设时间段内的API访问二维图。
如前所述,API访问二维图在时间和API访问量这个两个维度上体现出样本客户端在预设时间段内进行API访问的记录,因此可以呈现出样本客户端发起API访问的节奏。
步骤S206,基于样本数据和预先为样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练。
具体地,本步骤可以将样本数据作为输入,样本数据的网络爬虫分类标签作为输出,对网络爬虫识别模型进行训练。在训练过程中,网络爬虫识别模型会输出训练结果,这个训练结果也就是网络爬虫识别模型预测样本数据为白样本或黑样本的结果,与网络爬虫分类标签所指示的真值结果可能存在误差。本步骤通过最大似然估计推导得到损失函数,计算出训练结果与网络爬虫分类标签之间的损失,并以降低误差值为目的,对网络爬虫识别模型的参数进行优化。
基于图2所示的训练方法,本说明书实施例的方案从样本客户端的网络流量数据中提取API访问记录,并使用时间和API访问量两个维度进行表征,得到样本客户端的API访问二维图像,从而利用该API访问二维图像对网络爬虫识别模型学习进行训练,使网络爬虫识别模型学习获得网络爬虫发起API访问的节奏序列,以形成网络爬虫识别能力。整个过程中,由于不需要对样本客户端进行特征提取,因此可以减少特征信息的丢失,并提高训练效率。同时训练的网络爬虫识别模型也具有更高的准确率和召回率。
下面结合实际的应用场景,对本说明书实施例的防止网络爬虫窃取隐私数据的方法和网络爬虫识别模型的训练方法进行详细介绍。
本说明书实施例的方案ResNet模型作为网络爬虫识别模型。ResNet模型具有极高性能的图像分类能力,通过黑白样本的API访二维图像对ResNet模型训练,可以使ResNet模型从时间呈现的API访问节奏上区分出网络爬虫的的客户端和正常用户的客户端。
假设本应用场景中,互联网公司每天抽取一批次的网络流量数据,识别网络爬虫,则可以将1天作为预设时间段(还可以是12小时或者1小时作为预设时间段,本文不作具体限定),设置API访问二维图的时间轴的1440个单位时间组成,每个单位时间的长度为1分钟(1天24小时,每小时60分钟,因此总计1440分钟)。
首先互联网公司随机选择一定数量的已被确定为网络爬虫的客户端和正常用户的客户端作为样本客户端。这里,为了取得较佳的训练效果,黑样本的数量与白样本的数量之比以小于或等于1:9且大于或等于1:20为宜。
之后,互联网公司从样本客户端的网络流量日志中抽取各样本客户端在1天中每一次请求的API及对应的时间,并将提取到的记录按照上述API访问二维图的设置进行转换。这里,转换得到的各样本客户端的API访问二维图作为样本数据。
本应用场景中,互联网公司选取10%的样本数据作为测试集,剩余的90%的样本数据作为训练集。互联网公司先使用训练集对ResNet模型进行反复迭代训练,使ResNet模型具备网络爬虫识别能力。在训练完成后,互联网公司再使用将上述测试集中对ResNet模型进行测试。如果满足测试要求,则对ResNet模型投入使用,也就是在互联网公司线上运营。如果未满足测试要求,则重新构建样本数据(例如选取新一批的样本客户端),并再次对ResNet模型进行训练、测试,直至ResNet模型投入使用。
在ResNet模型投入使用后,互联网公司可以复查每天的网络流量数据,以识别网络爬虫。假设互联网公司需要对当天进行API访问的目标客户端进行网络爬虫识别,则可以从当天的网络流量数据提取出目标客户端的API访问记录,并将目标客户端的API访问记录转换为API访问二维图。之后,互联网公司将目标客户端的API访问二维图输入至ResNet模型,由ResNet模型判断目标用户端是否为网络爬虫。
如果ResNet模型的确定目标用户为网络爬虫,则互联网公司可以将目标客户端设置为黑面单,阻止其对互联网公司的网站发起API访问,以防止该目标客户端窃取互联网公司私有的用户数据。
以上是对本说明书实施例的方法的介绍。应理解,在不脱离本文上述原理基础之上,还可以进行适当的变化,这些变化也应视为本说明书实施例的保护范围。比如,本说明书实施例方案中的网络爬虫识别模型并不限于是ResNet模型,但凡是可适用于图像分类的卷积神经网络模型均可以适用。此外,API访问二维图也可以进行适当调整,比如时间轴也可以按照访问高峰期进行不均匀划分。
与上述防止网络爬虫窃取隐私数据的方法相对应地,如图3所示,本说明书实施例还提供一种防止网络爬虫窃取隐私数据的装置300,包括:
记录提取模块310,从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
图像生成模块320,基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
爬虫识别模块330,将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
数据保护模块340,对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
基于图3所示的装置,本说明书实施例的方案从网络流量数据中提取API访问记录,并使用时间和API访问量的二维图像进行表征,从而利用样本数据的API访问二维图像对网络爬虫识别模型进行训练,使网络爬虫识别模型学习获得网络爬虫发起API访问的节奏序列。在需要判断目标客户端是否为网络爬虫时,可以将目标客户端的网络流量数据转化API访问二维图像,并输入至网络爬虫识别模型以进行识别,从而根据网络爬虫识别结果对目标客户端执行相匹配的隐私数据保护措施,可有效防止网络爬虫窃取隐私数据。
可选地,数据保护模块340在执行时,若所述网络爬虫识别结果指示所述目标客户端属于网络爬虫,则将所述目标客户端添置黑名单以阻止进行API访问,或者,在每天指定时段阻止所述目标客户端进行API访问。
显然,本说明书实施例的装置可以作为上述图1所示的防止网络爬虫窃取隐私数据的方法的执行主体,因此够实现该方法在图1所实现的功能。由于原理相同,本文不再赘述。
与上述网络爬虫识别模型的训练方法相对应地,如图4所示,本说明书实施例还提供一种网络爬虫识别模型的训练装置400,包括:
记录提取模块410,从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
图像生成模块420,基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
模型训练模块430,基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练。
基于图4所示的训练装置,本说明书实施例的方案从样本客户端的网络流量数据中提取API访问记录,并使用时间和API访问量两个维度进行表征,得到样本客户端的API访问二维图像,从而利用该API访问二维图像对网络爬虫识别模型学习进行训练,使网络爬虫识别模型学习获得网络爬虫发起API访问的节奏序列,以形成网络爬虫识别能力。整个过程中,由于不需要对样本客户端进行特征提取,因此可以减少特征信息的丢失,并提高训练效率。同时训练的网络爬虫识别模型也具有更高的准确率和召回率。
可选地,所述预设时间端为1天、12小时、1小时中的一者。
可选地,网络爬虫识别模型为卷积神经网络模型,比如差量网络模型。
显然,本说明书实施例的训练装置可以作为上述图2所示的网络爬虫识别模型的训练方法的执行主体,因此够实现该训练方法在图2所实现的功能。由于原理相同,本文不再赘述。
图5是本说明书的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
可选地,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成防止网络爬虫窃取隐私数据的装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录。
基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图。
将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图。
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成网络爬虫识别模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练。
上述如本说明书图1所示实施例揭示的防止网络爬虫窃取隐私数据的方法或者图2所示实施例揭示的网络爬虫识别模型的训练方法可以应用于处理器中,由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本说明书实施例的电子设备可以实现上述防止网络爬虫窃取隐私数据的装置在图1所示的实施例的功能,或者实现上述网络爬虫识别模型的训练装置在图2所示的实施例的功能。由于原理相同,本文不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
此外,本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令。
可选地,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下方法:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
或者,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图2所示实施例的方法,并具体用于执行以下方法:
从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录。
基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图。
基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练。
应理解,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使上文所述的防止网络爬虫窃取隐私数据的装置实现图1所示实施例的功能,或者使上文所述的网络爬虫识别模型的训练装置实现图2所示实施例的功能。由于原理相同,本文不再赘述。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。此外,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。

Claims (12)

1.一种防止网络爬虫窃取隐私数据的方法,包括:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
2.根据权利要求1所述的方法,
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施,包括:
若所述网络爬虫识别结果指示所述目标客户端属于网络爬虫,则将所述目标客户端添置黑名单以阻止进行API访问,或者,在每天指定时段阻止所述目标客户端进行API访问。
3.一种网络爬虫识别模型的训练方法,包括:
从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练,所述网络爬虫识别模型用于网络爬虫识别,且输出的网络爬虫识别结果用于决策隐私数据保护措施。
4.根据权利要求3所述的方法,
所述预设时间端为1天、12小时、1小时中的一者。
5.根据权利要求3所述的方法,
所述网络爬虫识别模型为卷积神经网络模型。
6.根据权利要求5所述的方法,
所述网络爬虫识别模型包括差量网络模型。
7.一种防止网络爬虫窃取隐私数据的装置,包括:
记录提取模块,从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
图像生成模块,基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
爬虫识别模块,将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
数据保护模块,对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
8.一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。
10.一种网络爬虫识别模型的训练装置,包括:
记录提取模块,从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
图像生成模块,基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
模型训练模块,基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练,所述网络爬虫识别模型用于网络爬虫识别,且输出的网络爬虫识别结果用于决策隐私数据保护措施。
11.一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练,所述网络爬虫识别模型用于网络爬虫识别,且输出的网络爬虫识别结果用于决策隐私数据保护措施。
12.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练,所述网络爬虫识别模型用于网络爬虫识别,且输出的网络爬虫识别结果用于决策隐私数据保护措施。
CN201911284559.0A 2019-12-13 2019-12-13 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置 Active CN111107074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911284559.0A CN111107074B (zh) 2019-12-13 2019-12-13 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911284559.0A CN111107074B (zh) 2019-12-13 2019-12-13 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置

Publications (2)

Publication Number Publication Date
CN111107074A CN111107074A (zh) 2020-05-05
CN111107074B true CN111107074B (zh) 2022-04-08

Family

ID=70421905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911284559.0A Active CN111107074B (zh) 2019-12-13 2019-12-13 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置

Country Status (1)

Country Link
CN (1) CN111107074B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100606B (zh) * 2020-09-28 2021-12-17 武汉厚溥数字科技有限公司 基于云端大数据计算的在线教育处理方法及在线教育平台
CN113987309B (zh) * 2021-12-29 2022-03-11 深圳红途科技有限公司 个人隐私数据识别方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489401B1 (en) * 2015-06-16 2016-11-08 My EyeSpy PTY Ltd. Methods and systems for object recognition
CN107943949A (zh) * 2017-11-24 2018-04-20 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN108429721A (zh) * 2017-02-15 2018-08-21 腾讯科技(深圳)有限公司 一种网络爬虫的识别方法及装置
CN110245280A (zh) * 2019-05-06 2019-09-17 北京三快在线科技有限公司 识别网络爬虫的方法、装置、存储介质和电子设备
CN110535777A (zh) * 2019-08-12 2019-12-03 新华三大数据技术有限公司 访问请求控制方法、装置、电子设备以及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489401B1 (en) * 2015-06-16 2016-11-08 My EyeSpy PTY Ltd. Methods and systems for object recognition
CN108429721A (zh) * 2017-02-15 2018-08-21 腾讯科技(深圳)有限公司 一种网络爬虫的识别方法及装置
CN107943949A (zh) * 2017-11-24 2018-04-20 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN110245280A (zh) * 2019-05-06 2019-09-17 北京三快在线科技有限公司 识别网络爬虫的方法、装置、存储介质和电子设备
CN110535777A (zh) * 2019-08-12 2019-12-03 新华三大数据技术有限公司 访问请求控制方法、装置、电子设备以及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于canvas绘图的网页信息防采集技术研究;陈丽卿;《网络安全技术与应用》;20180915(第09期);全文 *

Also Published As

Publication number Publication date
CN111107074A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN103839005B (zh) 移动操作***的恶意软件检测方法和恶意软件检测***
CN110826006B (zh) 基于隐私数据保护的异常采集行为识别方法和装置
CN112149111A (zh) 基于深度学习的弱口令检测方法、装置和电子装置
CN106874253A (zh) 识别敏感信息的方法及装置
CN111143654B (zh) 辅助识别爬虫的、爬虫识别方法、装置及电子设备
CN113381962B (zh) 一种数据处理方法、装置和存储介质
CN111107074B (zh) 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置
CN113904861B (zh) 一种加密流量安全检测方法及装置
CN114913534A (zh) 基于区块链的网络安全异常图像大数据检测方法及***
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN111159697A (zh) 一种密钥检测方法、装置及电子设备
CN115205766A (zh) 基于区块链的网络安全异常视频大数据检测方法及***
WO2020113582A1 (en) Providing images with privacy label
CN115827903A (zh) 媒体信息的违规检测方法、装置、电子设备及存储介质
CN107294981B (zh) 一种认证的方法和设备
CN113449816A (zh) 网址分类模型训练、网址分类方法、装置、设备及介质
CN113486182A (zh) 一种意图识别的方法、***、电子设备及可读存储介质
CN112597459A (zh) 一种身份验证方法及装置
CN115314268B (zh) 基于流量指纹和行为的恶意加密流量检测方法和***
CN116225950A (zh) 一种基于多模态融合的诈骗app的识别方法及***
CN116127106A (zh) 基于区块链的互联网图像大数据智能存储方法与***
CN110634018A (zh) 一种流失用户的特征刻画方法、识别方法及相关装置
CN112464218B (zh) 模型训练方法、装置、电子设备及存储介质
CN112016057B (zh) 代码文件的隐私保护方法、评估方法及装置及电子设备
CN111612157B (zh) 训练方法、文字识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant