CN107426148B

CN107426148B - 一种基于运行环境特征识别的反爬虫方法及***

Info

Publication number: CN107426148B
Application number: CN201710203203.4A
Authority: CN
Inventors: 夏珺峥; 蒋平川
Original assignee: Chengdu Youe Data Co ltd
Current assignee: Chengdu Youe Data Co ltd
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2020-07-31
Anticipated expiration: 2037-03-30
Also published as: CN107426148A

Abstract

本发明公开一种基于运行环境特征识别的反爬虫方法及***，本发明涉及反爬虫技术领域，解决爬虫程序识别及反爬策略实施的技术问题。主要包括产生新策略包和用于新策略包运行的选择码，利用新策略包更新服务器当前策略包并构建关于新策略包运行特征数据的特征类别白名单；发送选择码至客户端，然后发送应答请求至客户端；由客户端根据选择码选择地运行策略包进行服务器应答，获得对应选择码的特征数据并返回特征数据至服务器；分析选择码和选择码所对应的特征数据，计算出客户端的特征类别并判断是否属于特征类别白名单，对不属于特征类别白名单的客户端实施访问控制。

Description

一种基于运行环境特征识别的反爬虫方法及***

技术领域

本发明涉及爬虫识别和反爬虫技术领域，具体涉及一种基于运行环境特征识别的反爬虫方法及***。

背景技术

随着大数据时代的到来，数据变得越来越重要。从数据中分析出有价值的数据，首先需要大量的数据。互联网上的数据由于其公开性、海量性、广泛性受到了企业和个人的关注。许多网络爬虫被开发利用，采集互联网上的各种数据。但是，网络爬虫会带来许多负面影响。网络爬虫程序会短时间大量请求服务器，造成服务器性能下降；一些爬虫会恶意采集大量公开数据，进行汇总售卖，侵犯版权。还有一些网站的数据具有很高的价值密度，或者企业不希望自己公开的信息被网络爬虫轻易采集，都实施了不同的反爬虫措施，如验证码、会话检查、访问频率等来区分是网络爬虫还是真实地人为对***的访问。但是网络爬虫多种多样，也采取了许多突破反爬虫的技术手段。如通过机器识别、人工打码等识别验证码，通过拼接访问请求等绕过会话检查以及采用地址代理等模拟多用户访问。通过对爬虫运行环境的特征识别，能够有效的识别网络爬虫，防止数据泄露。

发明内容

针对上述现有技术，本发明目的在于提供一种基于运行环境特征识别的反爬虫方法及***，解决现有技术爬虫实施方不断地访问服务器并大量获取信息导致服务器运行速度慢且还存在信息资源被批量获取窃取等技术问题。

为达到上述目的，本发明采用的技术方案如下：

一种反爬虫方法，包括以下步骤：

步骤1、产生新策略包和用于新策略包运行的选择码，利用新策略包更新服务器当前策略包并构建关于新策略包运行特征数据的特征类别白名单，可以是通过独立服务器或本地服务器进行产生操作；

步骤2、发送选择码至客户端，然后发送应答请求至客户端，可以是通过独立服务器或本地服务器进行发送或接收操作；

步骤3、由客户端根据选择码选择地运行策略包进行服务器应答，获得对应选择码的特征数据并返回特征数据至服务器；

步骤4、分析选择码和选择码所对应的特征数据，计算出客户端的特征类别并判断是否属于特征类别白名单，对不属于特征类别白名单的客户端实施访问控制。

上述方法中，所述的步骤1，周期产生新策略包和用于新策略包运行的选择码。

上述方法中，所述的步骤4，包括以下步骤：

步骤4.1、由存储模块在预定的时间区间内接收特征数据；

步骤4.2、通过服务器处理模块访问存储模块并分析时间区间内的特征数据，计算出客户端的特征类别并判断是否属于特征类别白名单；

步骤4.2.1、对属于特征类别白名单的客户端标记合法，再跳转至步骤1；

步骤4.2.2、对不属于特征类别白名单的客户端实施访问控制。

一种基于运行环境特征识别的反爬虫方法，包括以下步骤：

步骤1、在服务器端周期产生具有不同运行时间程序函数作为元素的函数矩阵和用于映射字符串至函数矩阵中不同元素的选择子，并设置运行环境特征类别的白名单，再通过函数矩阵更新服务器的当前函数矩阵，在服务器端生成随机的字符串作为选择码，再发送选择码和应答请求至客户端；

步骤2、在客户端通过选择码决策出选择子，然后得出选择子在函数矩阵中所对应元素的运行时间，再将选择码和所对应元素的运行时间发送至服务器；

步骤3、在服务器端分析选择码和运行时间，计算出客户端运行环境特征类别，判断出不属于白名单内运行环境特征类别的客户端并对该客户端实施访问控制策略。

上述方法中，所述的步骤1，还包括周期产生包含选择子文本特征的选择子特征码。

上述方法中，所述的步骤3，包括以下步骤：

步骤3.1、查询服务器当前选择子特征码，获得当前使用中的函数矩阵和用于分析和计算初始设置的选择子值；

步骤3.2、选择出当前函数矩阵在预设时间区间内所有来自客户端的选择码和所对应元素的运行时间，通过均值聚类算法或者机器学习算法计算出客户端运行环境特征类别；

步骤3.3、判断出不属于白名单内运行环境特征类别的客户端并对该客户端标记不合法且实施访问控制策略。

上述方法中，所述的步骤3，由服务器的存储模块接收预设时间区间内来自客户端的选择码和所对应元素的运行时间。

一种基于运行环境特征识别的反爬虫***，包括

服务器，包括特征算法模块、数据接口模块、存储模块、数据分析模块和访问处理模块，特征算法模块对服务器本身输出用于更新和执行的策略包；

客户端，通过数据接口模块接收由特征算法模块生成的选择码；

所述的客户端由选择码执行策略包；

所述的服务器，通过数据接口模块对应选择码接收由客户端执行策略包应答的特征数据，数据接口模块还将对应选择码的特征数据输出至存储模块，数据分析模块计算存储模块内对应选择码的特征数据并由计算结果反馈信息至访问处理模块，访问处理模块由反馈信息对所述客户端执行预定策略。

上述方案中，所述的策略包，包括具有不同运行时间程序函数作为元素的函数矩阵、用于映射字符串至函数矩阵中不同元素的选择子和包含选择子文本特征的选择子特征码。

一种基于运行环境特征识别、具有反爬虫功能的服务器，包括

特征算法模块，周期产生具有不同运行时间程序函数作为元素的函数矩阵、用于映射字符串至函数矩阵中不同元素的选择子和包含选择子文本特征的选择子特征码；

数据接口模块，用于与客户端交互数据，输出由特征算法模块产生的选择码至客户端且接收来自客户端对应选择码的运行时间；

存储模块，接收来自数据接口模块预定时间区间内所接收的对应选择码运行时间的数据；

数据分析模块，计算存储模块中预定时间区间内数据且由计算结果判断客户端的运行环境特征类别；

访问处理模块，由数据分析模块计算出的客户端运行环境特征类别对客户端执行预定策略。

与现有技术相比，本发明的有益效果：

本发明通过随机选择码从而随机决策出函数矩阵中被用于运算的程序函数，收集一定时间区间内其运行时间，根据聚类特征分类后判断出其是否属于合法操作，显著增加了发现爬虫客户端的可能性并且随着收集数据的增多，会显著降低白名单误判率；

本发明中选择子特征码的生成是随机的且函数矩阵为可变函数矩阵，使得客户端每次需要执行的函数矩阵运算都不一样，从而大大提高了爬虫破解的难度。

附图说明

图1为本发明实施例的服务器结构框图；

图2为本发明实施例的反爬虫验证方法实施流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

运行环境是指客户端访问服务端服务的本地应用程序运行的环境；例如访问Web页面的浏览器的运行环境，访问微信页面的微信软件运行环境。

白名单是指一类经过记录鉴别是在正常客户端运行环境的特征记录集合；例如可以对Web页面访问的浏览器进行在不同操作***、不同硬件平台上运行进行实际测试，采集在专利描述方式里面的运行时间，进行机器学习、模式识别、神经网络学习后，进行按算法特征归类，形成的有类别的集合。

选择码可以是在客户端访问时，进行随机产生字符串，如取得当前时间，加上随机整数，并作哈希算法生成。

选择子是一段程序，具体算法可以多元方程求解的解，然后将解从小到大排序，进行对函数矩阵的列数进行求模后，依次每一行取这个列的运行函数运行；对选择子这段程序，进行文本的哈希后，将哈希值和这个程序对应的文件名记录在数据库。

函数矩阵的每一个值都是一段运行程序的索引，根据函数矩阵取得值，可以找到一个运行程序；这个运行程序可以是Web页面上的一段JavaScript程序，运行它的时候，需要记录下运行这段程序代码的时间，然后通过对运行时间记录进行分析来判断客户端程序的运行环境。

下面结合附图对本发明做进一步说明：

一种运行环境特征识别的反爬虫方法及***，具体包括：

S1、服务器周期产生函数矩阵、选择子，选择子特征码，更新服务器程序，设置访问运行环境特征类别白名单；

S2、服务器生成选择码、并发送选择码至客户端，请求客户端应答；

S3、客户端根据接收到的选择码、由选择子选择出函数矩阵里的函数并运行，然后将选择码、各函数运行时间发送至服务器；

S4、服务器将选择码、各函数运行时间存储至数据存储模块；

S5、服务器对存储的选择码、各函数运行时间的数据进行分析，计算出当前客户端运行环境的特征类别；

S6、根据配置的策略，对不在白名单里的访问实施访问控制策略；

上述方法中，服务器特征算法模块产生的函数矩阵、选择码、选择子的主要步骤包括：

S11、函数矩阵是由不同执行时间的程序函数组成N*N矩阵，标识为f(i,j)；

S12、选择子是将字符串映射到若干个f(i,j)的程序；

S13、选择子特征码是选择子程序的文本特征；

S14、更新服务器程序，替换旧版本的函数矩阵、选择子，并记录当前的选择子特征码；

S15、运行环境白名单是预设的合法访问的客户端运行环境；

上述方法中，服务器生成选择码、并发送选择码至客户端，请求客户端应答的主要步骤包括：

S21、选择码是随机生成的字符串；

S22、服务器是否请求客户应答是服务器设定的；

上述方法中，服务器对存储的选择码、各函数运行时间的数据进行分析，计算出当前客户端运行环境的特征类别主要步骤包括：

S51、查询服务器当前记录的选择子特征码，判断当前使用的函数矩阵和选择子；

S52、选择当前函数矩阵对应的一定时间区间的存储数据，计算当前客户端运行环境的特征类别，可以采用不同的识别算法，如聚类、机器学习等；

S53、标记不符合运行环境特征类别白名单得客户端访问；

上述方法中，具体包括特征算法生成模块、数据采集模块数据接口模块、数据存储模块、数据分析模块、访问处理模块；特征算法模块主要产生函数矩阵、选择子、选择子特征码、选择码；数据采集模块数据接口模块主要是发送和接收数据；数据存储模块主要用于存储客户端返回的在不同特征设定下选择码、函数矩阵的值；数据分析模块主要对存储数据进行分析，计算运行环境特征类别；访问处理模块主要是根据设定的策略，实施访问控制。

实施例1

其中，如图1所示，该服务器包括一数据采集模块数据接口模块1、一特征算法生成模块2、一数据存储模块3、一数据分析模块4及一访问处理模块5。

下面介绍各功能模块所具备的功能：

数据采集模块数据接口模块1用于发送和接收数据。

特征算法生成模块2用于生成函数矩阵、选择子特征码及选择子。

数据存储模块3用于存储客户端返回的在不同特征设定下的选择码、函数矩阵运行时间数据。

数据分析模块4用于对数据存储模块中的数据进行分析，并在接收到来自客户端的函数矩阵运行时间数据时，用该数据计算运行环境特征类别，以验证服务器是否接收到来自爬虫的访问。

访问处理模块5用于根据设定的策略，对客户端实施访问控制。

如图2所示，本实施例提供了一种反爬虫验证方法，该方法利用上述反爬虫***实现，其包括如下步骤：

步骤101，服务器生成函数矩阵f(i,j)、选择子特征码及选择子并更新服务器程序及运行环境特征类别白名单；

步骤102，服务器生成选择码、并发送选择码至客户端，请求客户端应答；

步骤103，客户端接收选择码，由选择子选择出函数矩阵里的函数；

步骤104，客户端运行选择出的函数，并采集函数运行时间数据；

步骤105，客户端发送选择码及运行时间数据至服务器；

步骤106，服务器存储来自客户端的选择码及运行时间数据；

步骤107，服务器对存储的选择码、函数运行时间数据进行分析，计算出当前客户端运行环境的特征类别；

步骤108，服务器根据配置的策略，当该客户端在运行环境白名单时进入步骤109，当该客户端不在运行环境白名单是进入步骤110；

步骤109，服务器允许客户端访问，结束流程；

步骤110，服务器禁止客户端访问，结束流程。

为了使本领域技术人员更好的理解本发明的技术方案，下面举一个具体的例子来说明：

设定服务器中存储有函数矩阵f(3,3)，即该矩阵中存有9个函数(函数f(1,1)，f(1,2)，f(1,3)，(2,1)，f(2,2)，f(2,3)，f(3,1)，f(3,2)，f(3,3)。

服务器随机生成选择码S，并将该选择码S发送至客户端后，等待客户端应答。

客户端接收到选择码S后，进行解析，并根据解析结果由选择子选中函数f(1,1),f(2,1)，f(2,1)，(3,1)。

客户端分别运行函数f(1,1),f(2,1)，f(2,1)，(3,1)并生成运行时间T1,T2,T3,T4。在服务器端请求客户端应答的情况下，客户端将运行时间数据T1,T2,T3,T4及选择码发送至服务器。

服务器接收到来自客户端的数据T1,T2,T3,T4及选择码后，进行存储后，触发数据分析模块对该数据进行分析。

具体的，服务器会将时间数据T1,T2,T3,T4与数据存储模块中的历史数据进行对比，以计算出当前客户端运行环境的特征类别M1。

在获得该特征类别后，数据分析模块将该特征类别M1发送至访问控制模块。

访问控制模块获得特征类别M1后，访问运行环境白名单，如果其在白名单中，则服务器运行该客户端继续访问服务器，如果其不在白名单中，则服务器禁止该客户端继续访问服务器。

在上述验证过程中，选择码是由服务器随机产生的，进一步的，运行函数由选择子随机选择，这可以大大增加爬虫破解难度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种反爬虫方法，其特征在于，包括以下步骤：

步骤1、产生新策略包和用于新策略包运行的选择码，利用新策略包更新服务器当前策略包并构建关于新策略包运行特征数据的特征类别白名单；

所述的策略包包括具有不同运行时间程序函数作为元素的函数矩阵、用于映射字符串至函数矩阵中不同元素的选择子和包含选择子文本特征的选择子特征码；

所述特征数据包括程序函数运行时间数据；

步骤2、发送选择码至客户端，然后发送应答请求至客户端；

步骤3、由客户端根据选择码选择地运行策略包的程序函数进行服务器应答，获得对应选择码的特征数据并返回特征数据至服务器；

步骤4、分析选择码和选择码所对应的特征数据，计算出客户端的特征类别并判断是否属于特征类别白名单，对不属于特征类别白名单的客户端实施访问控制；

所述的步骤4，包括以下步骤：

步骤4.1、由存储模块在预定的时间区间内接收特征数据；

2.根据权利要求1所述的一种反爬虫方法，其特征在于，所述的步骤1，周期产生新策略包和用于新策略包运行的选择码。

3.一种基于运行环境特征识别的反爬虫方法，其特征在于，包括以下步骤：

步骤1、在服务器端周期产生具有不同运行时间程序函数作为元素的函数矩阵和用于映射字符串至函数矩阵中不同元素的选择子,然后通过哈希算法计算出选择子的程序文本特征码作为选择子特征码，并设置运行环境特征类别的白名单，再通过函数矩阵更新服务器的当前函数矩阵，在服务器端生成随机的字符串作为选择码，再发送选择码和应答请求至客户端；

步骤2、客户端根据接收到的选择码、由选择子选择出函数矩阵里的函数并运行，然后将选择码、各函数运行时间发送至服务器；

4.根据权利要求3所述的一种基于运行环境特征识别的反爬虫方法，其特征在于，所述的步骤1，周期产生包含选择子文本特征的选择子特征码。

5.根据权利要求4所述的一种基于运行环境特征识别的反爬虫方法，其特征在于，所述的步骤3，包括以下步骤：

步骤3.2、选择出当前函数矩阵在预设时间区间内所有来自客户端的选择码和所对应元素的运行时间，通过聚类算法、机器学习算法、模式识别算法、深度神经网络算法计算出客户端运行环境特征类别；

6.根据权利要求3-5中任意一项权利要求所述的一种基于运行环境特征识别的反爬虫方法，其特征在于，所述的步骤3，由服务器的存储模块接收预设时间区间内来自客户端的选择码和所对应元素的运行时间。

7.一种基于运行环境特征识别的反爬虫***，其特征在于，包括

所述的策略包，包括具有不同运行时间程序函数作为元素的函数矩阵、用于映射字符串至函数矩阵中不同元素的选择子和包含选择子文本特征的选择子特征码；

所述客户端根据接收到的选择码、由选择子选择出函数矩阵里的函数并运行，然后将选择码、各函数运行时间发送至服务器；

所述的服务器，通过数据接口模块对应选择码接收由客户端执行策略包应答的特征数据，数据接口模块还将对应选择码的特征数据输出至存储模块，数据分析模块计算存储模块内对应选择码的特征数据并根据计算结果反馈信息至访问处理模块，访问处理模块根据反馈信息对所述客户端执行预定策略；

所述特征数据包括程序函数运行时间数据。

8.一种基于运行环境特征识别、具有反爬虫功能的服务器，其特征在于，包括

数据接口模块，用于与客户端交互数据，输出由特征算法模块产生的选择码至客户端且接收来自客户端对应选择码的程序函数的运行时间；

数据分析模块，计算存储模块中预定时间区间内数据且根据计算结果判断客户端的运行环境特征类别；

访问处理模块，根据数据分析模块计算出的客户端运行环境特征类别对客户端执行预定策略。