CN112256944A

CN112256944A - 基于JMeter的网站数据自动爬取方法

Info

Publication number: CN112256944A
Application number: CN202011156240.2A
Authority: CN
Inventors: 杨雪梅; 唐军; 刘楚雄
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-22

Abstract

本发明涉及web领域，具体涉及一种基于JMeter的网站数据自动爬取方法，避免了从前端界面爬取数据过程中涉及的大量的复杂JS操作，同时也避免了因为一些网站对一定时间内HTTP请求次数及访问频率的限制而造成数据爬取过程漫长或者直接爬取失败。技术方案概括为，确定需要进行数据爬取的目标网站，然后对目标网站进行数据分析，获取数据接口以及数据接口相应的属性信息，在JMeter端执行数据接口，检查数据接口中的请求参数以及对应的响应结果是否符合预期设定，符合预期就对数据接口进行参数动态配置，对数据接口的响应提取字段参数进行动态配置，并对输出目标文件进行动态配置，设置好相应动态配置后，设置反爬机制开始爬取数据。本发明实用于网站数据自动爬取。

Description

基于JMeter的网站数据自动爬取方法

技术领域

本发明涉及web领域，具体涉及一种基于JMeter的网站数据自动爬取方法。

背景技术

网站数据爬虫是一个对网站页面数据进行自动化提取的程序，可以将网站页面上展示的特定数据进行抓取并保存至本地文件或数据库中，供其他项目或开发某些具体功能使用，具体如各影视网站视频资源的获取、各购物网站商品名称价格的获取、各小说网站文章标题内容的获取等等。爬虫在实际项目当中的应用非常广泛，在很多web开发项目及数据支撑方面也一直扮演着不可替代的角色。

现有网站页面的数据爬取是基于前端界面的页面元素提取，优点在于数据的直观可视化，能更明确需要抓取的数据，缺点也很明显，比如某些网页当中的翻页、鼠标点击及鼠标放置浮动效果等都是通过JS(JavaScript)代码来控制的，若是直接从前端界面元素爬取这些数据，则需要将网页当中的JS文件也下载下来才能模拟翻页等操作，难度更大且实际操作也变得复杂，每次JS文件的加载都会对请求进行重复执行，大大增加了网络资源的损耗。

现有的网站数据爬取过程如图1，会在本地搭建一个模拟用户请求的浏览器，通过浏览器发送HTTP请求获取业务需要的HTML网页。在浏览器加载HTML网页完成后，浏览器会继续发送HTTP请求加载HTML网页上嵌入的JS文件，渲染网页，在浏览器将JS文件加载完成后，就可以编写代码模拟真实用户的鼠标操作。完成相关的模拟操作，就能得到相应的信息了。

但是，该方案存在以下明显问题，第一，很多网站对一定时间内HTTP请求次数及访问频率是有限制的，这样就造成数据爬取容易失败，整个过程也更加漫长；第二，对于页面元素需要JS操作的数据爬取会触发多次HTTP请求加载网页上嵌入的JS文件，尤其是前端页面元素不规则的嵌套页面的内容获取时，会造成网页数据的多次加载，耗费大量的网络资源使数据爬取变得更加复杂。

发明内容

本发明的目的是提供一种基于JMeter的网站数据自动爬取方法，避免了从前端界面爬取数据过程中涉及的大量的复杂JS操作，同时也避免了因为一些网站对一定时间内HTTP请求次数及访问频率的限制而造成数据爬取过程漫长或者直接爬取失败。

本发明采取如下技术方案实现上述目的，基于JMeter的网站数据自动爬取方法，包括：

步骤(1)、确定需要进行数据爬取的目标网站；

步骤(2)、对目标网站进行数据分析，获取数据接口以及数据接口相应的属性信息；

步骤(3)、在JMeter端执行数据接口，检查数据接口中的请求参数以及对应的响应结果是否符合预期设定，若是，则进入步骤(4)，否则在JMeter端对数据接口进行调试；

步骤(4)、对数据接口进行参数动态配置，对数据接口的响应提取字段参数进行动态配置，并对输出目标文件进行动态配置；

步骤(5)、设置好相应动态配置后，设置反爬机制；

步骤(6)、批量爬取数据并输出保存到目标文件。

进一步的是，在步骤(2)中，所述数据接口相应的属性信息包括：请求地址、请求参数、请求类型、请求头以及请求体。

进一步的是，在步骤(4)中，对数据接口进行动态配置包括通过变量的形式进行参数动态配置。

进一步的是，在步骤(4)中，提取字段参数的具体方法包括：在数据接口后添加后置处理器，选择JSON提取器和/或正则表达式提取器和/或XPath提取器进行参数提取。

进一步的是，在步骤(4)中，对输出目标文件进行动态配置的具体方法包括：在请求执行前添加用户参数或者自定义变量，对文件路径及文件名进行相应的配置。

进一步的是，在步骤(5)中，设置反爬机制的具体方法包括：在请求执行目录下添加固定定时器，该固定定时器的时间是随机且变化的，始终在100ms到1s之间，每次接口请求都会等待一段随机的时间再进行操作，通过对请求执行设置不同的间隔时间模拟用户在不同时间无规律的请求，防止被***屏蔽。

进一步的是，在步骤(6)中，批量爬取数据的过程还包括防止相同请求重复执行，所述防止相同请求重复执行的具体方法包括：通过对接口响应数据的分析找到需要爬取的目标数据及目标页码，在请求页码层级设置循环控制器，根据目标页码通过循环控制器设定循环次数，并在在循环控制器下添加计数器，递增设置为1，使得每执行一次请求计数器自动加一，计数器输出值与目标页码相等时，结束执行。

进一步的是，在步骤(6)中，批量爬取数据的过程还包括嵌套网页数据的抓取，所述嵌套页面包括一级页面和二级页面，所述嵌套网页数据的抓取的具体方法包括：

步骤601、先执行一级页面接口，通过JSON提取器获取当前页面列表下所有的商品标识，得到商品标识数组；

步骤602、在循环控制器和页码请求的层级目录下添加一个ForEach逻辑控制器，逻辑控制器的输入为商品标识数组，输出为每个商品的具体标识；

步骤603、通过ForEach逻辑控制器循环每个商品的具体标识以及对应商品详情接口请求，再通过后置处理器JSON提取及文件输出完成对嵌套页面的目标数据保存。

进一步的是，在步骤(6)中，批量爬取数据并输出保存的具体方法包括：在请求数据层级下添加后置处理器BeanShell Postprocessor，通过vars.get方法获取到参数，同时在BeanShell Postprocessor中，将商品标识数组展开，得到目标数据，依次将目标数据保存到目标文件。

本发明是基于后端接口的响应数据提取，因此避免了从前端界面爬取数据过程中涉及的大量的复杂JS操作；设置反爬机制，自定义数据爬取的间隔时间，避免因为一些网站对一定时间内HTTP请求次数及访问频率的限制而造成数据爬取过程漫长或者直接爬取失败；基于JMeter的数据接口配置，防止相同请求重复执行以及嵌套网页数据抓取，极大地提高了数据爬取的效率。

附图说明

图1是现有技术中通过前端界面爬取数据的方法流程示意图。

图2是本发明基于JMeter的网站数据自动爬取方法的流程示意图。

具体实施方式

本发明基于JMeter的网站数据自动爬取方法，包括：

步骤(1)、确定需要进行数据爬取的目标网站；

步骤(5)、设置好相应动态配置后，设置反爬机制；

步骤(6)、批量爬取数据并输出保存到目标文件。

步骤(2)中，所述数据接口相应的属性信息包括：请求地址、请求参数、请求类型、请求头以及请求体。

步骤(4)中，对数据接口进行动态配置包括通过变量的形式进行参数动态配置。

步骤(4)中，提取字段参数的具体方法包括：在数据接口后添加后置处理器，选择JSON提取器和/或正则表达式提取器和/或XPath提取器进行参数提取。

步骤(4)中，对输出目标文件进行动态配置的具体方法包括：在请求执行前添加用户参数或者自定义变量，对文件路径及文件名进行相应的配置。

步骤(5)中，设置反爬机制的具体方法包括：在请求执行目录下添加固定定时器，该固定定时器的时间是随机且变化的，始终在100ms到1s之间，每次接口请求都会等待一段随机的时间再进行操作，通过对请求执行设置不同的间隔时间模拟用户在不同时间无规律的请求，防止被***屏蔽。

步骤(6)中，批量爬取数据的过程还包括防止相同请求重复执行，所述防止相同请求重复执行的具体方法包括：通过对接口响应数据的分析找到需要爬取的目标数据及目标页码，在请求页码层级设置循环控制器，根据目标页码通过循环控制器设定循环次数，并在在循环控制器下添加计数器，递增设置为1，使得每执行一次请求计数器自动加一，计数器输出值与目标页码相等时，结束执行。

步骤(6)中，批量爬取数据的过程还包括嵌套网页数据的抓取，所述嵌套页面包括一级页面和二级页面，所述嵌套网页数据的抓取的具体方法包括：

步骤(6)中，批量爬取数据并输出保存的具体方法包括：在请求数据层级下添加后置处理器BeanShell Postprocessor，通过vars.get方法获取到参数，同时在BeanShellPostprocessor中，将商品标识数组展开，得到目标数据，依次将目标数据保存到目标文件。

下面结合附图2和具体实施方式对本方案作出进一步详细说明，本发明基于JMeter的网站数据自动爬取方法，其具体工作流程如下：

目标接口获取及调试，对于特定网站数据获取，第一步是拿到数据产生的接口，以购物网站为例，假如我们需要爬取商品标题、商品介绍、商品地址、商品价格及当前时间5个参数以及各个商品详情页面下的商品评价内容，供后期数据比对或项目数据支撑，通过对页面数据分析和F12开发者工具，找到数据的来源接口，并获取接口的相关属性：请求地址、请求参数、请求类型、请求头和请求体等，在JMeter端执行获取的接口，检查请求参数及响应结果的内容是否符合预期，如不符合预期，则在JMeter端对数据接口进行调试，在这里商品列表页面为一级页面，商品详情页面为二级页面，二者组合为一个嵌套页面。

接口配置，顺利拿到接口后，接下来需要考虑如何去实现数据的一个批量获取和保存操作，达到自动化爬虫的目的，首先需要完成前置操作：对接口传参的动态配置、对接口响应提取字段参数的动态配置、对输出文件的动态配置。

其中对于传参配置的目的在于，使接口的执行更加灵活，对于网站数据爬取可能涉及到多个类型多个状态以及多个页码的数据获取时，不把接口写死，通过变量的形式进行参数配置，这样可以使爬取脚本更加灵活，如对当前购物网站的分类选择女、儿童、上衣，按销量排行取前10页的数据，这时就可以将类型：女、儿童、上衣、销量以及页码等数据通过变量的方式在JMeter端进行配置，这样后期类型等修改就变得更加容易。

而接口响应的配置是可变的，需要根据实际场景进行实际配置，如当前一级页面的目标数据包括：商品标题、商品介绍、商品地址、商品价格及当前时间5个参数，在接口后添加后置处理器，选择JSON提取器/正则表达式提取器/XPath提取器进行参数提取，这里我们使用JSON提取器对目标参数进行提取，需要提取多少个参数就添加多少个JSON提取器，以数组格式提取所有商品的标题、介绍、地址、价格及时间参数。

如参数标题title，且该数据的目录结构为：

data->[{goodsId1,title1,content1,site1,price1,time1},{goodsId2,title2,conten t2,site2,price2,time2}...]，则提取器的格式：$.data[*].title。

通过这样提取后：title_1就是第一个标题，title_2就是第二个标题......以此类推直到遍历完所有的商品标题，同样的方式提取商品介绍、地址、价格和时间，对于XXX_1这种格式是JMeter固定的数组数据提取格式，不用过于纠结书写方式。

对于最后爬取数据的输出文件及地址，应该在执行保存操作前进行定义，使文件的目录及文件名的配置更加灵活，具体来说是在请求执行前添加用户参数或者自定义变量，对文件路径及文件名进行具体的配置，这样的配置若在后期需要变动，修改这一处就行了，而不用再去改动代码。如地址：path:E:\\crawlingTest.csv。

反爬机制的设置，部分网站对于固定有规律的机器操作有自动识别，尤其像爬虫***这种批量性的操作，若是不采取任何措施，很容易被***屏蔽拒绝访问，因此本发明提供一种简单的反爬机制，通过对请求执行设置不同的间隔时间模拟用户在不同时间没有规律的请求，防止被***屏蔽。具体来说是在请求执行目录下添加一个固定定时器${__Random(100,1000,)}，该固定定时器的时间是随机且变化的，始终在100ms到1s之间，这样每次接口请求都会等待一段随机的时间再进行操作，这样一方面可以防止批量数据爬取时，请求大量到达服务器形成压力，一方面可以绕过一些简单网站设置的时间访问限制，起到一个反爬的效果。

在数据爬取过程中，需要防止相同请求重复执行，对数据的爬取往往是大量且多页面的，但是对于较复杂网页参数的内容爬取需要加载相应的JS组件，当涉及到复杂前端页面的数据时就很容易造成相同请求的重复执行。因此本发明专利提供一种从后端接口响应抓取目标数据的方法，避免了前端JS文件的反复加载造成的相同请求重复执行，具体来说是通过对接口响应数据的分析找到需要爬取的目标数据及目标页码，如须按销量爬取购物网站前10页的内容，即totalpage＝10，也可以直接通过接口获取到所有的页码，爬取所有页码的数据。确定totalpage后，就可以直接通过循环控制器设定循环次数：10页的数据，需执行10遍请求，每一遍请求都将获取当前页面的所有目标数据。为了让请求不被重复执行，在循环控制器下添加一个计数器Maximum value＝totalpage，递增设置为1，使得每次请求结束计数器自动加一，计数器的值输出为num，通过接口传参，还可以将num传给请求中的页码变量，这样就保证了直到整个循环结束，每个页面的数据都得到了执行，且仅执行了1次。

在数据爬取过程中，还需要对嵌套网页进行配置，从而进行数据抓取，简单嵌套页面可以包括一级页面和二级页面，例如：某购物网站搜索“上衣”，此时搜索结果为一级页面，对列表中任意结果点击，进入的详情页面即为二级页面。

商品详情页面请求地址格式为：协议类型://服务器地址/路径/商品id。

假如需要抓取商品详情下的商品评价，具体实现就是对一个嵌套网页的数据抓取。先执行一级页面接口，通过JSON提取器获取当前列表下所有的商品标识goodsId，获取结果是一个数组，在上述所述的循环控制器和具体页码请求的层级目录下添加一个ForEach逻辑控制器，该控制器输入为goodsId数组，输出为id，这样id1就是第一个商品的标识，id2就是第二个商品的标识。通过ForEach逻辑控制器循环每个商品的具体标识以及对应商品详情接口请求，通过后置处理器JSON提取及文件输出可以成功完成对嵌套页面的目标数据保存。

通过循环控制器自动执行请求，直到循环结束完成批量测试，避免人工一条条数据记录保存，提升了数据爬取效率。结果保存通过Java代码实现，在JMeter当中可以直接嵌入Java代码，实现也较为简单。通过上述步骤中请求循环控制和计数，以及上述步骤中接口添加后置处理器JSON提取器已经完成对我们想要爬取的目标数据的提取，接下来就是实现对爬取数据的一个处理和保存。具体操作是在请求下添加后置处理器BeanShellPostprocessor，通过vars.get方法获取到参数变量，由于数据提取器保存的是数组，所以在BeanShell Postprocessor中，需要将数组进行展开，得到目标数据，依次将目标数据保存到上述步骤配置的文件路径path。

输出文件配置：File file＝new File("vars.get("path")")；

爬取数据数组长度确定：String num＝vars.get("name_matchNr")；

循环输出到目标文件：for(int i＝1；i<＝Integer.parseInt(num)；i++){}。

本发明具体适用于网站单页面或嵌套页面的数据爬取，其核心思想同样适用于APP微信小程序等所有通过接口响应的数据内容爬取。

综上所述，本发明免了从前端界面爬取数据过程中涉及的大量的复杂JS操作，同时也避免了因为一些网站对一定时间内HTTP请求次数及访问频率的限制而造成数据爬取过程漫长或者直接爬取失败，提高了爬取数据的效率。

Claims

1.基于JMeter的网站数据自动爬取方法，其特征在于，包括：

步骤(1)、确定需要进行数据爬取的目标网站；

步骤(5)、设置好相应动态配置后，设置反爬机制；

步骤(6)、批量爬取数据并输出保存到目标文件。

2.根据权利要求1所述的基于JMeter的网站数据自动爬取方法，其特征在于，在步骤(2)中，所述数据接口相应的属性信息包括：请求地址、请求参数、请求类型、请求头以及请求体。

3.根据权利要求1所述的基于JMeter的网站数据自动爬取方法，其特征在于，在步骤(4)中，对数据接口进行动态配置包括通过变量的形式进行参数动态配置。

4.根据权利要求1所述的基于JMeter的网站数据自动爬取方法，其特征在于，在步骤(4)中，提取字段参数的具体方法包括：在数据接口后添加后置处理器，选择JSON提取器和/或正则表达式提取器和/或XPath提取器进行参数提取。

5.根据权利要求1所述的基于JMeter的网站数据自动爬取方法，其特征在于，在步骤(4)中，对输出目标文件进行动态配置的具体方法包括：在请求执行前添加用户参数或者自定义变量，对文件路径及文件名进行相应的配置。

6.根据权利要求1所述的基于JMeter的网站数据自动爬取方法，其特征在于，在步骤(5)中，设置反爬机制的具体方法包括：在请求执行目录下添加固定定时器，该固定定时器的时间是随机且变化的，始终在100ms到1s之间，每次接口请求都会等待一段随机的时间再进行操作，通过对请求执行设置不同的间隔时间模拟用户在不同时间无规律的请求，防止被***屏蔽。

7.根据权利要求4所述的基于JMeter的网站数据自动爬取方法，其特征在于，在步骤(6)中，批量爬取数据的过程还包括防止相同请求重复执行，所述防止相同请求重复执行的具体方法包括：通过对接口响应数据的分析找到需要爬取的目标数据及目标页码，在请求页码层级设置循环控制器，根据目标页码通过循环控制器设定循环次数，并在循环控制器下添加计数器，递增设置为1，使得每执行一次请求计数器自动加一，计数器输出值与目标页码相等时，结束执行。

8.根据权利要求7所述的基于JMeter的网站数据自动爬取方法，其特征在于，在步骤(6)中，批量爬取数据的过程还包括嵌套网页数据的抓取，所述嵌套页面包括一级页面和二级页面，所述嵌套网页数据的抓取的具体方法包括：

9.根据权利要求8所述的基于JMeter的网站数据自动爬取方法，其特征在于，在步骤(6)中，批量爬取数据并输出保存的具体方法包括：在请求数据层级下添加后置处理器BeanShell Postprocessor，通过vars.get方法获取到参数，同时在BeanShellPostprocessor中，将商品标识数组展开，得到目标数据，依次将目标数据保存到目标文件。