CN108595583B

CN108595583B - 动态图表类页面数据爬取方法、装置、终端及存储介质

Info

Publication number: CN108595583B
Application number: CN201810349975.3A
Authority: CN
Inventors: 阮晓雯; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2022-12-02
Anticipated expiration: 2038-04-18
Also published as: WO2019200783A1; CN108595583A

Abstract

一种动态图表类页面数据爬取方法，包括：采用自动化测试工具启动浏览器，输入待爬取数据的网站的链接；从待爬取数据的网站中爬取与用户输入的爬取关键词相关的页面信息；对爬取到的页面进行渲染并解析；通过自动化测试工具对解析后的页面进行截图得到截图图片并保存截图图片；根据预先训练的图片识别模型对截图图片进行识别，得到截图图片中的内容；判断待爬取数据的网站及对应爬取关键词的页面是否已遍历完；当确定都已被遍历过，则结束流程；否则，继续执行上述过程。本发明还提供一种动态图表类页面数据爬取装置、终端及存储介质。本发明能够自动爬取动态加载的图表类数据且能识别出图片中的内容。

Description

动态图表类页面数据爬取方法、装置、终端及存储介质

技术领域

本发明涉及网络爬虫技术领域，具体涉及一种动态图表类页面数据爬取方法、装置、终端及存储介质。

背景技术

随着创建交互式Web应用程序而无需牺牲浏览器兼容性的流行方法(Asynchronous JavaScript and XML，Ajax)等现代网页技术的普及，网页数据的形态也发生了深刻的变化。互联网上出现了越来越多的使用Ajax动态生成的页面内容，用户经常会遇到一些网页提示“点击加载更多”或者是随着鼠标滚动自动加载更多内容。这些新形态的网页需要用户交互操作来触发内容的生成和显示，在一定程度上改善了用户浏览体验，但是对传统基于抓取HTML文件的数据采集方法提出了严峻的挑战。

尤其是对于网页中动态加载的图表类数据，一般都是通过异步加载后进行显示，而传统的爬虫难以爬取到；一些文本数据采用加密技术后也通过图表的形式显示，并且图表无法直接下载获取；在爬取数据的过程中会经常遇到需要输入的问题；另外图表上会增加一些干扰信息，使得图表中的真实数据信息难以获取。现阶段一般需要大量的人力投入才可以获取到动态图表类数据。

发明内容

鉴于以上内容，有必要提出一种动态图表类页面数据爬取方法、装置、终端及存储介质，能够自动爬取动态加载的图表类数据，对于爬取到的图表类数据进行截图后输入至预先训练好的图片识别模型中，识别出图片中的内容，相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确。

本发明的第一方面提供一种动态图表类页面数据爬取方法，所述方法包括：

a)采用自动化测试工具启动浏览器，输入待爬取数据的网站的链接；

b)从所述待爬取数据的网站中爬取与用户输入的爬取关键词相关的页面信息；

c)对爬取到的页面进行渲染并解析；

d)通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片；

e)根据预先训练的图片识别模型对所述截图图片进行识别，得到所述截图图片中的内容；

f)判断所述待爬取数据的网站及对应所述爬取关键词的页面是否已遍历完；及

当确定所述待爬取数据的网站及对应所述爬取关键词的页面都已被遍历过，则结束流程；或者

当确定所述待爬取数据的网站及对应所述爬取关键词的页面未被遍历完，则继续执行上述b)至f)。

一种优选的实施方式中，所述通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片包括：

通过所述自动化测试工具判断解析后的页面中是否存在图表；

当确定解析后的页面中不存在图表时，爬取解析后的页面中的信息，并根据预先设置的数据格式保存爬取到的信息；及

当确定解析后的页面中存在图表时，对所述解析后的页面中的图表进行截图得到截图图片。

计算所述截图图片的感知哈希值；

判断所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度是否大于预先设置的相似度阈值；

当确定所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度大于预先设置的相似度阈值时，删除所述截图图片。

一种优选的实施方式中，所述通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片还包括：

当确定所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度小于或者等于预先设置的相似度阈值时，将所述截图图片及对应的解析后的页面进行关联存储于预先设置的特定的位置。

一种优选的实施方式中，所述预先训练的图片识别模型包括：

获取多张图片；

对所述多张图片进行预处理，得到待参与训练图片识别模型的数据集；

采用交叉验证的方法对所述数据集进行划分为训练集及测试集；

在所述训练集中随机选择第一预设数量的训练集训练图片识别模型；

利用所述测试集测试所训练的图片识别模型的准确率；

若所述准确率大于或者等于预设准确率阈值，则训练结束；

若所述准确率小于所述预设准确率阈值，则重新训练图片识别模型。

一种优选的实施方式中，所述重新训练图片识别模型包括：

从所述训练集中除所述第一预设数量的训练集之外的训练集中，增加第二预设数量的训练集至所述第一预设数量的训练集中，直至所训练的图片识别模型的准确率大于或者等于所述预设准确率阈值。

一种优选的实施方式中，所述第二预设数量为预先设置的固定值，或者预先设置的比例值，或者所述第一预设数量的预设比例值。

本发明的第二方面提供一种动态图表类页面数据爬取装置，所述装置包括：

启动模块，用于采用自动化测试工具启动浏览器，输入待爬取数据的网站的链接；

爬取模块，用于从所述待爬取数据的网站中爬取与用户输入的爬取关键词相关的页面信息；

解析模块，用于对爬取到的页面进行渲染并解析；

截图模块，用于通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片；

识别模块，用于根据预先训练的图片识别模型对所述截图图片进行识别，得到所述截图图片中的内容。

本发明的第三方面提供一种终端，所述终端包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述动态图表类页面数据爬取方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述动态图表类页面数据爬取方法。

本发明所述的动态图表类页面数据爬取方法、装置、终端及存储介质，采用Selenium技术模拟用户登录浏览器、动态加载及截图下载等操作，再结合网络爬虫技术，从而可以自动爬取动态加载的图表类数据，爬取的信息和真实用户看到的图文信息完全一致，对于爬取到的图表类数据进行截图后输入至预先训练好的图片识别模型中，识别出图片中的内容，相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确。

其次，图片识别模型的训练过程中，通过逐步增加参与训练的训练集的数量，在保证图片识别模型的识别率的前提下，用较少的样本参与训练，能够最大限度的缩短图片识别模型的训练时间，提高图片识别模型的训练效率，即在图片识别模型的准确率和效率之间找到最佳的训练集的数量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的动态图表类页面数据爬取方法的流程图。

图2是本发明实施例二提供的对解析后的页面进行截图得到截图图片并保存所述截图图片的方法的流程图。

图3是本发明实施例三提供的图片识别模型的训练方法的流程图。

图4是本发明实施例四提供的动态图表类页面数据爬取装置的结构图。

图5是本发明实施例五提供的去重模块的子功能模块图。

图6是本发明实施例六提供的训练模块的子功能模块图。

图7是本发明实施例七提供的终端的结构图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例的动态图表类页面数据爬取方法应用在一个或者多个终端中。所述动态图表类页面数据爬取方法也可以应用于由终端和通过网络与所述终端进行连接的服务器所构成的硬件环境中。网络包括但不限于：广域网、城域网或局域网。本发明实施例的动态图表类页面数据爬取方法可以由服务器来执行，也可以由终端来执行；还可以是由服务器和终端共同执行。

所述对于需要进行动态图表类页面数据爬取方法的终端，可以直接在终端上集成本发明的方法所提供的动态图表类页面数据爬取功能，或者安装用于实现本发明的方法的客户端。再如，本发明所提供的方法还可以以软件开发工具包(Software DevelopmentKit，SDK)的形式运行在服务器等设备上，以SDK的形式提供动态图表类页面数据爬取功能的接口，终端或其他设备通过提供的接口即可实现手部的跟踪。

实施例一

图1是本发明实施例一提供的动态图表类页面数据爬取方法的流程图。根据不同的需求，该流程图中的执行顺序可以改变，某些步骤可以省略。

S11、采用自动化测试工具启动浏览器，输入待爬取数据的网站的链接。

计算机软件自动化测试技术Selenium Web Driver(下文简称为Selenium)具有较强的可视化自动交互功能，通过编程来模拟人与网页的交互，从而触发动态数据加载，获取动态生成的数据。Selenium技术能够真实的模拟用户在网站网页上执行的操作，例如模拟用户点击“查看更多”、“自动登录”、“点击链接”、“填写表单”、“滚动鼠标”、“鼠标拖拽”、“页面加载完成后向下滚动”、“点击翻页”、“截图保存”等操作。

本实施例中，通过Selenium工具打开浏览器，在浏览器中输入待爬取数据的网站的链接(Uniform Resource Locator，URL)，Selenium工具调用get()方法打开用户输入的待爬取数据的网站的Web页面。

例如，用户需要爬取“当当”网站上的“人脸识别书籍”数据，则通过selenium工具打开浏览器(例如，Google浏览器)，输入“当当”网站的URL“www.dangdang.com”，即可启动“当当”网站，显示“当当”网站的Web页面。

本实施例中，若用户需要爬取多个网站的数据时，可以将多个待爬取数据的网站的链接同时输入通过selenium工具打开的浏览器的队列中，爬虫程序依次爬取所述多个待爬取数据的网站中的数据。

S12、从所述待爬取数据的网站中爬取与用户输入的爬取关键词相关的页面信息。

当通过Selenium工具打开所述待爬取数据的网站时，用户输入爬取关键词，例如，“人脸识别”，则Selenium工具模拟用户浏览所述待爬取数据的网站上的“人脸识别”的所有网页的页面信息。

S13、对爬取到的页面进行渲染并解析。

Selenium工具在爬取页面时会触发Ajax向服务器异步请求数据，收到回复的原始数据后，格式化拼装成新的HTML节点，***到初始HTML文件中，最后由浏览器内核渲染引擎将动态内容显示出来。通过selenium服务发送获取页面服务请求到wire协议，然后操作浏览器API获取浏览器加载的原始页面。通过wire协议返回到selenium服务中，当selenium服务拿到页面后交给解析模块进行页面解析。

S14、通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片。

Selenium工具的驱动程序指示浏览器执行命令，最后由浏览器在内核中进行截图保存操作，最终的效果与用户使用鼠标在页面上截取图片并保存的效果完全相同。

优选的，所述通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片还可以包括：根据感知哈希值对解析后的页面中的表格进行去重。

对步骤S14通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片进一步细化的过程具体参见图2及其相应描述。

S15、根据预先训练的图片识别模型对所述截图图片进行识别，得到所述截图图片中的内容。

本实施例中，所述图片识别模型的训练方法具体参见图3及其相应描述。

S16、判断所述待爬取数据的网站及对应所述爬取关键词的页面是否已遍历完。

当确定所述待爬取数据的网站及对应所述爬取关键词的页面都已被遍历过，则结束流程；否则，当确定所述待爬取数据的网站及对应所述爬取关键词的页面未被遍历完，则继续执行上述S12至S15。

综上所述，本发明所述的动态图表类页面数据爬取方法，采用Selenium技术模拟用户登录浏览器、动态加载及截图下载等操作，再结合网络爬虫技术，从而可以自动爬取动态加载的图表类数据，爬取的信息和真实用户看到的图文信息完全一致，对于爬取到的图表类数据进行截图后输入至预先训练好的图片识别模型中，识别出图片中的内容，相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确。

实施例二

图2是本发明实施例二提供的对解析后的页面进行截图得到截图图片并保存所述截图图片的方法的流程图。根据不同的需求，该流程图中的执行顺序可以改变，某些步骤可以省略。

S21、通过所述自动化测试工具判断解析后的页面中是否存在图表。

本实施例中，所述自动化测试工具是通过识别所述解析后的页面中是否存在与所述图表显示和控制相关的标签进而判断解析后的页面中是否存在图表。

当所述自动化测试工具识别出所述解析后的页面中存在与所述图表显示和控制相关的标签，则确定所述解析后的页面中存在图表；当所述自动化测试工具识别出所述解析后的页面中不存在与所述图表显示和控制相关的标签，则确定所述解析后的页面中不存在图表。

所述与图表显示和控制相关的标签包括：img、table、tr、td、colspan等标签。

因网页中的图表使用HTML语言书写，其中会存在诸多控制页面显示格式的DIV、CSS及与图表相关的HTML标签，通过判断是否存在与图表相关的标签属性即可判断解析后的页面中是否存在图表，当识别到与图表相关的标签属性时，确定解析后的页面中存在图表，当没有识别到与图表相关的标签属性时，确定解析后的页面中不存在图表。

当确定解析后的页面中不存在图表时，执行步骤S22；否则，当确定解析后的页面中存在图表时，执行步骤S23。

S22、爬取解析后的页面中的信息，并根据预先设置的数据格式保存爬取到的信息。

当确定解析后的页面中不存在图表时，不对解析后的页面进行截图，采用爬虫程序直接爬取解析后的页面中的信息，并按照预先设置的数据格式进行存储。

本实施例中，通过判断解析后的页面中是否存在图表从而执行不同的操作，解析后的页面中有图表时，对解析后的页面进行截图同时对页面中的图表进行截图，解析后的页面中不存在图表时，则不进行截图操作，如此可便于节省网络资源，避免对所有解析后的页面进行截图从而浪费网络资源；另外，解析后的页面中不存在图表时，不进行截图操作，简化了操作流程，有助于提高爬取效率。

S23、对所述解析后的页面中的图表进行截图得到截图图片。

本实施例中，通过Selenium工具模拟用户对所述解析后的页面中的图表进行截图还包括对所述解析后的页面中的图表进行下载。

S24、计算所述截图图片的感知哈希值。

本实施例中，采用感知哈希算法(perceptual hash algorithm)计算截图图片的感知哈希值，具体过程包括：

1)对截图图片进行灰度化处理；

2)计算灰度化处理后的截图图片的灰度平均值；

3)比较灰度化处理后的截图图片的每个像素的灰度值与所述灰度平均值的大小；

4)将灰度化处理后的截图图片的像素的灰度值大于或等于所述灰度平均值的记为1，将灰度化处理后的截图图片的像素的灰度值小于所述灰度平均值的记为0；

5)根据预先设置的连接规则将4)中得到的每个像素的比较结果进行连接，得到所述截图图片的感知哈希值。

S25、判断所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度是否大于预先设置的相似度阈值。

本实施例中，所述判断所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度是否大于预先设置的相似度阈值具体包括：比较所述截图图片的感知哈希值与已截图图片的感知哈希值之间相同的数值的位数；判断相同的数值的位数是否大于所述预先设置的相似度阈值。

例如，灰度化处理后的截图图片为8*8像素，其灰度平均值为45，第一行第一列的像素的灰度值大于45时，将比较结果记为1，否则比较结果记为0；第一行第二列的像素的灰度值大于45时，比较结果记为1，否则比较结果记为0；第一行第三列的像素的灰度值大于45时，比较结果记为1，否则比较结果记为0；以此类推。然后从左向右、从上向下将比较结果组合成64位数，该64位数即为所述截图图片的感知哈希值。当判断所述截图图片的感知哈希值与所述已截图图片的感知哈希值之间具有相同的数值的位数(例如61)大于所述预先设置的相似度阈值(例如，60)时，说明所述截图图片与所述已截图图片相同。

当确定所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度大于预先设置的相似度阈值时，执行步骤S26；否则，当确定所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度小于或者等于预先设置的相似度阈值时，执行步骤S27。

S26、删除所述截图图片。

S27、将所述截图图片及对应的解析后的页面进行关联存储于预先设置的特定的位置。

本实施例中，所述预先设置的特定的位置，专用于存储所述截图图片及对应的解析后的页面。所述特定的位置可以是一个特定的文件夹，或者是一个以特定名称命名的文件夹。将每一次的截图图片及对应的解析后的页面行关联存储，便于事后能快速的查找到图表所在的页面，根据图表在所述页面中的位置信息等，基于上下文语义分析的方法进一步解析所述页面中的所述图表的内容。

综上所述，本发明提供的截图图片去重方法，根据感知哈希值判断所述截图图片与已截图图片是否相同从而达到去重的目的，感知哈希计算结果精确，对具有相同内容的下载进行删除或去重处理，能够去除冗余的截图图片，有效地节省了存储空间。另外，关联存储截图图片及对应的解析后的页面，便于事后管理与分析。

实施例三

图3是本发明实施例三提供的图片识别模型的训练方法的流程图。根据不同的需求，该流程图中的执行顺序可以改变，某些步骤可以省略。

S31、获取多张图片。

本实施例中，可以通过另外的小爬虫自动从互联网上提供的各个网站中获取多张图片，也可从各个搜索引擎(例如，百度，Google，360)中手动下载多张图片，形成图片数据集保存在本地数据库中。图片中的内容可以包括，但不限于：数字、字符、字母、图像、表格等，字母还可以区分大小写。

S32、对所述多张图片进行预处理，得到待参与训练图片识别模型的数据集。

本实施例中，分别对所述图片数据集中的每张图片进行预处理，所述预处理包括：背景去除、分割、缩放、裁剪、翻转及/或扭曲等，使训练图片具有相同的尺寸及相同的视角后，再进行图片识别模型的训练，以有效提高图片识别模型的真实性及准确率。

本实施例中，可以采用二值化方法进行背景去除，如果图片上的像素大于预先设置的阀值则为白色，否则为黑色，即将原始图片转换成只有黑白两色的图片以有效去除图片背景的干扰元素。

本实施例中，可以使用分割函数对所述图片数据集中的每张图片进行分割，将图片中的每个数字或每个字符等分割成单一的数字或字符。

S33、采用交叉验证的方法对所述数据集进行划分为训练集及测试集。

所述训练集用以训练图片识别模型，所述测试集用以测试所训练出的图片识别模型的性能。若测试的准确率越高，则表明所训练出的图片识别模型的性能越好；若测试的准确率较低，则表明所训练出的图片识别模型的性能较差。

可以对所述数据集按照合适的比例(例如，3比2)进行划分，得到训练集及训练集。

S34、在所述训练集中随机选择第一预设数量的训练集训练图片识别模型。

本实施例中，不需要将所有的所述原始训练集中的图片进行图片识别模型的训练，而是在所述原始训练集中选择第一预设数量的训练集参与训练，可以减少参与训练的训练集的数量，节省图片识别模型的训练时间。

另外，采用随机数生成算法进行随机选择，可以增加参与训练的训练集的随机性，能够提高图片识别模型的鲁棒性。

在第一实施例中，所述第一预设数量可以是一个预先设置的固定值，例如，60，即在原始训练集中随机挑选出60个样本参与图片识别模型的训练。

在第二实施例中，所述第一预设数量可以是一个预先设置的比例值，例如，1/10，即在原始训练集中随机挑选1/10比例的样本参与图片识别模型的训练。

S35、利用所述测试集测试所训练的图片识别模型的准确率，若准确率大于或者等于预设准确率阈值，则训练结束；若准确率小于预设准确率阈值，则重新训练图片识别模型。

优选地，所述重新训练图片识别模型包括：从所述训练集中除所述第一预设数量的训练集之外的训练集中，增加第二预设数量的训练集至所述第一预设数量的训练集中，并重新执行上述步骤S32至S35，直至所训练的图片识别模型的准确率大于或者等于预设准确率阈值。

在第一实施例中，所述第二预设数量可以是一个预先设置的固定值，例如，20，即在所述训练集中除第一预设数量的训练集之外的训练集中随机挑选出20个图片参与图片识别模型的训练。

在第二实施例中，所述第二预设数量可以是一个预先设置的比例值，例如，1/20，即在所述训练集中除所述第一预设数量的训练集之外的训练集中随机挑选1/20比例的图片参与图片识别模型的训练。

在第三实施例中，所述第二预设数量可以是所述第一预设数量的预设比例值，例如，1/5，即在所述训练集中除第一预设数量的训练集之外的训练集中，随机挑选所述第一预设数量的1/5比例的图片参与图片识别模型的训练。

本发明提供的图片识别模型训练方法，通过逐步增加参与训练的训练集的数量，在保证图片识别模型的识别率的前提下，用较少的样本参与训练，能够最大限度的缩短图片识别模型的训练时间，提高图片识别模型的训练效率，即在图片识别模型的准确率和效率之间找到最佳的训练集的数量。

以上所述，仅是本发明的具体实施方式，但本发明的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

下面结合第4至7图，分别对实现上述动态图表类页面数据爬取方法的终端的功能模块及硬件结构进行介绍。

实施例四

图4为本发明实施例四提供的动态图表类页面数据爬取装置的功能模块图。

在一些实施例中，所述动态图表类页面数据爬取装置40运行于终端中。所述动态图表类页面数据爬取装置40可以包括多个由程序代码段所组成的功能模块。所述动态图表类页面数据爬取装置40中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行(详见图1及其相关描述)对动态图表类页面数据的爬取。

本实施例中，所述终端的动态图表类页面数据爬取装置40根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：启动模块401、爬取模块402、解析模块403、截图模块404、去重模块405、训练模块406、识别模块407及判断模块408。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在所述存储器中。在一些实施例中，关于各模块的功能将在后续的实施例中详述。

启动模块401，用于采用自动化测试工具启动浏览器，输入待爬取数据的网站的链接。

爬取模块402，用于从所述待爬取数据的网站中爬取与用户输入的爬取关键词相关的页面信息。

解析模块403，用于对爬取到的页面进行渲染并解析。

截图模块404，用于通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片。

去重模块405，用于根据感知哈希值对解析后的页面中的表格进行去重。

训练模块406，用于训练图片识别模型。

识别模块407，用于根据预先训练的图片识别模型对所述截图图片进行识别，得到所述截图图片中的内容。

判断模块408，用于判断所述待爬取数据的网站及对应所述爬取关键词的页面是否已遍历完。当所述判断模块408确定所述待爬取数据的网站及对应所述爬取关键词的页面未遍历完，重复执行上述模块401、402、403、404、405及407。

综上所述，本发明所述的动态图表类页面数据爬取装置，采用Selenium技术模拟用户登录浏览器、动态加载及截图下载等操作，再结合网络爬虫技术，从而可以自动爬取动态加载的图表类数据，爬取的信息和真实用户看到的图文信息完全一致，对于爬取到的图表类数据进行截图后输入至预先训练好的图片识别模型中，识别出图片中的内容，相比于传统的网络爬虫产品兼容性好、速度快、数据抓取准确。

实施例五

图5是本发明实施例五提供的去重模块的子功能模块图。所述去重模块405包括：第一判断子模块4051、保存子模块4052、截图子模块4053、计算子模块4054、第二判断子模块4055、删除子模块4056及关联子模块4057。

第一判断子模块4051，用于通过所述自动化测试工具判断解析后的页面中是否存在图表。

保存子模块4052，用于当所述第一判断子模块4051确定解析后的页面中不存在图表时爬取解析后的页面中的信息，并根据预先设置的数据格式保存爬取到的信息。

截图子模块4053，用于当所述第一判断子模块4051确定解析后的页面中存在图表时，对所述解析后的页面中的图表进行截图得到截图图片。

计算子模块4054，用于计算所述截图图片的感知哈希值。

本实施例中，所述计算子模块4054具体过程包括：

1)对截图图片进行灰度化处理；

2)计算灰度化处理后的截图图片的灰度平均值；

第二判断子模块4055，用于判断所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度是否大于预先设置的相似度阈值。

删除子模块4056，用于当所述第二判断子模块4055确定所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度大于预先设置的相似度阈值时，删除所述截图图片。

关联子模块4057，用于当所述第二判断子模块4055确定所述截图图片的感知哈希值与已截图图片的感知哈希值之间的相似度小于或者等于预先设置的相似度阈值时，将所述截图图片及对应的解析后的页面进行关联存储于预先设置的特定的位置。

实施例六

图6是本发明实施例六提供的训练模块的子功能模块图。所述训练模块406包括：获取子模块4061、预处理模块4062、划分子模块4063、选择子模块4064及测试子模块4065。

获取子模块4061，用于获取多张图片。

预处理模块4062，用于对所述多张图片进行预处理，得到待参与训练图片识别模型的数据集。

划分子模块4063，用于采用交叉验证的方法对所述数据集进行划分为训练集及测试集。

选择子模块4064，用于在所述训练集中随机选择第一预设数量的训练集训练图片识别模型。

测试子模块4065，用于利用所述测试集测试所训练的图片识别模型的准确率，若准确率大于或者等于预设准确率阈值，则训练结束；若准确率小于预设准确率阈值，则所述选择子模块4064从所述训练集中除所述第一预设数量的训练集之外的训练集中，增加第二预设数量的训练集至所述第一预设数量的训练集中，并重新执行测试子模块4065，直至所训练的图片识别模型的准确率大于或者等于预设准确率阈值。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，双屏设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

实施例七

图7为本发明实施例五提供的终端的示意图。

所述终端7包括：存储器71、至少一个处理器72、存储在所述存储器71中并可在所述至少一个处理器72上运行的计算机程序73、至少一条通讯总线74。

所述至少一个处理器72执行所述计算机程序73时实现上述动态图表类页面数据爬取方法实施例中的步骤，或者，所述至少一个处理器72执行所述计算机程序73时实现上述装置实施例中各模块/单元的功能。

示例性的，所述计算机程序73可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述至少一个处理器72执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序73在所述终端7中的执行过程。

所述终端7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图5仅仅是终端7的示例，并不构成对终端7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端7还可以包括输入输出设备、网络接入设备、总线等。

所述至少一个处理器72可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器72可以是微处理器或者该处理器72也可以是任何常规的处理器等，所述处理器72是所述终端7的控制中心，利用各种接口和线路连接整个终端7的各个部分。

所述存储器71可用于存储所述计算机程序73和/或模块/单元，所述处理器72通过运行或执行存储在所述存储器71内的计算机程序和/或模块/单元，以及调用存储在存储器71内的数据，实现所述终端7的各种功能。所述存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端7的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述终端7集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图表记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神范围。

Claims

1.一种动态图表类页面数据爬取方法，其特征在于，所述方法包括：

a）采用自动化测试工具启动浏览器，输入待爬取数据的网站的链接；

b）从所述待爬取数据的网站中爬取与用户输入的爬取关键词相关的页面信息；

c）对爬取到的页面进行渲染并解析；

d）通过所述自动化测试工具判断解析后的页面中是否存在图表，当确定解析后的页面中不存在图表时，爬取解析后的页面中的信息，并根据预先设置的数据格式保存爬取到的信息，当确定解析后的页面中存在图表时，通过所述自动化测试工具的驱动程序指示所述浏览器在内核中对所述解析后的页面中的图表进行截图得到截图图片；

e）根据预先训练的图片识别模型对所述截图图片进行识别，得到所述截图图片中的内容；

f）判断所述待爬取数据的网站及对应所述爬取关键词的页面是否已遍历完；及

当确定所述待爬取数据的网站及对应所述爬取关键词的页面未被遍历完，则继续执行上述b）至f）。

2.如权利要求1所述的方法，其特征在于，所述通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片包括：

计算所述截图图片的感知哈希值；

3.如权利要求2所述的方法，其特征在于，所述通过所述自动化测试工具对解析后的页面进行截图得到截图图片并保存所述截图图片还包括：

4.如权利要求1所述的方法，其特征在于，所述预先训练的图片识别模型的训练过程包括：

获取多张图片；

利用所述测试集测试所训练的图片识别模型的准确率；

若所述准确率大于或者等于预设准确率阈值，则训练结束；

5.如权利要求4所述的方法，其特征在于，所述重新训练图片识别模型包括：

6.如权利要求5所述的方法，其特征在于，所述第二预设数量为预先设置的固定值，或者预先设置的比例值，或者所述第一预设数量的预设比例值。

7.一种动态图表类页面数据爬取装置，其特征在于，所述装置包括：

解析模块，用于对爬取到的页面进行渲染并解析；

截图模块，用于通过所述自动化测试工具判断解析后的页面中是否存在图表，当确定解析后的页面中不存在图表时，爬取解析后的页面中的信息，并根据预先设置的数据格式保存爬取到的信息，当确定解析后的页面中存在图表时，通过所述自动化测试工具的驱动程序指示所述浏览器在内核中对所述解析后的页面中的图表进行截图得到截图图片；

8.一种终端，其特征在于，所述终端包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述的动态图表类页面数据爬取方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的动态图表类页面数据爬取方法。