CN106649576A

CN106649576A - 一种爬虫爬取的电商商品的存储方法及***

Info

Publication number: CN106649576A
Application number: CN201611009724.8A
Authority: CN
Inventors: 李巧如; 王俊; 邱鹿; 孙超; 于永新; 袁颖盛; 张和林; 段云涛
Original assignee: BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Current assignee: BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2017-05-10

Abstract

一种爬虫爬取的电商商品的存储方法，其能够解决不同网站同一id的存储问题，不同电商网站的数据能同时并存，读取速度快。该方法包括以下步骤：(1)爬虫爬取多个电商网站的网页，然后解析出网页中的商品数据；(2)将商品数据存储时根据url解析出域名；(3)将此域名作为表名，再根据url解析出id，以此id作为主键，将所需其它信息存储。还有一种爬虫爬取的电商商品的存储***。

Description

一种爬虫爬取的电商商品的存储方法及***

技术领域

本发明涉及大数据处理的技术领域，尤其涉及一种爬虫爬取的电商商品的存储方法，以及爬虫爬取的电商商品的存储***。

背景技术

网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

在互联上抓取用户的信用数据是信用评级的重要手段，例如从支付宝网站抓取的交易记录就能从侧面反映出用户的经济实力。

目前一般使用多机多线程实现，在断网的情况下存储会丢数据。而且，将所有电商商品都存一张表中，会存在id重复问题，如果只想读取某一电商的数据速度相对会慢。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种爬虫爬取的电商商品的存储方法，其能够解决不同网站同一id的存储问题，不同电商网站的数据能同时并存，读取速度快。

本发明的技术方案是：这种爬虫爬取的电商商品的存储方法，该方法包括以下步骤：

(1)爬虫爬取多个电商网站的网页，然后解析出网页中的商品数据；

(2)将商品数据存储时根据url解析出域名；

(3)将此域名作为表名，再根据url解析出id，以此id作为主键，将所需其它信息存储。

本发明通过爬虫爬取多个电商网站的网页，然后解析出网页中的商品数据，将商品数据存储时根据url解析出域名，将此域名作为表名，再根据url解析出id，将需要的各项其他信息存储，所以能够解决不同网站同一id的存储问题，不同电商网站的数据能同时并存，读取速度快。

还提供了一种爬虫爬取的电商商品的存储***，该***包括：

爬取模块，根据配置来爬取多个电商网站的网页，然后解析出网页中的商品数据；

域名解析模块，根据配置来将商品的url解析出域名；

存储模块，将此域名作为表名，再根据url解析出id，以此id作为主键，将所需其它信息存储。

附图说明

图1所示为根据本发明的爬虫爬取的电商商品的存储方法的流程图。

具体实施方式

如图1所示，这种爬虫爬取的电商商品的存储方法，该方法包括以下步骤：

(2)将商品数据存储时根据url解析出域名；

本发明通过爬虫爬取多个电商网站的网页，然后解析出网页中的商品数据，将商品数据存储时根据url解析出域名，将此域名作为表名，再根据url解析出id作为主键，将需要的各项其他信息存储，所以能够解决不同网站同一id的存储问题，不同电商网站的数据能同时并存，读取速度快。

另外，在所述步骤(1)中，通过java来实现爬虫爬取，配置好参数，参数包括每台服务器的线程数和需要爬取的电商种子url。

另外，在所述步骤(2)中，通过java读取配置解析出域名。

另外，在所述步骤(3)中，通过java编写程序将数据存储到hbase中实现存储。

另外，在所述步骤(3)中，以域名为表名，原网站id作为表主键。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质是硬盘。因此，与本发明的方法相对应的，本发明还同时包括一种爬虫爬取的电商商品的存储***，该***通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的***包括：

域名解析模块，根据配置来将商品数据的url解析出域名；

另外，在所述爬取模块中，通过java来实现爬虫爬取，配置好参数，参数包括每台服务器的线程数和需要爬取的电商种子url。

另外，在所述域名解析模块中，通过java读取配置解析出域名。

另外，在所述存储模块中，通过java编写程序将数据存储到hbase中实现存储。

另外，在所述存储模块中，以域名为表名，以原网站id作为表主键。

本发明的有益效果如下：

1.能实现不同网站相同id的存储；

2.快速读取某电商网站的商品数据。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种爬虫爬取的电商商品的存储方法，其特征在于：该方法包括以下步骤：

(2)将商品数据存储时根据url解析出域名；

2.根据权利要求1所述的爬虫爬取的电商商品的存储方法，其特征在于：在所述步骤(1)中，通过java来实现爬虫爬取，配置好参数，参数包括每台服务器的线程数和需要爬取的电商种子url。

3.根据权利要求2所述的爬虫爬取的电商商品的存储方法，其特征在于：在所述步骤(2)中，通过java来实现，通过读取配置文件解析出域名。

4.根据权利要求3所述的爬虫爬取的电商商品的存储方法，其特征在于：在所述步骤(3)中，通过java来实现将商品信息存储到hbase中。

5.根据权利要求4所述的爬虫爬取的电商商品的存储方法，其特征在于：在所述步骤(3)中，以原网站id作为表主键。

6.一种爬虫爬取的电商商品的存储***，其特征在于：该***包括：

域名解析模块，根据配置来将商品的url解析出域名；

存储模块，将此域名作为表名，再根据url解析出id，将此id作为主键，将所需其它信息存储。

7.根据权利要求6所述的爬虫爬取的电商商品的存储***，其特征在于：在所述爬取模块中，通过java来实现爬虫爬取，配置好参数，参数包括每台服务器的线程数和需要爬取的电商种子url。

8.根据权利要求7所述的爬虫爬取的电商商品的存储***，其特征在于：在所述域名解析模块中，通过读取配置文件解析出商品的域名。

9.根据权利要求8所述的爬虫爬取的电商商品的存储***，其特征在于：在所述存储模块中，通过java编写代码实现数据存储到hbase中。

10.根据权利要求9所述的爬虫爬取的电商商品的存储***，其特征在于：在所述存储模块中，以域名为表名，以原网站id作为表主键。