CN106649576A - 一种爬虫爬取的电商商品的存储方法及*** - Google Patents

一种爬虫爬取的电商商品的存储方法及*** Download PDF

Info

Publication number
CN106649576A
CN106649576A CN201611009724.8A CN201611009724A CN106649576A CN 106649576 A CN106649576 A CN 106649576A CN 201611009724 A CN201611009724 A CN 201611009724A CN 106649576 A CN106649576 A CN 106649576A
Authority
CN
China
Prior art keywords
electric business
commodity
reptile
crawls
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611009724.8A
Other languages
English (en)
Inventor
李巧如
王俊
邱鹿
孙超
于永新
袁颖盛
张和林
段云涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd filed Critical BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority to CN201611009724.8A priority Critical patent/CN106649576A/zh
Publication of CN106649576A publication Critical patent/CN106649576A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种爬虫爬取的电商商品的存储方法,其能够解决不同网站同一id的存储问题,不同电商网站的数据能同时并存,读取速度快。该方法包括以下步骤:(1)爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据;(2)将商品数据存储时根据url解析出域名;(3)将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。还有一种爬虫爬取的电商商品的存储***。

Description

一种爬虫爬取的电商商品的存储方法及***
技术领域
本发明涉及大数据处理的技术领域,尤其涉及一种爬虫爬取的电商商品的存储方法,以及爬虫爬取的电商商品的存储***。
背景技术
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
在互联上抓取用户的信用数据是信用评级的重要手段,例如从支付宝网站抓取的交易记录就能从侧面反映出用户的经济实力。
目前一般使用多机多线程实现,在断网的情况下存储会丢数据。而且,将所有电商商品都存一张表中,会存在id重复问题,如果只想读取某一电商的数据速度相对会慢。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种爬虫爬取的电商商品的存储方法,其能够解决不同网站同一id的存储问题,不同电商网站的数据能同时并存,读取速度快。
本发明的技术方案是:这种爬虫爬取的电商商品的存储方法,该方法包括以下步骤:
(1)爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据;
(2)将商品数据存储时根据url解析出域名;
(3)将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。
本发明通过爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据,将商品数据存储时根据url解析出域名,将此域名作为表名,再根据url解析出id,将需要的各项其他信息存储,所以能够解决不同网站同一id的存储问题,不同电商网站的数据能同时并存,读取速度快。
还提供了一种爬虫爬取的电商商品的存储***,该***包括:
爬取模块,根据配置来爬取多个电商网站的网页,然后解析出网页中的商品数据;
域名解析模块,根据配置来将商品的url解析出域名;
存储模块,将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。
附图说明
图1所示为根据本发明的爬虫爬取的电商商品的存储方法的流程图。
具体实施方式
如图1所示,这种爬虫爬取的电商商品的存储方法,该方法包括以下步骤:
(1)爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据;
(2)将商品数据存储时根据url解析出域名;
(3)将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。
本发明通过爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据,将商品数据存储时根据url解析出域名,将此域名作为表名,再根据url解析出id作为主键,将需要的各项其他信息存储,所以能够解决不同网站同一id的存储问题,不同电商网站的数据能同时并存,读取速度快。
另外,在所述步骤(1)中,通过java来实现爬虫爬取,配置好参数,参数包括每台服务器的线程数和需要爬取的电商种子url。
另外,在所述步骤(2)中,通过java读取配置解析出域名。
另外,在所述步骤(3)中,通过java编写程序将数据存储到hbase中实现存储。
另外,在所述步骤(3)中,以域名为表名,原网站id作为表主键。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质是硬盘。因此,与本发明的方法相对应的,本发明还同时包括一种爬虫爬取的电商商品的存储***,该***通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的***包括:
爬取模块,根据配置来爬取多个电商网站的网页,然后解析出网页中的商品数据;
域名解析模块,根据配置来将商品数据的url解析出域名;
存储模块,将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。
另外,在所述爬取模块中,通过java来实现爬虫爬取,配置好参数,参数包括每台服务器的线程数和需要爬取的电商种子url。
另外,在所述域名解析模块中,通过java读取配置解析出域名。
另外,在所述存储模块中,通过java编写程序将数据存储到hbase中实现存储。
另外,在所述存储模块中,以域名为表名,以原网站id作为表主键。
本发明的有益效果如下:
1.能实现不同网站相同id的存储;
2.快速读取某电商网站的商品数据。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (10)

1.一种爬虫爬取的电商商品的存储方法,其特征在于:该方法包括以下步骤:
(1)爬虫爬取多个电商网站的网页,然后解析出网页中的商品数据;
(2)将商品数据存储时根据url解析出域名;
(3)将此域名作为表名,再根据url解析出id,以此id作为主键,将所需其它信息存储。
2.根据权利要求1所述的爬虫爬取的电商商品的存储方法,其特征在于:在所述步骤(1)中,通过java来实现爬虫爬取,配置好参数,参数包括每台服务器的线程数和需要爬取的电商种子url。
3.根据权利要求2所述的爬虫爬取的电商商品的存储方法,其特征在于:在所述步骤(2)中,通过java来实现,通过读取配置文件解析出域名。
4.根据权利要求3所述的爬虫爬取的电商商品的存储方法,其特征在于:在所述步骤(3)中,通过java来实现将商品信息存储到hbase中。
5.根据权利要求4所述的爬虫爬取的电商商品的存储方法,其特征在于:在所述步骤(3)中,以原网站id作为表主键。
6.一种爬虫爬取的电商商品的存储***,其特征在于:该***包括:
爬取模块,根据配置来爬取多个电商网站的网页,然后解析出网页中的商品数据;
域名解析模块,根据配置来将商品的url解析出域名;
存储模块,将此域名作为表名,再根据url解析出id,将此id作为主键,将所需其它信息存储。
7.根据权利要求6所述的爬虫爬取的电商商品的存储***,其特征在于:在所述爬取模块中,通过java来实现爬虫爬取,配置好参数,参数包括每台服务器的线程数和需要爬取的电商种子url。
8.根据权利要求7所述的爬虫爬取的电商商品的存储***,其特征在于:在所述域名解析模块中,通过读取配置文件解析出商品的域名。
9.根据权利要求8所述的爬虫爬取的电商商品的存储***,其特征在于:在所述存储模块中,通过java编写代码实现数据存储到hbase中。
10.根据权利要求9所述的爬虫爬取的电商商品的存储***,其特征在于:在所述存储模块中,以域名为表名,以原网站id作为表主键。
CN201611009724.8A 2016-11-15 2016-11-15 一种爬虫爬取的电商商品的存储方法及*** Pending CN106649576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611009724.8A CN106649576A (zh) 2016-11-15 2016-11-15 一种爬虫爬取的电商商品的存储方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611009724.8A CN106649576A (zh) 2016-11-15 2016-11-15 一种爬虫爬取的电商商品的存储方法及***

Publications (1)

Publication Number Publication Date
CN106649576A true CN106649576A (zh) 2017-05-10

Family

ID=58807274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611009724.8A Pending CN106649576A (zh) 2016-11-15 2016-11-15 一种爬虫爬取的电商商品的存储方法及***

Country Status (1)

Country Link
CN (1) CN106649576A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968495A (zh) * 2012-11-29 2013-03-13 河海大学 搜索对比关联购物信息的垂直搜索引擎及方法
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析***及方法
CN105468637A (zh) * 2014-09-05 2016-04-06 北京联嘉众赢网络技术有限公司 一种数据库更新方法及装置
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析***及方法
CN102968495A (zh) * 2012-11-29 2013-03-13 河海大学 搜索对比关联购物信息的垂直搜索引擎及方法
CN105468637A (zh) * 2014-09-05 2016-04-06 北京联嘉众赢网络技术有限公司 一种数据库更新方法及装置
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和***

Similar Documents

Publication Publication Date Title
CN106446228B (zh) 一种web页面数据的采集分析方法及装置
CN104685490B (zh) 结构化和非结构化数据自适应分组的***和方法
US20190347287A1 (en) Method for screening and injection of media content based on user preferences
CN108320213A (zh) 电商商品推荐方法和电商平台服务器
CN100394727C (zh) 一种日志分析方法和***
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN105608134A (zh) 一种基于多线程的网络爬虫***及其网页爬取方法
CN107852412A (zh) 用于网络钓鱼和品牌保护的***和方法
JP2010510601A (ja) 商品情報を推薦する方法およびその方法を実行するシステム
US9390168B1 (en) Customer keyword-based item recommendations
US20190065444A1 (en) Techniques for efficient & high-throughput web content-creation
US20140289612A1 (en) Merging web page style addresses
CN106933640A (zh) 在移动终端的浏览器内加载Web页面的方法及***
CN101916274A (zh) 对LinkUGC进行聚合显示的方法和***
CN108595681A (zh) 用于表单展示的方法、装置及***
US20100057775A1 (en) Method and system for providing object information on the internet
Tsai Information technology and business process reengineering: new perspectives and strategies
CN111066012A (zh) 与顶级域相关联的链接的web呈现页面
CN106886545A (zh) 页面展示方法、页面资源的缓存方法及装置
CN112015806A (zh) 区块链存储数据的方法及装置
CN106650399A (zh) 用户访问权限的处理方法及装置
CN105656979A (zh) 一种非结构化消息处理的方法、客户端、服务器及平台
CN106933903A (zh) 应用于分布式存储的存储方法及装置
Lakic et al. Link-rot in web-sourced multimedia datasets
CN102982012A (zh) 一种用于获取失序文本中的目标字符串的方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication