CN107682382A - 一种互联网大数据采集***及其使用方法 - Google Patents

一种互联网大数据采集***及其使用方法 Download PDF

Info

Publication number
CN107682382A
CN107682382A CN201610616584.4A CN201610616584A CN107682382A CN 107682382 A CN107682382 A CN 107682382A CN 201610616584 A CN201610616584 A CN 201610616584A CN 107682382 A CN107682382 A CN 107682382A
Authority
CN
China
Prior art keywords
data
layer
internet
data acquisition
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610616584.4A
Other languages
English (en)
Inventor
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hui Shi Electronic Commerce (shanghai) Co Ltd
Original Assignee
Hui Shi Electronic Commerce (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hui Shi Electronic Commerce (shanghai) Co Ltd filed Critical Hui Shi Electronic Commerce (shanghai) Co Ltd
Priority to CN201610616584.4A priority Critical patent/CN107682382A/zh
Publication of CN107682382A publication Critical patent/CN107682382A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及互联网领域,提供了一种互联网大数据采集***及其使用方法,包括采集中心和***管理中心,采集中心和***管理中心分别与外界服务端相连接。***管理中心包括:节点管理、***监控、信息点布控。采集中心包括:传输层、应用层、数据层。应用层和数据层通过传输层与外界数据和外界服务器相连接。采集中心和***管理中心相互配合,通过传输层从外界数据得到数据进行采集并传输至外界服务端,完成数据采集工作。本发明使客户方便的通过采集中心和***管理中心的相互配合,自动完成数据的采集工作,解决了手动采集数据的复杂性、技术要求高及局限性较大的问题。

Description

一种互联网大数据采集***及其使用方法
技术领域
本发明涉及互联网领域,特别涉及一种互联网大数据采集***及其使用方法。
背景技术
Web是世界上最大的公共资源宝库,目前有至少5.5亿个网站,页面总数目已超过几万亿,每秒钟都在巨量增加,里面有大量有价值信息,例如潜在客户的列表与联系信息,竞争产品的价格列表,实时金融新闻,舆情信息,口碑信息,供求信息,科研期刊,论坛帖子,博客文章,最新新闻等等。可是由于关键信息都是以半结构化形式存在于各个网站大量的HTML网页中,很难集中并直接加以利用。互联网数据具有:大量化、多样化、快速化、价值化。一方面造成信息量越来越大,而另一方面有用的信息却面临着提取困难,清洗困难,造成了信息匮乏。目前,对于大数据采集技术,现市场中提供手动采集的产品,采集规则非常复杂,技术要求较高,局限性比较大。因此,为解决手动采集数据的复杂性、技术要求高及局限性较大问题,需对现有技术加以改进。
发明内容
本发明的目的在于提供一种互联网大数据采集***及其使用方法,用以解决手动采集数据的复杂性、技术要求高及局限性较大的问题。
为解决上述技术问题,本发明的实施方式提供了一种互联网大数据采集***及其使用方法,所述互联网大数据采集***包括采集中心和***管理中心,所述采集中心和所述***管理中心分别与外界服务端相连接。所述***管理中心包括:节点管理、***监控、信息点布控。所述采集中心包括:传输层、应用层、数据层。所述应用层和所述数据层通过所述传输层与外界数据和所述外界服务器相连接。所述采集中心和所述***管理中心相互配合,通过所述传输层从所述外界数据得到数据进行采集并传输至所述外界服务端,完成数据采集工作。
本发明使客户方便的通过采集中心和***管理中心的相互配合,自动完成数据的采集工作,解决了手动采集数据的复杂性、技术要求高及局限性较大的问题。
进一步的,所述传输层包括接受任务模块、统一资源定位上报模块、采集数据传输模块;所述传输层通过所述采集数据传输模块与所述外界数据相连接。
进一步的,所述应用层包括获取模块、传输模块、访问模块、步骤处理模块。
进一步的,所述数据层包括数据处理模块、节点信息提取模块。
进一步的,所述节点信息提取模块包括节点内容信息提取模块、节点属性信息提取模块、列表节点信息提取模块。
进一步的,所述采集中心还包括浏览器处理模块、循环处理模块。
进一步的,所述循环处理模块包括循环开始点功能和循环结束点功能。
进一步的,所述浏览器处理模块包括浏览器打开功能、浏览器关闭功能、浏览器前进功能、浏览器返回功能。
一种应用如权利要求所述的互联网大数据采集***的方法,其操作步骤如下:
步骤1:首先所述采集中心通过所述传输层接受任务;
步骤2:然后所述传输层与所述外界数据进行数据交流;
步骤3:所述管理中心接受所述外界服务端的数据,配合所述应用层和所述数据层对所述外界数据进行特定的交互和采集;
步骤4:所述采集中心将采集到的数据通过所述传输层与所述外界服务器进行交互。
本发明使客户方便的通过采集中心和***管理中心的相互配合,自动完成数据的采集工作,解决了手动采集数据的复杂性、技术要求高及局限性较大的问题。本发明针对互联网大数据的网页采集,提供简化的采集规则配置,目的是实现互联网大数据采集规则的简化配置,以降低数据采集的使用门槛,简便采集步骤,进而提高互联网数据的共享性。通过进一步完善方便客户对浏览器的各种操作。
附图说明
图1为本发明一种互联网大数据采集***及其使用方法的工作框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明的各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各个权利要求所要求保护的技术方案。
本发明的实施方式涉及一种互联网大数据采集***及其使用方法,结合图1所示,本发明一种互联网大数据采集***包括采集中心和***管理中心,采集中心和***管理中心分别与外界服务端相连接。***管理中心包括:节点管理1、***监控2、信息点布控3。
采集中心包括:传输层4、应用层5、数据层6。传输层4包括接受任务模块、统一资源定位上报模块、采集数据传输模块;传输层4通过采集数据传输模块与外界数据相连接。应用层5包括获取模块、传输模块、访问模块、步骤处理模块。数据层6包括数据处理模块、节点信息提取模块。节点信息提取模块包括节点内容信息提取模块、节点属性信息提取模块、列表节点信息提取模块。
采集中心还包括浏览器处理模块7、循环处理模块8。循环处理模块8包括循环开始点功能和循环结束点功能。浏览器处理模块7包括浏览器打开功能、浏览器关闭功能、浏览器前进功能、浏览器返回功能。
应用层5和数据层6通过传输层4与外界数据和外界服务器相连接。采集中心和***管理中心相互配合,通过传输层4从外界数据得到数据进行采集并传输至外界服务端,完成数据采集工作。
使用的方法,其操作步骤如下:
步骤1:首先采集中心通过传输层4接受任务;
步骤2:然后传输层4与外界数据进行数据交流;
步骤3:管理中心接受外界服务端的数据,配合应用层5和数据层6对外界数据进行特定的交互和采集;
步骤4:采集中心将采集到的数据通过传输层4与外界服务器进行交互。
具体操作如下:
一,准备工作:
步骤1:选择打开网址,设置相应的网址内容;
步骤2:选择点击按钮/链接,在浏览区中点击需要采集的信息;
步骤3:选择点击按钮/链接,在浏览区点击“列表”图表;
步骤4:设置循环开始点;
步骤5:选择点击按钮/链接,点击数据列表的第一行数据;
步骤6:选择提取数据,并提取字段;
步骤7:因页面无返回按钮,所以选择浏览器返回;
步骤8:选择点击按钮/链接,点击按钮“下一页”;
步骤9:设置循环结束点;
设置完成,开始采集即可。
二,采集工作
步骤10:采集中心通过传输层4读取外界数据库中有效信息;
步骤11:管理中心配合应用层和数据层6对外界数据进行特定的交互和采集;
步骤12:采集中心将采集到的数据通过传输层4与外界服务器进行交互;
步骤13:退出采集工作。
本发明使客户方便的通过采集中心和***管理中心的相互配合,自动完成数据的采集工作,解决了手动采集数据的复杂性、技术要求高及局限性较大的问题。本发明针对互联网大数据的网页采集,提供简化的采集规则配置,目的是实现互联网大数据采集规则的简化配置,以降低数据采集的使用门槛,简便采集步骤,进而提高互联网数据的共享性。通过进一步完善方便客户对浏览器的各种操作。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (9)

1.一种互联网大数据采集***,其特征在于:所述互联网大数据采集***包括采集中心和***管理中心,所述采集中心和所述***管理中心分别与外界服务端相连接;
所述***管理中心包括:节点管理、***监控、信息点布控;
所述采集中心包括:传输层、应用层、数据层;
所述应用层和所述数据层通过所述传输层与外界数据和所述外界服务器相连接;
所述采集中心和所述***管理中心相互配合,通过所述传输层从所述外界数据得到数据进行采集并传输至所述外界服务端,完成数据采集工作。
2.如权利要求1所述的互联网大数据采集***,其特征在于:所述传输层包括接受任务模块、统一资源定位上报模块、采集数据传输模块;所述传输层通过所述采集数据传输模块与所述外界数据相连接。
3.如权利要求1所述的互联网大数据采集***,其特征在于:所述应用层包括获取模块、传输模块、访问模块、步骤处理模块。
4.如权利要求1所述的互联网大数据采集***,其特征在于:所述数据层包括数据处理模块、节点信息提取模块。
5.如权利要求4所述的互联网大数据采集***,其特征在于:所述节点信息提取模块包括节点内容信息提取模块、节点属性信息提取模块、列表节点信息提取模块。
6.如权利要求1所述的互联网大数据采集***,其特征在于:所述采集中心还包括浏览器处理模块、循环处理模块。
7.如权利要求6所述的互联网大数据采集***,其特征在于:所述循环处理模块包括循环开始点功能和循环结束点功能。
8.如权利要求6所述的互联网大数据采集***,其特征在于:所述浏览器处理模块包括浏览器打开功能、浏览器关闭功能、浏览器前进功能、浏览器返回功能。
9.一种应用如权利要求1-8所述的互联网大数据采集***及其使用方法的使用方法,其特征在于:
步骤1:首先所述采集中心通过所述传输层接受任务;
步骤2:然后所述传输层与所述外界数据进行数据交流;
步骤3:所述管理中心接受所述外界服务端的数据,配合所述应用层和所述数据层对所述外界数据进行特定的交互和采集;
步骤4:所述采集中心将采集到的数据通过所述传输层与所述外界服务器进行交互。
CN201610616584.4A 2016-08-01 2016-08-01 一种互联网大数据采集***及其使用方法 Pending CN107682382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610616584.4A CN107682382A (zh) 2016-08-01 2016-08-01 一种互联网大数据采集***及其使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610616584.4A CN107682382A (zh) 2016-08-01 2016-08-01 一种互联网大数据采集***及其使用方法

Publications (1)

Publication Number Publication Date
CN107682382A true CN107682382A (zh) 2018-02-09

Family

ID=61133043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610616584.4A Pending CN107682382A (zh) 2016-08-01 2016-08-01 一种互联网大数据采集***及其使用方法

Country Status (1)

Country Link
CN (1) CN107682382A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375837A (zh) * 2010-08-19 2012-03-14 ***通信集团公司 数据采集***和方法
CN103593502A (zh) * 2013-10-16 2014-02-19 中国水利水电科学研究院 一种用于混凝土坝防裂的温度应力分析和反分析方法
CN104112207A (zh) * 2014-07-29 2014-10-22 浪潮软件集团有限公司 一种基于互联网数据的电子商务交易监测方法
CN104767803A (zh) * 2015-03-27 2015-07-08 浪潮集团有限公司 互联网数据采集方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN104915415A (zh) * 2015-06-08 2015-09-16 浪潮集团有限公司 一种分布式互联网数据采集解析***
CN105683967A (zh) * 2016-01-30 2016-06-15 深圳市博信诺达经贸咨询有限公司 基于大数据的网页抓取方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375837A (zh) * 2010-08-19 2012-03-14 ***通信集团公司 数据采集***和方法
CN103593502A (zh) * 2013-10-16 2014-02-19 中国水利水电科学研究院 一种用于混凝土坝防裂的温度应力分析和反分析方法
CN104112207A (zh) * 2014-07-29 2014-10-22 浪潮软件集团有限公司 一种基于互联网数据的电子商务交易监测方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN104767803A (zh) * 2015-03-27 2015-07-08 浪潮集团有限公司 互联网数据采集方法
CN104915415A (zh) * 2015-06-08 2015-09-16 浪潮集团有限公司 一种分布式互联网数据采集解析***
CN105683967A (zh) * 2016-01-30 2016-06-15 深圳市博信诺达经贸咨询有限公司 基于大数据的网页抓取方法及***

Similar Documents

Publication Publication Date Title
CN103218431B (zh) 一种能识别网页信息自动采集的***
CN106445484B (zh) 通过软件开发工具包实现数据跟踪的方法及***
CN103699822B (zh) 基于鼠标行为的电子商务中用户异常行为检测方法
Beel et al. Mr. DLib: recommendations-as-a-service (RaaS) for academia
Losarwar et al. Data preprocessing in web usage mining
CN103297469B (zh) 一种网站数据的采集方法及装置
CN101408877B (zh) 树节点加载***及其方法
CN104216921B (zh) 一种实现浏览器中快速链接的添加提示方法、装置及***
CN104063454A (zh) 一种挖掘用户需求的搜索推送方法和装置
CN109242553A (zh) 一种用户行为数据推荐方法、服务器及计算机可读介质
CN104182506A (zh) 日志管理方法
CN103927370A (zh) 一种组合文字和图片信息的网络资讯批量采集方法
CN102473190A (zh) 为网页分配关键词
CN101355587A (zh) Url信息获取方法和装置及搜索引擎实现方法及***
CN108124007A (zh) 消息数据实时传输的方法与装置
CN103970843A (zh) 一种Web日志预处理中基于UUID的会话合并方法
CN110417873A (zh) 一种实现记录网页交互操作的网络信息提取***
CN104598604A (zh) 一种网址导航应用于各种浏览器中的浏览方法
CN106650610A (zh) 一种人脸表情数据收集方法及装置
CN101894109A (zh) 一种数据库建立方法和装置
CN103778156A (zh) 数据搜索的方法和装置以及用于数据搜索的服务器
CN100366002C (zh) 互联网共享接入检测***
CN104331512A (zh) 一种bbs页面自动采集方法
CN107682382A (zh) 一种互联网大数据采集***及其使用方法
CN106874495A (zh) 基于机器学习建模抽取网页结构的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209