WO2017128357A1 - 基于大数据的网页抓取方法及*** - Google Patents

基于大数据的网页抓取方法及*** Download PDF

Info

Publication number
WO2017128357A1
WO2017128357A1 PCT/CN2016/072923 CN2016072923W WO2017128357A1 WO 2017128357 A1 WO2017128357 A1 WO 2017128357A1 CN 2016072923 W CN2016072923 W CN 2016072923W WO 2017128357 A1 WO2017128357 A1 WO 2017128357A1
Authority
WO
WIPO (PCT)
Prior art keywords
webpage
user
big data
category
classified
Prior art date
Application number
PCT/CN2016/072923
Other languages
English (en)
French (fr)
Inventor
马岩
Original Assignee
深圳市博信诺达经贸咨询有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市博信诺达经贸咨询有限公司 filed Critical 深圳市博信诺达经贸咨询有限公司
Priority to PCT/CN2016/072923 priority Critical patent/WO2017128357A1/zh
Priority to CN201680000295.XA priority patent/CN105683967A/zh
Publication of WO2017128357A1 publication Critical patent/WO2017128357A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present invention relates to the field of communications and the Internet of Things, and in particular, to a webpage crawling method and system based on big data.
  • a method for crawling webpages based on big data is provided, which solves the shortcomings of the prior art that is inconvenient to crawl webpage data.
  • a method for crawling a webpage based on big data comprising the following steps:
  • the method further includes:
  • the method further includes:
  • the category of the webpage is saved.
  • a big data based web crawling system comprising:
  • a receiving unit configured to receive a webpage request of the user
  • a classification unit for classifying big data by category of webpage keywords
  • the sending unit is configured to send the webpage corresponding to the webpage request to the user.
  • system further includes:
  • the return unit is used to send a similarly classified webpage to the user if the user returns the webpage of the category.
  • system further includes:
  • the saving unit is configured to save the classification of the webpage if the user receives the classified webpage.
  • the technical solution provided by the specific embodiment of the present invention receives a webpage request of a user, classifies the big data according to the classification of the webpage keyword, and sends the webpage corresponding to the classified webpage to the user, so that the webpage has the advantage of convenient webpage data capture.
  • FIG. 1 is a flowchart of a method for crawling a webpage based on big data according to the present invention
  • FIG. 2 is a structural diagram of a webpage crawling system based on big data provided by the present invention.
  • FIG. 1 is a flowchart of a method for fetching a webpage based on big data according to a first preferred embodiment of the present invention.
  • the method is implemented by an intelligent terminal.
  • the method is as shown in FIG. 1 and includes the following steps. :
  • Step S101 Receive a webpage request of a user
  • Step S102 classify big data according to the classification of webpage keywords
  • Step S103 Send the webpage corresponding to the webpage request to the user.
  • the technical solution provided by the specific embodiment of the present invention receives a webpage request of a user, classifies the big data according to the classification of the webpage keyword, and sends the webpage corresponding to the classified webpage to the user, so that the webpage has the advantage of convenient webpage data capture.
  • the foregoing method may further include:
  • the foregoing method may further include:
  • the category of the webpage is saved.
  • FIG. 2 is a big data-based webpage crawling system according to a second preferred embodiment of the present invention.
  • the system includes:
  • the receiving unit 201 is configured to receive a webpage request of the user
  • the classification unit 202 is configured to classify big data according to the classification of webpage keywords
  • the sending unit 203 is configured to send the webpage corresponding to the webpage request to the user.
  • the technical solution provided by the specific embodiment of the present invention receives a webpage request of a user, classifies the big data according to the classification of the webpage keyword, and sends the webpage corresponding to the classified webpage to the user, so that the webpage has the advantage of convenient webpage data capture.
  • the above system may further include:
  • the returning unit 204 is configured to send a similarly classified webpage to the user if the user returns the classified webpage.
  • the above system may further include:
  • the saving unit 205 is configured to save the classification of the webpage if the user receives the classified webpage.
  • Computer readable media includes both computer storage media and communication media including any medium that facilitates transfer of a computer program from one location to another.
  • a storage medium may be any available media that can be accessed by a computer.
  • the computer readable medium may include random access memory (Random) Access Memory, RAM), Read-Only Memory (ROM), Electrically Erasable Programmable Read Only Memory (Electrically Erasable Programmable Read-Only Memory, EEPROM), Compact Disc Read-Only Memory, CD-ROM, or other optical disc storage, magnetic storage medium or other magnetic storage device, or any other medium that can be used to carry or store desired program code in the form of instructions or data structures and that can be accessed by a computer. Also. Any connection may suitably be a computer readable medium.
  • a disk and a disc include a compact disc (CD), a laser disc, a compact disc, a digital versatile disc (DVD), a floppy disk, and a Blu-ray disc, wherein the disc is usually magnetically copied, and the disc is The laser is used to optically replicate the data. Combinations of the above should also be included within the scope of the computer readable media.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种基于大数据的网页抓取方法及***,所述方法包括如下步骤:接收用户的网页请求(101);将大数据按网页关键字的分类进行分类(102);将该网页请求对应分类的网页发送给用户(103)。本方法具有网页抓取方便的优点。

Description

基于大数据的网页抓取方法及*** 技术领域
本发明涉及通信及物联网领域,尤其涉及一种基于大数据的网页抓取方法及***。
背景技术
大数据与云计算的未来发展趋势和前景已经极其广阔, 未来的互联网就是大数据和云计算的天下,大数据和云计算将成为每一个 IT 人员必须会的技术了。大数据中,网页数据为大数据的主要来源,而如何对网页数据进行抓取成为大数据处理中的重要技术。
技术问题
提供一种基于大数据的网页抓取方法,其解决了现有技术的对网页数据抓取不方便的缺点。
技术解决方案
一方面,提供一种基于大数据的网页抓取方法,所述方法包括如下步骤:
接收用户的网页请求;
将大数据按网页关键字的分类进行分类;
将该网页请求对应分类的网页发送给用户。
可选的,所述方法还包括:
如用户退回该分类的网页,将向用户发送相似分类的网页。
可选的,所述方法还包括:
如用户接收该分类的网页,则将该网页的分类保存。
另一方面,提供一种基于大数据的网页抓取***,所述***包括:
接收单元,用于接收用户的网页请求;
分类单元,用于将大数据按网页关键字的分类进行分类;
发送单元,用于将该网页请求对应分类的网页发送给用户。
可选的,所述***还包括:
退回单元,用于如用户退回该分类的网页,将向用户发送相似分类的网页。
可选的,所述***还包括:
保存单元,用于如用户接收该分类的网页,则将该网页的分类保存。
有益效果
本发明具体实施方式提供的技术方案接收用户的网页请求,将大数据按网页关键字的分类进行分类,将该网页请求对应分类的网页发送给用户,所以其具有网页数据抓取方便的优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于大数据的网页抓取方法的流程图;
图2为本发明提供的一种基于大数据的网页抓取***的结构图。
本发明的实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,图1为本发明第一较佳实施方式提供的一种基于大数据的网页抓取方法的流程图,该方法由智能终端来完成,该方法如图1所示,包括如下步骤:
步骤S101、接收用户的网页请求;
步骤S102、将大数据按网页关键字的分类进行分类;
步骤S103、将该网页请求对应分类的网页发送给用户。
本发明具体实施方式提供的技术方案接收用户的网页请求,将大数据按网页关键字的分类进行分类,将该网页请求对应分类的网页发送给用户,所以其具有网页数据抓取方便的优点。
可选的,上述方法在步骤S103之后还可以包括:
如用户退回该分类的网页,将向用户发送相似分类的网页。
可选的,上述方法在步骤S103之后还可以包括:
如用户接收该分类的网页,则将该网页的分类保存。
参阅图2,图2为本发明第二较佳实施方式提供的一种基于大数据的网页抓取***,该***包括:
接收单元201,用于接收用户的网页请求;
分类单元202,用于将大数据按网页关键字的分类进行分类;
发送单元203,用于将该网页请求对应分类的网页发送给用户。
本发明具体实施方式提供的技术方案接收用户的网页请求,将大数据按网页关键字的分类进行分类,将该网页请求对应分类的网页发送给用户,所以其具有网页数据抓取方便的优点。
可选的,上述***还可以包括:
退回单元204,用于如用户退回该分类的网页,将向用户发送相似分类的网页。
可选的,上述***还可以包括:
保存单元205,用于如用户接收该分类的网页,则将该网页的分类保存。
需要说明的是,对于前述的各方法实施方式或实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为根据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述实施方式或实施例均属于优选实施例,所涉及的动作和单元并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。本领域的技术人员可以将本说明书中描述的不同实施例以及不同实施例的特征进行结合或组合。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可以用硬件实现,或固件实现,或它们的组合方式来实现。当使用软件实现时,可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(Digital Subscriber Line,DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的,那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的,盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟,其中盘通常磁性的复制数据,而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。
总之,以上所述仅为本发明技术方案的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

  1. 一种基于大数据的网页抓取方法,其特征在于,所述方法包括如下步骤:
    接收用户的网页请求;
    将大数据按网页关键字的分类进行分类;
    将该网页请求对应分类的网页发送给用户。
  2. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    如用户退回该分类的网页,将向用户发送相似分类的网页。
  3. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    如用户接收该分类的网页,则将该网页的分类保存。
  4. 一种基于大数据的网页抓取***,其特征在于,所述***包括:
    接收单元,用于接收用户的网页请求;
    分类单元,用于将大数据按网页关键字的分类进行分类;
    发送单元,用于将该网页请求对应分类的网页发送给用户。
  5. 根据权利要求4所述的***,其特征在于,所述***还包括:
    退回单元,用于如用户退回该分类的网页,将向用户发送相似分类的网页。
  6. 根据权利要求4所述的***,其特征在于,所述***还包括:
    保存单元,用于如用户接收该分类的网页,则将该网页的分类保存。
PCT/CN2016/072923 2016-01-30 2016-01-30 基于大数据的网页抓取方法及*** WO2017128357A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2016/072923 WO2017128357A1 (zh) 2016-01-30 2016-01-30 基于大数据的网页抓取方法及***
CN201680000295.XA CN105683967A (zh) 2016-01-30 2016-01-30 基于大数据的网页抓取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/072923 WO2017128357A1 (zh) 2016-01-30 2016-01-30 基于大数据的网页抓取方法及***

Publications (1)

Publication Number Publication Date
WO2017128357A1 true WO2017128357A1 (zh) 2017-08-03

Family

ID=56215757

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/072923 WO2017128357A1 (zh) 2016-01-30 2016-01-30 基于大数据的网页抓取方法及***

Country Status (2)

Country Link
CN (1) CN105683967A (zh)
WO (1) WO2017128357A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682382A (zh) * 2016-08-01 2018-02-09 汇仕电子商务(上海)有限公司 一种互联网大数据采集***及其使用方法
WO2018027456A1 (zh) * 2016-08-08 2018-02-15 深圳市博信诺达经贸咨询有限公司 指定分享在大数据中的应用方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915352A (zh) * 2012-10-08 2013-02-06 清华大学 一种自动检索并整合网络信息的装置
CN104077397A (zh) * 2014-07-01 2014-10-01 成都康赛信息技术有限公司 一种分布式的大数据分类检索网页的响应方法
US9235638B2 (en) * 2013-11-12 2016-01-12 International Business Machines Corporation Document retrieval using internal dictionary-hierarchies to adjust per-subject match results

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7984057B2 (en) * 2005-05-10 2011-07-19 Microsoft Corporation Query composition incorporating by reference a query definition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915352A (zh) * 2012-10-08 2013-02-06 清华大学 一种自动检索并整合网络信息的装置
US9235638B2 (en) * 2013-11-12 2016-01-12 International Business Machines Corporation Document retrieval using internal dictionary-hierarchies to adjust per-subject match results
CN104077397A (zh) * 2014-07-01 2014-10-01 成都康赛信息技术有限公司 一种分布式的大数据分类检索网页的响应方法

Also Published As

Publication number Publication date
CN105683967A (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
WO2017128362A1 (zh) 基于大数据的搜索方法及***
WO2017161578A1 (zh) 数据抓取的方法及***
WO2017128359A1 (zh) 基于大数据的电商平台分析方法及***
WO2017128357A1 (zh) 基于大数据的网页抓取方法及***
WO2017120739A1 (zh) 餐饮评论分析方法及***
WO2017120733A1 (zh) 餐饮智能叫号方法及***
WO2017173633A1 (zh) 教育项目的智能回复方法及***
WO2017117783A1 (zh) 网络信息的搜索方法及***
WO2018035697A1 (zh) 互联网中房源搜索方法及***
WO2017128438A1 (zh) 大数据的应用方法及***
WO2018027572A1 (zh) 物联网中机器人电量控制方法及***
WO2017128440A1 (zh) 大数据的监控提醒方法及***
WO2017128437A1 (zh) 基于移动互联大数据的提醒方法及***
WO2018027576A1 (zh) 工作时间在物联网中统计方法及***
WO2017128361A1 (zh) 基于大数据的数据推送方法及***
WO2017120721A1 (zh) 智能餐饮点餐方法及***
WO2017161576A1 (zh) 数据预警方法及***
WO2018027470A1 (zh) 微信中分享大数据的方法及***
WO2017128363A1 (zh) 基于大数据的实时数据关联方法及***
WO2018027455A1 (zh) 社交网络中分享大数据的方法及***
WO2018035699A1 (zh) 房屋app中房屋匹配方法及***
WO2018027344A1 (zh) 不同语言在大数据中实现实时搜索方法及***
WO2018032246A1 (zh) 局域网中大数据的搜索方法及***
WO2018032339A1 (zh) 动态实现app排序调整的方法及***
WO2018032245A1 (zh) 从社交软件评论数据中搜索数据的方法及***

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16887241

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 18/12/2018)

122 Ep: pct application non-entry in european phase

Ref document number: 16887241

Country of ref document: EP

Kind code of ref document: A1