WO2017161578A1 - 数据抓取的方法及*** - Google Patents

数据抓取的方法及*** Download PDF

Info

Publication number
WO2017161578A1
WO2017161578A1 PCT/CN2016/077409 CN2016077409W WO2017161578A1 WO 2017161578 A1 WO2017161578 A1 WO 2017161578A1 CN 2016077409 W CN2016077409 W CN 2016077409W WO 2017161578 A1 WO2017161578 A1 WO 2017161578A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
***
***
capture
search
Prior art date
Application number
PCT/CN2016/077409
Other languages
English (en)
French (fr)
Inventor
马岩
Original Assignee
马岩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 马岩 filed Critical 马岩
Priority to PCT/CN2016/077409 priority Critical patent/WO2017161578A1/zh
Priority to CN201680000336.5A priority patent/CN105849730A/zh
Publication of WO2017161578A1 publication Critical patent/WO2017161578A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Definitions

  • the present invention relates to the field of communication and data processing, and in particular, to a method and system for data capture.
  • Data capture especially in big data and network data, is more widely used, and the accuracy of existing data capture is poor.
  • a method of data capture is provided, which solves the shortcomings of the prior art that the accuracy of the capture is poor.
  • a data capture method comprising the steps of:
  • the data is captured by the Baidu search algorithm and the Google search algorithm respectively;
  • the method further includes:
  • the method further includes:
  • a data capture system comprising:
  • a receiving unit configured to receive a range of data that the user needs to capture
  • a search unit configured to perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
  • the judging unit is configured to use the same data in the Baidu search result and the Google search result as the result of the current crawl.
  • system further includes:
  • a sorting unit that arranges other results of the Google search after the same data.
  • system further includes:
  • Shielding unit used to block Baidu promotion and Baidu optimization data.
  • the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
  • the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
  • FIG. 1 is a flowchart of a data capture method provided by the present invention
  • FIG. 2 is a structural diagram of a data capture system provided by the present invention.
  • FIG. 1 is a schematic diagram of a first preferred embodiment of the present invention.
  • Step S101 Receive a data range that the user needs to capture
  • Step S102 Perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
  • Step S103 The same data in the Baidu search result and the Google search result is used as the result of the current crawl.
  • the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
  • the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
  • the foregoing method may further include:
  • the foregoing method may further include:
  • FIG. 2 is a data capture system according to a second preferred embodiment of the present invention.
  • the system includes:
  • the receiving unit 201 is configured to receive a data range that the user needs to capture
  • the searching unit 202 is configured to separately perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
  • the determining unit 203 is configured to use the same data in the Baidu search result and the Google search result as the result of the current crawl.
  • the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
  • the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
  • the above system may further include:
  • the sorting unit 204 is configured to arrange other results of the Google search after the same data.
  • the above system may further include:
  • the shielding unit 205 is configured to block data of Baidu promotion and Baidu optimization.
  • Computer readable media includes both computer storage media and communication media including any medium that facilitates transfer of a computer program from one location to another.
  • a storage medium may be any available media that can be accessed by a computer.
  • the computer readable medium may include random access memory (Random Access Memory, RAM), Read-Only Memory (ROM), electrically erasable programmable read only memory (Electrically Erasable Programmable Read-Only Memory, EEPROM), CD-ROM (Compact Disc Read-Only Memory, CD-ROM) Or other optical disc storage, magnetic storage medium or other magnetic storage device, or any other medium that can be used to carry or store desired program code in the form of an instruction or data structure and that can be accessed by a computer. Also. Any connection may suitably be a computer readable medium.
  • RAM Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically erasable programmable read only memory
  • CD-ROM Compact Disc Read-Only Memory
  • CD-ROM Compact Disc Read-Only Memory
  • Any connection may suitably be a computer readable medium.
  • a disk and a disc include a compact disc (CD) ), laser disc, CD, digital versatile disc (DVD) ), floppy disks and Blu-ray discs, where the disc is usually magnetically replicated, while the disc uses a laser to optically replicate the data. Combinations of the above should also be included within the scope of the computer readable media.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据抓取方法及***,所述方法包括如下步骤:接收用户需要抓取的数据范围(101);依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取(102);将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果(103)。具有数据抓取效果好的优点。

Description

数据抓取的方法及*** 技术领域
本发明涉及通信及数据处理领域,尤其涉及一种 数据抓取的方法及*** 。
背景技术
数据抓取尤其是大数据以及网络数据中应用范围更广 , 现有的数据抓取的准确性较差。
技术问题
提供一种 数据抓取的方法 ,其解决了现有技术的抓取的准确性较差的缺点。
技术解决方案
一方面,提供一种 数据抓取方法,所述方法包括如下步骤:
接收用户需要抓取的数据范围;
依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
可选的,所述方法还包括:
将谷歌搜索的其他结果排列在相同的数据之后。
可选的,所述方法还包括:
屏蔽百度推广和百度优化的数据。
另一方面,提供一种 数据抓取***,所述***包括:
接收单元,用于 接收用户需要抓取的数据范围;
搜索单元,用于依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
判断单元,用于将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
可选的,所述***还包括:
排序单元,用于将谷歌搜索的其他结果排列在相同的数据之后。
可选的,所述***还包括:
屏蔽单元,用于屏蔽百度推广和百度优化的数据。
有益效果
本发明具体实施方式提供的技术方案接收用户需要抓取的数据范围,依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取,将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果,其综合了百度和谷歌的优点,所以其具有准确性好的 优点 。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图 1 为本发明提供的一种数据抓取方法的流程图;
图 2 为本发明提供的一种数据抓取***的结构图。
本发明的实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图 1 ,图 1 为本发明第一较佳实施方式提供的一种 数据抓取方法的流程图,该方法由服务器来完成,该方法如图 1 所示,包括如下步骤:
步骤 S101 、 接收用户需要抓取的数据范围;
步骤 S102 、依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
步骤 S103 、将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
本发明具体实施方式提供的技术方案接收用户需要抓取的数据范围,依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取,将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果,其综合了百度和谷歌的优点,所以其具有准确性好的 优点 。
可选的,上述方法在步骤 S103 之后还可以包括:
将谷歌搜索的其他结果排列在相同的数据之后。
可选的,上述方法在步骤 S103 之后还可以包括:
屏蔽百度推广和百度优化的数据。
参阅图 2 ,图 2 为本发明第二较佳实施方式提供的一种 数据抓取***,该***包括:
接收单元 201 ,用于 接收用户需要抓取的数据范围;
搜索单元 202 ,用于依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
判断单元 203 ,用于将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
本发明具体实施方式提供的技术方案接收用户需要抓取的数据范围,依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取,将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果,其综合了百度和谷歌的优点,所以其具有准确性好的 优点 。
可选的,上述***还可以包括:
排序单元 204 ,用于将谷歌搜索的其他结果排列在相同的数据之后。
可选的,上述***还可以包括:
屏蔽单元 205 ,用于屏蔽百度推广和百度优化的数据。
需要说明的是,对于前述的各方法实施方式或实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为根据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述实施方式或实施例均属于优选实施例,所涉及的动作和单元并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。本领域的技术人员可以将本说明书中描述的不同实施例以及不同实施例的特征进行结合或组合。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可以用硬件实现,或固件实现,或它们的组合方式来实现。当使用软件实现时,可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括随机存取存储器 (Random Access Memory , RAM) 、只读存储器 (Read-Only Memory , ROM) 、电可擦可编程只读存储器 (Electrically Erasable Programmable Read-Only Memory , EEPROM) 、只读光盘 (Compact Disc Read-Only Memory , CD-ROM) 或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线( Digital Subscriber Line , DSL )或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的,那么同轴电缆、光纤光缆、双绞线、 DSL 或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的,盘( Disk )和碟( disc )包括压缩光碟( CD )、激光碟、光碟、数字通用光碟( DVD )、软盘和蓝光光碟,其中盘通常磁性的复制数据,而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。
总之,以上所述仅为本发明技术方案的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

  1. 一种 数据抓取方法,其特征在于,所述方法包括如下步骤:
    接收用户需要抓取的数据范围;
    依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
    将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
  2. 根据权利要求 1 所述的方法,其特征在于,所述方法还包括:
    将谷歌搜索的其他结果排列在相同的数据之后。
  3. 根据权利要求 1 所述的方法,其特征在于,所述方法还包括:
    屏蔽百度推广和百度优化的数据。
  4. 一种 数据抓取***,其特征在于,所述***包括:
    接收单元,用于 接收用户需要抓取的数据范围;
    搜索单元,用于依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
    判断单元,用于将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
  5. 根据权利要求 4 所述的***,其特征在于,所述***还包括:
    排序单元,用于将谷歌搜索的其他结果排列在相同的数据之后。
  6. 根据权利要求 4 所述的***,其特征在于,所述***还包括:
    屏蔽单元,用于屏蔽百度推广和百度优化的数据。
PCT/CN2016/077409 2016-03-25 2016-03-25 数据抓取的方法及*** WO2017161578A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2016/077409 WO2017161578A1 (zh) 2016-03-25 2016-03-25 数据抓取的方法及***
CN201680000336.5A CN105849730A (zh) 2016-03-25 2016-03-25 数据抓取的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/077409 WO2017161578A1 (zh) 2016-03-25 2016-03-25 数据抓取的方法及***

Publications (1)

Publication Number Publication Date
WO2017161578A1 true WO2017161578A1 (zh) 2017-09-28

Family

ID=56576345

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/077409 WO2017161578A1 (zh) 2016-03-25 2016-03-25 数据抓取的方法及***

Country Status (2)

Country Link
CN (1) CN105849730A (zh)
WO (1) WO2017161578A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018027928A1 (zh) * 2016-08-12 2018-02-15 深圳市博信诺达经贸咨询有限公司 论坛海量数据的抓取方法及***
WO2018032254A1 (zh) * 2016-08-15 2018-02-22 马岩 可信视频在大数据中的抓取方法及***
CN106294802A (zh) * 2016-08-15 2017-01-04 马岩 音频数据的抓取方法及***
WO2018032249A1 (zh) * 2016-08-15 2018-02-22 马岩 音频数据的抓取方法及***
WO2018032253A1 (zh) * 2016-08-15 2018-02-22 马岩 图片大数据的安全搜索方法及***
WO2018032251A1 (zh) * 2016-08-15 2018-02-22 马岩 安全等级在大数据抓取中的应用方法及***
WO2018032247A1 (zh) * 2016-08-15 2018-02-22 马岩 视频大数据的搜索方法及***
WO2018032252A1 (zh) * 2016-08-15 2018-02-22 马岩 论坛大数据的安全搜索方法及***
CN106326373A (zh) * 2016-08-15 2017-01-11 马岩 可信视频在大数据中的抓取方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070214158A1 (en) * 2006-03-08 2007-09-13 Yakov Kamen Method and apparatus for conducting a robust search
CN101079048A (zh) * 2006-05-24 2007-11-28 上海万纬信息技术有限公司 基于软件机器人排除标准的互联网信息搜索引擎及方法
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043834B (zh) * 2010-11-25 2013-07-31 北京搜狗科技发展有限公司 一种客户端实现搜索的方法及搜索客户端
CN103793388B (zh) * 2012-10-29 2017-08-25 阿里巴巴集团控股有限公司 搜索结果的排序方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070214158A1 (en) * 2006-03-08 2007-09-13 Yakov Kamen Method and apparatus for conducting a robust search
CN101079048A (zh) * 2006-05-24 2007-11-28 上海万纬信息技术有限公司 基于软件机器人排除标准的互联网信息搜索引擎及方法
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器

Also Published As

Publication number Publication date
CN105849730A (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
WO2017161578A1 (zh) 数据抓取的方法及***
WO2017128362A1 (zh) 基于大数据的搜索方法及***
WO2017128359A1 (zh) 基于大数据的电商平台分析方法及***
WO2017120733A1 (zh) 餐饮智能叫号方法及***
WO2017128357A1 (zh) 基于大数据的网页抓取方法及***
WO2017161576A1 (zh) 数据预警方法及***
WO2017128438A1 (zh) 大数据的应用方法及***
WO2017124301A1 (zh) 智能交通管理方法及***
WO2018027572A1 (zh) 物联网中机器人电量控制方法及***
WO2017128437A1 (zh) 基于移动互联大数据的提醒方法及***
WO2017128361A1 (zh) 基于大数据的数据推送方法及***
WO2017128440A1 (zh) 大数据的监控提醒方法及***
WO2017128363A1 (zh) 基于大数据的实时数据关联方法及***
WO2018035697A1 (zh) 互联网中房源搜索方法及***
WO2017166132A1 (zh) 网络信息推送方法及***
WO2018027457A1 (zh) 移动式大数据分享方法及***
WO2018027455A1 (zh) 社交网络中分享大数据的方法及***
WO2018027456A1 (zh) 指定分享在大数据中的应用方法及***
WO2018027470A1 (zh) 微信中分享大数据的方法及***
WO2018027458A1 (zh) 大数据的实时分享方法及***
WO2018035789A1 (zh) 闭环控制在立式绕线机中的应用方法及***
WO2018218407A1 (zh) 智能交通地图中桥梁的检测方法及***
WO2018205136A1 (zh) 移动终端设备自动获取ip方法及***
WO2018032334A1 (zh) 手机多核多线程调度方法及***
WO2018032339A1 (zh) 动态实现app排序调整的方法及***

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16894931

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16894931

Country of ref document: EP

Kind code of ref document: A1