WO2017161578A1 - 数据抓取的方法及*** - Google Patents
数据抓取的方法及*** Download PDFInfo
- Publication number
- WO2017161578A1 WO2017161578A1 PCT/CN2016/077409 CN2016077409W WO2017161578A1 WO 2017161578 A1 WO2017161578 A1 WO 2017161578A1 CN 2016077409 W CN2016077409 W CN 2016077409W WO 2017161578 A1 WO2017161578 A1 WO 2017161578A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- ***
- ***
- capture
- search
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Definitions
- the present invention relates to the field of communication and data processing, and in particular, to a method and system for data capture.
- Data capture especially in big data and network data, is more widely used, and the accuracy of existing data capture is poor.
- a method of data capture is provided, which solves the shortcomings of the prior art that the accuracy of the capture is poor.
- a data capture method comprising the steps of:
- the data is captured by the Baidu search algorithm and the Google search algorithm respectively;
- the method further includes:
- the method further includes:
- a data capture system comprising:
- a receiving unit configured to receive a range of data that the user needs to capture
- a search unit configured to perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
- the judging unit is configured to use the same data in the Baidu search result and the Google search result as the result of the current crawl.
- system further includes:
- a sorting unit that arranges other results of the Google search after the same data.
- system further includes:
- Shielding unit used to block Baidu promotion and Baidu optimization data.
- the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
- the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
- FIG. 1 is a flowchart of a data capture method provided by the present invention
- FIG. 2 is a structural diagram of a data capture system provided by the present invention.
- FIG. 1 is a schematic diagram of a first preferred embodiment of the present invention.
- Step S101 Receive a data range that the user needs to capture
- Step S102 Perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
- Step S103 The same data in the Baidu search result and the Google search result is used as the result of the current crawl.
- the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
- the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
- the foregoing method may further include:
- the foregoing method may further include:
- FIG. 2 is a data capture system according to a second preferred embodiment of the present invention.
- the system includes:
- the receiving unit 201 is configured to receive a data range that the user needs to capture
- the searching unit 202 is configured to separately perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
- the determining unit 203 is configured to use the same data in the Baidu search result and the Google search result as the result of the current crawl.
- the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
- the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
- the above system may further include:
- the sorting unit 204 is configured to arrange other results of the Google search after the same data.
- the above system may further include:
- the shielding unit 205 is configured to block data of Baidu promotion and Baidu optimization.
- Computer readable media includes both computer storage media and communication media including any medium that facilitates transfer of a computer program from one location to another.
- a storage medium may be any available media that can be accessed by a computer.
- the computer readable medium may include random access memory (Random Access Memory, RAM), Read-Only Memory (ROM), electrically erasable programmable read only memory (Electrically Erasable Programmable Read-Only Memory, EEPROM), CD-ROM (Compact Disc Read-Only Memory, CD-ROM) Or other optical disc storage, magnetic storage medium or other magnetic storage device, or any other medium that can be used to carry or store desired program code in the form of an instruction or data structure and that can be accessed by a computer. Also. Any connection may suitably be a computer readable medium.
- RAM Random Access Memory
- ROM Read-Only Memory
- EEPROM Electrically erasable programmable read only memory
- CD-ROM Compact Disc Read-Only Memory
- CD-ROM Compact Disc Read-Only Memory
- Any connection may suitably be a computer readable medium.
- a disk and a disc include a compact disc (CD) ), laser disc, CD, digital versatile disc (DVD) ), floppy disks and Blu-ray discs, where the disc is usually magnetically replicated, while the disc uses a laser to optically replicate the data. Combinations of the above should also be included within the scope of the computer readable media.
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种数据抓取方法及***,所述方法包括如下步骤:接收用户需要抓取的数据范围(101);依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取(102);将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果(103)。具有数据抓取效果好的优点。
Description
本发明涉及通信及数据处理领域,尤其涉及一种 数据抓取的方法及*** 。
数据抓取尤其是大数据以及网络数据中应用范围更广 , 现有的数据抓取的准确性较差。
提供一种 数据抓取的方法 ,其解决了现有技术的抓取的准确性较差的缺点。
一方面,提供一种 数据抓取方法,所述方法包括如下步骤:
接收用户需要抓取的数据范围;
依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
可选的,所述方法还包括:
将谷歌搜索的其他结果排列在相同的数据之后。
可选的,所述方法还包括:
屏蔽百度推广和百度优化的数据。
另一方面,提供一种 数据抓取***,所述***包括:
接收单元,用于 接收用户需要抓取的数据范围;
搜索单元,用于依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
判断单元,用于将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
可选的,所述***还包括:
排序单元,用于将谷歌搜索的其他结果排列在相同的数据之后。
可选的,所述***还包括:
屏蔽单元,用于屏蔽百度推广和百度优化的数据。
本发明具体实施方式提供的技术方案接收用户需要抓取的数据范围,依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取,将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果,其综合了百度和谷歌的优点,所以其具有准确性好的
优点 。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图 1 为本发明提供的一种数据抓取方法的流程图;
图 2 为本发明提供的一种数据抓取***的结构图。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图 1 ,图 1 为本发明第一较佳实施方式提供的一种
数据抓取方法的流程图,该方法由服务器来完成,该方法如图 1 所示,包括如下步骤:
步骤 S101 、 接收用户需要抓取的数据范围;
步骤 S102 、依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
步骤 S103 、将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
本发明具体实施方式提供的技术方案接收用户需要抓取的数据范围,依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取,将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果,其综合了百度和谷歌的优点,所以其具有准确性好的
优点 。
可选的,上述方法在步骤 S103 之后还可以包括:
将谷歌搜索的其他结果排列在相同的数据之后。
可选的,上述方法在步骤 S103 之后还可以包括:
屏蔽百度推广和百度优化的数据。
参阅图 2 ,图 2 为本发明第二较佳实施方式提供的一种 数据抓取***,该***包括:
接收单元 201 ,用于 接收用户需要抓取的数据范围;
搜索单元 202 ,用于依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;
判断单元 203 ,用于将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
本发明具体实施方式提供的技术方案接收用户需要抓取的数据范围,依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取,将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果,其综合了百度和谷歌的优点,所以其具有准确性好的
优点 。
可选的,上述***还可以包括:
排序单元 204 ,用于将谷歌搜索的其他结果排列在相同的数据之后。
可选的,上述***还可以包括:
屏蔽单元 205 ,用于屏蔽百度推广和百度优化的数据。
需要说明的是,对于前述的各方法实施方式或实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为根据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述实施方式或实施例均属于优选实施例,所涉及的动作和单元并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。本领域的技术人员可以将本说明书中描述的不同实施例以及不同实施例的特征进行结合或组合。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可以用硬件实现,或固件实现,或它们的组合方式来实现。当使用软件实现时,可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括随机存取存储器
(Random Access Memory , RAM) 、只读存储器 (Read-Only Memory , ROM) 、电可擦可编程只读存储器
(Electrically Erasable Programmable Read-Only Memory , EEPROM) 、只读光盘 (Compact
Disc Read-Only Memory , CD-ROM)
或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(
Digital Subscriber Line , DSL
)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的,那么同轴电缆、光纤光缆、双绞线、 DSL
或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的,盘( Disk )和碟( disc )包括压缩光碟( CD
)、激光碟、光碟、数字通用光碟( DVD
)、软盘和蓝光光碟,其中盘通常磁性的复制数据,而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。
总之,以上所述仅为本发明技术方案的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
- 一种 数据抓取方法,其特征在于,所述方法包括如下步骤:接收用户需要抓取的数据范围;依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
- 根据权利要求 1 所述的方法,其特征在于,所述方法还包括:将谷歌搜索的其他结果排列在相同的数据之后。
- 根据权利要求 1 所述的方法,其特征在于,所述方法还包括:屏蔽百度推广和百度优化的数据。
- 一种 数据抓取***,其特征在于,所述***包括:接收单元,用于 接收用户需要抓取的数据范围;搜索单元,用于依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;判断单元,用于将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。
- 根据权利要求 4 所述的***,其特征在于,所述***还包括:排序单元,用于将谷歌搜索的其他结果排列在相同的数据之后。
- 根据权利要求 4 所述的***,其特征在于,所述***还包括:屏蔽单元,用于屏蔽百度推广和百度优化的数据。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2016/077409 WO2017161578A1 (zh) | 2016-03-25 | 2016-03-25 | 数据抓取的方法及*** |
CN201680000336.5A CN105849730A (zh) | 2016-03-25 | 2016-03-25 | 数据抓取的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2016/077409 WO2017161578A1 (zh) | 2016-03-25 | 2016-03-25 | 数据抓取的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017161578A1 true WO2017161578A1 (zh) | 2017-09-28 |
Family
ID=56576345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2016/077409 WO2017161578A1 (zh) | 2016-03-25 | 2016-03-25 | 数据抓取的方法及*** |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105849730A (zh) |
WO (1) | WO2017161578A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018027928A1 (zh) * | 2016-08-12 | 2018-02-15 | 深圳市博信诺达经贸咨询有限公司 | 论坛海量数据的抓取方法及*** |
WO2018032254A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 可信视频在大数据中的抓取方法及*** |
CN106294802A (zh) * | 2016-08-15 | 2017-01-04 | 马岩 | 音频数据的抓取方法及*** |
WO2018032249A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 音频数据的抓取方法及*** |
WO2018032253A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 图片大数据的安全搜索方法及*** |
WO2018032251A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 安全等级在大数据抓取中的应用方法及*** |
WO2018032247A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 视频大数据的搜索方法及*** |
WO2018032252A1 (zh) * | 2016-08-15 | 2018-02-22 | 马岩 | 论坛大数据的安全搜索方法及*** |
CN106326373A (zh) * | 2016-08-15 | 2017-01-11 | 马岩 | 可信视频在大数据中的抓取方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070214158A1 (en) * | 2006-03-08 | 2007-09-13 | Yakov Kamen | Method and apparatus for conducting a robust search |
CN101079048A (zh) * | 2006-05-24 | 2007-11-28 | 上海万纬信息技术有限公司 | 基于软件机器人排除标准的互联网信息搜索引擎及方法 |
CN101477554A (zh) * | 2009-01-16 | 2009-07-08 | 西安电子科技大学 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
CN102004782A (zh) * | 2010-11-25 | 2011-04-06 | 北京搜狗科技发展有限公司 | 一种搜索结果排序方法和搜索结果排序器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043834B (zh) * | 2010-11-25 | 2013-07-31 | 北京搜狗科技发展有限公司 | 一种客户端实现搜索的方法及搜索客户端 |
CN103793388B (zh) * | 2012-10-29 | 2017-08-25 | 阿里巴巴集团控股有限公司 | 搜索结果的排序方法和装置 |
-
2016
- 2016-03-25 CN CN201680000336.5A patent/CN105849730A/zh active Pending
- 2016-03-25 WO PCT/CN2016/077409 patent/WO2017161578A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070214158A1 (en) * | 2006-03-08 | 2007-09-13 | Yakov Kamen | Method and apparatus for conducting a robust search |
CN101079048A (zh) * | 2006-05-24 | 2007-11-28 | 上海万纬信息技术有限公司 | 基于软件机器人排除标准的互联网信息搜索引擎及方法 |
CN101477554A (zh) * | 2009-01-16 | 2009-07-08 | 西安电子科技大学 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
CN102004782A (zh) * | 2010-11-25 | 2011-04-06 | 北京搜狗科技发展有限公司 | 一种搜索结果排序方法和搜索结果排序器 |
Also Published As
Publication number | Publication date |
---|---|
CN105849730A (zh) | 2016-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017161578A1 (zh) | 数据抓取的方法及*** | |
WO2017128362A1 (zh) | 基于大数据的搜索方法及*** | |
WO2017128359A1 (zh) | 基于大数据的电商平台分析方法及*** | |
WO2017120733A1 (zh) | 餐饮智能叫号方法及*** | |
WO2017128357A1 (zh) | 基于大数据的网页抓取方法及*** | |
WO2017161576A1 (zh) | 数据预警方法及*** | |
WO2017128438A1 (zh) | 大数据的应用方法及*** | |
WO2017124301A1 (zh) | 智能交通管理方法及*** | |
WO2018027572A1 (zh) | 物联网中机器人电量控制方法及*** | |
WO2017128437A1 (zh) | 基于移动互联大数据的提醒方法及*** | |
WO2017128361A1 (zh) | 基于大数据的数据推送方法及*** | |
WO2017128440A1 (zh) | 大数据的监控提醒方法及*** | |
WO2017128363A1 (zh) | 基于大数据的实时数据关联方法及*** | |
WO2018035697A1 (zh) | 互联网中房源搜索方法及*** | |
WO2017166132A1 (zh) | 网络信息推送方法及*** | |
WO2018027457A1 (zh) | 移动式大数据分享方法及*** | |
WO2018027455A1 (zh) | 社交网络中分享大数据的方法及*** | |
WO2018027456A1 (zh) | 指定分享在大数据中的应用方法及*** | |
WO2018027470A1 (zh) | 微信中分享大数据的方法及*** | |
WO2018027458A1 (zh) | 大数据的实时分享方法及*** | |
WO2018035789A1 (zh) | 闭环控制在立式绕线机中的应用方法及*** | |
WO2018218407A1 (zh) | 智能交通地图中桥梁的检测方法及*** | |
WO2018205136A1 (zh) | 移动终端设备自动获取ip方法及*** | |
WO2018032334A1 (zh) | 手机多核多线程调度方法及*** | |
WO2018032339A1 (zh) | 动态实现app排序调整的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16894931 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16894931 Country of ref document: EP Kind code of ref document: A1 |