WO2017161578A1 - Procédé et système de capture de données - Google Patents
Procédé et système de capture de données Download PDFInfo
- Publication number
- WO2017161578A1 WO2017161578A1 PCT/CN2016/077409 CN2016077409W WO2017161578A1 WO 2017161578 A1 WO2017161578 A1 WO 2017161578A1 CN 2016077409 W CN2016077409 W CN 2016077409W WO 2017161578 A1 WO2017161578 A1 WO 2017161578A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- ***
- ***
- capture
- search
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Definitions
- the present invention relates to the field of communication and data processing, and in particular, to a method and system for data capture.
- Data capture especially in big data and network data, is more widely used, and the accuracy of existing data capture is poor.
- a method of data capture is provided, which solves the shortcomings of the prior art that the accuracy of the capture is poor.
- a data capture method comprising the steps of:
- the data is captured by the Baidu search algorithm and the Google search algorithm respectively;
- the method further includes:
- the method further includes:
- a data capture system comprising:
- a receiving unit configured to receive a range of data that the user needs to capture
- a search unit configured to perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
- the judging unit is configured to use the same data in the Baidu search result and the Google search result as the result of the current crawl.
- system further includes:
- a sorting unit that arranges other results of the Google search after the same data.
- system further includes:
- Shielding unit used to block Baidu promotion and Baidu optimization data.
- the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
- the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
- FIG. 1 is a flowchart of a data capture method provided by the present invention
- FIG. 2 is a structural diagram of a data capture system provided by the present invention.
- FIG. 1 is a schematic diagram of a first preferred embodiment of the present invention.
- Step S101 Receive a data range that the user needs to capture
- Step S102 Perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
- Step S103 The same data in the Baidu search result and the Google search result is used as the result of the current crawl.
- the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
- the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
- the foregoing method may further include:
- the foregoing method may further include:
- FIG. 2 is a data capture system according to a second preferred embodiment of the present invention.
- the system includes:
- the receiving unit 201 is configured to receive a data range that the user needs to capture
- the searching unit 202 is configured to separately perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
- the determining unit 203 is configured to use the same data in the Baidu search result and the Google search result as the result of the current crawl.
- the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
- the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
- the above system may further include:
- the sorting unit 204 is configured to arrange other results of the Google search after the same data.
- the above system may further include:
- the shielding unit 205 is configured to block data of Baidu promotion and Baidu optimization.
- Computer readable media includes both computer storage media and communication media including any medium that facilitates transfer of a computer program from one location to another.
- a storage medium may be any available media that can be accessed by a computer.
- the computer readable medium may include random access memory (Random Access Memory, RAM), Read-Only Memory (ROM), electrically erasable programmable read only memory (Electrically Erasable Programmable Read-Only Memory, EEPROM), CD-ROM (Compact Disc Read-Only Memory, CD-ROM) Or other optical disc storage, magnetic storage medium or other magnetic storage device, or any other medium that can be used to carry or store desired program code in the form of an instruction or data structure and that can be accessed by a computer. Also. Any connection may suitably be a computer readable medium.
- RAM Random Access Memory
- ROM Read-Only Memory
- EEPROM Electrically erasable programmable read only memory
- CD-ROM Compact Disc Read-Only Memory
- CD-ROM Compact Disc Read-Only Memory
- Any connection may suitably be a computer readable medium.
- a disk and a disc include a compact disc (CD) ), laser disc, CD, digital versatile disc (DVD) ), floppy disks and Blu-ray discs, where the disc is usually magnetically replicated, while the disc uses a laser to optically replicate the data. Combinations of the above should also be included within the scope of the computer readable media.
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
L'invention concerne un procédé et un système qui permettent une capture de données. Le procédé comprend les étapes suivantes consistant : à recevoir une plage de données pour laquelle une capture est requise par un utilisateur (101) ; à capturer respectivement des données sur la base de la plage de données par le biais d'un algorithme de recherche de Baidu et d'un algorithme de recherche de Google (102) ; à rendre les données identiques dans les résultats de recherche de Baidu et dans les résultats de recherche Google en tant que résultats capturés dans la présente instance (103). L'avantage de l'invention est un effet de capture important.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2016/077409 WO2017161578A1 (fr) | 2016-03-25 | 2016-03-25 | Procédé et système de capture de données |
CN201680000336.5A CN105849730A (zh) | 2016-03-25 | 2016-03-25 | 数据抓取的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2016/077409 WO2017161578A1 (fr) | 2016-03-25 | 2016-03-25 | Procédé et système de capture de données |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017161578A1 true WO2017161578A1 (fr) | 2017-09-28 |
Family
ID=56576345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2016/077409 WO2017161578A1 (fr) | 2016-03-25 | 2016-03-25 | Procédé et système de capture de données |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105849730A (fr) |
WO (1) | WO2017161578A1 (fr) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018027928A1 (fr) * | 2016-08-12 | 2018-02-15 | 深圳市博信诺达经贸咨询有限公司 | Procédé et système de capture de mégadonnées de forum |
WO2018032249A1 (fr) * | 2016-08-15 | 2018-02-22 | 马岩 | Procédé et système d'extraction de données audio |
CN106294802A (zh) * | 2016-08-15 | 2017-01-04 | 马岩 | 音频数据的抓取方法及*** |
WO2018032253A1 (fr) * | 2016-08-15 | 2018-02-22 | 马岩 | Procédé et système de recherche sécurisée pour mégadonnées d'images |
WO2018032252A1 (fr) * | 2016-08-15 | 2018-02-22 | 马岩 | Procédé et système de recherche sécurisée de mégadonnées sur des forums de discussion |
WO2018032251A1 (fr) * | 2016-08-15 | 2018-02-22 | 马岩 | Procédé et système pour appliquer un niveau de sécurité à l'extraction de mégadonnées |
WO2018032254A1 (fr) * | 2016-08-15 | 2018-02-22 | 马岩 | Procédé et système d'extraction de vidéo de confiance dans des mégadonnées |
WO2018032247A1 (fr) * | 2016-08-15 | 2018-02-22 | 马岩 | Procédé et système de recherche pour mégadonnées de vidéos |
CN106326373A (zh) * | 2016-08-15 | 2017-01-11 | 马岩 | 可信视频在大数据中的抓取方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070214158A1 (en) * | 2006-03-08 | 2007-09-13 | Yakov Kamen | Method and apparatus for conducting a robust search |
CN101079048A (zh) * | 2006-05-24 | 2007-11-28 | 上海万纬信息技术有限公司 | 基于软件机器人排除标准的互联网信息搜索引擎及方法 |
CN101477554A (zh) * | 2009-01-16 | 2009-07-08 | 西安电子科技大学 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
CN102004782A (zh) * | 2010-11-25 | 2011-04-06 | 北京搜狗科技发展有限公司 | 一种搜索结果排序方法和搜索结果排序器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043834B (zh) * | 2010-11-25 | 2013-07-31 | 北京搜狗科技发展有限公司 | 一种客户端实现搜索的方法及搜索客户端 |
CN103793388B (zh) * | 2012-10-29 | 2017-08-25 | 阿里巴巴集团控股有限公司 | 搜索结果的排序方法和装置 |
-
2016
- 2016-03-25 CN CN201680000336.5A patent/CN105849730A/zh active Pending
- 2016-03-25 WO PCT/CN2016/077409 patent/WO2017161578A1/fr active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070214158A1 (en) * | 2006-03-08 | 2007-09-13 | Yakov Kamen | Method and apparatus for conducting a robust search |
CN101079048A (zh) * | 2006-05-24 | 2007-11-28 | 上海万纬信息技术有限公司 | 基于软件机器人排除标准的互联网信息搜索引擎及方法 |
CN101477554A (zh) * | 2009-01-16 | 2009-07-08 | 西安电子科技大学 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
CN102004782A (zh) * | 2010-11-25 | 2011-04-06 | 北京搜狗科技发展有限公司 | 一种搜索结果排序方法和搜索结果排序器 |
Also Published As
Publication number | Publication date |
---|---|
CN105849730A (zh) | 2016-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017161578A1 (fr) | Procédé et système de capture de données | |
WO2017128362A1 (fr) | Procédé et système de recherche faisant appel à des données massives | |
WO2017128359A1 (fr) | Procédé et système d'analyse de plate-forme de commerce électronique basée sur des mégadonnées | |
WO2017120733A1 (fr) | Procédé et système d'appel intelligent de numéro de file d'attente pour service alimentaire | |
WO2017128357A1 (fr) | Procédé à base de mégadonnées et système d'analyse de page web | |
WO2017161576A1 (fr) | Procédé et système d'alerte précoce sur des données | |
WO2017128438A1 (fr) | Procédé et système d'application de mégadonnées | |
WO2017124301A1 (fr) | Procédé et système de gestion de transports intelligents | |
WO2018027572A1 (fr) | Procédé et système de commande de quantité électrique pour robot dans l'internet des objets | |
WO2017128437A1 (fr) | Procédé et système de rappel à base de mégadonnées de l'internet mobile | |
WO2017128361A1 (fr) | Procédé et système permettant de transférer des données sur la base de données volumineuses | |
WO2018027576A1 (fr) | Procédé et système de collecte de durée de fonctionnement dans des statistiques dans l'internet des objets | |
WO2017128440A1 (fr) | Procédé et système destinés à la surveillance et au rappel de mégadonnées | |
WO2017128363A1 (fr) | Procédé et système de mise en corrélation de données en temps réel sur la base de données volumineuses | |
WO2018035697A1 (fr) | Procédé et système de recherche d'annonces immobilières sur internet | |
WO2017166132A1 (fr) | Procédé et système de poussée d'informations de réseau | |
WO2018027457A1 (fr) | Procédé et système de partage de mégadonnées mobiles | |
WO2018027455A1 (fr) | Procédé et système permettant de partager des mégadonnées dans un réseau social | |
WO2018027456A1 (fr) | Procédé et système de spécification d'application à partager dans des mégadonnées | |
WO2018027470A1 (fr) | Procédé et système de partage de mégadonnées dans wechat | |
WO2018027458A1 (fr) | Procédé et système permettant de partager des mégadonnées en temps réel | |
WO2018035789A1 (fr) | Procédé et système d'application pour une commande en boucle fermée dans une machine d'enroulement vertical | |
WO2018218407A1 (fr) | Procédé et système de détection d'un pont sur une carte pour une circulation routière intelligente | |
WO2018205136A1 (fr) | Procédé et système d'acquisition d'ip automatique de dispositif de terminal mobile | |
WO2017166134A1 (fr) | Procédé et système d'analyse d'informations de réseau |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16894931 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16894931 Country of ref document: EP Kind code of ref document: A1 |