WO2017161578A1 - Procédé et système de capture de données - Google Patents

Procédé et système de capture de données Download PDF

Info

Publication number
WO2017161578A1
WO2017161578A1 PCT/CN2016/077409 CN2016077409W WO2017161578A1 WO 2017161578 A1 WO2017161578 A1 WO 2017161578A1 CN 2016077409 W CN2016077409 W CN 2016077409W WO 2017161578 A1 WO2017161578 A1 WO 2017161578A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
***
***
capture
search
Prior art date
Application number
PCT/CN2016/077409
Other languages
English (en)
Chinese (zh)
Inventor
马岩
Original Assignee
马岩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 马岩 filed Critical 马岩
Priority to PCT/CN2016/077409 priority Critical patent/WO2017161578A1/fr
Priority to CN201680000336.5A priority patent/CN105849730A/zh
Publication of WO2017161578A1 publication Critical patent/WO2017161578A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Definitions

  • the present invention relates to the field of communication and data processing, and in particular, to a method and system for data capture.
  • Data capture especially in big data and network data, is more widely used, and the accuracy of existing data capture is poor.
  • a method of data capture is provided, which solves the shortcomings of the prior art that the accuracy of the capture is poor.
  • a data capture method comprising the steps of:
  • the data is captured by the Baidu search algorithm and the Google search algorithm respectively;
  • the method further includes:
  • the method further includes:
  • a data capture system comprising:
  • a receiving unit configured to receive a range of data that the user needs to capture
  • a search unit configured to perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
  • the judging unit is configured to use the same data in the Baidu search result and the Google search result as the result of the current crawl.
  • system further includes:
  • a sorting unit that arranges other results of the Google search after the same data.
  • system further includes:
  • Shielding unit used to block Baidu promotion and Baidu optimization data.
  • the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
  • the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
  • FIG. 1 is a flowchart of a data capture method provided by the present invention
  • FIG. 2 is a structural diagram of a data capture system provided by the present invention.
  • FIG. 1 is a schematic diagram of a first preferred embodiment of the present invention.
  • Step S101 Receive a data range that the user needs to capture
  • Step S102 Perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
  • Step S103 The same data in the Baidu search result and the Google search result is used as the result of the current crawl.
  • the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
  • the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
  • the foregoing method may further include:
  • the foregoing method may further include:
  • FIG. 2 is a data capture system according to a second preferred embodiment of the present invention.
  • the system includes:
  • the receiving unit 201 is configured to receive a data range that the user needs to capture
  • the searching unit 202 is configured to separately perform data capture by using a Baidu search algorithm and a Google search algorithm according to the data range;
  • the determining unit 203 is configured to use the same data in the Baidu search result and the Google search result as the result of the current crawl.
  • the technical solution provided by the specific embodiment of the present invention receives the data range that the user needs to capture, and according to the data range, the data is captured by the Baidu search algorithm and the Google search algorithm respectively, and the same data in the Baidu search result and the Google search result are used as the data.
  • the result of this crawl which combines the advantages of Baidu and Google, so it has good accuracy. Advantages.
  • the above system may further include:
  • the sorting unit 204 is configured to arrange other results of the Google search after the same data.
  • the above system may further include:
  • the shielding unit 205 is configured to block data of Baidu promotion and Baidu optimization.
  • Computer readable media includes both computer storage media and communication media including any medium that facilitates transfer of a computer program from one location to another.
  • a storage medium may be any available media that can be accessed by a computer.
  • the computer readable medium may include random access memory (Random Access Memory, RAM), Read-Only Memory (ROM), electrically erasable programmable read only memory (Electrically Erasable Programmable Read-Only Memory, EEPROM), CD-ROM (Compact Disc Read-Only Memory, CD-ROM) Or other optical disc storage, magnetic storage medium or other magnetic storage device, or any other medium that can be used to carry or store desired program code in the form of an instruction or data structure and that can be accessed by a computer. Also. Any connection may suitably be a computer readable medium.
  • RAM Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically erasable programmable read only memory
  • CD-ROM Compact Disc Read-Only Memory
  • CD-ROM Compact Disc Read-Only Memory
  • Any connection may suitably be a computer readable medium.
  • a disk and a disc include a compact disc (CD) ), laser disc, CD, digital versatile disc (DVD) ), floppy disks and Blu-ray discs, where the disc is usually magnetically replicated, while the disc uses a laser to optically replicate the data. Combinations of the above should also be included within the scope of the computer readable media.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un procédé et un système qui permettent une capture de données. Le procédé comprend les étapes suivantes consistant : à recevoir une plage de données pour laquelle une capture est requise par un utilisateur (101) ; à capturer respectivement des données sur la base de la plage de données par le biais d'un algorithme de recherche de Baidu et d'un algorithme de recherche de Google (102) ; à rendre les données identiques dans les résultats de recherche de Baidu et dans les résultats de recherche Google en tant que résultats capturés dans la présente instance (103). L'avantage de l'invention est un effet de capture important.
PCT/CN2016/077409 2016-03-25 2016-03-25 Procédé et système de capture de données WO2017161578A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2016/077409 WO2017161578A1 (fr) 2016-03-25 2016-03-25 Procédé et système de capture de données
CN201680000336.5A CN105849730A (zh) 2016-03-25 2016-03-25 数据抓取的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/077409 WO2017161578A1 (fr) 2016-03-25 2016-03-25 Procédé et système de capture de données

Publications (1)

Publication Number Publication Date
WO2017161578A1 true WO2017161578A1 (fr) 2017-09-28

Family

ID=56576345

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/077409 WO2017161578A1 (fr) 2016-03-25 2016-03-25 Procédé et système de capture de données

Country Status (2)

Country Link
CN (1) CN105849730A (fr)
WO (1) WO2017161578A1 (fr)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018027928A1 (fr) * 2016-08-12 2018-02-15 深圳市博信诺达经贸咨询有限公司 Procédé et système de capture de mégadonnées de forum
WO2018032249A1 (fr) * 2016-08-15 2018-02-22 马岩 Procédé et système d'extraction de données audio
CN106294802A (zh) * 2016-08-15 2017-01-04 马岩 音频数据的抓取方法及***
WO2018032253A1 (fr) * 2016-08-15 2018-02-22 马岩 Procédé et système de recherche sécurisée pour mégadonnées d'images
WO2018032252A1 (fr) * 2016-08-15 2018-02-22 马岩 Procédé et système de recherche sécurisée de mégadonnées sur des forums de discussion
WO2018032251A1 (fr) * 2016-08-15 2018-02-22 马岩 Procédé et système pour appliquer un niveau de sécurité à l'extraction de mégadonnées
WO2018032254A1 (fr) * 2016-08-15 2018-02-22 马岩 Procédé et système d'extraction de vidéo de confiance dans des mégadonnées
WO2018032247A1 (fr) * 2016-08-15 2018-02-22 马岩 Procédé et système de recherche pour mégadonnées de vidéos
CN106326373A (zh) * 2016-08-15 2017-01-11 马岩 可信视频在大数据中的抓取方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070214158A1 (en) * 2006-03-08 2007-09-13 Yakov Kamen Method and apparatus for conducting a robust search
CN101079048A (zh) * 2006-05-24 2007-11-28 上海万纬信息技术有限公司 基于软件机器人排除标准的互联网信息搜索引擎及方法
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043834B (zh) * 2010-11-25 2013-07-31 北京搜狗科技发展有限公司 一种客户端实现搜索的方法及搜索客户端
CN103793388B (zh) * 2012-10-29 2017-08-25 阿里巴巴集团控股有限公司 搜索结果的排序方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070214158A1 (en) * 2006-03-08 2007-09-13 Yakov Kamen Method and apparatus for conducting a robust search
CN101079048A (zh) * 2006-05-24 2007-11-28 上海万纬信息技术有限公司 基于软件机器人排除标准的互联网信息搜索引擎及方法
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102004782A (zh) * 2010-11-25 2011-04-06 北京搜狗科技发展有限公司 一种搜索结果排序方法和搜索结果排序器

Also Published As

Publication number Publication date
CN105849730A (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
WO2017161578A1 (fr) Procédé et système de capture de données
WO2017128362A1 (fr) Procédé et système de recherche faisant appel à des données massives
WO2017128359A1 (fr) Procédé et système d'analyse de plate-forme de commerce électronique basée sur des mégadonnées
WO2017120733A1 (fr) Procédé et système d'appel intelligent de numéro de file d'attente pour service alimentaire
WO2017128357A1 (fr) Procédé à base de mégadonnées et système d'analyse de page web
WO2017161576A1 (fr) Procédé et système d'alerte précoce sur des données
WO2017128438A1 (fr) Procédé et système d'application de mégadonnées
WO2017124301A1 (fr) Procédé et système de gestion de transports intelligents
WO2018027572A1 (fr) Procédé et système de commande de quantité électrique pour robot dans l'internet des objets
WO2017128437A1 (fr) Procédé et système de rappel à base de mégadonnées de l'internet mobile
WO2017128361A1 (fr) Procédé et système permettant de transférer des données sur la base de données volumineuses
WO2018027576A1 (fr) Procédé et système de collecte de durée de fonctionnement dans des statistiques dans l'internet des objets
WO2017128440A1 (fr) Procédé et système destinés à la surveillance et au rappel de mégadonnées
WO2017128363A1 (fr) Procédé et système de mise en corrélation de données en temps réel sur la base de données volumineuses
WO2018035697A1 (fr) Procédé et système de recherche d'annonces immobilières sur internet
WO2017166132A1 (fr) Procédé et système de poussée d'informations de réseau
WO2018027457A1 (fr) Procédé et système de partage de mégadonnées mobiles
WO2018027455A1 (fr) Procédé et système permettant de partager des mégadonnées dans un réseau social
WO2018027456A1 (fr) Procédé et système de spécification d'application à partager dans des mégadonnées
WO2018027470A1 (fr) Procédé et système de partage de mégadonnées dans wechat
WO2018027458A1 (fr) Procédé et système permettant de partager des mégadonnées en temps réel
WO2018035789A1 (fr) Procédé et système d'application pour une commande en boucle fermée dans une machine d'enroulement vertical
WO2018218407A1 (fr) Procédé et système de détection d'un pont sur une carte pour une circulation routière intelligente
WO2018205136A1 (fr) Procédé et système d'acquisition d'ip automatique de dispositif de terminal mobile
WO2017166134A1 (fr) Procédé et système d'analyse d'informations de réseau

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16894931

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16894931

Country of ref document: EP

Kind code of ref document: A1