CN112434205A - 基于数据站点的数据集成抓取方法、***及计算机设备 - Google Patents

基于数据站点的数据集成抓取方法、***及计算机设备 Download PDF

Info

Publication number
CN112434205A
CN112434205A CN202011369702.9A CN202011369702A CN112434205A CN 112434205 A CN112434205 A CN 112434205A CN 202011369702 A CN202011369702 A CN 202011369702A CN 112434205 A CN112434205 A CN 112434205A
Authority
CN
China
Prior art keywords
data
task
capturing
site
capture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011369702.9A
Other languages
English (en)
Inventor
候彩云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Second Hand Artificial Intelligence Technology Co ltd
Original Assignee
Beijing Second Hand Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Second Hand Artificial Intelligence Technology Co ltd filed Critical Beijing Second Hand Artificial Intelligence Technology Co ltd
Priority to CN202011369702.9A priority Critical patent/CN112434205A/zh
Publication of CN112434205A publication Critical patent/CN112434205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供的一种基于数据站点的数据集成抓取方法、***及计算机设备,数据集成抓取方法包括:任务创建步骤,根据用户需求创建数据抓取任务;任务调度步骤,调取所述数据抓取任务,并对所述数据抓取任务中的任务参数解析后,确定目标数据站点和数据抓取信息;数据抓取步骤,基于所述目标数据站点和所述数据抓取信息,抓取目标原始数据。该方法无需人工支持,减少了人工成本,实现了基于用户需求和数据站点的数据的一次性抓取,提高了数据抓取的准确性。

Description

基于数据站点的数据集成抓取方法、***及计算机设备
技术领域
本发明涉及通信技术领域,特别涉及基于数据站点的数据集成抓取方法、***及计算机设备。
背景技术
随着网络的迅速发展以及信息的膨胀,网络数据抓取服务已经成为企业不可避免的组成部分,因为它在获取准确的相关信息方面非常有用。通过借助数据抓取工具,可以提取有关客户偏好,首选位置,竞争对手策略等的有用信息。
目前就现有技术而言,为满足用户的数据抓取的需求,一是通过人工查找网站页面从而抓取相关数据;二是通过分散的爬虫访问一个个网站页面抓取相关数据。
然而,通过人工抓取相关数据或通过分散的爬虫抓取相关的数据,人工成本较高,难以根据用户需求实现数据的一次性抓取,且由于网站的访问次数有限,数据抓取的准确性不高。
发明内容
为解决现有技术中数据抓取人工成本高及数据抓取准确性低的技术问题,本发明提供了一种基于数据站点的数据集成抓取方法,无需人工支持,减少了人工成本,实现了基于用户需求和数据站点的数据的一次性抓取,提高了数据抓取的准确性。
本发明提供了基于数据站点的数据集成抓取方法,包括如下步骤:
任务创建步骤,根据用户需求创建数据抓取任务;
任务调度步骤,调取所述数据抓取任务,并对所述数据抓取任务中的任务参数解析后,确定目标数据站点和数据抓取信息;
数据抓取步骤,基于所述目标数据站点和所述数据抓取信息,抓取目标原始数据。
上述的基于数据站点的数据集成抓取方法,其中,所述任务创建步骤中具体包括:
一级任务创建步骤,根据用户需求创建一级数据抓取任务;
二级任务创建步骤,分解所述一级数据抓取任务,创建与所述一级数据抓取任务相对应的多个二级数据抓取任务。
上述的基于数据站点的数据集成抓取方法,其中,所述任务创建步骤中,还包括:
过滤步骤,在所述二级数据抓取任务创建过程中,当已有的所述二级数据抓取任务中包含待创建的所述二级数据抓取任务,则过滤掉待创建的所述二级数据抓取任务。
上述的基于数据站点的数据集成抓取方法,其中,还包括:
数据存储步骤,将所述数据抓取任务、所述目标站点、所述数据抓取信息及所述目标原始数据存储于数据库中,并将解析后的所述目标原始数据存储至所述数据库中。
上述的基于数据站点的数据集成抓取方法,其中,还包括:
任务判断步骤,解析所述任务参数后,判断是否需要创建所述二级数据抓取任务,当需要创建所述二级数据抓取任务时,则执行所述过滤步骤;否则,则继续执行所述任务调度步骤。
上述的基于数据站点的数据集成抓取方法,其中,还包括:
信息匹配步骤,确定所述数据抓取信息后,将所述数据抓取信息与所述数据库进行匹配,当所述数据抓取信息与所述数据库匹配成功时,则基于所述数据库获取与所述数据抓取信息相对应的所述目标原始数据;当所述数据抓取信息与所述数据库匹配不成功时,则执行所述数据抓取步骤。
上述的基于数据站点的数据集成抓取方法,其中,还包括:
统计分析步骤,统计分析解析后的所述目标原始数据,以获取数据抓取结果。
上述的基于数据站点的数据集成抓取方法,其中,还包括:
结果展示步骤,将所述数据抓取结果进行展示。
本发明还提供一种实现如上所述的基于数据站点的数据集成抓取方法的***,包括:
任务创建单元,用于根据用户需求创建数据抓取任务;
任务调度单元,用于调取所述数据抓取任务,并对所述数据抓取任务中的任务参数解析后,确定目标数据站点和数据抓取信息;
数据抓取单元,用于基于所述目标数据站点和所述数据抓取信息,抓取目标原始数据。
本发明还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于数据站点的数据集成抓取方法。
本发明的技术效果或优点:
本发明提供的一种基于数据站点的数据集成抓取方法,包括任务创建步骤、任务调度步骤和数据抓取步骤,其中,任务创建步骤包括根据用户需求创建数据抓取任务;任务调度步骤包括调取所述数据抓取任务,并对所述数据抓取任务中的任务参数解析后,确定目标数据站点和数据抓取信息;数据抓取步骤包括基于所述目标数据站点和所述数据抓取信息,抓取目标原始数据。通过上述方式,本发明无需人工支持,减少了人工成本,实现了基于用户需求和数据站点的数据的一次性抓取,提高了数据抓取的准确性。
附图说明
图1为本发明实施例提供的一个基于数据站点的数据集成抓取方法的流程图;
图2为本发明实施例提供的一个实现基于数据站点的数据集成抓取方法的***的结构示意图;
图3为本发明实施例提供的一个电子设备的框架图;
以上图中:
10、总线;11、处理器;12、存储器;13、通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。
本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合具体实施例及说明书附图,对本发明的技术方案作详细说明。
本实施例提供一种基于数据站点的数据集成抓取方法,包括如下步骤:
任务创建步骤,根据用户需求创建数据抓取任务;
任务调度步骤,调取所述数据抓取任务,并对所述数据抓取任务中的任务参数解析后,确定目标数据站点和数据抓取信息;
数据抓取步骤,基于所述目标数据站点和所述数据抓取信息,抓取目标原始数据。
本实施例提供的一种基于数据站点的数据集成抓取方法,无需人工支持,减少了人工成本,实现了基于用户需求和数据站点的数据的一次性抓取,提高了数据抓取的准确性。
具体地说,参考图1,图1为本发明实施例提供的一个基于数据站点的数据集成抓取方法的流程图。本发明实施例中提供了一种基于数据站点的数据集成抓取方法,包括如下步骤:
任务创建步骤S1,根据用户需求创建数据抓取任务。
在本实施例中,任务创建步骤S1具体包括:
一级任务创建步骤S11,根据用户需求创建一级数据抓取任务;
二级任务创建步骤S12,分解所述一级数据抓取任务,创建与所述一级数据抓取任务相对应的多个二级数据抓取任务。
其中,任务创建步骤S1中,还包括:
过滤步骤S13,在所述二级数据抓取任务创建过程中,当已有的所述二级数据抓取任务中包含待创建的所述二级数据抓取任务,则过滤掉待创建的所述二级数据抓取任务。
在本实施例中,在二级数据抓取任务创建过程中,当二级数据抓取任务中包含待创建的二级数据抓取任务,过滤掉二级数据抓取任务,当二级数据抓取任务中不包含待创建的二级数据抓取任务,则创建此二级数据抓取任务,此种方式可避免不同用户提交的需求有交集时重复访问数据站点的情况出现,既可以提高任务执行效率,也可以减少访问次数。
在具体应用中,例如用户需要从某一个数据站点获取品牌的相关数据,相关数据包括直播信息、对应主播信息、品牌销售信息、品牌对应商品销售趋势信息、直播评论信息及直播趋势信息,通过分析用户需求可见,品牌信息是共有需求,通过品牌信息创建一级数据抓取任务,一级数据抓取任务包括是否需要直播信息,是否需要主播信息,是否需要商品信息及是否需要评论信息等,分解一级数据抓取任务,创建与一级数据抓取任务相对应的多个二级数据抓取任务,其中,二级数据抓取任务包括直播信息、主播信息、商品信息及评论信息等。
任务调度步骤S2,调取所述数据抓取任务,并对所述数据抓取任务中的任务参数解析后,确定目标数据站点和数据抓取信息。
在具体应用中,调取其中一个二级数据抓取任务后,对调取到的二级数据抓取任务进行任务参数解析,确定目标数据站点和数据抓取信息,其中,数据抓取信息包括品牌、直播详情信息、主播详情信息等。
数据抓取步骤S3,基于所述目标数据站点和所述数据抓取信息,抓取目标原始数据。
在本实施例中,采用爬虫抓取目标原始数据。当确定好目标数据站点和数据抓取信息后,基于目标数据站点和数据抓取信息请求url,并向目标数据站点发起http请求,从而抓取目标原始数据。
数据存储步骤S4,将所述数据抓取任务、所述目标站点、所述数据抓取信息及所述目标原始数据存储于数据库中,并将解析后的所述目标原始数据存储至所述数据库中。
在本实施例中,将一级数据抓取任务、二级数据抓取任务、目标站点、数据抓取信息及目标原始数据均存储于mysql数据库中,同时将解析后的目标原始数据也存储至mysql数据库中。
统计分析步骤S5,统计分析解析后的所述目标原始数据,以获取数据抓取结果。
结果展示步骤S6,将所述数据抓取结果进行展示。
在本实施例中,将数据抓取结果展示给用户。
为减少数据站点的访问次数,本实施例中提供的基于数据站点的数据集成抓取方法还包括如下步骤:
任务判断步骤S7,解析所述任务参数后,判断是否需要创建所述二级数据抓取任务,当需要创建所述二级数据抓取任务时,则执行所述过滤步骤;否则,则继续执行所述任务调度步骤。
具体应用中,在进行二级数据抓取任务解析时,可能会解析出新的二级数据抓取任务,需重新写入二级数据抓取任务中,为减少数据站点的访问次数,判断是否需要创建二级数据抓取任务,当需要创建二级数据抓取任务时,则执行过滤步骤S13,当无需创建二级数据抓取任务时,则根据解析后的任务参数,确定目标数据站点和数据抓取信息。
信息匹配步骤S8,确定所述数据抓取信息后,将所述数据抓取信息与所述数据库进行匹配,当所述数据抓取信息与所述数据库匹配成功时,则基于所述数据库获取与所述数据抓取信息相对应的所述目标原始数据;当所述数据抓取信息与所述数据库匹配不成功时,则执行所述数据抓取步骤。
具体应用中,在确定好数据抓取信息后,需根据数据抓取信息和目标数据站点进行数据抓取时,会用到一些关键信息,需要对数据站点进行额外的请求才能获取到,为防止过度访问数据站点,在访问数据站点前,先将数据抓取信息与数据库进行匹配,当数据抓取信息与数据库匹配成功时,则基于数据库获取与数据抓取信息相对应的目标原始数据;当数据抓取信息与数据库匹配不成功时,则执行数据抓取步骤。例如,当抓取直播列表信息时,需用到用户ID对应的签名,如果每次都通过访问数据站点重新获取,则会产生访问浪费,因为接口访问次数有限,超出访问次数则无法访问,在数据抓取之前,通过信息匹配步骤,每天可以大幅度的减少用户信息访问量,满足更大的需求量。
本实施例提供的一种基于数据站点的数据集成抓取方法,无需人工支持,减少了人工成本,实现了基于用户需求和数据站点的数据的一次性抓取,提高了数据抓取的准确性。
参考图2,本实施例还提供一种实现上述所述的基于数据站点的数据集成抓取方法的***,包括:
任务创建单元,用于根据用户需求创建数据抓取任务。
其中,任务创建单元具体包括根据用户需求创建一级数据抓取任务,分解一级数据抓取任务,创建与一级数据抓取任务相对应的多个二级数据抓取任务。在二级数据抓取任务创建过程中,当已有的二级数据抓取任务中包含待创建的二级数据抓取任务,则过滤掉待创建的二级数据抓取任务,以此减少数据站点的访问次数。
任务调度单元,用于调取所述数据抓取任务,并对所述数据抓取任务中的任务参数解析后,确定目标数据站点和数据抓取信息。
其中,为减少数据站点的访问次数,在解析任务参数后,判断是否需要创建二级数据抓取任务,当需要创建二级数据抓取任务时,则执行任务创建单元;否则,则继续执行任务调度单元。
数据抓取单元,用于基于所述目标数据站点和所述数据抓取信息,抓取目标原始数据。
在本实施例中,采用爬虫抓取目标原始数据。其中,同样的,为减少数据站点的访问次数,在本实施例中,将数据抓取任务、目标站点、数据抓取信息及目标原始数据存储于数据库中,并将解析后的目标原始数据存储至数据库中,当在确定好数据抓取信息后,需根据数据抓取信息和目标数据站点进行数据抓取时,将数据抓取信息与数据库进行匹配,当数据抓取信息与数据库匹配成功时,则基于数据库获取与数据抓取信息相对应的目标原始数据;当数据抓取信息与数据库匹配不成功时,则执行数据抓取单元。
本实施例提供的一种基于数据站点的数据集成抓取方法,无需人工支持,减少了人工成本,实现了基于用户需求和数据站点的数据的一次性抓取,提高了数据抓取的准确性。
参考图3,本实施例还提供一种计算机设备,包括存储器12、处理器11以及存储在所述存储器12上并可在所述处理器11上运行的计算机程序,所述处理器11执行所述计算机程序时实现如上所述的基于数据站点的数据集成抓取方法。
设备可以包括处理器11以及存储有计算机程序指令的存储器12。具体地,上述处理器11可以包括中央处理器(CPU),或者特定集成电路(Application SpecificIntegrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器12可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器12可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器12可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器12可在数据处理装置的内部或外部。在特定实施例中,存储器12是非易失性(Non-Volatile)存储器。在特定实施例中,存储器12包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器12可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器11所执行的可能的计算机程序指令。
处理器11通过读取并执行存储器12中存储的计算机程序指令,以实现上述实施例中的任意一种基于数据站点的数据集成抓取方法。
在其中一些实施例中,计算机设备还可包括通信接口13和总线10。其中,参考图3,处理器11、存储器12、通信接口13通过总线10连接并完成相互间的通信。通信接口13用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口13还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线10包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线10包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线10可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、***组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线10可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于数据站点的数据集成抓取方法,其特征在于,包括如下步骤:
任务创建步骤,根据用户需求创建数据抓取任务;
任务调度步骤,调取所述数据抓取任务,并对所述数据抓取任务中的任务参数解析后,确定目标数据站点和数据抓取信息;
数据抓取步骤,基于所述目标数据站点和所述数据抓取信息,抓取目标原始数据。
2.根据权利要求1所述的基于数据站点的数据集成抓取方法,其特征在于,所述任务创建步骤中具体包括:
一级任务创建步骤,根据用户需求创建一级数据抓取任务;
二级任务创建步骤,分解所述一级数据抓取任务,创建与所述一级数据抓取任务相对应的多个二级数据抓取任务。
3.根据权利要求2所述的基于数据站点的数据集成抓取方法,其特征在于,所述任务创建步骤中,还包括:
过滤步骤,在所述二级数据抓取任务创建过程中,当已有的所述二级数据抓取任务中包含待创建的所述二级数据抓取任务,则过滤掉待创建的所述二级数据抓取任务。
4.根据权利要求2或3任一项所述的基于数据站点的数据集成抓取方法,其特征在于,还包括:
数据存储步骤,将所述数据抓取任务、所述目标站点、所述数据抓取信息及所述目标原始数据存储于数据库中,并将解析后的所述目标原始数据存储至所述数据库中。
5.根据权利要求3所述的基于数据站点的数据集成抓取方法,其特征在于,还包括:
任务判断步骤,解析所述任务参数后,判断是否需要创建所述二级数据抓取任务,当需要创建所述二级数据抓取任务时,则执行所述过滤步骤;否则,则继续执行所述任务调度步骤。
6.根据权利要求4所述的基于数据站点的数据集成抓取方法,其特征在于,还包括:
信息匹配步骤,确定所述数据抓取信息后,将所述数据抓取信息与所述数据库进行匹配,当所述数据抓取信息与所述数据库匹配成功时,则基于所述数据库获取与所述数据抓取信息相对应的所述目标原始数据;当所述数据抓取信息与所述数据库匹配不成功时,则执行所述数据抓取步骤。
7.根据权利要求4所述的基于数据站点的数据集成抓取方法,其特征在于,还包括:
统计分析步骤,统计分析解析后的所述目标原始数据,以获取数据抓取结果。
8.根据权利要求7所述的基于数据站点的数据集成抓取方法,其特征在于,还包括:
结果展示步骤,将所述数据抓取结果进行展示。
9.一种实现如权利要求1~8中任一项所述的基于数据站点的数据集成抓取方法的***,其特征在于,包括:
任务创建单元,用于根据用户需求创建数据抓取任务;
任务调度单元,用于调取所述数据抓取任务,并对所述数据抓取任务中的任务参数解析后,确定目标数据站点和数据抓取信息;
数据抓取单元,用于基于所述目标数据站点和所述数据抓取信息,抓取目标原始数据。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的基于数据站点的数据集成抓取方法。
CN202011369702.9A 2020-11-30 2020-11-30 基于数据站点的数据集成抓取方法、***及计算机设备 Pending CN112434205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011369702.9A CN112434205A (zh) 2020-11-30 2020-11-30 基于数据站点的数据集成抓取方法、***及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011369702.9A CN112434205A (zh) 2020-11-30 2020-11-30 基于数据站点的数据集成抓取方法、***及计算机设备

Publications (1)

Publication Number Publication Date
CN112434205A true CN112434205A (zh) 2021-03-02

Family

ID=74698806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011369702.9A Pending CN112434205A (zh) 2020-11-30 2020-11-30 基于数据站点的数据集成抓取方法、***及计算机设备

Country Status (1)

Country Link
CN (1) CN112434205A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069108A (zh) * 2015-08-07 2015-11-18 新浪网技术(中国)有限公司 基于PaaS***大数据查询方法及装置
CN105243159A (zh) * 2015-10-28 2016-01-13 福建亿榕信息技术有限公司 一种基于可视化脚本编辑器的分布式网络爬虫***
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
CN107145556A (zh) * 2017-04-28 2017-09-08 安徽博约信息科技股份有限公司 通用的分布式采集***
CN109325161A (zh) * 2018-09-11 2019-02-12 五八有限公司 舆情数据抓取方法、装置、设备及存储介质
CN109918557A (zh) * 2019-03-12 2019-06-21 厦门商集网络科技有限责任公司 一种网页数据爬取合并方法及计算机可读存储介质
CN110096666A (zh) * 2019-05-08 2019-08-06 上海泰豪迈能能源科技有限公司 数据处理的方法及装置
CN110555147A (zh) * 2018-03-30 2019-12-10 上海媒科锐奇网络科技有限公司 网站数据抓取方法、装置、设备及其介质
CN110765334A (zh) * 2019-09-10 2020-02-07 北京字节跳动网络技术有限公司 数据抓取方法、***、介质和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069108A (zh) * 2015-08-07 2015-11-18 新浪网技术(中国)有限公司 基于PaaS***大数据查询方法及装置
CN105243159A (zh) * 2015-10-28 2016-01-13 福建亿榕信息技术有限公司 一种基于可视化脚本编辑器的分布式网络爬虫***
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
CN107145556A (zh) * 2017-04-28 2017-09-08 安徽博约信息科技股份有限公司 通用的分布式采集***
CN110555147A (zh) * 2018-03-30 2019-12-10 上海媒科锐奇网络科技有限公司 网站数据抓取方法、装置、设备及其介质
CN109325161A (zh) * 2018-09-11 2019-02-12 五八有限公司 舆情数据抓取方法、装置、设备及存储介质
CN109918557A (zh) * 2019-03-12 2019-06-21 厦门商集网络科技有限责任公司 一种网页数据爬取合并方法及计算机可读存储介质
CN110096666A (zh) * 2019-05-08 2019-08-06 上海泰豪迈能能源科技有限公司 数据处理的方法及装置
CN110765334A (zh) * 2019-09-10 2020-02-07 北京字节跳动网络技术有限公司 数据抓取方法、***、介质和电子设备

Similar Documents

Publication Publication Date Title
CN108345642B (zh) 采用代理ip爬取网站数据的方法、存储介质和服务器
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
CN105608159B (zh) 数据缓存的方法和装置
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
EP3146698A1 (en) Method and system for acquiring web pages
TWI524302B (zh) 用以對至少一社交網路上之複數動態消息執行合併控制的方法、相對應裝置、以及相對應的電腦程式產品
CN110968765B (zh) 书籍搜索方法、计算设备及计算机存储介质
CN109600385B (zh) 一种访问控制方法及装置
CN110069693B (zh) 用于确定目标页面的方法和装置
CN111770106A (zh) 数据威胁分析的方法、装置、***、电子装置和存储介质
US20170177727A1 (en) Methods for analyzing web sites using web services and devices thereof
CN106850572B (zh) 目标资源的访问方法和装置
CN106104550A (zh) 网站信息提取装置、***、网站信息提取方法以及网站信息提取程序
CN114598597B (zh) 多源日志解析方法、装置、计算机设备及介质
CN113989058A (zh) 一种服务生成方法和装置
CN107885875B (zh) 检索词的同义变换方法、装置及服务器
US20140172874A1 (en) Intelligent analysis queue construction
CN112307386A (zh) 信息监控方法、***、电子设备及计算机可读存储介质
CN112434205A (zh) 基于数据站点的数据集成抓取方法、***及计算机设备
CN107508705B (zh) 一种http元素的资源树构建方法及计算设备
CN110990701A (zh) 书籍搜索方法、计算设备及计算机存储介质
CN113274736B (zh) 云游戏资源调度方法、装置、设备及存储介质
CN113535338A (zh) 用于数据接入的交互方法、***、存储介质及电子设备
CN113158044B (zh) 全媒体在线审读的方法、***、终端设备和存储介质
CN114490719A (zh) 一种数据查询方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination