CN112764908B - 网络数据采集处理方法、装置和电子设备 - Google Patents

网络数据采集处理方法、装置和电子设备 Download PDF

Info

Publication number
CN112764908B
CN112764908B CN202110106093.6A CN202110106093A CN112764908B CN 112764908 B CN112764908 B CN 112764908B CN 202110106093 A CN202110106093 A CN 202110106093A CN 112764908 B CN112764908 B CN 112764908B
Authority
CN
China
Prior art keywords
data
file
scheduling
network data
target network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110106093.6A
Other languages
English (en)
Other versions
CN112764908A (zh
Inventor
刘龙强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING TIP TECHNOLOGY CO LTD
Original Assignee
BEIJING TIP TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING TIP TECHNOLOGY CO LTD filed Critical BEIJING TIP TECHNOLOGY CO LTD
Priority to CN202110106093.6A priority Critical patent/CN112764908B/zh
Publication of CN112764908A publication Critical patent/CN112764908A/zh
Application granted granted Critical
Publication of CN112764908B publication Critical patent/CN112764908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了网络数据采集处理方法、装置和电子设备,该方法包括:获取目标网络数据;根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;通过所述调度控制文件控制将所述调度数据文件中的数据信息进行解析后存储在文件队列中。本发明网络数据采集存储效率高,资源利用率高。

Description

网络数据采集处理方法、装置和电子设备
技术领域
本发明实施例涉及网络数据采集领域,具体涉及网络数据采集处理方法、装置和电子设备。
背景技术
在网络数据采集时,需要多任务采集多个站点中的数据,多采用分布式来提升数据采集效率,即一个采集调度、多个采集爬虫来实现多个站点任务的同时采集。
为了实现网络数据采集,需要选择站点中比较重要的、出度的URL作为被采集网站的入口地址(称为种子URL),爬虫将从这些种子URL开始采集,网页数据采集回来后,需要再次解析页面中数据元素,提取出页面中的URL再次进行采集。这样一个URL能解析出一批新的URL,如此反复进行,直到站点中全部URL采集完成。
可以把站点内网页之间互相连接的关系结构视为一个森林,每个种子URL对应着一片森林的入口,通过这个入口可以发现整片森林。所以在网络数据采集的过程中,经常遇到URL爆发式增长,如何管理、保存与分配这些URL资源,实现爬虫与采集任务的合理调度具有重要意义。
目前,对管理、保存与分配这些URL资源的的方式存在问题:
1、没有调度,一个站点一个爬虫独立采集,将URL任务分散在爬虫上;各自独立工作,无法实现资源合理分配与多任务、多站点同采集调度。
2、使用队列保存待采集的URL数据。使用内存较大,内存不够时易造成数据丢失,同时应用退出或***重启会造成缓存数据丢失。
3、使用数据库缓存URL地址数据。调度效率不高,每个URL调度需要添加、删除数据库记录一次,影响数据采集效率。
4、使用kafka等中间件缓存URL地址数据。使用kafka等中间件缓存URL地址数据。
发明内容
本发明实施例的目的在于提供网络数据采集处理方法、装置和电子设备,用以解决现有数据采集存储时出现的问题。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种网络数据采集处理方法,包括:
获取目标网络数据;
根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;
通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中。
根据本发明的一个实施例,通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中,包括:
所述调度控制文件根据资源的优先等级和资源序号将所述调度数据文件中的数据信息存储到所述文件队列中。
根据本发明的一个实施例,根据所述目标网络数据生成调度数据文件和调度控制文件,包括:
将所述目标网络数据解析的解析结果存入缓存中;
当所述缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据所述目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件。
根据本发明的一个实施例,根据所述目标网络数据生成调度数据文件和调度控制文件,还包括:
对所述目标网络数据的解析结果进行分类;
将同一类型的解析结果写入到多个调度数据文件中。
第二方面,本发明实施例还提供一种网络数据采集处理装置,包括:
获取模块,用于获取目标网络数据;
生成模块,用于根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;
存储模块,用于通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中。
根据本发明的一个实施例,所述调度控制文件根据资源的优先等级和资源序号将所述调度数据文件中的数据信息通过所述存储模块存储到所述文件队列中。
根据本发明的一个实施例,还包括缓存模块,所述缓存模块用于缓存所述目标网络数据的解析结果;当所述缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据所述目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件。
根据本发明的一个实施例,所述生成模块还用于对所述目标网络数据的解析结果进行分类;将同一类型的解析结果写入到多个调度数据文件中。
第三方面,本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的网络数据采集处理方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于被执行如第一方面所述的网络数据采集处理方法。
本发明实施例提供的技术方案至少具有如下优点:
本发明实施例提供的网络数据采集处理方法、装置和电子设备,以二进制文件流存储数据,并以顺序、单向的方式操作(包括读取和写入)数据的资源调度来实现对URL资源的保存、分配与管理,从而实现网络数据采集存储效率高,资源利用率高。
附图说明
图1为本发明实施例的网络数据采集处理方法的流程图。
图2为本发明实施例的网络数据采集处理装置的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
在本发明的描述中,需要理解的是,术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
图1为本发明实施例的网络数据采集处理方法的流程图。如图1所示,本发明实施例的网络数据采集处理方法,包括:
S1:获取目标网络数据。
具体地,通过网络爬虫使用预定的算法获取指定的网络资源作为目标网络资源。其中,目标网络资源可以是某个网站中某一类型的资源,例如A网站的新闻资源。
S2:根据目标网络数据生成调度数据文件和调度控制文件,其中,调度数据文件用于存储需要采集的任务。调度数据文件中的每条记录包括数据长度和数据信息。调度控制文件用于控制调度数据文件。调度控制文件包括数据来源、优先等级和数据读取相关信息。
在本发明的一个实施例中,步骤S2包括:将目标网络数据解析的解析结果存入缓存中;当缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件。
具体地,解析程序在解析数据时会对解析结果进行缓存,并以特定方式触发缓存保存至文件。启动解析程序对调度数据文件的解析条件包括两种,一种是当缓存中的记录数达到预设数据阈值,另一种是当缓存时长超过预设时间阈值。
采集调度时,本实施例以站点为基本单位。在站点之上,再对站点进行一个分组,如资讯、门户、论坛等,称之为任务组。在做任务调度时(包括写入与读取)都需要明确任务组与所属站点两个参数。以任务组+所属站点来归类任务,同一类型的任务包含一个调度控制文件与多个调度数据文件,拥有相同的命名前缀(如任务组、所属站点等)。
控制调度文件命名规则,用于实现同类资下的数据存储、资源分配以及任务调试等。
调度控制文件是对调度数据文件进行管理,实现对任务的调度,其特点是数据量小,使用频率高,在调度使用时经常加载到内存缓存起来以提升效率。调度控制文件的内容包括数据头部与数据记录两部分。其中,数据头包括任务组和所属站点等。数据记录包括优先等级、任务序号、记录总数、已读记录和读取位置。已读记录和读取位置可以标识出下次读取记录时,应该从哪个位置开始读取记录,从而可以避免重复读取记录,并且可以实现记录的快速读取。
调度数据文件命名规则,一个调度数据文件存在有初始化(记录写入)、等待调度与调度读取三种状态,同一时间内一个文件只属于其中的一种状态(即在文件初始化写入时,不允许进行任务调度文件读取)。一个调度数据文件用来保存一批需要调度采集的任务,其内容格式简单,一次写入一条记录,每条记录包含数据长度与数据内容两部分。数据长度用于表示对应的数据内容所占的字节数。
在本发明的一个实施例中,步骤S2还包括:对目标网络数据进行分类;将同一类型的网络数据写入到多个调度数据文件中。
具体地,当一个调度数据文件中的任务被调度完后,该文件已经失去价值,***对调度数据文件进行回收,而一个大的调度数据文件会包含资源过多而不利于回收。为了实现资源的有效回收,本实施例将同一类型的任务资源写入到多个调度数据文件中,从而实现资源的有效回收。
在本发明的一个实施例中,调度控制文件根据资源的优先等级和资源序号将调度数据文件中的数据信息进行解析后存储在文件队列中。
为了实现多个调度数据文件的方案,本实施例引入了任务序号,用于管理同类型的资源。初始状态,任务序号默认是1,下次使用时再加1,当超过允许的最大值N(例如1000)后,将再次被置1,这样1到N重复循环使用,其数据的位数将根据需要调度数据文件个数在确定,以保证数据写入时不会覆盖同名有效数据文件。
在做数据采集时,每类资源的重要程度也存在差异,如网页、word文档等比较重要,更为关注,如图片、样式文件等关注度会小一点,这样就需要对采集的URL资源有优先等级的区分。本实施例把资源任务等级划分为9个优先等级,分别是1-9,数字越大优先等级越高。
在本实施例中,由于调度控制文件内容小,使用频繁,为了提升效率,***启动时会将数据缓存起来,使用时直接从缓存中获取。控制数据中保存有当前类型每个优先等级的调度数据文件列表、使用序号与读写状态信息,调度算法根据调度控制文件的参数计算出当前资源的优先等级,再根据调度控制文件的数据头部获取当前等的任务序号及写入文件中的记录总数,当超出单个文件的最大记录数后,任务序号是一个递增值,同时记录总数重新置0,实现一种类型的调度数据保存在同类型的多个不同文件中。
在通过调度控制文件计算出调度数据文件后,就可以向调度数据文件写入数据了,调度数据文件在写入记录数据时,先写入数据长度,在写操作时,会循环执行如下操作:将数据记录序列化,生成记录流;计算生成记录流的长度;向文件写入数据长度;向调度数据文件写入数据内容。
S3:通过调度控制文件控制将调度数据文件中的数据信息存储在文件队列中。
具体地,从调度数据文件中读取URL记录,读取时根据据指定的任务组与所属站点两个参数,确定加载那个类型的任务记录。从缓存中加载当前类型的调度控制数据,计算出当前任务的调度数据文件;计算时先列表出当前类型任务下所有的调度数据文件,然后对文件以优先等级降序,任务序号升序完成排序后,取出第一个文件进行任务获取。
确定完调度数据文件后,记录读取比较简单,只需按照约定格式读取数据返回,其实现步骤如下:读取记录位置,读取当前长度数据,将数据反序列化。
本发明实施例提供的网络数据采集处理方法,以二进制文件流存储数据,并以顺序、单向的方式操作(包括读取和写入)数据的资源调度来实现对URL资源的保存、分配与管理,从而实现网络数据采集存储效率高,资源利用率高。
图2为本发明实施例的网络数据采集处理装置的结构框图。如图2所示,本发明实施例的网络数据采集处理装置,包括:获取模块100、生成模块200和存储模块300。
其中,获取模块100用于获取目标网络数据。生成模块200用于根据目标网络数据生成调度数据文件和调度控制文件。其中,调度数据文件用于存储需要采集的任务。调度数据文件中的每条记录包括数据长度和数据信息。调度控制文件用于控制调度数据文件。调度控制文件包括数据来源、优先等级和数据读取相关信息。存储模块300用于通过调度控制文件控制将调度数据文件中的数据信息存储到文件队列中。
在本发明的一个实施例中,调度控制文件根据资源的优先等级和资源序号将调度数据文件中的数据信息进行解析后通过存储模块存储在文件队列中。
在本发明的一个实施例中,网络数据采集处理装置还包括缓存模块。缓存模块用于缓存目标网络数据的解析结果。当缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件。
在本发明的一个实施例中,生成模块200还用于对所述目标网络数据的解析结果进行分类;将同一类型的解析结果写入到多个调度数据文件中。
需要说明的是,本发明实施例的网络数据采集处理装置的具体实施方式与本发明实施例的网络数据采集处理方法的具体实施方式类似,具体参见网络数据采集处理方法部分的描述,为了减少冗余,不做赘述。
另外,本发明实施例的网络数据采集处理装置的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的网络数据采集处理方法。
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的网络数据采集处理方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (9)

1.一种网络数据采集处理方法,其特征在于,包括:
获取目标网络数据,将所述目标网络数据解析的解析结果存入缓存中;
当所述缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据所述目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件;
根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;
通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中。
2.根据权利要求1所述的网络数据采集处理方法,其特征在于,通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中,包括:
所述调度控制文件根据资源的优先等级和资源序号将所述调度数据文件中的数据信息存储在所述文件队列中。
3.根据权利要求1所述的网络数据采集处理方法,其特征在于,根据所述目标网络数据生成调度数据文件和调度控制文件,还包括:
对所述目标网络数据的解析结果进行分类;
将同一类型的解析结果写入到多个调度数据文件中。
4.一种网络数据采集处理装置,其特征在于,包括:
获取模块,用于获取目标网络数据,将所述目标网络数据解析的解析结果存入缓存中;当所述缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据所述目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件;
生成模块,用于根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;
存储模块,用于通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中。
5.根据权利要求4所述的网络数据采集处理装置,其特征在于,所述调度控制文件根据资源的优先等级和资源序号将所述调度数据文件中的数据信息通过所述存储模块存储到所述文件队列中。
6.根据权利要求4所述的网络数据采集处理装置,其特征在于,还包括缓存模块,所述缓存模块用于缓存所述目标网络数据的解析结果;当所述缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据所述目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件。
7.根据权利要求6所述的网络数据采集处理装置,其特征在于,所述生成模块还用于对所述目标网络数据的解析结果进行分类;将同一类型的解析结果写入到多个调度数据文件中。
8.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-3任一项所述的网络数据采集处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-3任一项所述的网络数据采集处理方法。
CN202110106093.6A 2021-01-26 2021-01-26 网络数据采集处理方法、装置和电子设备 Active CN112764908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110106093.6A CN112764908B (zh) 2021-01-26 2021-01-26 网络数据采集处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110106093.6A CN112764908B (zh) 2021-01-26 2021-01-26 网络数据采集处理方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN112764908A CN112764908A (zh) 2021-05-07
CN112764908B true CN112764908B (zh) 2024-01-26

Family

ID=75707425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110106093.6A Active CN112764908B (zh) 2021-01-26 2021-01-26 网络数据采集处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112764908B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101277272A (zh) * 2008-05-16 2008-10-01 北京航空航天大学 一种海量广播数据入库的实现方法
CN103559217A (zh) * 2013-10-17 2014-02-05 北京航空航天大学 一种面向异构数据库的海量组播数据入库实现方法
CN106020986A (zh) * 2016-05-26 2016-10-12 中国建设银行股份有限公司 一种数据处理方法及装置
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及***
CN107870928A (zh) * 2016-09-26 2018-04-03 上海泓智信息科技有限公司 文件读取方法和装置
CN109840298A (zh) * 2018-12-29 2019-06-04 中国科学院计算技术研究所 大规模网络数据的多信息来源采集方法和***
CN110704381A (zh) * 2019-09-06 2020-01-17 平安城市建设科技(深圳)有限公司 数据解析方法、装置及存储介质
CN111221744A (zh) * 2020-04-23 2020-06-02 杭州海康威视数字技术股份有限公司 数据采集方法、装置及电子设备
CN111241447A (zh) * 2020-01-13 2020-06-05 浙江省北大信息技术高等研究院 一种网页数据采集方法、***及存储介质
CN111367925A (zh) * 2020-02-27 2020-07-03 深圳壹账通智能科技有限公司 数据动态实时更新方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7769742B1 (en) * 2005-05-31 2010-08-03 Google Inc. Web crawler scheduler that utilizes sitemaps from websites
US8935389B2 (en) * 2011-05-17 2015-01-13 Guavus, Inc. Method and system for collecting and managing network data

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101277272A (zh) * 2008-05-16 2008-10-01 北京航空航天大学 一种海量广播数据入库的实现方法
CN103559217A (zh) * 2013-10-17 2014-02-05 北京航空航天大学 一种面向异构数据库的海量组播数据入库实现方法
CN106020986A (zh) * 2016-05-26 2016-10-12 中国建设银行股份有限公司 一种数据处理方法及装置
CN107870928A (zh) * 2016-09-26 2018-04-03 上海泓智信息科技有限公司 文件读取方法和装置
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及***
CN109840298A (zh) * 2018-12-29 2019-06-04 中国科学院计算技术研究所 大规模网络数据的多信息来源采集方法和***
CN110704381A (zh) * 2019-09-06 2020-01-17 平安城市建设科技(深圳)有限公司 数据解析方法、装置及存储介质
CN111241447A (zh) * 2020-01-13 2020-06-05 浙江省北大信息技术高等研究院 一种网页数据采集方法、***及存储介质
CN111367925A (zh) * 2020-02-27 2020-07-03 深圳壹账通智能科技有限公司 数据动态实时更新方法、装置及存储介质
CN111221744A (zh) * 2020-04-23 2020-06-02 杭州海康威视数字技术股份有限公司 数据采集方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"The Implementation of Crawling News Page Based on Incremental Web Crawler";Zejian Shi;《2016 4th Intl Conf on Applied Computing and Information Technology/3rd Intl Conf on Computational Science/Intelligence and Applied Informatics/1st Intl Conf on Big Data, Cloud Computing, Data Science & Engineering (ACIT-CSII-BCD)》;全文 *
"主题爬虫搜索策略的设计与实现 ";田磊;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 *
基于众包的社交网络数据采集模型设计与实现;高梦超;胡庆宝;程耀东;周旭;李海波;杜然;;计算机工程(第04期);全文 *

Also Published As

Publication number Publication date
CN112764908A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
US8185880B2 (en) Optimizing heap memory usage
Cormode et al. Set cover algorithms for very large datasets
DE102013206744A1 (de) Deduplizierende speicherung mit verbesserter erkennung von häufigen blöcken
CN109656779A (zh) 内存监控方法、装置、终端和存储介质
CN111177271B (zh) kafka数据持久化到hdfs的数据存储方法、装置、计算机设备
CN111061752B (zh) 数据处理方法、装置及电子设备
CN111324427A (zh) 一种基于dsp的任务调度方法及装置
CN113760189B (zh) 载荷数据填充存储方法和***
US8972629B2 (en) Low-contention update buffer queuing for large systems
CN112148736B (zh) 缓存数据的方法、设备及存储介质
CN108829345B (zh) 日志文件的数据处理方法和终端设备
CN114896215A (zh) 元数据的存储方法及装置
CN113886281A (zh) 一种嵌入式nor flash芯片的数据存储管理方法
CN115617255A (zh) 缓存文件的管理方法和管理装置
CN112764908B (zh) 网络数据采集处理方法、装置和电子设备
CN111694806A (zh) 一种事务日志的缓存方法、装置、设备和存储介质
CN111752941B (zh) 一种数据存储、访问方法、装置、服务器及存储介质
CN109800184B (zh) 针对小块输入的缓存方法、***、装置及可存储介质
CN111858393A (zh) 内存页面管理方法、内存页面管理装置、介质与电子设备
CN113626483B (zh) 一种填写表单的前端缓存方法、***、设备及存储介质
CN106371770B (zh) 数据写入方法及装置
CN114116790A (zh) 数据处理的方法及装置
US11003578B2 (en) Method and system for parallel mark processing
CN110888588B (zh) 快闪记忆体控制器及相关的访问方法及电子装置
CN116303125B (zh) 请求调度方法、缓存、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant