CN111949850B - 多源数据的采集方法、装置、设备及存储介质 - Google Patents

多源数据的采集方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111949850B
CN111949850B CN202010819608.2A CN202010819608A CN111949850B CN 111949850 B CN111949850 B CN 111949850B CN 202010819608 A CN202010819608 A CN 202010819608A CN 111949850 B CN111949850 B CN 111949850B
Authority
CN
China
Prior art keywords
data
acquired
access
memory
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010819608.2A
Other languages
English (en)
Other versions
CN111949850A (zh
Inventor
张俊威
谢永恒
程强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202010819608.2A priority Critical patent/CN111949850B/zh
Publication of CN111949850A publication Critical patent/CN111949850A/zh
Application granted granted Critical
Publication of CN111949850B publication Critical patent/CN111949850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种多源数据的采集方法、装置、设备及存储介质。包括:根据待采集数据的数据源类型确定接入策略;根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。本发明实施例公开的多源数据的采集方法,针对不同的数据源确定对应的接入策略,基于确定的接入策略对待采集数据中的结构化数据转化为设定格式后发送至设定采集队列中,将待采集数据中的非结构化数据上传至设定存储器中,实现对多源异构数据的采集,提高数据采集的效率。

Description

多源数据的采集方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据采集技术领域,尤其涉及一种多源数据的采集方法、装置、设备及存储介质。
背景技术
随着大数据的快速发展,物联网以及互联网的快速发展引领信息行业走向了新的高潮,而数据采集作为信息产业的核心技术,针对多源异构的数据采集已经成为物联网以及互联网***的核心技术问题。
目前市场开源的数据采集***有:flume、datax、logstash等等,这些技术对于采集一些常见的结构化数据能够支持,但是对于一些非结构化数据以及特殊格式的结构化数据并不能很好的支持。大数据时代,信息的时效性有限,能在较短的时间内收集多源异构数据显得尤为重要。
发明内容
本发明实施例提供一种多源数据的采集方法、装置、设备及存储介质,可以实现对多源异构数据的采集,提高数据采集的效率。
第一方面,本发明实施例提供了一种多源数据的采集方法,包括:
根据待采集数据的数据源类型确定接入策略;
根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;
根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。
进一步地,在根据待采集数据的数据源类型确定接入策略之前,还包括:
根据各数据源类型配置任务参数,并确定所需采集的字段信息;
根据所述任务参数和所述字段信息生成各数据源分别对应的接入策略;
将所述接入策略上传至采集***中。
进一步地,根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,包括:
根据所述字段信息获取结构化数据中的关键词以及所述关键词对应的数值;
根据所述关键词和所述数值生成设定格式的数据。
进一步地,根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中,包括:
当非结构化数据的量达到第一设定值和/或采集的时长超过设定第二设定值时,将所述待采集数据中的非结构化数据上传至设定存储器中。
进一步地,在根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式之前,还包括:
根据所述接入策略确定所述待采集数据的类型;所述类型包括结构化数据和非结构化数据。
进一步地,还包括:
统计采集的结构化数据和非结构化数据的数量,获得采集量;
统计异常数据量;
统计数据输出量;所述数据输出量包括发送至所述设定采集队列中的数据量和上传至所述设定存储器中的数据量;
将所述采集量、异常数据量及所述数据输出量进行实时显示。
进一步地,所述设定采集队列为Kafka队列;所述设定存储器为HDFS。
第二方面,本发明实施例还提供了一种多源数据的采集装置,包括:
接入策略确定模块,用于根据待采集数据的数据源类型确定接入策略;
格式转化模块,用于根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;
数据存储模块,用于根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。
第三方面,本发明实施例还提供了一种计算机设备,所述设备包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例所述的多源数据的采集方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理装置执行时实现如本发明实施例所述的多源数据的采集方法。
本发明实施例提供了一种多源数据的采集方法、装置、设备及存储介质,首先根据待采集数据的数据源类型确定接入策略,然后根据接入策略将待采集数据中的结构化数据转化为设定格式,并将设定格式的数据发送至设定采集队列中,最后根据接入策略将待采集数据中的非结构化数据上传至设定存储器中。本发明实施例公开的多源数据的采集方法,针对不同的数据源确定对应的接入策略,基于确定的接入策略对待采集数据中的结构化数据转化为设定格式后发送至设定采集队列中,将待采集数据中的非结构化数据上传至设定存储器中,实现对多源异构数据的采集,提高数据采集的效率。
附图说明
图1是本发明实施例一中的一种多源数据的采集方法的流程图;
图2是本发明实施例二中的一种多源数据的采集装置的结构示意图;
图3是本发明实施例三中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种多源数据的采集方法的流程图,本实施例可适用于对不同数据源的数据进行采集的情况,该方法可以由多源数据的采集装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有多源数据的采集功能的设备中,该设备可以是服务器或服务器集群等电子设备。如图1所示,该方法具体包括如下步骤:
步骤110,根据待采集数据的数据源类型确定接入策略。
其中,数据源的类型可以包括数据块类型、FPT类型及Kafka类型等。接入策略可以根据数据源的类确定的,包括需要配置的任务参数及所需采集的字段信息等。例如:若数据源的类型为数据库类型,需要配置的参数包括URL、用户名及密码等。本实施例中,数据源类型与接入策略一一对应。
可选的,在根据待采集数据的数据源类型确定接入策略之前,还包括如下步骤:根据各数据源类型配置任务参数,并确定所需采集的字段信息;根据任务参数和字段信息生成各数据源分别对应的接入策略;将接入策略上传至采集***中。
其中,将接入策略上传至采集***中的过程可以是通过采集***的web页面上传接入策略。
具体的,采集数据时,首先判断数据源的类型,然后根据数据源类型选择对应的接入策略,以根据接入策略采集数据。
步骤120,根据接入策略将待采集数据中的结构化数据转化为设定格式,并将设定格式的数据发送至设定采集队列中。
其中,设定采集队列可以是Kafka队列。接入策略中包含判断数据类型的策略。本实施例中,在根据接入策略将待采集数据中的结构化数据转化为设定格式之前,还包括根据接入策略确定待采集数据是结构化数据还是非结构化数据的步骤。
具体的,根据接入策略将待采集数据中的结构化数据转化为设定格式的方式可以是:根据字段信息获取结构化数据中的关键词以及关键词对应的数值;根据关键词和数值生成设定格式的数据。
其中,设定格式可以是k-value格式。本实施例中,通过接入策略拿到key,然后抽取的数据值为value,组成k-v格式的数据。将结构化数据发送至Kafka队列,方便后续进行处理以及提取分析。
步骤130,根据接入策略将待采集数据中的非结构化数据上传至设定存储器中。
其中,设定存储器可以是HDFS。具体的,根据接入策略将待采集数据中的非结构化数据上传至设定存储器中的方式可以是:当非结构化数据的量达到第一设定值和/或采集的时长超过设定第二设定值时,将待采集数据中的非结构化数据上传至设定存储器中。
具体的,通过Hadoop的Mapfile进行合并后上传至HDFS中。
可选的,该***还有数据接入统计的功能以及任务状态查询功能等。该方法还包括如下步骤:统计采集的结构化数据和非结构化数据的数量,获得采集量;统计异常数据量;统计数据输出量;数据输出量包括发送至设定采集队列中的数据量和上传至设定存储器中的数据量;将采集量、异常数据量及数据输出量进行实时显示。
本实施例的技术方案,首先根据待采集数据的数据源类型确定接入策略,然后根据接入策略将待采集数据中的结构化数据转化为设定格式,并将设定格式的数据发送至设定采集队列中,最后根据接入策略将待采集数据中的非结构化数据上传至设定存储器中。本发明实施例公开的多源数据的采集方法,针对不同的数据源确定对应的接入策略,基于确定的接入策略对待采集数据中的结构化数据转化为设定格式后发送至设定采集队列中,将待采集数据中的非结构化数据上传至设定存储器中,实现对多源异构数据的采集,提高数据采集的效率。
实施例二
图2为本发明实施例二提供的一种多源数据的采集装置的结构示意图。如图2所示,该装置包括:接入策略确定模块210,格式转化模块220和数据存储模块230。
接入策略确定模块210,用于根据待采集数据的数据源类型确定接入策略;
格式转化模块220,用于根据接入策略将待采集数据中的结构化数据转化为设定格式,并将设定格式的数据发送至设定采集队列中;
数据存储模块230,用于根据接入策略将待采集数据中的非结构化数据上传至设定存储器中。
可选的,还包括:接入策略生成模块,用于:
根据各数据源类型配置任务参数,并确定所需采集的字段信息;
根据任务参数和字段信息生成各数据源分别对应的接入策略;
将接入策略上传至采集***中。
可选的,格式转化模块220,还用于:
根据字段信息获取结构化数据中的关键词以及关键词对应的数值;
根据关键词和数值生成设定格式的数据。
可选的,数据存储模块230,还用于:
当非结构化数据的量达到第一设定值和/或采集的时长超过设定第二设定值时,将待采集数据中的非结构化数据上传至设定存储器中。
可选的,还包括:数据类型确定模块,用于:
根据接入策略确定待采集数据的类型;类型包括结构化数据和非结构化数据。
可选的,还包括:统计模块,用于:
统计采集的结构化数据和非结构化数据的数量,获得采集量;
统计异常数据量;
统计数据输出量;数据输出量包括发送至设定采集队列中的数据量和上传至设定存储器中的数据量;
将采集量、异常数据量及数据输出量进行实时显示。
可选的,设定采集队列为Kafka队列;设定存储器为HDFS。
上述装置可执行本发明前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。
实施例三
图3为本发明实施例三提供的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的计算机设备312的框图。图3显示的计算机设备312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备312是典型的多源数据的采集功能的计算设备。
如图3所示,计算机设备312以通用计算设备的形式表现。计算机设备312的组件可以包括但不限于:一个或者多个处理器316,存储装置328,连接不同***组件(包括存储装置328和处理器316)的总线318。
总线318表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及***组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备312典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置328可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory,RAM)330和/或高速缓存存储器332。计算机设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***334可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储装置328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块326的程序336,可以存储在例如存储装置328中,这样的程序模块326包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块326通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备312也可以与一个或多个外部设备314(例如键盘、指向设备、摄像头、显示器324等)通信,还可与一个或者多个使得用户能与该计算机设备312交互的设备通信,和/或与使得该计算机设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且,计算机设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器320通过总线318与计算机设备312的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备312使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)***、磁带驱动器以及数据备份存储***等。
处理器316通过运行存储在存储装置328中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的多源数据的采集方法。
实施例四
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理装置执行时实现如本发明实施例中的数据库数据的计数方法。本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:根据待采集数据的数据源类型确定接入策略;根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种多源数据的采集方法,其特征在于,包括:
根据待采集数据的数据源类型确定接入策略;
根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;
根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中;
统计采集的所述结构化数据和所述非结构化数据的数量,获得采集量;
统计异常数据量;
统计数据输出量;所述数据输出量包括发送至所述设定采集队列中的数据量和上传至所述设定存储器中的数据量;
将所述采集量、异常数据量及所述数据输出量进行实时显示。
2.根据权利要求1所述的方法,其特征在于,在根据待采集数据的数据源类型确定接入策略之前,还包括:
根据各数据源类型配置任务参数,并确定所需采集的字段信息;
根据所述任务参数和所述字段信息生成各数据源分别对应的接入策略;
将所述接入策略上传至采集***中。
3.根据权利要求2所述的方法,其特征在于,根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,包括:
根据所述字段信息获取结构化数据中的关键词以及所述关键词对应的数值;
根据所述关键词和所述数值生成设定格式的数据。
4.根据权利要求1所述的方法,其特征在于,根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中,包括:
当非结构化数据的量达到第一设定值和/或采集的时长超过设定第二设定值时,将所述待采集数据中的非结构化数据上传至设定存储器中。
5.根据权利要求1所述的方法,其特征在于,在根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式之前,还包括:
根据所述接入策略确定所述待采集数据的类型;所述类型包括结构化数据和非结构化数据。
6.根据权利要求1所述的方法,其特征在于,所述设定采集队列为Kafka队列;所述设定存储器为HDFS。
7.一种多源数据的采集装置,其特征在于,包括:
接入策略确定模块,用于根据待采集数据的数据源类型确定接入策略;
格式转化模块,用于根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;
数据存储模块,用于根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中;
统计模块,用于统计采集的所述结构化数据和所述非结构化数据的数量,获得采集量;
统计异常数据量;
统计数据输出量;所述数据输出量包括发送至设定采集队列中的数据量和上传至所述设定存储器中的数据量;
将所述采集量、异常数据量及所述数据输出量进行实时显示。
8.一种计算机设备,其特征在于,所述设备包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-6任一所述的多源数据的采集方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现如权利要求1-6中任一所述的多源数据的采集方法。
CN202010819608.2A 2020-08-14 2020-08-14 多源数据的采集方法、装置、设备及存储介质 Active CN111949850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010819608.2A CN111949850B (zh) 2020-08-14 2020-08-14 多源数据的采集方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010819608.2A CN111949850B (zh) 2020-08-14 2020-08-14 多源数据的采集方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111949850A CN111949850A (zh) 2020-11-17
CN111949850B true CN111949850B (zh) 2024-03-22

Family

ID=73342345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010819608.2A Active CN111949850B (zh) 2020-08-14 2020-08-14 多源数据的采集方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111949850B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112433998B (zh) * 2020-11-20 2022-01-21 广东电网有限责任公司佛山供电局 一种基于电力***的多源异构数据采集汇聚***及方法
CN112650757A (zh) * 2020-12-30 2021-04-13 创业慧康科技股份有限公司 结构化与非结构化数据的存储方法、装置、设备及介质
CN114791840B (zh) * 2021-01-26 2023-09-22 武汉斗鱼网络科技有限公司 数据组装方法、装置、电子设备及介质
CN115391413A (zh) * 2022-10-26 2022-11-25 中国电子科技集团公司第十五研究所 一种多源数据接入汇聚方法及装置
CN117785977A (zh) * 2023-12-27 2024-03-29 国网江苏省电力有限公司信息通信分公司 元数据的采集方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590749A (zh) * 2017-09-07 2018-01-16 北京国电通网络技术有限公司 一种配用电数据的处理方法及***
CN108121508A (zh) * 2017-12-15 2018-06-05 华中师范大学 基于教育大数据的多源异构数据采集***及处理方法
CN108491499A (zh) * 2018-03-20 2018-09-04 苏州思必驰信息科技有限公司 数据采集方法、数据采集平台、客户端及业务服务器
CN111078765A (zh) * 2019-11-13 2020-04-28 北京中盾安全技术开发公司 基于Hadoop体系架构的视图库***及其构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590749A (zh) * 2017-09-07 2018-01-16 北京国电通网络技术有限公司 一种配用电数据的处理方法及***
CN108121508A (zh) * 2017-12-15 2018-06-05 华中师范大学 基于教育大数据的多源异构数据采集***及处理方法
CN108491499A (zh) * 2018-03-20 2018-09-04 苏州思必驰信息科技有限公司 数据采集方法、数据采集平台、客户端及业务服务器
CN111078765A (zh) * 2019-11-13 2020-04-28 北京中盾安全技术开发公司 基于Hadoop体系架构的视图库***及其构建方法

Also Published As

Publication number Publication date
CN111949850A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111949850B (zh) 多源数据的采集方法、装置、设备及存储介质
CN110008045B (zh) 微服务的聚合方法、装置、设备及存储介质
CN110362544B (zh) 日志处理***、日志处理方法、终端及存储介质
CN107370806B (zh) Http状态码监控方法、装置、存储介质和电子设备
CN110457256A (zh) 数据存储方法、装置、计算机设备及存储介质
US11188443B2 (en) Method, apparatus and system for processing log data
WO2014173151A1 (en) Method, device and terminal for data processing
CN111258978B (zh) 一种数据存储的方法
CN113485962B (zh) 日志文件的存储方法、装置、设备和存储介质
CN111985831A (zh) 云计算资源的调度方法、装置、计算机设备及存储介质
CN115297183B (zh) 一种数据处理方法、装置、电子设备和存储介质
CN112907942A (zh) 基于边缘计算的车辆调度方法、装置、设备和介质
CN117131281B (zh) 舆情事件处理方法、装置、电子设备和计算机可读介质
CN111930385A (zh) 数据采集方法、装置、设备及存储介质
CN111666449B (zh) 视频检索方法、装置、电子设备和计算机可读介质
CN115309802A (zh) 用户分布热力图获取方法、装置、电子设备及存储介质
CN110955709B (zh) 一种数据的处理方法、装置及电子设备
CN114265966A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN113919446A (zh) 多媒体资源的模型训练及相似度确定方法和装置
CN112818139A (zh) 应用于安防监控的边缘计算数据管理方法、装置和设备
KR101878291B1 (ko) 에너지 빅데이터 관리 시스템 및 그 방법
CN114201493B (zh) 数据接入方法、装置、设备以及存储介质
CN113609131B (zh) 一种数据存储方法、装置、设备及存储介质
US11835989B1 (en) FPGA search in a cloud compute node
CN111913737B (zh) 一种数据服务接口的构建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant